NSU研究人员证实:不同语种识别作者风格所需文本量相近

该研究通过团队开发的方法证明,识别作者风格所需的最小文本量在俄语、英语、汉语以及埃塞俄比亚的阿姆哈拉语中大致相同。

这些语言分属差异极大的语系,甚至直接比较其文本长度也存在困难。例如,俄语字母与汉字无法简单对应,因为单个汉字往往对应俄语的一个词,有时甚至相当于一个完整的句子。鲍里斯·里亚布科指出,值得注意的是,在本研究中,所有语言的文本规模均以千字节(KB)为单位进行度量,从而实现了单位的统一。

值得补充的是,该论文的两位作者——来自埃塞俄比亚的耶舍瓦斯·格塔丘·卢卢和来自中国的韩云飞(Han Y.)——均为新南威尔士大学信息技术学院(FIT)的研究生,其导师为鲍里斯·里亚布科教授。该论文于10月发表在一本位列国际期刊引用频次前25%(Q1分区的期刊上,并且从阅读数据来看,已引起了广泛的学术关注。