4月愚人的骗局可以为发现“假新闻”文章提供语言线索,因为幽默欺骗和恶意故事中使用的语言的相似之处。
来自英国兰开斯特大学的研究人员编制了4月500多个愚人节的数据集,这些文章来自超过370个网站,并编写了14多年。
他们发现,媒体网点和假新闻故事发布的幽默愚人节的书面结构中存在相似之处。
“愚人节的恶作剧是非常有用的,因为他们向我们提供了一个可验证的欺骗性文本,让我们有机会了解作者将虚构伪装为事实账户的东西时使用的语言技术,”来自兰卡斯特大学的Edward Dealden表示。
“通过观察四月愚人的语言并将它们与假新闻故事进行比较,我们可以更好地了解了作者使用的作者使用的语言,”奥斯特登说。
4月愚人节对与同期写作的正版新闻文章的欺骗文本的比较显示了风格差异。
研究人员专注于文本内的特定功能,例如使用的细节量,模糊性,写作风格的形式和语言的复杂性。
然后,他们将4月愚人的故事与“假新闻”数据集进行比较,发现了许多类似的特征。
这些文章倾向于含有更复杂的语言,更容易阅读难度,而且比真正的新闻更长的句子。
关于新闻报道的重要细节,例如名称,地方,日期和时间,被发现在4月份的傻瓜的恶作剧和假新闻中少频繁使用。研究人员说,第一人称代词,如“我们”,也是四月愚人节和假新闻的突出特色。
该团队还创建了一台机器学习“分类器”以确定文章是否是愚人节的恶作剧,假新闻或真正的新闻故事。
分类器在识别4月愚人节和72%的识别假新闻报道的72%方面取得了75%的准确性。
当分类器在4月份愚蠢的恶作剧培训并设置识别假新闻的任务时,它记录了超过65%的准确性。
兰卡斯特大学的Alistair Baron说:“在文本中查看文本中的细节和复杂性是至关重要的,”兰开斯特大学的Alistair Baron说。
“虽然存在许多差异,但我们的结果表明,愚人节和假新闻文章分享了一些类似的特征,主要涉及结构性复杂性,”Baron说。
“我们的调查结果表明,不同形式的诽谤和探索这些相似之处有一定的特征可以为未来的欺骗性新闻故事提供重要的见解,”他说。