Nature起底中国论文造假,问题普遍性影响中国学术信誉

2021年3月27日 15:29:18 来源: AI科技评论
收藏到BLOG

  3月23日,nature发布了一篇标题为“The fight against fake-paper factories that churn out sham science”的文章,讲述了学术打假人与论文造假之间的“功与防”。

  文章中称“从去年一月份开始,Nature杂志已经撤回了370篇论文,而且数量目前还在增多,这些论文全部来自中国,大多数发表在3年前,且与论文造假工场有关”。

  在这些论文中,有197篇是医学类的论文,这些论文是因为图片问题被打假斗士标记出来。

  Nature在这篇文章中还提到,中国医生是造假交易中的特别目标市场,因为他们通常需要发表论文获得职位晋升,但医院的日常工作又太忙了,这些医师可能没有时间进行科学研究。

  去年8月,北京市卫生局(Beijing municipal health authority)曾经发布过一条规定:“获得副主任医师必须要在专业期刊上以第一作者的身份发表两篇论文,主任医师必须发布三篇”。换句话说,论文直接与医生的工资和层级挂钩。

  1、“繁荣”的学术黑市

  在2013年,Science杂志刊载了一篇题为“中国论文集市”( China's Publication Bazaar)的文章, 称记者经过5个月的调查,挖出了一个繁荣的、买卖论文的“学术黑市”。

  经过记者“打探”,一篇关于癌症内容的共同第一作者文章的价格为90,000元人民币(14, 800美元),如果需要增加了两个名字——共同第一作者和共同通讯作者,费用将达到人民币16万元(26,300美元)。

  显然,最高规格的论文价格已经高于一些中国助理教授(assistant professor,美加教育体系中的职称)的年收入。

  另外,学术黑市的“商品”并不只有作者身份,还包括捉刀代写、将已发表的中文论文翻译再转投英文期刊、乃至直接买别人的论文草稿。

  《中国论文集市》这篇文章在当时产生了极大的影响,仅仅《肿瘤生物学》(Tumor Biology)一家杂志撤回了107篇论文。

  几年过去了,轰动性的事件仍然在发生,在去年2月份,著名的“打假斗士”Elisabeth Bik将一篇博客发表在《科学诚信文摘》(Science Integrity Digest)上,博客文章表示,400余篇不同机构的作者撰写的论文存在高度相似,很有可能是从同一家“论文作坊”生产的。

  之所以称之为论文作坊,是能够批量化生产论文的代名词。在Elisabeth Bik的那篇文章中,他为这400篇余篇论文找到了4条批量生产的证据:

  1.蛋白质印迹条背景高度相似;

  2.流式细胞术图高度相似;

  3.相似的柱状图;

  4.标题结构和作者机构信息出于同一模板。

  与此同时,“繁荣”的学术黑市另一面是来自中国医院的英文期刊论文数量在过去20年里增长了大约50倍。

  诚然,并不是所有医学类的论文都有论文造假的嫌疑,但是nature这篇文章同时也提出“问题论文的普遍存在使得一些期刊编辑对中国医院研究人员提交的论文产生了怀疑。

  2、问题论文频出,造假手段如出一辙

  根据中国科学技术信息研究所的报告,中国发表SCI论文数量已居世界第二,紧追美国。截至2020年6月22日, 全世界共有23425篇SCI撤稿,其中中国10303篇,占比44%。

  此外,每年中国SCI论文撤稿占所有撤稿的比例也持续上升,2019年达到30%,2020年目前为止已达到33%。今年,中国已有317篇SCI论文撤稿,相对的,美国有215篇SCI论文撤稿。近三年来,剽窃和错误是中国SCI论文撤稿的首要原因。

  其中剽窃主要是指文字抄袭,目前的查重系统只能查重文字,不能查重图像。而错误则主要是指 图像错误,包括经过PS然后重复使用的图像。

  学术论文造假手段常用的有四种:

  1、重复用图;

  2、编造数据,用ps涂抹修图;

  3、花钱买论文;

  4、伪造审稿人。

  其中第一种和第二种最常用,造假成本最低,以重复用图进行学术造假的案例屡见不鲜。

  另外,“假的实验图像”都具有非常规则的间隔、光滑的轮廓、特别的形状等,创作者仅仅是将文字和图像稍加改动,使论文看起来略有不同。

  在去年一本药理学期刊《Naunyn-Schmiedeberg’s Archives of Pharmacology》也曾经总结了几条问题论文的共性。

  例如:

  1.电子邮箱问题。所发现的虚假论文中,都只提供了个人邮箱,并未提供机构来源的学术邮箱。

  2.无法提供原始数据。发现的虚假论文中,都无法提供原始数据。例如会给出借口:孩子将咖啡倒在了电脑上,导致全部数据丢失,而且也没有备份。

  3.电子邮件中的英语水平极差、迅速但非正式地同意撤稿;

  4.甩锅研究生;

  尽管如此,识别一篇论文是否造假成本仍然很高。基于数据保护和商业机密的考虑, 出版期刊在共享信息方面的能力有限。许多期刊开始雇用分析师,试图想发现一些端倪。也有出版商与其他研究小组合作,希望开发出能够检测已发表论文中的重复图像。

  对于使用AI和软件的效果,nature也表示,软件正在改进,但还没有能力大规模地检查许多论文。另一方面,人工智能技术也可以捏造出以假乱真的论文。所以,如果仅仅依靠技术,很有可能发展成一场“造假攻防”竞赛。