近日,由我系2021级情报学专业的博士研究生刘智锋作为第一作者的研究论文“Unfolding the downloads of datasets: A multifaceted exploration of influencing factors”在2024年7月的Nature旗下期刊《Scientific data》发表,该期刊是SCI Q1期刊,影响因子为5.8,五年影响因子为8.9。论文的其他作者有罗鹏程、唐星龙、王继民和聂磊。该文是我系王继民教授主持的国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”的研究成果之一。
随着数据密集型研究范式的兴起,科学数据在促进知识生产和传播中发挥着关键作用;揭示数据集下载行为的驱动因素对于科学数据的再利用和有效传播具有重要作用。目前,科学数据集的下载行为研究主要从数据用户的视角进行研究,从科学数据集自身特征的视角进行实证量化的研究较为缺乏。该文聚焦于科学数据集的自身特征,综合UTAUT模型、认知负荷理论、信号理论以及信息系统成功模型构建了科学数据集下载行为的影响因素模型(如下图所示)。
该文采集了来自69个不同数据仓储的55473个数据集的元数据,并综合采用深度学习等方法从Semantic Scholar数据库中识别并获取了26955篇数据集的关联文献(如下图所示),最后采用回归分析对科学数据集下载行为的影响因素模型进行检验。结果表明,科学数据集的描述文本的长度负向影响下载行为,而描述文本的可读性则与下载行为存在正相关关系;科学数据集的可靠性对其下载行为具有正向影响;此外,科学数据集的开放性起到正向调节作用。该文扩展了UTAUT和信息系统成功等模型和理论在科学数据下载和复用行为的应用场景,并对数据管理者、数据仓储等平台促进科学数据开放共享,释放科学数据价值具有一定的实践启示。
论文第一作者简介:刘智锋,北京大学信息管理系2021级情报学专业博士研究生,研究方向为学术数据挖掘、科学数据管理、科学学与科学计量等。在Scientific Data、Journal of Medical Internet Research、Journal of Informetrics、Scientometrics、Journal of Information Science等SCI/SSCI期刊上发表或录用论文8篇;在《科学学研究》、《图书情报工作》等CSSCI期刊上发表或录用论文10余篇;另有多篇SCI/SSCI期刊论文在审。参与国家社科基金等多个项目。担任Information Processing & Management, Scientometrics, Knowledge and Information Systems等SCI/SSCI期刊审稿人。曾获北京大学博士研究生校长奖学金等荣誉。
论文链接:https://www.nature.com/articles/s41597-024-03591-8