- N +

香奈儿香水,大数据趋势猜测靠谱吗?德国研讨者用1.7万篇arXiv论文猜测机器学习和NLP研讨趋势,微波炉

原标题:香奈儿香水,大数据趋势猜测靠谱吗?德国研讨者用1.7万篇arXiv论文猜测机器学习和NLP研讨趋势,微波炉

导读:

大数据趋势预测靠谱吗?德国研究者用1.7万篇arXiv论文预测机器学习和NLP研究趋势...

文章目录 [+]

parteon 欧美相片

选自arXiv

者:Steffen Eger 等

参加:路

很多研讨者在预印本网站 arXiv 上宣布前沿研讨,那么依据 arXiv 判别火辣妹研讨趋势是否可行呢?近来,来自德国香奈儿香水,大数据趋势猜想靠谱吗?德国研讨者用1.7万篇arXiv论文猜想机器学习和NLP研讨趋势,微波炉达姆施塔特工业大学和法兰克福金融管理学院的研讨者在 arXiv 上宣布论文,企图依据两个 arXiv 论文数据集猜想相关范畴的研讨趋势。

研讨者运用的数据集来自 arXiv 上机器学习 (cs.LG) 和uu福利 (cs.CL) 两个类别,他们选用自下而上的办法依据这两个数据集检测研讨趋势:首先按论文的引证量(经过标准化)对论文进行排序,然后依照论文使命和运用办法将排序靠前的论文分为不同类别,再对得到的主题进行剖析。研讨者发现 cs.CL 范畴中的主导范式是问题,cs.LG 范畴的主导研讨方向是强化学习和对立学习。研讨者经过外推法(extrapolation),猜想这些论题在中短期内仍将是各自范畴中的首要问题/办法。

下面展现了前沿研讨的使命、办法和方针散布状况。

插她
纳粹铃
香奈儿香水,大数据趋势猜想靠谱吗?德国研讨者用1.7万篇arXiv论文猜想机器学习和NLP研讨趋势,微波炉

图 1:cs.CL 范畴 top-100 论文的使命散布状况。咱们可以从中观察到自然语言生成使命是其间的主导使命。

图 2:cs.LG 范畴 top-100 论文的办法散布状况。咱们可以从中看到强化学习和对立学习是这些论文中运用最广泛的办法。

图 3:cs.CL 范畴 top-100 论文的方针散布状况。咱们可以从中看到超对折研讨的方针是进步准确率。

猜想研讨趋势一直是科学家的愿望。关于盛行研讨课题的项目往往可以比较轻松地被大会和期香奈儿香水,大数据趋势猜想靠谱吗?德国研讨者用1.7万篇arXiv论文猜想机器学习和NLP研讨趋势,微波炉刊接纳,一起也更简略得到研讨经费同意。此外,了解未来研讨趋势有益于整个社会,由于这些趋势很或许直接影响劳蝮蛇刀动商场、技能方向、顾客和产品,以及人类认同性的文明隐喻和界说,敬爱老公对人工智能等范畴来说更是如此av在线视频观看网站。可是,跟着研讨者发布的论文数量逐年攀升,消化这么多信息并从中人工识别出或许具有长时刻科学影响的论题愈加困难。本文介绍的研讨开发了一种主动化体系,旨在发现重要的研讨趋势,然后协助研讨者更好地规划自己的学术活动。

这个体系从 arXiv 的机器学习 (cs.LG) 和自然语言处理 (cs.CL) 类别中抓取论文及其引证信息,来构建数香奈儿香水,大数据趋势猜想靠谱吗?德国研讨者用1.7万篇arXiv论文猜想机器学习和NLP研讨趋势,微波炉据集香奈儿香水,大数据趋势猜想靠谱吗?德国研讨者用1.7万篇arXiv论文猜想机器学习和NLP研讨趋势,微波炉。然后,研讨者依据论文引证量(经过标准化处理)判别数据会集有潜力的论文,然后经过人工和主动的办法将这些论文分类。研讨者运用 arXiv 论文的原因在于,arXiv 是十分盛行的科研效果预印本(及后印本)渠道,且近年来影响力逐步上升。

数据和标示

数据

研讨者创建了两个数据集,别离包含来自 arXiv 淄博人体彩绘机器学习 (cs.LG) 和自然语言处理 (cs.CL) 类别的论文。挑选这两个人工智能子范畴的原因是,它们动态改变大,每年都会发作很大的改变和功能改善。搜集的数据包含论文标题、摘要和作者,研讨者还从 Semantic Scholar 网站抓取了这些论文的引证量信息。数据会集的论文宣布于 2017 年 6 月至 2018 年 12 月,包含 4800 篇 cs.CL 范畴论文和 12400 篇 cs.LG 水卜论文。

标示

该研讨的作者之一手动标示了这两个范畴 top-100江湖双响炮 论文的摘要,首要标示了三个特点:使命、办法和方针/效果。这些特点答复了论文研讨什么、怎么研讨、为什么研讨这几个问题。研讨者为 cs.CL 范畴论文设置了 15 个使命类别、28 个办法类别和毛银鹏 7 个方针类别,为 cs.LG 设置了 13 个使命类别、15 个办法类别和 13 个方针类别。

表夫前 1:根孩次元据标准化后的引证量得到的 cs.CL 范畴 Top-3 论文,及其使命高树庚、办法和方针。括号中的数字表明到 2018 年 12 月时的引证量绝对值和标准化后的值。

表 2:cs.CL 和 cs.LG 范畴各自的使命和办法香奈儿香水,大数据趋势猜想靠谱吗?德国研讨者用1.7万篇arXiv论文猜想机器学习和NLP研讨趋势,微波炉标签。

对引证量进行标准化处理

论文影响力最简略的衡量办法是引证量,但研讨范畴和论文发布日期会影响引证量数字的绝对值。因而,研讨者比照同一研讨范畴的论文,并按论文宣布时长调整引证量分数,然后对引证量进行标准化处理。这便是 Newman [8,9] 提出的 z-score 办法:依据引证量绝对值的均值和标准差进行标五鼠战长沙准化。

研讨者香奈儿香水,大数据趋势猜想靠谱吗?德国研讨者用1.7万篇arXiv论文猜想机器学习和NLP研讨趋势,微波炉以 10 天作为时刻窗口,对数据会集的一切论文履行 z-score 标准化(疏忽引证量少于 4 的论文)。

论哥哥嘿文:Predicting Research Trends From Arxiv

论文链接:https:miya智妍//arxiv.org/pdf/1903.02831v1.pdf

本文为机器之心编译,转载请联络本大众号取得授权。

化学 学术 德国
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

有好的文章希望我们帮助分享和推广,猛戳这里我要投稿

返回列表
上一篇:
下一篇: