2020年5月22日上午9时,第十三届全国人民代表大会第三次会议在人民大会堂举行开幕会,国务院总理李克强作政府工作报告

2020年5月22日上午9时,第十三届全国人民代表大会第三次会议在人民大会堂举行开幕会,国务院总理李克强作政府工作报告

2020年5月22日上午9时,第十三届全国人民代表大会第三次会议在人民大会堂举行开幕会,国务院总理李克强作政府工作报告

2020年5月22日上午9时,第十三届全国人民代表大会第三次会议在人民大会堂举行开幕会,国务院总理李克强作政府工作报告。和往年不同的是,今年政府工作报告全文约9500字,是去年的一半左右。澎湃新闻(www.thepaper.cn)从中国政府网上,整理了从1978年至2020年共计43份《政府工作报告》中的关键词汇。
澎湃新闻在往年对政府工作报告的分析中,梳理出日益被重视的词汇,因其增长趋势,将此类词语称为“喇叭形词语”。
今年的“喇叭形词语”中,“疫情”和“脱贫”两词格外突出。“疫情”一词在今年的政府工作报告中出现了31次,而“脱贫”一词出现了16次。

43份政府工作报告中,“发展”、“建设”以及“经济”等词语一直高频出现。这些词,一直是政府工作报告中的高频“常青词汇”。

澎湃新闻还对比了几组关键词在这43份政府工作报告中的趋势变化。2000年以来,“制造业”与“服务业”几乎同时开始被高频提及,近年,政府工作报告更加偏重于提及“制造业”。

在新词方面,2020年政府工作报告中,“两新一重”这个词汇引起了广泛关注。“两新”是指新型基础设施建设和新型城镇化建设,“一重”是指交通、水利等重大工程建设,涉及5G、新能源汽车、交通、水利、新型城镇化建设等诸多领域的上下游企业。

在往年的报告中,这些词汇往往会成为社会创新创业的风向标。以2014年至2017年政府工作报告中的新概念为例,可以看出相关领域企业的高速增长。如“人工智能”一词于2017年第一次在政府工作报告中出现,据天眼查数据显示,2017年到2019年每年经营范围包含“人工智能”的企业总数,正在成倍增长。

分析方法:
1.本文所有原始文本材料来自中国政府网1978年至2020年政府工作报告。
2.本文使用jieba分词(https://github.com/fxsjy/jieba/)。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。
3.为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。
4.在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2020年政府工作报告文本。
5.涉及合并的词语:自贸包括了自贸区、自贸试验区,城镇包括了城市、城镇。
(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)

发表评论

电子邮件地址不会被公开。 必填项已用*标注