注:该数据限长期会员领取,仅用于学术研究
更新说明:地级市更新至2024年,新增txt版文件。政府工作报告文本数据覆盖国务院、省级政府、市级政府在内的三级政府部门,代表了政府在各个阶段的工作情况和成果,是极有价值的文本分析数据
马克团队将报告原始文本整理成了面板数据,在旧版的基础上更新了所有2024年的最新报告,同时保留txt版文件。时间跨度为中央(1954-2024)、省级(2002-2024)、地级市级(2002-2024),希望对大家有所帮助
一、数据介绍数据名称:政府工作报告-文本数据
数据范围:中央、省级、市级
数据年份:中央(1954-2024)、省级(2002-2024)、地级市级(2002-2024)
数据来源:地方政府网
数据格式:面板数据,包括原始文本、文本面板数据
数据整理:马克数据网
更新时间:2024年5月
二、整理说明➤从地方政府网爬取工作报告原始文件
➤将报告文本整理为面板数据
➤去除停顿词,利用python的jieba库进行精确模式和全模式分词,统计词频和
(精确模式:'推荐', '马克', '数据网')
(全模式:'推荐', '马克', '克数', '数据', '数据网')
➤保留中英文、数字,统计全文文本总长度
➤保存原始文本、txt文件、文本长度、词频总数
三、指标说明一共8个指标,如下
年份 | 地区等级 | 地区 |
报告全文 | 文本总长度(字) | 仅中英文-文本总长度(字) |
文本总词频-全模式(个) | 文本总词频-精确模式(个) |
原始报告txt文本
时间序列-中央级:1954-2024年无缺失
平衡面板-省级:2002-2024年无缺失
非平衡面板-地级市
图1:政府工作报告-中央级
图2:政府工作报告-省级
图3:政府工作报告-地级市
五、获取数据注:中央级、省级、地级市政府工作报告已更新至2024年,限长期会员领取