马克团队根据各省份政府工作报告文本数据,参考《经济研究》中陈诗一(2018)、《中国工业经济》中邓慧慧(2019)、《中国软科学》中尹礼汇(2021)三人的做法,利用Python对政府工作报告进行分词处理,统计了省级政府工作报告中与环境规制相关的关键词的词频
参考1:《经济研究》陈诗一(2018)
参考2:《中国工业经济》邓慧慧(2019)
参考3:《中国软科学》尹礼汇(2021)
年度平均词频趋势
一、数据介绍数据名称: 政府工作报告-环境规制力度
数据范围:全国31个省份
数据年份:2002-2023年(平衡面板为2007-2023年)
数据来源:地方政府网
数据整理:马克数据网
数据说明:内含环境规制相关的15个词频明细、文本长度、文本词频总数
更新时间:2023年3月
二、整理说明从地方政府网爬取工作报告原始文件
将报告文本整理为面板数据
去除停顿词,利用python的jieba库进行精确模式和全模式分词,统计词频和
(精确:'推荐', '马克', '数据网')
(全:'推荐', '马克', '克数', '数据', '数据网')
保留中英文、数字、标点符号,利用正则表达式统计15个词频
保留中英文、数字,统计全文文本总长度
保存文本词频总数、15个词频明细、文本长度
三、指标说明一共25个指标,如下
行政区划代码 | 年份 | 地区 |
所属地域 | 长江经济带 | 文本总长度 |
仅中英文-文本总长度 | 文本总词频-全模式 | 文本总词频-精确模式 |
环境规制力度词频和 | 环境保护 | 环保 |
污染 | 能耗 | 减排 |
排污 | 生态 | 绿色 |
低碳 | 空气 | 化学需氧量 |
二氧化硫 | 二氧化碳 | PM10 |
PM2.5 |
平衡面板为2007-2023年
数据概览
五、获取数据注:该数据为马克社区高级会员-附赠数据