开通会员
工业企业原始+合并数据+dofile+日志(Brandt处理1998-2013年)
会员限领
| 来源:原始+dofile+结果
一、数据介绍
工业企业数据样本大、指标多、时间长。是实证研究的一大利器,但其样本存在匹配混乱、指标缺失、指标异常、测度误差明显、变量模糊等缺点(聂辉华,2012)。
在此之前,团队整理的工企和海关、专利、污染数据的匹配,满足了不少学者的需求。
但若将工业企业数据用于其他分析,仍是一项非常费时的工程。因此,团队参照Brandt等(2012)针对中国工业企业数据库提供的一套严谨的处理方法,对1998~2013年的工业企业数据进行了处理。
经过处理,最终得到非平衡面板数据400多万条,平衡面板30多万条。
内含原始、合并数据、dofile、运行日志,可直接用于研究。
二、处理方式
set more off
统一sdxm 省地县码,以得到省 地区 市等代码
处理缺失变量
需要用到收入,但2004年以前的变量为产品销售收入,2004年及以后为营业收入,因此需要统一 已经手动处理成zyrs
生成利润这一变量用于匹配
保留用于匹配的变量和自己想要保存的变量
保存运算结果
将ID中的字母都变成大写的
之前的都是为了运行brant代码
运行brant代码
设i为当年,j为下一年
Step 10 首先根据法人代码(id)进行匹配,分离出id重复的样本
保留ID重复的样本
将重复样本保存
将匹配成功的保存
处理下一年的数据,方法跟上面一样
保存重复ID的样本
保存匹配成功的样本
为了方便后面的识别,需要将匹配成功的样本生成匹配方法和匹配结果两个变量(1为i年未匹配成功;2为j年未匹配成功;3为匹配成功)
相邻两年以ID匹配成功的样本保存
Step 20 将未能用ID匹配成功的样本以企业名称进行匹配
保留i年未匹配成功样本
合并ID重复的样本
保存
Step 30 未能以企业名称匹配成功的,再以法人(frdbxm)+地区码(region_codedq)进行匹配,当然大家还可以修改为其他匹配变量,例如邮编、传真等
Step 40 上两步未匹配成功的再以电话(phone)+地区码(dq)+行业代码(hylb)进行匹配
Step 50 以上没有匹配成功的再以开业年(bdat)+地区代码(dq)+行业代码(hylb)+乡镇(town)+产品1(product1)进行匹配
Step 60 将匹配成功的和未最终匹配成功的样本重新合并成文件用于下一步的匹配
Step 70 创造一个三年的平衡样本
Step 80 对未匹配成功的i年公司和j年公司单独保存
Step 90 对i年公司和第三年k的公司以法人代码(id)和公司名称(name)进行匹配
step 100 将上述所有样本再进行大合并
step 110 将2001从1999-2000-2001中加入 将2001年的数据合并进来
step 120 将2002从 2000-2001-2002中提取出来,加入
step 130 将 2003 从2001-2002-2003中提取出来,加入
step 140 将 2004从 2002-2003-2004中提取出来,加入
step 150 将2005从2003-2004-2005中提取出来,加入
step 160 将2006 从2004-2005-2006中提取出来,加入
step 170 将2007 从2005-2006-2007 提取出来,加入
step 180 将2008 从2006-2007-2008中提取出来,加入
step 190 将2009 从2007-2008-2009中提取出来,加入
step 200 将2010 从2008-2009-2010中提取出来,加入
step 210 将2011 从2009-2010-2011中提取出来,加入
step 220 将2012 从2010-2011-2012中提取出来,加入
step 230 将2012 从2011-2012-2013中提取出来,加入
生成非平衡面板数据文件
提取每年的样本数
将各年样本合并成面板数据
统一行业代码
工业企业最终的平衡面板数据
三、数据概览
四、获取数据
注:该数据为马克社区高级会员-附赠数据