这个系列的最后一篇博文我们谈谈美国人口普查局如何收集和处理数据,重点放在新住房数据的收集和分析上。
关于美国人口普查局,我们先科普一下:美国宪法第一条(Article One)要求至少每十年对美国人口进行一次计数,所得计数用于确定每个州在众议院以及选举团中的成员人数。此外,人口普查数据直接影响每年超过4000 亿美元的联邦和州资金如何分配给社区,用于社区改善、公共卫生、教育、交通等方面。 人口普查局的主要使命包括:收集有关国家、人民和经济的统计数据。人口普查局的法律权力编入美国法典第13篇。
人口普查局还代表各个联邦政府和地方政府机构对就业、犯罪、健康、消费者支出和住房等主题进行调查。在该局内,这些被称为“人口调查”,在每10年的人口统计期间不中断地进行,它包括对制造业、农业、零售业、服务业和其他机构以及国内政府事务进行大量数据的经济调查。所以可以说,在大数据(Big Data)还不是流行语的时候,人口普查局早就和大数据打交道了。
正是因为从一开始就面临着”大数据“的挑战,人口普查局自成立以来一直走在计算和统计科学的前沿。1890年的人口普查首次使用了赫尔曼·何乐礼(Herman Hollerith)发明的电动制表机。1890-1940 年人口普查局研发了打孔卡制表技术并在使用过程中不断完善。1946年,人口普查局资助了第一代计算机UNIVAC的研究发展,并于1951年最早开始使用UNIVAC I计算机。

在数据收集、处理和储存方面,人口普查局同样也在不断创新。笔者曾长期在州和地方政府从事和数据有关方面的工作,与人口普查局有过不同层面的接触交流,目睹了它以数据说话的求实态度以及一些科研成果的成功应用。比如说,双独立地图编码 (DIME) 是美国人口普查局在1965年开发的一种编码方案,用于有效地存储地理数据。 随着计算机技术的迅猛发展, 人口普查局在 1990年用拓扑综合地理编码和参考 (TIGER) 取代了DIME数据格式,而TIGER编码后来被广泛采纳和进一步开发,奠定了包括谷歌地图和导航技术等一系列的地理信息数据基础。
言归正传,人口普查局当今在收集新建筑数据上是怎样走在信息技术应用前沿的?上几篇博文我们提到,自上世纪50年代以来,人口普查局长期依靠地方政府的报表和抽样调查,由此得出两组关键的新房建筑数据:全国建房许可证数据和新住宅建设 (New Residential Construction) 数据。收集这些数据的挑战有几个,其一是参与报表的地方政府是自愿性质,这样就有不稳定的人为因素。其二就是建筑许可证的颁发并不能保证房屋会建造,只是表明它可能会建造,所以建房数据有不确定性。其三就是建房过程从颁发建房许可证、开工到竣工是个数月甚至数年的经济活动,这样及时确认新房的建筑阶段一直以来有相对难度。
利用新技术和新方法,目前人口普查局正在实施一项规模宏大的新建筑数据收集和处理的升级项目。要了解这个升级的必要性,至关重要的是要懂得作为主要联邦经济指标 (PFEI) 的新住宅建筑统计数据(NRC)对于衡量美国经济的重要性,以及迄今为止的建筑数据收集和处理方法没有与时俱进。升级后的现代版还将减轻地方政府报告建筑许可或建筑商披露建筑开工和状态报告的负担, 也不再依赖仅提供州级数据的样本设计。
这一大规模升级的设计方案包括使用卫星成像、人工智能、新数据来源和新方法,它们将取代可追溯到自 1950 年代以来的调查收集方法。基本步骤是这样的:从商业数据公司(Third Party)获得准确及时的建筑许可数据、通过卫星每月从地球上空的轨道定位拍摄大量具有建筑许可证的地方的图像,并使用人工智能技术分析这些图像得出准确的估计,目前升级样本的第一个测试版数据已于今年的 2 月发布。另外,整个运作程序将以等于或低于现有方法的成本满足每月指标时间表 (见下图)。

随着新建筑调查和指标的项目升级完成,人口普查局将能够有更多人力物力扩大其调查范围,为数据用户提供住房建筑活动的更详细更及时的信息。