Web2.0世界中的空间数据基础设施

楼主^#

更多发布于：2007-12-28 17:40

　过去二十中产生了许多技术进步，旨在于利用新技术支持地理信息的传播与发布，随着Internet逐步普及和Web网络的出现，这个进步速度越来越快。

原文作者：Michael F. Goodchild 译者：utopia

原文链接：Citizens as Voluntary Sensors

译者注：Michael F.Goodchild是美国加州大学系统圣塔巴巴拉分校地理系的教授，也是美国科学院院士，他是地理科学领域的学术权威，特别是在GIS和RS领域，可称是此领域当今最有影响力的科学家。这篇文章是他作为社论发表在2007年第2卷的“空间数据基础设施研究国际期刊”（International Journal of Spatial Data Infrastructures Research）上的。其中主要谈到在Web2.0的环境下，地理信息的协作生产和地理知识的传播与共享，难能可贵的是，这篇发表在学术期刊上的文章遵循的是创作共用协议（Creative Commons Licenses），我与GoodChild教授通过电邮取得了翻译的授权。这篇文章能对地理，测绘，GIS和RS等学科发展带来很多启示，而且文章写得浅显易懂，普通关注技术、爱好地理科学的读者应能不费力地领会文章所要表达的意思。虽然此文谈到的是地理知识，但文章中谈到的很多观点也应该适用于人类整个知识领域，这篇文章对知识在 Internet下传播与共享的形式和方法做出了构想与展望，我想，这一宏大的主题对于我们每个人来说都值得关注。这是我之所以翻译此文的原因。

1.简介

过去二十中产生了许多技术进步，旨在于利用新技术支持地理信息的传播与发布，随着Internet逐步普及和Web网络的出现，这个进步速度越来越快。数据仓库，空间数据图书馆，和地理数据门户层出不穷。今日的地理信息用户拥有很多可以进行搜索以找到感兴趣数据集的数据来源。很多地理信息标准被建立，语法级别的互操作被广泛关注，对数据进行详细描述的元数据让我们能够对数据集的适用程度进行评价。在地理信息的主要来源是纸质地图的时代，平板数字化仪对于空间数据中心这些单位而言是一个非常重要的工具，数字化技术也是学习GIS的一个主要部分。然而，现在的用户更加依赖于信息的数字化来源，而且几乎所有的数字化都是在计算机的屏幕上完成的。

在这幅进步的景象之外，实际上空间数据基础设施的发展仍然存在着很多问题，当然正是为发现和解决这些问题，才出现了这本杂志和像INSPIRE（http://inspire.jrc.it）这样的项目，Masser（1998,2007），Burrough和Masser(1998)，Onsrud（2007），和 Goodchild，Fu和Rich（2007）所做的调查和总结分别谈到了空间数据中的语义互操作，空间数据共享中的经济学和与数据有关的法律议题等棘手问题。但在这些讨论中，缺少对于空间数据基本供应问题的关注，而数据供应的变化趋势会影响到数据获取和编纂的方式。GPS已经引起了测量的革命，它提供快速精确地测定地球表面绝对位置的能力。遥感则提供获取大范围内同一时刻的地表影像的能力。不过很多类型的地理信息从以上两种数据中是看不到的，也不能通过任何自动化的手段从（影像）中提取出来。这些类型的地理信息包括：人类为地理要素所定的名字，也称为地理名称或者地名辞典条目；环境信息，包括空气质量的测定；与文化有关的信息，包括土地的使用信息和建筑的相关信息；人口信息，包括人口密度和一些社会经济学的指标等。

若干年前，Estes和Mooneyhan（1994）呼吁大家关注被他们称为“制图神话”的现象——即错误地认为世界已经被很好地测绘过了，并且地图也会一直保持更新并越来越精确。他们提出，实际上，地形图测绘作为政府资助的活动在上个世纪中叶达到顶峰，随后就逐步减少了。在很多国家里面，地形图更新的计划被严重搁延，包括美国。而且绝少工作（如果有的话）用在对现存地图改善细节上。测绘工作费钱费力，除了少数那些可以方便地利用自动手段完成的专题信息采集，政府越来越不愿意承担测绘工作的花销。当然，也有一些例外存在，特别是英国，他们中央政府基本上已经取代了那种公司建制的为军事测绘提供数据的测量机构了，至少目前如此。

最近的评论，包括几种大众出版物（例如 Ratcliff,2007；Helft，2007）提出了一种新的，相对于传统测绘和遥感而言第三种获取地理信息的方法，这种方法可能会有效地补充已有的数据获取手段，填补当前数据采集流程中一些空白。这第三种方法应该叫做什么，现在还没有一个统一的意见，这种方法集合了下列这些元素：Web2.0 （Scharl 和 Tochtermann，2007），集体智慧（Smith,1994）和新地理（Turner，2006）。我称之为“自发地理信息”（VGI）是因为这个名称体现了它最重要的方面，我会在下面的部分使用这个词，下面将谈到VGI所引发的一些社会和科学研究方面的议题。

2.六十亿传感器

地球表面现在生活着超过六十亿的人类成员。每个人从幼年时代起就开始获得空间知识，至成年之时已对其所生活和工作的周遭环境、其曾经游历过或了解过的地区建立了一个详尽的理解。这些知识包括地名，地形特征和交通网络——这些正是极难用自动化手段获取的专题信息。它们的获得或许是通过人的五个感官，或许是通过书本，杂志，电视和因特网。实际上，可以将人类想象为一大群智能的移动传感器，这些传感器有着解读和集成信息的能力，这种能力的高低程度范围从未开化的小孩直到经过高度训练的专业科学家。如果辅以能够收集其它地理信息的设备人类本身的能力还能得到增强，如带有GPS的手机，可记录轨迹的车辆，数字相机及可随身携带的监测大气污染的传感器等。特定领域的专业人员或许被训练来观察特定类型的地理信息，例如：测量人员采集位置信息，为基础设施公司做运行维护的工人收集分布在各处的设施的运转信息，战场上的士兵收集导弹的破坏效果或敌军的方位信息。总而言之，在这个星球上不断活动的六十亿人集体地拥有着对地球表面及其属性极其丰富的知识。

从历史来看，这些信息中只有很小一部分被记录下来并用于地图的制作。制图部门的专业工作人员依靠走访当地居民来确定某些信息，特别是地名。统计局也是通过走访居民来获取社会经济等数据。鲜有例外的是，只有很少一部分的人类地理知识经过地理信息的获取、编汇、发布这样的步骤得到传播和共享。

过去，有些问题的存在妨碍了人类集体的地理知识被用作信息来源。首先，获取多种类型的地理信息这一活动被认为需要经过专业培训才能胜任，它们超出了一般人的能力范围。这是科学发展史上相对而言近代才有的变化，因为过去的伟大科学家——例如达尔文，开尔文，洪堡——并没有高级学位来为他们观察的结果赋上权威（参见 Waller，2002著作中对于很多观测结果的可信度的评论）。由业余观测者组成的网络在收集天气数据（例如 GLOBE计划，见http://www.globe.gov）和统计鸟的数目（http://www.audubon.org/bird/cbc）这样的项目中发挥了很重要的作用，但在这两个项目中，参与成员都是被组织者成功地给予了信任的，“民众科学”一词通常用在这种条件下。不过，很多地形学绘图的基本观测并不高深，也不比了解地名或街道地址、为地形特征分类更难。而且，当地人对于地理的内行相对于其在别的知识领域的外行相比是很不同的，例如：司机们很自然地信任本地人所给出的线路指示，当成非常专业的指点而不是业余的。

其次，过去普遍缺少一种对信息进行交流，组织，集成和解释的机制。19世纪牛津英文大辞典的编纂者依靠大量个人所发来的手写邮件与大众交流从而汲取众人智慧（Winchester,1998）。但想把这个过程再应用到依靠大量本地人的观察来收集详细的地理信息就显然成为不可能了，所以过去很少有类似这种工作的努力与成果也并不奇怪。倒是各地方政府和地方测绘相关机构间的交流很多，他们可以提供某一地区的详细地理信息，这些能在国家一级机构进行验证和集成。即使如此，地方政府间需要的联络次数也非常大，光在美国，就有以十万计的地方基层政府机构。

对于任何大规模的信息采集项目而言，信任显然是一个重要的议题。售卖数字街区图的公司往往依赖的是本地观测者，这些人一般装备着能记录轨迹的GPS来获得最新的城市建设开发信息。这里有一个商业契约关系暗示被雇用的测量人员应当提供质量保证，比如说街区地图数据是通过记录快递服务公司的车辆的轨迹生成的，那么数据质量应由快递服务公司负责保证。

3.Web 2.0

我们所说的第三种方法（VGI）的核心就是被Web 2.0所隐约表达的“服务集合”的概念。早期的Web是单向的，允许大量的用户访问少量的Web站点，新的Web 2.0是一种双向协作，用户与Web站点交互，同时也为站点提供信息，这些提供的信息可以为其他人服务。维基百科（http://www.wikipedia.org;Dee, 2007）就是一个很有吸引力且知名的范例，在维基百科，大量个人用户可以提供任意词条的内容，这些内容被一个由相对少量的审阅员和管理员组成的集团管理。这种服务提供了广泛且松散地组织的元数据；在Wikipedia这个例子中，用户可以访问任何一个词条的全部历史，包括最先的创建版本和历次更改。

当你把维基百科与传统的编纂百科全书的方式作一比较时，Web 2.0服务带来的变化主题立即变得很清晰。相对于采用建立一个严密的管理结构，招募一批撰写人，等待他们的工作成果，予其工酬，然后编辑、出版、印刷这套可能需要多年才能完成的工作过程而言，维基百科则是永远处于编汇的状态之中，词条的撰写者随时出现。这些贡献者是完全自发自愿的，很多情况下并不具备专业资格。错误经常能被用户或者审阅者找出来，然后得到编辑并更正。维基百科缺少一个像知名的辞书出版商那样的权威性，这种权威性是通过让专家参与审阅和编辑、要求贡献者具备专业资格来保证的。更要紧的是，因特网和Web上有很长的信息破坏和恶意行为的历史，无疑地在维基百科中有意地误导某些信息就属于此类。

很多现有的Web 2.0服务的范例就是设计来获取、集中、发布地理信息的。维基地图（http://www.wikimapia.org）就是一个模仿维基百科运行的例子，允许市民提供他们自己感兴趣地点的描述和这些地点的位置。每一个条目都由一个矩形组成，这个矩形的边平行于经度和纬度方向，每个矩形会对应于一段描述文字代表此区域内地物的信息。在写这篇文章时，维基地图已经拥有420万个条目了，其中包括大多数加州大学圣塔•巴巴拉校园内建筑及大量周边感兴趣位置的描述。所有条目被同样是由志愿者所组成的管理集团审查以保证这些条目达到了预定规则中的标准。420万是一个很有意义的数字，因为世界上最大的地名辞典的条目数也差不多是这个数量，例如亚历山大数字图书馆的地名辞典（http://middleware.alexandria.ucsb.edu/client/gaz/adl/index.jsp）差不多就是这个尺寸，它是用从美国的很多官方机构中获得的信息汇编而成的。传统的地名库是高度结构化的，单条记录由一个三元组的形式组成，如<名称，地点，类型>（Hill，2006），其中类型的值从一个固定的类别表中产生。与此对照，维基地图是一个自愿完成的地名表，完全由用户个人制作，并且可以提供比辞典中详细得多的带有超链接等很多信息的地名描述。这种类型的Web站点包括Flickr（http://www.flickr.com）,此站点已收集有2100万张带有地理参考的照片，而在维基百科中，越来越多比例的条目已经被附上地理参考。

具备更高复杂度的项目包括那些志愿者可以贡献实质性的技术内容的站点，例如，OpenStreetMap（http://www.openstreetmap.org）正在通过志愿者的努力建立一个公共版权的世界范围的街区图。每个贡献者可以使用GPS轨迹功能提供他本人生活街区的地图。这些个人贡献被汇集到一起，并且经过整理之后形成一个完整的地图片。这个过程中，广泛的元数据内容会被记录，因为每个地图片可能会有不同级别的准确度或取自不同的时间。在使用GIS软件与项目软件的过程中，一定程度的专业知识是必需的，如地理测量的一些基本原理，在项目系统中区分街道等。类似地，vein Inrix的尘土网络正在追踪行驶在美国高速公路上的50万台车辆，提供实时的信息汇总（http://www.inrix.com）。

比上例技术层次更高的服务就是允许贡献者制作自己的相对更为复杂的信息产品为他人所用，且这个过程要在易于操作的Web 2.0环境中完成。谷歌地球（Google Earth）可能是最知名的能提供这类服务的软件产品，谷歌地球客户端的下载次数自其2005年发布以来已经达到1亿次，谷歌地球的API允许用户创建和发布新的内容，这些内容以层的形式在谷歌地球中被浏览，或被“糅合”。近来的几个月中，利用这种形式，成千上万的信息发布在谷歌地球中，很多信息提供者之前并没有地理信息技术的经验。今天，找出简•奥斯汀曾居住和到过的地方以及她的小说中所描绘过的地方都是可能的（http://bbs.keyhole.com/ubb/showflat.php/Cat/0/Number/411188/an/0/page/0），世界上许多区域的历史地图（很多来自于David Rumsey的收藏，http://www.davidrumsey.com，在谷歌地球的兴趣图层目录列表中是可用的），亚历山大的远征（http://bbs.keyhole.com/ubb/download.php?Number=126402），伦敦中心区的三维建筑表现（http://bbs.keyhole.com/ubb/download.php?Number=420893），还有许多城市的地下铁路系统（http://bbs.keyhole.com/ubb/showthreaded.php/Cat/0/Number/579229/page/vc/vc/1），以上这些都可以用谷歌地球来浏览。这些信息都是志愿者提供的，很多都是出于纯粹的利他原则。

关于VGI领域的调查和总结现在还很少，很不全面。Where 2.0系列大会（http://conferences.oreillynet.com/where）已经成为讨论和研究“新地理”的绝好论坛。Turner写的一本书提供了对于VGI等新兴事物的概览，还可以找到一些其它的专业书籍谈及此，例如使用这些服务来制作新地图的方法介绍（Erle，Gibson，and Walsh， 2005）。极多的网站类似于谷歌地球奇技（http://www.gearthhacks.com）提供了关于这些新型应用的很多有用信息。一个更为学术化的评述最近由Scharl和Tochtermann所编辑出版，还有很多其它的书籍正在准备出版发行中。

4.评估

VGI的世界与传统的测绘机构完全不同。后者代表一种自上而下，权威化和中心化的结构，这种模式已经存在了许多个世纪。此模式下，地图由专业人士制作，以中心下发的形式传播，最后是业余者使用。对从业者专业性的衡量是客观标准化的，如是否拥有高级学位；专业上的进步和提升需要取得一致认可，这个过程缓慢而严格，并且花费也是稳步上升的。而VGI的世界则是混沌式的，没有什么正规严格的结构。信息不断地被创建并被交叉引用，并向各个方面传播，信息的提供者和消费者不再有严格的区分，信息创建的时间表被极大地压缩了，像维基地图这样的站点从无条目到百万级条目数只需要数月时间。VGI世界中最令人惊奇的可能就是成千上万的人愿意花费大量时间贡献信息，并不期望金钱回报，甚至不能保证自己提供的信息会被别人使用。也正是这样的一种动力驱动了博客的兴盛，这些行为与其动机是随着Internet的成长而出现的那些新的社会行为中最值得探究的题目。

同任何大规模活动一样，VGI对地理空间信息标准产生了影响。KML，谷歌地球的API语言，现已成为OGC规范的一个议题，支持者希望能将其采纳为使用虚拟地球进行交流的标准（http://www.opengeospatial.org/pressroom/newsletters/200701/），谷歌地球所提供的影像越来越被当成一个框架图层，因为它可以非常方便获取你所识别出来地物的经纬度坐标。但在写作此文的时候，谷歌地球提供的圣塔•巴巴拉地区的影像配准上有一些偏差，东部有20米，西边有40米的偏差。在西经119度45分17秒处还有一个大约60米宽的缝隙。（如，看看美国101号高速公路在北纬34度26分21秒处的影像错位）。如果谷歌决定改善其影像的配准精度，则其影响相当于将北美空间参考从NAD27转换到NAD83上，那么所有使用谷歌地球的影像进行地理标注的要素都会出现在错误位置，不再与影像内容一致了。

或许只要装备上简单辅助工具例如GPS或者测量环境参数的仪器，每个人都能发挥智能传感器的作用。认为民众可以作为科学严密观测的有用且有效的信息提供者这一观念有很长的历史，只是从近代开始，科学团体才将业余观测排除在合法来源之外。以当代的标准来看，几个世纪之前的早期科学观测者是当然的业余人士，他们很少受过测量技术的专业训练，很少根据理论来设计观测行为，很少拥有高级学位。在今天的时代，被称为“民众科学”的实践活动在某些领域中仍然受到广泛的认可和尊重。只是一般来讲，要经过正规的研究机构的审校验证之后，自发的信息来源才能被当代的科学界信赖。

然而，对VGI的信息作再草率的检查也可以清楚地知道：大多数贡献者是善意的，绝大多数由他们所提供的信息是具备使用价值的。而且，这种志愿行为对于现实

世界中快速减少的地理信息的供应而言，是唯一可行的解决方案。且不说遥感技术投资巨大，它提供的也仅是地理信息缺失这一问题的部分解决，因为许多属性，包括地名是不能从遥感影像中生成的，但是六十亿数量的全民观测者，装备有能够上传他们观察结果的设备，就能够提供一个非常有效的地理信息的补充。如此行动的热情和意愿已经很明显，集成他们输入的信息的技术也已成熟，现在最大的缺失就是对于数据的质量保证和如何侦测与发现错误。只有这些都具备了，VGI才能获得国家级测绘机构所享有的那种信任和权威。

喜欢0 评分0

A friend is never known till a man has need. ...CL

举报回复

发帖回复

« 返回列表

您需要登录后才可以回帖，登录或者注册

返回顶部

Web2.0世界中的空间数据基础设施

最新喜欢：