地图数据的主要采集方式
1、通过系统日志采集大数据
用于系统日志采集的工具常见的有Hadoop Chukwa、Cloudera Flume、Facebook Scribe和LinkedIn Kafka等。这些工具是分布式架构,满足每秒数百MB的日志数据采集和传输需求。
2、通过网络进行地图数据采集
主要指通过网络爬虫或者网站公开API等方式从网站上获取大量数据信息方式,将网站上非结构化的数据抽取出来,采用结构化的方法,同意储存在本地,支持图片、音频、视频、文字等多种形式的素材采集。网络爬虫的工具主要分为3类:分布式网络爬虫工具(Nutch)、Java网络爬虫工具(Crawler4j、WebMagic、WebCollector)、非Java网络爬虫工具(Scrapy)。
3、通过其他数据采集方法
生产和业务数据或学术研究数据,如更高数据的保密性要求,可以通过与企业或者研究机构合作,使用特定系统接口等相关方式采集数据。