影响大数据质量的关键因素是什么

2017-07-27 湾区城市群

大数据时代，强调对总体数据的处理与分析，关注事物之间的相关关系，以及对发展趋势的分析预测。大数据的规模性、高速性和数据来源及形式上的多样性，使数据更可能产生不一致和冲突，这些都会导致大数据质量问题，因此需要对大数据进行质量管理。

QQ截图20170730104943.png

大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示 /数据可视化、数据应用等环节，其中数据质量贯穿于整个大数据流程，每一个数据处理环节都会对大数据质量产生影响作用。通常，一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释，基于以上环节分别分析不同阶段对大数据质量的影响及其关键影响因素。

数据收集环节

数据收集是获取原始大数据集合的过程。大数据通常由不同数据源产生，且由机器自动生成，然后通过网络传输到指定的位置，这是一种大数据生成即收集的方式; 或者由企业或组织根据自身需求，有针对性地从各种来源收集所需数据，如用户的各种数据等。总之，数据收集需从不同数据源实时地或及时地收集各种类型数据，并发送给存储系统或数据中间件系统进行后续处理。数据收集可分为设备数据收集和 Web 数据爬取两种，由各种数据收集软件和网络爬虫完成。数据收集环节对大数据质量的真实性、完整性、一致性、准确性、时效性、安全性等维度均产生影响作用。

1、数据源

在数据收集过程中，数据源会影响大数据质量的真实性、完整性、一致性、准确性和安全性。大数据的数据源主要指各种网站、系统、传感器设备等，这些数据源的安全运行、防止恶意攻击与篡改是保障大数据真实性、准确性和安全性质量的重要条件。同时，数据源运行的稳定性、无间断性是保障大数据完整性的重要条件。不同数据源之间的统一编码、相互协调是保障同构或异构大数据的一致性质量的重要前提，它要求数据源之间的同步与协作。故在数据收集环节，数据源是影响大数据真实性、完整性、一致性、准确性和安全性质量的重要因素之一。

2、数据收集方式

数据的实时收集方式可有效保障大数据的时效性质量，确保大数据分析与预测结果的时效性和价值性。设备收集多为实时的数据收集，且以流式数据进行采集、处理与分析，从而确保大数据的时效性质量。对于Web 数据，多采用网络爬虫方式进行收集，这需要对爬虫软件进行时间设置以保障收集到的数据时效性质量。故数据收集方式是影响大数据时效性质量的重要因素之一。

3、数据收集技术

数据收集技术在这一阶段是非常重要的技术因素，收集技术的好坏直接决定了数据收集的速度和质量。通常数据收集分为两种———设备数据收集和互联网数据爬取，常用的收集软件有 Splunk、Sqoop、Flume、Logstash、Kettle 以及各种网络爬虫，如 Heritrix、Nutch 等，这些软件是大数据发展与应用的重要一环，也是英特尔、Facebook、谷歌等公司可以获取大量数据的直接原因。故数据收集技术是影响大数据原始质量的重要因素之一。

数据预处理与存储环节

QQ截图20170730105000.png

1、数据预处理

大数据采集过程中通常有一个或多个数据源，这些数据源包括同构或异构的数据库、文件系统、服务接口等，易受到噪声数据、数据值缺失、数据冲突等影响，因此需首先对收集到的大数据集合进行预处理，以保证大数据分析与预测结果的准确性与价值性。

大数据的预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容，可以大大提高大数据的总体质量，是大数据过程质量的体现。数据清理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面，有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量; 数据集成则是将多个数据源的数据进行集成，从而形成集中、统一的数据库、数据立方体等，这一过程有利于提高大数据的完整性、一致性、安全性和可用性等方面质量; 数据归约是在不损害分析结果准确性的前提下降低数据集规模，使之简化，包括维归约、数据归约、数据抽样等技术，这一过程有利于提高大数据的价值密度，即提高大数据存储的价值性。

数据转换处理包括基于规则或元数据的转换、基于模型与学习的转换等技术，可通过转换实现数据统一，这一过程有利于提高大数据的一致性和可用性。

总之，数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等方面质量，而大数据预处理中的相关技术是影响大数据过程质量的关键因素。

2、数据存储

在大数据存储中，分布式存储与访问是其关键技术，它具有高效、经济、容错性好等特点。分布式存储技术与数据存储介质的类型和数据的组织管理形式直接相关。数据存储介质的类型主要有内存、磁盘、磁带等，数据组织管理形式主要包括以行、列、键值、关系等进行组织，不同的存储介质和组织管理形式对应于不同的大数据特征和应用。

分布式文件系统，它是大数据领域最基础、最核心的功能组件之一，其关键在于实现分布式存储的高性能、高扩展和高可用性。文档存储，支持对结构化数据的访问，支持嵌套结构、二级索引，以实现数据的高效查询。

列式存储可减少数据存取量、提高数据处理效率。键值存储可有效减少读写磁盘的次数，但不提供事务处理机制。图形数据库可实现事物之间相关关系的存储，并使用图模型来映射这些网络关系，实现对真实世界中各种对象的建模存储。

内存存储是将数据库的工作版本放在内存中，其设计目标是提高数据库的效率和存储空间的利用率。总之，不同的数据存储技术具有不同的特征与优势，它们对于提高大数据的时效性、安全性、可用性和准确性等质量维度具有重要影响。

数据处理与分析环节

1、数据处理

大数据的分布式处理技术与存储形式、业务数据类型等相关，针对大数据处理的主要计算模型有 MapReduce 分布式计算框架、分布式内存计算系统、分布式流计算系统等。MapReduce 是一个批处理的分布式计算框架，可对海量数据进行并行分析与处理，它适合对各种结构化、非结构化数据的处理。分布式内存计算系统可有效减少数据读写和移动的开销，提高大数据处理性能。分布式流计算系统则是对数据流进行实时处理，以保障大数据的时效性和价值性。

总之，无论哪种大数据分布式处理与计算系统，都有利于提高大数据的价值性、可用性、时效性和准确性。大数据的类型和存储形式决定了其所采用的数据处理系统，而数据处理系统的性能与优劣直接影响大数据质量的价值性、可用性、时效性和准确性。因此在进行大数据处理时，要根据大数据类型选择合适的存储形式和数据处理系统，以实现大数据质量的最优化。

2、数据分析

大数据分析技术主要包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术。分布式统计分析可由数据处理技术完成，分布式挖掘和深度学习技术则在大数据分析阶段完成，包括聚类与分类、关联分析、深度学习等，可挖掘大数据集合中的数据关联性，形成对事物的描述模式或属性规则，可通过构建机器学习模型和海量训练数据提升数据分析与预测的准确性。

数据分析是大数据处理与应用的关键环节，它决定了大数据集合的价值性和可用性，以及分析预测结果的准确性。在数据分析环节，应根据大数据应用情境与决策需求，选择合适的数据分析技术，提高大数据分析结果的可用性、价值性和准确性质量。

数据可视化与应用环节

数据可视化是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程，并可与用户进行交互式处理。数据可视化技术有利于发现大量业务数据中隐含的规律性信息，以支持管理决策。数据可视化环节可大大提高大数据分析结果的直观性，便于用户理解与使用，故数据可视化是影响大数据可用性和易于理解性质量的关键因素。

大数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程，它是对大数据分析结果的检验与验证，大数据应用过程直接体现了大数据分析处理结果的价值性和可用性。大数据应用对大数据的分析处理具有引导作用。在大数据收集、处理等一系列操作之前，通过对应用情境的充分调研、对管理决策需求信息的深入分析，可明确大数据处理与分析的目标，从而为大数据收集、存储、处理、分析等过程提供明确的方向，并保障大数据分析结果的可用性、价值性和用户需求的满足。