spark是什么意思
时间:05-11
Spark是一种快速、通用、可扩展的大数据分析引擎,诞生于2009年的加州大学伯克利分校AMP实验室,2010年开源,2013年成为Apache孵化项目,2014年成为Apache顶级项目。Spark生态系统包含Spark SQL、Spark Streaming、GraphX、MLlib等子项目,基于内存计算,提高大数据环境下数据处理实时性,保证高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件上,形成集群。
Spark借鉴了MapReduce思想,优化了磁盘I/O、并行度、避免重新计算等,提出弹性分布式数据集(RDD)概念,作为核心数据结构。RDD是分布式内存数据抽象,允许程序员在集群中做内存运算,有一定容错方式。中间数据存储在内存中,提高运行速度,Spark提供丰富操作数据API,提高开发速度。
Spark是一个功能强大、易于使用的大数据分析和处理框架,适用于各种类型的数据和分布式环境。
Spark借鉴了MapReduce思想,优化了磁盘I/O、并行度、避免重新计算等,提出弹性分布式数据集(RDD)概念,作为核心数据结构。RDD是分布式内存数据抽象,允许程序员在集群中做内存运算,有一定容错方式。中间数据存储在内存中,提高运行速度,Spark提供丰富操作数据API,提高开发速度。
Spark是一个功能强大、易于使用的大数据分析和处理框架,适用于各种类型的数据和分布式环境。