apache spark

apache spark是一个闪电般的速度 unified analytics engine 用于大数据和机器学习. 它最初是在2009年由加州大学伯克利分校开发的.

数据处理领域最大的开源项目.

since its release, apache spark, 统一分析引擎, 是否已被众多行业的企业迅速采用. 像Netflix这样的互联网巨头, yahoo, 和eBay都大规模部署了Spark, 在超过8个的集群上集体处理多个pb的数据,1000 nodes. 它已迅速成为大数据领域最大的开源社区, 来自250多个组织的1000多名贡献者.
spark - apache spark

在加州大学伯克利分校启动Spark研究项目的团队于2013年创建了databricks.

apache spark是100%开源的,由独立于供应商的Apache软件基金会托管. 在databricks,mg游戏完全致力于维护这种开放的开发模型. 和Spark社区一起, databricks继续为apache spark项目做出巨大贡献, 通过发展和社区福音.


apache spark ecosystem

spark sql + dataframes

结构化数据:Spark sql

你可以data scientists, analysts, 一般的商业智能用户依赖于交互式sql查询来探索数据. Spark sql是一个用于结构化数据处理的Spark模块. 它提供了一个称为DataFrames的编程抽象,还可以充当分布式sql查询引擎. 它使未修改的Hadoop Hive查询在现有部署和数据上的运行速度提高了100倍. 它还提供了与Spark生态系统的其他部分的强大集成.g.,将sql查询处理与机器学习相结合).

streaming

流式分析:Spark流式分析

许多应用程序不仅需要处理和分析批处理数据的能力, 但也有实时的新数据流. Running on top of Spark, Spark streaming支持强大的交互和分析应用程序,跨越流数据和历史数据, 同时继承Spark的易用性和容错特性. 它很容易与各种流行的数据源集成, including hdfs, flume, kafka, and twitter.

mllib machine learning

machine learning: mllib

机器学习已经迅速成为挖掘大数据以获得可操作见解的关键部分. Built on top of Spark, mllib是一个可扩展的机器学习库,提供高质量的算法(e.g.,多次迭代以提高精度)和惊人的速度(比MapReduce快100倍). 该库在java中可用, scala, 和python作为Spark应用的一部分, 这样您就可以将其包含在完整的工作流中.

graphx 所谓computation

所谓computation: graphx

graphx是一个构建在Spark之上的图形计算引擎,允许用户交互式地构建, 图结构数据的尺度变换与推理. 它带有一个通用算法库.

spark core api

一般执行:Spark Core

Spark Core是Spark平台的底层通用执行引擎,所有其他功能都建立在它的基础之上. 它提供内存计算能力以提供速度, 支持多种应用程序的通用执行模型, and java, scala, 和python api,以方便开发.

R
sql
python
scala
java

apache spark的优点是什么

速度

Spark可以从性能的角度进行自下而上的设计 在大规模数据处理方面,比Hadoop快100倍 通过利用内存计算和其他优化. 当数据存储在磁盘上时,Spark的速度也很快, 目前还保持着大规模磁盘上分类的世界纪录.

ease of use

Spark提供了易于使用的api,用于操作大型数据集. 这包括用于转换数据的100多个操作符的集合,以及用于操作半结构化数据的熟悉数据帧api.

a unified engine

Spark附带了一些高级库, 包括对sql查询的支持, streaming data, 机器学习和图形处理. 这些标准库提高了开发人员的工作效率,并且可以无缝地组合在一起创建复杂的工作流.

可以在databricks云上免费试用apache spark

databricks统一分析平台的性能是开源Spark的5倍, 电子notebooks, integrated workflows, 以及企业安全——所有这些都在一个完全托管的云平台上.

try databricks

开源的apache spark项目可以是 downloaded here