Apache Spark

Apache Spark ist eine vereinheitlichte Analyse-Engine für die Verarbeitung grosser Datenmengen. Matei Zaharia hat sie 2010 am AMPLab der UC Berkeley entwickelt; seit 2014 ist Spark ein Apache-Top-Level-Projekt. Die Kerninnovation ist In-Memory-Berechnung — indem Zwischenergebnisse im RAM statt auf der Festplatte gehalten werden, verarbeitet Spark iterative Workloads um Grössenordnungen schneller als Hadoop MapReduce.

Das aktuelle Release ist Spark 4.0. Die Engine umfasst mehrere integrierte Module: Spark SQL für SQL-Abfragen auf strukturierten Daten und DataFrames, Structured Streaming für kontinuierliche Datenverarbeitung, MLlib für Machine Learning im grossen Massstab und GraphX für Graphenberechnung. Spark läuft auf Hadoop YARN, Kubernetes, Apache Mesos oder im Standalone-Modus und bietet APIs in Scala, Java, Python (PySpark) und R.

Die offizielle Dokumentation umfasst Programmieranleitungen, SQL-Referenzen und Deployment-Guides. Der Quellcode liegt auf GitHub unter der Apache-2.0-Lizenz.

spark.apache.org

Finden wir es gemeinsam heraus

Sie wissen nicht, wo anfangen? Erzählen Sie uns, was Sie beschäftigt — den Rest klären wir gemeinsam.

Apache Spark

Verwandte Technologien

Finden wir es gemeinsam heraus