Apache Hadoop
Apache Hadoop ist ein Framework für verteilte Speicherung und Verarbeitung grosser Datenmengen auf Clustern handelsüblicher Hardware. Doug Cutting und Mike Cafarella haben es 2006 entwickelt, inspiriert von Googles veröffentlichten Papers zum Google File System und MapReduce. Hadoop machte es praktikabel, Petabytes an Daten zu speichern und zu analysieren, ohne spezialisierte Hardware — einfache Server mit lokalen Festplatten ersetzten teure Storage-Arrays.
Das aktuelle Release ist Hadoop 3.4. Das Framework besteht aus drei Kernkomponenten: HDFS (Hadoop Distributed File System) für fehlertolerante Speicherung mit über Knoten replizierten Daten, YARN (Yet Another Resource Negotiator) für Cluster-Ressourcenverwaltung und Job-Scheduling sowie MapReduce für Batch-Verarbeitung. In modernen Deployments ersetzt Apache Spark typischerweise MapReduce als Processing Engine, während HDFS für Speicherung und YARN für Ressourcenverwaltung weiterhin genutzt werden.
Die offizielle Dokumentation behandelt Cluster-Setup, HDFS-Administration und YARN-Konfiguration. Der Quellcode liegt auf GitHub unter der Apache-2.0-Lizenz.
Verwandte Technologien
Kommt Ihnen das bekannt vor?
Erzählen Sie uns, was Sie beschäftigt — wir werden für Sie eine Lösung erarbeiten.