Hadoop

Wat is Hadoop?

Hadoop is een open source platform dat grote hoeveelheden data opslaat en managet tussen gedistribueerde clusters van servers. Dit alles is mogelijk op goedkope en efficiënte wijze. Hadoop is zo ontworpen dat het robuust is. Dit houdt in dat Big Data applicaties blijven draaien, zelfs wanneer individuele servers of clusters niet meer functioneren. Hadoop is geschreven in de Java programmeertaal. Dit betekent dat het op elk platform kan draaien. Daarnaast is Hadoop bijna compleet modulair wat inhoudt dat hij bijna alle componenten kan uitwisselen voor verschillende softwaretools. Dit zorgt voor een extreem flexibele architectuur en maakt Hadoop zowel robuust als efficiënt. Voor Hadoop hoeft data niet gestructureerd te zijn.

Hadoop, HDFS, MapReduce

Hadoop bestaat uit twee belangrijke onderdelen, namelijk HDFS en MapReduce. Simpel gezegd is HDFS een soort opvangbak van het Hadoop-systeem. In het HDFS bevinden zich alle data en blijven daar ook zitten, totdat je er iets mee gaat doen. Dit kan het uitvoeren van analyses zijn binnen Hadoop of het verzamelen en exporteren van data naar een andere tool die binnen dat systeem de analyses uitvoert.

MapReduce is de tool die daadwerkelijk de data verwerkt. In plaats van de conventionele manier om data over een netwerk te verplaatsen zodat de software ze verwerkt, gebruikt MapReduce een slimme manier die op maat gemaakt is voor grote datasets. Het verplaatsen van gegevens over een netwerk kan heel langzaam gaan, vooral wanneer het om Big Data, gaat. MapReduce heeft hier dus iets op bedacht: in plaats van de data over te zetten naar de software, verplaatst MapReduce de verwerkingssoftware naar de data.

Hoewel je zou denken dat Hadoop een database is, is dat niet het geval. Hadoop slaat wel data op en je kunt er ook data uittrekken, maar er zijn geen queries bij betrokken. Daarom heeft Hadoop een systeem als MapReduce nodig dat data wel verwerkt.

Je kunt je afvragen wat nu de concrete voordelen zijn van Hadoop. Wij zetten ze voor je op een rijtje:

  • Lage kosten
  • Grote rekenkracht
  • Grote schaalbaarheid
  • Flexibele opslag
  • Goede bescherming van data

Meer weten over Hadoop?

Wil je meer weten over Hadoop, hoe je het implementeert en hoe je het gebruikt? Volg dan de cursus Big Data Programmer bij de Big Data Academy. Dit is de plek waar je opgeleid wordt tot Big Data specialist. Na de cursus ontvang je van ons het Big Data certificaat waarmee je kunt aantonen dat jij zowel inhoudelijke als praktische kennis over Big Data systemen, zoals Hadoop, bezit: van de ontwerp- tot en met de documentatiefase.

Wil jij je alleen specialiseren in Hadoop? Volg dan de cursus Apache Hadoop. Tijdens deze cursus leer je meer over de installatie van Hadoop, HDFS, Namenodes en Datanodes, en MapReduce. Bovendien bespreken we enkele cases uit de praktijk en gaan we Hadoop toepassen op jouw business case.