# SQL Databases on hadoop

Relationele Database Management Systemen zijn traditioneel verticaal schaalbaar.
Dit conflicteert met Big Data toepassingen waar we de voorkeur geven aan horizontale schaalbaarheid om onder andere de kosten te verlagen, de beschikbare rekenkracht of performantie en fout-tolerantie te verbeteren.
Hierdoor kunnen de reeds gekende RDBMS niet gebruikt worden.

De volgende populaire applicaties kunnen gebruikt worden om SQL te gebruiken op hadoop:
* Apache Hive
* Cloudera Impala
* Presto
* Shark

Hierna gaan we een kort overzicht geven van al deze applicaties en daarna focussen we op een toepassingen van Apache Hive.

## Apache Hive

Deze applicatie is ontwikkeld door Facebook als **datawarehouse framework** voor interne toepassingen en is snel zeer populair geworden om queries uit te voeren op Hadoop.
Het is belangrijk om in gedachten te houden dat hoewel Hive een **SQL-like querying omgeving** aanbiedt, dat er in de achtergrond een **MapReduce methodologie** gebruikt wordt om de database te bevragen.
Dit wil zeggen dat de **queries gecompileerd moeten worden naar MapReduce toepassingen**.
Hive ondersteund ook gebruikers-gedefineerde functies en laat toe om gecomprimeerde data te verwerken.
Momenteel wordt Hive verder verbeterd en uitgebreid door HortonWorks (Cloudera) dat een nieuwe backend aan het uitwerken is (Tez Project) om de responstijd van Hive te verbeteren.

Voordelen:
* Op bijna alle Hadoop installaties standaard geinstalleerd
* Goede tool om te proberen door minimale start-investering (gratis)

Nadelen:
* Niet meest snelle manier door overhead van MapReduce (batch processing)
* Enkel 4 file-formats ondersteund:
 * Text, SequenceFile, ORC, RCFile

## Cloudera Impala

Maakt het mogelijk om interactieve SQL queries uit te voeren op HDFS en HBase. 
Impala voert **queries uit in real time** en verbeterd daardoor de performantie  door geen batch processing te gebruiken.
Daarnaast wordt ook het **gebruik van verscheidene SQL-based bedrijfsanalyse tools mogelijk** gemaakt.
Deze applicatie is een open source applicatie ontwikkeld door Cloudera.

Voordelen:
* Sneller dan Hive
* Ondersteund cloud based architecture door Amazon's Elastic MapReduce
* Is compatibel met ANSI SQL (standaard SQL standaard)
* Integratie met business intelligence tools mogelijk

Nadelen:
* Moeilijker op te zetten
* Volledige kracht maar beschikbaar bij gebruik van Parquet file format
* Geen support voor YARN
* Vereist installatie van daemons op elke node

## Presto

Een tweede applicatie ontwikkeld door Facebook.
Ook deze applicatie is open source.
Deze applicatie is geschreven in Java en heeft een groot aantal kenmerken gemeen met Impala, bijvoorbeeld:
* Een interactieve ervaring
* Moeiljk om op te zetten (installatie op de verscheidene nodes)
* Vereist een specifiek file format voor data opslag (RCFile)

Daarnaast biedt Presto wel compatibiliteit met de Hive meta-store en laat Presto toe om data van verscheidene bronnen te combineren.
Het grootste verschil met Impala is dat Presto niet ondersteund wordt door veel leverancies van cloud-toepassingen, ook al maken reeds een aantal grote bedrijven er gebruik van (bijvoorbeeld AirBnb en Dropbox).

## Shark

Deze applicatie is ontstaan om een alternatief te bieden voor Hive met MapReduce.
Het doel was om alle functionaliteiten van Hive te behouden maar de performantie te verbeteren.
Deze tool is geschreven in Scala door UC Berkeley en zoals de naam doet vermoeden maakt het gebruik van **Spark**.
Tot op een zeker punt kan Shark de performantie van Hive verbeteren maar de **schaalbaarheid van de tool** is niet zo goed als Hive.
Dit komt omdat het **gebouwd is boven op Hive** waardoor het de complexe codebase van Hive heeft overgeerfd heeft.
Het onderhoud en aanpassen van deze codebase zonder in te boeten op performantie is echter niet eenvoudig.

## Spark SQL

Dit onderdeel van Spark biedt de mogelijkheid aan om Spark Queries uit te voeren op ingeladen Dataframes.
Omdat dit gebruik maakt van Spark biedt het veel voordelen en is de performantie beter dan tools die gebruik maken van MapReduce.
Het grootste nadeel is echter dat deze data niet standaard opgeslagen wordt op een harde schrijf.
Het is vrij eenvoudig om deze dataframes/tabellen op te slaan als bijvoorbeeld csv maar de relaties tussen kolommen van verschillende tabellen kan niet opgeslaan worden en vereist extra manueel werk om bij te houden.

## Voorbeeld toepassing: Hive

**LET OP:** Deze notebook moet je niet uitvoeren via jupyterlab. We gaan werken op een aparte cluster.

Installeer hive door middel van de volgende stappen uit te voeren:
* Maak een clone van de volgende repo: https://github.com/big-data-europe/docker-hive
* Start de hive-cluster door middel van het volgende commando uit te voeren in een terminal in de folder van deze repository. Zoek daarna in de files na de correcte poort, username en wachtwoord van de hive cluster. Bestudeer ook de compose.yml file
````
    docker-compose up
````



Beantwoord nu de volgende vragen:

**Vraag: Welke nodes worden aangemaakt in de compose file van de hive-cluster? Wat is de betekenis van de verschillende nodes**

Antwoord: ...

**Vraag: Welke database wordt gebruikt voor de metadata van hive bij te houden?**

Antwoord: ...

**Vraag: Wat is de standaardpoort van de hive-server**

**Vraag: Hoe start je de hive shell op de hive-server? Wat doet het commando dat je hiervoor gebruikt?** Tip: bestudeer de github repository en gebruik de terminal van de hive-server op docker desktop

Voer nu de volgende bewerkingen uit door de benodigde HQL-query uit te voeren.

Bewerkingen:
* Maak een tabel **customers** aan met de volgende kolommen
    * id: int
    * naam: string
    * huisnummer: int
    * straat: string
    * bus: string
    * Municipality: string
    * County: string
    * State: string
    * zipcode: int
    * country: string
    * number: int
    * home_type: string
* Laad de data in de file /opt/hive/examples/files/customer_address.txt in in de nieuw aangemaakte tabel. Bekijk door de file explorer tab in docker desktop deze file. Merk op dat de splitsing van kolommen door het |-teken niet standaard is.
* Selecteer alle rijen in de tabel en verifieer dat het correct ingeladen is.
* Hoeveel rijen zijn er aanwezig in de tabel **customers**? Doe dit aan de hand van een hql query, niet uitlezen uit het vorige resultaat.
* Wat is de grootste postcode?
* Hoeveel rijen zijn er aanwezig voor elk type van huis?
* Welke staten zijn aanwezig in de database?

In [None]:
# bewerking 1: aanmaken tabel

In [None]:
# bewerking 2: inladen data

In [None]:
# bewerking 3: selecteer alles

In [None]:
# bewerking 4: aantal rijen

In [23]:
# bewerking 5: grootste postcode

In [24]:
# bewerking 6: aantal klanten per type huis

In [None]:
# bewerking 7: welke verschillende staten aanwezig