# HDFS

HDFS is het distributed file system van Hadoop dat de basis vormt voor een breed gamma van applicaties, waaronder MapReduce.
Dit framework maakt het mogelijk om niet-gespecialiseerde hardware te gebruiken om eenvoudig datacenters op te zetten of rekenclusters te beheren.
HDFS bereikt dit doel op een aantal manieren:
* Ten eerste wordt een file opgedeeld in verschillende blokken. Deze worden verdeeld over verschillende computers zodat code meerdere delen van het bestand kan gebruiken in parallel om zo de benodigde rekenkracht te verdelen over meerdere toestellen.
* Daarnaast worden de blokken ook gedupliceerd om zo fout-toleranter te zijn in het geval van een crash (hardware of software), stroomstoring, netwerkonderbreking.

Om dit te bereiken gebruikt Hadoop een Master-Slave architectuur dat bestaat uit een enkele namenode (master) en meerdere datanodes (slaves).
De namenode houdt bij hoeveel datanodes er actief zijn, welke blokken ze hebben en welke blokken bij welke file horen.
Indien er een datanode crasht gaat deze server dit detecteren en dit oplossen door de nodige blokken te kopieren van een andere datanode zodat er steeds voldoende kopies in het systeem aanwezig zijn.
Bij elke actie die uitgevoerd moet worden in het HDFS moet er steeds gevraagd worden aan de namenode welke blokken op welke datanodes we nodig hebben voor de gewenste file uit te lezen of code voor uit te voeren.
Het is dus duidelijk dat deze namenode een single-point-of-failure is wat ideaal is voor de availability van de cluster.
Dit kan opgelost worden door HDFS te runnen in een high-availability mode wat ervoor zorgt dat er steeds een backup aanwezig is voor de namenode die zeer snel de werking kan overnemen.
Deze structuur maakt het eenvoudig om aan horizontal scaling te doen door extra servers toe te voegen zonder dat er downtime is voor de hele cluster.

Dit resulteer in de volgende kenmerken van HDFS:
* High Throughput
* Scalability
* High Availability
* Data Reliability
* Fault Tolerance

## Starten en stoppen van de cluster

De cluster kan gestart worden door alle docker containers te starten die gedefinieerd worden in de yaml-file.
Dit kan via de docker desktop gui of via de command line door middel van het docker-compose commando.
Stoppen kan dan via dezelfde methodes

## Communiceren met het HDFS

Er zijn verschillende manieren om dit distributed bestandssysteem te gebruiken.
Ten eerste kan je gebruik maken van een command line interface (CLI) om bestanden uit te lezen, op te laden, ...
Daarnaast zijn er ook wrappers voor verschillende talen die toelaten om rechtstreeks vanuit code te interageren met het HDFS.
De voordelen van deze wrappers over een CLI zijn:
* Flexibiler om te interageren in applicaties.
* Gebruiksvriendelijker en gemakkelijker om te automatiseren.
* Eenvoudiger in onderhoud en te debuggen
* Volledige functionaliteit van een programmeertaal kan gebruikt worden zoals OO.

### Instantiering van een client

Veel verschillende talen beschikken over een wrapper om te communiceren met een HDFS.
In deze cursus gaan we gebruik maken van [InsecureClient in hdfscli](https://hdfscli.readthedocs.io/en/latest/quickstart.html) wrapper.
De eerste stap in het gebruik van de wrapper is te bepalen hoe de namenode van het hdfs gevonden kan worden.
Dit gebeurt als volgt:

In [None]:
from hdfs import InsecureClient

# connecteer met de namenode
client = InsecureClient("http://localhost:9870", user='bigdata') 

# 1 opmerking voor het werken met jupyter lab -> er is een rudimentaire vorm van intellisense (je kan de tab-toets gebruiken voor aan te vullen)
# je krijgt niet zoveel tips als in visual studio code om code te schrijven
# zorg dat je zeker het goed oefent, zodat je zeker de basis kent

if client.status('/bla', strict=False): # zonder False krijg je een foutmelding
    print('Path exists')
else:
    print('Path does not exist')

In [None]:
# via cli
!hdfs dfs -test -d /

### Aanmaken van files en directories

Om nu bestanden en folders aan te maken op dit distributed file systeem kunnen onderstaande functies gebruikt worden.

In [None]:
if client.status('hdfs', strict=False) is None: # dit gaat het pad /user/bigdata/hdfs controleren
    client.makedirs('hdfs')
    print('directory created')

# zelfde als hierboven
!hdfs dfs -mkdir -p /user/bigdata/hdfscli

In [None]:
# make files

# client.upload(pad cluster, lokaal pad)
#client.upload('hdfs', 'davinci_notebooks.txt')
#client.upload('hdfs', 'outline_of_science.txt')
#client.upload('hdfs', 'ulysses.txt')
client.upload('hdfs/oudeboek.txt', 'ulysses.txt', overwrite =True, replication=2, blocksize=1048576)
client.write('hdfs/oudeboek2.txt', 'ulysses.txt') # kan meer zaken gaan schrijven dan files (bvb in dit geval de gewone string ulysses.txt

In [None]:
# hadoop fs -put /path/in/linux /hdfs/path
# hadoop fs -get /hdfs/path /path/in/linux

### Bekijken van het filesysteem

In [None]:
# hdfs dfs -ls command
print(client.acl_status('hdfs'))
print(client.checksum('hdfs/oudeboek.txt')) # om de authenticiteit van het bestand te verifieren
print(client.content('hdfs/oudeboek.txt'))
print(client.list('hdfs')) # dit is de ls

print(client.walk('/')) # itereer over alle bestanden, duik ook in subfolders
for f in client.walk('/'):
    print(f)

## Uitlezen van het filesysteem

In [None]:
client.download('hdfs/davinci_notebooks.txt', 'notebooks.txt', overwrite=True)

# meer gericht gaan bekijken of het in de code gaan bewerken
with client.read('hdfs/oudeboek2.txt') as reader: # dit bestand was met write gedaan ipv met upload
    content = reader.read()
    print(content)

### Aanpassen van het filesysteem

In [None]:
client.delete('hdfs/oudeboek.txt', recursive=False) # recursive -> om folders te verwijderen
# hdfs dfs -rm path
# add -r tag for deleting directory

# hadoop fs -mv oldname newname
#client.rename('hdfs/oudeboek2.txt', 'hdfs/oudeboek3.txt')

client.set_permission('hdfs/oudeboek3.txt', 777)
# hdfs dfs –setrep –w 3 /tmp/logs/file.txt
client.set_replication('hdfs/oudeboek3.txt', 4)

### Oefening

Los de volgende oefeningen op:

Schrijf een Python-script dat de informatie van een bestand in HDFS ophaalt en weergeeft. De informatie moet onder andere de grootte van het bestand, de eigenaar, de groep en de permissies bevatten.

Schrijf een Python-script dat de volledige inhoud van een tekstbestand in HDFS leest en afdrukt naar de console.

Schrijf een Python-script dat een tekstbestand van de lokale schijf naar HDFS schrijft. Het script moet de inhoud van het lokale bestand lezen en deze naar een nieuw bestand in HDFS schrijven.

Schrijf een Python-script dat de permissies van een bestand in HDFS wijzigt. Het script moet de permissies instellen op een door de gebruiker opgegeven waarde (bijvoorbeeld 755).

Schrijf een Python-script dat de huidige replicatiefactor van een bestand in HDFS controleert en weergeeft.

Schrijf een Python-script dat alle bestanden in een HDFS-directory zoekt die voldoen aan een bepaald naamspatroon (bijvoorbeeld alle .txt bestanden).

Schrijf een Python-script dat nieuwe inhoud toevoegt aan een bestaand bestand in HDFS. Het script moet de nieuwe inhoud aan het einde van het bestand toevoegen.

Schrijf een Python-script dat de checksum van een bestand in HDFS ophaalt en weergeeft. Dit kan nuttig zijn om de integriteit van bestanden te controleren.


Schrijf python code dat controleert of een directory bestaat in het hdfs.
Indien nee wordt de directory aangemaakt.
Indien ja, worden alle files in de directory verwijderd om van een lege directory te starten.
Upload daarna een tekst-bestand naar keuze.

In [None]:
directory_oefening = 'hdfs'
if client.status(directory_oefening, strict=False) is None:
    # de directory bestaat niet -> maak ze aan
    client.makedirs(directory_oefening)
else:
    # de directory bestaat -> zorgen dat ze leeg is
    for f in client.list(directory_oefening):
        print(f)
        client.delete(directory_oefening + '/' + f, recursive=False) # verwijder alles dat in de directory zit (kan complexer gemaakt worden door eventuele bestanden niet te verwijderen)

client.upload(directory_oefening, 'notebooks.txt')