## Big Data e Big Problem
Normalmente si può trovare come definizione di big data la seguente:

    I dati sono troppo grandi per entrare in memoria/disco rigido
    
Esiste però un altro problema Big:

    anche su dati piccoli, il mio modello potrebbe richiedere più risorse di quelle a mia disposizione

## Nei big data dobbiamo fare delle scelte

Semplificando, ci sono 3 variabili nel nostro sistema:

* il tempo che siamo disponibili ad aspettare
* lo spazio su disco o su memoria che siamo disponibili ad allocare
* l'ammontare di informazioni che vogliamo ottenere (statistical power)

Tanto più ottimizziamo uno di questi parametri, tanto più ci rimettiamo negli altri due.

<img src="https://github.com/EnricoGiampieri/PLS2017BigDataNetworks/raw/master/notebookfiles/power_triangle.png" width="400"/>

Inoltre, vedremo poi, che tanto più ottimizzeremo il nostro codice, tanto più difficile sarà mantenerlo nel tempo.
La comprensibilità del nostro codice ha un costo quantificabile!

## un problema di esempio - rinominare i file di una collezione audio

In [51]:
!rm -fR notebookfiles/fakeaudio
!mkdir -p notebookfiles/fakeaudio
!mkdir -p notebookfiles/fakeaudio/Albums/PinkFloyd/TheWall
!touch notebookfiles/fakeaudio/Albums/PinkFloyd/TheWall/The\ Thin\ Ice.MP3
!touch notebookfiles/fakeaudio/Albums/PinkFloyd/TheWall/Another\ Brick\ In\ The\ Wall\ -\ Part\ 1.MP3
!mkdir -p notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth/
!touch notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth/My\ Innermost\ Apocalypse.MP3
!touch notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth/NONTOCCARE.TXT
!echo "un testo inutile" > notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth/NONTOCCARE.TXT

In [39]:
!ls -lR notebookfiles/fakeaudio/

notebookfiles/fakeaudio/:
total 8
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 Albums
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 OST

notebookfiles/fakeaudio/Albums:
total 4
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 PinkFloyd

notebookfiles/fakeaudio/Albums/PinkFloyd:
total 4
drwxrwxr-x 2 enrico enrico 4096 gen 26 14:05 TheWall

notebookfiles/fakeaudio/Albums/PinkFloyd/TheWall:
total 0
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 Another Brick In The Wall - Part 1.MP3
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 The Thin Ice.MP3

notebookfiles/fakeaudio/OST:
total 4
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 TheBindingOfIsaac

notebookfiles/fakeaudio/OST/TheBindingOfIsaac:
total 4
drwxrwxr-x 2 enrico enrico 4096 gen 26 14:05 Rebirth

notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth:
total 0
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 My Innermost Apocalypse.MP3
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 NONTOCCARE.TXT


In [40]:
import os

In [41]:
for basepath, listdir, listfiles in os.walk("./notebookfiles/fakeaudio/"):
    print(basepath, listdir, listfiles)

./notebookfiles/fakeaudio/ ['Albums', 'OST'] []
./notebookfiles/fakeaudio/Albums ['PinkFloyd'] []
./notebookfiles/fakeaudio/Albums/PinkFloyd ['TheWall'] []
./notebookfiles/fakeaudio/Albums/PinkFloyd/TheWall [] ['The Thin Ice.MP3', 'Another Brick In The Wall - Part 1.MP3']
./notebookfiles/fakeaudio/OST ['TheBindingOfIsaac'] []
./notebookfiles/fakeaudio/OST/TheBindingOfIsaac ['Rebirth'] []
./notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth [] ['NONTOCCARE.TXT', 'My Innermost Apocalypse.MP3']


In [42]:
for basepath, listdir, listfiles in os.walk("./notebookfiles/fakeaudio/"):
    for filename in listfiles:
        new_filename = filename.lower()
        os.rename(os.path.join(basepath, filename), os.path.join(basepath, new_filename))

In [43]:
!ls -lR notebookfiles/fakeaudio/

notebookfiles/fakeaudio/:
total 8
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 Albums
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 OST

notebookfiles/fakeaudio/Albums:
total 4
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 PinkFloyd

notebookfiles/fakeaudio/Albums/PinkFloyd:
total 4
drwxrwxr-x 2 enrico enrico 4096 gen 26 14:05 TheWall

notebookfiles/fakeaudio/Albums/PinkFloyd/TheWall:
total 0
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 another brick in the wall - part 1.mp3
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 the thin ice.mp3

notebookfiles/fakeaudio/OST:
total 4
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 TheBindingOfIsaac

notebookfiles/fakeaudio/OST/TheBindingOfIsaac:
total 4
drwxrwxr-x 2 enrico enrico 4096 gen 26 14:05 Rebirth

notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth:
total 0
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 my innermost apocalypse.mp3
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 nontoccare.txt


qui però sto anche cambiando il nome a tutti i file che sono presenti nelle directory, anche se non sono dei file audio!

In [47]:
for basepath, listdir, listfiles in os.walk("./notebookfiles/fakeaudio/"):
    for filename in listfiles:
        if filename.lower().endswith('mp3'):
            new_filename = filename.lower()
            os.rename(os.path.join(basepath, filename),
                      os.path.join(basepath, new_filename))

In [48]:
!ls -lR notebookfiles/fakeaudio/

notebookfiles/fakeaudio/:
total 8
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 Albums
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 OST

notebookfiles/fakeaudio/Albums:
total 4
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 PinkFloyd

notebookfiles/fakeaudio/Albums/PinkFloyd:
total 4
drwxrwxr-x 2 enrico enrico 4096 gen 26 14:05 TheWall

notebookfiles/fakeaudio/Albums/PinkFloyd/TheWall:
total 0
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 another brick in the wall - part 1.mp3
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 the thin ice.mp3

notebookfiles/fakeaudio/OST:
total 4
drwxrwxr-x 3 enrico enrico 4096 gen 26 14:05 TheBindingOfIsaac

notebookfiles/fakeaudio/OST/TheBindingOfIsaac:
total 4
drwxrwxr-x 2 enrico enrico 4096 gen 26 14:05 Rebirth

notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth:
total 0
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 my innermost apocalypse.mp3
-rw-rw-r-- 1 enrico enrico 0 gen 26 14:05 NONTOCCARE.TXT


Queste sono tre operazioni fondalmentali per l'analisi dati:

* iterazione lazy
* map (ripeti un'operazione su tutti gli elementi)
* filter (seleziona solo una parte degli elementi)

che cosa intendiamo con iterazione **lazy**?

le operazioni non vengono compiute finchè il risultato non è richiesto!!

In Python questa cosa è gestita da degli oggetti chiamati **iteratori**.

Sono gli oggetti su cui faccio i cicli **for**.

Un iteratore può essere percorso una volta sola!

Questo è controintuitivo: se provo a fare un ciclo for su di una lista, lo posso fare quante volte voglio

In [54]:
lista = [1, 2, 3]
print("prima iterazione")
for elemento in lista:
    print(elemento)
print("seconda iterazione")
for elemento in lista:
    print(elemento)

prima iterazione
1
2
3
seconda iterazione
1
2
3


ma se provo a farlo su di un file, lo posso leggere una volta sola!

Se volessi rileggerlo, dovrei aprirlo di nuovo!

In [59]:
with open("notebookfiles/fakeaudio/OST/TheBindingOfIsaac/Rebirth/NONTOCCARE.TXT") as file:
    print("prima iterazione")
    for line in file:
        print(repr(line))
    print("seconda iterazione")
    for line in file:
        print(repr(line))

prima iterazione
'un testo inutile\n'
seconda iterazione


Python ce lo nasconde, ma in realtà ogni volta che iteriamo sulla lista lui crea un nuovo iteratore che scorre la lista e poi scompare.

Possiamo farlo esplicitamente con il comando **iter**

In [60]:
lista = [1, 2, 3]
iteratore_lista = iter(lista)
print("prima iterazione")
for elemento in iteratore_lista:
    print(elemento)
print("seconda iterazione")
for elemento in iteratore_lista:
    print(elemento)

prima iterazione
1
2
3
seconda iterazione
