# Pandas

Pandas è la libreria che userete per manipolare i dati.  
Non è una libreria base di python, quindi dovrete installarla tramite il comando "pip install pandas" che potete effettuare da terminale o tramite una cella di code qui sul notebook.  
N.B: Vi ricordo e consiglio di assicurarvi di aver creato il vostro venv prima!

In [None]:
pip install pandas

### Caricare Dataset e funzioni di base di controllo

Come caricare un "data set" e cioè i dati all'interno di una tabella.

In [None]:
import pandas as pd #Carichiamo la libreria di pandas per poterla usare. Per convenzione si usa l'abbreviazione pd

df = pd.read_csv("remote_postings_clean.csv")   # Carichiamo una tabella in formato csv presente sul vostro pc
print(type(df))

<class 'pandas.core.frame.DataFrame'>


otteniamo un oggetto di tipo "DataFrame" che è il tipo che pandas usa per le sue tabelle

Una volta caricati i dati all'interno di un DataFrame, vediamo i primi metodi che si possono usare:

In [None]:
df.info()
# Direi sempre la prima cosa da fare. Ci dice quante righe/colonne e ogni colonna di che tipo di dati contiene
# ci dice anche ogni colonna se presenta dei valori mancanti e quanti. E' già una prima analisi da fare!

In [None]:
df.head()
# Ci stampa in formato tabellare le prime 5 righe. Se inseriamo un numero come parametro possiamo modificare il n di righe
# esempio: df.head(10)

In [None]:
df.tails()
# Uguale a head ma stampa le ultime 5 righe.

In [None]:
df.sample()
# Uguale a head ma di base stampa 1 sola riga e inoltre non prende le prime o le ultime ma una a caso!
# Anche qui si può specificare quante: df.sample(5)

Tramite "iloc" possiamo stampare la riga che vogliamo indicando il suo indice, esempio la 2

In [None]:
df.iloc[2]  # con .iloc[] 

Year            2013
IdCountry         IT
IdCity          1007
City         Alpette
%             0,000%
Name: 2, dtype: object

prevede l'utilizzo dello slice come le liste o le stringhe e quindi stampare una serie di righe

In [None]:
df.iloc[:5]

Unnamed: 0,Year,IdCountry,IdCity,City,%
0,2013,IT,1002,Airasca,"0,000%"
1,2013,IT,1006,Almese,"0,000%"
2,2013,IT,1007,Alpette,"0,000%"
3,2013,IT,1008,Alpignano,"0,000%"
4,2013,IT,1013,Avigliana,"0,000%"


Possiamo aggiungere un secondo parametro che sarà l'indice della colonna.  
In questo modo, di fatto, si stampa il valore contenuto in una cella

In [None]:
df.iloc[0, 1]

'IT'

Se non vogliamo usare gli indici numerici riferiti alle colonne, possiamo usare la sua versione "loc":

In [None]:
df.loc[0, "IdCountry"]

'IT'

Ecco un esempio con tutti questi concetti dentro:

In [None]:
df.loc[:4, ["IdCountry", "IdCity"] ] # Stampa prime 5 righe con la lista di colonne data

Unnamed: 0,IdCountry,IdCity
0,IT,1002
1,IT,1006
2,IT,1007
3,IT,1008
4,IT,1013


Un modo più comune di filtrare le colonne da usare è direttamente inserire dentro le parentesi quadre una lista di stringhe che si riferiscono alle colonne:

In [None]:
df[ ["IdCountry", "IdCity"]  ].head() # Ho lasciato degli spazi per far vedere chiaramente che sono 2 coppie di parentesi quadre

Unnamed: 0,IdCountry,IdCity
0,IT,1002
1,IT,1006
2,IT,1007
3,IT,1008
4,IT,1013


In generale, quando dovete filtrare:
- Solo righe o Righe+colonne -> iloc[] / loc[]
- Solo Colonne -> le parentesi quadre ( df[colonne] )

### Operazioni base di modifica

Pandas molto spesso si comporta in modo simile ai classici dizionari.  
Ad esempio se volete creare una nuova colonna e assegnare dei valori si può fare come i dizionari, quindi  
richiamando il df con la "chiave" della colonna e assegnare un valore.  
Se la chiave esiste (quindi la colonna esiste) allora i valori all'interno verranno modificati e sostituti a quelli già esistenti.  
Se la chiave non esiste (e quindi una nuova colonna), verrà creata automaticamente con i valori richiesti:

In [None]:
df["nuova_colonna_1"] = 0
df["nuova_colonna_2"] = 0
df["nuova_colonna_3"] = 0

# Ora stampiamo il dataframe e vediamo che compare
df.head()

Unnamed: 0,Year,IdCountry,IdCity,City,%,nuova_colonna_1,nuova_colonna_2,nuova_colonna_3
0,2013,IT,1002,Airasca,"0,000%",0,0,0
1,2013,IT,1006,Almese,"0,000%",0,0,0
2,2013,IT,1007,Alpette,"0,000%",0,0,0
3,2013,IT,1008,Alpignano,"0,000%",0,0,0
4,2013,IT,1013,Avigliana,"0,000%",0,0,0


Se la vogliamo rimuovere, possiamo usare "drop".  
Attenzione perché drop è generica per righe e colonne, quindi bisogna specificare cosa si sta rimuovendo.  
Per le colonne si può usare "axis=1" (axis=0 sono le righe invece):

In [None]:
df.drop("nuova_colonna_3", axis=1)

Unnamed: 0,Year,IdCountry,IdCity,City,%,nuova_colonna_1,nuova_colonna_2
0,2013,IT,1002,Airasca,"0,000%",0,0
1,2013,IT,1006,Almese,"0,000%",0,0
2,2013,IT,1007,Alpette,"0,000%",0,0
3,2013,IT,1008,Alpignano,"0,000%",0,0
4,2013,IT,1013,Avigliana,"0,000%",0,0
...,...,...,...,...,...,...,...
62021,2025,IT,110003,Bisceglie,"1,342%",0,0
62022,2025,IT,110006,Minervino Murge,"0,000%",0,0
62023,2025,IT,110008,Spinazzola,"0,000%",0,0
62024,2025,IT,110009,Trani,"2,011%",0,0


ATTENZIONE: praticamente tutte i metodi di pandas, di base non "agiscono" direttamente sull'oggetto in cui le si sta lanciando.  
Ad sempio in questo caso la drop() non sta modificando direttamente il contenuto di "df" ma sta RESTITUENDO come risultato una versione (vista) di "df" con quella modifica.  
Se non si "raccoglie" il risultato all'interno di una variabile (che può essere anche se stessa) la modifica di fatto non avviene.

In [None]:
df.head() # Guardate ancora la colonna c'è ancora

Unnamed: 0,Year,IdCountry,IdCity,City,%,nuova_colonna_1,nuova_colonna_2,nuova_colonna_3
0,2013,IT,1002,Airasca,"0,000%",0,0,0
1,2013,IT,1006,Almese,"0,000%",0,0,0
2,2013,IT,1007,Alpette,"0,000%",0,0,0
3,2013,IT,1008,Alpignano,"0,000%",0,0,0
4,2013,IT,1013,Avigliana,"0,000%",0,0,0


In [None]:
df_senza_colonna = df.drop("nuova_colonna_3", axis=1) # Se raccogliamo l'esito di drop e lo diamo di nuovo a df
df_senza_colonna.head() # Ora la colonna è stata effettivamente eliminata

Unnamed: 0,Year,IdCountry,IdCity,City,%,nuova_colonna_1,nuova_colonna_2
0,2013,IT,1002,Airasca,"0,000%",0,0
1,2013,IT,1006,Almese,"0,000%",0,0
2,2013,IT,1007,Alpette,"0,000%",0,0
3,2013,IT,1008,Alpignano,"0,000%",0,0
4,2013,IT,1013,Avigliana,"0,000%",0,0


ovviamente "df" contiene ancora la colonna mentre la nuova variabile "df_senza_colonna" no.  
Ma se volessi semplicemente sovrascrivere il mio "df" con la nuova versione?  
Certo potrei semplicemente assegnarla a lui stesso:

In [None]:
df = df.drop("nuova_colonna_3", axis=1)
df.head()

Unnamed: 0,Year,IdCountry,IdCity,City,%,nuova_colonna_1,nuova_colonna_2
0,2013,IT,1002,Airasca,"0,000%",0,0
1,2013,IT,1006,Almese,"0,000%",0,0
2,2013,IT,1007,Alpette,"0,000%",0,0
3,2013,IT,1008,Alpignano,"0,000%",0,0
4,2013,IT,1013,Avigliana,"0,000%",0,0


Ma è un operazione così comune che in praticamente tutti i metodi di pandas esiste il parametro "inplace" che  
si può impostare come "True" (di base è settato a False) che fa proprio questo, cioè applica le modifiche sull'oggetto  
che ha richiamato il metodo in questione, come ad esempio drop:

In [None]:
df.drop("nuova_colonna_2", axis=1, inplace=True)
df.head()

Unnamed: 0,Year,IdCountry,IdCity,City,%,nuova_colonna_1
0,2013,IT,1002,Airasca,"0,000%",0
1,2013,IT,1006,Almese,"0,000%",0
2,2013,IT,1007,Alpette,"0,000%",0
3,2013,IT,1008,Alpignano,"0,000%",0
4,2013,IT,1013,Avigliana,"0,000%",0


Extra: è possibile rimuovere tante colonne assieme usando il parametro "columns" (senza dover specificare axis) a cui  
si può dare una lista di stringhe che corrisponde alla lista di colonne da eliminare

In [None]:
df["nuova_colonna_2"] = 0 # La ricreiamo un attimo per fare la prova
df.drop(columns=["nuova_colonna_1", "nuova_colonna_2"], inplace=True)
df.head()

Unnamed: 0,Year,IdCountry,IdCity,City,%
0,2013,IT,1002,Airasca,"0,000%"
1,2013,IT,1006,Almese,"0,000%"
2,2013,IT,1007,Alpette,"0,000%"
3,2013,IT,1008,Alpignano,"0,000%"
4,2013,IT,1013,Avigliana,"0,000%"


### Operazioni avanzate di modifica

#### APPLY

Molto spesso ci ritroveremo a non dover assegnare a un'intera colonna lo stesso valore, esempio 0 come abbiamo visto prima...  
ma molto più probabilmente ci sarà una "regola" su cui vogliamo basare l'assegnazione per ogni riga.  
Ad esempio, se vogliamo creare una colonna che contiene "Year" diviso 100 per ottenere 2013 --> 13 e quindi questa operazione  
dovrà essere "APPLICATA" per ogni riga di quella colonna, dobbiamo usare .apply( )


Apply non è semplice da capire all'inizio ma è la funzione più potente e utile (assieme a groupy) che userete.  
Iniziamo dicendo che apply richiede come attributo **funzione** e non una semplice variabile.  
Quindi:
- Creiamo una funzione "al volo" tramite lambda --> Se è un operazione semplice che si può scrivere con una sola istruzione.  
- Possiamo anche definire una funzione vera e propria e passargli quella --> Se richiede più operazioni.  
- Magari esiste già una funzione e possiamo direttamente dargli quella (esempio: sum)

Quindi iniziamo nello specificare 2 "versioni":
- apply su una colonna --> Alla funzione verrà passato come attributo una cella per ogni riga e la funzione verrà chiamata tante volte passando cella per cella finché non finiscono le righe.  
- apply sull'intero dataframe --> Alla funzione verrà passato come attributo un'intera riga e la funzione verrà chiamata tante volte quante sono le righe del dataframe.

Proviamo a vederlo "in piccolo"

Creo un DataFrame di prova. Per ora ignorate come lo sto facendo

In [None]:
righe_df_piccolo = [
    {"Colonna_1": 1},
    {"Colonna_1": 2},
    {"Colonna_1": 3}
]
df_piccolo = pd.DataFrame(righe_df_piccolo)
df_piccolo # Questo in ogni caso è il df che usiamo per il test

Unnamed: 0,Colonna_1
0,1
1,2
2,3


ora proviamo ad usare apply su una funzione che però non fa sostanzialmente nulla se non fare print su quello che riceve come attributo

In [None]:
def printiamo_x(x):
    print(x)
    return x

df_piccolo["Colonna_2"] = df_piccolo["Colonna_1"].apply(printiamo_x)

1
2
3


Ora è più chiaro quello che succede:  
La funzione da noi creata "printiamo_x" fa la stampa del valore che gli viene passato da apply e in questo caso corrisponde al valore contenuto nella Colonna_1 riga per riga. La funzione è quindi chiamata 3 volte perché il data frame contiene 3 righe.

Cosa succede se usiamo .apply() ma non su una colonna specifica ma su tutto il data frame?  

In [None]:
def printiamo_x(x):
    print(x)
    return x["Colonna_1"]

df_piccolo["Colonna_3"] = df_piccolo.apply(printiamo_x, axis=1)

Colonna_1    1
Colonna_2    1
Colonna_3    1
Name: 0, dtype: int64
Colonna_1    2
Colonna_2    2
Colonna_3    2
Name: 1, dtype: int64
Colonna_1    3
Colonna_2    3
Colonna_3    3
Name: 2, dtype: int64


Succede che "x" in questo caso è un intera riga non una singola cella della colonna specificata.  
Infatti il return abbiamo potuto specificare di quale colonna restituire il valore di x.  
N.B: axis=1 gli stiamo dicendo "dammi una riga" altrimenti sarebbe stata "dammi una colonna".

Ritornando al nostro esempio:

In [None]:
def calcolo_IdCity_diviso_10(id_city):    # <--- Riceve la "cella" della colonna id_city.
    return id_city / 100   # <--- La funzione deve restituire il risultato della cella da posizionare in quella riga

df["IdCity_diviso_10"] = df["IdCity"].apply(calcolo_IdCity_diviso_10) # <--- apply chiama n volte la funzione passando una cella per ogni riga
# Alla fine avrà creato questa nuova colonna contenente tutti i risultati delle "return" della funzione
# e la inseriamo dentro una nuova colonna.

# Guardiamo il risultato
df.head()

Unnamed: 0,Year,IdCountry,IdCity,City,%,IdCity_diviso_10
0,2013,IT,1002,Airasca,"0,000%",10.02
1,2013,IT,1006,Almese,"0,000%",10.06
2,2013,IT,1007,Alpette,"0,000%",10.07
3,2013,IT,1008,Alpignano,"0,000%",10.08
4,2013,IT,1013,Avigliana,"0,000%",10.13


A cosa serve usare apply su un intera riga?  
Ad sempio se ci serve creare la nuova colonna calcolando i valori contenuti su più colonne di quella riga...  
Ad esempio immaginiamo di voler unire IdCountry e City in un unica stringa:

In [None]:
def uniamo_City_e_country(row):
    return row["IdCountry"] + " - " + row["City"] # <-- Con "row" abbiamo accesso a tutte le colonne della riga

df["City_country"] = df.apply(uniamo_City_e_country, axis=1)
df.head()

Unnamed: 0,Year,IdCountry,IdCity,City,%,IdCity_diviso_10,City_country
0,2013,IT,1002,Airasca,"0,000%",10.02,IT - Airasca
1,2013,IT,1006,Almese,"0,000%",10.06,IT - Almese
2,2013,IT,1007,Alpette,"0,000%",10.07,IT - Alpette
3,2013,IT,1008,Alpignano,"0,000%",10.08,IT - Alpignano
4,2013,IT,1013,Avigliana,"0,000%",10.13,IT - Avigliana


#### ITERROWS e ITEMS

Un metodo meno consigliato perché MOLTO più lento è .iterrows() che ci permette di scorrere all'interno di un for python le righe del dataframe.  
Quest'operazione sarebbe da utilizzare solo se non esiste modo di effettuare la stessa operazione con .apply() e di solito infatti non si usa, ma per completezza vi mostro che esiste e come si usa:

In [None]:
for idx, row in df.iterrows():
    # PER NON SCORRERE TUTTO IL DF CHE E' GRANDE CI FERMIAMO AL SECONDO CICLO
    if idx == 2:
        break

    # Facciamo i print per capire cosa contengono
    print("--------------")
    print(f"idx: {idx}")
    print(f"row: {row}")

--------------
idx: 0
row: Year                        2013
IdCountry                     IT
IdCity                      1002
City                     Airasca
%                         0,000%
IdCity_diviso_10           10.02
City_country        IT - Airasca
Name: 0, dtype: object
--------------
idx: 1
row: Year                       2013
IdCountry                    IT
IdCity                     1006
City                     Almese
%                        0,000%
IdCity_diviso_10          10.06
City_country        IT - Almese
Name: 1, dtype: object


Esiste anche la possibilità di usare il DataFrame come se fosse un normale dizionario di python, ma anche in questo caso è fortemente sconsigliato a meno di casi particolari perché troppo lento da eseguire rispetto apply.

In [None]:
for k, v in df.items():
    # Facciamo i print per capire cosa contengono
    print("--------------")
    print(f"k: {k}")    # <--- La chiave è il nome della colonna che sta scorrendo
    print(f"v:\n{v}")    # <--- Il valore è la lista (in realtà "Series") dei valori di quella colonna
    break