# Pandas

**Pandas** è una libreria software scritta per il linguaggio di programmazione Python per la manipolazione e l'analisi dei dati. In particolare, offre strutture dati e operazioni per manipolare tabelle numeriche e serie temporali.<br>
Il nome deriva dal termine "panel datas".<br>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Gli oggetti principali introdotti da Pandas sono **Series** e **DataFrame**.


### DataFrame

I dataframe sono tabelle di dati. Hanno colonne nominate e righe indicizzate.

In [2]:
#posso inizializzare un Dataframe con un dizionario
Dict = {"altezza":[180,177,167,154,145,160,187], "peso":[90,70,90,50,45,77,80], "sesso" : ["M","F","M","F","F","M","M"]}
data = pd.DataFrame(Dict)
data

Unnamed: 0,altezza,peso,sesso
0,180,90,M
1,177,70,F
2,167,90,M
3,154,50,F
4,145,45,F
5,160,77,M
6,187,80,M


In [3]:
data.head() #primi 5 valori (di default) del dataframe

Unnamed: 0,altezza,peso,sesso
0,180,90,M
1,177,70,F
2,167,90,M
3,154,50,F
4,145,45,F


In [4]:
data.tail(2) #ultimi due valori del dataframe

Unnamed: 0,altezza,peso,sesso
5,160,77,M
6,187,80,M


In [5]:
data.columns # restituisce nomi colonne

Index(['altezza', 'peso', 'sesso'], dtype='object')

In [6]:
data.index #restituisce gli indici (nomi righe)

RangeIndex(start=0, stop=7, step=1)

### Series

Le Series sono colonne singole di dati. In pratica sono array con righe indicizzate.

In [7]:
v = np.random.randn(10)
serie = pd.Series(v)
serie

0    0.378852
1    1.408637
2    1.123747
3    1.085464
4   -0.672127
5   -0.181868
6   -1.491543
7    0.809835
8   -0.779386
9    0.247329
dtype: float64

È possibile assegnare dei valori alle righe di una Series (o di un DataFrame), utilizzando un parametro **index**. <br>
Inoltre, una Series non ha un nome di colonna, ma ha solo un nome complessivo

In [8]:
pd.Series([300, 450, 400], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product X')

2015 Sales    300
2016 Sales    450
2017 Sales    400
Name: Product X, dtype: int64

## Importare i dati dall'esterno

### Importare i dati da csv

Il metodo da utilizzare per importare i dati da un csv con la libreria Pandas è __[read_csv](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)__. <br>
Ci sono molti parametri per il metodo *read_csv*, i più importanti sono:
- sep
- delimeter
- header
- index_col
- skiprows
- na_values <br>
...

In [9]:
dataset = pd.read_csv("dataset.csv", index_col = 0) 
#index_col prende la colonna n-esima del csv per indicizzare le righe. 
# La colonna indicata non rientrerà nella tabella sotto forma di colonna
# può anche avere valore False, in tal caso tutte le colonne del csv diverrano
# colonne del dataset e le righe verranno indicizzate a partire da 0
dataset.head(5)

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,71.2833,C,1
2,3,"Heikkinen, Miss. Laina",female,26.0,7.925,S,1
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,53.1,S,1
4,3,"Allen, Mr. William Henry",male,35.0,8.05,S,0
5,3,"Moran, Mr. James",male,,8.4583,Q,0


### Importare i dati da excell

Il metodo da utilizzare per importare i dati da un file excel con la libreria Pandas è __[read_excel](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)__. <br>
In questo caso sarà necessario indicare in quale sheet del file excel si trova il dataframe che vogliamo importare utilizzando il parametro *sheet_name*.

In [10]:
dataset = pd.read_excel("dataset_excel_workbook.xlsx", sheet_name='dataset', index_col=0)
dataset.tail(5)

Unnamed: 0,Pclass,Name,Sex,Age,Fare,Embarked,Survived
16,3,"Rice, Master. Eugene",male,2.0,29.125,Q,0
17,2,"Williams, Mr. Charles Eugene",male,,13.0,S,1
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,18.0,S,0
19,3,"Masselmani, Mrs. Fatima",female,,7.225,C,1
20,2,"Fynney, Mr. Joseph J",male,35.0,26.0,S,0


### Importare dati da un sito web

Il metodo da utilizzare per importare una tabella da un sito web con la libreria Pandas è __[read_html](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_html.html#pandas.read_html)__. <br>
I parametri più importanti da considerare nel momento in cui si fa l'import sono i seguenti: <br>
- **skiprows** = indica il numero di righe da saltare nell'importazione; <br>
- **header** = indica la riga da utilizzare per creare le intestazioni delle colonne.

In [11]:
classifica_serie_a = pd.read_html(io="http://www.legaseriea.it/it/serie-a/classifica/2019-20", skiprows=1, header=0)
# read_html ritorna una lista di DF
serie_a = classifica_serie_a[0]
serie_a.head()

Unnamed: 0,SQUADRE,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,1 Juventus,83,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,2 Inter,82,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,3 Atalanta,78,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,4 Lazio,78,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,5 Roma,70,38,21,7,10,19,10,4,5,19,11,3,5,77,51


### Estrapolazione dati da Dataframe 

In [12]:
serie_a["SQUADRE"].head()

0    1  Juventus
1       2  Inter
2    3  Atalanta
3       4  Lazio
4        5  Roma
Name: SQUADRE, dtype: object

In [13]:
serie_a.SQUADRE.head()

0    1  Juventus
1       2  Inter
2    3  Atalanta
3       4  Lazio
4        5  Roma
Name: SQUADRE, dtype: object

In [14]:
# Estrapolazione primi 5
serie_a["PUNTI"][0:5] 

0    83
1    82
2    78
3    78
4    70
Name: PUNTI, dtype: int64

## Data Wrangling

Nel caso del dataset della serie A abbiamo notato che risulta essere un po' sporco, in particolare la prima colonna.<br>
L'operazione di pulizia e preparazione del dataset prende il nome di **Data Wrangling**

#### Columns Wrangling

In [15]:
classifica_serie_a = pd.read_html(io="http://www.legaseriea.it/it/serie-a/classifica/2019-20", skiprows=1, header=0)
# read_html ritorna una lista di DF
serie_a = classifica_serie_a[0]
serie_a.head()

Unnamed: 0,SQUADRE,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,1 Juventus,83,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,2 Inter,82,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,3 Atalanta,78,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,4 Lazio,78,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,5 Roma,70,38,21,7,10,19,10,4,5,19,11,3,5,77,51


In [16]:
serie_a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 16 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   SQUADRE  20 non-null     object
 1   PUNTI    20 non-null     int64 
 2   G        20 non-null     int64 
 3   V        20 non-null     int64 
 4   N        20 non-null     int64 
 5   P        20 non-null     int64 
 6   G.1      20 non-null     int64 
 7   V.1      20 non-null     int64 
 8   N.1      20 non-null     int64 
 9   P.1      20 non-null     int64 
 10  G.2      20 non-null     int64 
 11  V.2      20 non-null     int64 
 12  N.2      20 non-null     int64 
 13  P.2      20 non-null     int64 
 14  F        20 non-null     int64 
 15  S        20 non-null     int64 
dtypes: int64(15), object(1)
memory usage: 2.6+ KB


In [17]:
serie_a.insert(0, "POSIZIONI&SQUADRE", serie_a["SQUADRE"] )  # inserisco nuova colonna
serie_a["G duplicato"] = serie_a["G"] # inserisco in coda una nuova colonna
serie_a.head()

Unnamed: 0,POSIZIONI&SQUADRE,SQUADRE,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S,G duplicato
0,1 Juventus,1 Juventus,83,38,26,5,7,19,16,2,1,19,10,3,6,76,43,38
1,2 Inter,2 Inter,82,38,24,10,4,19,11,6,2,19,13,4,2,81,36,38
2,3 Atalanta,3 Atalanta,78,38,23,9,6,19,12,2,5,19,11,7,1,98,48,38
3,4 Lazio,4 Lazio,78,38,24,6,8,19,14,3,2,19,10,3,6,79,42,38
4,5 Roma,5 Roma,70,38,21,7,10,19,10,4,5,19,11,3,5,77,51,38


In [18]:
serie_a_new = serie_a.drop(labels = ["SQUADRE", "G duplicato"], axis=1) # cancello le colonne inutili
print(serie_a.columns) # serie_a è immutato
print(serie_a_new.columns) # l'output invee è stato modificato correttamente

Index(['POSIZIONI&SQUADRE', 'SQUADRE', 'PUNTI', 'G', 'V', 'N', 'P', 'G.1',
       'V.1', 'N.1', 'P.1', 'G.2', 'V.2', 'N.2', 'P.2', 'F', 'S',
       'G duplicato'],
      dtype='object')
Index(['POSIZIONI&SQUADRE', 'PUNTI', 'G', 'V', 'N', 'P', 'G.1', 'V.1', 'N.1',
       'P.1', 'G.2', 'V.2', 'N.2', 'P.2', 'F', 'S'],
      dtype='object')


In [19]:
# cancello le colonne inutili DIRETTAMENTE SU serie_a
serie_a_new = serie_a.drop(labels = ["SQUADRE", "G duplicato"], axis=1, inplace = True)
print(serie_a.columns)
print("")
print(type(serie_a_new), ": con \"inplace = True\" la funzione modifica direttamente il database di partenza")
print("e non restituisce più la copia modificata")

Index(['POSIZIONI&SQUADRE', 'PUNTI', 'G', 'V', 'N', 'P', 'G.1', 'V.1', 'N.1',
       'P.1', 'G.2', 'V.2', 'N.2', 'P.2', 'F', 'S'],
      dtype='object')

<class 'NoneType'> : con "inplace = True" la funzione modifica direttamente il database di partenza
e non restituisce più la copia modificata


In [20]:
nrows = serie_a.shape[0]
Posizioni = list(range(nrows))
Squadre = list(range(nrows))
for i in range(serie_a.shape[0]):
    if i+1<10:
        n_cifre = 1
    else:
        n_cifre = 2
    
    Posizioni[i] = int(serie_a["POSIZIONI&SQUADRE"][i][:n_cifre])
    Squadre[i] = serie_a["POSIZIONI&SQUADRE"][i][n_cifre+2:]
    
serie_a.insert(0,"SQUADRE", Squadre)
serie_a.insert(1,"POSIZIONI", Posizioni)
serie_a.drop("POSIZIONI&SQUADRE", axis = 1, inplace = True)
serie_a.head()

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,Lazio,4,78,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,Roma,5,70,38,21,7,10,19,10,4,5,19,11,3,5,77,51


In [21]:
serie_a.set_index("SQUADRE", inplace = True) 

In [22]:
# filtro per nomi colonne e metto una condizione alle righe
serie_a[["V","N","P"]][serie_a.POSIZIONI>10] 

Unnamed: 0_level_0,V,N,P
SQUADRE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Parma,14,7,17
Bologna,12,11,15
Udinese,12,9,17
Cagliari,11,12,15
Sampdoria,12,6,20
Torino,11,7,20
Genoa,10,9,19
Lecce,9,8,21
Brescia,6,7,25
Spal,5,5,28


In [23]:
print(serie_a["POSIZIONI"][[0,1,4]])
print("")
print(serie_a["POSIZIONI"][["Juventus","Inter","Milan"]])
print("")

try:
    serie_a[["G","V","N","P"]][["Juventus","Inter","Milan"]]
except:
    print("Non si può fare selezione delle righe selezionando più colonne per label")
    
try:
    serie_a[["G","V","N","P"]][[0,1,4]]
except:
    print("Non si può fare selezione delle righe selezionando più colonne per posizione")

# Le informazioni passate in questo caso sono

SQUADRE
Juventus    1
Inter       2
Roma        5
Name: POSIZIONI, dtype: int64

SQUADRE
Juventus    1
Inter       2
Milan       6
Name: POSIZIONI, dtype: int64

Non si può fare selezione delle righe selezionando più colonne per label
Non si può fare selezione delle righe selezionando più colonne per posizione


Oltre la selezione colonna-riga, Pandas utilizza due paradigmi riga-colonna per selezionare i dati: <br>
- Index-based: ovvero basandosi sulla posizione numerica dei dati (**iloc**); <br>
- Label-based: ovvero basandosi sul valore di un indice dei dati (**loc**).

Sono molto utili quando si vuole selezionare più colonne e più righe contemporaneamente. <br>

In [24]:
serie_a.iloc[[0,1,4],[1,0]] 
# ILOC usa le informazioni sulle POSIZIONI di 1.righe e 2.colonne da estrarre

Unnamed: 0_level_0,PUNTI,POSIZIONI
SQUADRE,Unnamed: 1_level_1,Unnamed: 2_level_1
Juventus,83,1
Inter,82,2
Roma,70,5


In [25]:
serie_a.loc[["Juventus", "Inter", "Milan"],["G", "V","N","P"]] 
# LOC usa le informazioni sui NOMI di 1.righe e 2.colonne da estrarre

Unnamed: 0_level_0,G,V,N,P
SQUADRE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Juventus,38,26,5,7
Inter,38,24,10,4
Milan,38,19,9,10


In [26]:
serie_a.loc[serie_a.V>17,["POSIZIONI", "V", "N", "P"]]
# le condizioni riescono a filtrare

Unnamed: 0_level_0,POSIZIONI,V,N,P
SQUADRE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Juventus,1,26,5,7
Inter,2,24,10,4
Atalanta,3,23,9,6
Lazio,4,24,6,8
Roma,5,21,7,10
Milan,6,19,9,10
Napoli,7,18,8,12


**Esericizio**: Usare i dataframe *data* e *new_years* definiti nella prossima cella:

In [27]:
Dict = { "costi_fissi":[3000,4500,2500,2000,2000], "entrate":[5000,5000,5000,4000,3000], "costi_totali":[4000,7000,3000,3000,2500] }
index = ["2010y","2011y","2012y","2013y","2014y"]
data = pd.DataFrame(Dict, index = index)
data_copy = data.copy()

New = { "costi_fissi":[2000,2000], "entrate":[2000,2500], "costi_variabili":[500,800] }
new_years = pd.DataFrame(New, index = ["2015y","2016y"])

 e fare le seguenti modifiche:
- **\[\*\]** aggiungere la colonna "costi_variabili" con valori pari alla differenza tra costi totali e costi fissi
- **\[\*\]** togliere la colonna costi totali
- **\[\*\]** aggiungere in coda a *data* il dataframe *new_years* (*Suggerimento*: help(pd.concat))
- **\[\*\*\]** estrapolare dal nuovo dataset le entrate e i costi variabili degli anni con ricavi positivi

Tutte le modifiche devono essere fatte direttamente sul dataframe (per emergenze usare il DF *data_copy*)

#### Rows wrangling

In [28]:
serie_a_c = serie_a.copy()
serie_a_c.reset_index(inplace = True) # rimetto la colonna squadre al suo posto, e utilizzo l'indicizzazione standard
serie_a_c.head()

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,Lazio,4,78,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,Roma,5,70,38,21,7,10,19,10,4,5,19,11,3,5,77,51


In [29]:
# osservando soltanto la colonna del numero di vittorie, cancello i duplicati
serie_a_2 = serie_a_c.drop_duplicates(subset=['V'])
serie_a_2 # gli indici sono sfasati!

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78,38,23,9,6,19,12,2,5,19,11,7,1,98,48
4,Roma,5,70,38,21,7,10,19,10,4,5,19,11,3,5,77,51
5,Milan,6,66,38,19,9,10,19,9,6,4,19,10,3,6,63,46
6,Napoli,7,62,38,18,8,12,19,10,3,6,19,8,5,6,61,50
7,Sassuolo,8,51,38,14,9,15,19,8,3,8,19,6,6,7,69,63
8,Hellas Verona,9,49,38,12,13,13,19,9,5,5,19,3,8,8,47,51
13,Cagliari,14,45,38,11,12,15,19,7,4,8,19,4,8,7,52,56
16,Genoa,17,39,38,10,9,19,19,7,1,11,19,3,8,8,47,73


In [30]:
serie_a_2.reset_index(drop=True)
# rimetto a posto gli indici. con drop = False si aggiunge una colonna "index" al DF con la vecchia indicizzazione

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,Roma,5,70,38,21,7,10,19,10,4,5,19,11,3,5,77,51
4,Milan,6,66,38,19,9,10,19,9,6,4,19,10,3,6,63,46
5,Napoli,7,62,38,18,8,12,19,10,3,6,19,8,5,6,61,50
6,Sassuolo,8,51,38,14,9,15,19,8,3,8,19,6,6,7,69,63
7,Hellas Verona,9,49,38,12,13,13,19,9,5,5,19,3,8,8,47,51
8,Cagliari,14,45,38,11,12,15,19,7,4,8,19,4,8,7,52,56
9,Genoa,17,39,38,10,9,19,19,7,1,11,19,3,8,8,47,73


#### Missing Values

Ci sono diversi metodi per rilevare, rimuovere e sostituire i valori nulli in un dataset: <br>
- **isnull()**  : utilizzato per identificare i missing values all'interno di un dataset <br>
- **notnull()** : l'opposto di *isnull()* <br>
- **dropna()**  : restituisce il dataset senza i missing values <br>
- **fillna()**  : restituisce una copia del dataset, con i valori mancanti sostituiti da altri parametri decisi dall'utente 
- **interpolate()**  : restituisce una copia del dataset, con i valori mancanti sostituiti da dati interpolati (ottimo per serie storiche)

In [31]:
raw_serie_a = serie_a.loc[serie_a.POSIZIONI<11,:].reset_index()
raw_serie_a

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,Lazio,4,78,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,Roma,5,70,38,21,7,10,19,10,4,5,19,11,3,5,77,51
5,Milan,6,66,38,19,9,10,19,9,6,4,19,10,3,6,63,46
6,Napoli,7,62,38,18,8,12,19,10,3,6,19,8,5,6,61,50
7,Sassuolo,8,51,38,14,9,15,19,8,3,8,19,6,6,7,69,63
8,Hellas Verona,9,49,38,12,13,13,19,9,5,5,19,3,8,8,47,51
9,Fiorentina,10,49,38,12,13,13,19,5,8,6,19,7,5,7,51,48


In [32]:
raw_serie_a["PUNTI"][[3,5,7,9]] = np.nan
raw_serie_a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   SQUADRE    10 non-null     object 
 1   POSIZIONI  10 non-null     int64  
 2   PUNTI      6 non-null      float64
 3   G          10 non-null     int64  
 4   V          10 non-null     int64  
 5   N          10 non-null     int64  
 6   P          10 non-null     int64  
 7   G.1        10 non-null     int64  
 8   V.1        10 non-null     int64  
 9   N.1        10 non-null     int64  
 10  P.1        10 non-null     int64  
 11  G.2        10 non-null     int64  
 12  V.2        10 non-null     int64  
 13  N.2        10 non-null     int64  
 14  P.2        10 non-null     int64  
 15  F          10 non-null     int64  
 16  S          10 non-null     int64  
dtypes: float64(1), int64(15), object(1)
memory usage: 1.5+ KB


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  raw_serie_a["PUNTI"][[3,5,7,9]] = np.nan
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  iloc._setitem_with_indexer(indexer, value)


In [33]:
raw_serie_a.isnull()

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
5,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False
6,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
7,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
9,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [34]:
raw_serie_a["PUNTI"].notnull()

0     True
1     True
2     True
3    False
4     True
5    False
6     True
7    False
8     True
9    False
Name: PUNTI, dtype: bool

In [35]:
raw_serie_a.dropna()

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83.0,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82.0,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78.0,38,23,9,6,19,12,2,5,19,11,7,1,98,48
4,Roma,5,70.0,38,21,7,10,19,10,4,5,19,11,3,5,77,51
6,Napoli,7,62.0,38,18,8,12,19,10,3,6,19,8,5,6,61,50
8,Hellas Verona,9,49.0,38,12,13,13,19,9,5,5,19,3,8,8,47,51


In [36]:
raw_serie_a.fillna(100)

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83.0,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82.0,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78.0,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,Lazio,4,100.0,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,Roma,5,70.0,38,21,7,10,19,10,4,5,19,11,3,5,77,51
5,Milan,6,100.0,38,19,9,10,19,9,6,4,19,10,3,6,63,46
6,Napoli,7,62.0,38,18,8,12,19,10,3,6,19,8,5,6,61,50
7,Sassuolo,8,100.0,38,14,9,15,19,8,3,8,19,6,6,7,69,63
8,Hellas Verona,9,49.0,38,12,13,13,19,9,5,5,19,3,8,8,47,51
9,Fiorentina,10,100.0,38,12,13,13,19,5,8,6,19,7,5,7,51,48


In [37]:
raw_serie_a.fillna(method = "ffill")

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83.0,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82.0,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78.0,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,Lazio,4,78.0,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,Roma,5,70.0,38,21,7,10,19,10,4,5,19,11,3,5,77,51
5,Milan,6,70.0,38,19,9,10,19,9,6,4,19,10,3,6,63,46
6,Napoli,7,62.0,38,18,8,12,19,10,3,6,19,8,5,6,61,50
7,Sassuolo,8,62.0,38,14,9,15,19,8,3,8,19,6,6,7,69,63
8,Hellas Verona,9,49.0,38,12,13,13,19,9,5,5,19,3,8,8,47,51
9,Fiorentina,10,49.0,38,12,13,13,19,5,8,6,19,7,5,7,51,48


In [38]:
raw_serie_a.fillna(method = "bfill")

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83.0,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82.0,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78.0,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,Lazio,4,70.0,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,Roma,5,70.0,38,21,7,10,19,10,4,5,19,11,3,5,77,51
5,Milan,6,62.0,38,19,9,10,19,9,6,4,19,10,3,6,63,46
6,Napoli,7,62.0,38,18,8,12,19,10,3,6,19,8,5,6,61,50
7,Sassuolo,8,49.0,38,14,9,15,19,8,3,8,19,6,6,7,69,63
8,Hellas Verona,9,49.0,38,12,13,13,19,9,5,5,19,3,8,8,47,51
9,Fiorentina,10,,38,12,13,13,19,5,8,6,19,7,5,7,51,48


In [39]:
raw_serie_a.interpolate(method = "linear")

Unnamed: 0,SQUADRE,POSIZIONI,PUNTI,G,V,N,P,G.1,V.1,N.1,P.1,G.2,V.2,N.2,P.2,F,S
0,Juventus,1,83.0,38,26,5,7,19,16,2,1,19,10,3,6,76,43
1,Inter,2,82.0,38,24,10,4,19,11,6,2,19,13,4,2,81,36
2,Atalanta,3,78.0,38,23,9,6,19,12,2,5,19,11,7,1,98,48
3,Lazio,4,74.0,38,24,6,8,19,14,3,2,19,10,3,6,79,42
4,Roma,5,70.0,38,21,7,10,19,10,4,5,19,11,3,5,77,51
5,Milan,6,66.0,38,19,9,10,19,9,6,4,19,10,3,6,63,46
6,Napoli,7,62.0,38,18,8,12,19,10,3,6,19,8,5,6,61,50
7,Sassuolo,8,55.5,38,14,9,15,19,8,3,8,19,6,6,7,69,63
8,Hellas Verona,9,49.0,38,12,13,13,19,9,5,5,19,3,8,8,47,51
9,Fiorentina,10,49.0,38,12,13,13,19,5,8,6,19,7,5,7,51,48


## Esplorare il dataset

In [40]:
titanic = pd.read_csv("train.csv", index_col = 0)
titanic.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [41]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3   Sex       891 non-null    object 
 4   Age       714 non-null    float64
 5   SibSp     891 non-null    int64  
 6   Parch     891 non-null    int64  
 7   Ticket    891 non-null    object 
 8   Fare      891 non-null    float64
 9   Cabin     204 non-null    object 
 10  Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(5)
memory usage: 83.5+ KB


In [42]:
titanic.describe()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,714.0,891.0,891.0,891.0
mean,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.125,0.0,0.0,7.9104
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.0
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [43]:
titanic.Embarked.describe()

count     889
unique      3
top         S
freq      644
Name: Embarked, dtype: object

In [44]:
#quante sono le categorie di embarked?
titanic.Embarked.unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [45]:
 print("per la colonna Cabin abbiamo",titanic.Cabin.isnull().sum(), "dati mancanti su", titanic.Cabin.isnull().count())

per la colonna Cabin abbiamo 687 dati mancanti su 891


In [46]:
 print("Sono sopravvissute",titanic.Survived.sum(), "persone su ", titanic.Survived.count())

Sono sopravvissute 342 persone su  891


### Grouping and sorting

In [47]:
# Età media divisa per Classe di biglietto
titanic.groupby("Pclass").Age.mean()

Pclass
1    38.233441
2    29.877630
3    25.140620
Name: Age, dtype: float64

In [48]:
# sumero di sopravvissuti e percentuale di sopravvivenza divisa per sesso
titanic.groupby("Sex").Survived.agg([sum,np.mean])

Unnamed: 0_level_0,sum,mean
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,233,0.742038
male,109,0.188908


In [49]:
# aggregazione su più classi
titanic.groupby(['Pclass', 'Sex']).Survived.agg([sum, np.mean])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
Pclass,Sex,Unnamed: 2_level_1,Unnamed: 3_level_1
1,female,91,0.968085
1,male,45,0.368852
2,female,70,0.921053
2,male,17,0.157407
3,female,72,0.5
3,male,47,0.135447


In [50]:
# sort per valori
titanic_s = titanic.sort_values("Age")[["Name", "Sex", "Age", "Survived"]].dropna()
titanic_s

Unnamed: 0_level_0,Name,Sex,Age,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
804,"Thomas, Master. Assad Alexander",male,0.42,1
756,"Hamalainen, Master. Viljo",male,0.67,1
645,"Baclini, Miss. Eugenie",female,0.75,1
470,"Baclini, Miss. Helene Barbara",female,0.75,1
79,"Caldwell, Master. Alden Gates",male,0.83,1
...,...,...,...,...
117,"Connors, Mr. Patrick",male,70.50,0
494,"Artagaveytia, Mr. Ramon",male,71.00,0
97,"Goldschmidt, Mr. George B",male,71.00,0
852,"Svensson, Mr. Johan",male,74.00,0


In [51]:
#sort per indici
titanic_s.sort_index()

Unnamed: 0_level_0,Name,Sex,Age,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,"Braund, Mr. Owen Harris",male,22.0,0
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1
3,"Heikkinen, Miss. Laina",female,26.0,1
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1
5,"Allen, Mr. William Henry",male,35.0,0
...,...,...,...,...
886,"Rice, Mrs. William (Margaret Norton)",female,39.0,0
887,"Montvila, Rev. Juozas",male,27.0,0
888,"Graham, Miss. Margaret Edith",female,19.0,1
890,"Behr, Mr. Karl Howell",male,26.0,1


**Esercizio \[\*\*\]** plottare un grafico a barre che mostri il numero di dati mancanti sulla cabina divisi per *Pclass* <br>
*Suggerimento*: aggiungere a *titanic* una colonna che individui i dati mancanti <br>
**Jackpot! \[\*\*\*\]**: plottare con una sola riga di combinazione di comandi (esclusa l'aggiunta di colonne)