# <b>Fondamenti di Analisi Dati</b> - a.a. 2020/2021

## 4 <b>Pandas</b>

Pandas è una libreria di alto livello che mette a disposizione diversi strumenti e strutture dati per l'analisi dei dati. In particolare, Pandas è molto utile per manipolare e visualizzare i dati in maniera veloce prima di passare all'analisi vera e propria.<br>
Le due strutture dati principali di Pandas sono le <i>Series</i> e i <i>DataFrame</i>.

### 4.1 Series

Una <b>Series</b> è una struttura monodimensionale (una serie di dati) molto simile a un array di NumPy che consente di indicizzare gli elementi mediante etichette (oltre che con i numeri). I valori contenuti in una serie possono essere di qualsiasi tipo.

In [1]:
import pandas as pd
s1 = pd.Series([7,5,2,8,9,6])
print(s1)

0    7
1    5
2    2
3    8
4    9
5    6
dtype: int64


I numeri visualizzati sulla sinistra rappresentano le etichette dei valori contenute nella serie che di default sono di tipo numerico e
sequenziale. Durante la definizione di una serie è possibile specificare le proprie etichette (una per ogni valore).

In [2]:
valori = [7,5,2,8,9,6]
etichette = ['a','b','c','d','e','f']
s2 = pd.Series(valori, index=etichette)
print(s2)

a    7
b    5
c    2
d    8
e    9
f    6
dtype: int64


Possiamo definire una serie anche mediante un dizionario, specificando contemporaneamente etichette e valori.

In [3]:
s3=pd.Series({'a1':5,'a2':12,'n':94})
print(s3)

a1     5
a2    12
n     94
dtype: int64


È possibile assegnare un nome alla serie.

In [4]:
pd.Series([1,2,3], name='Serie I')

0    1
1    2
2    3
Name: Serie I, dtype: int64

#### 4.1.1 Indicizzazione e slicing

Quando gli indici sono numerici, le serie possono essere indicizzate come gli array di numpy.

In [5]:
print(s1[0],"\n") #indicizzazione
print(s1[0:4:2]) #slicing

7 

0    7
2    2
dtype: int64


Quando gli indici sono delle etichette personalizzate l'indicizzazione avviene in maniera simile, ma non è possibile utilizzare lo slicing.

In [6]:
print(s3['a2'])

12


Anche per le serie è possibile modificare i valori tramite indicizzazione.

In [7]:
s3['a2'] = 9
print(s3)

a1     5
a2     9
n     94
dtype: int64


Se l'indice specificato non esiste, verrà creato un elemento nuovo.

In [8]:
s3['b1']=-23
print(s3)

a1     5
a2     9
n     94
b1   -23
dtype: int64


Possiamo specificare più etichette contemporaneamente tramite lista (di etichette).

In [9]:
print(s3[['a1','b1','n']]) #l'argomento passato alla serie è una lista di etichette (con un ordine da noi definito)

a1     5
b1   -23
n     94
dtype: int64


Le serie con etichette alfanumeriche possono essere indicizzate anche seguendo l'ordine in cui i dati sono inseriti nella serie. Per bypassare le etichette e utilizzare l'indice numerico utilizziamo il metodo <b>iloc</b>.

In [10]:
print(s2,'\n')
print("Elemento di indice 'a':",s2['a'])
print("Primo elemento della serie:",s2.iloc[0])

a    7
b    5
c    2
d    8
e    9
f    6
dtype: int64 

Elemento di indice 'a': 7
Primo elemento della serie: 7


In certi casi può essere utile ripristinare la numerazione degli indici tramite il metodo <b>reset_index</b>.

In [11]:
print(s3,'\n')
print(s3.reset_index(drop=True)) #drop=True indica di scartare i vecchi indici

a1     5
a2     9
n     94
b1   -23
dtype: int64 

0     5
1     9
2    94
3   -23
dtype: int64


Le serie ammettono anche l'indicizzazione logica.

In [12]:
print(s1,'\n') #serie s1
print(s1>2,'\n') #indicizzazione logica per selezionare gli elementi maggiori di 2
print(s1[s1>2],'\n') #applicazione dell'indicizzazione logica

0    7
1    5
2    2
3    8
4    9
5    6
dtype: int64 

0     True
1     True
2    False
3     True
4     True
5     True
dtype: bool 

0    7
1    5
3    8
4    9
5    6
dtype: int64 



Si può specificare la combinazione tra due condizioni tramite gli operatori logici <code>|</code> (or) e <code>&</code> (and), ricordando di racchiudere gli operandi tra parentesi tonde.

In [13]:
print(s1,"\n")
print((s1>2) & (s1<6),"\n")
print(s1[(s1>2) & (s1<6)])

0    7
1    5
2    2
3    8
4    9
5    6
dtype: int64 

0    False
1     True
2    False
3    False
4    False
5    False
dtype: bool 

1    5
dtype: int64


In [14]:
print(s1,"\n")
print((s1<2) | (s1>5),"\n")
print(s1[(s1<2) | (s1>5)])

0    7
1    5
2    2
3    8
4    9
5    6
dtype: int64 

0     True
1    False
2    False
3     True
4     True
5     True
dtype: bool 

0    7
3    8
4    9
5    6
dtype: int64


Come nel caso degli array di NumPy, l'allocazione della memoria è gestita dinamicamente per le Serie. Pertanto, se assegno una serie ad
una nuova variabile e modifico la seconda variabile, verrà modificata anche la prima.

In [15]:
s11=pd.Series([1,2,3])
s12=s11
s12[0]=-1
print(s11)

0   -1
1    2
2    3
dtype: int64


Per ottenere una nuova serie indipendente è necessario usare il metodo <code>copy</code>.

In [16]:
s11=pd.Series([1,2,3])
s12=s11.copy()
s12[0]=-1
print(s11)

0    1
1    2
2    3
dtype: int64


#### 4.1.2 Tipi di dati

Le <i>Series</i> possono contenere diversi tipi di dati.

In [17]:
pd.Series([2.5,3.4,5.2])

0    2.5
1    3.4
2    5.2
dtype: float64

Ad una serie viene associato un unico tipo di dato. Se specifichiamo dati di tipi eterogenei, la serie sarà di tipo <i>object</i>.

In [18]:
s=pd.Series([2.5,'A',5.2])
print(s)

0    2.5
1      A
2    5.2
dtype: object


È possibile cambiare il tipo di dato di una serie al volo con <code>astype</code> in maniera simile a quanto avviene con gli array di NumPy.

In [19]:
s=pd.Series([2,3,8,9,12,45])
print(s,"\n")
print(s.astype(float))

0     2
1     3
2     8
3     9
4    12
5    45
dtype: int64 

0     2.0
1     3.0
2     8.0
3     9.0
4    12.0
5    45.0
dtype: float64


In [20]:
s1=pd.Series(['1','2'])
print(s1,"\n")
print(s1.astype(int))

0    1
1    2
dtype: object 

0    1
1    2
dtype: int32


In [21]:
s=pd.Series([3.2,'Ciao',7]) #Attenzione: non sempre è possibile cambiare il "tipo"
print(s.astype(int))

ValueError: invalid literal for int() with base 10: 'Ciao'

#### 4.1.3 Operazioni

Sulle serie sono definite le principali operazioni presente per gli array di numpy.

In [22]:
s = pd.Series([2,7,4,8,3,3,2,9,8,5,9])
print("Min:",s.min())
print("Max:",s.max())
print("Mean:",s.mean())

Min: 2
Max: 9
Mean: 5.454545454545454


È possibile ottenere la dimensione di una serie mediante la funzione <code>len</code>.

In [23]:
print(len(s))

11


Per conoscere i valori di una serie esclusi i duplicati utilizziamo il metodo <code>unique</code>.

In [24]:
print("Unique:",s.unique()) #restituisce i valori univoci

Unique: [2 7 4 8 3 9 5]


Per conoscere il numero di valori univoci in una serie, possiamo utilizzare il metodo <code>nunique</code>.

In [25]:
s.nunique()

7

È possibile ottenere i valori univoci di una serie insieme alle frequenze con le quali essi appaiono nella serie mediante il metodo
<code>value_counts</code>.

In [26]:
import numpy as np
tmp = pd.Series(np.random.randint(0,10,100))
print(tmp.unique()) #valori univoci
tmp.value_counts() #valori univoci con relative frequenze

[0 3 2 4 1 6 5 9 8 7]


6    15
2    15
3    13
5    11
1    11
4     9
9     8
8     7
0     6
7     5
dtype: int64

Il risultato di <code>value_counts</code> è una <code>Series</code> in cui gli indici rappresentano i valori univoci, mentre i valori sono le frequenze con cui essi appaiono nella serie. La serie è ordinata per valori.

Il metodo <code>describe</code> permette di calcolare diverse statistiche dei valori contenuti nella serie.

In [27]:
tmp.describe()

count    100.000000
mean       4.240000
std        2.640477
min        0.000000
25%        2.000000
50%        4.000000
75%        6.000000
max        9.000000
dtype: float64

In [28]:
perc =[.20, .40, .60, .80]
tmp.describe(percentiles=perc)

count    100.000000
mean       4.240000
std        2.640477
min        0.000000
20%        2.000000
40%        3.000000
50%        4.000000
60%        5.000000
80%        6.200000
max        9.000000
dtype: float64

Nel caso in cui alcuni indici dovessero essere mancanti, le caselle corrispondenti verranno riempite con <code>NaN</code> (not a number).

In [29]:
s1 = pd.Series([1,4,2], index = [1,2,3])
s2 = pd.Series([4,2,8], index = [0,1,2])
print(s1,'\n')
print(s2,'\n')
print(s1+s2)

1    1
2    4
3    2
dtype: int64 

0    4
1    2
2    8
dtype: int64 

0     NaN
1     3.0
2    12.0
3     NaN
dtype: float64


In questo caso, l'indice <code>0</code> era presente solo nella seconda serie (<code>s2</code>), mentre l'indice <code>3</code> era presente solo nella prima serie (<code>s1</code>).

Se vogliamo escludere i valori <code>NaN</code> (inclusi i relativi indici) possiamo utilizzare il metodo <code>dropna</code>.

In [30]:
s3=s1+s2
print(s3,"\n")
print(s3.dropna())

0     NaN
1     3.0
2    12.0
3     NaN
dtype: float64 

1     3.0
2    12.0
dtype: float64


Possiamo applicare una funzione a tutti gli elementi di una serie mediante il metodo <code>apply</code>. Supponiamo ad esempio di voler
trasformare delle stringhe contenute in una serie in uppercase. Possiamo applicare la funzione <code>str.upper</code> mediante il metodo
<code>apply</code>.

In [31]:
s=pd.Series(['aba','cda','daf','acc'])
s.apply(str.upper)

0    ABA
1    CDA
2    DAF
3    ACC
dtype: object

Tramite apply possiamo applicare funzioni definite dall'utente attraverso le funzioni lambda o mediante la normale sintassi.

In [32]:
def miafun(x):
    y="Stringa: "
    return y+x
s.apply(miafun)

0    Stringa: aba
1    Stringa: cda
2    Stringa: daf
3    Stringa: acc
dtype: object

Possiamo scrivere la stessa funzione, in maniera più compatta, attraverso la funzione lambda.

In [33]:
s.apply(lambda x: "Stringa: "+x)

0    Stringa: aba
1    Stringa: cda
2    Stringa: daf
3    Stringa: acc
dtype: object

È possibile modificare tutte le occorrenze di un dato valore di una serie mediante il metodo <code>replace</code>.

In [34]:
serie = pd.Series([2,5,-4,12,-4,8,-9,0])
print(serie,"\n")
serie=serie.replace({-4:0}) #sostituisci tutti le occorrenze di -4 con 0
print(serie)

0     2
1     5
2    -4
3    12
4    -4
5     8
6    -9
7     0
dtype: int64 

0     2
1     5
2     0
3    12
4     0
5     8
6    -9
7     0
dtype: int64


#### 4.1.4 Conversione in array di NumPy

È possibile accedere ai valori della serie in forma di array di numpy tramite la proprietà <code>values</code>

In [35]:
print(s3.values)

[nan  3. 12. nan]


<b>N.B.:</b> <code>values</code> non crea una copia indipendente della serie, quindi se modifichiamo l'array di numpy
tramite <code>values</code> modifichiamo anche la serie.

In [36]:
a = s3.values
print(s3,"\n")
a[0]=-1
print(s3)

0     NaN
1     3.0
2    12.0
3     NaN
dtype: float64 

0    -1.0
1     3.0
2    12.0
3     NaN
dtype: float64


In [37]:
b = s3.copy().values #in questo modo otteniamo un array di numpy indipendente (tramite copy)
b[1]=-9
print(s3)

0    -1.0
1     3.0
2    12.0
3     NaN
dtype: float64


### 4.2 DataFrame

Un <b>DataFrame</b>, in pratica, è una tabella in cui:
<ul>
    <li>ogni riga rappresenta un'osservazione;
    <li>ogni colonna rappresenta una variabile.
</ul>
Righe e colonne possono essere indentificate da nomi. È molto comune assegnare nomi alle colonne.

#### 4.2.1 Costruzione e visualizzazione di un DataFrame

Un DataFrame può essere costruito da un array bidimensionale (una matrice) di NumPy.

In [38]:
import pandas as pd
import numpy as np
dati = np.random.rand(10,3) #matrice di valori random 10 x 3
#si tratta di una matrice di 10 osservazioni, ognuna caratterizzata da 3 variabili
df = pd.DataFrame(dati,columns=['A','B','C'])
df #in jupyter o in una shell ipython possiamo stampare il dataframe
#semplicemente scrivendo "df". In uno script dovremmo scrivere "print df".

Unnamed: 0,A,B,C
0,0.104205,0.33809,0.495214
1,0.866914,0.729168,0.149378
2,0.589555,0.584619,0.240965
3,0.253101,0.806298,0.87624
4,0.719982,0.326846,0.046792
5,0.509902,0.947252,0.24229
6,0.471285,0.731364,0.438659
7,0.14325,0.467292,0.958352
8,0.110412,0.490435,0.759531
9,0.32743,0.342399,0.765806


Ad ogni riga è stato assegnato in automatico un indice numerico. Se vogliamo possiamo specificare nomi anche per le righe.

In [39]:
np.random.seed(12345) #imposiamo un seed per ripetitibilità
df = pd.DataFrame(np.random.rand(4,3),columns=['A','B','C'],index=['X','Y','Z','W'])
df

Unnamed: 0,A,B,C
X,0.929616,0.316376,0.183919
Y,0.20456,0.567725,0.595545
Z,0.964515,0.653177,0.748907
W,0.65357,0.747715,0.961307


Analogamente a quanto visto nel caso delle serie, è possibile costruire un DataFrame mediante un dizionario che specifica nome e valori
di ogni colonna

In [40]:
pd.DataFrame({'A':np.random.rand(10), 'B':np.random.rand(10), 'C':np.random.rand(10)})

Unnamed: 0,A,B,C
0,0.008388,0.467599,0.903723
1,0.106444,0.325585,0.024676
2,0.298704,0.439645,0.491747
3,0.656411,0.729689,0.526255
4,0.809813,0.994015,0.596366
5,0.872176,0.676874,0.051958
6,0.964648,0.790823,0.89509
7,0.723685,0.170914,0.728266
8,0.642475,0.026849,0.81835
9,0.717454,0.80037,0.500223


Nel caso di dataset molto grandi, possiamo visualizzare solo le prime righe usando il metodo <b>head</b>.

In [None]:
big_df = pd.DataFrame(np.random.rand(100,3),columns=['A','B','C'])
big_df.head() #mostra di default le prime 5 righe

In [None]:
big_df.head(10) #possiamo passare come argomento il numero di righe da visulalizzare 

Possiamo invece visualizzare, in maniera analoga, le ultime righe tramite <b>tail</b>.

In [None]:
big_df.tail(10) #se non specifichiamo un numero verranno mostrate, di default, le ultime 5 righe

Possiamo ottenere il numero di righe del DataFrame mediante la funzione <b>len</b>.

In [None]:
print(len(big_df))

Per conoscere il numero di righe e colonne di un DataFrame possiamo utilizzare il metodo <b>shape</b>.

In [None]:
print(big_df.shape)

Analogamente a quanto visto per le Series, possiamo visualizzare un DataFrame come un array di numpy richiamando il metodo <b>values</b>.

In [None]:
print(df,'\n')
print(df.values)

Anche per i DataFrame valgono le stesse considerazioni sulla memoria fatte per le Series. Per ottenere una copia indipendente di una
DataFrame è possibile utilizzare il metodo <b>copy</b>.

In [None]:
df2=df.copy()

#### 4.2.2 Indicizzazione

Pandas mette a disposizione una serie di strumenti per indicizzare i DataFrame selezionandone righe o colonne. Ad esempio,
possiamo selezionare la colonna B in questo modo:

In [None]:
s=df['B']
print(s,'\n')
print("Tipo di s:",type(s))

Da notare che il risultato di questa operazione è una <code>Series</code> (un <code>DataFrame</code> è in fondo una collezione di <code>Series</code>, ognuna rappresentata da una colonna) che ha come nome il nome della colonna considerata.

In [None]:
dfAC = df[['A','C']]
dfAC #il risultato in questo caso sarà un DataFrame

Per selezionare invece una riga utilizziamo il metodo <b>loc</b>.

In [None]:
df_rigaX = df.loc['X']
df_rigaX

Anche il risultato di questa operazione è una Series, ma in questo caso gli indici rappresentano i nomi delle colonne mentre il nome
della serie corrisponde all'indice della riga selezionata. Come nel caso delle Series, possiamo usare <b>iloc</b> visualizzare le righe in base all'indice numerico.

In [None]:
df.iloc[1] #equivalente a df.loc['Y']

È anche possibile concatenare le operazioni di indicizzazione per selezionare uno specifico valore.

In [None]:
print(df.iloc[1]['A'])
print(df['A'].iloc[1])

Anche in questo caso possiamo utilizzare l'indicizzazione logica in in maniera simile a quanto visto per numpy.

In [None]:
big_df_new=big_df[big_df['B']>0.6]
print(len(big_df), len(big_df_new))
big_df_new.head() #alcuni indici sono mancanti in quanto le righe corrispondenti sono state rimosse

È possibile combinare quanto visto finora per manipolare i dati in maniera semplice e veloce. Supponiamo di voler selezionare le righe
per le quali la somma tra i valori di B e C è maggiore di 1 e supponiamo di essere interessati solo ai valori A di tali righe (e non all'intera
riga di valori A,B,C). Il risultato che ci aspettiamo è un array monodimensionale di valori.

In [None]:
print(df,"\n\n")
res = df[(df['B']+df['C'])>1]['A']
print(res.head(), res.shape)

Possiamo applicare l'indicizzazione anche a livello dell'intera tabella (oltre che al livello delle singole colonne).

In [None]:
df>0.3

Se applichiamo questa indicizzazione al DataFrame otterremo l'apparizione di alcuni <code>NaN</code>, che indicano la presenza degli elementi che
non rispettano la condizione considerata

In [None]:
df[df>0.3]

Possiamo rimuovere i valori <code>NaN</code> mediante il metodo <code>dropna</code> come visto nel caso delle Series.<br>
<b>N.B.:</b> verranno rimosse tutte le righe che presentano almeno un NaN.

In [None]:
df[df>0.3].dropna()

Possiamo chiedere a <code>dropna</code> di rimuovere le colonne che presentano almeno un <code>NaN</code> specificando <code>axis=1</code>.

In [None]:
df[df>0.3].dropna(axis=1)

Alternativamente possiamo sostituire i valori <code>NaN</code> al volo mediante la funzione <code>fillna</code>.

In [None]:
df[df>0.3].fillna('VAL') #sostiuisce i NaN con 'VAL'

Anche in questo caso, come visto nel caso delle Series possiamo ripristinare l'ordine degli indici mediante il metodo <code>reset_index</code>.

In [None]:
print(df)
print(df.reset_index(drop=True))

Se non specifichiamo <code>drop=True</code>, i vecchi indici verranno mantenuti in una nuova colonna.

In [None]:
print(df.reset_index())

Possiamo impostare qualsiasi colonna come nuovo indice.

In [None]:
df.set_index('A')

Va notato che questa operazione non modifica di fatto il DataFrame, ma crea una nuova "vista" dei dati con la modifica richiesta.

In [None]:
df

Possiamo salvare questa versione modificata del dataframe in uno nuovo.

In [None]:
df2=df.set_index('A')
df2

#### 4.2.3 Manipolazione di DataFrame

È possibile modificare i valori contenuti nelle righe e nelle colone di un DataFrame.

In [None]:
df['B']*=2 #moltiplica tutti i valori della colonna B per 2
df.head()

In [None]:
df.iloc[2]=df.iloc[2]/3 #divide per 3 tutti i valori della riga di indice 2 
df.head()

Possiamo definire una nuova colonna con una semplice operazione di assegnamento.

In [None]:
df['D'] = df['A'] + df['C']
df['E'] = np.ones(len(df))*3
df.head()

Possiamo rimuovere una colonna mediante il metodo <code>drop</code> e specificando <code>axis=1</code> per indicare che vogliamo rimuovere una colonna.

In [None]:
df.drop('E',axis=1).head()

Il metodo <code>drop</code> non modifica il DataFrame ma genera solo una nuova "vista".

In [None]:
df.head()

Possiamo rimuovere la colonna effettivamente mediante un assegnamento.

In [None]:
df=df.drop('E',axis=1)
df.head()

La rimozione delle righe avviene allo stesso modo, ma bisogna specificare <code>axis = 0</code>.

In [None]:
df.drop('X', axis=0)

È possibile aggiungere una nuova riga in coda al DataFrame mediante il metodo <b>append</b>. Anche le righe di un DataFrame
possono essere viste come delle Series. Costruiamo quindi una serie con i giusti indici (corrispondenti alle colonne del DataFrame) e il giusto nome (corrispondente al nuovo indice)

In [None]:
new_row=pd.Series([1,2,3,4], index=['A','B','C','D'], name='H')
print(new_row)
df.append(new_row)

Possiamo aggiungere più di una riga alla volta specificando un DataFrame.

In [None]:
new_rows = pd.DataFrame({'A':[0,1],'B':[2,3],'C':[4,5],'D':[6,7]}, index=['H','K'])
new_rows

In [None]:
df.append(new_rows)

#### 4.2.4 Operazioni

Restano definite sui DataFrame, con le opportune differenze, le operazioni viste nel caso delle serie. In genere, queste vengono applicate
a tutte le colonne del DataFrame in maniera indipendente.

In [None]:
df.mean() #media di ogni colonna

In [None]:
df.max() #massimo di ogni colonna

In [None]:
 df.max() #massimo di ogni colonna

Dato che le colonne di un DataFrame sono delle serie, ad esse può essere applicato il metodo <b>apply</b>.

In [None]:
df['A']=df['A'].apply(lambda x: "Numero: "+str(x))
df

Possiamo ordinare le righe di un DataFrame rispetto ai valori di una delle colonne mediante il metodo <b>sort_values</b>.

In [None]:
df.sort_values(by='D')

Per rendere l'ordinamento permanente, dobbiamo effettuare un assegnamento.

In [None]:
df=df.sort_values(by='D')
df

#### 4.2.5 Groupby

Il metodo <b>groupby</b> permette di raggruppare le righe di un DataFrame e richiamare delle funzioni aggreggate su di esse.
Consideriamo un DataFrame un po' più rappresentativo.

In [None]:
df=pd.DataFrame({'income':[10000,11000,9000,3000,1000,5000,7000,2000,7000,12000,8000],\
'age':[32,32,45,35,28,18,27,45,39,33,32],\
'sex':['M','F','M','M','M','F','F','M','M','F','F'],\
'company':['CDX','FLZ','PTX','CDX','PTX','CDX','FLZ','CDX','FLZ','PTX','FLZ']})
df

Il metodo <code>groupby</code> ci permette di raggruppare le righe del DataFrame per valore, rispetto a una colonna specificata. Supponiamo di voler raggruppare tutte le righe che hanno lo stesso valore di <i>sex</i>.

In [None]:
df.groupby('sex')

Questa operazione restituisce un oggetto di tipo <i>DataFrameGroupby</i> sul quale sarà possibile effettuare delle operazioni aggregate (ad
esempio, somme e medie). Supponiamo adesso di voler calcolare la media di tutti i valori che ricadono nello stesso gruppo (ovvero
calcoliamo la media delle righe che hanno lo stesso valore di sex).

In [None]:
df.groupby('sex').mean()

Se siamo interessati a una sola delle variabili possiamo selezionarla prima o dopo l'operazione sui dati aggregati.

In [None]:
df.groupby('sex')['age'].mean() #equivalente a: df.groupby('sex').mean()['age']

La tabella mostra il reddito medio e l'età media dei soggetti di sesso maschile e femminile. Dato che l'operazione di media si può applicare solo a valori numerici, la colonna Company è stata esclusa. Possiamo ottenere una tabella simile in cui mostriamo la somma dei redditi e la somma delle età cambiando <code>mean</code> in <code>sum</code>.

In [None]:
df.groupby('sex').sum()

In generale, è possibile utilizzare diverse funzioni aggregate oltre a <code>mean</code> e <code>sum</code> (ad es. <code>min</code>, <code>max</code>, <code>std</code>). Due funzioni particolarmente interessanti da usare in questo contesto sono <code>count</code> e <code>describe</code>. In particolare, <code>count</code> conta il numero di elementi interessati, mentre <code>describe</code> calcola diverse statistiche dei valori interessati.

In [None]:
df.groupby('sex').count()

Il numero di elementi è uguale per le varie colonne in quanto non ci sono valori NaN nel DataFrame.

In [None]:
df.groupby('sex').describe()

Per ogni variabile numerica (age e income) sono state calcolate diverse statistiche. A volte può essere più chiaro visualizzare il dataframe trasposto.

In [None]:
df.groupby('sex').describe().transpose() #equivalente a df.groupby('sex').describe().T

Questa vista ci permette di comparare diverse statistiche delle due variabili <i>age</i> e <i>income</i> per <i>M</i> e <i>F</i> .

#### 4.2.6 Crosstab

Le <b>Crosstab</b> permettono di descrivere le relazioni tra due o più variabili <i>categoriche</i>. Una volta specificata una coppia di variabili categoriche, le righe e colonne della crosstab (nota anche come "tabella di contingenza") enumerano indipendentemente tutti i valori univoci delle due variabili categoriche, così che ogni cella della crosstab identifica una determinata coppia di volari. All'interno delle celle vengono dunque riportati i numeri di elementi per i quali le due variabili categoriche assumono una determinata coppia di valori.

Supponiamo di voler studiare le relazioni tra <i>company</i> e <i>sex</i>.

In [None]:
pd.crosstab(df['sex'],df['company'])

La tabella sopra ci dice che nella compagnia CDX, un soggetto è di sesso femminile, mentre tre soggetti sono di sesso maschile. Allo stesso modo, un soggetto della compagnia FLZ è di sesso maschile, mentre tre soggetti sono di sesso femminile. È possibile ottenere delle frequenze invece che dei conteggi mediante <code>normalize=True</code>

In [None]:
pd.crosstab(df['sex'],df['company'], normalize=True)

Alternativamente, possiamo normalizzare la tabella solo per righe o solo per colonne specificando <code>normalize='index'</code> o
<code>normalize='columns'</code>.

In [None]:
pd.crosstab(df['sex'],df['company'], normalize='index')

Questa tabella riporta le percentuali di persone, suddivise per sesso, che lavorano nelle tre diverse compagnie per ciascun sesso (ad es. il 20% delle donne lavora presso CDX). Analogamente possiamo normalizzare per colonne.

In [None]:
pd.crosstab(df['sex'],df['company'], normalize='columns')

Questa tabella riporta le percentuali di uomini e donne che lavorano in ciascuna compagnia (per es. il 25% dei lavoratori di CDX è donna).

Se vogliamo studiare le relazioni tra più di due variabili categoriche possiamo specificare una lista di colonne quando costruiamo la
crosstab.

In [None]:
pd.crosstab(df['sex'],[df['age'],df['company']])

Ogni cella di questa crosstab conta il numero di osservazioni che riportano una determinata terna di valori (ad es. un soggetto è di sesso maschile, lavora per PTX e 28 ha anni, mentre due soggetti sono di sesso femminile, lavorano per FLZ e hanno 32 anni).
Oltre a riportare conteggi e frequenze una crosstab permette di calcolare statistiche di terze variabili considerate non categoriche.
Supponiamo di voler conoscere l'età media delle persone di un dato sesso in una data azienda. Possiamo costruire una
crosstab specificando una nuova variabile (age) per <code>values</code>. Dato che di questa variabile bisognerà calcolare un qualche valore
aggregato, dobbiamo anche specificare <code>aggfunc</code> per esempio pari a <code>mean</code>.

In [None]:
pd.crosstab(df['sex'],df['company'], values=df['age'], aggfunc='mean')

La crosstab indica che l'età media delle persone di sesso maschile che lavorano per CDX è di 37,33 anni.

#### 4.2.7 Manipolazione "esplicita" di DataFrame

In alcuni casi può essere utile trattare i DataFrame "esplicitamente" come matrici di valori. Consideriamo ad esempio il seguente
DataFrame:

In [None]:
df123 = pd.DataFrame({'Category':[1,2,3], 'NumberOfElements':[3,1,2]})
df123

Supponiamo di voler costruire un nuovo DataFrame che, per ogni riga del dataframe df123, contenga esattamente "NumberOfElements"
righe con valore di "NumberOfElements" pari a uno. Vogliamo in pratica "espandere" il DataFrame in questo modo:

In [None]:
df123 = pd.DataFrame({'Category':[1,1,1,2,3,3], 'NumberOfElements':[1,1,1,1,1,1]})
df123

Per farlo in maniera automatica, possiamo trattare il DataFrame più "esplicitamente" come una matrice di valori iterandone le righe. Il
nuovo DataFrame sarà dapprima costruito come una lista di Series (le righe del DataFrame) e poi trasformato in un DataFrame.

In [None]:
newdat = []
for index, row in df123.iterrows(): #iterrows permette di iterare le righe di un DataFrame
    for j in range(row['NumberOfElements']):
        newrow = row.copy()
        newrow['NumberOfElements']=1
        newdat.append(newrow)
pd.DataFrame(newdat)

#### 4.2.8 Input/Output

Pandas mette a disposizione diverse funzioni per leggere e scrivere dati. Vedremo in particolare le funzioni per leggere e scrivere file <i>csv</i>. I file csv possono essere letti, sia in locale che in remoto, tramite il metodo <code>pd.read_csv</code>.

In [None]:
#https://archive.ics.uci.edu/ml/datasets/iris
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
data.head()

Se non indichiamo alcun parametro, <code>read_csv</code> considererà la prima riga del csv come header.
Se il nostro file csv non contiene un header possiamo utilizzare il parametro <code>header=None</code> per ignorare la prima riga o fornire l'intestazione tramite parametro <code>names=[]</code>.

In [None]:
#hedaer=None: non consideriamo la prima riga come header
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
data.head()

In [None]:
#names=[lista nomi colonne]: forniamo i nomi delle colonne
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',  names=['A','B','C','D','E'])
data.head()

In [None]:
#N.B.: se il numero di colonne indicate non corrisponde al numero di colonne del dataset
#alcune colonne verranno "tagliate" (nel caso in cui la lista di nomi sia inferiore al numero di colonne del dataset)
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',  names=['A','B','C'])
data.head()

In [None]:
#o aggiunte con valore NaN per ogni riga (nel caso in cui la lista passata a "names" contenga un numero di colonne maggiore)
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',  names=['A','B','C','D','E','F'])
data.head()

In [None]:
#In alternativa possiamo usare il metodo "coloums" del dataset appena creato
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
data.columns = ['A','B','C','D','E']
data.head()

In [None]:
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',\
                 names=['sepal length in cm', 'sepal width in cm', 'petal length in cm', 'petal width in cm', 'class'])
data.head()

Possiamo, invece, scrivere un file csv su disco tramite il metodo <code>to_csv</code>.

In [None]:
data.to_csv('file.csv')

Leggiamo il file appena scritto.

In [None]:
data=pd.read_csv('file.csv')
data.head()

Come possiamo notare, la prima colonna contiene i valori degli indici, ma non ha nome poiché viene considerata una colonna a tutti gli effetti quando esportiamo il DataFrame su un file csv.

Possiamo risolvere il problema in diversi modi:
<ul>
    <li>Eliminare la colonna "Unnamed: 0" dal DataFrame appena caricato (solo se gli indici sono sequenziali)
    <li>Specificare di usare la colonna "Unnamed: 0" come colonna degli indici durante il caricamento
    <li>Salvare il DataFrame senza indici (solo se gli indici sono sequenziali)
</ul>

In [None]:
data=pd.read_csv('file.csv')
data.drop('Unnamed: 0', axis=1).head() #eliminiamo la colonna

In [None]:
#specifichiamo, durante il caricamento, che la colonna "Unnamed: 0" contiene gli indidici
data=pd.read_csv('file.csv', index_col='Unnamed: 0')
data.head() 

In [None]:
data.to_csv('file.csv', index=False) #salviamo il file senza indici
pd.read_csv('file.csv').head()

## 5 <b>Esempio di manipolazione di dati</b>

Spesso un dataset dev'essere opportunamente trattato prima dell'analisi. Vediamo un esempio di come combinare gli strumenti discussi
finora per manipolare un dataset reale.<br>
Consideriamo il dataset presente su <a href="https://www.kaggle.com/lava18/google-play-store-apps" target="_blank">https://www.kaggle.com/lava18/google-play-store-apps</a> (disponibile per il download)

In [None]:
data = pd.read_csv('googleplaystore.csv')
data.head()

Visualizziamo le proprietà del dataset.

In [None]:
data.info()

Il dataset contiene osservazioni e variabili. Osserviamo che molte delle variabili (tranne "Rating") sono di tipo "object", anche se
rappresentano dei valori numerici (es., Reviews, Size, Installs e Price). Osservando le prime righe del DataFrame visualizzate sopra
possiamo dedurre che:
<ul>
    <li>Size non è rappresentato come valore numerico in quanto contiene l'unità di misura "M";
    <li>Installs è in realtà una variabile categorica (riporta un "+" alla fine, quindi indica la classe "più di n installazioni");
</ul>
Non ci sono motivazioni apparenti per cui Reviews e Rating non siano stati interpretati come numeri. Costruiamo una funzione filtro che
identifichi se un valore è convertibile in un dato tipo o meno.

In [None]:
def cannot_convert(x, t=float):
    try:
        t(x)
        return False
    except:
        return True
print(cannot_convert('12'))
print(cannot_convert('12f'))

Applichiamo il filtro alla colonna Review per visualizzare i valori che non possono essere convertiti.

In [None]:
list(filter(cannot_convert,data['Reviews']))

Sostituiamo il valore trova con una versione numerica tramite il metodo <code>replace</code>.

In [None]:
data['Reviews']=data['Reviews'].replace({'3.0M':3000000})

A questo punto possiamo convertire i valori della colonna in interi.

In [None]:
data['Reviews']=data['Reviews'].astype(int)

Visualizziamo nuovamente le informazioni del DataFrame.

In [None]:
data.info()

Reviews è adesso un intero. Eseguiamo un lavoro simile sulla variabile Price.

In [None]:
list(filter(cannot_convert, data['Price']))[:10] #visualizziamo solo i primi 10 elementi

Possiamo convertire le stringhe in float eliminando il dollaro iniziale mediante <code>apply</code>.

In [None]:
def strip_dollar(x):
    if x[0]=='$':
        return x[1:]
    else:
        return x
data['Price']=data['Price'].apply(strip_dollar)

Vediamo se ci sono ancora valori che non possono essere convertiti.

In [None]:
list(filter(cannot_convert, data['Price']))

Dato che non sappiamo come interpretare il valore "Everyone", lo sostituiremo con un NaN.

In [None]:
data['Price']=data['Price'].replace({'Everyone':np.nan})

Adesso possiamo procedere alla conversione in float.

In [None]:
data['Price']=data['Price'].astype(float)
data.info()

Modifichiamo anche "Size" eliminando la "M" finale.

In [None]:
data['Size']=data['Size'].apply(lambda x : x[:-1])

Verifichiamo l'esistenza di valori non convertibili.

In [None]:
list(filter(cannot_convert,data['Size']))[:10]

Sostituiamo questi valori con NaN.

In [None]:
data['Size']=data['Size'].replace({'Varies with devic':np.nan})

Verifichiamo nuovamente la presenza di valori che non possono essere convertiti.

In [None]:
list(filter(cannot_convert,data['Size']))

Possiamo rimuovere la virgola usata per indicare le migliaia e convertire in float.

In [None]:
data['Size']=data['Size'].apply(lambda x: float(str(x).replace(',','')))

In [None]:
data.info()

Valutiamo se è il caso di trasformare anche "Installs" in un valore numerico. Vediamo quanti valori univoci di "Installs" ci sono nel dataset.

In [None]:
data['Installs'].nunique()

Abbiamo solo 22 valori, che paragonati alle 10841 osservazioni ci suggeriscono di considerare "Installs" come variabile categorica e non come valore numerico.<br>
Il DataFrame contiene dei NaN che possiamo tenere o scartare. In questo caso, che i dati sono molti, possiamo rimuoverli
tramite <code>dropna</code>.

Adesso possiamo iniziare a esplorare i dati con gli strumenti visti finora.

Visualizziamo ad esempio i valori medi delle variabili numeriche per <i>categoria (Category)</i>.

In [None]:
data.groupby('Category').mean()