(summary_pandas_notebook)=
# Esaminare il DataFrame

In [24]:
import pandas as pd
import numpy as np
import statistics

Una volta importati i dati vogliamo esaminarli e riassumerli. Per fare un esempio, considereremo qui i dati *Palmer Archipelago (Antarctica) penguin*. Questi dati sono stati raccolti dal 2007 al 2009 da Kristen Gorman con il *Palmer Station Long Term Ecological Research Program*. Leggiamo i dati da un file csv in un DataFrame:

In [25]:
df = pd.read_csv("data/penguins.csv")
df.shape

(344, 8)

Esaminiamo i nomi delle colonne:

In [43]:
df.columns

Index(['species', 'island', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex', 'year'],
      dtype='object')


Questo è il significato delle colonne:

- species: a factor denoting penguin type (Adélie, Chinstrap and Gentoo)
- island: a factor denoting island in Palmer Archipelago, Antarctica (Biscoe, Dream or Torgersen)
- bill_length_mm: a number denoting bill length (millimeters)
- bill_depth_mm: a number denoting bill depth (millimeters)
- flipper_length_mm: an integer denoting flipper length (millimeters)
- body_mass_g: an integer denoting body mass (grams)
- sex: a factor denoting sexuality (female, male)

Esaminiamo il tipo dei dati:

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
 7   year               344 non-null    int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 21.6+ KB


Notiamo che ci sono dei dati mancanti (si vede che c'è un numero diverso di dati mancanti nelle diverse colonne). Nel presente esercizio, eliminiamo tutte le righe che contengono almeno un dato mancante su qualche colonna. In generale questa non è una buona idea ma lo facciamo comunque qui per semplicità (poiché ci sono pochi dati mancanti).

In [28]:
df.isnull().sum()

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
year                  0
dtype: int64

In [29]:
df.dropna(inplace=True)
df.shape

(333, 8)

Abbiamo visto sopra come stabilire qual è il nome delle colonne. Con `.head()` e `.tail()` possiamo visualizzare le prime o le ultime righe del DataFrame. Oltre ai metodi elencati sopra, ci sono altri metodi che si applicano al DataFrame o alle sue colonne. Eccone alcuni:

| Method | Description | Data types |
| --- | --- | --- |
| `count()` | The number of non-null observations | Any |
| `nunique()` | The number of unique values | Any |
| `sum()` | The total of the values | Numerical or Boolean |
| `mean()` | The average of the values | Numerical or Boolean |
| `median()` | The median of the values | Numerical |
| `min()` | The minimum of the values | Numerical |
| `idxmin()` | The index where the minimum values occurs | Numerical |
| `max()` | The maximum of the values | Numerical |
| `idxmax()` | The index where the maximum value occurs | Numerical |
| `abs()` | The absolute values of the data | Numerical |
| `std()` | The standard deviation | Numerical |
| `var()` | The variance |  Numerical |
| `cov()` | The covariance between two `Series`, or a covariance matrix for all column combinations in a `DataFrame` | Numerical |
| `corr()` | The correlation between two `Series`, or a correlation matrix for all column combinations in a `DataFrame` | Numerical |
| `quantile()` | Calculates a specific quantile | Numerical |
| `cumsum()` | The cumulative sum | Numerical or Boolean |
| `cummin()` | The cumulative minimum | Numerical |
| `cummax()` | The cumulative maximum | Numerical |

Per esempio, possiamo stampare l'elenco delle modalità di una variabile:

In [30]:
print(df['island'].unique())

['Torgersen' 'Biscoe' 'Dream']


È semplice calcolare la media di una colonna:

In [31]:
df['bill_depth_mm'].mean()

17.164864864864867

Per la deviazione standard, pur essendoci il metodo `.std` che si applica ad un DataFrame (o alle sue colonne), forse è preferibile usare `numpy.std()` in quanto consente facilmente di specificare i gradi di libertà:

In [32]:
np.std(df['bill_length_mm'], ddof=1)

5.46866834264756

Il riepilogo di più valori in un unico indice va sotto il nome di "aggregazione" dei dati. Il metodo `aggregate()` può essere applicato ai DataFrame e restituisce un nuovo DataFrame più breve contenente solo i valori aggregati. Il primo argomento di `aggregate()` specifica quale funzione o quali funzioni devono essere utilizzate per aggregare i dati. Molte comuni funzioni di aggregazione sono disponibili nel modulo `statistics`:

- `median()`: la mediana;
- `mean()`: la media;
- `stdev()`: la deviazione standard;

Se vogliamo applicare più funzioni di aggregazione, allora è meglio raccogliere prima le funzioni in una lista e poi passare questa lista al metodo `aggregate()`. 

In [33]:
summary_stats = [min, statistics.median, statistics.mean, statistics.stdev, max]
print(df.aggregate(summary_stats))

          species     island  bill_length_mm  bill_depth_mm  \
min        Adelie     Biscoe       32.100000      13.100000   
median  Chinstrap      Dream       44.500000      17.300000   
mean          NaN        NaN       43.992793      17.164865   
stdev         NaN        NaN        5.468668       1.969235   
max        Gentoo  Torgersen       59.600000      21.500000   

        flipper_length_mm  body_mass_g     sex         year  
min            172.000000  2700.000000  female  2007.000000  
median         197.000000  4050.000000    male  2008.000000  
mean           200.966967  4207.057057     NaN  2008.042042  
stdev           14.015765   805.215802     NaN     0.812944  
max            231.000000  6300.000000    male  2009.000000  


  print(df.aggregate(summary_stats))


Si noti che pandas ha applicato le funzioni di riepilogo a ogni colonna, ma ci sono alcune colonne per le quali le statistiche riassuntive non possono calcolare, ovvero tutte le colonne che contengono stringhe anziché numeri. Di conseguenza, vediamo che alcuni dei risultati per tali colonne sono contrassegnati con "NaN". Questa è un'abbreviazione di "Not a Number", talvolta utilizzata nell'analisi dei dati per rappresentare valori mancanti o non definiti.

La colonna `species` in `df` è una variabile a livello nominale. Recuperiamo l'elenco delle modalità:

In [34]:
print(df['species'].value_counts())

Adelie       146
Gentoo       119
Chinstrap     68
Name: species, dtype: int64


Se vogliamo trovare le frequenze relative possiamo impostare l'argomento `normalize=True`:

In [35]:
print(df['species'].value_counts(normalize=True))

Adelie       0.438438
Gentoo       0.357357
Chinstrap    0.204204
Name: species, dtype: float64


## Ragruppare i dati con `.groupby()`

Molto spesso vogliamo calcolare le statistiche descrittive separatamente per ciascun gruppo di osservazioni -- per esempio, nel caso presente, in base alla specie. Questo risultato si ottiene con il metodo `.groupby()`. Per esempio, ragruppiamo le osservazioni in funzione della specie per poi calcolare le statistiche descrittive definite in precedenza. 

In [36]:
print(df.groupby(['species']).aggregate(summary_stats))

          bill_length_mm                                   bill_depth_mm  \
                     min median       mean     stdev   max           min   
species                                                                    
Adelie              32.1  38.85  38.823973  2.662597  46.0          15.5   
Chinstrap           40.9  49.55  48.833824  3.339256  58.0          16.4   
Gentoo              40.9  47.40  47.568067  3.106116  59.6          13.1   

                                             ... body_mass_g          \
          median       mean     stdev   max  ...         min  median   
species                                      ...                       
Adelie     18.40  18.347260  1.219338  21.5  ...      2850.0  3700.0   
Chinstrap  18.45  18.420588  1.135395  20.8  ...      2700.0  3700.0   
Gentoo     15.00  14.996639  0.985998  17.3  ...      3950.0  5050.0   

                                            year                       \
                  mean       stdev   

  print(df.groupby(['species']).aggregate(summary_stats))


Qui sotto troviamo la media di due sole colonne per ciascuna specie.

In [38]:
df.groupby("species")[["body_mass_g", "flipper_length_mm"]].mean()

Unnamed: 0_level_0,body_mass_g,flipper_length_mm
species,Unnamed: 1_level_1,Unnamed: 2_level_1
Adelie,3706.164384,190.10274
Chinstrap,3733.088235,195.823529
Gentoo,5092.436975,217.235294


Facciamo la stessa cosa per la deviazione standard.

In [37]:
df.groupby("species")[["body_mass_g", "flipper_length_mm"]].std()

Unnamed: 0_level_0,body_mass_g,flipper_length_mm
species,Unnamed: 1_level_1,Unnamed: 2_level_1
Adelie,458.620135,6.521825
Chinstrap,384.335081,7.131894
Gentoo,501.476154,6.585431


Oppure, in maniera un po' più elaborata:

In [40]:
summary_stats = (df.loc[:, ['species', 'body_mass_g', 'flipper_length_mm']]
                         .groupby('species')
                         .aggregate(['mean', 'std', 'count']))
summary_stats

Unnamed: 0_level_0,body_mass_g,body_mass_g,body_mass_g,flipper_length_mm,flipper_length_mm,flipper_length_mm
Unnamed: 0_level_1,mean,std,count,mean,std,count
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Adelie,3706.164384,458.620135,146,190.10274,6.521825,146
Chinstrap,3733.088235,384.335081,68,195.823529,7.131894,68
Gentoo,5092.436975,501.476154,119,217.235294,6.585431,119


Nell'istruzione precedente `df.loc[:, ['species', 'body_mass_g']]` seleziona tutte le righe (`:`) delle due colonne di interesse. L'istruzione `.groupby('species')` ragruppa le righe secondo le modalità della variabile `species`. Infine `.aggregate(['mean', 'std', 'count'])` applica i metodi statistici elencati a ciascun gruppo di righe. Con questa sintassi la sequenza delle operazioni da eseguire diventa molto intuitiva.

È facile estendere l'esempio precedente a casi più complessi. Per esempio, possiamo analizzare simultaneamente i dati di più colonne, dopo avere ragruppato i dati in base alle modalità specificate da colonne multiple. Per l'esempio presente, calcolo le statistiche descrittive delle variabili `body_mass_g` e `bill_length_mm` separatamente per ciascuna isola e per ciascuna specie:

In [41]:
summary_stats = (df.loc[:, ['species', 'island', 'body_mass_g', 'bill_length_mm']]
                         .groupby(['species', 'island'])
                         .aggregate(['mean', 'std', 'count']))
summary_stats.round(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,body_mass_g,body_mass_g,body_mass_g,bill_length_mm,bill_length_mm,bill_length_mm
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,count,mean,std,count
species,island,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Adelie,Biscoe,3709.7,487.7,44,39.0,2.5,44
Adelie,Dream,3701.4,448.8,55,38.5,2.5,55
Adelie,Torgersen,3708.5,451.8,47,39.0,3.0,47
Chinstrap,Dream,3733.1,384.3,68,48.8,3.3,68
Gentoo,Biscoe,5092.4,501.5,119,47.6,3.1,119


## Watermark

In [None]:
%load_ext watermark
%watermark -n -u -v -iv -w