# Pandas

Pandas è una libreria Python utilizzata per lavorare con datasets: permette di analizzare, pulire, esplorare e manipolare insiemi di dati. <br>
Generalmente si fa uso di questa libreria quando si ha a che fare con una grande mole di dati che vanno ripuliti (per renderli più leggibili) e analizzati con lo scopo di trarre conclusioni basate su teorie statistiche.

Per iniziare ad utilizzare Pandas, la prima cosa da fare è installare e importare la libreria:

In [3]:
import pandas as pd

Solitamente la libreria viene importata con l'alias `pd`: in questo modo si può fare riferimento alla libreria scrivendo `pd` invece che `pandas`.

__NB__: in Python è sufficiente usare la keyword "as" per assegnare un alias ad un elemento.

## Serie

In Pandas, una ___serie___ rappresenta una colonna di una tabella: si tratta di un array mono-dimensionale che contiene una certa tipologia di dati.

In [4]:
array = [5,6,1,2,3,5,6,1,]
series = pd.Series(array)
series

0    5
1    6
2    1
3    2
4    3
5    5
6    6
7    1
dtype: int64

In [5]:
# voglio stampare il TERZO elemento della serie
series[2]

1

Se non vengono fornite ulteriori specifiche, gli elementi della serie vengono numerati a partire da indice 0: l'etichetta (in questo caso, l'indice) può essere utilizzata per fare riferimento ad un preciso valore della serie.<br>
In alternativa è possibile utilizzare l'argomento `index` per creare le proprie etichette personalizzate.

In [6]:
series = pd.Series(array, index=["a","b","c","d","e","f", "g", "h"])
series

a    5
b    6
c    1
d    2
e    3
f    5
g    6
h    1
dtype: int64

È anche possibile creare una serie a partire da un dizionario formato da coppie chiave/valore: per ciascuna coppia la chiave diventerà l'etichetta del valore all'interno della serie.

In [7]:
calories = {"day1": 420, "day2": 380, "day3": 390}
series = pd.Series(calories)
series

day1    420
day2    380
day3    390
dtype: int64

__NB__: è anche possibile selezionare soltanto alcuni elementi del dizionario utilizzando l'argomento `index`.

In [8]:
series = pd.Series(calories, index = ["day1", "day2"])
series

day1    420
day2    380
dtype: int64

## DataFrames

I dataset che vengono manipolati attraverso Pandas spesso non si limitano ad essere dei semplici elenchi mono-dimensionali di dati: la maggior parte delle volte ci si troverà a manipolare insiemi di dati rappresentati sotto forma di tabelle bi-dimensionali che prendono il nome di ___DataFrames___.<br>
__PER CAPIRE__: le serie sono le colonne, mentre il dataframe è l'intera tabella.

In [9]:
data = {
    "calories": [420, 380, 390],
    "duration": [50, 40, 45]
}
df = pd.DataFrame(data)
df

Unnamed: 0,calories,duration
0,420,50
1,380,40
2,390,45


Per individuare una specifica riga del dataframe si usa l'attributo loc e si specifica l'indice della riga a cui si è interessati. <br>
__NB__: l'attributo loc ritorna una serie.

In [10]:
# ritorna la prima riga
df.loc[0]

calories    420
duration     50
Name: 0, dtype: int64

In [11]:
# ritorna le prime due righe (ATTENZIONE ALLA SINTASSI)
df.loc[[0,1]]

Unnamed: 0,calories,duration
0,420,50
1,380,40


Anche in questo caso è possibile personalizzare gli indici con l'argomento `index`.

In [12]:
data = {
    "calories": [420, 380, 390],
    "duration": [50, 40, 45]
}
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])
df

Unnamed: 0,calories,duration
day1,420,50
day2,380,40
day3,390,45


## Lettura dei file CSV

Utilizzare i file csv (che sta per "comma-separated values") rappresenta un modo semplice per poter immagazzinare grandi insiemi di dati.<br>
Pandas mette a disposizione un apposito comando per poter caricare in un DataFrame i dati prensenti in un file csv.

In [13]:
df = pd.read_csv("data.csv")
df

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4


## Lettura dei file JSON

Spesso accade che grandi insiemi di dati vengano rappresentati anche in formato JSON. <br>
Fortunatamente, pandas mette a disposizione un comando per caricare il contenuto di un file JSON in un DataFrame.

In [14]:
df = pd.read_json("data.json")
df

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.4
166,60,115,145,310.2
167,75,120,150,320.4


Talvolta può accadere che i dati JSON non siano posizionati in un file esterno, bensì siano già immagazzinati in un dizionario nel codice Python: in tal caso, i dati possono essere caricati direttamente nel dataframe senza nemmeno utilizzare il comando `read_json`.

In [15]:
data = {
  "Duration":{
    "0":60,
    "1":60,
    "2":60,
    "3":45,
    "4":45,
    "5":60
  },
  "Pulse":{
    "0":110,
    "1":117,
    "2":103,
    "3":109,
    "4":117,
    "5":102
  },
  "Maxpulse":{
    "0":130,
    "1":145,
    "2":135,
    "3":175,
    "4":148,
    "5":127
  },
  "Calories":{
    "0":409,
    "1":479,
    "2":340,
    "3":282,
    "4":406,
    "5":300
  }
}

df = pd.DataFrame(data)

df

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409
1,60,117,145,479
2,60,103,135,340
3,45,109,175,282
4,45,117,148,406
5,60,102,127,300


## Analisi dei DataFrames

Uno dei metodi più utilizzati per dare una prima rapida occhiata ai dati contenuti nel DataFrame è `head()`. <br>
Il metodo `head()` permette di visualizzare uno specifico numero di righe a partire dall'inizio della tabella (qualora non venga specificato il numero di righe da visualizzare, 5 è il valore di default).

In [17]:
df = pd.read_csv("data.csv")

df.head(10)

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
5,60,102,127,300.0
6,60,110,136,374.0
7,45,104,134,253.3
8,30,109,133,195.1
9,60,98,124,269.0


Esiste anche un metodo `tail()` che consente di fare la stessa cosa, partendo però dal fondo della tabella.

In [18]:
df.tail(10)

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
159,30,80,120,240.9
160,30,85,120,250.4
161,45,90,130,260.4
162,45,95,130,270.0
163,45,100,140,280.9
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4
168,75,125,150,330.4


L'oggetto DataFrame presenta anche un metodo `info()` che serve ad ottenere maggiori informazioni relative al dataset che si sta manipolando.

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169 entries, 0 to 168
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  169 non-null    int64  
 1   Pulse     169 non-null    int64  
 2   Maxpulse  169 non-null    int64  
 3   Calories  164 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 5.4 KB


// continuare da result explained