# [pandas](https://pandas.pydata.org)

**pandas** è una libreria in Python per l'analisi e la manipolazione di dati veloce, potente, flessibile e facile da usare.

In [None]:
# L'opzione -y serve per accettare eventuali prompt del programma
# di installazione
import sys
!conda install pandas -y --prefix {sys.prefix}

In [None]:
import pandas as pd

`pandas.DataFrame` è la principale struttura dati in pandas. Esso contiene dati in forma di tabelle bidimensionali, mutabili per dimensione e potenzialmente eterogenei, ordinati su righe e colonne etichettate.

In [None]:
df = pd.DataFrame({
    'nome': ['Alice', 'Bruno', 'Carlo'],
    'età': [21, 20, 17],
    'genere': ['f', 'm', 'm']
})

In [None]:
df

In [None]:
type(df)

`pandas.Series` è un ndarray monodimensionale avente assi etichettate. L'oggetto supporta sia l'indicizzazione basata su interi che su etichette e fornisce una serie di metodi per eseguire operazioni sull'indice. I metodi statistici di ndarray sono stati sovrascritti per escludere automaticamente i dati mancanti (attualmente rappresentati come NaN).

In [None]:
df['nome']

In [None]:
type(df['nome'])

In [None]:
df['età']

In [None]:
df['età'].dtype

In [None]:
df['età'].mean()

`describe` fornisce un sommario delle colonne di tipo numerico calcolando vari indici statistici (analogo al `summary` di `R`)

In [None]:
df.describe()

Se si voglio includere anche le colonne non numeriche usare `include='all'`

In [None]:
df.describe(include = 'all')

Possiamo indicizzare un `DataFrame`in maniera molto simile a quanto fatto per gli array

In [None]:
# Confronto elemento per elemento della colonna
df['età'] >= 18

il metodo `loc` permette di indocizzare usando le etichette delle colonne oppure i booleani

In [None]:
# Tutte le colonne, solo righe dove età è >= 18
df.loc[df['età'] >= 18, :]

In [None]:
# Colonna nome, solo righe dove età è >= 18
df.loc[df['età'] >= 18, 'nome']

Si possono inserire nuove colonne assegnando come si farebbe per un dizionario

In [None]:
df['maggiorenne'] = df['età'] >= 18
df

## Dataset Titanic

I dati sono costituiti dalle informazioni demografiche e di viaggio di 1.309 passeggeri del Titanic; viene spesso utilizzato con l'obiettivo di prevedere la possibilità di sopravvivenza di questi passeggeri.

- *PassengerId*: id univoco di ogni passeggero
- *Survived*: valore booleano che indica se il passeggero è sopravvissuto (1) o no (0) 
- *Pclass*: classe in cui viaggiava il passeggero (1 = prima, 2 = seconda, 3 = terza)
- *Name*: nome del passeggero 
- *Sex*: maschio/femmina 
- *Age*: età
- *SibSp*: numero di fratelli/sorelle e coniugi a bordo 
- *Parch*: numero di genitori e figli a bordo
- *Ticket*: numero del biglietto
- *Fare*: costo del biglietto 
- *Cabin*: numero della cabina
- *Embarked*: porto di imbarco (C = Cherbourg; Q = Queenstown; S = Southampton)

pandas fornisce molti metodi per leggere dati in formato diverso, `read_csv` si usa per leggere tabelle salvate in formato `csv`

In [None]:
data = pd.read_csv('./data/titanic.csv')

In [None]:
# Mostra le prime 10 righe 
data.head()

In [None]:
data.head(10)

Controlliamo i tipi delle varie colonne

In [None]:
data.dtypes

Le variabili `Survived`, `PassengerId` e `Pclass` sono state importate come interi ma in realtà sono variabili categoriche pertanto è meglio rappresentarle come `object`. Per cambiare il tipo usiamo il metodo `astype`.

In [None]:
data['Survived'] = data['Survived'].astype('object')

In [None]:
data['Survived'].dtype

In [None]:
data = data.astype({'PassengerId': 'object', 'Pclass': 'object'})

In [None]:
data.dtypes

Il metodo `info` restituisce informazioni riguardo il dataset come per esempio il numero di eventuali dati mancanti

In [None]:
data.info()

Vediamo prima il riassunto delle colonne non numeriche

In [None]:
data.describe(include = 'object')

Poi di quelle numeriche

In [None]:
data.describe()

Vediamo ora di analizzare qualche aspetto di questo dataset. Abbiamo detto che la colonna survived rappresenta il fatto che un passeggero sia sopravvissuto oppure no

In [None]:
data['Survived'].head()

In [None]:
data['Survived'].unique()

Ricaviamo la tabella di frequenze.

In [None]:
data['Survived'].value_counts()

Possiamo anche rappresentarla con un bar plot

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.bar(["Deceased", "Survived"],
        height = data['Survived'].value_counts())
plt.show()

Ripetiamo la stessa cosa con la variabile `Pclass` che rappresenta la classe in cui il passeggero viaggiava

In [None]:
data['Pclass'].head()

In [None]:
data['Pclass'].unique()

In [None]:
data['Pclass'].value_counts()

In [None]:
tot = data['Pclass'].value_counts().sum()
plt.bar(["Third", "First", "Second"],
        height = data['Pclass'].value_counts()/tot)
plt.show()

Per esempio se ora volessimo concentrarci sui passeggeri di prima e seconda classe potremmo usare il seguente comando per estrarre le righe opportune.

In [None]:
data['Pclass'].isin([1, 2])

`isin` controlla riga per riga se l'elemento sta nella lista passata come argomento e restituisce `True` o `False` a seconda del caso.

In [None]:
# sottotabella dei passeggeri di prima e seconda classe
data.loc[data['Pclass'].isin([1, 2]), :]

Ora per esempio vogliamo confrontare le percetuali di sopravvisstuti fra le varie classi

In [None]:
p1 = data[data["Pclass"] == 1]["Survived"].mean()
p2 = data[data["Pclass"] == 2]["Survived"].mean()
p3 = data[data["Pclass"] == 3]["Survived"].mean()

print(p1, p2, p3)

Notiamo che le proporzioni di sporavvisuti sono parecchio diverse a seconda della classe.

Avremmo potuto accorgergene anche raggruppando i dati per classe prima di calcolare la media.

In [None]:
data.groupby("Pclass")["Survived"].value_counts()

In [None]:
data.groupby("Pclass")["Survived"].mean()

Infine pandas possiede molti metodi per generare grafici. In questo caso potremmo usare dei boxplot per comparare le distribuzioni del costo del biglietto a seconda della classe.

In [None]:
plt.figure()
data.boxplot(column = 'Fare', by = 'Pclass')
plt.show()

Con groupby possiamo anche aggregare le colonne nei gruppi specificando le quantità da calcolare: per esempio media, std, min e max per `Fare` e solo min per `Age`.

In [None]:
data[['Pclass', 'Fare', 'Age']] \
    .groupby('Pclass') \
    .agg({'Fare': ['mean', 'std', 'min', 'max'], 'Age': 'min'})

Infine con pandas possiamo anche ottenere bar plot e scatter plot senza passare da matplotlib.

In [None]:
plt.figure()
df = data.groupby("Pclass")["Survived"].mean()
df = df.reset_index()
df.plot.bar(x = "Pclass")
plt.show()

In [None]:
data.plot.scatter(x = 'Age', y = 'Fare')

## Esercizi

Sempre rigurado il dataset `titanic` calcolare:
- l'età media e massima a seconda della classe
- l'età media a seconda della sopravvivenza
- l'età media a seconda del sesso
- il costo medio del biglietto a seconda del sesso

Plottare con grafici a barre:
- l'età media a seconda del sesso
- il costo medio del biglietto a seconda del sesso

Plottare con boxplot:
- la distribuzione dell'età media a seconda del sesso
- la distribuzione del costo del biglietto a seconda del sesso

Aggiungere una colonna `AgeClass` che valga "children" per i passeggeri con meno di 18 anni e "adult" per quelli con più di 18 anni.

Il DataFrame `cars` contiene le seguenti variabili:
  1. **symboling:**              -3, -2, -1, 0, 1, 2, 3.
  2. **normalized-losses:**        continuous from 65 to 256.
  3. **make:**                     alfa-romero, audi, bmw, chevrolet, dodge, honda,
                               isuzu, jaguar, mazda, mercedes-benz, mercury,
                               mitsubishi, nissan, peugot, plymouth, porsche,
                               renault, saab, subaru, toyota, volkswagen, volvo
  4. **fuel-type:**                diesel, gas.
  5. **aspiration:**               std, turbo.
  6. **num-of-doors:**             four, two.
  7. **body-style:**               hardtop, wagon, sedan, hatchback, convertible.
  8. **drive-wheels:**             4wd, fwd, rwd.
  9. **engine-location:**          front, rear.
 10. **wheel-base:**               continuous from 86.6 to 120.9.
 11. **length:**                   continuous from 141.1 to 208.1.
 12. **width:**                    continuous from 60.3 to 72.3.
 13. **height:**                   continuous from 47.8 to 59.8.
 14. **curb-weight:**              continuous from 1488 to 4066.
 15. **engine-type:**              dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
 16. **num-of-cylinders:**         eight, five, four, six, three, twelve, two.
 17. **engine-size:**              continuous from 61 to 326.
 18. **fuel-system:**              1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
 19. **bore:**                     continuous from 2.54 to 3.94.
 20. **stroke:**                   continuous from 2.07 to 4.17.
 21. **compression-ratio:**        continuous from 7 to 23.
 22. **horsepower:**               continuous from 48 to 288.
 23. **peak-rpm:**                 continuous from 4150 to 6600.
 24. **city-mpg:**                 continuous from 13 to 49.
 25. **highway-mpg:**              continuous from 16 to 54.
 26. **price:**                    continuous from 5118 to 45400.

Calcolare:
- Una nuova colonna `volume` ottenuta come prodotto di `lenght`, `width` e `height`.
- il prezzo medio a seconda del produttore
- i cavalli (horsepower) medi a seconda del tipo di motore (engine-type)
- il prezzo medio delle Volvo sotto i 100 cavalli.
- i cavalli massimi delle Porsche sopra i 90 cavalli.

Rappresentare:
- I cavalli in funzione del volume
- Il prezzo in funzione del volume
- La distribuzione del prezzo a seconda del produttore
- La distribuzione di `lenght` a seconda del `body-style`
- La dimensione media del motore a seconda del tipo di motore.

In [None]:
cars = pd.read_csv("data/cars.csv")