# Fondamenti di PyTorch

## Effettuiamo l'import delle librerie utilizzate nell'esercitazione.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
%matplotlib inline

Di seguito i riferimenti alle pagine di documentazione, sempre utiliti:

* Rif: [numpy](https://numpy.org/doc/)
* Rif: [pandas](https://pandas.pydata.org/docs/user_guide/index.html)
* Rif: [matplotlib](https://matplotlib.org/stable/index.html)

## _Leggere un cvs con pandas._

_Pandas_ e' una libreria python open-source utilizzata per la manipolazione, l'analisi e la ristrutturazione dei dati. E' la scelta principale per chi vuole lavorare con dati strutturati, come ad esempio i file _csv_. Sfrutta le potenzialita' di _numpy_ e basa il suo funzionamento su due elementi:
* [_Series_](https://pandas.pydata.org/docs/reference/api/pandas.Series.html): per la gestione di dati rappresentati da una struttura 1-dimensionale.

* [_DataFrame_](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html): per la gestione di dati rappresentati da una struttura 2-dimensionale.

Partiamo indicando un file strutturato, _csv_, da analizzare.

In [None]:
data_path = 'data.csv'

La lettura di un file csv da parte di _pandas_ avviene semplicemente tramite il metodo _read\_csv_ al quale si passa poi il percorso al file.

* Rif: [read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [None]:
df = pd.read_csv(data_path)

Il risultato sara', in questo caso, un oggetto di tipo DataFrame. Verifichiamolo.

In [None]:
print(type(df))

## _Del csv e possibile visualizzarne un'anteprima._

Per visualizzare, ad esempio, le prime _n_ righe, si utilizza il metodo _head_ al quale va indicato il numero _n_ desiderato.

* Rif: [head](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html)

In [None]:
n = 5
df.head(n)

## _Del csv e' possibile fare una analisi macroscopica._

Se ne possono conoscere moltissime informazioni. Di seguito ne vediamo alcune.

* Rif: [DataFrame](https://pandas.pydata.org/docs/reference/frame.html)

In [None]:
# Una raccolta di informazioni generali.
df.info()

Scopriamo, ad esempio, che non di tutti i passeggeri si conosce l'eta'.

In [None]:
# Il tipo di dato per colonna.
df.dtypes

In [None]:
# Il numero di dimensioni e le dimensioni stesse.
print(f'DataFrame has {df.ndim} dimensions and size: {df.shape}')

In [None]:
# Una lista delle colonne
for i, c in enumerate(df.columns):
    print(f'Column {i+1}: {c}')

In [None]:
# Una descrizione degli assi per ogni dimensione.
# - asse 1, le righe.
# - asse 2, le colonne.
for i, a in enumerate(df.axes):
    print(f'Axis {i+1}: {a}')

In [None]:
# Il numero di elementi.
df.size

## _Del csv e' possibile fare una analisi statistica._

In questo caso, viene in aiuto il metodo _describe_.

* Rif: [describe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)

In [None]:
df.describe()

## _Del csv e' possibile scoprire informazioni sui valori nulli, non nulli..._

Il metodo _isnull_ in questo caso ritorna un DataFrame analizzabile come quello da cui e' stato estratto. Opposto e' il comportamento di _notnull_.

* Rif: [isnull](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html)
* Rif: [notnull](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.notnull.html)

In [None]:
null_df = df.isnull()
notnull_df = df.notnull()

In [None]:
print(null_df.sum())

In [None]:
print(df.notnull().sum())

## _I valori nulli possono essere rimossi._

Possono essere rimosse righe o colonne contenenti valori nulli. Possono essere rimossi solo in caso **tutti** i valori siano nulli o solamenti se lo sono **alcuni**. _dropna_ e' il metodo da utilizzare e, anche in questo caso, resituisce un DataFrame.

* Rif: [dropna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html#pandas.DataFrame.dropna)

In [None]:
df_dropna = df.dropna()

In [None]:
df_dropna.info()

## _Possono essere fatte analisi mirate sulle colonne._

In questo csv sono presenti, ad esempio, due colonne 'Sex' ed 'Embarked' dalle quali possono essere estratte informazioni sulle varie istanze dei dati, la numerosita' per istanza, il tipo...

In [None]:
df.Sex.value_counts()

In [None]:
df.Embarked.value_counts()

## _Le colonne possono essere rimosse._

Per rimuovere una colonna si puo' utilizzare il metodo _drop_ direttamente sul DataFrame, indicando una lista delle colonne da rimuovere.

Rif: [drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html?highlight=drop#pandas.DataFrame.drop)

In [None]:
df_dropped = df.drop(columns='Cabin')

In [None]:
df_dropped.info()