# Fondamenti di PyTorch

## Effettuiamo l'import delle librerie utilizzate nell'esercitazione.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
%matplotlib inline

Di seguito i riferimenti alle pagine di documentazione, sempre utiliti:

* Rif: [numpy](https://numpy.org/doc/)
* Rif: [pandas](https://pandas.pydata.org/docs/user_guide/index.html)
* Rif: [matplotlib](https://matplotlib.org/stable/index.html)

## _Carichiamo i dati dal csv._

Partiamo indicando il file strutturato, _csv_, da analizzare.

In [None]:
data_path = 'data.csv'

E procediamo alla lettura.

In [None]:
df = pd.read_csv(data_path)

## _Analisi delle distribuzioni di età dei passeggeri del Titanic._

Posso effettuare analisi puntuali e manuali su una colonna.

In [None]:
column_name = 'Age'

In [None]:
mean = df[column_name].mean()
median = df[column_name].median()
std = df[column_name].std()

print(f'Colonna: {column_name}:')
print(f'|__Mean   : {mean:.2f}')
print(f'|__Median : {median:.2f}')
print(f'|__Std    : {std:.2f}')

Avrei potuto anche chiedere direttamente queste informazioni.

In [None]:
df[column_name].describe()

O, addirittura, graficarle in maniere visiva e piu' intuitiva.

In [None]:
plt.subplots(figsize=(10, 10))
sns.boxenplot(data=df[column_name]);

## _Analisi della relazione tra la classe dei passeggeri e la sopravvivenza._

In [None]:
# Calcola la percentuale di sopravvivenza per ogni classe
survival_rates = df.groupby('Pclass')['Survived'].mean() * 100

# Visualizza i risultati
print("Percentuale di sopravvivenza per classe:")
print(survival_rates)

## _Analisi della distribuzione del sesso dei passeggeri e della relazione tra il sesso e la sopravvivenza._

In [None]:
# Calcola la percentuale di sopravvivenza per ogni sesso
survival_rates = df.groupby('Sex')['Survived'].mean() * 100

# Visualizza i risultati
print("Percentuale di sopravvivenza per sesso:")
print(survival_rates)

## _Dall'analisi se ne possono estrarre interessanti e informativi grafici._

### _Istogramma delle distribuzioni delle età dei passeggeri._

In [None]:
df['Age'].hist(figsize=(12, 6), bins=[0,10,30,60,80,100], color='lightblue', edgecolor='darkblue', linewidth=2)

### _Istogramma della distribuzione delle classi._

In [None]:
df['Pclass'].hist(figsize=(12, 6), bins=[1, 2, 3, 4], color='lightblue', edgecolor='darkblue', linewidth=2)

### _Grafico a torta della distribuzione del sesso dei passeggeri._

In [None]:
# Calcola la distribuzione del sesso
sex_counts = df['Sex'].value_counts()

# Crea il grafico a torta
plt.figure(figsize=(12, 6))
plt.pie(sex_counts, labels=sex_counts.index, autopct='%1.1f%%', textprops={'color':"w", 'fontsize': 24})
plt.title('Distribuzione del sesso dei passeggeri', size=36, color='white')
plt.show()

### _Grafico a barre della percentuale di sopravvivenza per ogni classe._

In [None]:
# Calcola la percentuale di sopravvivenza per ogni classe
survival_rates = df.groupby('Pclass')['Survived'].mean() * 100

# Crea il grafico a barre
plt.figure(figsize=(12, 6))
plt.bar(survival_rates.index, survival_rates.values)
plt.title('Percentuale di sopravvivenza per classe')
plt.xlabel('Classe')
plt.ylabel('Percentuale di sopravvivenza')
plt.show()

### _Grafico a dispersione dell'età dei passeggeri e della tariffa pagata._

In [None]:
# Rimuove le righe con valori mancanti
df_cleaned = df.dropna(subset=['Age', 'Fare'])

# Crea il grafico a dispersione
plt.figure(figsize=(12, 6))
plt.scatter(df_cleaned['Age'], df_cleaned['Fare'])
plt.title('Età dei passeggeri vs tariffa pagata')
plt.xlabel('Età')
plt.ylabel('Tariffa pagata')
plt.show()

### _Grafico a barre della percentuale di sopravvivenza per ogni sesso._

In [None]:
# Calcola la percentuale di sopravvivenza per ogni sesso
survival_rates = df.groupby('Sex')['Survived'].mean() * 100

# Crea il grafico a barre
plt.figure(figsize=(12, 6))
plt.bar(survival_rates.index, survival_rates.values)
plt.title('Percentuale di sopravvivenza per sesso')
plt.xlabel('Sesso')
plt.ylabel('Percentuale di sopravvivenza')
plt.show()

## _Calcolo della correlazione tra le colonne del dataset._

In [None]:
# Seleziona le colonne di interesse
cols = ['Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare']

### _Visualizzare la matrice di correlazione con pandas._

In [None]:
# Crea la matrice di correlazione
corr = df[cols].corr()
corr.style.background_gradient(cmap='coolwarm')