# Il tesoro del titanic (.csv) #  

In [1]:
import pandas as pd

In [2]:
# Creo il DataFrame tramite la funzione read_csv()
df = pd.read_csv("titanic.csv")

## 1. stampare un riassunto conciso del set di dati allegato (titanic.csv). ##

Ho deciso di utilizzare il metodo `df.info()` per ottenere un riepilogo conciso del dataset. Questo metodo è particolarmente utile perché:
- mostra il numero di righe e colonne del dataset;
- indica i tipi di dati per ciascuna colonna;
- evidenzia eventuali valori mancanti;
- fornisce un'indicazione generale del volume di dati e dell'utilizzo della memoria.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   who          891 non-null    object 
 10  adult_male   891 non-null    bool   
 11  deck         203 non-null    object 
 12  embark_town  889 non-null    object 
 13  alive        891 non-null    object 
 14  alone        891 non-null    bool   
 15  Unnamed: 15  0 non-null      float64
dtypes: bool(2), float64(3), int64(4), object(7)
memory usage: 99.3+ KB


## 2. estrarre le etichette delle colonne, la forma e i tipi di dati del set di dati (titanic.csv). ##  

Ho utilizzato i seguenti metodi:
1. `df.columns`: restituisce una lista contenente i nomi delle colonne del dataset;

In [4]:
df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone', 'Unnamed: 15'],
      dtype='object')

2. `df.shape`: fornisce una tupla con il numero di righe e colonne;

In [5]:
df.shape

(891, 16)

3. `df.dtypes`: mostra il tipo di dato associato a ciascuna colonna.

In [6]:
df.dtypes  

survived         int64
pclass           int64
sex             object
age            float64
sibsp            int64
parch            int64
fare           float64
embarked        object
class           object
who             object
adult_male        bool
deck            object
embark_town     object
alive           object
alone             bool
Unnamed: 15    float64
dtype: object

## 3. creare una tabella Pivot con indici di riga sesso ed età, che riporti la somma dei valori per tutte le colonne rimanenti. ##

Ho deciso di utilizzare il metodo `pivot_table()` che permette di creare una tabella pivot. In particolare:
- **Indici di riga**: ho specificato `["sex", "age"]` come indici, organizzando i dati prima per sesso e poi per età;
- **Funzione di aggregazione**: ho utilizzato `aggfunc="sum"` per calcolare la somma dei valori numerici presenti nelle colonne rimanenti. Dato che nella richiesta è specificato **per tutte le colonne rimanenti**, ho interpretato che anche per le colonne contenenti valori di tipo stringa fosse richiesta la somma di tali valori. Pertanto, ho applicato la funzione somma anche alle stringhe, trattandola come un'operazione di concatenazione.

**Gestione dei valori mancanti**: la colonna *age* contiene valori mancanti. Ho ritenuto che il comportamento predefinito di `pivot_table()` fosse adeguato per gestirli, in quanto i record con valori mancanti in *age* vengono automaticamente esclusi dalla tabella pivot, evitando così l'inclusione di dati incompleti.

In [7]:
pivot_table_1 = df.pivot_table(
    index = ["sex", "age"],
    aggfunc = "sum"
)

pivot_table_1

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 15,adult_male,alive,alone,class,deck,embark_town,embarked,fare,parch,pclass,sibsp,survived,who
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
female,0.75,0.0,0,yesyes,0,ThirdThird,0,CherbourgCherbourg,CC,38.5166,2,6,4,2,childchild
female,1.00,0.0,0,yesyes,0,ThirdThird,0,SouthamptonCherbourg,SC,26.8750,3,6,1,2,childchild
female,2.00,0.0,0,nononoyesyesno,0,ThirdThirdFirstThirdSecondThird,GC,SouthamptonSouthamptonSouthamptonSouthamptonSo...,SSSSSS,259.4750,9,15,9,2,childchildchildchildchildchild
female,3.00,0.0,0,yesno,0,SecondThird,0,CherbourgSouthampton,CS,62.6542,3,5,4,1,childchild
female,4.00,0.0,0,yesyesyesyesyes,0,ThirdThirdSecondThirdSecond,GF,SouthamptonSouthamptonSouthamptonCherbourgSout...,SSSCS,114.1417,6,13,4,5,childchildchildchildchild
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
male,70.00,0.0,2,nono,1,SecondFirst,B,SouthamptonSouthampton,SS,81.5000,1,3,1,0,manman
male,70.50,0.0,1,no,1,Third,0,Queenstown,Q,7.7500,0,3,0,0,man
male,71.00,0.0,2,nono,2,FirstFirst,A,CherbourgCherbourg,CC,84.1584,0,2,0,0,manman
male,74.00,0.0,1,no,1,Third,0,Southampton,S,7.7750,0,3,0,0,man


## 4. creare una tabella Pivot e trovare il tasso di sopravvivenza per sesso su varie classi. ##  

**Interpretazione del tasso di sopravvivenza**: ho scelto di calcolare e presentare i risultati come tassi (numeri compresi tra 0 e 1) anziché come percentuali, poichè nella richiesta non è specificato di visualizzare la percentuale. La colonna *survived* utilizza valori binari (0 e 1), e il calcolo della media restituisce direttamente un valore rappresentativo della proporzione dei sopravvissuti, coerente con il contesto dell'analisi. 

Ho utilizzato il metodo `pivot_table()` per creare la tabella pivot. La scelta dei parametri è stata la seguente:
- **Indice**: ho usato la colonna *sex* per suddividere i dati per sesso;
- **Colonne**: ho utilizzato la colonna *class* per separare i dati nelle diverse classi;
- **Valori**: ho selezionato la colonna *survived*, poiché voglio calcolare il tasso di sopravvivenza;
- **Funzione di aggregazione**: ho scelto `aggfunc="mean"`, che calcola la media dei valori nella colonna *survived*. Poiché i valori in *survived* sono 0 (non sopravvissuti) e 1 (sopravvissuti), la media corrisponde al tasso di sopravvivenza. Ho deciso di specificare lo stesso `aggfunc="mean"` per maggiore leggibilità del codice, anche se di default la funzione di aggregazione è la mean.

**Arrotondamento**: ho scelto di arrotondare i valori a due decimali per rendere i risultati più chiari e facili da interpretare, evitando dettagli non necessari e garantendo una presentazione concisa dei dati.

In [8]:
pivot_table_2 = df.pivot_table(
    index = "sex",
    columns = "class",
    values = "survived",
    aggfunc = "mean",
).round(2)

pivot_table_2

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.97,0.92,0.5
male,0.37,0.16,0.14


## 5. creare una tabella pivot e trovare il tasso di sopravvivenza per sesso. ##

Ho utilizzato il metodo pivot_table() per creare la tabella pivot. Nello specifico:
- **Indici di riga**: ho impostato la colonna *sex* come indice per ottenere il tasso di sopravvivenza separato per ciascun sesso;
- **Colonna da aggregare**: ho scelto la colonna *survived*, in quanto contiene i valori necessari per calcolare il tasso di sopravvivenza;
- **Funzione di aggregazione**: ho utilizzato `aggfunc="mean"`, che calcola la media dei valori nella colonna *survived* per ogni gruppo di sesso. Poiché i valori in *survived* sono 0 e 1, la media corrisponde al tasso di sopravvivenza.

**Arrotondamento**: ho scelto di arrotondare i valori a due decimali per rendere i risultati più chiari e facili da interpretare, evitando dettagli non necessari e garantendo una presentazione concisa dei dati.

In [9]:
pivot_table_3 = df.pivot_table(
    index = "sex",
    values = "survived",
    aggfunc = "mean"
).round(2)

pivot_table_3

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.74
male,0.19


## 6. Creare una tabella pivot e trovare il tasso di sopravvivenza per sesso e per età delle varie classi. ##

Ho utilizzato il metodo `pivot_table()` per creare la tabella pivot, con i seguenti parametri:
- **Indici di riga**: `["sex", "age"]`, per raggruppare i dati per sesso ed età;
- **Colonne**: `"class"`, per suddividere i dati in base alle diverse classi dei passeggeri;
- **Valori**: `"survived"`, in quanto voglio calcolare il tasso di sopravvivenza (media dei valori della colonna *survived*);
- **Funzione di aggregazione**: `aggfunc="mean"`, poiché voglio ottenere il tasso di sopravvivenza per ciascun gruppo.

**Gestione dei valori mancanti**:
la colonna *age* contiene valori mancanti. Ho ritenuto che il comportamento predefinito di `pivot_table()` fosse adeguato per gestirli, in quanto i record con valori mancanti in *age* vengono automaticamente esclusi dalla tabella pivot, evitando così l'inclusione di dati incompleti.

In [10]:
pivot_table_4 = df.pivot_table(
    index = ["sex", "age"],
    columns = "class",
    values = "survived",
    aggfunc = "mean"
)

pivot_table_4

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.75,,,1.00
female,1.00,,,1.00
female,2.00,0.0,1.0,0.25
female,3.00,,1.0,0.00
female,4.00,,1.0,1.00
...,...,...,...,...
male,70.00,0.0,0.0,
male,70.50,,,0.00
male,71.00,0.0,,
male,74.00,,,0.00


## 7. suddividere i passeggeri in quattro categorie in base all'età. Nota: categorie di età (0, 10), (10, 30), (30, 60), (60, 80). ##  

Ho scelto di utilizzare la funzione `pd.cut()`, che permette di suddividere i dati continui in intervalli discreti. Allora, con:
- **Bins**: ho definito gli intervalli di età utilizzando la lista `bins = [0, 10, 30, 60, 80]`, che corrisponde alle categorie di età richieste;
- **Argomento `right=True`**: ho usato l'argomento `right=True` per includere il limite superiore in ogni intervallo.

**Gestione dei valori float**: poiché la colonna *age* contiene valori di tipo float (ad esempio, 10.2), ho considerato come questi vengano gestiti nei bin definiti. Con l'impostazione `right=True`, i valori decimali, come 10.2, vengono automaticamente inclusi nell'intervallo successivo, cioè un valore come 10.2 rientra nell'intervallo (10, 30) anziché in (0, 10). Ho scelto questa impostazione per garantire che i valori che superano un limite inferiore (come 10.2) vengano assegnati correttamente all'intervallo successivo, mantenendo la coerenza nell'assegnazione alle categorie e rispettando la logica dei confini definiti. Inoltre, per l'intervallo `(60, 80]` mi sono assicurato se il dataset *non* contenesse valori oltre i gli 80 (ad esempio: 80.2).

Il risultato è una serie di categorie che indicano la fascia di età in cui rientra ciascun passeggero. Ogni valore della colonna *age* è stato mappato alla relativa categoria.

In [11]:
bins = [0, 10, 30, 60, 80]

age_categories = pd.cut(df["age"], bins, right=True)

age_categories

0      (10.0, 30.0]
1      (30.0, 60.0]
2      (10.0, 30.0]
3      (30.0, 60.0]
4      (30.0, 60.0]
           ...     
886    (10.0, 30.0]
887    (10.0, 30.0]
888             NaN
889    (10.0, 30.0]
890    (30.0, 60.0]
Name: age, Length: 891, dtype: category
Categories (4, interval[int64, right]): [(0, 10] < (10, 30] < (30, 60] < (60, 80]]

## 8. creare una tabella Pivot e contare il numero di sopravvissuti in base al sesso e categorie di età delle varie classi. Nota: categorie di età (0, 10), (10, 30), (30, 60), (60, 80). ##  

Ho utilizzato il metodo `pivot_table()`, con le seguenti impostazioni:
- **Indici**: `["sex", age_categories]` come indici, per ottenere una tabella pivot che raggruppa prima per sesso e poi per le categorie di età;
- **Colonne**: `"class"` come colonna, per separare il conteggio dei sopravvissuti in base alle classi del Titanic;
- **Valori**: `"survived"`, che contiene i dati sulla sopravvivenza, per eseguire il conteggio;
- **Funzione di aggregazione**: ho scelto `aggfunc="sum"`, poiché l'obiettivo è contare il numero di sopravvissuti in ogni combinazione di sesso, età e classe.
-  `observed = False`: questo parametro è necessario poichè senza viene generato un FutureWarning. Ho scelto `False` per includere solo le combinazioni di sesso, età e classe, con dati presenti.

In [12]:
pivot_table_5 = df.pivot_table(
    index = ["sex", age_categories],
    columns = "class",
    values = "survived",
    aggfunc = "sum",
    observed = False
)

pivot_table_5

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 10]",0,8,11
female,"(10, 30]",33,33,29
female,"(30, 60]",47,27,6
female,"(60, 80]",2,0,1
male,"(0, 10]",2,9,8
male,"(10, 30]",11,1,21
male,"(30, 60]",26,4,9
male,"(60, 80]",1,1,0


## 9. creare una tabella Pivot e trovare il tasso di sopravvivenza per sesso e categorie di età, delle varie classi. Nota: categorie di età (0, 20), (20, 55), (55,80) ##  

1. **Creazione delle categorie di età**: ho utilizzato il metodo `pd.cut()` per suddividere la colonna *age* in intervalli definiti: `(0, 20)`, `(20, 55)`, `(55, 80)`.
2. **Creazione della tabella pivot**: ho utilizzato `pivot_table()` per calcolare il tasso di sopravvivenza:
   - **Indici**: `["sex", age_categories]` come indici, per ottenere una tabella pivot che raggruppa prima per sesso e poi per le categorie di età;
   - **Colonne**: `"class"` come colonna, per separare il conteggio dei sopravvissuti in base alle classi del Titanic;
   - **Colonne**: la variabile *class* rappresenta le colonne della tabella;
   - **Valori**: la variabile *survived* viene aggregata calcolandone la media, che corrisponde al tasso di sopravvivenza; 
   - **Funzione di aggregazione**: ho scelto `mean` per calcolare il tasso di sopravvivenza;
   - `observed = False`: questo parametro è necessario poichè senza viene generato un FutureWarning. Ho scelto `False` per includere solo le combinazioni di sesso, età e classe, con dati presenti.

**Arrotondamento**: ho scelto di arrotondare i valori a due decimali per rendere i risultati più chiari e facili da interpretare, evitando dettagli non necessari e garantendo una presentazione concisa dei dati.

In [13]:
bins = [0, 20, 55, 80]
age_categories = pd.cut(df["age"], bins, right = True)

pivot_table_6 = df.pivot_table(
    index = ["sex", age_categories],
    columns = "class",
    values = "survived",
    aggfunc = "mean",
    observed = False
).round(2)

pivot_table_6

Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 20]",0.93,1.0,0.51
female,"(20, 55]",0.97,0.91,0.41
female,"(55, 80]",1.0,0.0,1.0
male,"(0, 20]",0.57,0.53,0.2
male,"(20, 55]",0.44,0.05,0.13
male,"(55, 80]",0.16,0.17,0.0


## 10. Creare una tabella pivot e calcolare il numero di donne e uomini presenti in una particolare classe di cabina. ##

**Interpretazione della richiesta**: ho interpretato la consegna come una richiesta di calcolare il numero totale di uomini e donne presenti in ogni classe di cabina. Ho considerato che per "classe di cabina" ci si riferisse alla colonna `class`, visto che non ci sono altre colonne che si riferiscono esplicitamente alla cabina.

**Filtro il DataFrame**: poichè nella richiesta è specificato di calcolare il numero di donne e uomini, ho esculto dal DatFrame originale tutte le righe relative ai bambini. Ho fatto questo tramite `df[(df["who"] == "man") | (df["who"] == "woman")]` e ho creato un nuovo DataFrame.

Ho scelto di utilizzare il metodo `pivot_table()`. In particolare:
- **Indici di riga**: ho usato la colonna `sex` per ottenere il conteggio separato per uomini e donne;
- **Colonne**: ho utilizzato la colonna `class` per ottenere una suddivisione per le diverse classi;
- **Valori**: ho scelto di usare la colonna `survived` per il conteggio delle persone.
- **Funzione di aggregazione**: ho scelto `count` per calcolare il numero di persone presenti in ciascuna combinazione di sesso e classe.

In [14]:
# Filtro il DataFrame prendendo solo le donne e gli uomini
new_df = df[(df["who"] == "man") | (df["who"] == "woman")]

pivot_table_7 = new_df.pivot_table(
    index = "sex",
    columns = "class",
    values = "survived",
    aggfunc = "count"
)

pivot_table_7

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,91,66,114
male,119,99,319


## 11. creare una tabella pivot e trovare il tasso sopravvivenza di entrambi i sessi e delle classi interessate. ##  

**Interpretazione della richiesta**: ho interpretato questa richiesta come calcolare il tasso di sopravvivenza sia per sesso che per classe, in modo da ottenere un'analisi sia per le classi che per i sessi. Ho deciso di calcolare il tasso di sopravvivenza separatamente per sesso e classe, in quanto la richiesta menziona entrambi i parametri.

Per risolvere questa richiesta, ho creato due tabelle pivot separate:
1. una per calcolare il tasso di sopravvivenza in base al **sesso**;
2. una per calcolare il tasso di sopravvivenza in base alla **classe**.

Infine, ho concatenato le due tabelle per presentare i risultati in un'unica struttura.

Ho utilizzato il metodo `pivot_table()`, specificando:
- **Indici di riga**: `sex` per il tasso di sopravvivenza per sesso e `class` per il tasso di sopravvivenza per classe;
- **Colonne**: `survived`, che rappresenta il tasso di sopravvivenza.
- **Funzione di aggregazione**: `aggfunc="mean"`, che calcola la media dei valori nella colonna `survived`, rappresentando il tasso di sopravvivenza per ciascun gruppo.

**Concatenamento dei risultati**: ho utilizzato `pd.concat()` per combinare i risultati delle due tabelle in un'unica tabella pivot.

**Arrotondamento**: ho scelto di arrotondare i valori a due decimali per rendere i risultati più chiari e facili da interpretare, evitando dettagli non necessari e garantendo una presentazione concisa dei dati.

In [15]:
# Tasso di sopravvivenza per sesso
pivot_table_sex = df.pivot_table(
    index = "sex",
    values = "survived",
    aggfunc = "mean"
)

# Tasso di sopravvivenza per classe
pivot_table_class = df.pivot_table(
    index = "class",
    values = "survived",
    aggfunc = "mean"
)

# Concatenare i due risultati per risolvere la richiesta
pivot_table_8 = pd.concat([pivot_table_sex, pivot_table_class]).round(2)

pivot_table_8

Unnamed: 0,survived
female,0.74
male,0.19
First,0.63
Second,0.47
Third,0.24


## 12. creare una tabella pivot e calcolare i totali di sopravvivenza di tutte le classi di ciascun gruppo. ##

**Interpretazione della richiesta**: ho interpretato la traccia come la richiesta di calcolare il tasso di sopravvivenza per ciascun gruppo, inteso come gruppo di fasce di età specificato nella traccia 9 ((0, 20), (20, 55), (55,80)).


Ho utilizzato il metodo `pivot_table()`, in particolare:
- **Indici di riga**: ho scelto `"age_categories"` come indice di riga per raggruppare i dati in base alle fasce di età;
- **Colonne**: ho specificato `"class"` come colonna per raggruppare i dati in base alla classe di passeggero;
- **Values**: ho scelto `"survived"` come colonna da analizzare, poiché rappresenta l'informazione sulla sopravvivenza;
- **Funzione di aggregazione**: ho utilizzato `aggfunc="mean"` per calcolare il tasso di sopravvivenza per ciascun gruppo di età e classe;
- `observed = False`: questo parametro è necessario poichè senza viene generato un FutureWarning. Ho scelto `False` per includere solo le combinazioni di sesso, età e classe, con dati presenti.

**Arrotondamento**: ho scelto di arrotondare i valori a due decimali per rendere i risultati più chiari e facili da interpretare, evitando dettagli non necessari e garantendo una presentazione concisa dei dati.

In [16]:
pivot_table_9 = df.pivot_table(
    index = age_categories,
    columns = "class",
    values = "survived",
    aggfunc = "mean",
    observed = False
).round(2)

pivot_table_9

class,First,Second,Third
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(0, 20]",0.81,0.74,0.32
"(20, 55]",0.68,0.43,0.2
"(55, 80]",0.38,0.14,0.14


## 13. creare una tabella pivot e calcolare il costo medio di un biglietto per classe e sesso. ##  

Ho utilizzato il metodo `pivot_table()`, in particolare:
- **Indici di riga**: ho scelto *sex* come indice per raggruppare i dati per sesso;
- **Colonne**: ho usato *class* come colonne per separare i dati per classe del biglietto;
- **Valori**: ho selezionato *fare* (il costo del biglietto) come la variabile di interesse per calcolare il costo medio;
- **Funzione di aggregazione**: ho utilizzato `aggfunc="mean"` per calcolare la media dei valori di "fare" per ogni combinazione di sesso e classe.

**Arrotondamento**: ho scelto di arrotondare i valori a due decimali per rendere i risultati più chiari e facili da interpretare, evitando dettagli non necessari e garantendo una presentazione concisa dei dati.

In [17]:
pivot_table_10 = df.pivot_table(
    index = "sex",
    columns = "class",
    values = "fare",
    aggfunc = "mean"
).round(2)

pivot_table_10

class,First,Second,Third
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,106.13,21.97,16.12
male,67.23,19.74,12.66


## 14. creare una tabella pivot e trovare il numero di sopravvissuti e il tasso medio di sopravvivenza raggruppati per sesso e classe. ## 

Ho deciso di utilizzare il metodo `pivot_table()`, in particolare:
- **Indici di riga**: ho usato `["sex", "class"]` per raggruppare i dati per sesso e classe;
- **Colonna di valori**: ho selezionato la colonna `survived`, poiché contiene i dati sulla sopravvivenza;
- **Funzione di aggregazione**: ho utilizzato come funzioni di aggregazione `sum` per calcolare il numero di sopravvissuti e `mean` per calcolare il tasso di sopravvivenza medio.

**Modifica dei nomi delle colonne**:
Dopo aver creato la tabella pivot, ho rinominato le colonne in modo che fossero più chiare:
- La prima colonna è stata rinominata in "Number survivors" per indicare il numero di sopravvissuti.
- La seconda colonna è stata rinominata in "Survival rate" per rappresentare il tasso di sopravvivenza medio.

**Arrotondamento del tasso di sopravvivenza**:
Per rendere il tasso di sopravvivenza più leggibile, ho arrotondato i valori della colonna "Survival rate" a due decimali.

In [18]:
pivot_table_11 = df.pivot_table(
    index = ["sex", "class"],
    values = "survived",
    aggfunc = ["sum", "mean"]
)

pivot_table_11.columns = ["Number survivors", "Survival rate"]

pivot_table_11["Survival rate"] = pivot_table_11["Survival rate"].round(2)

pivot_table_11

Unnamed: 0_level_0,Unnamed: 1_level_0,Number survivors,Survival rate
sex,class,Unnamed: 2_level_1,Unnamed: 3_level_1
female,First,91,0.97
female,Second,70,0.92
female,Third,72,0.5
male,First,45,0.37
male,Second,17,0.16
male,Third,47,0.14


## 15. Creare una tabella pivot e trovare il numero di uomini adulti, donne adulte e bambini. ##  

**Interpretazione della richiesta**: la consegna richiedeva di creare una tabella pivot per trovare il numero di uomini adulti, donne adulte e bambini. Ho interpretato la richiesta come il conteggio del numero totale di persone per ciascuna delle categorie definite nella colonna who (cioè "child", "man" e "woman").

Ho utilizzato il metodo `pivot_table()`, in particolare:
- **Indice**: ho scelto la colonna *who*, che contiene le categorie "male" (uomini adulti), "female" (donne adulte) e "child" (bambini);
- **Valori**: ho utilizzato la colonna *survived*, che indica se una persona è sopravvissuta (1) o no (0);
- **Funzione di aggregazione**: ho impostato `aggfunc="count"` per contare il numero di occorrenze di ogni categoria, cioè il numero di persone in ogni gruppo, indipendentemente dal fatto che siano sopravvissute o meno.

In [19]:
pivot_table_12 = df.pivot_table(
    index = "who",
    values = "survived",
    aggfunc = "count"
)

pivot_table_12

Unnamed: 0_level_0,survived
who,Unnamed: 1_level_1
child,83
man,537
woman,271


## 16. Creare una tabella pivot e verificare i valori mancanti dei bambini. ##  

**Interpretazione della richiesta**: ho interpretato la traccia come la necessità di verificare quali colonne contengano valori mancanti per i bambini nel dataset. La parola "verificare" mi ha suggerito di identificare direttamente la presenza di valori mancanti nelle righe che corrispondono ai bambini. L'intento, dal mio punto di vista, è quello di verificare le colonne incomplete per i bambini, per capire quali dati risultano mancanti.

Per soddisfare questa richiesta, ho utilizzato una combinazione di filtraggio e tabella pivot:
1. **Filtraggio dei bambini**: prima ho selezionato i dati relativi ai bambini, filtrando il dataset per la colonna *who* uguale a "child";
2. **Tabella pivot**: successivamente, ho creato una tabella pivot utilizzando `pivot_table()`, con l'indice impostato su "who" (anche se, dato che il filtro seleziona solo i bambini, la colonna *who* sarà sempre "child").
3. **Funzione di aggregazione**: per calcolare i valori mancanti, ho usato una funzione lambda con `x.isna().sum()`, che restituisce la somma dei valori mancanti (NaN) per ogni colonna.

In [20]:
pivot_table_13 = df[df["who"] == "child"].pivot_table(
    index = "who",
    aggfunc = lambda x: x.isna().sum()
)

pivot_table_13

Unnamed: 0_level_0,Unnamed: 15,adult_male,age,alive,alone,class,deck,embark_town,embarked,fare,parch,pclass,sex,sibsp,survived
who,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
child,83,0,0,0,0,0,70,0,0,0,0,0,0,0,0


## 17. creare una tabella pivot e separare i sessi a seconda che abbiano viaggiato da soli o meno per ottenere la probabilità di sopravvivenza. ##  

Ho deciso di utilizzare il metodo `pivot_table()`, specificando:
- **Indici di riga**: la variabile *sex* per separare i dati per sesso;
- **Colonne**: la variabile *alone* per distinguere chi ha viaggiato da solo e chi no;
- **Valori**: la variabile *survived*, sulla quale applico la funzione di aggregazione `mean`, per calcolare la probabilità di sopravvivenza;
- **Funzione di aggregazione**: `aggfunc="mean"` calcola la media dei valori di *survived* per ciascun gruppo, che rappresenta direttamente la probabilità di sopravvivenza.

**Arrotondamento del tasso di sopravvivenza**:
per rendere il tasso di sopravvivenza più leggibile, ho arrotondato i valori a due decimali.

**Modifica dei nomi delle colonne**:
dopo aver creato la tabella pivot, ho rinominato le colonne in modo che fossero più chiare:
- le persone che non hanno viaggiato da sole;
- le persone che hanno viaggiato da sole.

In [21]:
pivot_table_14 = df.pivot_table(
    index = "sex",
    columns = "alone",
    values = "survived",
    aggfunc = "mean"
).round(2)

pivot_table_14.columns = ['Not alone', 'Alone']

pivot_table_14

Unnamed: 0_level_0,Not alone,Alone
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.71,0.79
male,0.27,0.16


## 18. creare una tabella pivot e trovare il tasso di sopravvivenza per classe, sesso, imbarco in solitaria e porto di imbarco. ##  

Ho utilizzato `pivot_table()`, in particolare:
- **Indici di riga**: ho scelto di raggruppare i dati per `class` e `sex`, in quanto questi sono i principali gruppi di interesse per analizzare la sopravvivenza;
- **Colonne**: ho impostato le colonne con le variabili `alone` (indica se la persona era in imbarco in solitaria) e `embark_town` (porto di imbarco), in modo da esplorare come queste caratteristiche, insieme a classe e sesso, influenzano il tasso di sopravvivenza;
- **Valori**: ho selezionato la colonna `survived` come valore da aggregare, poiché voglio calcolare il tasso di sopravvivenza;
- **Funzione di aggregazione**: ho utilizzato `aggfunc="mean"` per calcolare la media di sopravvivenza, che mi dà il tasso di sopravvivenza per ciascuna combinazione di variabili.

**Arrotondamento del tasso di sopravvivenza**:
per rendere il tasso di sopravvivenza più leggibile, ho arrotondato i valori a due decimali.

In [22]:
pivot_table_15 = df.pivot_table(
    index = ["class", "sex"],
    columns = ["alone", "embark_town"],
    values = "survived",
    aggfunc = "mean"
).round(2)

pivot_table_15

Unnamed: 0_level_0,alone,False,False,False,True,True,True
Unnamed: 0_level_1,embark_town,Cherbourg,Queenstown,Southampton,Cherbourg,Queenstown,Southampton
class,sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
First,female,1.0,1.0,0.94,0.94,,1.0
First,male,0.47,0.0,0.41,0.35,,0.33
Second,female,1.0,,0.92,1.0,1.0,0.89
Second,male,0.17,,0.3,0.25,0.0,0.09
Third,female,0.61,0.62,0.33,0.8,0.76,0.47
Third,male,0.5,0.1,0.14,0.15,0.07,0.12
