# NUMPY

NumPy (Numerical Python) è una libreria Python progettata per il calcolo scientifico. Fornisce supporto per array multidimensionali e funzioni matematiche avanzate, rendendo le operazioni su set di dati di grandi dimensioni più efficienti rispetto all'utilizzo di elenchi Python.

Caratteristiche principali

Array multidimensionali: NumPy introduce il tipo ndarray, che consente operazioni veloci e ottimizzate sugli array.

Operazioni vettorizzate: supporta operazioni matematiche basate sugli elementi e calcoli su matrici algebriche.

Broadcasting: consente operazioni su array di forme diverse senza loop espliciti.

Funzioni matematiche avanzate: include strumenti per l'algebra lineare, trasformate di Fourier e generazione di numeri casuali.

NumPy è una libreria essenziale per il calcolo numerico in Python.

Con le sue capacità di gestire array e operazioni matematiche ottimizzate, è ampiamente utilizzato nella scienza dei dati, nell'apprendimento automatico e nel calcolo scientifico.

In [1]:
import numpy as np
arr = np.array([1, 2, 3, 4, 5])
print(arr)

[1 2 3 4 5]


In [2]:
mat = np.array([[1, 2, 3], [4, 5, 6]])
print(mat)

[[1 2 3]
 [4 5 6]]


In [3]:
arr = np.array([1, 2, 3, 4])
print(arr + 10)  # Adds 10 to each element
print(arr * 2)   # Multiplies each element by 2

[11 12 13 14]
[2 4 6 8]


In [4]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
print(A @ B)  #moltiplicazione tra matrici

[[19 22]
 [43 50]]


La funzione np.random.uniform(low=0, high=200, size=5) di NumPy genera un array di numeri casuali con distribuzione uniforme nell'intervallo specificato, ovvero tra low (0) e high (200).

Dettagli:
-low=0: il valore minimo dell'intervallo (incluso).
-high=200: il valore massimo dell'intervallo (escluso).
-size=5: il numero di valori casuali che vengono generati.
Quindi, questa funzione restituirà 5 numeri casuali che vanno da 0 a meno di 200.

In [5]:
np.random.uniform(low=0,high=200,size=5)

array([ 19.25516838, 138.86314155,  85.28279291,   8.77989479,
         7.92535101])

La funzione np.random.normal(loc=0, scale=5, size=5) di NumPy genera numeri casuali distribuiti secondo una distribuzione normale (nota anche come distribuzione gaussiana). Ecco cosa significa ciascun parametro:

-loc=0: la media (µ) della distribuzione normale. In questo caso, la media è 0.
-scale=5: la deviazione standard (σ) della distribuzione normale. In questo caso, la deviazione standard è 5, il che significa che i valori generati si distribuiranno intorno alla media con una certa variabilità.
-size=5: il numero di valori casuali da generare. In questo caso, verranno generati 5 numeri.

In [6]:
np.random.normal(loc=0, scale=5, size=5)

array([-0.02055677,  3.32933261, -4.995119  ,  4.05111628,  5.30371173])

# PANDAS

pandas è una libreria Python progettata per la manipolazione e l'analisi dei dati. Fornisce strutture dati e funzioni che semplificano ed efficienti il lavoro con dati strutturati (ad esempio, tabelle, serie temporali). pandas è basato su NumPy ed è ampiamente utilizzato in applicazioni di data science, finanza e apprendimento automatico.

Caratteristiche principali

-Strutture dati: pandas fornisce due principali strutture dati:

-Serie: un array etichettato unidimensionale in grado di contenere qualsiasi tipo di dati.

-DataFrame: una tabella bidimensionale con righe e colonne etichettate, simile a un foglio di calcolo.

-Manipolazione dei dati: pandas consente un potente data wrangling, inclusi filtraggio, raggruppamento e aggregazione.

-Gestione dei dati mancanti: le funzioni integrate aiutano a gestire in modo efficiente i valori mancanti.

-Importazione ed esportazione dati: lettura e scrittura di dati da vari formati (CSV, Excel, SQL, JSON, ecc.).

-Analisi delle serie temporali: supporto integrato per la gestione e l'analisi dei dati indicizzati nel tempo.

pandas è una libreria versatile e potente per l'analisi dei dati in Python.

Padroneggiando pandas, puoi manipolare, pulire e analizzare i dati in modo efficiente, rendendolo uno strumento essenziale per i professionisti dei dati.

In [7]:
import pandas as pd #importo la libreria

creo una Series di pandas (una struttura di dati unidimensionale simile a un array), dove:

-I valori sono [10, 20, 30, 40].
-Gli indici sono ['a', 'b', 'c', 'd'].
In pratica, una Series è una sequenza etichettata di valori, dove ogni valore è associato a un'etichetta (l'indice).

In [8]:
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [9]:
# creo un dataframe
pd.DataFrame([[1,2],["a", "b"]], columns=["colonna1", "colonna2"])

Unnamed: 0,colonna1,colonna2
0,1,2
1,a,b


In [10]:
# creo un DataFrame da un dizionario
df_dict = {"colonna1":[1,2,2], "colonna2":["a", "a", "b"]}
pd.DataFrame(df_dict)

Unnamed: 0,colonna1,colonna2
0,1,a
1,2,a
2,2,b


creo un DataFrame in cui la x ha numeri casuali distribuiti secondo una distribuzione normale , la y ha numeri casuali con distribuzione uniforme nell'intervallo specificato, ovvero tra low 10) e high (20).

In [11]:
pd.DataFrame({"x": np.random.normal(loc=0, scale=10, size=1000), "y":np.random.uniform(low=10, high=20, size=1000)})

Unnamed: 0,x,y
0,-1.120333,16.887194
1,-1.505596,10.708455
2,4.775012,18.120724
3,-22.092078,10.867094
4,-10.303969,19.686813
...,...,...
995,-1.867123,11.248298
996,1.652405,15.444891
997,18.646005,17.922618
998,0.705802,11.552825


In [12]:
#Caricamento e primo sguardo ai dati
#Leggi i dati del Titanic
df = pd.read_csv('titanic_1.csv')
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [13]:
#Visualizza le prime righe
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [14]:
#Visualizza le ultime righe
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [15]:
#ottieni la configurazione del dataframe
print(df.shape)

(891, 12)


In [16]:
#ottieni la lista delle colonne
print(df.columns.tolist())

['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']


In [17]:
# Controlla i tipi di dati per ciascuna colonna
print(df.dtypes)

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object


In [18]:
#Ottieni un riepilogo conciso
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [19]:
#ottieni una statistica sommaria
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [20]:
# Ordina il DataFrame per una singola colonna
df_sorted = df.sort_values(by='Age')
df_sorted.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S


In [21]:
#Ordina per più colonne (ad esempio, prima Reddito poi Età)
df_sorted_multi = df.sort_values(by=['Fare', 'Age'], ascending=[False, True])
df_sorted_multi.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
737,738,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,512.3292,B101,C
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S


In [22]:
#Reimpostare l'indice dopo l'ordinamento
df_sorted_reset = df_sorted_multi.reset_index(drop=True)
df_sorted_reset.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
1,738,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,512.3292,B101,C
2,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
3,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
4,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S


In [23]:
#Imposta una colonna come nuovo indice (ad esempio, Age)
df_indexed = df.set_index('PassengerId')
df_indexed.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [24]:
# Rinominare una o più colonne
df_renamed = df.rename(columns={'Sex': 'Gender'})
df_renamed.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [25]:
# Aggiungi una nuova colonna (ad esempio, Age_in_5_years che aggiunge 5 alla colonna Age)
df['Age_in_5_Years'] = df['Age'] + 5
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,27.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,43.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,31.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,40.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,40.0


In [26]:
#cancella una colonna dal DataFrame
df_dropped = df.drop(columns=['Age_in_5_Years'])
df_dropped.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# Selezione e filtraggio dei dati

In [27]:
# seleziona una singola colona (ad esempio Age)
ages = df['Age']
ages.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [29]:
#seleziona più colonne (ad esempio Age, Gender)
age_gender = df[['Age', 'Sex']]
age_gender.head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


In [30]:
#Seleziona le righe in cui l'indice è compreso tra 10 e 20 (incluso)
df.loc[10:20, ['Age', 'Sex']]

Unnamed: 0,Age,Sex
10,4.0,female
11,58.0,female
12,20.0,male
13,39.0,male
14,14.0,female
15,55.0,female
16,2.0,male
17,,male
18,31.0,female
19,,female


In [31]:
#seleziona le prime 5 righe, e le colonne dalla 0 alla 2
df.iloc[0:5, 0:3]

Unnamed: 0,PassengerId,Survived,Pclass
0,1,0,3
1,2,1,1
2,3,1,3
3,4,1,1
4,5,0,3


In [32]:
# Filtra le righe con una condizione (ad esempio Age>50)
older_than_50 = df[df['Age']>50]
older_than_50.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,59.0
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S,63.0
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S,60.0
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S,71.0
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C,70.0


In [33]:
# Filtra le righe con più condizioni
# Filtra per donne con reddito > 50000
#femals with income > 5000
condition = (df['Sex'] == 'female') & (df['Fare'] < 50)
female_low_income = df[condition]
female_low_income.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,31.0
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,32.0
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,19.0
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S,9.0
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S,63.0


In [34]:
#usa il metodo query per filtrare
df_query = df.query("Age > 50 and Fare < 50")
df_query.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S,63.0
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S,60.0
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S,71.0
94,95,0,3,"Coxon, Mr. Daniel",male,59.0,0,0,364500,7.25,,S,64.0
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,76.0


In [35]:
# Ottieni il valore  della cella con indice di riga 5 nella colonna "Ticket".
ticket_val = df.at[5, 'Ticket']
print(ticket_val)

330877


In [36]:
# Ottieni il valore nella quinta riga (per posizione intera) e nella seconda colonna (per posizione intera)
cell_val = df.iat[5, 2]
print(cell_val)

3


In [37]:
# crea un "sottoinsieme" del DataFrame df, selezionando le righe dalla posizione 10 alla posizione 21 (esclusa).
df_slice = df[10:21]
df_slice

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S,9.0
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S,63.0
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.05,,S,25.0
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S,44.0
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S,19.0
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S,60.0
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q,7.0
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S,
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0,,S,36.0
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C,


In [38]:
# crea una colonna 'Adult' chee riporti True se "Age">18 e False se "Age"<18
df.loc[df["Age"] >= 18, 'Adult'] = True
df.loc[df["Age"] < 18, 'Adult'] = False
df[['Age', 'Adult']].head()

Unnamed: 0,Age,Adult
0,22.0,True
1,38.0,True
2,26.0,True
3,35.0,True
4,35.0,True


In [39]:
# df['Age'] > 60 crea una serie booleana che è True per le righe in cui il valore della colonna "Age" è maggiore di 60 e False per tutte le altre righe.
# df[...] usa questa serie booleana per filtrare il DataFrame, restituendo solo le righe in cui la condizione è True, ovvero quelle in cui l'età è maggiore di 60.
# Dopo il filtraggio, il DataFrame risultante avrà ancora gli indici originali (quelli del DataFrame df).
df_filtered = df[df['Age'] > 60].reset_index(drop = True)
df_filtered.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years,Adult
0,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S,71.0,True
1,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C,70.0,True
2,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,76.0,True
3,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q,75.5,True
4,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S,66.0,True


In [42]:
# Filtra le righe in cui Embarked è "S" o "C"
df_embarked = df[df['Embarked'].isin(['S', 'C'])]
df_embarked.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years,Adult
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,27.0,True
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,43.0,True
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,31.0,True
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,40.0,True
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,40.0,True


# Break 1:
Exercise: Create a dataframe that contains the information about an hypothetical list of christmas presents you made

Exercise: Create a dataframe with 1000 rows, columns "Gender" and "Height", exactly 500 males and 500 females, such that female's height average is roughly 168, and male's roughly 174

In [43]:
#exercise 1
df_dict = {"Nome":['Francesca', 'Mirea', 'Erica', 'Federica'], "Regalo":["Orologio", "Libro", "Computer", "Tablet"]}
pd.DataFrame(df_dict)

Unnamed: 0,Nome,Regalo
0,Francesca,Orologio
1,Mirea,Libro
2,Erica,Computer
3,Federica,Tablet


In [44]:
#exercise 2
male_heights = np.random.normal(loc=174, size=500)
female_heights = np.random.normal(loc=168, size=500)
gender_data = {
    "Gender": ["Male"]*500 + ["Female"]*500,
    "Height": np.concatenate([male_heights,female_heights])}

df_gender_height = pd.DataFrame(gender_data)
df_check = df_gender_height.groupby('Gender')['Height'].mean()
print(df_check)

Gender
Female    168.163517
Male      174.027485
Name: Height, dtype: float64


# Raggruppamento e aggregazione

In [45]:
#Ragruppo per sesso e calcolo età media
mean_age_by_gender = df.groupby('Sex')['Age'].mean()
print(mean_age_by_gender)

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64


In [47]:
#Ragruppo per Class e ottengo statistiche aggregate per Fare e Age
agg_class = df.groupby('Pclass')[['Fare', 'Age']].agg(['mean', 'median'])
print(agg_class)

             Fare                 Age       
             mean   median       mean median
Pclass                                      
1       84.154687  60.2875  38.233441   37.0
2       20.662183  14.2500  29.877630   29.0
3       13.675550   8.0500  25.140620   24.0


In [48]:
# Applicare più funzioni di aggregazione su un gruppo
agg_fare = df.groupby('Sex')['Fare'].agg(['min', 'max', 'mean'])
print(agg_fare)

         min       max       mean
Sex                              
female  6.75  512.3292  44.479818
male    0.00  512.3292  25.523893


In [49]:
# Resetta indice dopo l'aggregazione su un gruppo
grouped_reset = df.groupby('Sex')['Fare'].mean().reset_index()
grouped_reset.head()

Unnamed: 0,Sex,Fare
0,female,44.479818
1,male,25.523893


In [50]:
# Filtra i gruppi in base a un valore aggregato
# Ad esempio, seleziona i gruppi in cui l'età media è superiore a 50 anni
group_age = df.groupby('Sex')['Age'].mean()
filtered_groups = group_age[group_age > 50]
print(filtered_groups)

Series([], Name: Age, dtype: float64)


In [51]:
#Ragruppa per colonne multiple (ad esempio 'Sex' e 'Pclass')
group_multi = df.groupby(['Sex', 'Pclass'])['Fare'].mean().reset_index()
group_multi.head()

Unnamed: 0,Sex,Pclass,Fare
0,female,1,106.125798
1,female,2,21.970121
2,female,3,16.11881
3,male,1,67.226127
4,male,2,19.741782


In [53]:
#Utilizza .agg() con una funzione personalizzata
def range_func(x):
    return x.max() - x.min()

custom_agg = df.groupby('Sex')['Fare'].agg(['mean', range_func])
print(custom_agg)

             mean  range_func
Sex                          
female  44.479818    505.5792
male    25.523893    512.3292


In [55]:
#applica una lambda function con .agg()
lambda_agg = df.groupby('Sex')['Fare'].agg(lambda x: x.quantile(0.75) - x.quantile(0.25))
print(lambda_agg)

# Il comando lambda_agg = df.groupby('Sex')['Fare'].agg(lambda x: x.quantile(0.75) - x.quantile(0.25)) esegue un'aggregazione personalizzata sul DataFrame df utilizzando il metodo groupby() per raggruppare i dati e agg() per applicare una funzione personalizzata.

#df.groupby('Sex'):Raggruppa il DataFrame df in base alla colonna 'Sex'. Quindi, crea due gruppi distinti: uno per il sesso maschile e uno per il sesso femminile (presumendo che i dati contengano queste due categorie). 
#['Fare']:Dopo il raggruppamento per 'Sex', seleziona solo la colonna 'Fare' su cui applicare l'aggregazione. Quindi, ora stai lavorando solo con i dati relativi alle tariffe (Fare) per ciascun gruppo di sesso.
# .agg(lambda x: x.quantile(0.75) - x.quantile(0.25)): .agg() è un metodo che permette di applicare una funzione di aggregazione personalizzata ai gruppi.
#In questo caso, stai passando una funzione lambda che calcola la differenza tra il 75° percentile (quantile) e il 25° percentile (quantile) della colonna 'Fare' per ciascun gruppo.
#x.quantile(0.75): Calcola il 75° percentile dei valori di 'Fare' per ogni gruppo.
#x.quantile(0.25): Calcola il 25° percentile dei valori di 'Fare' per ogni gruppo.
#La differenza tra questi due quantili rappresenta l'intervallo interquartile (IQR), che misura la dispersione dei valori centrali (la metà intermedia) per ciascun gruppo.

Sex
female    42.928125
male      18.654200
Name: Fare, dtype: float64


In [57]:
#Dimostro trasformazione vs. aggregazione
#Trasformazione: sottrai la media del gruppo da ciascun valore
group_as_index = df.groupby('Pclass', as_index = False)['Fare'].mean() 
group_as_index.head()
#Impostando as_index=False, diciamo a groupby() di non usare il valore della colonna Pclass come indice del risultato finale. Per default, groupby() imposta il valore della colonna utilizzata per il raggruppamento come l'indice nel DataFrame risultante. Ma con as_index=False, la colonna Pclass rimarrà come una colonna normale, non come indice.

Unnamed: 0,Pclass,Fare
0,1,84.154687
1,2,20.662183
2,3,13.67555


In [59]:
# esempio di Bug: dimenticanza di reimpostare l'indice dopo l'aggregazione
# Bug: durante la stampa o l'unione successiva, un risultato raggruppato con un multiindice potrebbe causare problemi.
grouped_bug = df.groupby('Sex')['Fare'].mean()
print(grouped_bug)
#codice corretto
grouped_corrected = grouped_bug.reset_index()
print(grouped_corrected)

Sex
female    44.479818
male      25.523893
Name: Fare, dtype: float64
      Sex       Fare
0  female  44.479818
1    male  25.523893


In [60]:
# pd.pivot_table è una funzione di pandas che permette di creare tabelle pivot, utili per riorganizzare i dati e calcolare statistiche aggregative (come la media, somma, conteggio, ecc.) su gruppi specifici di dati
# values = 'Fare' specifica che i valori della colonna "Fare" verranno utilizzati per l'aggregazione
# index = 'Sex' specifica che La colonna Sex viene utilizzata come indice della tabella pivot
# columns = 'Pclass' La colonna Pclass viene utilizzata per creare le colonne della tabella pivot. Questo significa che ogni classe di viaggio (ad esempio, 1, 2, 3) avrà una colonna separata nella tabella risultante.
# aggfunc='mean'  indica che vogliamo calcolare la media dei valori nella colonna "Fare" per ogni combinazione di sesso e classe di viaggio.
# La tabella pivot risultante mostrerà la media delle tariffe (Fare) per ciascun sesso ("Sex") e ciascuna classe di viaggio ("Pclass").
pivot_table = pd.pivot_table(df, values='Fare', index='Sex', columns='Pclass', aggfunc='mean')
print(pivot_table)

Pclass           1          2          3
Sex                                     
female  106.125798  21.970121  16.118810
male     67.226127  19.741782  12.661633


In [62]:
## Raggruppa per contenitori di età
# Crea contenitori per età
bins = bins = [18, 30, 45, 60, 90]
labels = ['18-30', '31-45', '46-60', '61-90']
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)
age_group_agg = df.groupby('Age_Group')['Fare'].mean().reset_index()
print(age_group_agg)


  Age_Group       Fare
0     18-30  28.368094
1     31-45  39.684960
2     46-60  43.749956
3     61-90  43.467950


  age_group_agg = df.groupby('Age_Group')['Fare'].mean().reset_index()


In [64]:
# Usa groupby con lambda per contare le condizioni
# Conta quanti hanno BMI > 30 in ciascun gruppo di genere
young_counts = df.groupby('Sex')['Age'].agg(lambda x: (x < 18).sum()).reset_index(name='Young_Count')
print(young_counts)

      Sex  Young_Count
0  female           55
1    male           58


# Gestione dei dati mancanti e fusione/unione

In [65]:
# Controlla i valori mancanti nel DataFrame
missing_values = df.isnull().sum()
print(missing_values)

PassengerId         0
Survived            0
Pclass              0
Name                0
Sex                 0
Age               177
SibSp               0
Parch               0
Ticket              0
Fare                0
Cabin             687
Embarked            2
Age_in_5_Years    177
Adult             177
Age_Group         290
dtype: int64


In [67]:
#BUG: restituisce solo un  DataFrame di booleani, non i conteggi
missing_bug =df.isnull()
print(missing_bug.head())
#codice corretto: usa .sum() per contare i valori 
print(df.isnull().sum())

   PassengerId  Survived  Pclass   Name    Sex    Age  SibSp  Parch  Ticket  \
0        False     False   False  False  False  False  False  False   False   
1        False     False   False  False  False  False  False  False   False   
2        False     False   False  False  False  False  False  False   False   
3        False     False   False  False  False  False  False  False   False   
4        False     False   False  False  False  False  False  False   False   

    Fare  Cabin  Embarked  Age_in_5_Years  Adult  Age_Group  
0  False   True     False           False  False      False  
1  False  False     False           False  False      False  
2  False   True     False           False  False      False  
3  False  False     False           False  False      False  
4  False   True     False           False  False      False  
PassengerId         0
Survived            0
Pclass              0
Name                0
Sex                 0
Age               177
SibSp               0

In [68]:
# Riempi i valori mancanti in una singola colonna usando .fillna()
#in questo caso riempiamo i valori mancanti di 'Age' con la media di 'Age'
df['Age'] = df['Age'].fillna(df['Age'].mean())

In [69]:
# Riempi i valori mancanti per l'intero DataFrame
df_filled = df.fillna(method='ffill')  # Compilazione in avanti come esempio
df_filled.head()


  df_filled = df.fillna(method='ffill')  # Compilazione in avanti come esempio
  df_filled = df.fillna(method='ffill')  # Compilazione in avanti come esempio


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years,Adult,Age_Group
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,27.0,True,18-30
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,43.0,True,31-45
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C85,S,31.0,True,18-30
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,40.0,True,31-45
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,C123,S,40.0,True,31-45


In [70]:
# Cancella le righe con valori mancanti usando .dropna()
df_dropped = df.dropna()
print(df_dropped.shape)

(164, 15)


In [71]:
# Elimina le colonne con troppi valori mancanti (ad esempio, basati su soglia)
# Elimina le colonne con più del 50% di valori mancanti
# dropna() è una funzione di pandas che permette di rimuovere le righe o le colonne che contengono valori mancanti (NaN).
# L'argomento axis=1 indica che l'operazione di rimozione riguarda le colonne (non le righe). Se fosse axis=0, l'operazione riguarderebbe le righe.
# thresh è un parametro che definisce una soglia minima di valori non nulli (non NaN) che una colonna deve avere per essere mantenuta.
# 0.5 * len(df) calcola la metà del numero totale di righe. Questo significa che ogni colonna deve avere almeno il 50% dei valori non NaN per essere mantenuta.
df_thresh = df.dropna(axis=1, thresh=int(0.5 * len(df)))
print(df_thresh.columns)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Embarked', 'Age_in_5_Years', 'Adult',
       'Age_Group'],
      dtype='object')


In [72]:
# Sostituisci i valori mancanti utilizzando una mappatura del dizionario per colonne diverse
fill_values = {
    'Age': df['Age'].median(),
    'Embarked': 'Unknown'
}
df_replaced = df.fillna(value=fill_values)
df_replaced.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years,Adult,Age_Group
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,27.0,True,18-30
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,43.0,True,31-45
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,31.0,True,18-30
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,40.0,True,31-45
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,40.0,True,31-45


In [73]:
# gestire i valori mancanti nella colonna Age per i passeggeri di prima classe (Pclass == 1) nel DataFrame df
# df.loc[df['Pclass'] == 1, 'Age']: Filtra il DataFrame df per selezionare solo le righe dove la colonna Pclass è uguale a 1 (prima classe) e la colonna Age (età).
# .median(): Calcola la mediana dei valori nella colonna Age per i passeggeri di prima classe. La mediana è il valore che separa la metà superiore e la metà inferiore dei dati ordinati.
# Il risultato di questa riga è che median_age conterrà il valore della mediana dell'età per i passeggeri di prima classe.
median_age = df.loc[df['Pclass'] == 1, 'Age'].median()
df.loc[(df['Pclass'] == 1) & (df['Age'].isnull()), 'Age'] = median_age

In [74]:
# Identificare potenziali valori anomali utilizzando i quantili (un precursore per gestirli)
# Esempio: identificare i valori anomali in "Fare" utilizzando il metodo IQR
Q1 = df['Fare'].quantile(0.25)
Q3 = df['Fare'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['Fare'] < (Q1 - 1.5 * IQR)) | (df['Fare'] > (Q3 + 1.5 * IQR))]
print("Outliers in Fare:")
print(outliers[['Fare']])

Outliers in Fare:
         Fare
1     71.2833
27   263.0000
31   146.5208
34    82.1708
52    76.7292
..        ...
846   69.5500
849   89.1042
856  164.8667
863   69.5500
879   83.1583

[116 rows x 1 columns]


In [77]:
# crea una nuova versione del DataFrame df e la unisce (merge) con una copia di sé stesso, aggiungendo alcune colonne.
# df[['Age', 'Sex', 'Fare']]: Seleziona solo le colonne Age, Sex e Fare dal DataFrame df.
# copy(): Crea una copia del DataFrame risultante. Questo è importante perché lavorare direttamente su una vista potrebbe causare comportamenti indesiderati. Utilizzare .copy() assicura che df_extra sia un nuovo oggetto indipendente da df
df_extra = df[['Age', 'Sex', 'Fare']].copy()
# Il risultato di questa riga è un nuovo DataFrame df_extra che contiene solo le colonne Age, Sex, e Fare del DataFrame originale df.
df_extra['Key'] = np.arange(len(df_extra))
df['Key'] = np.arange(len(df))
# np.arange(len(df_extra)): Crea un array di numeri interi che va da 0 a len(df_extra) - 1. Questo array ha la stessa lunghezza di df_extra (e anche di df, visto che entrambi hanno lo stesso numero di righe).
# df_extra['Key'] = ...: Aggiunge una nuova colonna chiamata Key al DataFrame df_extra, con i valori appena creati (numeri da 0 a n-1).
# df['Key'] = ...: Fai lo stesso anche per il DataFrame df, aggiungendo una colonna Key.
merged_df = pd.merge(df, df_extra, on='Key', suffixes=('', '_extra'))
merged_df.head()
# pd.merge(df, df_extra, on='Key'): Esegue una fusione (merge) dei due DataFrame (df e df_extra) sulla colonna Key. La fusione avviene in base ai valori della colonna Key, che è presente in entrambi i DataFrame.
# suffixes=('', '_extra'): Aggiunge un suffisso alle colonne con lo stesso nome nei due DataFrame, per evitare conflitti

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_in_5_Years,Adult,Age_Group,Key,Age_extra,Sex_extra,Fare_extra
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,27.0,True,18-30,0,22.0,male,7.25
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,43.0,True,31-45,1,38.0,female,71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,31.0,True,18-30,2,26.0,female,7.925
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,40.0,True,31-45,3,35.0,female,53.1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,40.0,True,31-45,4,35.0,male,8.05


In [78]:
#pd.merge(df, df_extra, on='Key'): Esegue la fusione dei due DataFrame (df e df_extra) utilizzando la colonna Key come chiave di unione. Entrambi i DataFrame devono avere una colonna chiamata Key (che è stata creata precedentemente).
#on='Key': Specifica che l'operazione di fusione deve avvenire sulla colonna Key in entrambi i DataFrame.
#how='left': Imposta il tipo di unione, in questo caso una fusione a sinistra (left join). Con una fusione a sinistra, tutte le righe del DataFrame di sinistra (df) vengono mantenute, e solo le righe corrispondenti del DataFrame di destra (df_extra) vengono aggiunte. Se non ci sono corrispondenze nella colonna Key nel DataFrame di destra, verranno aggiunti valori NaN.
left_join = pd.merge(df, df_extra, on='Key', how='left')
print("Left join shape:", left_join.shape)

#stessa cosa del precedente con una fusione a destra (right join)
right_join = pd.merge(df, df_extra, on='Key', how='right')
print("Right join shape:", right_join.shape)

Left join shape: (891, 19)
Right join shape: (891, 19)


In [79]:
#La fusione esterna (outer join) include tutte le righe di entrambi i DataFrame, sia che ci sia una corrispondenza nella colonna Key sia che non ci sia.
#Se una riga nel DataFrame di sinistra (ad esempio df) non ha una corrispondenza nel DataFrame di destra (df_extra), verranno aggiunti dei valori NaN per le colonne provenienti dal DataFrame di destra, e viceversa.
inner_join = pd.merge(df, df_extra, on='Key', how='inner')
print("Inner join shape:", inner_join.shape)

Inner join shape: (891, 19)


In [80]:
# Concatena i DataFrames usando pd.concat()
# Supponiamo di avere due DataFrame con le stesse colonne
df1 = df.iloc[:50]  #Seleziona le prime 50 righe del DataFrame df
df2 = df.iloc[50:]  #Seleziona tutte le righe da quella con indice 50 in poi.
concatenated = pd.concat([df1, df2])
print(concatenated.shape)

(891, 16)


In [81]:
# BUG: tentativo di unire una colonna che non esiste in un DataFrame.
try:
    pd.merge(df, df_extra, left_on='Nonexistent', right_on='Key')
except Exception as e:
    print("Merge error:", e)

#codice corretto
correct_merge = pd.merge(df, df_extra, left_on='Key', right_on='Key')
correct_merge.head()

Merge error: 'Nonexistent'


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex_x,Age_x,SibSp,Parch,Ticket,Fare_x,Cabin,Embarked,Age_in_5_Years,Adult,Age_Group,Key,Age_y,Sex_y,Fare_y
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,27.0,True,18-30,0,22.0,male,7.25
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,43.0,True,31-45,1,38.0,female,71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,31.0,True,18-30,2,26.0,female,7.925
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,40.0,True,31-45,3,35.0,female,53.1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,40.0,True,31-45,4,35.0,male,8.05


# Break 2:

Exercise: Use the Titanic dataframe to calculate the average Age in each Pclass

Exercise: Use the Titanic dataframe to calculate the number of survived that are named John

In [83]:
#exercise 1:
agg_class = df.groupby('Pclass')['Age'].agg(['mean'])
print (agg_class)

             mean
Pclass           
1       37.048118
2       29.866958
3       26.403259


In [88]:
#exercise 2:
titanic_df = pd.read_csv('titanic_1.csv')
titanic_df.head()
johns_survived = titanic_df[(titanic_df['Survived'] == 1) & (titanic_df['Name'].str.contains(' John '))].shape[0]
print(johns_survived)
#.shape[0] è utilizzato per ottenere il numero di righe (ossia la lunghezza) di un DataFrame

10


# Homework:

Exercise: Create a dataframe of at least 1000 rows about an hypothetical list of employees of your company, extract all employees in the IT department and a Salary greater than 55000.

Exercise: Create a column to split the data in Low, Medium, High fare prices and calculate the average Age per each section. Fill the Age set to nan and calculate the average age again, how did it change? How can you fill the age so that the average does not change?