
Oggi voglio condividere con voi una grande risorsa, pensata proprio per chi è principiante e vuole imparare a pulire i dati con MyDataBreakfastClean.

Spesso, quando iniziamo a entrare nel mondo dei dati, ci chiediamo:
“Come si puliscono davvero i dati, soprattutto usando Python?”

Dopo aver imparato un po’ di Excel e le basi di Python, può sembrare complicato capire come fare bene questa fase fondamentale. Io stessa mi sono chiesta come facciano gli esperti di Data Science, Data Analyst e Business Analyst a pulire i dati in modo efficace.

La verità è che studiare da soli può essere difficile, ma non impossibile! Per questo ho deciso di affrontare il problema insieme a voi, spiegandovi passo passo le regole di base per pulire i dati con Python.

Alla fine di questo percorso, vi darò anche un bonus con le tecniche più usate nel mondo del lavoro, così saprete cosa è davvero importante imparare.

Grazie alle informazioni raccolte e alle mie esperienze, sono sicura di essere sulla strada giusta e voglio portarvi con me in questo viaggio.

Premessa: Importare e Pulire i Dati — Esempio Pratico
Immaginiamo di importare un file CSV con dei dati da analizzare. Spesso, i dati che ci vengono dati non sono perfetti: possono contenere errori, come ad esempio il nome “Luca” associato a “Femmina” o “Giulia” a “Maschio”.

Non preoccuparti, è normale! In questo tutorial ci concentreremo proprio su come individuare e correggere questi errori.

Per cominciare useremo un piccolo dataset: questo ci aiuterà a capire bene le procedure e i passaggi fondamentali, prima di applicarli su dataset più grandi e complessi.

In questo modo, potrai imparare ad analizzare e pulire i dati in modo semplice e efficace, passo dopo passo.



## Prima fase: Importare Pandas e caricare i dati

Per iniziare, dobbiamo importare la libreria pandas, una delle più usate in Python per lavorare con i dati.
Solitamente si importa con un nome abbreviato, pd, per scrivere meno codice.
Poi carichiamo il nostro file .csv (cioè una tabella di dati) usando il comando read_csv():
In questo caso:

* df è la variabile che useremo per lavorare con i nostri dati (si chiama DataFrame).

* Il percorso tra virgolette è dove si trova il file sul tuo computer.



In [112]:

import pandas as pd 
df = pd.read_csv('C:/Users/patri/Downloads/dati_pandas_blog.csv')#Poi carichiamo il nostro file .csv

          Nome  Età     Paese  Salario   Genere
0         Luca   27   Francia  45618.0  Femmina
1       Giulia   30    Grecia  67073.0  Maschio
2        Marco   59    Italia      NaN  Maschio
3         Anna   31    Spagna  30206.0  Maschio
4    Francesco   55   Francia  32947.0  Femmina
5         Sara   29       NaN  51625.0  Maschio
6       Davide   58   Francia  21415.0  Maschio
7        Elisa   31   Francia  46709.0  Maschio
8       Matteo   37    Spagna  31958.0  Maschio
9        Laura   50    Italia  25360.0  Femmina
10  Alessandro   22    Italia  69143.0  Maschio
11     Martina   50    Spagna  37614.0  Maschio
12     Giorgio   43    Spagna  65730.0  Femmina
13      Chiara   33    Spagna  68378.0  Maschio
14      Simone   22  Germania  29191.0  Femmina
15        Anna   31    Spagna  30206.0  Maschio


In [114]:
#Per vedere i dati che abbiamo caricato, basta scrivere:
print(df)

          Nome  Età     Paese  Salario   Genere
0         Luca   27   Francia  45618.0  Femmina
1       Giulia   30    Grecia  67073.0  Maschio
2        Marco   59    Italia      NaN  Maschio
3         Anna   31    Spagna  30206.0  Maschio
4    Francesco   55   Francia  32947.0  Femmina
5         Sara   29       NaN  51625.0  Maschio
6       Davide   58   Francia  21415.0  Maschio
7        Elisa   31   Francia  46709.0  Maschio
8       Matteo   37    Spagna  31958.0  Maschio
9        Laura   50    Italia  25360.0  Femmina
10  Alessandro   22    Italia  69143.0  Maschio
11     Martina   50    Spagna  37614.0  Maschio
12     Giorgio   43    Spagna  65730.0  Femmina
13      Chiara   33    Spagna  68378.0  Maschio
14      Simone   22  Germania  29191.0  Femmina
15        Anna   31    Spagna  30206.0  Maschio


# 🔍 Seconda fase: Esplorazione dei dati

Bene, ora che abbiamo caricato i nostri dati, iniziamo a guardarli con i nostri occhi!
Se guardiamo la tabella, possiamo già notare alcune cose:

* In alcune celle c’è scritto NaN, che significa valore mancante.

* C’è un possibile duplicato: ad esempio, “Anna” con “Spagna” compare due volte.

Per fortuna, la tabella è piccola, quindi possiamo analizzarla visivamente. Ma se fosse grande con migliaia di righe? Non potremmo farlo a occhio!
Ecco perché è importante esplorare i dati con Python, per:

* Trovare errori nascosti

* Gestire i valori mancanti

* Eliminare duplicati

* Preparare i dati per l’analisi

In questa fase cominciamo quindi a pulire i dati, passo dopo passo.

Bene, ora che abbiamo caricato i nostri dati, iniziamo a guardarli con i nostri occhi!
Se guardiamo la tabella, possiamo già notare alcune cose:

* In alcune celle c’è scritto NaN, che significa valore mancante.

* C’è un possibile duplicato: ad esempio, “Anna” con “Spagna” compare due volte.

Per fortuna, la tabella è piccola, quindi possiamo analizzarla visivamente. Ma se fosse grande con migliaia di righe? Non potremmo farlo a occhio!
Ecco perché è importante esplorare i dati con Python, per:

* Trovare errori nascosti

* Gestire i valori mancanti

* Eliminare duplicati

* Preparare i dati per l’analisi

In questa fase cominciamo quindi a pulire i dati, passo dopo passo.

🔍 Esplorazione dei Dati: Visualizzare le Prime Righe
Dopo aver caricato i dati, è importante dare un'occhiata alle prime righe per comprendere la struttura del dataset. Pandas offre il metodo head() per questo scopo.

df.head(): Restituisce le prime 5 righe del DataFrame. È utile per una rapida ispezione iniziale.

In [115]:
df.head() # primi 5 

Unnamed: 0,Nome,Età,Paese,Salario,Genere
0,Luca,27,Francia,45618.0,Femmina
1,Giulia,30,Grecia,67073.0,Maschio
2,Marco,59,Italia,,Maschio
3,Anna,31,Spagna,30206.0,Maschio
4,Francesco,55,Francia,32947.0,Femmina


In [7]:
#esplorzione dei dati 
df.head(10) #df.head(10): Restituisce le prime 10 righe del DataFrame. Puoi sostituire 10 con qualsiasi altro numero 

Unnamed: 0,Nome,Età,Paese,Salario,Genere
0,Luca,27,Francia,45618.0,Femmina
1,Giulia,30,Grecia,67073.0,Maschio
2,Marco,59,Italia,,Maschio
3,Anna,31,Spagna,30206.0,Maschio
4,Francesco,55,Francia,32947.0,Femmina
5,Sara,29,,51625.0,Maschio
6,Davide,58,Francia,21415.0,Maschio
7,Elisa,31,Francia,46709.0,Maschio
8,Matteo,37,Spagna,31958.0,Maschio
9,Laura,50,Italia,25360.0,Femmina


In [8]:
df.info() # Ti mostra le informazioni principali del DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Nome     16 non-null     object 
 1   Età      16 non-null     int64  
 2   Paese    15 non-null     object 
 3   Salario  15 non-null     float64
 4   Genere   16 non-null     object 
dtypes: float64(1), int64(1), object(3)
memory usage: 772.0+ bytes


🔍 Spiegazione dettagliata
<class 'pandas.core.frame.DataFrame'>
📋 Significa che df è un DataFrame, cioè una tabella come un foglio Excel, fatta di righe e colonne.

RangeIndex: 16 entries, 0 to 15
🔢 Ci sono 16 righe (record), numerate da 0 a 15 (Python inizia sempre a contare da 0!).

Data columns (total 5 columns)
📊 Il DataFrame ha 5 colonne: Nome, Età, Paese, Salario, Genere.

| # | Nome colonna | Valori non nulli | Tipo dato | Significato                                    |
| - | ------------ | ---------------- | --------- | ---------------------------------------------- |
| 0 | Nome         | 16 non-null      | object    | Stringa (nomi delle persone)                   |
| 1 | Età          | 16 non-null      | int64     | Numero intero (età)                            |
| 2 | Paese        | 15 non-null      | object    | Stringa (paese di origine), 1 valore mancante  |
| 3 | Salario      | 15 non-null      | float64   | Numero decimale (stipendio), 1 valore mancante |
| 4 | Genere       | 16 non-null      | object    | Stringa (Maschio/Femmina)     

In [14]:
df.tail() # ultimu 5  delle non si conta da zero 

Unnamed: 0,Nome,Età,Paese,Salario,Genere
11,Martina,50,Spagna,37614.0,Maschio
12,Giorgio,43,Spagna,65730.0,Femmina
13,Chiara,33,Spagna,68378.0,Maschio
14,Simone,22,Germania,29191.0,Femmina
15,Anna,31,Spagna,30206.0,Maschio


In [13]:
df.tail(7)# Mostra le ultime 7 righe del DataFrame (l'indice non parte da zero)

Unnamed: 0,Nome,Età,Paese,Salario,Genere
9,Laura,50,Italia,25360.0,Femmina
10,Alessandro,22,Italia,69143.0,Maschio
11,Martina,50,Spagna,37614.0,Maschio
12,Giorgio,43,Spagna,65730.0,Femmina
13,Chiara,33,Spagna,68378.0,Maschio
14,Simone,22,Germania,29191.0,Femmina
15,Anna,31,Spagna,30206.0,Maschio


In [11]:
df.shape  # Quante righe e quante colonne ha il nostro DataFrame? Scopriamolo con .shape!

(16, 5)

In [25]:
# ✅ 3. Statistiche descrittive: il riassunto superpotente delle colonne numeriche!
df.describe()

Unnamed: 0,Età,Salario
count,16.0,15.0
mean,38.0,43544.866667
std,12.633289,17032.218092
min,22.0,21415.0
25%,29.75,30206.0
50%,32.0,37614.0
75%,50.0,58677.5
max,59.0,69143.0


In [27]:
# Calcoliamo la media della colonna 'Salario' (quanto guadagna in media la banda)
  # media 

np.float64(43544.86666666667)

In [28]:
df['Salario'].sum() # Somma totale dei salari

np.float64(653173.0)

In [29]:
df['Salario'].max() # Salario massimo

np.float64(69143.0)

In [30]:
df['Salario'].min() # Salario minimo

np.float64(21415.0)

In [36]:
df['Salario'].std()  # Deviazione standard con Pandas (quanto "oscillano" i salari intorno alla media)

np.float64(17032.21809171693)

In [37]:
df['Salario'].quantile(0.75) # Quartile 3 (75° percentile): chi guadagna più del 75% degli altri

np.float64(58677.5)

In [38]:
df['Salario'].quantile(0.25) # Quartile 1 (25° percentile): chi guadagna meno del 75% degli altri 😅

np.float64(30206.0)

In [39]:
df['Salario'].quantile(0.50) # Quartile 2 (mediana o 50° percentile): il salario "centrale"

np.float64(37614.0)

🧮 Calcoli alternativi con NumPy (dietro le quinte)



In [40]:

df["Salario"].values.mean()

np.float64(nan)

In [41]:
# prima fai la devazione stardad pandas e poi numpy
df["Salario"].std() , df["Salario"].values.std()

(np.float64(17032.21809171693), np.float64(nan))

# --

✅ 4. Controlla valori NaN (valori mancanti) nel DataFrame

In [43]:
df.isna().sum # True sarebbe vero nan totale 

<bound method DataFrame.sum of      Nome    Età  Paese  Salario  Genere
0   False  False  False    False   False
1   False  False  False    False   False
2   False  False  False     True   False
3   False  False  False    False   False
4   False  False  False    False   False
5   False  False   True    False   False
6   False  False  False    False   False
7   False  False  False    False   False
8   False  False  False    False   False
9   False  False  False    False   False
10  False  False  False    False   False
11  False  False  False    False   False
12  False  False  False    False   False
13  False  False  False    False   False
14  False  False  False    False   False
15  False  False  False    False   False>

In [106]:
df[df['Salario'].isnull()] # ✅ Filtra le righe dove il salario è NaN (mancante)
print(df)

          Nome  Età     Paese  Salario   Genere   Professione Stipendio_alto  \
0         Luca   27   Francia  45618.0  Maschio     Ingegnere             Sì   
1       Giulia   30    Grecia  67073.0  Femmina      Avvocato             Sì   
3         Anna   31    Spagna  30206.0  Femmina        Medico             Sì   
4    Francesco   55   Francia  32947.0  Maschio    Architetto             Sì   
6       Davide   58   Francia  21415.0  Maschio    Insegnante             No   
7        Elisa   31   Francia  46709.0  Femmina  Data Analyst             Sì   
8       Matteo   37    Spagna  31958.0  Maschio     Contabile             Sì   
9        Laura   50    Italia  25360.0  Femmina    Infermiere             No   
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore             Sì   
11     Martina   50    Spagna  37614.0  Femmina    Farmacista             Sì   
12     Giorgio   43    Spagna  65730.0  Maschio     Psicologo             Sì   
13      Chiara   33    Spagna  68378.0  

✅ 5. Controlla duplicati nel DataFrame

In [47]:
df.duplicated().sum() # Conta quante righe sono duplicate

np.int64(1)

In [48]:
df[df.duplicated()] # Mostra tutte le righe duplicate nel DataFrame

Unnamed: 0,Nome,Età,Paese,Salario,Genere
15,Anna,31,Spagna,30206.0,Maschio


In [53]:
 df = df.drop_duplicates()# 🧹 Addio cloni! Rimuoviamo le righe duplicate dal DataFrame

In [None]:
# Mantiene l'ultima occorrenza e rimuove i duplicati precedenti
df = df.drop_duplicates(keep='last')

# Mantiene la prima occorrenza (comportamento predefinito)
df = df.drop_duplicates(keep='first')


⚠️ Nota: keep=True non è un valore valido in Pandas.
I valori ammessi per keep sono:

'first' → tiene la prima copia (default)

'last' → tiene l’ultima copia

False → elimina tutte le copie duplicate


In [None]:
# ci sono vari modi le mie preferite  modi per controllare i dupplicati 

In [54]:
df[df.duplicated()] # ✅ 1. Visualizza i duplicati ancora presenti (se ce ne sono)

Unnamed: 0,Nome,Età,Paese,Salario,Genere


In [55]:
df.duplicated().sum() # ✅ 2. Conta quanti duplicati sono ancora presenti

np.int64(0)

In [None]:
# Trova duplicati basati solo su Nome, Età e Paese
df[df.duplicated(subset=['Nome', 'Età', 'Paese'])]
print(df) #🧾 Risultato atteso: Nel tuo dataset, la riga con Anna, 31, Spagna compare due volte (indice 3 e 15). Quindi il codice sopra ti restituirà la seconda.

## ✅ Eliminare duplicati su colonne specifiche (subset) — 3 strategie


Hai trovato persone con lo stesso Nome, Età e Paese?
Ora puoi decidere quale versione tenere o se eliminarle tutte 👇


In [124]:
#🔧 1. Tieni la prima occorrenza:
df = df.drop_duplicates(subset=['Nome', 'Età', 'Paese'], keep='first') #🔍 Mantiene la prima riga trovata con quei valori, scarta le successive.


In [120]:
#🔧 2. Tieni l’ultima occorrenza:
df = df.drop_duplicates(subset=['Nome', 'Età', 'Paese'], keep='last') # 

In [121]:
#🔧 3. Elimina tutte le righe duplicate:
df = df.drop_duplicates(subset=['Nome', 'Età', 'Paese'], keep=False) #❌ Nessuna pietà! Se ci sono doppioni su quelle colonne, vengono tutti rimossi.

In [122]:
# 👋 Teniamo solo il primo "Nome-Età-Paese", gli altri se ne vanno
df = df.drop_duplicates(subset=['Nome', 'Età', 'Paese'], keep='first')

# 👋 Invece qui salviamo l'ultima copia!
df = df.drop_duplicates(subset=['Nome', 'Età', 'Paese'], keep='last')

# 🔥 Qui eliminiamo TUTTI i doppioni, nessun superstite
df = df.drop_duplicates(subset=['Nome', 'Età', 'Paese'], keep=False)


In [118]:
#✅ 8. Rimuovi i dati mancanti (NaN)
df = df.dropna() #Elimina tutte le righe che contengono almeno un valore mancante (NaN)
print(df) # Mostra il DataFrame pulito

          Nome  Età        Paese  Salario   Genere
0         Luca   27      Francia  45618.0  Femmina
1       Giulia   30       Grecia  67073.0  Maschio
2        Marco   59       Italia      0.0  Maschio
3         Anna   31       Spagna  30206.0  Maschio
4    Francesco   55      Francia  32947.0  Femmina
5         Sara   29  Sconosciuto  51625.0  Maschio
6       Davide   58      Francia  21415.0  Maschio
7        Elisa   31      Francia  46709.0  Maschio
8       Matteo   37       Spagna  31958.0  Maschio
9        Laura   50       Italia  25360.0  Femmina
10  Alessandro   22       Italia  69143.0  Maschio
11     Martina   50       Spagna  37614.0  Maschio
12     Giorgio   43       Spagna  65730.0  Femmina
13      Chiara   33       Spagna  68378.0  Maschio
14      Simone   22     Germania  29191.0  Femmina
15        Anna   31       Spagna  30206.0  Maschio


In [None]:
# “Chi lascia un NaN è fuori! 🚫🧹 Rimuoviamo tutte le righe mezze vuote, così lavoriamo solo con dati completi e ordinati.”

In [116]:
#Sostituisce i valori mancanti (NaN) 
df['Salario'] = df['Salario'].fillna(0) # prima nome colonna e poi lo scrivi per sostituire dato che salario numeriva nan metti zero
print(df) # Sostituisci i valori NaN nella colonna 'Salario' con zero
#“Quando manca il salario, facciamo finta che sia zero… almeno il conto torna! 💸😅”

          Nome  Età     Paese  Salario   Genere
0         Luca   27   Francia  45618.0  Femmina
1       Giulia   30    Grecia  67073.0  Maschio
2        Marco   59    Italia      0.0  Maschio
3         Anna   31    Spagna  30206.0  Maschio
4    Francesco   55   Francia  32947.0  Femmina
5         Sara   29       NaN  51625.0  Maschio
6       Davide   58   Francia  21415.0  Maschio
7        Elisa   31   Francia  46709.0  Maschio
8       Matteo   37    Spagna  31958.0  Maschio
9        Laura   50    Italia  25360.0  Femmina
10  Alessandro   22    Italia  69143.0  Maschio
11     Martina   50    Spagna  37614.0  Maschio
12     Giorgio   43    Spagna  65730.0  Femmina
13      Chiara   33    Spagna  68378.0  Maschio
14      Simone   22  Germania  29191.0  Femmina
15        Anna   31    Spagna  30206.0  Maschio


In [117]:
df['Paese'] = df['Paese'].fillna('Sconosciuto') ## Sostituisci i NaN nella colonna 'Paese' con la parola 'Sconosciuto'
print(df) # Mostra il risultato
#Se un Paese è mancante, possiamo indicarlo con 'Sconosciuto' invece di lasciarlo vuoto.
#Così eviti problemi nei filtri e nei grafici, e il dataset resta leggibile.

          Nome  Età        Paese  Salario   Genere
0         Luca   27      Francia  45618.0  Femmina
1       Giulia   30       Grecia  67073.0  Maschio
2        Marco   59       Italia      0.0  Maschio
3         Anna   31       Spagna  30206.0  Maschio
4    Francesco   55      Francia  32947.0  Femmina
5         Sara   29  Sconosciuto  51625.0  Maschio
6       Davide   58      Francia  21415.0  Maschio
7        Elisa   31      Francia  46709.0  Maschio
8       Matteo   37       Spagna  31958.0  Maschio
9        Laura   50       Italia  25360.0  Femmina
10  Alessandro   22       Italia  69143.0  Maschio
11     Martina   50       Spagna  37614.0  Maschio
12     Giorgio   43       Spagna  65730.0  Femmina
13      Chiara   33       Spagna  68378.0  Maschio
14      Simone   22     Germania  29191.0  Femmina
15        Anna   31       Spagna  30206.0  Maschio


## ----

In [125]:
# dopo che abbiamo esplorato i dati in questo momento vogliamo vedere 
# ora ci occupiamo delle colonnie 
# selezione delle colonnie 
df['Salario'] # in questo momento abbiamo visto la colonia 

0     45618.0
1     67073.0
2         0.0
3     30206.0
4     32947.0
5     51625.0
6     21415.0
7     46709.0
8     31958.0
9     25360.0
10    69143.0
11    37614.0
12    65730.0
13    68378.0
14    29191.0
Name: Salario, dtype: float64

In [128]:
# Sostituisci i NaN con la media dei salari un altra possibilita 
media = df['Salario'].mean()
df['Salario'] = df['Salario'].fillna(media)
print(df)

          Nome  Età        Paese  Salario   Genere
0         Luca   27      Francia  45618.0  Femmina
1       Giulia   30       Grecia  67073.0  Maschio
2        Marco   59       Italia      0.0  Maschio
3         Anna   31       Spagna  30206.0  Maschio
4    Francesco   55      Francia  32947.0  Femmina
5         Sara   29  Sconosciuto  51625.0  Maschio
6       Davide   58      Francia  21415.0  Maschio
7        Elisa   31      Francia  46709.0  Maschio
8       Matteo   37       Spagna  31958.0  Maschio
9        Laura   50       Italia  25360.0  Femmina
10  Alessandro   22       Italia  69143.0  Maschio
11     Martina   50       Spagna  37614.0  Maschio
12     Giorgio   43       Spagna  65730.0  Femmina
13      Chiara   33       Spagna  68378.0  Maschio
14      Simone   22     Germania  29191.0  Femmina


In [127]:
df['Salario'] = df['Salario'].fillna(df['Salario'].median())
print(df)


          Nome  Età        Paese  Salario   Genere
0         Luca   27      Francia  45618.0  Femmina
1       Giulia   30       Grecia  67073.0  Maschio
2        Marco   59       Italia      0.0  Maschio
3         Anna   31       Spagna  30206.0  Maschio
4    Francesco   55      Francia  32947.0  Femmina
5         Sara   29  Sconosciuto  51625.0  Maschio
6       Davide   58      Francia  21415.0  Maschio
7        Elisa   31      Francia  46709.0  Maschio
8       Matteo   37       Spagna  31958.0  Maschio
9        Laura   50       Italia  25360.0  Femmina
10  Alessandro   22       Italia  69143.0  Maschio
11     Martina   50       Spagna  37614.0  Maschio
12     Giorgio   43       Spagna  65730.0  Femmina
13      Chiara   33       Spagna  68378.0  Maschio
14      Simone   22     Germania  29191.0  Femmina


In [None]:
# puoi scrivere due modi piu semplici per il codice 
# primo codice
df['Salario'] = df['Salario'].fillna(df['Salario'].mean()) #🔹 Modo 1 — Tutto in una riga
# secondo codice 
media = df['Salario'].mean()   # Calcola la media
df['Salario'] = df['Salario'].fillna(media)  # Calcola la media #🔹 Modo 2 — Diviso in due passaggi
# “In entrambi i casi, riempiamo i buchi nei salari con la media: un po’ come dare uno stipendio medio a chi non l’ha dichiarato! 💰📊”

🎓 Iniziamo dalla media... ma guarda cosa puoi fare con lo stesso schema!
Hai visto come si calcola la media e la si usa per riempire i dati mancanti?
Adesso ti faccio vedere la magia della programmazione:
👉 Il codice è quasi lo stesso, cambi solo una parola... ed ecco che ottieni mediana, massimo, minimo, deviazione standard, moda!

In [None]:
#Media
df['Salario'] = df['Salario'].fillna(df['Salario'].mean())
#Mediana
df['Salario'] = df['Salario'].fillna(df['Salario'].median())
#Min
df['Salario'] = df['Salario'].fillna(df['Salario'].min())
#Max
df['Salario']= df ['Salario'].fillna(df['Salario'].max())
#devazione standard
df['Salario'] = df['Salario'].fillna(df['Salario'].std())
# moda 
df['Paese'] = df['Paese'].fillna(df['Paese'].mode()[0])#🔁.mode()restituisce una serie di valori(può esserci più di una “moda”), per questo serve[0]per prendere il primo.

In [None]:
df['Salario'] = df['Salario'].fillna(0) # ✅ Cosa fa la prima riga: 👉 Cerca nella colonna Salario tutti i valori NaN (cioè mancanti) e li sostituisce con 0.
df['Paese'] = df['Paese'].fillna('Sconosciuto') #👉 Cerca nella colonna Paese tutti i valori NaN e li sostituisce con la stringa 'Sconosciuto'.

#💬 Esempio: se una persona non ha dichiarato lo stipendio, mettiamo 0 al posto del valore mancante.
#💬 Esempio: se non sappiamo da che Paese viene una persona, scriviamo “Sconosciuto”.

"Hai un buco nello stipendio? Metti uno zero!.😄 

Non sai da dove viene qualcuno? Etichettalo come Sconosciuto!.😄 

Così i NaN spariscono, e i dati sono pronti per l’analisi! 🧹📊"

“Questa è la cosa più bella della programmazione: impari un modello di codice, e poi cambi solo ciò che ti serve: media, mediana, massimo…
E così impari tutto un po’ alla volta, senza dover riscrivere tutto ogni volta! 🎉💻”

In [76]:
df['Paese']

0      Francia
1       Grecia
3       Spagna
4      Francia
6      Francia
7      Francia
8       Spagna
9       Italia
10      Italia
11      Spagna
12      Spagna
13      Spagna
14    Germania
Name: Paese, dtype: object

In [None]:
# bonus 
print(df['Paese']) #✅ Controllare i dati
df['Paese'].value_counts() #✅ Contare i valori
df['Paese'] = df['Paese'].fillna('Sconosciuto')# ✅ Sostituire i NaN
df[df['Paese'] == 'Italia'] #✅ Filtrare

#Scrivendo df['Paese'], seleziono solo la colonna Paese. È come dire a Python: fammi vedere solo questa parte della tabella!
#Poi, posso contarla, modificarla, analizzarla… o ripulirla dai valori mancanti!

In [74]:
# se io volessi filtrare
df[df['Età']>25] # ti fa vedere maggiore di 25 

Unnamed: 0,Nome,Età,Paese,Salario,Genere
0,Luca,27,Francia,45618.0,Femmina
1,Giulia,30,Grecia,67073.0,Maschio
3,Anna,31,Spagna,30206.0,Maschio
4,Francesco,55,Francia,32947.0,Femmina
6,Davide,58,Francia,21415.0,Maschio
7,Elisa,31,Francia,46709.0,Maschio
8,Matteo,37,Spagna,31958.0,Maschio
9,Laura,50,Italia,25360.0,Femmina
11,Martina,50,Spagna,37614.0,Maschio
12,Giorgio,43,Spagna,65730.0,Femmina


In [72]:
df[df['Età']<25]

Unnamed: 0,Nome,Età,Paese,Salario,Genere
10,Alessandro,22,Italia,69143.0,Maschio
14,Simone,22,Germania,29191.0,Femmina


In [73]:
df[df['Età']!=25]

Unnamed: 0,Nome,Età,Paese,Salario,Genere
0,Luca,27,Francia,45618.0,Femmina
1,Giulia,30,Grecia,67073.0,Maschio
3,Anna,31,Spagna,30206.0,Maschio
4,Francesco,55,Francia,32947.0,Femmina
6,Davide,58,Francia,21415.0,Maschio
7,Elisa,31,Francia,46709.0,Maschio
8,Matteo,37,Spagna,31958.0,Maschio
9,Laura,50,Italia,25360.0,Femmina
10,Alessandro,22,Italia,69143.0,Maschio
11,Martina,50,Spagna,37614.0,Maschio


In [79]:
df[df["Salario"] > 30000]


Unnamed: 0,Nome,Età,Paese,Salario,Genere
0,Luca,27,Francia,45618.0,Femmina
1,Giulia,30,Grecia,67073.0,Maschio
3,Anna,31,Spagna,30206.0,Maschio
4,Francesco,55,Francia,32947.0,Femmina
7,Elisa,31,Francia,46709.0,Maschio
8,Matteo,37,Spagna,31958.0,Maschio
10,Alessandro,22,Italia,69143.0,Maschio
11,Martina,50,Spagna,37614.0,Maschio
12,Giorgio,43,Spagna,65730.0,Femmina
13,Chiara,33,Spagna,68378.0,Maschio


In [87]:
# se con due collone fare la medi 
df['Età'].mean(), df['Salario'].mean() #calcola la media (media aritmetica) di due colonne: Età e Salario.

(np.float64(37.61538461538461), np.float64(43949.38461538462))

# se voglio aggoingere nuova colonna 

In [94]:
professioni = [
    "Ingegnere", "Avvocato", "Medico", "Architetto",
    "Insegnante", "Data Analyst", "Contabile", "Infermiere",
    "Sviluppatore", "Farmacista", "Psicologo", "Biologo",
    "Designer", "Giornalista", "Manager", "Insegnante"
]
# Adatta la lista alla lunghezza reale del DataFrame
df['Professione'] = professioni[:len(df)]
print(df)


          Nome  Età     Paese  Salario   Genere   Professione
0         Luca   27   Francia  45618.0  Femmina     Ingegnere
1       Giulia   30    Grecia  67073.0  Maschio      Avvocato
3         Anna   31    Spagna  30206.0  Maschio        Medico
4    Francesco   55   Francia  32947.0  Femmina    Architetto
6       Davide   58   Francia  21415.0  Maschio    Insegnante
7        Elisa   31   Francia  46709.0  Maschio  Data Analyst
8       Matteo   37    Spagna  31958.0  Maschio     Contabile
9        Laura   50    Italia  25360.0  Femmina    Infermiere
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore
11     Martina   50    Spagna  37614.0  Maschio    Farmacista
12     Giorgio   43    Spagna  65730.0  Femmina     Psicologo
13      Chiara   33    Spagna  68378.0  Maschio       Biologo
14      Simone   22  Germania  29191.0  Femmina      Designer


Vogliamo rendere i nostri dati più realistici? Aggiungiamo una colonna di professioni!
Basta creare una lista e usare [:len(df)] per adattarla alla lunghezza del DataFrame.
Così Python non si arrabbia, e noi possiamo giocare con i dati come se fossero persone reali

In [96]:
df['Stipendio_alto'] = df['Salario'].apply(lambda x: 'Sì' if x > 50000 else 'No')
print(df)


          Nome  Età     Paese  Salario   Genere   Professione Stipendio_alto
0         Luca   27   Francia  45618.0  Femmina     Ingegnere             No
1       Giulia   30    Grecia  67073.0  Maschio      Avvocato             Sì
3         Anna   31    Spagna  30206.0  Maschio        Medico             No
4    Francesco   55   Francia  32947.0  Femmina    Architetto             No
6       Davide   58   Francia  21415.0  Maschio    Insegnante             No
7        Elisa   31   Francia  46709.0  Maschio  Data Analyst             No
8       Matteo   37    Spagna  31958.0  Maschio     Contabile             No
9        Laura   50    Italia  25360.0  Femmina    Infermiere             No
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore             Sì
11     Martina   50    Spagna  37614.0  Maschio    Farmacista             No
12     Giorgio   43    Spagna  65730.0  Femmina     Psicologo             Sì
13      Chiara   33    Spagna  68378.0  Maschio       Biologo             Sì

🔍 Cosa fa riga per riga:

df['Salario'] → seleziona la colonna Salario.

.apply(lambda x: ...) → applica una funzione a ogni valore della colonna.

lambda x: 'Sì' if x > 50000 else 'No' → per ogni valore x, controlla:

Se x è maggiore di 50.000 → scrive "Sì"

Altrimenti → scrive "No"

Il risultato viene salvato in una nuova colonna: Stipendio_alto

In [97]:
#✅ 2. Con funzione separata (più leggibile per chi inizia):
def etichetta_stipendio(x):
    if x > 50000:
        return 'Sì'
    else:
        return 'No'

df['Stipendio_alto'] = df['Salario'].apply(etichetta_stipendio)
print(df)

          Nome  Età     Paese  Salario   Genere   Professione Stipendio_alto
0         Luca   27   Francia  45618.0  Femmina     Ingegnere             No
1       Giulia   30    Grecia  67073.0  Maschio      Avvocato             Sì
3         Anna   31    Spagna  30206.0  Maschio        Medico             No
4    Francesco   55   Francia  32947.0  Femmina    Architetto             No
6       Davide   58   Francia  21415.0  Maschio    Insegnante             No
7        Elisa   31   Francia  46709.0  Maschio  Data Analyst             No
8       Matteo   37    Spagna  31958.0  Maschio     Contabile             No
9        Laura   50    Italia  25360.0  Femmina    Infermiere             No
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore             Sì
11     Martina   50    Spagna  37614.0  Maschio    Farmacista             No
12     Giorgio   43    Spagna  65730.0  Femmina     Psicologo             Sì
13      Chiara   33    Spagna  68378.0  Maschio       Biologo             Sì

## Cosa fa?

Definisci una funzione chiamata etichetta_stipendio che:

Riceve un valore x (lo stipendio).

Se x è maggiore di 50.000, restituisce "Sì".

Altrimenti restituisce "No".

Applichi questa funzione a tutti i valori della colonna Salario usando .apply().

Salvi il risultato in una nuova colonna Stipendio_alto.

In [99]:
#✅ 1. Con np.where (più chiaro e veloce):
import numpy as np

df['Stipendio_alto'] = np.where(df['Salario'] > 50000, 'Sì', 'No')
print(df)


          Nome  Età     Paese  Salario   Genere   Professione Stipendio_alto
0         Luca   27   Francia  45618.0  Femmina     Ingegnere             Sì
1       Giulia   30    Grecia  67073.0  Maschio      Avvocato             Sì
3         Anna   31    Spagna  30206.0  Maschio        Medico             Sì
4    Francesco   55   Francia  32947.0  Femmina    Architetto             Sì
6       Davide   58   Francia  21415.0  Maschio    Insegnante             No
7        Elisa   31   Francia  46709.0  Maschio  Data Analyst             Sì
8       Matteo   37    Spagna  31958.0  Maschio     Contabile             Sì
9        Laura   50    Italia  25360.0  Femmina    Infermiere             No
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore             Sì
11     Martina   50    Spagna  37614.0  Maschio    Farmacista             Sì
12     Giorgio   43    Spagna  65730.0  Femmina     Psicologo             Sì
13      Chiara   33    Spagna  68378.0  Maschio       Biologo             Sì

In [101]:
#✅ 1. Aggiungere una colonna con valori fissi
df['NuovaColonna'] = 'OK'
print(df)

          Nome  Età     Paese  Salario   Genere   Professione Stipendio_alto  \
0         Luca   27   Francia  45618.0  Femmina     Ingegnere             Sì   
1       Giulia   30    Grecia  67073.0  Maschio      Avvocato             Sì   
3         Anna   31    Spagna  30206.0  Maschio        Medico             Sì   
4    Francesco   55   Francia  32947.0  Femmina    Architetto             Sì   
6       Davide   58   Francia  21415.0  Maschio    Insegnante             No   
7        Elisa   31   Francia  46709.0  Maschio  Data Analyst             Sì   
8       Matteo   37    Spagna  31958.0  Maschio     Contabile             Sì   
9        Laura   50    Italia  25360.0  Femmina    Infermiere             No   
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore             Sì   
11     Martina   50    Spagna  37614.0  Maschio    Farmacista             Sì   
12     Giorgio   43    Spagna  65730.0  Femmina     Psicologo             Sì   
13      Chiara   33    Spagna  68378.0  

In [102]:
#✅ 3. Aggiungere una colonna calcolata
df['Salario_Aumentato'] = df['Salario'] * 1.10
print(df)

          Nome  Età     Paese  Salario   Genere   Professione Stipendio_alto  \
0         Luca   27   Francia  45618.0  Femmina     Ingegnere             Sì   
1       Giulia   30    Grecia  67073.0  Maschio      Avvocato             Sì   
3         Anna   31    Spagna  30206.0  Maschio        Medico             Sì   
4    Francesco   55   Francia  32947.0  Femmina    Architetto             Sì   
6       Davide   58   Francia  21415.0  Maschio    Insegnante             No   
7        Elisa   31   Francia  46709.0  Maschio  Data Analyst             Sì   
8       Matteo   37    Spagna  31958.0  Maschio     Contabile             Sì   
9        Laura   50    Italia  25360.0  Femmina    Infermiere             No   
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore             Sì   
11     Martina   50    Spagna  37614.0  Maschio    Farmacista             Sì   
12     Giorgio   43    Spagna  65730.0  Femmina     Psicologo             Sì   
13      Chiara   33    Spagna  68378.0  

Vuoi aggiungere una colonna nuova con un valore fisso per tutti?
Basta scrivere df['NuovaColonna'] = 'OK' e il gioco è fatto! 🎉

In [None]:
#bonus corregere 
df.loc[df['Nome'] == 'Luca', 'Genere'] = 'Maschio'
df.loc[df['Nome'] == 'Giulia', 'Genere'] = 'Femmina'
df.loc[df['Nome'] == 'Anna', 'Genere'] = 'Femmina'
# ...e così via


🔍 loc vs iloc in Pandas (facile e veloce)

In [129]:
#✅ loc → usa etichette (nomi delle colonne e delle righe)
df.loc[0, 'Nome']
#🎯 Legge il valore alla riga 0, colonna 'Nome'.


'Luca'

In [131]:
df.loc[df['Nome'] == 'Luca', 'Genere'] = 'Maschio'
#✍️ Modifica la colonna 'Genere' mettendo 'Maschio' dove il nome è 'Luca'.

In [132]:
#✅ iloc → usa indici numerici (posizione delle righe e colonne)
df.iloc[0, 0]
#🎯 Legge il valore alla prima riga, prima colonna.

'Luca'

In [134]:
df.iloc[3, 2] = 'Spagna'
#✍️ Modifica il valore nella quarta riga, terza colonna, mettendo 'Spagna'.

| Metodo | Usa...     | Quando usarlo...                             |
| ------ | ---------- | -------------------------------------------- |
| `loc`  | **Nomi**   | Se conosci i nomi delle colonne (es. 'Nome') |
| `iloc` | **Numeri** | Se lavori con posizioni (0, 1, 2...)         |


loc → L come "Label" (etichette)

iloc → I come "Index" (numeri)

In [104]:
correzioni_genere = {
    'Luca': 'Maschio',
    'Giulia': 'Femmina',
    'Anna': 'Femmina',
    'Marco': 'Maschio',
    'Sara': 'Femmina',
    'Francesco': 'Maschio',
    'Elisa': 'Femmina',
    'Laura': 'Femmina',
    'Alessandro': 'Maschio',
    'Martina': 'Femmina',
    'Giorgio': 'Maschio',
    'Chiara': 'Femmina',
    'Simone': 'Maschio',
    'Davide': 'Maschio',
    'Matteo': 'Maschio'
}

df['Genere'] = df['Nome'].map(correzioni_genere)
print(df)

          Nome  Età     Paese  Salario   Genere   Professione Stipendio_alto  \
0         Luca   27   Francia  45618.0  Maschio     Ingegnere             Sì   
1       Giulia   30    Grecia  67073.0  Femmina      Avvocato             Sì   
3         Anna   31    Spagna  30206.0  Femmina        Medico             Sì   
4    Francesco   55   Francia  32947.0  Maschio    Architetto             Sì   
6       Davide   58   Francia  21415.0  Maschio    Insegnante             No   
7        Elisa   31   Francia  46709.0  Femmina  Data Analyst             Sì   
8       Matteo   37    Spagna  31958.0  Maschio     Contabile             Sì   
9        Laura   50    Italia  25360.0  Femmina    Infermiere             No   
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore             Sì   
11     Martina   50    Spagna  37614.0  Femmina    Farmacista             Sì   
12     Giorgio   43    Spagna  65730.0  Maschio     Psicologo             Sì   
13      Chiara   33    Spagna  68378.0  

In [110]:
# voglio cancellare collona 
df = df.drop('NuovaColonna', axis=1) # cancello la conolla axis=1 colonna axis=0 righa 
print(df)

          Nome  Età     Paese  Salario   Genere   Professione Stipendio_alto  \
0         Luca   27   Francia  45618.0  Maschio     Ingegnere             Sì   
1       Giulia   30    Grecia  67073.0  Femmina      Avvocato             Sì   
3         Anna   31    Spagna  30206.0  Femmina        Medico             Sì   
4    Francesco   55   Francia  32947.0  Maschio    Architetto             Sì   
6       Davide   58   Francia  21415.0  Maschio    Insegnante             No   
7        Elisa   31   Francia  46709.0  Femmina  Data Analyst             Sì   
8       Matteo   37    Spagna  31958.0  Maschio     Contabile             Sì   
9        Laura   50    Italia  25360.0  Femmina    Infermiere             No   
10  Alessandro   22    Italia  69143.0  Maschio  Sviluppatore             Sì   
11     Martina   50    Spagna  37614.0  Femmina    Farmacista             Sì   
12     Giorgio   43    Spagna  65730.0  Maschio     Psicologo             Sì   
13      Chiara   33    Spagna  68378.0  

| Con `inplace=True`              | Senza `inplace`                     |
| ------------------------------- | ----------------------------------- |
| Modifica il DataFrame originale | Non modifica il DataFrame originale |
| Non serve riassegnare `df`      | Devi fare `df = df.drop(...)`       |


In [None]:
# 🧼 Pulizia intelligente: correggere i generi con un dizionario
df.loc[df['Nome'] == 'Luca', 'Genere'] = 'Maschio'
#...puoi usare un dizionario e il metodo .map(). Così 👇

In [None]:
correzioni_genere = {
    'Luca': 'Maschio',
    'Giulia': 'Femmina',
    'Anna': 'Femmina',
    'Marco': 'Maschio',
    'Sara': 'Femmina',
    'Francesco': 'Maschio',
    'Elisa': 'Femmina',
    'Laura': 'Femmina',
    'Alessandro': 'Maschio',
    'Martina': 'Femmina',
    'Giorgio': 'Maschio',
    'Chiara': 'Femmina',
    'Simone': 'Maschio',
    'Davide': 'Maschio',
    'Matteo': 'Maschio'
}
df['Genere'] = df['Nome'].map(correzioni_genere)