In [3]:
# # Analisi Esplorativa dei Dati

# Obiettivo: Familiarizzare con le operazioni di base per l'esplorazione dei dati
# usando pandas.

# Dataset: Utilizzare un dataset di esempio che include le seguenti informazioni su
# un gruppo di persone: Nome, Età, Città e Salario. 

# Caricare i dati in un DataFrame autogenerandoli casualmente .
# Visualizzare le prime e le ultime cinque righe del DataFrame.
# Visualizzare il tipo di dati di ciascuna colonna.
# Calcolare statistiche descrittive di base per le colonne numeriche (media,
# mediana, deviazione standard).
# Identificare e rimuovere eventuali duplicati.
# Gestire i valori mancanti sostituendoli con la mediana della rispettiva
# colonna.
# Aggiungere una nuova colonna chiamata "Categoria Età" che classifica le
# persone come "Giovane", "Adulto" o "Senior" basandosi sull'età (es., 0-18
# anni: Giovane, 19-65 anni: Adulto, oltre 65 anni: Senior).
# Salvare il DataFrame pulito in un nuovo file CSV.


In [4]:
import pandas as pd
import numpy as np

In [None]:
# Generare dati casuali
np.random.seed(50)
nomi = ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hannah', 'Ivan', 'Julia']
eta = np.random.randint(18, 80, size=10)
citta = ['Roma', 'Milano', 'Napoli', 'Torino', 'Palermo', 'Genova', 'Bologna', 'Firenze', 'Venezia', 'Verona']
salario = np.random.randint(20000, 100000, size=10)

In [6]:
# Creare il DataFrame
df = pd.DataFrame({
    'Nome': nomi,
    'Età': eta,
    'Città': citta,
    'Salario': salario
})

In [7]:
# Visualizzare le prime e le ultime cinque righe del DataFrame
print("Prime cinque righe del DataFrame:")
print(df.head())

Prime cinque righe del DataFrame:
      Nome  Età    Città  Salario
0    Alice   62     Roma    75026
1      Bob   65   Milano    68600
2  Charlie   71   Napoli    59512
3    David   18   Torino    72620
4      Eva   21  Palermo    37089


In [8]:
print("\nUltime cinque righe del DataFrame:")
print(df.tail())


Ultime cinque righe del DataFrame:
     Nome  Età    Città  Salario
5   Frank   77   Genova    52230
6   Grace   21  Bologna    38983
7  Hannah   57  Firenze    26921
8    Ivan   27  Venezia    58804
9   Julia   37   Verona    87699


In [9]:
# Visualizzare il tipo di dati di ciascuna colonna
print("\nTipo di dati di ciascuna colonna:")
print(df.dtypes)


Tipo di dati di ciascuna colonna:
Nome       object
Età         int32
Città      object
Salario     int32
dtype: object


In [10]:
# Calcolare statistiche descrittive di base per le colonne numeriche
print("\nStatistiche descrittive di base:")
print(df.describe())


Statistiche descrittive di base:
             Età       Salario
count  10.000000     10.000000
mean   45.600000  57748.400000
std    23.090161  19143.994017
min    18.000000  26921.000000
25%    22.500000  42294.750000
50%    47.000000  59158.000000
75%    64.250000  71615.000000
max    77.000000  87699.000000


In [11]:
# Identificare e rimuovere eventuali duplicati
print("\nRimozione dei duplicati (se presenti):")
df = df.drop_duplicates()
print(df)


Rimozione dei duplicati (se presenti):
      Nome  Età    Città  Salario
0    Alice   62     Roma    75026
1      Bob   65   Milano    68600
2  Charlie   71   Napoli    59512
3    David   18   Torino    72620
4      Eva   21  Palermo    37089
5    Frank   77   Genova    52230
6    Grace   21  Bologna    38983
7   Hannah   57  Firenze    26921
8     Ivan   27  Venezia    58804
9    Julia   37   Verona    87699


In [12]:
# Gestire i valori mancanti sostituendoli con la mediana della rispettiva colonna
# Aggiungiamo alcuni valori mancanti per dimostrazione
df.loc[2, 'Salario'] = np.nan
df.loc[5, 'Età'] = np.nan

print("\nDataFrame con valori mancanti:")
print(df)


DataFrame con valori mancanti:
      Nome   Età    Città  Salario
0    Alice  62.0     Roma  75026.0
1      Bob  65.0   Milano  68600.0
2  Charlie  71.0   Napoli      NaN
3    David  18.0   Torino  72620.0
4      Eva  21.0  Palermo  37089.0
5    Frank   NaN   Genova  52230.0
6    Grace  21.0  Bologna  38983.0
7   Hannah  57.0  Firenze  26921.0
8     Ivan  27.0  Venezia  58804.0
9    Julia  37.0   Verona  87699.0


In [13]:
df['Salario'].fillna(df['Salario'].median(), inplace=True)
df['Età'].fillna(df['Età'].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Salario'].fillna(df['Salario'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Età'].fillna(df['Età'].median(), inplace=True)


In [14]:

print("\nDataFrame dopo la sostituzione dei valori mancanti con la mediana:")
print(df)


DataFrame dopo la sostituzione dei valori mancanti con la mediana:
      Nome   Età    Città  Salario
0    Alice  62.0     Roma  75026.0
1      Bob  65.0   Milano  68600.0
2  Charlie  71.0   Napoli  58804.0
3    David  18.0   Torino  72620.0
4      Eva  21.0  Palermo  37089.0
5    Frank  37.0   Genova  52230.0
6    Grace  21.0  Bologna  38983.0
7   Hannah  57.0  Firenze  26921.0
8     Ivan  27.0  Venezia  58804.0
9    Julia  37.0   Verona  87699.0


In [15]:
# Aggiungere una nuova colonna chiamata "Categoria Età"
def categorizza_eta(eta):
    if eta <= 18:
        return 'Giovane'
    elif 19 <= eta <= 65:
        return 'Adulto'
    else:
        return 'Senior'

In [16]:
df['Categoria Età'] = df['Età'].apply(categorizza_eta)

In [17]:
print("\nDataFrame con la nuova colonna 'Categoria Età':")
print(df)


DataFrame con la nuova colonna 'Categoria Età':
      Nome   Età    Città  Salario Categoria Età
0    Alice  62.0     Roma  75026.0        Adulto
1      Bob  65.0   Milano  68600.0        Adulto
2  Charlie  71.0   Napoli  58804.0        Senior
3    David  18.0   Torino  72620.0       Giovane
4      Eva  21.0  Palermo  37089.0        Adulto
5    Frank  37.0   Genova  52230.0        Adulto
6    Grace  21.0  Bologna  38983.0        Adulto
7   Hannah  57.0  Firenze  26921.0        Adulto
8     Ivan  27.0  Venezia  58804.0        Adulto
9    Julia  37.0   Verona  87699.0        Adulto


In [18]:
# Salvare il DataFrame pulito in un nuovo file CSV
df.to_csv('dataframe_pulito.csv', index=False)
print("\nDataFrame pulito salvato in 'dataframe_pulito.csv'")


DataFrame pulito salvato in 'dataframe_pulito.csv'


In [19]:
df.to_html('dataframe_pulito.html', index=False)