# Esercizio 1: Creare un dataframe e filtrare i dipendenti dell'IT con stipendio > 55000

Obiettivo: Creare un dataframe con almeno 1000 righe, simulando un elenco di dipendenti di un'ipotetica azienda. Poi, estrarre solo i dipendenti che lavorano nel reparto IT e hanno uno stipendio maggiore di 55000.

In [48]:
import pandas as pd
import numpy as np

# Creazione di un dataframe simulato con almeno 1000 righe
np.random.seed(42)  # Per risultati riproducibili
data = {
    'Name': [f'Employee_{i}' for i in range(1, 1501)], #Uso una list comprehension per creare questi nomi
    'Department': np.random.choice(['IT', 'HR', 'Finance', 'Marketing'], size=1500), #Ogni dipendente viene assegnato casualmente a uno di questi reparti
    'Salary': np.random.randint(30000, 100000, size=1500) 
}
employees_df = pd.DataFrame(data) 

# Filtro i dipendenti dell'IT con stipendio > 55000

filtered_employees = employees_df[
    (employees_df['Department'] == 'IT') & (employees_df['Salary'] > 55000)
]

# Mostro i risultati
print(filtered_employees)


               Name Department  Salary
2        Employee_3         IT   84917
6        Employee_7         IT   89379
7        Employee_8         IT   55053
15      Employee_16         IT   62154
21      Employee_22         IT   73872
...             ...        ...     ...
1481  Employee_1482         IT   56170
1487  Employee_1488         IT   85426
1488  Employee_1489         IT   56819
1490  Employee_1491         IT   62994
1495  Employee_1496         IT   60930

[270 rows x 3 columns]


# Alternativa usando la libreria Faker
che genera dati di esempio realistici

In [1]:
import pandas as pd
import numpy as np
from faker import Faker

# Inizializza Faker per generare dati casuali
faker = Faker()

# Fissa il seme per garantire riproducibilità
np.random.seed(42)

# Genera i dati
data = {
    'Name': [faker.name() for _ in range(1500)],  # 1500 nomi casuali
    'Department': np.random.choice(['IT', 'HR', 'Finance', 'Marketing'], size=1500),  # Reparti casuali
    'Salary': np.random.randint(30000, 100000, size=1500)  # Stipendi casuali tra 30k e 100k
}

# Crea il DataFrame
employees_df = pd.DataFrame(data)


# Filtro i dipendenti dell'IT con stipendio > 55000

filtered_employees = employees_df[
    (employees_df['Department'] == 'IT') & (employees_df['Salary'] > 55000)
]

# Visualizzo
print(filtered_employees)


                  Name Department  Salary
2      Victoria Bailey         IT   84917
6     Danielle Johnson         IT   89379
7         Robert Pratt         IT   55053
15          Eric Pratt         IT   62154
21       Tammy Johnson         IT   73872
...                ...        ...     ...
1481       Nicole Vega         IT   56170
1487    Aaron Galloway         IT   85426
1488  Tyler Walker DVM         IT   56819
1490    Charles Hudson         IT   62994
1495  Richard Robinson         IT   60930

[270 rows x 3 columns]


# Esercizio 2: Creare una colonna per categorie di prezzo, calcolare età media e gestire i valori NaN (Dataset Titanic.csv)

In [32]:
import pandas as pd

# Carico il dataset Titanic
titanic = pd.read_csv('titanic.csv')

bins = [0, 50, 100, float('inf')]  # Intervalli di prezzo per le categorie
labels = ['Low', 'Medium', 'High']  # Etichette per ogni categoria

# Creo la nuova colonna
titanic['Fare_Category'] = pd.cut(titanic['Fare'], bins=bins, labels=labels)



In [46]:
#Calcolo età media per ciascuna categoria di prezzo
age_category = titanic.groupby('Fare_Category', observed=True)['Age'].mean()
print("\nEtà media per categoria (prima di riempire i NaN):")
print(age_category)



Età media per categoria (prima di riempire i NaN):
Fare_Category
Low       28.344903
Medium    36.633333
High      31.956667
Name: Age, dtype: float64


In [44]:
# Riempio i NaN con la media generale di 'Age'
titanic['Age_filled'] = titanic['Age'].fillna(titanic['Age'].mean())

# Ricalcolo l'età media per categoria
age_filled = titanic.groupby('Fare_Category',observed=True)['Age_filled'].mean()
print("\nEtà media per categoria (dopo aver riempito i NaN):")
print(age_filled)



Età media per categoria (dopo aver riempito i NaN):
Fare_Category
Low       28.622933
Medium    35.531636
High      31.743690
Name: Age_filled, dtype: float64


# Come riempire i NaN senza alterare le medie
Per mantenere inalterate le medie per ogni categoria, riempio i valori NaN con la media di età specifica per categoria (Fare_Category).

In [47]:
# Riempio i NaN con la media per categoria
titanic['Age_filled_group'] = titanic.groupby('Fare_Category',observed=True)['Age'].transform(lambda x: x.fillna(x.mean()))

# Ricalcolo l'età media per categoria
age_group_filled = titanic.groupby('Fare_Category',observed=True)['Age_filled_group'].mean()
print("\nEtà media per categoria (dopo aver riempito i NaN con la media per categoria):")
print(age_group_filled)



Età media per categoria (dopo aver riempito i NaN con la media per categoria):
Fare_Category
Low       28.344903
Medium    36.633333
High      31.956667
Name: Age_filled_group, dtype: float64


Di fatto in questo ultimo caso i valori di età media non vengono alterati.