
# Esplorazione dataset HR (employees, salaries, performance)

In questo notebook useremo **Pandas** per:
- Importare i CSV dalla cartella `data/`
- Esplorare le prime righe e i tipi di dato
- Verificare valori mancanti
- Fare un merge dei dataset
- Creare colonne derivate
- Filtrare e ordinare i dati
- Calcolare statistiche descrittive e aggregazioni

---


## 1. Import delle librerie

In [None]:

import pandas as pd


## 2. Caricamento dei CSV

In [None]:

# Percorsi relativi: data/ deve essere nella stessa root del notebook
employees = pd.read_csv("data/employees.csv", parse_dates=["hire_date"])
salaries  = pd.read_csv("data/salaries.csv")
performance = pd.read_csv("data/performance.csv")

# Controlliamo le prime righe di ciascun DataFrame
employees.head()


In [None]:

salaries.head()


In [None]:

performance.head()


## 3. Ispezione dei dataset

In [None]:

# Info generali (tipi di dato, valori non nulli)
employees.info()


In [None]:

salaries.info()


In [None]:

performance.info()


In [None]:

# Shape = (righe, colonne)
employees.shape, salaries.shape, performance.shape


In [None]:

# Valori mancanti per colonna
employees.isna().sum()


## 4. Merge dei dataset

In [None]:

# Uniamo employees + salaries (left join su employee_id)
emp_sal = pd.merge(employees, salaries, on="employee_id", how="left")

# Aggiungiamo performance (ancora su employee_id)
df_full = pd.merge(emp_sal, performance, on="employee_id", how="left")

df_full.head()


## 5. Operazioni base

In [None]:

# Creiamo una colonna derivata: compenso totale = base_salary + bonus
df_full["total_comp"] = df_full["base_salary"] + df_full["bonus"]

# Filtriamo i dipendenti con rating >= 4.0
high_perf = df_full[df_full["rating"] >= 4.0]

high_perf[["first_name", "last_name", "department", "rating", "total_comp"]]


## 6. Statistiche descrittive

In [None]:

# Statistiche numeriche generali
df_full.describe()


In [None]:

# Media stipendi per reparto
df_full.groupby("department")["base_salary"].mean()


In [None]:

# Conteggio dei ruoli
df_full["role"].value_counts()


## 7. Ordinamento

In [None]:

# I 5 dipendenti con compenso totale più alto
df_full.sort_values("total_comp", ascending=False).head()



---
### Conclusione
Abbiamo visto come:
- Importare CSV in Pandas
- Esplorare righe, colonne e tipi
- Verificare valori mancanti
- Fare un merge fra dataset
- Creare colonne derivate
- Filtrare e ordinare i dati
- Calcolare statistiche e aggregazioni

Questo è il punto di partenza per analisi HR più complesse 🚀
