# Pulizia dei dati in Pandas

In [None]:
# Importing Libraries
import pandas as pd
from datasets import load_dataset

# Carica il dataset
dataset = load_dataset("yiqing111/Engineering_Jobs_Insight_Dataset")

# Converte in DataFrame Pandas
df = dataset['train'].to_pandas()
# Rimpiazza gli spazi con l'underscore
df.columns = df.columns.str.replace(' ', '_')

In [None]:
df.info()

## Date and Time

### Datetime

* `pd.to_datetime()`: converte gli argomenti in formato data-pora

Possiamo anche usare `info()` che il tipo di dato è passato da oggetto o stringa a formato `datetime` 

#### Esempio

In [None]:
# Convertire 'Date_Posted' in datetime senza specificare il formato esatto
df['Date_Posted'] = pd.to_datetime(df['Date_Posted'], errors='coerce')
# errors='coerce' trasforma quelli non validi in NaT (Not a Time, l'equivalente datetime di NaN)

df.info()

In [None]:
df.head()

### Date

* `dt`: è un accessor che ci permette di accedere a metodi e proprietà specializzate per lavorare con dati datetime all'interno di una series di pandas.
* `date`: è una proprietà che estrae la componente **data** da un oggetto datetime nella series.

#### Esempio

Ora convertiamo un valore da datetime a data utilizzando `dt.date`.


In [None]:
df['Date_Posted'] = df['Date_Posted'].dt.date

df.head()

## Aggiungere una colonna

NOTA BENE: Se vuoi creare una nuova colonna, devi usare la sintassi `df['nome_colonna']`.

### Esempio

Qui stiamo creando una nuova colonna chiamata **'Is Senior Software Engineer'**.  
La colonna conterrà:
- **1** se il valore in `Job_Title` è uguale a `'Senior Software Engineer'`
- **0** altrimenti

Usiamo `astype(int)` per convertire il valore booleano in 1 o 0.


In [None]:
df.is_Senior_SE = (df.Job_Title == 'Senior Software Engineer').astype(int)

In [None]:
df['is_Senior_SE'] = (df.Job_Title == 'Senior Software Engineer').astype(int)

In [None]:
df['is_Senior_SE']

Vediamo ora i casi in cui questa colonna è **maggiore di 0**,  
cioè è uguale a **1** (ovvero è vera).

Possiamo usare il **filtro sulle righe** che abbiamo visto nella sezione precedente:

In [None]:
df[df['is_Senior_SE'] > 0]

## Eliminare Dati

* Usa `drop()` se vuoi **eliminare** (cancellare) una **colonna** o una **riga** dal tuo DataFrame.
* La sintassi è:

    * Eliminare una colonna:  
      ```python
      df.drop('nome_colonna', axis=1)
      ```

    * Eliminare una riga:  
      ```python
      df.drop(indice, axis=0)
      ```

* Se vuoi eliminare più elementi:

    * Eliminare più colonne:  
      ```python
      df.drop(['colonna1', 'colonna2'], axis=1)
      ```

    * Eliminare più righe:  
      ```python
      df.drop([indice1, indice2], axis=0)
      ```

---

### Esempio

Eliminiamo la colonna `'URL'`.  
Poiché stiamo eliminando una **colonna**, useremo `axis=1`:


In [None]:
df.info()

In [None]:
df.drop('URL', axis = 1, inplace=True)
df.info()

## Rimuovere Valori NA

* Per rimuovere le righe che contengono celle vuote (NaN), usa `dropna()`.
* Per default, `dropna()` restituisce un **nuovo DataFrame** e **non modifica** quello originale.
* Se vuoi che dropna() modifichi direttamente il DataFrame originale, devi usare il parametro `inplace=True`

### Esempio

Ripuliamo la colonna `Salary_Max` rimuovendo le righe che hanno valori `NaN` in questa colonna:

In [None]:
df.dropna(subset=['Salary_Max'], inplace=True)

## Ordinamento dei Valori

* `sort_values()` ordina un DataFrame o una specifica colonna in ordine crescente o decrescente, basandosi su una o più colonne.
* Di solito si usa per ordinare secondo una colonna specifica.

### Parametri:
* `by` - nome della colonna (o lista di colonne) su cui basare l’ordinamento.
* `ascending` - booleano o lista di booleani. Di default è `True` (ordine crescente). Per ordinare in modo decrescente, si usa `False`.
* `inplace` - se `True`, modifica il DataFrame originale; altrimenti restituisce uno nuovo.

### Esempio

Ordiniamo il nostro DataFrame secondo la colonna `Date_Posted` in ordine decrescente (dalla data più recente alla meno recente).


In [None]:
df.sort_values(by='Date_Posted', ascending=False, inplace=True)
df

# Data Analysis con Pandas 

## Statistica Descrittiva

### Describe()

Per ottenere una panoramica di base utilizziamo dinuovo `describe()`.

* Restituisce le seguenti statistiche (per le colonne con dati numerici):
  * count (numero di valori non nulli)
  * mean (media)
  * std (deviazione standard)
  * min (valore minimo)
  * max (valore massimo)
* Ottimo per avere una **visione rapida** delle statistiche fondamentali della tabella.
* Ignora automaticamente i valori `NaN`.

#### Esempio

Utilizziamo `describe()` sul nostro DataFrame:

```python
df.describe()


In [None]:
df.describe()

Puoi anche usare `describe()` su singole colonne.  
Se ad esempio volessimo analizzare solo la colonna `salary_year_avg`, useremmo:

In [None]:
df['Salary_Min'].describe()

### Metodi Comuni di Analisi dei Dati

Esistono anche altri metodi molto utili, come:

* `df.sum()` – Somma dei valori
* `df.cumsum()` – Somma cumulativa dei valori
* `df.min()` / `df.max()` – Valori minimi / massimi
* `df.idxmin()` / `df.idxmax()` – Indici dei valori minimo / massimo
* `df.mean()` – Media dei valori
* `df.median()` – Mediana dei valori
* `df.mode()` – Moda dei valori
* `series.value_counts()` – Conteggio dei valori unici all'interno di una **Series** (cioè una colonna)
    * Tipicamente usato per contare le **occorrenze uniche** in una singola colonna.
    * Non si applica direttamente a un intero DataFrame senza specificare la colonna.

* A seconda del metodo, può essere applicato **direttamente al DataFrame o a una Series**.

---

#### Esempio

Vediamo il conteggio dei valori in ogni colonna del DataFrame:


In [None]:
df.count()

Questo è utile per ottenere una panoramica generale del DataFrame,  
ma al momento **non ci serve molto**.

Procediamo invece con alcuni **conteggi su colonne specifiche**:


In [None]:
df['Salary_Min'].min()

Ora andiamo a ottenere **l'indice del valore minimo** nella colonna `Salary_Min`.

In [None]:
df['Salary_Min'].idxmin()

In [None]:
df.loc[10982]

In [None]:
df['Salary_Min'].mode()

E per sapere i titoli di lavoro unici e quante volte ciascuno appare?

In [None]:
df['Job_Title'].value_counts()

Restituisce una Series ordinata con:

* i valori unici della colonna Job_Title

* e il numero di occorrenze per ciascun valore



## Aggregazione

### Groupby()

* Usa `groupby` per **raggruppare il DataFrame** in base ai valori unici di una colonna specifica.
* Permette di eseguire **aggregazioni** (es. media, somma) sui dati raggruppati.

La sintassi è:
  `df.groupby("colonne da raggruppare")["colonne da aggregare"].metodo_che_aggrega()`

#### Esempi di aggregazioni che puoi eseguire:

- `mean()` – Calcola la media dei gruppi  
- `sum()` – Somma i valori di ciascun gruppo  
- `median()` – Trova la mediana per ogni gruppo  
- `min()` / `max()` – Valore minimo / massimo per gruppo  
- Conteggi:
  * `count()` – Conta i valori **non nulli (non-NA)** per ogni gruppo  
  * `size()` – Restituisce la **dimensione totale** del gruppo (inclusi i NaN)  
- `std()` / `var()` – Deviazione standard e varianza  
- `first()` / `last()` – Prima e ultima riga di ciascun gruppo  
- `unique()` – Valori unici non-NaN per ciascun gruppo


---

#### Esempio

Se vogliamo calcolare lo **stipendio minimo medio** per ogni `Job_Title`:

In [None]:
df.groupby('Job_Title')['Salary_Min'].mean()

In [None]:
df.groupby('Job_Title')['Salary_Min'].median()

### Agg()

* `agg()` ti permette di applicare **più funzioni di aggregazione contemporaneamente**.
* Puoi passare:
  - una **lista di funzioni** → per applicarle tutte a una colonna
  - un **dizionario** → per applicare funzioni diverse a colonne diverse

---

#### Esempio

Per ogni titolo di lavoro (`Job_Title`), otteniamo i **valori minimo, massimo e mediano** dello stipendio minimo:

In [None]:
df.groupby('Job_Title')['Salary_Min'].agg(['min', 'max', 'median'])