# Pulizia dei dati in Pandas

In [2]:
# Importing Libraries
import pandas as pd
from datasets import load_dataset

# Carica il dataset
dataset = load_dataset("yiqing111/Engineering_Jobs_Insight_Dataset")

# Converte in DataFrame Pandas
df = dataset['train'].to_pandas()
# Rimpiazza gli spazi con l'underscore
df.columns = df.columns.str.replace(' ', '_')

Repo card metadata block was not found. Setting CardData to empty.


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11185 entries, 0 to 11184
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype              
---  ------       --------------  -----              
 0   Job_Title    11185 non-null  object             
 1   Company      11181 non-null  object             
 2   Description  11185 non-null  object             
 3   Location     11185 non-null  object             
 4   Salary_Min   11185 non-null  float64            
 5   Salary_Max   11179 non-null  float64            
 6   Date_Posted  11185 non-null  datetime64[ns, UTC]
 7   URL          11185 non-null  object             
dtypes: datetime64[ns, UTC](1), float64(2), object(5)
memory usage: 699.2+ KB


## Date and Time

### Datetime

* `pd.to_datetime()`: converte gli argomenti in formato data-pora

Possiamo anche usare `info()` che il tipo di dato è passato da oggetto o stringa a formato `datetime` 

#### Esempio

In [5]:
# Convertire 'Date_Posted' in datetime senza specificare il formato esatto
df['Date_Posted'] = pd.to_datetime(df['Date_Posted'], errors='coerce')
# errors='coerce' trasforma quelli non validi in NaT (Not a Time, l'equivalente datetime di NaN)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11185 entries, 0 to 11184
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype              
---  ------       --------------  -----              
 0   Job_Title    11185 non-null  object             
 1   Company      11181 non-null  object             
 2   Description  11185 non-null  object             
 3   Location     11185 non-null  object             
 4   Salary_Min   11185 non-null  float64            
 5   Salary_Max   11179 non-null  float64            
 6   Date_Posted  11185 non-null  datetime64[ns, UTC]
 7   URL          11185 non-null  object             
dtypes: datetime64[ns, UTC](1), float64(2), object(5)
memory usage: 699.2+ KB


In [6]:
df.head()

Unnamed: 0,Job_Title,Company,Description,Location,Salary_Min,Salary_Max,Date_Posted,URL
0,Senior Software Engineer (Python),BP Energy,Entity: Trading & Shipping Job Family Group: S...,"Crestwood, Houston",138992.4,138992.4,2024-10-29 16:35:26+00:00,https://www.adzuna.com/land/ad/4917931721?se=N...
1,Sr. Backend Software Engineer,Meijer,"As a family company, we serve people and commu...","Belmont, Kent County",118638.8,118638.8,2024-11-10 01:13:11+00:00,https://www.adzuna.com/land/ad/4933370156?se=N...
2,Sr. Software Engineer - Mobile,Meijer,"As a family company, we serve people and commu...","Belmont, Kent County",108041.95,108041.95,2024-10-15 11:51:30+00:00,https://www.adzuna.com/land/ad/4902683574?se=N...
3,Acquisition Software Engineer,Naval Air Systems Command,Position Description The Harpoon/SLAM ER/JSOW ...,"China Lake, Kern County",88583.57,88583.57,2024-11-16 04:21:41+00:00,https://www.adzuna.com/land/ad/4941260438?se=N...
4,Senior Software Engineer,Innova,A client of Innova Solutions is immediately hi...,"Richardson, Dallas",121932.35,121932.35,2024-11-15 09:42:55+00:00,https://www.adzuna.com/details/4940271538?utm_...


### Date

* `dt`: è un accessor che ci permette di accedere a metodi e proprietà specializzate per lavorare con dati datetime all'interno di una series di pandas.
* `date`: è una proprietà che estrae la componente **data** da un oggetto datetime nella series.

#### Esempio

Ora convertiamo un valore da datetime a data utilizzando `dt.date`.


In [8]:
df['Date_Posted'] = df['Date_Posted'].dt.date

df.head()

Unnamed: 0,Job_Title,Company,Description,Location,Salary_Min,Salary_Max,Date_Posted,URL
0,Senior Software Engineer (Python),BP Energy,Entity: Trading & Shipping Job Family Group: S...,"Crestwood, Houston",138992.4,138992.4,2024-10-29,https://www.adzuna.com/land/ad/4917931721?se=N...
1,Sr. Backend Software Engineer,Meijer,"As a family company, we serve people and commu...","Belmont, Kent County",118638.8,118638.8,2024-11-10,https://www.adzuna.com/land/ad/4933370156?se=N...
2,Sr. Software Engineer - Mobile,Meijer,"As a family company, we serve people and commu...","Belmont, Kent County",108041.95,108041.95,2024-10-15,https://www.adzuna.com/land/ad/4902683574?se=N...
3,Acquisition Software Engineer,Naval Air Systems Command,Position Description The Harpoon/SLAM ER/JSOW ...,"China Lake, Kern County",88583.57,88583.57,2024-11-16,https://www.adzuna.com/land/ad/4941260438?se=N...
4,Senior Software Engineer,Innova,A client of Innova Solutions is immediately hi...,"Richardson, Dallas",121932.35,121932.35,2024-11-15,https://www.adzuna.com/details/4940271538?utm_...


## Aggiungere una colonna

NOTA BENE: Se vuoi creare una nuova colonna, devi usare la sintassi `df['nome_colonna']`.

### Esempio

Qui stiamo creando una nuova colonna chiamata **'Is Senior Software Engineer'**.  
La colonna conterrà:
- **1** se il valore in `Job_Title` è uguale a `'Senior Software Engineer'`
- **0** altrimenti

Usiamo `astype(int)` per convertire il valore booleano in 1 o 0.


In [9]:
df['is_Senior_SE'] = (df.Job_Title == 'Senior Software Engineer').astype(int)

In [10]:
df['is_Senior_SE']

0        0
1        0
2        0
3        0
4        1
        ..
11180    0
11181    0
11182    0
11183    0
11184    0
Name: is_Senior_SE, Length: 11185, dtype: int64

Vediamo ora i casi in cui questa colonna è **maggiore di 0**,  
cioè è uguale a **1** (ovvero è vera).

Possiamo usare il **filtro sulle righe** che abbiamo visto nella sezione precedente:

In [11]:
df[df['is_Senior_SE'] > 0]

Unnamed: 0,Job_Title,Company,Description,Location,Salary_Min,Salary_Max,Date_Posted,URL,is_Senior_SE
4,Senior Software Engineer,Innova,A client of Innova Solutions is immediately hi...,"Richardson, Dallas",121932.35,121932.35,2024-11-15,https://www.adzuna.com/details/4940271538?utm_...,1
434,Senior Software Engineer,"Komodo Co., Ltd.",About KOMODO KOMODO works on products that sha...,"Honolulu, Hawaii",167803.20,167803.20,2024-01-03,https://www.adzuna.com/details/4508854608?utm_...,1
436,Senior Software Engineer,Tech Firefly,Tech Firefly is teaming up with a deep learnin...,US,170000.00,220000.00,2024-03-01,https://www.adzuna.com/details/4588945381?utm_...,1
439,Senior Software Engineer,GrowthBook,"About GrowthBook At GrowthBook, we are buildin...","Palo Alto, Santa Clara County",174824.69,174824.69,2023-11-14,https://www.adzuna.com/details/4433358852?utm_...,1
440,Senior Software Engineer,Aviture,What is Aviture? Aviture provides custom softw...,"Omaha, Douglas County",147484.70,147484.70,2023-12-26,https://www.adzuna.com/details/4497539636?utm_...,1
...,...,...,...,...,...,...,...,...,...
1485,Senior Software Engineer,Antares,"About Us At Antares, our long-term mission is ...","Los Angeles, Los Angeles County",175634.50,175634.50,2024-08-01,https://www.adzuna.com/details/4805420051?utm_...,1
1488,Senior Software Engineer,Ludus,Senior Software Engineer We are looking for a ...,US,130.00,150.00,2024-11-16,https://www.adzuna.com/details/4941323191?utm_...,1
1490,Senior Software Engineer,The Walt Disney Company,Job Posting Title: Senior Software Engineer Re...,"San Francisco, California",149000.00,199800.00,2024-09-22,https://www.adzuna.com/details/4872599438?utm_...,1
1493,Senior Software Engineer,Parsons Technical Services,"In a world of possibilities, pursue one with e...","Colorado Springs, El Paso County",104200.00,182400.00,2024-09-30,https://www.adzuna.com/details/4882015618?utm_...,1


## Eliminare Dati

* Usa `drop()` se vuoi **eliminare** (cancellare) una **colonna** o una **riga** dal tuo DataFrame.
* La sintassi è:

    * Eliminare una colonna:  
      ```python
      df.drop('nome_colonna', axis=1)
      ```

    * Eliminare una riga:  
      ```python
      df.drop(indice, axis=0)
      ```

* Se vuoi eliminare più elementi:

    * Eliminare più colonne:  
      ```python
      df.drop(['colonna1', 'colonna2'], axis=1)
      ```

    * Eliminare più righe:  
      ```python
      df.drop([indice1, indice2], axis=0)
      ```

---

### Esempio

Eliminiamo la colonna `'URL'`.  
Poiché stiamo eliminando una **colonna**, useremo `axis=1`:


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11185 entries, 0 to 11184
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Job_Title     11185 non-null  object 
 1   Company       11181 non-null  object 
 2   Description   11185 non-null  object 
 3   Location      11185 non-null  object 
 4   Salary_Min    11185 non-null  float64
 5   Salary_Max    11179 non-null  float64
 6   Date_Posted   11185 non-null  object 
 7   URL           11185 non-null  object 
 8   is_Senior_SE  11185 non-null  int64  
dtypes: float64(2), int64(1), object(6)
memory usage: 786.6+ KB


In [14]:
df.drop('URL', axis = 1, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11185 entries, 0 to 11184
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Job_Title     11185 non-null  object 
 1   Company       11181 non-null  object 
 2   Description   11185 non-null  object 
 3   Location      11185 non-null  object 
 4   Salary_Min    11185 non-null  float64
 5   Salary_Max    11179 non-null  float64
 6   Date_Posted   11185 non-null  object 
 7   is_Senior_SE  11185 non-null  int64  
dtypes: float64(2), int64(1), object(5)
memory usage: 699.2+ KB


## Rimuovere Valori NA

* Per rimuovere le righe che contengono celle vuote (NaN), usa `dropna()`.
* Per default, `dropna()` restituisce un **nuovo DataFrame** e **non modifica** quello originale.
* Se vuoi che dropna() modifichi direttamente il DataFrame originale, devi usare il parametro `inplace=True`

### Esempio

Ripuliamo la colonna `Salary_Max` rimuovendo le righe che hanno valori `NaN` in questa colonna:

In [None]:
df.dropna(subset=['Salary_Max'], inplace=True)

## Ordinamento dei Valori

* `sort_values()` ordina un DataFrame o una specifica colonna in ordine crescente o decrescente, basandosi su una o più colonne.
* Di solito si usa per ordinare secondo una colonna specifica.

### Parametri:
* `by` - nome della colonna (o lista di colonne) su cui basare l’ordinamento.
* `ascending` - booleano o lista di booleani. Di default è `True` (ordine crescente). Per ordinare in modo decrescente, si usa `False`.
* `inplace` - se `True`, modifica il DataFrame originale; altrimenti restituisce uno nuovo.

### Esempio

Ordiniamo il nostro DataFrame secondo la colonna `Date_Posted` in ordine decrescente (dalla data più recente alla meno recente).


In [15]:
df.sort_values(by='Date_Posted', ascending=False, inplace=True)
df

Unnamed: 0,Job_Title,Company,Description,Location,Salary_Min,Salary_Max,Date_Posted,is_Senior_SE
7998,Lead Cloud Platform Engineer,Alcority,Join our team as a Lead Cloud Platform Enginee...,"Dallas, Texas",116233.99,116233.99,2024-11-24,0
8551,Site Reliability Engineer III,"JPMorgan Chase Bank, N.A.",There's nothing more exciting than being at th...,"Wilmington, New Castle County",151640.22,151640.22,2024-11-24,0
8552,Lead Site Reliability Engineer,"JPMorgan Chase Bank, N.A.",Assume a critical role in defining the future ...,"Wilmington, New Castle County",145009.69,145009.69,2024-11-24,0
9255,Operational Technology Cyber Security Engineer...,Georgia Power Company,Description POSITION SUMMARY Southern Company ...,"Birmingham, Jefferson County",84523.97,84523.97,2024-11-24,0
9256,"Senior Security Engineer, Tool Implementation ...",HubSpot,POS-15530 Job Overview: We are seeking a Senio...,"Boston, Suffolk County",129529.22,129529.22,2024-11-24,0
...,...,...,...,...,...,...,...,...
5840,Business Analyst in New York eg,ESR Healthcare,"Business Analyst in New York eg New York, NY J...","New York City, New York",70637.84,70637.84,2019-11-02,0
10279,Embedded Software Engineer – Sensors – Electri...,Avanti,Why is This a Great Opportunity? We are lookin...,US,110000.00,120000.00,2019-08-19,0
7296,DevOps Engineer,Roy Talman & Associates,We are looking for a DevOps Engineer for our C...,"West Loop, Chicago",138781.27,138781.27,2019-06-19,0
1028,Backend Software Engineer,Roy Talman & Associates,"We are actively looking for a creative, talent...","Westmont, DuPage County",113766.23,113766.23,2019-06-19,0


# Data Analysis con Pandas 

## Statistica Descrittiva

### Describe()

Per ottenere una panoramica di base utilizziamo dinuovo `describe()`.

* Restituisce le seguenti statistiche (per le colonne con dati numerici):
  * count (numero di valori non nulli)
  * mean (media)
  * std (deviazione standard)
  * min (valore minimo)
  * max (valore massimo)
* Ottimo per avere una **visione rapida** delle statistiche fondamentali della tabella.
* Ignora automaticamente i valori `NaN`.

#### Esempio

Utilizziamo `describe()` sul nostro DataFrame:

```python
df.describe()


In [16]:
df.describe()

Unnamed: 0,Salary_Min,Salary_Max,is_Senior_SE
count,11185.0,11179.0,11185.0
mean,110393.745941,123339.933299,0.015467
std,40847.621742,55571.000358,0.123407
min,0.0,1.0,0.0
25%,83130.58,85820.28,0.0
50%,105012.47,113068.15,0.0
75%,133000.0,147635.98,0.0
max,550000.0,809123.0,1.0


Puoi anche usare `describe()` su singole colonne.  
Se ad esempio volessimo analizzare solo la colonna `salary_year_avg`, useremmo:

In [17]:
df['Salary_Min'].describe()

count     11185.000000
mean     110393.745941
std       40847.621742
min           0.000000
25%       83130.580000
50%      105012.470000
75%      133000.000000
max      550000.000000
Name: Salary_Min, dtype: float64

### Metodi Comuni di Analisi dei Dati

Esistono anche altri metodi molto utili, come:

* `df.sum()` – Somma dei valori
* `df.cumsum()` – Somma cumulativa dei valori
* `df.min()` / `df.max()` – Valori minimi / massimi
* `df.idxmin()` / `df.idxmax()` – Indici dei valori minimo / massimo
* `df.mean()` – Media dei valori
* `df.median()` – Mediana dei valori
* `df.mode()` – Moda dei valori
* `series.value_counts()` – Conteggio dei valori unici all'interno di una **Series** (cioè una colonna)
    * Tipicamente usato per contare le **occorrenze uniche** in una singola colonna.
    * Non si applica direttamente a un intero DataFrame senza specificare la colonna.

* A seconda del metodo, può essere applicato **direttamente al DataFrame o a una Series**.

---

#### Esempio

Vediamo il conteggio dei valori in ogni colonna del DataFrame:


In [18]:
df.count()

Job_Title       11185
Company         11181
Description     11185
Location        11185
Salary_Min      11185
Salary_Max      11179
Date_Posted     11185
is_Senior_SE    11185
dtype: int64

Questo è utile per ottenere una panoramica generale del DataFrame,  
ma al momento **non ci serve molto**.

Procediamo invece con alcuni **conteggi su colonne specifiche**:


In [19]:
df['Salary_Min'].min()

0.0

Ora andiamo a ottenere **l'indice del valore minimo** nella colonna `Salary_Min`.

In [20]:
df['Salary_Min'].idxmin()

np.int64(10982)

In [21]:
df.iloc[10982]

Job_Title                                       Software Engineer
Company                                   ISYS Technologies, Inc.
Description     Top Secret SCI I2X Technologies is a reputable...
Location                    Eglin Air Force Base, Okaloosa County
Salary_Min                                               91542.15
Salary_Max                                               91542.15
Date_Posted                                            2023-11-10
is_Senior_SE                                                    0
Name: 586, dtype: object

In [22]:
df.loc[10982]

Job_Title                      Senior Solutions Architect, Retail
Company                                                Nvidia Usa
Description     Interested in developing innovative NVIDIA AI ...
Location                                             Arkansas, US
Salary_Min                                                    0.0
Salary_Max                                               339250.0
Date_Posted                                            2024-11-24
is_Senior_SE                                                    0
Name: 10982, dtype: object

In [23]:
df['Salary_Min'].mode()

0    100000.0
Name: Salary_Min, dtype: float64

E per sapere i titoli di lavoro unici e quante volte ciascuno appare?

In [24]:
df['Job_Title'].value_counts()

Job_Title
Software Engineer                                                     311
Product Manager  Social app startup                                   282
Associate Product Manager  Social app startup                         277
2025 Virtual Summer Intern Program - Product Analyst Intern (Xome)    267
Real-Time Software Engineer                                           266
                                                                     ... 
Senior Product Manager, Observability and Reliability                   1
Annuity Product Manager                                                 1
Business Analyst - CCR XVA - Vice President                             1
Commercial Product Manager, Immunology                                  1
CryptoCurrency- Software Engineer                                       1
Name: count, Length: 4848, dtype: int64

Restituisce una Series ordinata con:

* i valori unici della colonna Job_Title

* e il numero di occorrenze per ciascun valore



## Aggregazione

### Groupby()

* Usa `groupby` per **raggruppare il DataFrame** in base ai valori unici di una colonna specifica.
* Permette di eseguire **aggregazioni** (es. media, somma) sui dati raggruppati.

La sintassi è:
  `df.groupby("colonne da raggruppare")["colonne da aggregare"].metodo_che_aggrega()`

#### Esempi di aggregazioni che puoi eseguire:

- `mean()` – Calcola la media dei gruppi  
- `sum()` – Somma i valori di ciascun gruppo  
- `median()` – Trova la mediana per ogni gruppo  
- `min()` / `max()` – Valore minimo / massimo per gruppo  
- Conteggi:
  * `count()` – Conta i valori **non nulli (non-NA)** per ogni gruppo  
  * `size()` – Restituisce la **dimensione totale** del gruppo (inclusi i NaN)  
- `std()` / `var()` – Deviazione standard e varianza  
- `first()` / `last()` – Prima e ultima riga di ciascun gruppo  
- `unique()` – Valori unici non-NaN per ciascun gruppo


---

#### Esempio

Se vogliamo calcolare lo **stipendio minimo medio** per ogni `Job_Title`:

In [25]:
df.groupby('Job_Title')['Salary_Min'].mean()

Job_Title
 Developer                                                                  116729.88
(Hybrid) Algorithms/Video Engineer/AI/ML tech , Deep Learning framework/    116253.39
(Marketing) Front End Developer, Full-Time, Marlboro, Hybrid                 82348.70
(USA) Product Manager III                                                    90000.00
(f2pool) DevOps Engineer                                                    130000.00
                                                                              ...    
Zuora - Solution Architect - Manager                                        129817.80
eCommerce Product Manager                                                   120000.00
iOS Software Engineer                                                       130000.00
racle Cloud Financials Solution Architect                                   114549.44
☁ Cloud HPC Engineer ☁                                                      130000.00
Name: Salary_Min, Length: 4848, dtype: float

In [26]:
df.groupby('Job_Title')['Salary_Min'].median()

Job_Title
 Developer                                                                  116729.88
(Hybrid) Algorithms/Video Engineer/AI/ML tech , Deep Learning framework/    116253.39
(Marketing) Front End Developer, Full-Time, Marlboro, Hybrid                 82348.70
(USA) Product Manager III                                                    90000.00
(f2pool) DevOps Engineer                                                    130000.00
                                                                              ...    
Zuora - Solution Architect - Manager                                        129817.80
eCommerce Product Manager                                                   120000.00
iOS Software Engineer                                                       130000.00
racle Cloud Financials Solution Architect                                   114549.44
☁ Cloud HPC Engineer ☁                                                      130000.00
Name: Salary_Min, Length: 4848, dtype: float

### Agg()

* `agg()` ti permette di applicare **più funzioni di aggregazione contemporaneamente**.
* Puoi passare:
  - una **lista di funzioni** → per applicarle tutte a una colonna
  - un **dizionario** → per applicare funzioni diverse a colonne diverse

---

#### Esempio

Per ogni titolo di lavoro (`Job_Title`), otteniamo i **valori minimo, massimo e mediano** dello stipendio minimo:

In [27]:
df.groupby('Job_Title')['Salary_Min'].agg(['min', 'max', 'median'])

Unnamed: 0_level_0,min,max,median
Job_Title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Developer,116729.88,116729.88,116729.88
"(Hybrid) Algorithms/Video Engineer/AI/ML tech , Deep Learning framework/",116253.39,116253.39,116253.39
"(Marketing) Front End Developer, Full-Time, Marlboro, Hybrid",82348.70,82348.70,82348.70
(USA) Product Manager III,90000.00,90000.00,90000.00
(f2pool) DevOps Engineer,130000.00,130000.00,130000.00
...,...,...,...
Zuora - Solution Architect - Manager,100000.00,159635.60,129817.80
eCommerce Product Manager,120000.00,120000.00,120000.00
iOS Software Engineer,130000.00,130000.00,130000.00
racle Cloud Financials Solution Architect,114549.44,114549.44,114549.44
