## Esamina i Dati

Carichiamo i dati usando `read_csv` e diamo un'occhiata rapida con `head()`.

In [25]:
# Importing Libraries
import pandas as pd
import numpy as np
from datasets import load_dataset
import matplotlib.pyplot as plt  



# Carica il dataset
dataset = load_dataset("yiqing111/Engineering_Jobs_Insight_Dataset")
# Converte in DataFrame Pandas
df = dataset['train'].to_pandas()
# Rimpiazza gli spazi con l'underscore
df.columns = df.columns.str.replace(' ', '_')
# Convertire 'Date_Posted' in datetime senza specificare il formato esatto
df['Date_Posted'] = pd.to_datetime(df['Date_Posted'], errors='coerce')

Repo card metadata block was not found. Setting CardData to empty.


In [2]:
df.head()

Unnamed: 0,Job_Title,Company,Description,Location,Salary_Min,Salary_Max,Date_Posted,URL
0,Senior Software Engineer (Python),BP Energy,Entity: Trading & Shipping Job Family Group: S...,"Crestwood, Houston",138992.4,138992.4,2024-10-29 16:35:26+00:00,https://www.adzuna.com/land/ad/4917931721?se=N...
1,Sr. Backend Software Engineer,Meijer,"As a family company, we serve people and commu...","Belmont, Kent County",118638.8,118638.8,2024-11-10 01:13:11+00:00,https://www.adzuna.com/land/ad/4933370156?se=N...
2,Sr. Software Engineer - Mobile,Meijer,"As a family company, we serve people and commu...","Belmont, Kent County",108041.95,108041.95,2024-10-15 11:51:30+00:00,https://www.adzuna.com/land/ad/4902683574?se=N...
3,Acquisition Software Engineer,Naval Air Systems Command,Position Description The Harpoon/SLAM ER/JSOW ...,"China Lake, Kern County",88583.57,88583.57,2024-11-16 04:21:41+00:00,https://www.adzuna.com/land/ad/4941260438?se=N...
4,Senior Software Engineer,Innova,A client of Innova Solutions is immediately hi...,"Richardson, Dallas",121932.35,121932.35,2024-11-15 09:42:55+00:00,https://www.adzuna.com/details/4940271538?utm_...


## iloc

Abbiamo già imparato come ottenere le righe usando `iloc[]`.  
Ma possiamo fare molto di più con questo strumento: possiamo infatti selezionare *sia* righe *che* colonne.

Per fare questo, dobbiamo conoscere gli indici del nostro DataFrame.


In [3]:
df.iloc[0] #prima riga

Job_Title                      Senior Software Engineer (Python)
Company                                                BP Energy
Description    Entity: Trading & Shipping Job Family Group: S...
Location                                      Crestwood, Houston
Salary_Min                                              138992.4
Salary_Max                                              138992.4
Date_Posted                            2024-10-29 16:35:26+00:00
URL            https://www.adzuna.com/land/ad/4917931721?se=N...
Name: 0, dtype: object

In [4]:
df.iloc[0][5]

  df.iloc[0][5]


np.float64(138992.4)

##### Nota: usa `df.iloc[0, 15]` invece di `df.iloc[0][15]` per garantire la compatibilità futura con pandas.

L’uso dell’indicizzazione concatenata come `df.iloc[0][15]` è in fase di deprecazione in pandas, perché può portare a comportamenti ambigui tra accesso basato sulla posizione e accesso basato sull’etichetta nelle versioni future.  
Utilizzando `df.iloc[0, 15]`, specifichi direttamente la posizione dell’elemento che vuoi accedere, in modo più chiaro e sicuro, evitando potenziali errori futuri legati all’interpretazione degli indici interi nelle serie.

Quindi dovremmo scrivere:

In [5]:
df.iloc[0,5]

np.float64(138992.4)

In [6]:
df.iloc[2:4,4:6]

Unnamed: 0,Salary_Min,Salary_Max
2,108041.95,108041.95
3,88583.57,88583.57


In [7]:
df.iloc[[2,4],[4,5]]

Unnamed: 0,Salary_Min,Salary_Max
2,108041.95,108041.95
4,121932.35,121932.35


## loc

* `df.loc[]`: seleziona righe e colonne per **etichetta** o **intervallo di etichette**.
* È simile a `df.iloc[]`, ma consente di usare **etichette** invece degli indici numerici.


In [7]:
df.loc[:9,['Salary_Min',	'Salary_Max']]

Unnamed: 0,Salary_Min,Salary_Max
0,138992.4,138992.4
1,118638.8,118638.8
2,108041.95,108041.95
3,88583.57,88583.57
4,121932.35,121932.35
5,133348.23,133348.23
6,88769.2,88769.2
7,79830.78,79830.78
8,94173.15,94173.15
9,91324.85,91324.85


## Gestione dei Dati Mancanti



- `df.dropna()`: elimina i valori mancanti.



### Fillna

- `df.fillna()`: riempie i valori mancanti

In [None]:
data = {
    'Nome': ['Anna', 'Luca', 'Marco', 'Elisa'],
    'Età': [25, np.nan, 30, np.nan],
    'Città': ['Roma', 'Milano', np.nan, 'Torino']
}

df2 = pd.DataFrame(data)
df2

Unnamed: 0,Nome,Età,Città
0,Anna,25.0,Roma
1,Luca,,Milano
2,Marco,30.0,
3,Elisa,,Torino


In [10]:
df_drop = df2.dropna()
df_drop

Unnamed: 0,Nome,Età,Città
0,Anna,25.0,Roma


In [11]:
media_eta = df2['Età'].mean()
df2['Età'] = df2['Età'].fillna(media_eta)
df2

Unnamed: 0,Nome,Età,Città
0,Anna,25.0,Roma
1,Luca,27.5,Milano
2,Marco,30.0,
3,Elisa,27.5,Torino


## Rimozione dei Duplicati

* `drop_duplicates()`: rimuove le righe duplicate.
* Gli analisti devono spesso ripulire i dati, e uno dei problemi più comuni che si incontrano sono i valori duplicati.

In [None]:
# DataFrame Copy
df_original = df.copy()
df_altered = df_original

# Filling the missing values with the median salary
df_altered['Salary_Min'] = 5 #cosi modifico anche df_original
df_altered['Salary_Min']

0        5
1        5
2        5
3        5
4        5
        ..
11180    5
11181    5
11182    5
11183    5
11184    5
Name: Salary_Min, Length: 11185, dtype: int64

In [13]:
df_original['Salary_Min']

0        5
1        5
2        5
3        5
4        5
        ..
11180    5
11181    5
11182    5
11183    5
11184    5
Name: Salary_Min, Length: 11185, dtype: int64

In [13]:
df['Salary_Min']

0        138992.40
1        118638.80
2        108041.95
3         88583.57
4        121932.35
           ...    
11180    110000.00
11181    110000.00
11182    126635.63
11183    155731.52
11184    174527.50
Name: Salary_Min, Length: 11185, dtype: float64

In [14]:

print('ID of df_original:               ', id(df_original))
print('ID of df_altered:                ', id(df_altered))
print('ID of df:                        ', id(df))

ID of df_original:                139938023573648
ID of df_altered:                 139938023573648
ID of df:                         139938034618672


## Campionamento

* `sample()`: estrae un campione casuale di elementi.

### Esempi

Otteniamo un campione casuale dei dati.  
È possibile ottenere un campione con un numero fisso di righe.


In [15]:
df.sample(n=2)

Unnamed: 0,Job_Title,Company,Description,Location,Salary_Min,Salary_Max,Date_Posted,URL
4027,Associate Product Manager Social app startup,Cheez,Cheez is a new app that sends you the pictures...,"Norwalk, Fairfield County",79567.11,79567.11,2024-05-02 13:07:11+00:00,https://www.adzuna.com/land/ad/4675830263?se=5...
9028,Embedded Systems Security Engineer,Trimble,Your Title: Embedded Systems Security Engineer...,"Newark, Essex County",73579.69,73579.69,2024-11-18 14:07:37+00:00,https://www.adzuna.com/details/4943080831?utm_...


Oppure puoi selezionare casualmente una frazione dei dati (ad esempio, il 10% delle righe), con o senza reinserimento (replacement).


In [16]:
df.sample(frac=0.0005, replace=False) # (senza replacement) → ogni riga può essere selezionata una sola volta nel campione.



Unnamed: 0,Job_Title,Company,Description,Location,Salary_Min,Salary_Max,Date_Posted,URL
8894,Senior Security Engineer - Remote,Origami Risk,The Senior Security Engineer is a key contribu...,"Highland Park, Dallas",120236.86,120236.86,2024-11-10 12:12:14+00:00,https://www.adzuna.com/details/4933711294?utm_...
7381,ServiceNow Developer & DevOps Engineer,"Apogee, A Boldyn Networks Company","We're Apogee, a Boldyn Networks Company. Nice ...","Atlanta, Fulton County",90000.0,130000.0,2024-10-11 20:12:03+00:00,https://www.adzuna.com/details/4899329530?utm_...
1720,Full Stack Developer (React & Java) - FTE & Re...,Now100,Company Description Now100 is committed to und...,"Huntingdon, Huntingdon County",123089.02,123089.02,2024-10-30 14:15:17+00:00,https://www.adzuna.com/details/4918844341?utm_...
8852,Information Security Engineer - Remote Opportu...,Hire With Jarvis,Job Title: Information Security Engineer Locat...,"Boston, Thomas County",110000.0,125000.0,2024-11-16 11:18:24+00:00,https://www.adzuna.com/details/4941524905?utm_...
8141,Senior Director - Cloud Network Engineering,USA01,Description About Ford Come help build a bette...,"Dearborn, Wayne County",207986.56,207986.56,2024-11-01 05:48:35+00:00,https://www.adzuna.com/details/4921216836?utm_...
10163,Network Solutions Engineer,TriCore,A Career with a Proven Controls Engineering Te...,"Melbourne, Brevard County",90074.98,90074.98,2024-11-17 05:53:23+00:00,https://www.adzuna.com/details/4942106769?utm_...


## Pandas Pivot 

È un'operazione che consente di ristrutturare un DataFrame, trasformando colonne in indici e viceversa. È utile quando vuoi riorganizzare i dati in una forma tabellare più leggibile o più adatta all’analisi.



In [17]:
df = pd.DataFrame({
    'Data': ['2024-01', '2024-01', '2024-02', '2024-02'],
    'Prodotto': ['A', 'B', 'A', 'B'],
    'Vendite': [100, 150, 120, 130]
})
df

Unnamed: 0,Data,Prodotto,Vendite
0,2024-01,A,100
1,2024-01,B,150
2,2024-02,A,120
3,2024-02,B,130


In [18]:
# rioganizziamo i dati di modo che Le righe (index) siano le date, Le colonne, i prodotti, e le celle contengono i valori di vendite.

df.pivot(index='Data', columns='Prodotto', values='Vendite')

Prodotto,A,B
Data,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01,100,150
2024-02,120,130




- `pivot_table()` è una versione più flessibile di `pivot()`, perché ti permette di aggregare dati quando ci sono valori duplicati per la combinazione di indice e colonne.
* Syntax: `pivot_table(values='column_to_aggregate', index='row_index', columns='column_index', aggfunc='mean')`


In [19]:
df = pd.DataFrame({
    'Data': ['2024-01', '2024-01', '2024-01', '2024-02'],
    'Prodotto': ['A', 'A', 'B', 'B'],
    'Vendite': [100, 120, 150, 130]
})
df

Unnamed: 0,Data,Prodotto,Vendite
0,2024-01,A,100
1,2024-01,A,120
2,2024-01,B,150
3,2024-02,B,130


In [20]:
df.pivot(index='Data', columns='Prodotto', values='Vendite')

ValueError: Index contains duplicate entries, cannot reshape

In [21]:
df.pivot_table(index='Data', columns='Prodotto', values='Vendite', aggfunc='sum')

Prodotto,A,B
Data,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01,220.0,150.0
2024-02,,130.0


In [22]:
df.pivot_table(index='Prodotto', values='Vendite', aggfunc='sum')

Unnamed: 0_level_0,Vendite
Prodotto,Unnamed: 1_level_1
A,220
B,280


In [23]:
df.groupby('Prodotto')['Vendite'].sum()


Prodotto
A    220
B    280
Name: Vendite, dtype: int64

## Esempio
Contiamo quanti lavori per ogni tipo ci sono

In [26]:
df.pivot_table(index='Job_Title', aggfunc='size').sort_values(ascending=False)

Job_Title
Software Engineer                                                     311
Product Manager  Social app startup                                   282
Associate Product Manager  Social app startup                         277
2025 Virtual Summer Intern Program - Product Analyst Intern (Xome)    267
Real-Time Software Engineer                                           266
                                                                     ... 
Information Systems Security Engineer (ISSE) - GUAM                     1
Information Systems Security Engineer (ISSE -Mid Level)                 1
Information Systems Analyst (Onsite)                                    1
Information System Security Engineers                                   1
Information Systems Security Engineer III                               1
Length: 4848, dtype: int64

In [27]:
df.groupby('Job_Title').size().sort_values(ascending=False)

Job_Title
Software Engineer                                                     311
Product Manager  Social app startup                                   282
Associate Product Manager  Social app startup                         277
2025 Virtual Summer Intern Program - Product Analyst Intern (Xome)    267
Real-Time Software Engineer                                           266
                                                                     ... 
Information Systems Security Engineer (ISSE) - GUAM                     1
Information Systems Security Engineer (ISSE -Mid Level)                 1
Information Systems Analyst (Onsite)                                    1
Information System Security Engineers                                   1
Information Systems Security Engineer III                               1
Length: 4848, dtype: int64