# üêº Esercizi Pratici con Pandas

Esegui le operazioni richieste nelle celle di codice sottostanti.

### 1. Esplorazione Iniziale
* Visualizza le prime **5 righe** del DataFrame (`head()`).
* Mostra le informazioni generali (`info()`) per vedere i tipi di dati e dove mancano valori.
* Ottieni le statistiche descrittive (media, min, max, ecc.) solo per le colonne numeriche (`describe()`).

### 2. Pulizia e Accesso alle Colonne
* I nomi delle colonne hanno spazi (es. `'Product Name'`). Rinominali sostituendo gli spazi con underscore `_` (es. `'Product_Name'`) per facilitare l'accesso con la *dot notation*.
* Seleziona solo la colonna `Product_Name` e visualizzala.
* Seleziona le colonne `Category` e `Price` contemporaneamente.

### 3. Selezione con `iloc` e `loc`
* Usa `iloc` per selezionare la **terza riga** (quella del "Monitor").
* Usa `iloc` per selezionare le righe dalla **seconda alla quinta** (esclusa).
* Imposta la colonna `Product_ID` come indice del DataFrame (`df = df.set_index('Product_ID')`). Ora usa `loc` per selezionare il prodotto con **ID 105**.

### 4. Filtrare i Dati (Boolean Indexing)
* Trova tutti i prodotti che costano **pi√π di 100 euro**.
* Trova tutti i prodotti che appartengono alla categoria `'Accessories'`.
* **Condizione Multipla**: Trova i prodotti che sono `'Electronics'` **E** (`&`) hanno un Rating superiore a **4.5**.

### 5. Gestione Valori Mancanti (`notna`)
* Alcuni prodotti non hanno il prezzo (`Price` √® NaN). Filtra il DataFrame per mostrare solo le righe dove il `Price` **NON** √® nullo.
* Trova i prodotti che hanno un prezzo valido **MA** non hanno un rating (`Rating` √® nullo).

In [3]:
import pandas as pd
import numpy as np

data = {
    'Product_ID': [101, 102, 103, 104, 105, 106, 107, 108],
    'Product Name': ['Laptop', 'Mouse', 'Monitor', 'Keyboard', 'Smartphone', 'Tablet', 'Webcam', 'Headphones'],
    'Category': ['Electronics', 'Accessories', 'Electronics', 'Accessories', 'Electronics', 'Electronics', 'Accessories', 'Accessories'],
    'Price': [1200.50, 25.99, 300.00, 45.50, 800.00, None, 55.00, 89.90],
    'Stock Quantity': [50, 200, 30, 150, 80, 40, 0, 100],
    'Rating': [4.8, 4.2, 4.5, 4.0, 4.7, 4.3, 3.8, None]
}

df = pd.DataFrame(data)

In [34]:
#1
df.head()
df.info()
df.describe()
#2
df.columns=df.columns.str.replace(" ", "_")
df["Product_Name"]
df[["Category", "Price"]]
#3
df.iloc[2]
df.iloc[2:5]
df=df.set_index(df["Product_ID"])
df.loc[105]
#4
df[df["Price"]>100]
df[df["Category"]=="Accessories"]
df[(df["Category"]=="Electronics") & (df["Rating"]>4.5)]
#5
df[df["Price"].notna()]
df[(df["Price"].notna())&(df["Rating"].isna())]

<class 'pandas.core.frame.DataFrame'>
Index: 8 entries, 101 to 108
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Product_ID      8 non-null      int64  
 1   Product_Name    8 non-null      object 
 2   Category        8 non-null      object 
 3   Price           7 non-null      float64
 4   Stock_Quantity  8 non-null      int64  
 5   Rating          7 non-null      float64
dtypes: float64(2), int64(2), object(2)
memory usage: 748.0+ bytes


Unnamed: 0_level_0,Product_ID,Product_Name,Category,Price,Stock_Quantity,Rating
Product_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
108,108,Headphones,Accessories,89.9,100,


# üêº Esercizi di Pratica: Engineering Jobs Dataset

Utilizza il dataset `Engineering_Jobs_Insight_Dataset` gi√† visto a lezione. Assicurati di aver importato `pandas` e caricato i dati nella variabile `df`.

---

### üü¢ Esercizio 1: Caricamento e Pulizia Iniziale
1. **Rinomina le colonne**: Assicurati che tutte le colonne non abbiano spazi nei nomi (sostituiscili con `_`, es. "Job Title" -> "Job_Title").
2. **Controllo valori nulli**: Conta quanti dati mancanti (`NaN`) ci sono per ogni colonna.
3. **Eliminazione**: Se la colonna `URL` esiste, eliminala dal DataFrame per fare pulizia.

### üü° Esercizio 2: Filtri e Stringhe
1. **Normalizzazione**: Crea una copia della colonna `Job_Title` trasformando tutto il testo in minuscolo (lowercase).
2. **Filtro Avanzato**: Trova tutte le righe in cui il titolo di lavoro contiene la parola `"data"` **OPPURE** la parola `"analyst"`.
   * *Suggerimento: usa i metodi delle stringhe `.str.contains()` combinati con l'operatore logico `|` (OR).*
3. **Conteggio**: Quanti job posting soddisfano questo criterio?

### üü† Esercizio 3: Analisi Temporale
1. **Conversione**: Converti la colonna `Date_Posted` in formato `datetime` (se non lo √® gi√†).
2. **Feature Engineering**: Crea una nuova colonna chiamata `Month_Name` che contenga il nome del mese di pubblicazione (es. "January", "February").
3. **Analisi**: Qual √® il mese con il maggior numero di offerte di lavoro pubblicate? Usa `value_counts()` per scoprirlo.

### üî¥ Esercizio 4: Statistiche e Raggruppamenti (Groupby)
1. **Aggregazione**: Raggruppa i dati per `Job_Title`.
2. **Calcolo**: Per ogni titolo di lavoro, calcola:
   - Lo stipendio minimo **medio** (`Salary_Min`).
   - Il numero di offerte (il conteggio delle righe).
3. **Ordinamento**: Mostra i 5 lavori (`Job_Title`) con lo stipendio medio pi√π alto.
   * *Attenzione: potresti dover ordinare i valori in modo decrescente (`ascending=False`).*

---
**Bonus Challenge** üöÄ:
Prova a creare un filtro che selezioni solo i lavori "Senior" (che contengono la parola 'Senior' nel titolo) e che abbiano un `Salary_Min` superiore alla media generale di tutti gli stipendi del dataset.

In [None]:
import pandas as pd
from datasets import load_dataset
dataset=load_dataset("yiqing111/Engineering_Jobs_Insight_Dataset")
df=dataset["train"].to_pandas()
#sostituzione
df.columns=df.columns.str.replace(" ", "_")
#no url
df.drop("URL", axis=1, inplace=True)
#somma na
df.isna().sum()


In [27]:
#1
df["Job_Title2"]=df["Job_Title"].str.lower()
#2
df[df["Job_Title2"].str.contains("data|analyst")]
#3
len(df[df["Job_Title2"].str.contains("data|analyst")])
df.head()

Unnamed: 0,Job_Title,Company,Description,Location,Salary_Min,Salary_Max,Date_Posted,Job_Title2
0,Senior Software Engineer (Python),BP Energy,Entity: Trading & Shipping Job Family Group: S...,"Crestwood, Houston",138992.4,138992.4,2024-10-29T16:35:26Z,senior software engineer (python)
1,Sr. Backend Software Engineer,Meijer,"As a family company, we serve people and commu...","Belmont, Kent County",118638.8,118638.8,2024-11-10T01:13:11Z,sr. backend software engineer
2,Sr. Software Engineer - Mobile,Meijer,"As a family company, we serve people and commu...","Belmont, Kent County",108041.95,108041.95,2024-10-15T11:51:30Z,sr. software engineer - mobile
3,Acquisition Software Engineer,Naval Air Systems Command,Position Description The Harpoon/SLAM ER/JSOW ...,"China Lake, Kern County",88583.57,88583.57,2024-11-16T04:21:41Z,acquisition software engineer
4,Senior Software Engineer,Innova,A client of Innova Solutions is immediately hi...,"Richardson, Dallas",121932.35,121932.35,2024-11-15T09:42:55Z,senior software engineer


In [37]:
"""1. **Conversione**: Converti la colonna `Date_Posted` in formato `datetime` (se non lo √® gi√†).
2. **Feature Engineering**: Crea una nuova colonna chiamata `Month_Name` che contenga il nome del mese di pubblicazione (es. "January", "February").
3. **Analisi**: Qual √® il mese con il maggior numero di offerte di lavoro pubblicate? Usa `value_counts()` per scoprirlo.
"""
df["Date_Posted"]=pd.to_datetime(df["Date_Posted"])
df["Month_Name"]=df["Date_Posted"].dt.month_name()
df["Date_Posted"] = df["Date_Posted"].dt.date
df["Month_Name"].value_counts().idxmax()


'November'