# AQI-Predict: Air Quality Classification Project

**Notebook 01:** Data Loading and Initial Inspection

**Obiettivo:**
- Caricare il dataset da Kaggle
- Verificare dimensioni (righe, colonne)
- Vedere le prime righe
- Identificare le features disponibili

**Dataset:** Global Air Pollution Dataset (Kaggle)
**Samples:** ~23,000 | **Features:** 12 | **Target:** AQI Category (6 classi)


In [3]:
# =============================================================================
# IMPORT LIBRERIE
# =============================================================================

import pandas as pd
import numpy as np

# Configurazione per visualizzare più colonne in output
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

print("✓ Librerie importate con successo!")
print(f"  - pandas version: {pd.__version__}")
print(f"  - numpy version: {np.__version__}")


✓ Librerie importate con successo!
  - pandas version: 2.3.3
  - numpy version: 2.3.5


In [5]:
# =============================================================================
# CARICAMENTO DATASET
# =============================================================================

print("=" * 80)
print("CARICAMENTO DATASET")
print("=" * 80)

# Percorso del file CSV
# IMPORTANTE: Modifica questo se hai messo il CSV altrove
dataset_path = '../data/global_air_pollution_dataset.csv'

# Caricamento
print("\n[1/1] Lettura file CSV...")
df = pd.read_csv(dataset_path)

print(f"✓ Dataset caricato con successo!")
print(f"  → Dimensioni: {df.shape[0]:,} righe × {df.shape[1]} colonne")


CARICAMENTO DATASET

[1/1] Lettura file CSV...
✓ Dataset caricato con successo!
  → Dimensioni: 23,463 righe × 12 colonne


In [6]:
# =============================================================================
# INFORMAZIONI SUL DATASET
# =============================================================================

print("\n" + "=" * 80)
print("INFORMAZIONI SUL DATASET")
print("=" * 80)

# Info generale
print("\n1. INFO GENERALE:")
print(f"   • Memoria utilizzata: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"   • Tipo di dati: {df.dtypes.value_counts().to_dict()}")

# Nomi colonne
print("\n2. NOMI COLONNE:")
for i, col in enumerate(df.columns, start=1):
    print(f"   {i:2}. {col}")

# Valori mancanti
print("\n3. VALORI MANCANTI:")
missing = df.isnull().sum()
if missing.sum() == 0:
    print("   ✓ Nessun valore mancante!")
else:
    print(missing[missing > 0])



INFORMAZIONI SUL DATASET

1. INFO GENERALE:
   • Memoria utilizzata: 9.64 MB
   • Tipo di dati: {dtype('O'): 7, dtype('int64'): 5}

2. NOMI COLONNE:
    1. Country
    2. City
    3. AQI Value
    4. AQI Category
    5. CO AQI Value
    6. CO AQI Category
    7. Ozone AQI Value
    8. Ozone AQI Category
    9. NO2 AQI Value
   10. NO2 AQI Category
   11. PM2.5 AQI Value
   12. PM2.5 AQI Category

3. VALORI MANCANTI:
Country    427
City         1
dtype: int64


In [7]:
# =============================================================================
# ANTEPRIMA DATASET
# =============================================================================

print("\n" + "=" * 80)
print("PRIME 5 RIGHE DEL DATASET")
print("=" * 80)

df.head()



PRIME 5 RIGHE DEL DATASET


Unnamed: 0,Country,City,AQI Value,AQI Category,CO AQI Value,CO AQI Category,Ozone AQI Value,Ozone AQI Category,NO2 AQI Value,NO2 AQI Category,PM2.5 AQI Value,PM2.5 AQI Category
0,Russian Federation,Praskoveya,51,Moderate,1,Good,36,Good,0,Good,51,Moderate
1,Brazil,Presidente Dutra,41,Good,1,Good,5,Good,1,Good,41,Good
2,Italy,Priolo Gargallo,66,Moderate,1,Good,39,Good,2,Good,66,Moderate
3,Poland,Przasnysz,34,Good,1,Good,34,Good,0,Good,20,Good
4,France,Punaauia,22,Good,0,Good,22,Good,0,Good,6,Good


In [8]:
# =============================================================================
# DISTRIBUZIONE TARGET (AQI Category)
# =============================================================================

print("\n" + "=" * 80)
print("DISTRIBUZIONE CLASSI TARGET")
print("=" * 80)

# Conteggio per categoria
target_counts = df['AQI Category'].value_counts()
print("\nConteggio per categoria:")
print(target_counts)

# Percentuali
print("\nPercentuali:")
percentages = (target_counts / len(df) * 100).round(2)
for category, pct in percentages.items():
    print(f"  {category:35s}: {pct:5.2f}%")

print(f"\nTotale: {len(df):,} campioni")



DISTRIBUZIONE CLASSI TARGET

Conteggio per categoria:
AQI Category
Good                              9936
Moderate                          9231
Unhealthy                         2227
Unhealthy for Sensitive Groups    1591
Very Unhealthy                     287
Hazardous                          191
Name: count, dtype: int64

Percentuali:
  Good                               : 42.35%
  Moderate                           : 39.34%
  Unhealthy                          :  9.49%
  Unhealthy for Sensitive Groups     :  6.78%
  Very Unhealthy                     :  1.22%
  Hazardous                          :  0.81%

Totale: 23,463 campioni
