In [None]:
# 9. PANDAS - Ripasso ed Esercizi

import pandas as pd
import numpy as np

## PARTE 1: RIPASSO (3 minuti)

### Series - Array 1D con indice

# Creazione
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
s3 = pd.Series({'Roma': 2.8, 'Milano': 1.4, 'Napoli': 0.9})

# Accesso
print(s2['b'])        # 20
print(s2[['a', 'c']]) # Selezione multipla
print(s2[s2 > 15])    # Filtraggio

### DataFrame - Tabella 2D

# Creazione da dizionario
data = {
    'Nome': ['Mario', 'Luigi', 'Anna', 'Paolo'],
    'Età': [25, 30, 28, 35],
    'Città': ['Roma', 'Milano', 'Napoli', 'Roma'],
    'Stipendio': [30000, 35000, 32000, 40000]
}
df = pd.DataFrame(data)

# Creazione da liste
df2 = pd.DataFrame([
    ['A', 10, 100],
    ['B', 20, 200],
    ['C', 30, 300]
], columns=['Cat', 'Val1', 'Val2'])

# Info base
print(df.shape)       # (4, 4)
print(df.columns)     # Index(['Nome', 'Età', 'Città', 'Stipendio'])
print(df.dtypes)      # Tipi di dati
print(df.info())      # Info complete
print(df.describe())  # Statistiche numeriche

### Selezione e indicizzazione

# Selezione colonne
print(df['Nome'])           # Series
print(df[['Nome', 'Età']]) # DataFrame

# Selezione righe
print(df.iloc[0])      # Prima riga per posizione
print(df.loc[0])       # Prima riga per indice
print(df.iloc[0:2])    # Prime due righe
print(df.iloc[:, 1:3]) # Colonne 1 e 2

# Selezione condizionale
print(df[df['Età'] > 28])                    # Righe con età > 28
print(df[(df['Età'] > 25) & (df['Città'] == 'Roma')])  # Condizioni multiple

### Operazioni comuni

# Ordinamento
df_sorted = df.sort_values('Età')
df_sorted_multi = df.sort_values(['Città', 'Età'], ascending=[True, False])

# Raggruppamento
grouped = df.groupby('Città')
print(grouped['Stipendio'].mean())  # Media stipendio per città
print(grouped.agg({
    'Età': 'mean',
    'Stipendio': ['mean', 'max', 'count']
}))

# Pivot table
pivot = df.pivot_table(
    values='Stipendio',
    index='Città',
    aggfunc=['mean', 'count']
)

### Gestione dati mancanti

# DataFrame con NaN
df_nan = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
})

# Controllo valori mancanti
print(df_nan.isna())      # Maschera booleana
print(df_nan.isna().sum()) # Conta NaN per colonna

# Gestione NaN
df_filled = df_nan.fillna(0)           # Riempi con 0
df_filled2 = df_nan.fillna(method='ffill')  # Forward fill
df_dropped = df_nan.dropna()           # Rimuovi righe con NaN
df_dropped2 = df_nan.dropna(axis=1)    # Rimuovi colonne con NaN

### Join e merge

# Merge
df_left = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['A', 'B', 'C']
})

df_right = pd.DataFrame({
    'ID': [2, 3, 4],
    'Valore': [20, 30, 40]
})

merged = pd.merge(df_left, df_right, on='ID', how='inner')  # Solo match
merged_left = pd.merge(df_left, df_right, on='ID', how='left')  # Tutti da left

# Concatenazione
df_concat = pd.concat([df1, df2], axis=0)  # Verticale
df_concat2 = pd.concat([df1, df2], axis=1) # Orizzontale

### Operazioni temporali

# Date
dates = pd.date_range('2024-01-01', periods=5, freq='D')
ts = pd.Series(np.random.randn(5), index=dates)

# Resampling
ts_monthly = ts.resample('M').mean()

In [None]:
## PARTE 2: ESERCIZI (4 minuti)

### Esercizio 1: Analisi vendite
# Analizza dati di vendite
def analizza_vendite(df_vendite):
    """
    Dato un DataFrame con colonne: Data, Prodotto, Quantità, Prezzo
    Restituisce dizionario con:
    - totale_vendite: somma totale
    - top_prodotto: prodotto più venduto
    - vendite_mensili: Serie con vendite per mese
    """
    # Il tuo codice qui:
    pass

# Test
vendite = pd.DataFrame({
    'Data': pd.date_range('2024-01-01', periods=20, freq='D'),
    'Prodotto': np.random.choice(['A', 'B', 'C'], 20),
    'Quantità': np.random.randint(1, 10, 20),
    'Prezzo': np.random.randint(10, 100, 20)
})
print(analizza_vendite(vendite))


### Esercizio 2: Pulizia dataset
# Pulisci e prepara dataset per analisi
def pulisci_dataset(df):
    """
    - Rimuovi duplicati
    - Gestisci valori mancanti (media per numerici, moda per categorici)
    - Rimuovi outlier (valori oltre 3 deviazioni standard)
    - Aggiungi colonna 'quality_score' basata su completezza dati originali
    """
    # Il tuo codice qui:
    pass

# Test
df_sporco = pd.DataFrame({
    'ID': [1, 2, 2, 3, 4, 5],
    'Valore': [10, 20, 20, 1000, 30, np.nan],
    'Categoria': ['A', 'B', 'B', np.nan, 'A', 'C']
})
df_pulito = pulisci_dataset(df_sporco)
print(df_pulito)


### Esercizio 3: Report aggregato
# Crea report complesso da dati grezzi
def crea_report(df_ordini):
    """
    df_ordini ha colonne: Cliente, Data, Prodotto, Quantità, Prezzo_unitario
    Crea report con:
    - Spesa totale per cliente
    - Prodotto preferito per cliente
    - Trend mensile ordini
    - Cliente VIP (top 20% spesa)
    """
    # Il tuo codice qui:
    pass

# Test
ordini = pd.DataFrame({
    'Cliente': np.random.choice(['Mario', 'Luigi', 'Anna'], 30),
    'Data': pd.date_range('2024-01-01', periods=30, freq='D'),
    'Prodotto': np.random.choice(['P1', 'P2', 'P3'], 30),
    'Quantità': np.random.randint(1, 5, 30),
    'Prezzo_unitario': np.random.randint(10, 50, 30)
})
report = crea_report(ordini)
print(report)


### Esercizio 4: Time series analysis
# Analisi serie temporale
def analizza_serie_temporale(serie, finestra=7):
    """
    Calcola:
    - Media mobile
    - Trend (crescente/decrescente/stabile)
    - Punti anomali (oltre 2 std dalla media mobile)
    """
    # Il tuo codice qui:
    pass

# Test
dates = pd.date_range('2024-01-01', periods=50, freq='D')
valori = np.cumsum(np.random.randn(50)) + 100
serie = pd.Series(valori, index=dates)
analisi = analizza_serie_temporale(serie)
print(analisi)

In [3]:
## SOLUZIONI

### Soluzione Esercizio 1:
def analizza_vendite(df_vendite):
    risultati = {}
    
    # Calcola vendite totali
    df_vendite['Totale'] = df_vendite['Quantità'] * df_vendite['Prezzo']
    risultati['totale_vendite'] = df_vendite['Totale'].sum()
    
    # Top prodotto per quantità venduta
    vendite_prodotto = df_vendite.groupby('Prodotto')['Quantità'].sum()
    risultati['top_prodotto'] = vendite_prodotto.idxmax()
    
    # Vendite mensili
    df_vendite['Mese'] = df_vendite['Data'].dt.to_period('M')
    vendite_mensili = df_vendite.groupby('Mese')['Totale'].sum()
    risultati['vendite_mensili'] = vendite_mensili
    
    return risultati

# Test
vendite = pd.DataFrame({
    'Data': pd.date_range('2024-01-01', periods=20, freq='D'),
    'Prodotto': np.random.choice(['A', 'B', 'C'], 20),
    'Quantità': np.random.randint(1, 10, 20),
    'Prezzo': np.random.randint(10, 100, 20)
})
print(analizza_vendite(vendite))

### Soluzione Esercizio 2:
def pulisci_dataset(df):
    df_copia = df.copy()
    
    # Calcola quality score prima di pulire
    completezza = df_copia.notna().sum(axis=1) / len(df_copia.columns)
    
    # Rimuovi duplicati
    df_copia = df_copia.drop_duplicates()
    
    # Gestisci valori mancanti
    for col in df_copia.columns:
        if df_copia[col].dtype in ['float64', 'int64']:
            # Media per numerici
            df_copia[col].fillna(df_copia[col].mean(), inplace=True)
        else:
            # Moda per categorici
            moda = df_copia[col].mode()
            if len(moda) > 0:
                df_copia[col].fillna(moda[0], inplace=True)
    
    # Rimuovi outlier da colonne numeriche
    for col in df_copia.select_dtypes(include=[np.number]).columns:
        mean = df_copia[col].mean()
        std = df_copia[col].std()
        df_copia = df_copia[np.abs(df_copia[col] - mean) <= 3 * std]
    
    # Aggiungi quality score
    df_copia['quality_score'] = completezza.loc[df_copia.index]
    
    return df_copia

# Test
df_sporco = pd.DataFrame({
    'ID': [1, 2, 2, 3, 4, 5],
    'Valore': [10, 20, 20, 1000, 30, np.nan],
    'Categoria': ['A', 'B', 'B', np.nan, 'A', 'C']
})
df_pulito = pulisci_dataset(df_sporco)
print(df_pulito)

### Soluzione Esercizio 3:
def crea_report(df_ordini):
    report = {}
    
    # Calcola totale per ordine
    df_ordini['Totale'] = df_ordini['Quantità'] * df_ordini['Prezzo_unitario']
    
    # Spesa totale per cliente
    spesa_cliente = df_ordini.groupby('Cliente')['Totale'].sum()
    report['spesa_per_cliente'] = spesa_cliente
    
    # Prodotto preferito per cliente (più acquistato)
    prodotto_preferito = df_ordini.groupby(['Cliente', 'Prodotto'])['Quantità'].sum()
    prodotto_preferito = prodotto_preferito.reset_index()
    idx = prodotto_preferito.groupby('Cliente')['Quantità'].idxmax()
    report['prodotto_preferito'] = prodotto_preferito.loc[idx][['Cliente', 'Prodotto']]
    
    # Trend mensile
    df_ordini['Mese'] = df_ordini['Data'].dt.to_period('M')
    trend_mensile = df_ordini.groupby('Mese').agg({
        'Totale': 'sum',
        'Cliente': 'nunique',
        'Prodotto': 'count'
    }).rename(columns={'Prodotto': 'n_ordini'})
    report['trend_mensile'] = trend_mensile
    
    # Clienti VIP (top 20%)
    threshold = spesa_cliente.quantile(0.8)
    clienti_vip = spesa_cliente[spesa_cliente >= threshold]
    report['clienti_vip'] = clienti_vip
    
    return report

# Test
ordini = pd.DataFrame({
    'Cliente': np.random.choice(['Mario', 'Luigi', 'Anna'], 30),
    'Data': pd.date_range('2024-01-01', periods=30, freq='D'),
    'Prodotto': np.random.choice(['P1', 'P2', 'P3'], 30),
    'Quantità': np.random.randint(1, 5, 30),
    'Prezzo_unitario': np.random.randint(10, 50, 30)
})
report = crea_report(ordini)
for k, v in report.items():
    print(f"\n{k}:")
    print(v)

### Soluzione Esercizio 4:
def analizza_serie_temporale(serie, finestra=7):
    risultati = {}
    
    # Media mobile
    media_mobile = serie.rolling(window=finestra, center=True).mean()
    risultati['media_mobile'] = media_mobile
    
    # Calcola trend
    # Regressione lineare semplice sui valori
    x = np.arange(len(serie))
    y = serie.values
    coefficiente = np.polyfit(x, y, 1)[0]
    
    if coefficiente > 0.1:
        trend = "crescente"
    elif coefficiente < -0.1:
        trend = "decrescente"
    else:
        trend = "stabile"
    
    risultati['trend'] = trend
    risultati['coefficiente_trend'] = coefficiente
    
    # Punti anomali
    std_mobile = serie.rolling(window=finestra, center=True).std()
    anomalie = np.abs(serie - media_mobile) > 2 * std_mobile
    punti_anomali = serie[anomalie]
    risultati['punti_anomali'] = punti_anomali
    
    return risultati

# Test
dates = pd.date_range('2024-01-01', periods=50, freq='D')
valori = np.cumsum(np.random.randn(50)) + 100
# Aggiungi alcuni outlier
valori[10] = valori[10] + 20
valori[30] = valori[30] - 15
serie = pd.Series(valori, index=dates)

analisi = analizza_serie_temporale(serie)
print(f"Trend: {analisi['trend']}")
print(f"Coefficiente trend: {analisi['coefficiente_trend']:.4f}")
print(f"Punti anomali trovati: {len(analisi['punti_anomali'])}")
print(analisi['punti_anomali'])

{'totale_vendite': np.int64(4835), 'top_prodotto': 'B', 'vendite_mensili': Mese
2024-01    4835
Freq: M, Name: Totale, dtype: int64}
   ID  Valore Categoria  quality_score
0   1    10.0         A       1.000000
1   2    20.0         B       1.000000
3   3  1000.0         A       0.666667
4   4    30.0         A       1.000000
5   5   265.0         C       0.666667

spesa_per_cliente:
Cliente
Anna      423
Luigi     569
Mario    1101
Name: Totale, dtype: int64

prodotto_preferito:
  Cliente Prodotto
0    Anna       P1
5   Luigi       P3
7   Mario       P3

trend_mensile:
         Totale  Cliente  n_ordini
Mese                              
2024-01    2093        3        30

clienti_vip:
Cliente
Mario    1101
Name: Totale, dtype: int64
Trend: stabile
Coefficiente trend: -0.0536
Punti anomali trovati: 2
2024-01-11    113.706363
2024-01-31     77.994890
dtype: float64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_copia[col].fillna(df_copia[col].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_copia[col].fillna(moda[0], inplace=True)
