# Mini-Progetto: Analisi dei Dati di un Trasformatore Elettrico
---

 ### Passaggio 1: Caricamento e Ispezione dei Dati
 Il primo passo è sempre caricare i dati e farsi un'idea di come sono fatti.

In [237]:
# 1a. Importa la libreria Pandas (e NumPy, è una buona pratica averlo sempre a disposizione)
import pandas as pd
import numpy as np


# 1b. Carica il file `ETTh1.csv` in un DataFrame chiamato `df`.
# Assicurati che il file CSV si trovi nella stessa cartella del tuo notebook,
# altrimenti fornisci il percorso corretto.
print("Caricamento dati...")
try:
    ETTh_df = pd.read_csv('../Databases/ETTh1.csv')
    print('Caricamento eseguito correttamente')
except FileNotFoundError:
    print('Errore: File non trovato')

# 1c. Visualizza le prime 5 righe del DataFrame per vedere come sono i dati.
print("\nPrime 5 righe del DataFrame:")
print(ETTh_df.head())


# 1d. Controlla i tipi di dati di ogni colonna con l'attributo `.dtypes`.
# Fai particolare attenzione alla colonna `date`.
print("\nTipi di dati delle colonne:")
print(ETTh_df.dtypes)


Caricamento dati...
Caricamento eseguito correttamente

Prime 5 righe del DataFrame:
                  date   HUFL   HULL   MUFL   MULL   LUFL   LULL         OT
0  2016-07-01 00:00:00  5.827  2.009  1.599  0.462  4.203  1.340  30.531000
1  2016-07-01 01:00:00  5.693  2.076  1.492  0.426  4.142  1.371  27.787001
2  2016-07-01 02:00:00  5.157  1.741  1.279  0.355  3.777  1.218  27.787001
3  2016-07-01 03:00:00  5.090  1.942  1.279  0.391  3.807  1.279  25.044001
4  2016-07-01 04:00:00  5.358  1.942  1.492  0.462  3.868  1.279  21.948000

Tipi di dati delle colonne:
date     object
HUFL    float64
HULL    float64
MUFL    float64
MULL    float64
LUFL    float64
LULL    float64
OT      float64
dtype: object


 ---
 ### Passaggio 2: Lavorare con le Date
 La colonna `date` è di tipo 'object' (stringa). Dobbiamo convertirla in un
 formato datetime e impostarla come indice del DataFrame per poterla usare al meglio.

In [238]:
# 2a. Usa `pd.to_datetime()` per convertire la colonna `date` e sovrascrivila.
print("\nConversione della colonna 'date'...")
# Ho preso la colonna ETTh_df dal dataframe e l'ho convertita
ETTh_df['date'] = pd.to_datetime(ETTh_df['date'])

# 2b. Imposta la colonna `date` (ora convertita) come nuovo indice del DataFrame.
# Usa il metodo `.set_index()`. Ricorda di riassegnare il risultato a df
# (es. df = df.set_index(...))
ETTh_df = ETTh_df.set_index('date')


# 2c. Controlla di nuovo le prime 5 righe per vedere il nuovo indice.
print("\nDataFrame con indice Datetime:")
print(ETTh_df.head())



Conversione della colonna 'date'...

DataFrame con indice Datetime:
                      HUFL   HULL   MUFL   MULL   LUFL   LULL         OT
date                                                                    
2016-07-01 00:00:00  5.827  2.009  1.599  0.462  4.203  1.340  30.531000
2016-07-01 01:00:00  5.693  2.076  1.492  0.426  4.142  1.371  27.787001
2016-07-01 02:00:00  5.157  1.741  1.279  0.355  3.777  1.218  27.787001
2016-07-01 03:00:00  5.090  1.942  1.279  0.391  3.807  1.279  25.044001
2016-07-01 04:00:00  5.358  1.942  1.492  0.462  3.868  1.279  21.948000


---
### Passaggio 3: Selezionare e Filtrare i Dati
Ora che hai un indice temporale, puoi selezionare i dati in modo molto intuitivo.
Usa `.loc` per la selezione.

In [239]:
# 3a. Seleziona tutti i dati registrati durante il giorno del 4 luglio 2017.
# La sintassi per un giorno intero è 'AAAA-MM-GG'.
print("\nDati del 4 Luglio 2017:")
Dati_04062017 = ETTh_df.loc['2017-07-04'] # Ho selezionato i dati registrati durante il giorno del 4 luglio 2017

print(Dati_04062017)


# 3b. Seleziona tutti i dati dal 1° gennaio 2018 al 7 gennaio 2018.
# La sintassi per un intervallo è 'Inizio':'Fine'.
print("\nDati dal 1 al 7 Gennaio 2018:")

Range_Dati = ETTh_df.loc['2018-01-01':'2018-01-07']

print(Range_Dati)
# 3c. Per lo stesso intervallo (1-7 gennaio 2018), seleziona solo le colonne 'OT' e 'HUFL'.
# Ricorda la sintassi: df.loc[selezione_righe, selezione_colonne]
print("\nColonne 'OT' e 'HUFL' per l'intervallo selezionato:")

Colonne = ETTh_df.loc['2018-01-01':'2018-01-07',['OT','HUFL']]
print(Colonne)





Dati del 4 Luglio 2017:
                       HUFL   HULL    MUFL   MULL   LUFL   LULL         OT
date                                                                      
2017-07-04 00:00:00   9.310  1.875   6.716  1.954  2.345 -0.792  19.697001
2017-07-04 01:00:00  11.922  3.014   9.488  2.985  2.254 -0.883  19.837999
2017-07-04 02:00:00  10.717  2.478   8.635  2.416  2.163 -0.822  19.979000
2017-07-04 03:00:00  11.052  2.679   8.848  3.127  1.949 -0.944  19.486000
2017-07-04 04:00:00   9.712  2.076   7.747  2.381  2.132 -0.883  19.416000
2017-07-04 05:00:00  12.391  2.679   9.488  2.985  2.589 -0.914  19.556000
2017-07-04 06:00:00  10.784  1.072   8.599  1.954  3.107 -0.670  19.627001
2017-07-04 07:00:00   5.425  1.541   2.630  2.345  2.894 -0.670  19.697001
2017-07-04 08:00:00   1.608  1.875  -1.102  2.239  2.863 -0.579  19.837999
2017-07-04 09:00:00  -1.674  3.684  -5.188  4.015  3.107 -0.487  19.486000
2017-07-04 10:00:00  -5.090  5.425  -8.635  4.655  3.777 -0.335  18.783001


---
 ### Passaggio 4: Aggregazione con `resample`
 Vogliamo capire l'andamento della temperatura dell'olio (`OT`) nel tempo. I dati orari sono troppi, quindi li aggreghiamo su base mensile per vedere  le tendenze generali.

In [240]:

# 4a. Usa il metodo `.resample()` per ricampionare i dati a una frequenza mensile ('M').
# 4b. Dopo aver ricampionato, concatena il metodo per calcolare la media (`.mean()`).
# Salva il risultato in un nuovo DataFrame chiamato `df_mensile`.
print("\nCalcolo delle medie mensili...")
df_mensile = ETTh_df.resample('ME').mean()
print(df_mensile)




Calcolo delle medie mensili...
                 HUFL      HULL      MUFL      MULL      LUFL      LULL  \
date                                                                      
2016-07-31  11.898030  3.371097  8.166032  1.311102  3.634074  1.392845   
2016-08-31  12.926876  4.886579  9.137215  2.931968  3.733403  1.211571   
2016-09-30   9.001442  4.097885  6.455868  2.597644  2.448667  0.998443   
2016-10-31   8.649157  2.882551  6.228013  2.105117  2.336862  0.340624   
2016-11-30   9.164901  2.861357  6.663515  2.384004  2.426375  0.010433   
2016-12-31   9.108710  1.086004  6.537895 -0.192374  2.509882  0.830376   
2017-01-31   8.970093 -0.273137  6.096625 -1.589577  2.821743  0.734784   
2017-02-28   7.200943 -0.294778  4.219829 -1.535866  2.922802  0.775558   
2017-03-31   6.586116  0.508903  3.834660 -0.890767  2.682321  0.962700   
2017-04-30   3.928565  0.844778  1.309811 -0.632497  2.539158  1.045629   
2017-05-31   2.421610  2.152603 -0.291628  0.783901  2.616960  1.062

---
### Passaggio 5: Trovare il Mese più Caldo
Ora che hai la media mensile della temperatura dell'olio (`OT`), rispondi a questa domanda:
Qual è stato il mese con la temperatura media dell'olio (`OT`) più alta?



In [241]:
# 5a. Seleziona la colonna 'OT' dal tuo DataFrame mensile `df_mensile`.
# 5b. Usa il metodo `.idxmax()` per trovare l'indice (in questo caso, il mese) del valore massimo.
print("\nRicerca del mese più caldo...")
mese_caldo = df_mensile['OT']  # oppure df_mensile.loc[:,'OT']
mese_caldo = mese_caldo.idxmax()
print('Mese più caldo : ', mese_caldo)


Ricerca del mese più caldo...
Mese più caldo :  2016-07-31 00:00:00


# Mini-Progetto: Analisi dei Dati Fittizi
---

## Creazione Database Fittizio

In [242]:
# Impostiamo un seed per la riproducibilità
np.random.seed(42)

# --- Creazione del DataFrame Clienti ---
num_clienti = 200
clienti_data = {
    'ID_Cliente': range(1, num_clienti + 1),
    'Nome': [f'Cliente_{i}' for i in range(1, num_clienti + 1)],
    'Citta': np.random.choice(['Roma', 'Milano', 'Napoli', 'Torino', 'Bologna'], num_clienti),
    'Data_Iscrizione': pd.to_datetime(np.random.choice(pd.date_range('2022-01-01', '2023-12-31'), num_clienti)).date
}
clienti_df = pd.DataFrame(clienti_data)

# --- Creazione del DataFrame Prodotti ---
num_prodotti = 50
prodotti_data = {
    'ID_Prodotto': range(1, num_prodotti + 1),
    'Nome_Prodotto': [f'Prodotto_{i}' for i in range(1, num_prodotti + 1)],
    'Categoria': np.random.choice(['Elettronica', 'Abbigliamento', 'Casa', 'Alimentari'], num_prodotti),
    'Prezzo': np.round(np.random.uniform(5.0, 500.0, num_prodotti), 2)
}
prodotti_df = pd.DataFrame(prodotti_data)

# --- Creazione del DataFrame Ordini ---
num_ordini = 1000
ordini_data = {
    'ID_Ordine': range(1, num_ordini + 1),
    'ID_Cliente': np.random.randint(1, num_clienti + 1, num_ordini),
    'Data_Ordine': pd.to_datetime(np.random.choice(pd.date_range('2024-01-01', '2024-06-30'), num_ordini)),
    'Stato': np.random.choice(['Spedito', 'In attesa', 'Annullato'], num_ordini, p=[0.7, 0.2, 0.1])
}
ordini_df = pd.DataFrame(ordini_data)

# --- Creazione del DataFrame Dettagli Ordine ---
num_dettagli = 2500
dettagli_data = {
    'ID_Dettaglio': range(1, num_dettagli + 1),
    'ID_Ordine': np.random.randint(1, num_ordini + 1, num_dettagli),
    'ID_Prodotto': np.random.randint(1, num_prodotti + 1, num_dettagli),
    'Quantita': np.random.randint(1, 6, num_dettagli)
}
dettagli_ordine_df = pd.DataFrame(dettagli_data)

# Calcolo del Totale Ordine e aggiunta a ordini_df
# (Questo richiede un merge, quindi lo facciamo qui per preparare i dati)
dettagli_con_prezzo = pd.merge(dettagli_ordine_df, prodotti_df[['ID_Prodotto', 'Prezzo']], on='ID_Prodotto')
dettagli_con_prezzo['Subtotale'] = dettagli_con_prezzo['Quantita'] * dettagli_con_prezzo['Prezzo']
totali_ordine = dettagli_con_prezzo.groupby('ID_Ordine')['Subtotale'].sum().round(2)

ordini_df = pd.merge(ordini_df, totali_ordine.rename('Totale_Ordine'), on='ID_Ordine', how='left')

# Introduciamo qualche valore mancante per esercizio
num_mancanti = 50
indici_mancanti = np.random.choice(ordini_df.index, num_mancanti, replace=False)
ordini_df.loc[indici_mancanti, 'Totale_Ordine'] = np.nan

# Salvataggio in file CSV
clienti_df.to_csv('clienti.csv', index=False)
prodotti_df.to_csv('prodotti.csv', index=False)
ordini_df.to_csv('ordini.csv', index=False)
dettagli_ordine_df.to_csv('dettagli_ordine.csv', index=False)

print("Database fittizio creato con successo! I file sono pronti.")

Database fittizio creato con successo! I file sono pronti.


## Sezione 1: Caricamento e Ispezione (Facile)

1. [X] Carica ordini.csv in un DataFrame chiamato ordini.
2. [X] Mostra le prime 10 righe di ordini.
3. [X] Usa .info() per ottenere un riepilogo del DataFrame ordini.
4. [X] Usa .describe() per ottenere le statistiche descrittive delle colonne numeriche di ordini.
5. [X] Conta quanti ordini ci sono per ogni Stato usando .value_counts().

In [243]:
# Punto 1
try:
    ordini = pd.read_csv('../Databases/ordini.csv')
    print("Ordini.csv Caricato Correttamente!")
except FileNotFoundError:
    print("File non trovato!")
# Punto 2
print("--- Prime 10 righe del file ordini.csv ---")
print(ordini.head(10))
# Punto 3
print('--- Riepilogo del DataFrame ordini ---')
print(ordini.info())
# Putno 4
print('--- Statistiche descrittive del DataFrame ordini ---')
print(ordini.describe())
# Punto 5
print('--- Conteggio ordini per ogni stato ---')
print(ordini['Stato'].value_counts())


Ordini.csv Caricato Correttamente!
--- Prime 10 righe del file ordini.csv ---
   ID_Ordine  ID_Cliente Data_Ordine      Stato  Totale_Ordine
0          1         164  2024-03-22    Spedito         165.18
1          2         138  2024-04-25    Spedito        2343.20
2          3         101  2024-06-15    Spedito        3220.38
3          4         152  2024-05-25    Spedito        3363.24
4          5         192  2024-04-12  In attesa        4123.43
5          6         177  2024-01-17    Spedito        5362.72
6          7          99  2024-01-14    Spedito        2185.96
7          8          36  2024-06-07    Spedito        1339.05
8          9          96  2024-05-31    Spedito            NaN
9         10         152  2024-04-17    Spedito        1052.65
--- Riepilogo del DataFrame ordini ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----

## Sezione 2: Pulizia e Preparazione (Facile-Medio)

1. [X] Converti la colonna Data_Ordine del DataFrame ordini in formato datetime.
2. [X] Imposta la colonna Data_Ordine come indice del DataFrame ordini.
3. [X] Scopri quanti valori mancanti (NaN) ci sono nella colonna Totale_Ordine.
4. [X] Sostituisci i valori NaN in Totale_Ordine con la media dei totali di tutti gli altri ordini.
5. [X] Crea una nuova colonna in ordini chiamata IVA che contenga il 22% del Totale_Ordine.
6. [X] Carica clienti.csv in un DataFrame clienti.
7. [X] Carica prodotti.csv in un DataFrame prodotti.
8. [X] Carica dettagli_ordine.csv in un DataFrame dettagli.
9. [X] Verifica se ci sono ID_Cliente duplicati nel DataFrame clienti.
10. [X] Rinomina la colonna Citta in clienti in Città_Cliente.

In [244]:
# Punto 1
print("---Conversione della colonna 'Data_Ordine'---")
ordini['Data_Ordine'] = pd.to_datetime(ordini['Data_Ordine'])
print('Conversione Effettuata')

---Conversione della colonna 'Data_Ordine'---
Conversione Effettuata


In [245]:
# Punto 2
print(" --- Impostazione colonna Data_Ordine come indice")
ordini = ordini.set_index('Data_Ordine')
print(ordini)

 --- Impostazione colonna Data_Ordine come indice
             ID_Ordine  ID_Cliente      Stato  Totale_Ordine
Data_Ordine                                                 
2024-03-22           1         164    Spedito         165.18
2024-04-25           2         138    Spedito        2343.20
2024-06-15           3         101    Spedito        3220.38
2024-05-25           4         152    Spedito        3363.24
2024-04-12           5         192  In attesa        4123.43
...                ...         ...        ...            ...
2024-05-05         996         137    Spedito          12.58
2024-01-11         997         115    Spedito        1644.88
2024-06-26         998         176    Spedito         979.92
2024-06-07         999          72    Spedito        1918.28
2024-02-25        1000          59    Spedito        1135.03

[1000 rows x 4 columns]


In [246]:
# Punto 3
print('--- Osservazione valori mancanti (NAN) nella colonna Totale_Ordine')
print(ordini['Totale_Ordine'].isnull().sum())


--- Osservazione valori mancanti (NAN) nella colonna Totale_Ordine
136


In [247]:
# Punto 4
print('--- Sostituzione dei valori nulli con la media dei totali di tutti gli altri ordini ---')
ordini['Totale_Ordine'] = ordini['Totale_Ordine'].fillna(ordini['Totale_Ordine'].mean())

print('Numero di valori nulli rimasti:', ordini['Totale_Ordine'].isnull().sum())

--- Sostituzione dei valori nulli con la media dei totali di tutti gli altri ordini ---
Numero di valori nulli rimasti: 0


In [248]:
# Punto 5
print('--- Creazione nuova colonna chiamata IVA settata al 22% ---')
ordini['IVA'] = ordini['Totale_Ordine']*0.22
print(ordini['IVA'])

--- Creazione nuova colonna chiamata IVA settata al 22% ---
Data_Ordine
2024-03-22     36.3396
2024-04-25    515.5040
2024-06-15    708.4836
2024-05-25    739.9128
2024-04-12    907.1546
                ...   
2024-05-05      2.7676
2024-01-11    361.8736
2024-06-26    215.5824
2024-06-07    422.0216
2024-02-25    249.7066
Name: IVA, Length: 1000, dtype: float64


In [249]:
#Punto 6
try:
    clienti = pd.read_csv('../Databases/clienti.csv')
    print('clienti.csv caricato correttamente')
except FileNotFoundError:
    print('File non trovato')

clienti.csv caricato correttamente


In [250]:
#Punto 7
try:
    prodotti = pd.read_csv('../Databases/prodotti.csv')
    print('prodotti.csv caricato correttamente')
except FileNotFoundError:
    print('File non trovato')

prodotti.csv caricato correttamente


In [251]:
#Punto 8
try:
    dettagli = pd.read_csv('../Databases/dettagli_ordine.csv')
    print('dettagli_ordine.csv caricato correttamente')
except FileNotFoundError:
    print('File non trovato')

dettagli_ordine.csv caricato correttamente


In [252]:
# Punto 9
print('Controllo se ci sono ID_Cliente duplicati nel Dataframe clienti')
if clienti['ID_Cliente'].duplicated().sum() == 0:
    print('Non ci sono duplicati')
else:
    print('Ci sono duplicati')

Controllo se ci sono ID_Cliente duplicati nel Dataframe clienti
Non ci sono duplicati


In [253]:
# Punto 10
print('--- Rinomino la colonna Città in clienti in Città_Clienti ---')
clienti = clienti.rename(columns = {'Citta': 'Città_Cliente'})
print(clienti['Città_Cliente'])

--- Rinomino la colonna Città in clienti in Città_Clienti ---
0       Torino
1      Bologna
2       Napoli
3      Bologna
4      Bologna
        ...   
195     Napoli
196     Napoli
197       Roma
198    Bologna
199     Torino
Name: Città_Cliente, Length: 200, dtype: object


## Sezione 3: Selezione e Filtro (Medio)
1. [X] Seleziona tutti gli ordini con Stato uguale a 'Annullato'.
2. [X] Seleziona tutti gli ordini con un Totale_Ordine superiore a 1000€.
3. [X] Seleziona gli ordini 'Spedito' con un totale superiore a 500€.
4. [X] Seleziona tutti gli ordini effettuati nella prima settimana di marzo 2024.
5. [X] Usa .iloc per selezionare le prime 50 righe e le prime 3 colonne di ordini.
6. [X] Usa .loc per trovare il Totale_Ordine dell'ordine con ID_Ordine uguale a 100.
7. [X] Carica clienti.csv e ordini.csv. Seleziona tutti gli ordini dei clienti di 'Roma'. (Richiede un merge, vedi Sezione 4).
8. [X] Seleziona tutti i prodotti della categoria 'Elettronica'.
9. [X] Seleziona tutti gli ordini che non sono nello stato 'In attesa'.
10. [X] Seleziona tutti gli ordini effettuati di lunedì.

In [254]:
# Punto 1
print("--- Selezione degli ordini che hanno stato = a annullato ---")
ordini_annullati = ordini.loc[ordini['Stato'] == 'Annullato'] #
print(ordini_annullati)

--- Selezione degli ordini che hanno stato = a annullato ---
             ID_Ordine  ID_Cliente      Stato  Totale_Ordine          IVA
Data_Ordine                                                              
2024-01-16          26         112  Annullato    1694.480000   372.785600
2024-06-21          55          57  Annullato    2169.558102   477.302782
2024-03-08          59          42  Annullato    6733.320000  1481.330400
2024-06-24          63         122  Annullato    2329.770000   512.549400
2024-02-08          75         141  Annullato     173.610000    38.194200
...                ...         ...        ...            ...          ...
2024-02-02         950         102  Annullato    2169.558102   477.302782
2024-01-14         953          19  Annullato    3915.200000   861.344000
2024-05-28         967          83  Annullato    2169.558102   477.302782
2024-03-08         970          81  Annullato    1170.100000   257.422000
2024-05-07         974          25  Annullato    35

In [255]:
# Punto 2
print("--- Selezione degli ordini con un totale_ordine > 1000")
ordini_maggiori_di_mille = ordini.loc[ordini['Totale_Ordine']>=1000]
print(ordini_maggiori_di_mille)

--- Selezione degli ordini con un totale_ordine > 1000
             ID_Ordine  ID_Cliente      Stato  Totale_Ordine        IVA
Data_Ordine                                                            
2024-04-25           2         138    Spedito        2343.20   515.5040
2024-06-15           3         101    Spedito        3220.38   708.4836
2024-05-25           4         152    Spedito        3363.24   739.9128
2024-04-12           5         192  In attesa        4123.43   907.1546
2024-01-17           6         177    Spedito        5362.72  1179.7984
...                ...         ...        ...            ...        ...
2024-06-10         992          14    Spedito        2182.20   480.0840
2024-03-29         994         117  In attesa        1673.09   368.0798
2024-01-11         997         115    Spedito        1644.88   361.8736
2024-06-07         999          72    Spedito        1918.28   422.0216
2024-02-25        1000          59    Spedito        1135.03   249.7066

[767 row

In [256]:
# Punto 3
print("--- Selezione degli ordini con un totale_ordine > 500 e stato = 'Spedito")
ordini_maggiori_di_cinquecento_e_spedito = ordini.loc[(ordini['Totale_Ordine']>=500) & (ordini['Stato'] == 'Spedito')] # NON VA END MA VA & PER AND LOGICO
print(ordini_maggiori_di_cinquecento_e_spedito)

--- Selezione degli ordini con un totale_ordine > 500 e stato = 'Spedito
             ID_Ordine  ID_Cliente    Stato  Totale_Ordine        IVA
Data_Ordine                                                          
2024-04-25           2         138  Spedito        2343.20   515.5040
2024-06-15           3         101  Spedito        3220.38   708.4836
2024-05-25           4         152  Spedito        3363.24   739.9128
2024-01-17           6         177  Spedito        5362.72  1179.7984
2024-01-14           7          99  Spedito        2185.96   480.9112
...                ...         ...      ...            ...        ...
2024-05-09         995           7  Spedito         540.59   118.9298
2024-01-11         997         115  Spedito        1644.88   361.8736
2024-06-26         998         176  Spedito         979.92   215.5824
2024-06-07         999          72  Spedito        1918.28   422.0216
2024-02-25        1000          59  Spedito        1135.03   249.7066

[616 rows x 5 co

In [257]:
# Punto 4
print("--- Selezione degli ordini effettuati nella prima metà settimana di marzo ---")
ordini = ordini.sort_index() # PER ORDINARE IL DATASET -> IMPORTANTE ALTRIMENTI NON FUNZIONA
ordini_eseguiti = ordini.loc['2024-03-01':'2024-03-07']
print(ordini_eseguiti)

--- Selezione degli ordini effettuati nella prima metà settimana di marzo ---
             ID_Ordine  ID_Cliente      Stato  Totale_Ordine          IVA
Data_Ordine                                                              
2024-03-01         109         195    Spedito    2876.830000   632.902600
2024-03-01          72         145    Spedito    3864.010000   850.082200
2024-03-01         384          18  In attesa    2111.320000   464.490400
2024-03-02         156           3    Spedito    3130.490000   688.707800
2024-03-02          43         111    Spedito    2169.558102   477.302782
2024-03-02         400          25  In attesa    4838.730000  1064.520600
2024-03-02         398         145  In attesa    2169.558102   477.302782
2024-03-02         498          13    Spedito     253.010000    55.662200
2024-03-02          80          27    Spedito    2169.558102   477.302782
2024-03-02         114         148    Spedito    1798.410000   395.650200
2024-03-03         625          36

In [258]:
# Punto 5
print('--- Prime 50 righe e 3 colonne degli ordini ---')
print(ordini.iloc[:50,:3])

--- Prime 50 righe e 3 colonne degli ordini ---
             ID_Ordine  ID_Cliente      Stato
Data_Ordine                                  
2024-01-01         529         150    Spedito
2024-01-01         616          47  In attesa
2024-01-01         560         166  Annullato
2024-01-01         534          11    Spedito
2024-01-01         281         191    Spedito
2024-01-02         804         165    Spedito
2024-01-02         725         199    Spedito
2024-01-02         492          10  Annullato
2024-01-02         364          99    Spedito
2024-01-02         907          36    Spedito
2024-01-02         201          33    Spedito
2024-01-02         855          25    Spedito
2024-01-03          97          70    Spedito
2024-01-03          54         144    Spedito
2024-01-03         671         149    Spedito
2024-01-03         850         115  In attesa
2024-01-03         879          76  In attesa
2024-01-03         116          61  Annullato
2024-01-03         411         1

In [259]:
# Punto 6
print("--- Dobbiamo trovare il Totale_Ordine dell'ordine con ID_Ordine uguale a 100 --- ")
# Trova la riga dove ID_Ordine è 100 e seleziona solo la colonna 'Totale_Ordine'
totale_ordine_100 = ordini.loc[ordini['ID_Ordine'] == 100, 'Totale_Ordine']
print(totale_ordine_100)

--- Dobbiamo trovare il Totale_Ordine dell'ordine con ID_Ordine uguale a 100 --- 
Data_Ordine
2024-01-05    2219.55
Name: Totale_Ordine, dtype: float64


In [260]:
# Punto 7
print('--- Creazione DataFrame mergato con Clienti e Ordini')
df_merge = pd.merge(clienti,ordini, on='ID_Cliente', how = 'left')
print(df_merge)
print('--- Ricerca ordini con Città_Cliente = Roma ')
ordini_roma = df_merge.loc[df_merge['Città_Cliente'] == 'Roma']
print(ordini_roma)

--- Creazione DataFrame mergato con Clienti e Ordini
      ID_Cliente         Nome Città_Cliente Data_Iscrizione  ID_Ordine  \
0              1    Cliente_1        Torino      2023-09-02      236.0   
1              1    Cliente_1        Torino      2023-09-02      668.0   
2              1    Cliente_1        Torino      2023-09-02      526.0   
3              1    Cliente_1        Torino      2023-09-02      152.0   
4              1    Cliente_1        Torino      2023-09-02      677.0   
...          ...          ...           ...             ...        ...   
996          200  Cliente_200        Torino      2023-08-27      973.0   
997          200  Cliente_200        Torino      2023-08-27      579.0   
998          200  Cliente_200        Torino      2023-08-27      162.0   
999          200  Cliente_200        Torino      2023-08-27      636.0   
1000         200  Cliente_200        Torino      2023-08-27      115.0   

          Stato  Totale_Ordine         IVA  
0     In atte

In [261]:
# Punto 8
print('Selezione di tutti i prodotti di categoria Elettronica')
cat_elettronica = prodotti.loc[prodotti['Categoria'] =='Elettronica']
print(cat_elettronica)

Selezione di tutti i prodotti di categoria Elettronica
    ID_Prodotto Nome_Prodotto    Categoria  Prezzo
3             4    Prodotto_4  Elettronica   13.49
5             6    Prodotto_6  Elettronica  404.42
9            10   Prodotto_10  Elettronica   28.79
11           12   Prodotto_12  Elettronica  443.91
12           13   Prodotto_13  Elettronica  134.14
15           16   Prodotto_16  Elettronica  253.01
22           23   Prodotto_23  Elettronica  320.02
24           25   Prodotto_25  Elettronica  340.20
25           26   Prodotto_26  Elettronica  288.82
26           27   Prodotto_27  Elettronica   68.61
28           29   Prodotto_29  Elettronica  411.22
32           33   Prodotto_33  Elettronica  107.31
34           35   Prodotto_35  Elettronica  111.22
41           42   Prodotto_42  Elettronica  342.40
43           44   Prodotto_44  Elettronica  134.04
44           45   Prodotto_45  Elettronica  250.54
47           48   Prodotto_48  Elettronica  468.64
49           50   Prodotto_

In [262]:
# Punto 9
print('--- Ordini che non hanno stato in attesa ---')
ordini_non_attesa = ordini.loc[ordini['Stato'] != 'In attesa']
print(ordini_non_attesa)

--- Ordini che non hanno stato in attesa ---
             ID_Ordine  ID_Cliente      Stato  Totale_Ordine        IVA
Data_Ordine                                                            
2024-01-01         529         150    Spedito        1228.79   270.3338
2024-01-01         560         166  Annullato        5272.04  1159.8488
2024-01-01         534          11    Spedito        3144.33   691.7526
2024-01-01         281         191    Spedito        1059.40   233.0680
2024-01-02         804         165    Spedito        2117.73   465.9006
...                ...         ...        ...            ...        ...
2024-06-29         569         104    Spedito        4231.60   930.9520
2024-06-29         309          80    Spedito        2407.20   529.5840
2024-06-29          64         133    Spedito         557.10   122.5620
2024-06-29         180         155    Spedito        3712.09   816.6598
2024-06-30         445          31    Spedito        1920.45   422.4990

[783 rows x 5 colu

In [263]:
# Punto 10
print("--- Selezione degli ordini effettuati di lunedì ---")
# .dt.dayofweek restituisce un numero da 0 (lunedì) a 6 (domenica)
ordini_lunedi = ordini[ordini.index.dayofweek == 0]
print(ordini_lunedi)

--- Selezione degli ordini effettuati di lunedì ---
             ID_Ordine  ID_Cliente      Stato  Totale_Ordine        IVA
Data_Ordine                                                            
2024-01-01         529         150    Spedito        1228.79   270.3338
2024-01-01         616          47  In attesa        3495.47   769.0034
2024-01-01         560         166  Annullato        5272.04  1159.8488
2024-01-01         534          11    Spedito        3144.33   691.7526
2024-01-01         281         191    Spedito        1059.40   233.0680
...                ...         ...        ...            ...        ...
2024-06-24         794         162    Spedito        3491.31   768.0882
2024-06-24         630         148    Spedito        4087.24   899.1928
2024-06-24         150         143  In attesa        1354.33   297.9526
2024-06-24         323          93    Spedito         434.26    95.5372
2024-06-24          63         122  Annullato        2329.77   512.5494

[133 rows x

## Sezione 4: Combinazione di Dati (Medio-Difficile)
1. [X] Unisci i DataFrame ordini e clienti in un nuovo DataFrame ordini_clienti.
2. [X] Unisci ordini_clienti con dettagli per aggiungere i dettagli di ogni ordine.
3. [X] Completa l'unione aggiungendo le informazioni dei prodotti al DataFrame precedente.
4. [X] Trova i clienti che non hanno mai effettuato un ordine.
5. [X] Trova i prodotti che non sono mai stati venduti.
6. [X] Calcola il ricavo totale per ogni riga in dettagli (Quantità * Prezzo).
7. [X] Crea un ordini_extra.csv (puoi copiare una parte di ordini.csv) e usa pd.concat per aggiungerlo in fondo a ordini.
8. [X] Scopri qual è il prodotto più costoso e quello meno costoso.
9. [X] Unisci ordini e clienti usando un outer join per mantenere tutti i clienti e tutti gli ordini.
10. [X] Trova l'ID del cliente che ha fatto l'ordine con il totale più alto.

In [264]:
#Punto 1
print('--- Merge dei dataframe ordini e clienti ---')
ordini_clienti = pd.merge(ordini,clienti, on = 'ID_Cliente', how = 'right')
print(ordini_clienti)

--- Merge dei dataframe ordini e clienti ---
      ID_Ordine  ID_Cliente      Stato  Totale_Ordine         IVA  \
0         236.0           1  In attesa     271.990000   59.837800   
1         668.0           1  In attesa    1684.800000  370.656000   
2         526.0           1    Spedito    2996.190000  659.161800   
3         152.0           1    Spedito    2169.558102  477.302782   
4         677.0           1    Spedito     825.070000  181.515400   
...         ...         ...        ...            ...         ...   
996       973.0         200    Spedito    2592.070000  570.255400   
997       579.0         200    Spedito     766.960000  168.731200   
998       162.0         200    Spedito     373.140000   82.090800   
999       636.0         200    Spedito     173.610000   38.194200   
1000      115.0         200    Spedito    2121.760000  466.787200   

             Nome Città_Cliente Data_Iscrizione  
0       Cliente_1        Torino      2023-09-02  
1       Cliente_1        T

In [265]:
#Punto 2
print('--- Merge dei dataframe ordini_clienti e dettagli_ordine ---')
try:
    dettagli_ordine =  pd.read_csv('../Databases/dettagli_ordine.csv')
    print('File dettagli_ordine.csv aperto')
except FileNotFoundError:
    print('File non trovato')
ordini_dettagli = pd.merge(ordini_clienti,dettagli_ordine, on = 'ID_Ordine', how = 'left')
print(ordini_dettagli)

--- Merge dei dataframe ordini_clienti e dettagli_ordine ---
File dettagli_ordine.csv aperto
      ID_Ordine  ID_Cliente      Stato  Totale_Ordine       IVA         Nome  \
0         236.0           1  In attesa         271.99   59.8378    Cliente_1   
1         668.0           1  In attesa        1684.80  370.6560    Cliente_1   
2         668.0           1  In attesa        1684.80  370.6560    Cliente_1   
3         668.0           1  In attesa        1684.80  370.6560    Cliente_1   
4         526.0           1    Spedito        2996.19  659.1618    Cliente_1   
...         ...         ...        ...            ...       ...          ...   
2584      162.0         200    Spedito         373.14   82.0908  Cliente_200   
2585      162.0         200    Spedito         373.14   82.0908  Cliente_200   
2586      636.0         200    Spedito         173.61   38.1942  Cliente_200   
2587      115.0         200    Spedito        2121.76  466.7872  Cliente_200   
2588      115.0         200

In [266]:
print('---Creazione df_completo---')
df_completo = pd.merge(ordini_dettagli, prodotti, on='ID_Prodotto', how='left')

print(df_completo.head())

---Creazione df_completo---
   ID_Ordine  ID_Cliente      Stato  Totale_Ordine       IVA       Nome  \
0      236.0           1  In attesa         271.99   59.8378  Cliente_1   
1      668.0           1  In attesa        1684.80  370.6560  Cliente_1   
2      668.0           1  In attesa        1684.80  370.6560  Cliente_1   
3      668.0           1  In attesa        1684.80  370.6560  Cliente_1   
4      526.0           1    Spedito        2996.19  659.1618  Cliente_1   

  Città_Cliente Data_Iscrizione  ID_Dettaglio  ID_Prodotto  Quantita  \
0        Torino      2023-09-02        1595.0         17.0       1.0   
1        Torino      2023-09-02         135.0         30.0       2.0   
2        Torino      2023-09-02        1086.0         49.0       5.0   
3        Torino      2023-09-02        1928.0         38.0       3.0   
4        Torino      2023-09-02         616.0         16.0       3.0   

  Nome_Prodotto    Categoria  Prezzo  
0   Prodotto_17         Casa  271.99  
1   Prodot

In [315]:
#Punto 4
print('--- Clienti che non hanno mai effettuato un ordine ---')
# Partiamo da clienti e uniamo gli ordini
clienti_con_ordini = pd.merge(clienti, ordini, on='ID_Cliente', how='left')

# Ora cerchiamo i NaN nella colonna degli ordini
clienti_senza_ordini = clienti_con_ordini[clienti_con_ordini['ID_Ordine'].isnull()]

--- Clienti che non hanno mai effettuato un ordine ---


In [268]:
#Punto 5
print('--- Prodotti che non sono stati venduti --- ')
df_completo = pd.merge(ordini_dettagli, prodotti, on='ID_Prodotto', how='right')
prodotti_non_venduti = df_completo.loc[df_completo['ID_Ordine'].isnull()]
print(prodotti_non_venduti)

--- Prodotti che non sono stati venduti --- 
Empty DataFrame
Columns: [ID_Ordine, ID_Cliente, Stato, Totale_Ordine, IVA, Nome, Città_Cliente, Data_Iscrizione, ID_Dettaglio, ID_Prodotto, Quantita, Nome_Prodotto, Categoria, Prezzo]
Index: []


In [278]:
#Punto 6
print('--- Calcolo del ricavo totale per ogni riga in dettagli (Quantità * Prezzo) ---')
df_DettagliOrdini_Prodotti = pd.merge(dettagli_ordine, prodotti, on = 'ID_Prodotto')
print(df_DettagliOrdini_Prodotti)
df_DettagliOrdini_Prodotti['Ricavo'] = df_DettagliOrdini_Prodotti['Quantita']* df_DettagliOrdini_Prodotti['Prezzo']


--- Calcolo del ricavo totale per ogni riga in dettagli (Quantità * Prezzo) ---
      ID_Dettaglio  ID_Ordine  ID_Prodotto  Quantita Nome_Prodotto  \
0                1        228           37         5   Prodotto_37   
1                2        623           29         5   Prodotto_29   
2                3        307            3         5    Prodotto_3   
3                4        457           15         2   Prodotto_15   
4                5        160           36         4   Prodotto_36   
...            ...        ...          ...       ...           ...   
2495          2496        970            3         4    Prodotto_3   
2496          2497         71           10         2   Prodotto_10   
2497          2498        180            5         3    Prodotto_5   
2498          2499        124           46         4   Prodotto_46   
2499          2500        381           26         4   Prodotto_26   

          Categoria  Prezzo  
0              Casa   24.29  
1       Elettronica

In [281]:
#Punto 7
#Crea un ordini_extra.csv (puoi copiare una parte di ordini.csv) e usa pd.concat per aggiungerlo in fondo a ordini.
print('--- Creazione ordini_extra.csv + concat con ordini ---')
# Codice da eseguire per creare il file
dati_extra = {
    'ID_Ordine': range(1001, 1011),
    'ID_Cliente': np.random.randint(1, 50, 10),
    'Data_Ordine': pd.to_datetime(np.random.choice(pd.date_range('2024-07-01', '2024-07-02'), 10)),
    'Stato': np.random.choice(['In attesa', 'Spedito'], 10),
    'Totale_Ordine': np.round(np.random.uniform(20.0, 300.0, 10), 2)
}
ordini_extra_df = pd.DataFrame(dati_extra)
ordini_extra_df.to_csv('ordini_extra.csv', index=False)
print("File 'ordini_extra.csv' creato!")

# Concateno i due DataFrame
ordini_concatenati = pd.concat([ordini, ordini_extra_df])
print('Concatenazione eseguita correttamente')
print(ordini_concatenati)

--- Creazione ordini_extra.csv + concat con ordini ---
File 'ordini_extra.csv' creato!
Concatenazione eseguita correttamente
                     ID_Ordine  ID_Cliente      Stato  Totale_Ordine  \
2024-01-01 00:00:00        529         150    Spedito        1228.79   
2024-01-01 00:00:00        616          47  In attesa        3495.47   
2024-01-01 00:00:00        560         166  Annullato        5272.04   
2024-01-01 00:00:00        534          11    Spedito        3144.33   
2024-01-01 00:00:00        281         191    Spedito        1059.40   
...                        ...         ...        ...            ...   
5                         1006          36  In attesa         224.74   
6                         1007          40    Spedito         264.16   
7                         1008          39  In attesa          47.46   
8                         1009          47    Spedito         142.16   
9                         1010           6    Spedito         289.44   

          

In [295]:
#Punto 8
print('--- Prodotto più costoso e quello meno costoso ---')
più_costoso = prodotti['Prezzo'].max()
nome_più_costoso = prodotti[prodotti['Prezzo'] == più_costoso]
meno_costoso = prodotti['Prezzo'].min()
nome_meno_costoso = prodotti[prodotti['Prezzo'] == meno_costoso]
print('Più costoso : \n', nome_più_costoso['Nome_Prodotto'])
print('\nMeno costoso: \n', nome_meno_costoso['Nome_Prodotto'])

--- Prodotto più costoso e quello meno costoso ---
Più costoso : 
 1    Prodotto_2
Name: Nome_Prodotto, dtype: object

Meno costoso: 
 13    Prodotto_14
Name: Nome_Prodotto, dtype: object


In [316]:
#Punto 9
# Unisci ordini e clienti usando un outer join per mantenere tutti i clienti e tutti gli ordini.

print('--- Unione degli ordini e clienti ---')
ordini_piu_clienti = pd.merge(ordini,clienti, on = 'ID_Cliente', how = 'outer')
print(ordini_piu_clienti)

--- Unione degli ordini e clienti ---
      ID_Ordine  ID_Cliente      Stato  Totale_Ordine         IVA  \
0         236.0           1  In attesa     271.990000   59.837800   
1         668.0           1  In attesa    1684.800000  370.656000   
2         526.0           1    Spedito    2996.190000  659.161800   
3         152.0           1    Spedito    2169.558102  477.302782   
4         677.0           1    Spedito     825.070000  181.515400   
...         ...         ...        ...            ...         ...   
996       973.0         200    Spedito    2592.070000  570.255400   
997       579.0         200    Spedito     766.960000  168.731200   
998       162.0         200    Spedito     373.140000   82.090800   
999       636.0         200    Spedito     173.610000   38.194200   
1000      115.0         200    Spedito    2121.760000  466.787200   

             Nome Città_Cliente Data_Iscrizione  
0       Cliente_1        Torino      2023-09-02  
1       Cliente_1        Torino  

In [317]:
#Punto 10
#Trova l'ID del cliente che ha fatto l'ordine con il totale più alto.
ordine_piu_alto =ordini_piu_clienti['Totale_Ordine'].max()
nome_ordine = ordini_piu_clienti[ordini_piu_clienti['Totale_Ordine'] == ordine_piu_alto]
print('Ordine più alto: ',nome_ordine)

Ordine più alto:       ID_Ordine  ID_Cliente      Stato  Totale_Ordine        IVA        Nome  \
366      247.0          72  In attesa       13480.11  2965.6242  Cliente_72   

    Città_Cliente Data_Iscrizione  
366       Bologna      2023-02-02  


## Sezione 5: GroupBy e Aggregazione (Difficile)
1. [ ] Raggruppa per Citta e conta il numero di ordini per ogni città.
2. [ ] Raggruppa per Citta e calcola il Totale_Ordine medio per ogni città.
3. [ ] Raggruppa per Categoria di prodotto e calcola il ricavo totale per ogni categoria.
4. [ ] Raggruppa sia per Citta sia per Categoria e trova il ricavo totale.
5. [ ] Trova il prodotto più venduto (in termini di quantità) in ogni città.
6. [ ] Usa .agg() per calcolare la somma, la media e il valore massimo del Totale_Ordine raggruppato per Stato.
7. [ ] Trova il cliente con il maggior numero di ordini.
8. [ ] Filtra i dati per mantenere solo le città con più di 200 ordini totali.
9. [ ] Calcola il totale speso da ogni cliente.
10. [ ] Trova il mese con il ricavo totale più alto.

In [None]:
#

## Sezione 6: Sfide Finali (Molto Difficile)
1. [ ] Per ogni cliente, calcola il tempo medio che intercorre tra un ordine e il successivo.
2. [ ] Calcola il "Lifetime Value" (spesa totale) dei primi 10 clienti per data di iscrizione.
3. [ ] Raggruppa i clienti per "coorte" in base al mese di iscrizione. Calcola il ricavo medio generato da ogni coorte nei mesi successivi.
4. [ ] Trova le 5 coppie di prodotti che vengono più frequentemente acquistati insieme nello stesso ordine.
5. [ ] Crea una pivot_table che mostri il ricavo totale per ogni Categoria (righe) in ogni Citta (colonne).