## üìö Indice

1. [Introduzione alla Gestione del Sistema Operativo](#1.-Introduzione-alla-Gestione-del-Sistema-Operativo)
2. [Gestione e Lettura di Diversi Tipi di File](#2.-Gestione-e-Lettura-di-Diversi-Tipi-di-File)
3. [Scrittura di File con Pandas](#3.-Scrittura-di-File-con-Pandas)
4. [Unione, Join e Concatenazione di DataFrame](#4.-Unione-Join-e-Concatenazione-di-DataFrame)
5. [Aggregazione e Raggruppamento dei Dati](#5.-Aggregazione-e-Raggruppamento-dei-Dati)
6. [Automatizzare il Processo di Gestione dei File](#6.-Automatizzare-il-Processo-di-Gestione-dei-File)
7. [Esercizi](#7.-Esercizi)
---

## 1Ô∏è‚É£ Introduzione alla Gestione del Sistema Operativo

Il modulo `os` di Python fornisce numerose funzioni per interagire con il sistema operativo. √à particolarmente utile per navigare nel filesystem, gestire file e directory, e ottenere informazioni sul sistema.

**Importante:** Per ulteriori dettagli, puoi consultare la [documentazione ufficiale del modulo `os`](https://docs.python.org/3/library/os.html).

### Navigazione nel Filesystem

Possiamo utilizzare `os.listdir()` per elencare i file e le cartelle in una directory, e `os.chdir()` per cambiare la directory corrente.

In [None]:
import os
# Elencare i file nella current working directory
files = os.listdir()
print("Contenuto della directory:")
for file in files:
    print(file)

<div style="background-color:#f5f5f5; padding:12px 14px; border-left:4px solid #5cb85c; border-radius:2px;">

**Esercizio**

Fai print della lista dei file nella cartella Dati
</div>

In [None]:
# suggerimento: specifica "Dati" in listdir()

### Gestione di File e Directory

Possiamo creare, rinominare e rimuovere file e directory utilizzando funzioni come `os.mkdir()`, `os.rename()`, `os.remove()`, ecc.

In [None]:
# Creare una nuova directory
if not os.path.exists('Nuova Cartella'):
    os.mkdir('Nuova Cartella')
    print("Directory 'Nuova Cartella' creata.")
else:
    print("La directory 'Nuova Cartella' esiste gi√†.")

In [None]:
# Rinominare la directory
if os.path.exists('Nuova Cartella'):
    os.rename('Nuova Cartella', 'Cartella Rinominata')
    print("Directory rinominata in 'Cartella Rinominata'.")
else:
    print("La directory 'Nuova Cartella' non esiste.")

In [None]:
# Rimuovere la directory
if os.path.exists('Cartella Rinominata'):
    os.rmdir('Cartella Rinominata')
    print("Directory 'Cartella Rinominata' rimossa.")
else:
    print("La directory 'Cartella Rinominata' non esiste.")

## 2Ô∏è‚É£ Gestione e Lettura di Diversi Tipi di File

In questa sezione esploreremo come utilizzare Pandas per leggere diversi tipi di file: CSV, Excel, Parquet e come interagire con API per recuperare dati da servizi web.

**Nota:** Assicuriamoci di avere importato Pandas e altre librerie necessarie.

In [None]:
# Importare le librerie necessarie
import pandas as pd
import numpy as np
from glob import glob
import requests

### 2.1  File CSV

I file CSV (*Comma-Separated Values*) sono uno dei formati pi√π comuni per l'archiviazione e lo scambio di dati tabulari.

In [None]:
# leggere un file CSV
df_turbine = pd.read_csv('Dati/TexasTurbine.csv')
df_turbine.head()

#### Trovare e Leggere File CSV in una Directory

Possiamo utilizzare `os.listdir()` o il modulo `glob` per individuare file con estensione `.csv`.

**Esempio:** Creiamo alcuni file CSV di esempio.

In [None]:
import pandas as pd
from glob import glob
# Creiamo alcuni DataFrame di esempio
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Et√†': ['25', '30', '35']  # Intenzionalmente come stringhe
})
df2 = pd.DataFrame({
    'ID': [4, 5, 6],
    'Nome': ['David', 'Eva', 'Frank'],
    'Et√†': ['40', '45', '50']  # Intenzionalmente come stringhe
})

In [None]:
# Salviamo i DataFrame come file CSV
df1.to_csv('dati1.csv', index=False)
df2.to_csv('dati2.csv', index=False)
print("File 'dati1.csv' e 'dati2.csv' creati.")

In [None]:
# Utilizzare glob per trovare file CSV
csv_files = glob('*.csv')
print("File CSV trovati:")
for file in csv_files:
    print(file)

#### Lettura di file CSV utilizzando `pandas.read_csv()`

Pandas fornisce la funzione `read_csv()` per leggere file CSV in un DataFrame.

In [None]:
# Leggere il primo file CSV
df_csv1 = pd.read_csv('dati1.csv')
df_csv1

#### Specificare i Tipi di Dato durante la Lettura di CSV

Durante la lettura di un file CSV, Pandas tenta di inferire automaticamente i tipi di dati delle colonne. Tuttavia, a volte √® necessario specificare manualmente il tipo di dato di una o pi√π colonne utilizzando il parametro `dtype`.

**Esempio:** Supponiamo che la colonna 'Et√†' sia stata letta come stringa, ma vogliamo assicurarci che sia interpretata come intero.

In [None]:
# Leggere il CSV specificando i tipi di dato
dtype_spec = {'ID': int, 'Nome': str, 'Et√†': int}
df_csv1_typed = pd.read_csv('dati1.csv', dtype=dtype_spec)
df_csv1_typed.dtypes

In questo modo, garantiamo che la colonna 'Et√†' sia letta come intero. Questo √® particolarmente utile quando si lavora con grandi dataset e si desidera ottimizzare l'uso della memoria o evitare errori di tipo.

#### Altri Parametri Utili in `read_csv()`

- **`usecols`**: Specifica quali colonne leggere dal file.
- **`sep`**: Specifica il delimitatore (, ; \t).
- **`decimal`**: Specifica il separatore dei decimali (es. ',' invece di '.')

#### Integrazione di Dati da Pi√π File CSV

Possiamo concatenare pi√π DataFrame provenienti da diversi file CSV utilizzando `pd.concat()`.

In [None]:
# Leggere tutti i file CSV e aggiungerli a una lista
dfs = []
for filename in csv_files:
    df = pd.read_csv(filename, dtype=dtype_spec)
    dfs.append(df)

In [None]:
# Concatenare i DataFrame
df_concatenated = pd.concat(dfs, ignore_index=True)
df_concatenated

### 2.2 File Excel

I file Excel sono ampiamente utilizzati per i dati strutturati e possono contenere pi√π fogli.

In [None]:
df_italian_load = pd.read_excel('Dati/load_total_north_hourly_2024.xlsx')
df_italian_load.head()

#### Lettura di File Excel con Pi√π Fogli

Possiamo utilizzare `pandas.read_excel()` per leggere file Excel e specificare il foglio da leggere.

In [None]:
# Creare un file Excel con pi√π fogli
with pd.ExcelWriter('dati.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Foglio1', index=False)
    df2.to_excel(writer, sheet_name='Foglio2', index=False)
print("File 'dati.xlsx' creato.")

In [None]:
# Leggere un foglio specifico
df_foglio1 = pd.read_excel('dati.xlsx', sheet_name='Foglio1', dtype=dtype_spec)
df_foglio1.dtypes

#### Integrazione di Dati da Diversi Fogli Excel

Possiamo leggere pi√π fogli e unirli in un unico DataFrame.

In [None]:
# Leggere tutti i fogli dal file Excel
excel_file = pd.ExcelFile('dati.xlsx')
dfs_excel = []
for sheet_name in excel_file.sheet_names:
    df = pd.read_excel('dati.xlsx', sheet_name=sheet_name, dtype=dtype_spec)
    dfs_excel.append(df)

# Concatenare i DataFrame
df_excel_concatenated = pd.concat(dfs_excel, ignore_index=True)
df_excel_concatenated

### 2.3 üóÑÔ∏è File Parquet

Il formato Parquet √® un formato di archiviazione colonnare ottimizzato per l'uso con big data.

#### Introduzione ai File Parquet

I file Parquet offrono:

- **Efficienza di storage**: grazie alla compressione dei dati.
- **Velocit√† di lettura/scrittura**: specialmente per dataset di grandi dimensioni.

**Nota:** Per utilizzare Parquet con Pandas, potrebbe essere necessario installare librerie aggiuntive come `pyarrow` o `fastparquet`.

In [None]:
# Installare pyarrow se non √® gi√† installato
!pip install pyarrow --quiet

#### Lettura e Scrittura di File Parquet con Pandas

In [None]:
# Scrivere un DataFrame in formato Parquet
df_concatenated.to_parquet('dati.parquet', index=False)
print("File 'dati.parquet' creato.")

In [None]:
# Leggere il file Parquet
df_parquet = pd.read_parquet('dati.parquet')
df_parquet

### 2.4 üåê Lettura di Dati da API

Le API (*Application Programming Interface*) permettono di accedere a dati e servizi offerti da applicazioni web. In questa sezione, vedremo come utilizzare le API per recuperare dati e trasformarli in un DataFrame Pandas.

#### Introduzione alle API e al loro Utilizzo

Un'API √® un insieme di regole che permette a programmi diversi di comunicare tra loro. Molte organizzazioni e servizi web forniscono API pubbliche per accedere ai loro dati.

Per interagire con un'API, solitamente si invia una richiesta HTTP (ad esempio, una richiesta GET) a un endpoint specifico, e si riceve una risposta, spesso in formato JSON.




#### Cos'√® JSON?

JSON (*JavaScript Object Notation*) √® un formato di testo per lo scambio di dati, strutturato in coppie chiave-valore simili ai dizionari Python. √à comunemente usato per inviare dati tra server e applicazioni web grazie alla sua leggibilit√† e compatibilit√† tra diversi linguaggi.

**Esempio di JSON**:
```json
{
  "name": "Alice",
  "age": 30,
  "city": "Rome",
  "interests": ["reading", "hiking", "coding"]
}


#### Lettura di Dati da API con Python

In Python, la libreria `requests` facilita l'invio di richieste HTTP. Possiamo utilizzarla per recuperare dati da un'API e poi utilizzare Pandas per analizzarli.

**Passi Generali:**

1. Importare le librerie necessarie (`requests`, `pandas`).
2. Definire l'endpoint API e i parametri della richiesta.
3. Inviare la richiesta e ottenere la risposta.
4. Convertire i dati JSON ricevuti in un DataFrame Pandas.


#### Esempio Pratico: Recupero di Dati Meteo dalla Regione Lombardia

Utilizzeremo l'API dei dati aperti della Regione Lombardia per recuperare informazioni sulle stazioni idro-nivo-meteorologiche.

**Risorse:**

- **Anagrafica Sensori:**
  - Endpoint: https://www.dati.lombardia.it/resource/nf78-nj6b.json
  - Descrizione: Contiene le informazioni di anagrafica delle stazioni di misura.
- **Misure dei Sensori:**
  - Endpoint: https://www.dati.lombardia.it/resource/647i-nhxk.json
  - Descrizione: Contiene le misure rilevate dai sensori.

In [None]:
# Importare le librerie necessarie
import pandas as pd
import requests

In [None]:
# scegliamo un endpoint 
url = "https://www.dati.lombardia.it/resource/nf78-nj6b.json"
response = requests.get(url)
response

#### Codici di Stato HTTP

Quando inviamo una richiesta a un'API, riceviamo un *codice di stato* che indica l'esito della richiesta. 

- **200**: Successo! La richiesta √® stata completata correttamente.
- **404**: Risorsa non trovata. L'URL potrebbe essere errato.
- **500**: Errore del server. Il problema √® lato server.

Controllare il codice di stato ci aiuta a gestire gli errori e capire se la richiesta ha avuto successo.


In [None]:
json_response = response.json()
len(json_response)

In [None]:
json_response[0]

#### Filtrare i Dati con i Parametri di Query

Quando interagiamo con un'API, potremmo non voler recuperare tutti i dati disponibili, ma solo una parte specifica. Qui entrano in gioco i **parametri di query**: opzioni aggiuntive che possiamo includere nell'URL per filtrare o selezionare un sottoinsieme di dati.

A
Per richiedere dati specifici da un'API, possiamo utilizzare i **parametri di query**, che vengono aggiunti alla fine dell'URL per filtrare o personalizzare la richiesta. Ecco la sintassi di base:

- Ogni parametro di query √® aggiunto dopo il simbolo `?`, che segna l'inizio della sezione dei parametri.
- I parametri sono scritti come coppie `chiave=valore`.
- Se ci sono pi√π parametri, vengono separati da `&`.


In [None]:
import requests

# URL con parametro di query per la provincia di Milano
url = "https://www.dati.lombardia.it/resource/nf78-nj6b?provincia=MI&tipologia=Precipitazione"
response = requests.get(url)
data = response.json()

# Visualizza i dati filtrati
display(data[:4])

In Python, possiamo semplificare questa sintassi usando l'argomento params con la libreria requests. params accetta un dizionario con i parametri e i loro valori, rendendo il codice pi√π leggibile e facile da gestire.

In [None]:
# Definiamo i parametri di query come un dizionario
params = {
    "provincia": "MI",
    "tipologia": "Precipitazione"
}

# Effettuiamo la richiesta GET usando 'params' per i parametri di query
url = "https://www.dati.lombardia.it/resource/nf78-nj6b"
response = requests.get(url, params=params)
data = response.json()

# Visualizziamo i dati filtrati
display(data[:4])

#### Definire una Funzione per Recuperare Dati da un'API

Per rendere il codice pi√π riutilizzabile, definiamo una funzione che prende un URL e dei parametri, invia una richiesta all'API e restituisce un DataFrame.

In [None]:
def get_data(url, params=None):
    """
    Recupera dati da un'API e li converte in un DataFrame Pandas.
    
    Args:
        url (str): L'endpoint API.
        params (dict): I parametri della richiesta.
    
    Returns:
        pd.DataFrame: Il DataFrame con i dati ottenuti.
    """
    # Invia la richiesta GET all'API
    response = requests.get(url, params=params)
    
    # Controlla se la richiesta ha avuto successo
    if response.status_code == 200:
        # Converte i dati JSON in un DataFrame
        data = response.json()
        df = pd.DataFrame.from_records(data)
        return df
    else:
        print(f"Errore nella richiesta: {response.status_code}")
        return None

#### Recuperare l'Anagrafica dei Sensori

Iniziamo recuperando le informazioni sui sensori disponibili.

In [None]:
# Definire l'endpoint e i parametri
sensors_url = "https://www.dati.lombardia.it/resource/nf78-nj6b.json"
params = {
    "$limit": 5000  # Impostiamo un limite alto per ottenere tutti i record
}
# parametri di query speciali iniziano con il simbolo `$`. 
# Questi parametri servono per configurare richieste avanzate, come limitare il numero di record, ordinare o applicare filtri specifici.


# Recuperare i dati
sensori_df = get_data(sensors_url, params)
sensori_df.head()

Possiamo ora esplorare il DataFrame `sensori_df` per capire quali tipi di sensori sono disponibili e in quali province.

In [None]:
# Tipologie di sensori disponibili
sensori_df['tipologia'].unique()

In [None]:
# Province disponibili
sensori_df['provincia'].unique()

In [None]:
# visualizza la posizione geografica dei sensori in una mappa con location
# es {'type': 'Point', 'coordinates': [9.56265997, 45.26927396]}
import plotly.express as px
fig = px.scatter_mapbox(
    sensori_df,
    lat=sensori_df['location'].apply(lambda loc: loc['coordinates'][1]),
    lon=sensori_df['location'].apply(lambda loc: loc['coordinates'][0]),
    hover_name="tipologia",
    zoom=8,
    height=600
)
fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

Supponiamo di voler ottenere tutti i sensori di temperatura nella provincia di Milano.

In [None]:
# Filtrare i sensori di temperatura nella provincia di Milano
sensori_milano = sensori_df[(sensori_df['tipologia'] == 'Temperatura') & (sensori_df['provincia'] == 'MI')]
sensori_milano.head()

#### Recuperare le Misure dei Sensori

Ora che abbiamo gli ID dei sensori di interesse, possiamo recuperare le misure associate.

In [None]:
# Scegliere un IDsensore (ad esempio, il primo)
idsensore = sensori_milano['idsensore'].iloc[1]
print(f"Recupero dei dati per IDsensore: {idsensore}")

# Definire l'endpoint delle misure
measurements_url = f"https://www.dati.lombardia.it/resource/647i-nhxk.json"

# Aggiornare i parametri per filtrare per IDsensore
params_misure = {
        "idsensore": idsensore,
        "$limit": 100000
}

# Recuperare le misure
misure_df = get_data(measurements_url, params_misure)
misure_df

#### Analizzare e Visualizzare le Misure

Possiamo ora analizzare le misure ottenute e, ad esempio, visualizzare l'andamento della temperatura.

In [None]:
# Convertire la colonna 'dataora' in datetime
misure_df['data'] = pd.to_datetime(misure_df['data'])

# Assicurarci che 'valore' sia numerico
misure_df['valore'] = pd.to_numeric(misure_df['valore'], errors='coerce')

# Ordinare i dati per data
misure_df = misure_df.sort_values('data')

In [None]:
import plotly.express as px

df_plot = misure_df.iloc[-100:]

fig = px.line(
    df_plot,
    x="data",
    y="valore",
    markers=True,
    title=f"Andamento della Temperatura per IDsensore {idsensore}",
    labels={
        "data": "Data e Ora",
        "valore": "Temperatura (¬∞C)"
    }
)

fig.show()


## 4Ô∏è‚É£ Unione, Join e Concatenazione di DataFrame

Pandas offre potenti strumenti per combinare DataFrame in vari modi.

### Merge

Il metodo `merge()` consente di combinare DataFrame basati su chiavi comuni, simile a un join in SQL.

**Tipi di join:**
- **Inner Join**: Restituisce le righe con chiavi corrispondenti in entrambi i DataFrame.
- **Left Join**: Restituisce tutte le righe del DataFrame di sinistra e le righe corrispondenti del DataFrame di destra.
- **Right Join**: Restituisce tutte le righe del DataFrame di destra e le righe corrispondenti del DataFrame di sinistra.
- **Outer Join**: Restituisce tutte le righe quando c'√® una corrispondenza in uno dei DataFrame.

In [None]:
# Creare DataFrame di esempio
df_left = pd.DataFrame({'ID': [1, 2, 3], 'Nome': ['Alice', 'Bob', 'Charlie']})
df_right = pd.DataFrame({'ID': [3, 4, 5], 'Et√†': [35, 40, 45]})

# Esempio di Inner Join
df_inner = pd.merge(df_left, df_right, on='ID', how='inner')
df_inner

In [None]:
# Esempio di Outer Join
df_outer = pd.merge(df_left, df_right, on='ID', how='outer')
df_outer

### Concatenazione

Il metodo `concat()` consente di unire DataFrame verticalmente (aggiungere righe) o orizzontalmente (aggiungere colonne).

In [None]:
# Concatenazione verticale
df_concat_vertical = pd.concat([df_left, df_right], ignore_index=True, sort=False)
df_concat_vertical

In [None]:
# Concatenazione orizzontale
df_concat_horizontal = pd.concat([df_left, df_right], axis=1)
df_concat_horizontal

### Differenze e Casi d'Uso di Merge e Concat

- **Merge**: quando si desidera combinare DataFrame su una o pi√π chiavi comuni.
- **Concat**: quando si desidera unire DataFrame che hanno le stesse colonne o indici.

In [None]:
# Calcolare la media dei valori per categoria
df_grouped_mean = df_group.groupby('Categoria').mean()
df_grouped_mean

# Esercizi


## Esercizio 1
In questo esercizio, useremo Python per accedere ai dati sulla certificazione energetica degli edifici in Lombardia e fare alcune analisi per la provincia di Milano.

### Obiettivi
1. **Recuperare i dati** relativi alla certificazione energetica degli edifici in Lombardia utilizzando una richiesta HTTP.
2. **Selezionare solo i dati della provincia di Milano**.
3. **Calcolare le emissioni di CO2** per ciascuna classe energetica.

### Hint
L'endpoint per accedere ai dati in formato JSON √®:
- `https://www.dati.lombardia.it/resource/rsg3-xhvk.json`


## Esercizio 2: Analisi dei Dati di Produzione Elettrica

In questo esercizio, useremo Python per accedere a una sorgente di dati sul sistema elettrico in tempo reale, utilizzando la libreria `requests` per ottenere i dati e `pandas` per fare alcune analisi di base.

### Obiettivi
1. **Recuperare i dati in formato JSON** dalla sorgente dati tramite una richiesta HTTP.
2. **Organizzare i dati in un DataFrame** di `pandas` per facilitare l'analisi.
3. **Calcolare la produzione media di energia** per ciascun tipo di fonte energetica.

### Passaggi

1. **Importare le librerie** necessarie: `requests` e `pandas`.
2. **Recuperare i dati** tramite un'API HTTP utilizzando `requests.get()`.
3. **Creare un DataFrame** con i dati ottenuti e fare un controllo delle prime righe.
4. **Usare `groupby`** su una colonna rilevante (ad esempio, il tipo di produzione energetica) per calcolare la produzione media.


In [None]:
import requests
import pandas as pd

# Passo 1: Recupera i dati
url = "https://www.energidataservice.dk/api/PowerSystemRightNow"  
response = ...  # use get
data = ... # use .json

# Passo 2: Crea un DataFrame
df = pd.DataFrame(data['records'])  
print(df.head())

# Passo 3: Calcola la produzione media per tipo di energia
average_production = df.groupby...
print("Produzione media per tipo di energia:")
print(average_production)
