<font size="6">**Leggere file tabellari in Python**</font><br>

> (c) 2025 Antonio Piemontese

# I dati in Python (nella Data Science)
Nella Data Science spesso siamo interessati:
- all'analisi dei **dati passati**, non in tempo reale
- all'analisi di un **singolo file**, non del DB

Questi dati sono in genere **file tabellari**, cos√¨ chiamati perch√® <u>composti da righe e colonne</u> (2 dimensioni). Sono in genere **creati dagli **utenti**, ricevuti **da altre aziende** o **semplicemente estratti da un DB** (come export).

Uno dei formati tabellari pi√π diffusi per l'import di dati in Python √® il formato [**CSV**](https://it.wikipedia.org/wiki/Comma-separated_values). E' un formato praticamente **ubiquo a tutti gli ambienti e tool di *data management* (tabellari)**: excel, google sheet, tutti i DB relazionali, ecc.

Ancorch√® in python si possa caricare in memoria **qualsiasi tipo di file** (xml, json, PDF, txt, ecc) ed accedere a **qualsiasi tipo di database** (Oracle, SQLServer, MySQL, ecc), il formato pi√π semplice ed efficiente da caricare in memoria (in un `dataframe` *pandas*) √® il CSV.

> ‚ÄúUn file CSV o Excel (**file *tabellare***) pu√≤ sembrare una tabella come nel database, ma √® solo un contenitore di dati grezzi.
Una tabella SQL invece √® una struttura controllata, con regole, tipi e relazioni, che il database gestisce in modo coerente, sicuro e transazionale.‚Äù

# Leggere file tabellari tramite librerie specifiche

Per leggere file tabellari <u>csv</u> una **prima possibilit√†** √® **la libreria `csv`**, cio√® il **CSV nativo di Python**.<br>
La ragione di questa scelta, che tuttavia presenta molti limiti, √® di evitare di caricare in memoria tutto il package *pandas* (pesante) ed evitare il problema delle dipendenze.

In [None]:
import csv

with open("Credit_ISLR.csv", newline="") as f:
    reader = csv.reader(f)
    for i, row in enumerate(reader):
        print(row)
        if i >= 20:   # stampa solo le prime 20 righe (0‚Äì19)
            break

['', 'ID', 'Income', 'Limit', 'Rating', 'Cards', 'Age', 'Education', 'Gender', 'Student', 'Married', 'Ethnicity', 'Balance']
['1', '1', '14.891', '3606', '283', '2', '34', '11', ' Male', 'No', 'Yes', 'Caucasian', '333']
['2', '2', '106.025', '6645', '483', '3', '82', '15', 'Female', 'Yes', 'Yes', 'Asian', '903']
['3', '3', '104.593', '7075', '514', '4', '71', '11', ' Male', 'No', 'No', 'Asian', '580']
['4', '4', '148.924', '9504', '681', '3', '36', '11', 'Female', 'No', 'No', 'Asian', '964']
['5', '5', '55.882', '4897', '357', '2', '68', '16', ' Male', 'No', 'Yes', 'Caucasian', '331']
['6', '6', '80.18', '8047', '569', '4', '77', '10', ' Male', 'No', 'No', 'Caucasian', '1151']
['7', '7', '20.996', '3388', '259', '2', '37', '12', 'Female', 'No', 'No', 'African American', '203']
['8', '8', '71.408', '7114', '512', '2', '87', '9', ' Male', 'No', 'No', 'Asian', '872']
['9', '9', '15.125', '3300', '266', '5', '66', '13', 'Female', 'No', 'No', 'Caucasian', '279']
['10', '10', '71.061', '6819

E' **leggerissimo**, ma si deve gestire **tutto ‚Äúa mano‚Äù** (tipi, header, encoding...):
- gestione dei tipi (tutto √® stringa) - il modulo `csv` non converte automaticamente i tipi: tutto ci√≤ che legge √® una stringa.
- header da gestire manualmente - il modulo `csv` non sa da solo se la prima riga √® intestazione o dati.
- problemi di encoding-se il file non √® in UTF-8 (es. √® in `latin-1` o `windows-1252`), `open()` dar√† errore o caratteri strani.
- separatori diversi (`,` oppure `;` oppure `\t`) -i file CSV non sono sempre separati da virgole ‚Äî in Italia spesso da `;` o tabulazioni.
- gestione di virgolette e caratteri speciali - se un campo contiene una virgola o un ritorno a capo, il parsing pu√≤ rompersi se non si usano i parametri giusti.
- dati mancanti (celle vuote) - non esiste un concetto di `NaN`
- con milioni di righe, `csv.reader` √® pi√π veloce di pandas in lettura pura, ma non si pu√≤ filtrare, unire, o fare operazioni sui dati facilmente.

**In sintesi**:<br>
Usare `csv` puro √® come leggere il file ‚Äúa mano‚Äù: abbiamo il pieno controllo ma anche tutto il lavoro √® a carico nostro. *pandas* (o *Polars*) invece capiscono header, tipi, separatori, encoding, missing, ecc. automaticamente.

Una **seconda possibilit√†** √® il modulo **`openpyxl`** (per file Excel **.xlsx**)

In [None]:
from openpyxl import load_workbook

wb = load_workbook("Credit_ISLR.xlsx")
ws = wb.active

for i, row in enumerate(ws.iter_rows(values_only=True)):
    print(row)
    if i >= 19:    # indice parte da 0 ‚Üí 0‚Äì19 = 20 righe
        break


('Column1', 'ID', 'Income', 'Limit', 'Rating', 'Cards', 'Age', 'Education', 'Gender', 'Student', 'Married', 'Ethnicity', 'Balance')
(1, 1, 14891, 3606, 283, 2, 34, 11, ' Male', 'No', 'Yes', 'Caucasian', 333)
(2, 2, 106025, 6645, 483, 3, 82, 15, 'Female', 'Yes', 'Yes', 'Asian', 903)
(3, 3, 104593, 7075, 514, 4, 71, 11, ' Male', 'No', 'No', 'Asian', 580)
(4, 4, 148924, 9504, 681, 3, 36, 11, 'Female', 'No', 'No', 'Asian', 964)
(5, 5, 55882, 4897, 357, 2, 68, 16, ' Male', 'No', 'Yes', 'Caucasian', 331)
(6, 6, 8018, 8047, 569, 4, 77, 10, ' Male', 'No', 'No', 'Caucasian', 1151)
(7, 7, 20996, 3388, 259, 2, 37, 12, 'Female', 'No', 'No', 'African American', 203)
(8, 8, 71408, 7114, 512, 2, 87, 9, ' Male', 'No', 'No', 'Asian', 872)
(9, 9, 15125, 3300, 266, 5, 66, 13, 'Female', 'No', 'No', 'Caucasian', 279)
(10, 10, 71061, 6819, 491, 3, 41, 19, 'Female', 'Yes', 'Yes', 'African American', 1350)
(11, 11, 63095, 8117, 589, 4, 30, 14, ' Male', 'No', 'Yes', 'Caucasian', 1407)
(12, 12, 15045, 1311, 138

Una **terza** possibilit√† √® il modulo `xlrd` o `xlwt` - sempre per file excel
- `xlrd` ‚Üí lettura di vecchi .xls (Excel 97-2003)
- `xlwt` ‚Üí scrittura di .xls<br>

‚ö†Ô∏è Deprecati per `.xlsx`, quindi oggi meno consigliati.

![](sintesi_formati_tabellari.png)

# Il caricamento in pandas

Se si vuole solo leggere/scrivere file (tabellari) senza installare grandi librerie, si pu√≤ usare `csv` o `openpyxl`, come visto prima.

Altrimenti, si usano i [**dataframe**](https://en.wikipedia.org/wiki/Pandas_(software)#DataFrames) che sono la **struttura dati pi√π utilizzata nella Data Science**:
- risiedono in memoria
- possono essere caricati da disco o scaricati su disco con le funzioni `pd.read_***` o con i metodi `df.to_XXX` per i seguenti formati:<br>
*clipboard, csv, excel, html, json, parquet, pickle, sas, sql, spss, stata, xml*.

Per caricare un file tabellare *csv* oppure *xslx* in un dataframe si usano queste due funzioni *pandas*:
```python
    import pandas as pd
    df = pd.read_csv('dati.csv)
    df = pd.read_excel('dati.xlsx')
```

Se invece si vogliono alternative **pi√π performanti**, oggi si usa molto `cuDF` (con GPU) oppure `Polars`.


<p style="color:red; font-size:18px; font-weight:bold;">
üö® I file tabellari (ed anche le tabelle SQL che vedremo pi√π avanti) sono in genere caricati in un dataframe pandas üö®
</p>
Pandas √® comodo ma non √® l‚Äôunico modo per importare file tabellari in python.<br>

# Excel o csv?
Qual √® il formato migliore per importare file tabellari? Excel o csv?<br>
Dipende dallo scopo e dal contesto, ma **nella maggior parte dei casi CSV √® pi√π efficiente, trasparente e robusto, mentre Excel √® pi√π comodo per l‚Äôutente umano**.

---

Facciamo un confronto **CSV vs Excel** dal punto di vista <u>tecnico</u> e da quello <u>umano</u>.

---

**1. Dal punto di vista tecnico (*pandas*)**

üü© **CSV: √® il formato ‚Äúnativo‚Äù per pandas**
- √® pi√π leggero da leggere e scrivere:
```python
    df = pd.read_csv("dati.csv")
```
- pandas lo apre molto pi√π velocemente (soprattutto file grandi).
- nessuna dipendenza esterna (solo Python standard).
- perfetto per scambi tra sistemi o integrazione con altri linguaggi.
- √® testuale e trasparente ‚Üí lo si pu√≤ aprire anche con un editor o versionare su Git.

‚ö†Ô∏è Svantaggi:
- perde formattazioni, formule, fogli multipli (ad esempio se convertito da excel)
- non ha metadati (tipi, date, ecc.), quindi pandas deve ‚Äúindovinarli‚Äù (**inferirli**).

üü® **Excel (XLS / XLSX): comodo ma pi√π complesso**
- supporta fogli multipli, celle formattate, tipi pi√π espliciti.
- ottimo per file provenienti da utenti umani o report aziendali.

```python
    df = pd.read_excel("dati.xlsx")
```

‚ö†Ô∏è Svantaggi:
- meno stabile su grandi volumi (>100 000 righe).
- usa librerie esterne (`openpyxl`, `xlrd`, `pyxlsb` ecc.) - come visto prima
- pi√π lento da leggere e scrivere.
- gli errori di formattazione (celle unite, righe vuote, formule, ecc.) spesso creano problemi.
- meno adatto all‚Äôautomazione massiva (batch ETL, pipeline, ecc.).


---
**"Librerie esterne"**: cosa si intende?<br>
La funzione `pd.read_excel()` √® integrata in pandas, ma non fa tutto da sola: per funzionare **ha bisogno di librerie esterne** che gestiscono concretamente il formato Excel.<br>
Cio√®, come funziona davvero `pd.read_excel()`?<br>
Quando si chiama:
```python
import pandas as pd
df = pd.read_excel("dati.xlsx")
```
pandas:
- riconosce il formato del file (es. `.xls`, `.xlsx`, `.xlsb`)
- usa un ‚Äúmotore‚Äù esterno (engine) per leggere i dati
- trasforma ci√≤ che legge in un `DataFrame`

---

**2. Confronto dal punto di vista del ‚Äúdata pipeline‚Äù**:

![](cfr_pipeline.png)

**3. Performance: confronto indicativo**:<br>
![](performance_csv_excel.png)

**4. In pratica**:<br>
üëâ Se il file **arriva da un sistema o un processo automatico** --> scegliere CSV.<br>
üëâ Se il file **arriva da un collega o un cliente che lavora in Excel** --> usa Excel, pulirlo e poi convertirlo in CSV o Parquet.<br>

üí° Molti flussi aziendali fanno proprio cos√¨:
1. `read_excel()`<br>

2.  **pulizia dati in *pandas***<br>

3. `to_csv()` o `to_parquet()` per uso interno / storage efficiente

# L'importanza e la diffusione del formato *csv*
Vediamo pi√π in dettaglio **perch√® il formato CSV √® cos√¨ ubiquo nel mondo dei dati**. Non c'√® praticamente ambiente di *data management* (excel, google sheet, DB relazionali, ecc) che non permetta import ed export di file csv.

![](importanza_csv.png)

# Ragioni tecniche della diffusione di csv
Ci sono diversi **motivi tecnici molto concreti** che spiegano perch√© il formato CSV √® cos√¨ onnipresente nel mondo dei dati.<br>
Ecco una tabella riassuntiva chiara e tecnica:

![](diffusione_csv.png)

üí° In breve:<br>

Il CSV √® il **‚Äúminimo comune denominatore‚Äù dei dati tabellari**: semplice, interoperabile, senza dipendenze e compatibile con tutto ‚Äî da Excel a Spark.<br>
Non √® perfetto (niente tipi, schema, compressione o metadati), ma proprio **la sua povert√† strutturale √® la sua forza**.

# Leggere file CSV in pandas

Come detto, nella Data Science, spesso, NON siamo interessati alla fotografia dei dati in tempo reale. In genere sia le analisi (EDA) che i modelli (predittivi) - i due obiettivi tipici del ML/AI - sono fatti su dati **passati (congelati)**, sia perch√® manca l'interesse sui dati recentissimi sia perch√® i dati in input ai modelli devono essere preprocessati (controllo qualit√†, gestione outlier, gestione MV, gestione duplicati, standardizzazione, ecc). Quindi, sebbene Python/pandas siano in gradi di accedere **direttamente** a tabelle SQL remote (tramite i metodi `pd.read_sql_query` per le query e `pd.read_sql_table` per il download dell'intera tabella), tuttavia √® molto pi√π veloce caricare i dati da un file esterno locale, che pu√≤ essere di vari formati (csv, json, parquest, ecc).

## 3 note tecniche sul formato CSV

* i due argomenti principali del metodo pandas `read_csv` sono  `sep`, che indica il carattere usato nel file per "separare" le colonne (in genere √® "," oppure il ";") e `header`, che indica la presenza (e l'eventuale numero) di righe di heading (intestazione).
* ci sono diversi formati csv disponibili da excel; occorre scegliere quello indicato in figura sottostante con la freccia rossa; in proposito vedi anche il video [*Come convertire Excel in CSV (veloce e corretto)*](https://www.youtube.com/watch?v=S7SpFIg5iVM) della *Excel Tutorials by EasyClick Academy*.
  
  ![](tipi_csv.png)
* [pro e contro](https://towardsdatascience.com/why-i-stopped-dumping-dataframes-to-a-csv-and-why-you-should-too-c0954c410f8f) del formato csv

Un file csv √® testuale e dunque pu√≤ essere letto anche in Notepad.

Carichiamo in *pandas* il famoso file bancario `Credit_ISLR`:

In [None]:
import pandas as pd
df_credit = pd.read_csv("Credit_ISLR.csv",header=0)
df_credit

Unnamed: 0.1,Unnamed: 0,ID,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,1,1,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,2,2,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903
2,3,3,104.593,7075,514,4,71,11,Male,No,No,Asian,580
3,4,4,148.924,9504,681,3,36,11,Female,No,No,Asian,964
4,5,5,55.882,4897,357,2,68,16,Male,No,Yes,Caucasian,331
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,396,12.096,4100,307,3,32,13,Male,No,Yes,Caucasian,560
396,397,397,13.364,3838,296,5,65,17,Male,No,No,African American,480
397,398,398,57.872,4171,321,5,67,12,Female,No,Yes,Caucasian,138
398,399,399,37.728,2525,192,1,44,13,Male,No,Yes,Caucasian,0


Come si vede, la funzione *pandas* `read_csv` ha creato automaticamente un **indice** numerico, sicch√® l'indice originario `ID` √® ora <u>ridondante</u>, ed ha aggiunto una colonna `Unnamed: 0` (vedremo pi√π avanti perch√®). E' bene cancellarle entrambe perch√® inutili.

In [None]:
df_credit.drop(columns=['Unnamed: 0', 'ID'], inplace=True)

In [None]:
df_credit.head()

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903
2,104.593,7075,514,4,71,11,Male,No,No,Asian,580
3,148.924,9504,681,3,36,11,Female,No,No,Asian,964
4,55.882,4897,357,2,68,16,Male,No,Yes,Caucasian,331


## pandas √® pesante?

‚öôÔ∏è Cosa significa che ‚Äúpandas √® pesante‚Äù? Lo √® in vari sensi:

1Ô∏è‚É£ **Dimensione e complessit√†**
- Pandas non √® una piccola libreria:<br>
    - l‚Äôinstallazione porta con s√© molte dipendenze:
    - `numpy`, `dateutil`, `pytz`, `tzdata`, `matplotlib`, `openpyxl`, `xlrd`, ecc.
- La dimensione del pacchetto √® di **decine di MB**.
- Il caricamento in memoria all‚Äôavvio √® **pi√π lento** rispetto a un semplice `import csv`.

üëâ Quindi per uno script che deve solo leggere un file CSV e stampare 10 righe, importare tutto pandas √® come usare un camion per consegnare una lettera.

2Ô∏è‚É£ **Dipendenze esterne**<br>

Pandas, per funzionare bene con molti formati, usa librerie esterne (come detto prima):
- `openpyxl` per i file *.xlsx*
- `xlrd` per i *.xls*
- `pyarrow` per i file *.parquet*
- `numexpr` per operazioni numeriche
- `matplotlib per .plot()`<br>

üëâ Queste dipendenze sono comode in un ambiente data science,
ma eccessive in uno script di sistema o un microservizio.

3Ô∏è‚É£ **Impatto su ambienti piccoli**<br>

In contesti come:
- microservizi Docker
- script CLI leggeri
- funzioni serverless (AWS Lambda, GCP Functions)
- sistemi con vincoli di memoria

importare pandas pu√≤:
- rallentare l‚Äôavvio dello script,
- aumentare l‚Äôimmagine Docker di decine o centinaia di MB,
- portare a incompatibilit√† o tempi di cold start lunghi.


**Ecco quindi perch√© a volte si vuole ‚Äúevitare pandas‚Äù**:
- Non ci servono le sue funzioni di analisi avanzata.
- Si vuole solo leggere un file e scorrerne le righe.
- Si vuole ridurre dipendenze e tempo di startup.

In quel caso ha pi√π senso usare:
```python
import csv      # per file CSV
import openpyxl # per file Excel moderni
```

che sono moduli molto pi√π leggeri.

üß† Metafora<br>
Pandas √® come Excel o un gestionale completo.<br>
Se ti serve solo aprire un file di testo e stampare due colonne, ti basta il Blocco Note.

## Convertire file Excel in formato CSV

Al contrario, per visualizzare un file CSV **nel formato Excel standard** si pu√≤ fare cos√¨ (ci sono anche altri modi):
* aprire un **nuovo file**
* scheda `Dati`
* bottone in alto a sx `Recupera dati`
* `Da file` --> `Da testo/CSV`
* nella preview fare le eventuali modifiche (al caricamento) - per quanto riguarda il separatore ma anche l'origine e l'inferenza del data type (l'opzione 200 righe √® in genere sufficiente) -  e poi premere il bottone "Carica" in basso a dx.

Questo processo √® ben descritto nel video [How to Convert CSV to Excel (Simple and Quick)](https://www.youtube.com/watch?v=jw1DSuqr3ew) della *Excel Tutorials by EasyClick Academy*. Disponibili i sottotitoli.

Se un file nasce in excel e poi viene convertito in csv, salvato e in un secondo momento riaperto in excel, excel lo visualizza come excel (cio√® con la griglia). Come mai?<br>

Excel non apre il CSV come file Excel vero e proprio ‚Äî lo interpreta come una tabella testuale, e lo visualizza nella stessa interfaccia grafica (celle, righe, colonne).<br>
Questo fa s√¨ che ‚Äúsembri Excel‚Äù, ma in realt√† il file non contiene nessuna delle informazioni tipiche del formato `.xlsx`:
- niente formattazione,
- niente formule,
- niente fogli multipli,
- niente tipi di dato complessi.

Excel semplicemente mostra **una griglia sopra un file di testo**.<br>
√à un po‚Äô come aprire un file `.txt` in Word: il contenuto √® testo, ma l‚Äôambiente √® Word, con tutto il suo aspetto ‚Äúricco‚Äù.

üí° Riassunto in una frase:<br>
> Excel riconosce l‚Äôestensione `.csv`, ne interpreta i dati in forma tabellare e li visualizza nella sua interfaccia ‚Äî ma il file rimane puro testo strutturato, non un vero foglio Excel.

**Obiezione**: se apro in excel un file csv generato indipendentemente da excel, la griglia non √® applicata.<br>
Vero, Excel non legge il CSV ‚Äúintelligentemente‚Äù in base al contenuto, ma usa **impostazioni locali** del sistema operativo (la ‚Äúimpostazione paese‚Äù o ‚Äúseparatore di elenco‚Äù di Windows).<br>
Per esempio:
- in Italia, il separatore di elenco predefinito √® `;` (punto e virgola);
- in USA/UK, √® `,` (virgola).

Quindi:
- se il CSV viene da Excel, esso usa lo stesso separatore della tua configurazione regionale ‚Üí Excel lo ‚Äúriconosce‚Äù e mostra la tabella.
- Se invece il CSV viene da un altro programma (es. Python to_csv(), MySQL, o sistemi internazionali) che usa la virgola, Excel non sa che √® un separatore e ti mette tutto in un‚Äôunica cella.

L‚Äôutente pu√≤ correggere manualmente:

    `Dati ‚Üí Da testo/CSV ‚Üí scegli delimitatore corretto (virgola, punto e virgola, tab)`

oppure cambiare l‚Äôimpostazione regionale del sistema.

üí° In sintesi:

> Excel ‚Äúinterpreta‚Äù come tabella solo i CSV che rispettano le sue convenzioni regionali (separatore e encoding).<br>
> Se il file √® generato altrove con altri standard, Excel lo mostra come testo in una colonna.

![](apertura_csv.png)

üí¨ **Spiegazione breve**

Quando Excel mostra tutto in una sola colonna, √® perch√©:
- il delimitatore del file (es. `,`)
‚â†
- dal separatore di elenco di sistema (es. `;` in Italia).

üëâ Soluzione: usare l‚Äôimportazione guidata, che ti fa scegliere manualmente il delimitatore e l‚Äôencoding (UTF-8 consigliato).<br>
Dopo questa scelta, Excel mostra subito la griglia corretta e puoi salvare come .xlsx se vuoi mantenerla stabile.

üí° Consiglio pratico per chi lavora spesso con Python o CSV esterni:
- usa `df.to_csv('file.csv', sep=';', encoding='utf-8-sig')`
‚Üí cos√¨ Excel (versione italiana) lo apre gi√† ‚Äúa griglia‚Äù senza interventi manuali.
- `utf-8-sig` √® una variante dell‚Äôencoding UTF-8 molto usata proprio per far s√¨ che Excel riconosca correttamente i CSV.

## Gli argomenti di input della funzione `pd.read_csv`

Abbiamo gi√† citato i due **fondamentali argomenti in input** della funzione pandas `read_csv`: `sep` e `header`. Sono **critici:
- `header=1` dice a pandas di saltare la prima riga del file e usare la seconda riga come intestazione.<br>
Se i nostri CSV non hanno due righe di intestazione, oppure se il primo file ha un formato leggermente diverso dagli altri (spazi, separatore, BOM, ecc.), pandas **interpreter√† in modo sbagliato le colonne**
- `sep=';'` scassa tutti i dati (se il file √® effettivamente CSV!<br>
Attenzione: molti "file CSV" hanno sep=';'!

In realt√† la funzione `read_csv` ha **molti altri argomenti in input**, come si evince dall'help della cella successiva - pi√π avanti approfondiremo i **principali**:

In [None]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(
    filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]',
    *,
    sep: 'str | None | lib.NoDefault' = <no_default>,
    delimiter: 'str | None | lib.NoDefault' = None,
    header: "int | Sequence[int] | None | Literal['infer']" = 'infer',
    names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>,
    index_col: 'IndexLabel | Literal[False] | None' = None,
    usecols: 'UsecolsArgType' = None,
    dtype: 'DtypeArg | None' = None,
    engine: 'CSVEngine | None' = None,
    converters: 'Mapping[Hashable, Callable] | None' = None,
    true_values: 'list | None' = None,
    false_values: 'list | None' = None,
    skipinitialspace: 'bool' = False,
    skiprows: 'list[int] | int | Callable[[Hashable], bool] | None' = None,
    skipfooter: 'int' = 0,
    nrows: 'int | None' = None,
    na_values: 'Hashable | Iterable[Hashable] | Mapping[Hashable, Iterable[Hashable]] | None' = None,
  

> La lettura di un file *csv* rappresenta spesso una delle **prime attivit√†** di un Data Scientist e di un notebook. Sebbene essa possa sembrare banale, spesso invece rappresenta uno **scoglio iniziale**, fonte di **non poche frustrazioni**, per due ragioni:
> - i molti e non banali argomenti della funzione `read_csv`
> - le **irregoilarit√†** nei dati dei file

## Il mapping

La funzione `pd.read_csv` fa un **mapping** automatico dei dati CSV in pandas, come qui descritto:

![](how_pandas_infers_CSV_datatypes.png)

C'√® un problema, non citato nella slide: la funzione `read_csv` **non riesce spesso a inferire le variabili categoriche** (se presenti nel file CSV come stringhe), che vengono perci√≤ importate come `object`, il generico data type *stringa* di pandas. Come si vede, infatti:

In [None]:
df_credit.dtypes

Income       float64
Limit          int64
Rating         int64
Cards          int64
Age            int64
Education      int64
Gender        object
Student       object
Married       object
Ethnicity     object
Balance        int64
dtype: object

Le variabili `Gender`, `Student`, `Married` e `Ethnicity` sono **categoriche** perch√®, al di l√† del loro formato, possono assumere un numero finito e piccolo di valori, a differenza delle variabili **numeriche**, che possono assumere (almeno potenzialmente) un numero infinito di valori.

Ogni cella della variabile, se importata come `object`, **punta a una stringa in memoria, spesso duplicata pi√π volte**.

Occorre dunque **convertire** queste variabili in formato `category`, un data type atomico reso disponibile da *pandas* (non c'√® in Python base), nel seguente modo:

In [None]:
df_credit['Gender'] = df_credit['Gender'].astype('category')
df_credit.dtypes

Income        float64
Limit           int64
Rating          int64
Cards           int64
Age             int64
Education       int64
Gender       category
Student        object
Married        object
Ethnicity      object
Balance         int64
dtype: object

Il metodo *pandas* `astype('category')`:
- crea una **tabella di codifica interna** (i ‚Äúlevels‚Äù o ‚Äúcategories‚Äù),
- rappresenta la colonna come **interi** interni (0, 1, 2, ‚Ä¶) invece che stringhe ripetute.

Il funzionamento di `category` √® simile a quello del **fattore** di R.

üöÄ <font size="4">**Vantaggi principali** (di `category`)</font><br>

üîπ **Efficienza in memoria**<br>
Ogni valore diventa **un intero**, e la stringa viene **memorizzata una sola volta nella tabella delle categorie**.<br>
üëâ Su grandi dataset, il risparmio pu√≤ arrivare al 70‚Äì90% di RAM.
Esempio:
```python
df['citt√†'].memory_usage(deep=True)
df['citt√†'].astype('category').memory_usage(deep=True)
```
La seconda occupa molto meno spazio.

üîπ **Velocit√† di elaborazione**<br>
Molte operazioni pandas (`groupby`, `sort`, `value_counts`, `merges`) diventano **molto pi√π veloci**; infatti:
- confrontare interi √® pi√π rapido che confrontare stringhe,
- gli algoritmi di raggruppamento e join lavorano sui codici numerici.
üí° Tipico: `df.groupby('categoria').agg(...)` √® molto pi√π rapido se categoria √® `category`.

üîπ **Significato semantico**<br>
Una variabile categorica ha **un numero finito e noto di livelli**.<br>
Questo √® utile per:
- garantire che non compaiano valori ‚Äúfuori lista‚Äù (es. ‚ÄòFemmina‚Äô vs ‚ÄòF‚Äô),
- mantenere l‚Äôordine logico o gerarchico (es. Basso < Medio < Alto).<br>

Si pu√≤ anche definire esplicitamente l‚Äôordine, in questo modo:
```python
df['livello'] = pd.Categorical(df['livello'], categories=['basso','medio','alto'], ordered=True)
```

‚Üí utile per confronti, ordinamenti o encoding nel machine learning.

üîπ **Compatibilit√† ML e preprocessing**<br>
Molti algoritmi di machine learning o encoder (es. `sklearn.preprocessing.OrdinalEncoder`, `OneHotEncoder`) riconoscono category e la trattano subito come variabile discreta, **senza doverla prima convertire da object**.

---

‚ö†Ô∏è **Quando `category` non conviene?**
- se la colonna ha **molti valori unici** (es. un codice univoco o un ID cliente), la conversione non porta benefici: la tabella delle categorie sarebbe grande quanto la colonna stessa.
- se si modificano spesso i valori (aggiungendo nuove categorie), il tipo `category` √® meno flessibile.

üîç **Esempio pratico**:
```python
    import pandas as pd
    df = pd.DataFrame({
        'sesso': ['M','F','M','F','F']*100000
    })
    print(df['sesso'].memory_usage(deep=True))   # object
    df['sesso'] = df['sesso'].astype('category')
    print(df['sesso'].memory_usage(deep=True))   # category (molto meno!)
```

---

![](sintesi_category.png)<br>


## Gli argomenti della funzione `pd.read_csv`

Ecco un ottimo notebook di [illustrazione dei vari argomenti](https://github.com/nikitaprasad21/ML-Cheat-Codes/blob/main/Data-Gathering/CSV-(Comma-Separated-Values)-Files/csv_file_cheatcodes.ipynb) per `pd.read_csv` - **scaricato** nella directory di questo notebook

## La colonna `Unnamed: 0`
Vedi [questa chat](https://chatgpt.com/share/68f74bca-554c-8012-a844-7260ce18391d) di chatGPT.

# Problemi frequenti nel caricamento dei file CSV in pandas.

Ecco un elenco dei **problemi** pi√π comuni che si incontrano caricando **file CSV** con `pandas.read_csv()`, insieme a **cause** e **soluzioni tipiche**:

üß© **1. Colonne ‚ÄúUnnamed: 0‚Äù o ‚ÄúUnnamed: n‚Äù** - gi√† visto prima

<u>Problema</u>: appare una colonna indesiderata chiamata `Unnamed: 0`.<br>
<u>Causa</u>: spesso il CSV include un indice salvato da un precedente `DataFrame.to_csv()` (cio√® `index=True` di default).<br>
<u>Soluzione</u>:
```python
    pd.read_csv("file.csv", index_col=0)
    # oppure
    pd.read_csv("file.csv").drop(columns=["Unnamed: 0"])
```

‚öôÔ∏è **2. Delimitatori sbagliati** - gi√† visto prima

<u>Problema</u>: il file non viene separato correttamente (tutte le colonne finiscono in una sola).<br>
<u>Causa</u>: il separatore non √® la virgola ma punto e virgola ;, tab \t o altro.<br>
<u>Soluzione</u>:
```python
    pd.read_csv("file.csv", sep=";")      # per CSV europei
    pd.read_csv("file.csv", sep="\t")     # per file TSV
```

---
Un TSV (*Tab-Separated Values*) √® praticamente un CSV, ma invece del separatore `,` oppure `;`, usa il tabulatore `\t` come separatore di campo.
Si pu√† anche rilevare automaticamente:
```python
    pd.read_csv("file.csv", sep=None, engine="python")
```

üß© Quando si usa un TSV?
- quando i dati contengono molte virgole o punti e virgola (es. descrizioni di testo).
- quando il file √® esportato da sistemi Unix o database (es. PostgreSQL COPY TO, Excel ‚Üí ‚ÄúTesto con tabulazioni‚Äù).
- quando si vuole evitare ambiguit√† tra separatori decimali e di campo.

---

Il parametro `engine` in `pandas.read_csv()` serve a dire quale ‚Äúmotore di parsing‚Äù usare per leggere e interpretare il file CSV.<brr>
In pratica, Pandas ha **due diversi ‚Äúparser engine‚Äù** che fanno lo stesso lavoro (cio√® leggere il file e trasformarlo in DataFrame), ma **con caratteristiche e prestazioni diverse**.

1Ô∏è‚É£ **`engine="c"`** ‚Üí il parser ‚Äúveloce‚Äù (default)
- scritto in linguaggio C ‚Üí molto veloce
- √® quello usato di default in quasi tutti i casi.
- √® ottimo per file puliti e regolari.
- ma... √® meno flessibile: non supporta tutte le opzioni, e pu√≤ fallire su CSV ‚Äúsporchi‚Äù o complessi.

Esempio di uso:
```python
    pd.read_csv("file.csv", engine="c")
```

2Ô∏è‚É£ **`engine="python"`** ‚Üí il parser ‚Äúrobusto‚Äù
- scritto in puro Python ‚Üí pi√π lento, ma pi√π tollerante.
- supporta opzioni che il parser C non gestisce bene, come:
    - `sep=None` (cio√® **il rilevamento automatico del separatore**),
    - delimitatori multipli o irregolari,
    - linee malformate (on_bad_lines),
    - quote e caratteri speciali complessi.

Esempio d'uso:
```python
    pd.read_csv("file.csv", sep=None, engine="python")
```

üëâ Qui Pandas prova automaticamente a indovinare il separatore (',', ';', '\t', ecc.) analizzando le prime righe.

---

Torniamo all'elenco dei  problemi e soluzioni di `read_csv`.

üî§ **3. Encoding errato**

<u>Problema</u>: caratteri accentati o simboli speciali appaiono come ÔøΩ o danno errore `UnicodeDecodeError`.<br>
<u>Causa</u>: il file non √® in `UTF-8` ma in `latin1`, `cp1252`, ecc.<br>
<u>Soluzione</u>:
```python
    pd.read_csv("file.csv", encoding="latin1")
```

> Cos'√® `latin1`?
> - `latin1` (o `ISO-8859-1`) √® una codifica a 1 byte (8 bit) **molto usata in Europa occidentale** prima che UTF-8 diventasse standard.
> - contiene caratteri come:
>   - lettere accentate italiane: `√†`, `√®`, `√©`, `√¨`, `√≤`, `√π`, ...
>   - lettere spagnole/francesi/portoghesi: `√±`, `√ß`, `√°`, `√©`, `√µ`, ...
>   - vocali con dieresi tedesche: `√§`, `√∂`, `√º`, ...
>   - `√∏`, `√•` nordiche

> **MA** latin1 NON supporta:
> - emoji
> - simbolo euro `‚Ç¨`
> - caratteri greci, cirillici, arabi, cinesi, ecc.

> **Quindi `latin `√® "Europa occidentale anni '90".** Se incontra caratteri greci, cirillici, ecc spesso usa il famoso simbolo ÔøΩ o d√† l'errore `UnicodeDecodeError`.


<img src="ascii_latin1_utf_8.png" alt="immagine" width="600">


Test di **alcuni errori**, in vari passi:<br>
1. creiamo un `DataFrame` con caratteri tipici `latin1`

In [None]:
import pandas as pd

df = pd.DataFrame({
    "ID": [1, 2, 3],
    "Nome": ["Andr√©", "Jos√©", "Ana Mar√≠a"],
    "Citt√†": ["Torino", "M√°laga", "Z√ºrich"],
    "Note": [
        "pagato 50$ gi√† fatturato",              # 'latin1' estende ASCII, che conteneva il carattere '$', dunque anche 'latin1' lo accetta
        "a√±o siguiente -> revisi√≥n t√©cnica",
        "pi√π vecchio -> gi√† sostituito"
    ]
})


2. salviamo il `DataFrame` in CSV `latin1` (ISO-8859-1)

In [None]:
file_name = "clienti_latin1.csv"
df.to_csv(
    file_name,
    index=False,
    sep=";",             # mettiamo anche il separatore ; cos√¨ √® ancora pi√π realistico "alla europea"
    encoding="latin1"    # <-- punto chiave
)

print(f"Creato file {file_name} in encoding latin1")

Creato file clienti_latin1.csv in encoding latin1


3. proviamo a rileggerlo SENZA specificare encoding.<br>
Questo √® quello che di solito fa l'utente distratto:

In [None]:
try:
    df_fail = pd.read_csv(file_name, sep=";")  # nessun encoding passato, cio√® default = UTF-8
    print("Letto senza errori?! Ecco le prime righe:")
    print(df_fail.head())
except UnicodeDecodeError as e:
    print("‚ö†Ô∏è Errore di decodifica previsto leggendo senza encoding esplicito:")
    print(e)

‚ö†Ô∏è Errore di decodifica previsto leggendo senza encoding esplicito:
'utf-8' codec can't decode byte 0xe0 in position 12: invalid continuation byte


4. d√† errore: vogliamo leggere un file `latin1` come `utf-8`.<br>
soluzione corretta: leggiamo specificando `encoding=latin1`

In [None]:
df_ok = pd.read_csv(file_name, sep=";", encoding="latin1")
print("\nüí° Lettura corretta con encoding='latin1':")
print(df_ok.head())



üí° Lettura corretta con encoding='latin1':
   ID       Nome   Citt√†                               Note
0   1      Andr√©  Torino           pagato 50$ gi√† fatturato
1   2       Jos√©  M√°laga  a√±o siguiente -> revisi√≥n t√©cnica
2   3  Ana Mar√≠a  Z√ºrich      pi√π vecchio -> gi√† sostituito


5. e cosa succede con il seguente dataframe, che contiene il carattere `‚Ç¨` (anzich√® `$`), che non fa parte n√® di `Ascii` n√® di `latin1`?

In [None]:
import pandas as pd

df = pd.DataFrame({
    "ID": [1, 2, 3],
    "Nome": ["Andr√©", "Jos√©", "Ana Mar√≠a"],
    "Citt√†": ["Torino", "M√°laga", "Z√ºrich"],
    "Note": [
        "pagato 50‚Ç¨ gi√† fatturato",
        "a√±o siguiente -> revisi√≥n t√©cnica",
        "pi√π vecchio -> gi√† sostituito"
    ]
})

Il seguente codice va in errore:

In [1]:
file_name = "clienti_latin1.csv"
df.to_csv(
    file_name,
    index=False,
    sep=";",             # mettiamo anche il separatore ; cos√¨ √® ancora pi√π realistico "alla europea"
    encoding="latin1"    # <-- punto chiave
)

print(f"Creato file {file_name} in encoding latin1")

NameError: name 'df' is not defined

6. d√† errore, perch√® `latin1` non contiene il carattere `‚Ç¨`.<br>
Occorre scrivere in `utf-8`:

In [None]:
file_name = "clienti_latin1.csv"
df.to_csv(
    file_name,
    index=False,
    sep=";",             # mettiamo anche il separatore ; cos√¨ √® ancora pi√π realistico "alla europea"
    encoding="utf-8"    # <-- punto chiave
)

print(f"Creato file {file_name} in encoding latin1")

Creato file clienti_latin1.csv in encoding latin1


üìâ **4. Tipo di dato non corretto**

<u>Problema</u>: colonne numeriche importate come stringhe (`object`).<br>
<u>Causa</u>: presenza di separatori migliaia, simboli, o celle vuote.<br>
<u>Soluzione</u>:
```python
    pd.read_csv("file.csv", thousands=".", decimal=",")
```
oppure dopo la lettura:
```python
    df["col"] = pd.to_numeric(df["col"], errors="coerce")
```

In [None]:
import pandas as pd

################################################
# 1. CREAZIONE CSV CON FORMATTAZIONE "EUROPEA" #
################################################

# Nota:
# - "1.234,50" = mille duecentotrentaquattro virgola cinquanta
# - "2.000"    = duemila (intero)
# - ""         = cella vuota -> valore mancante

df_orig = pd.DataFrame({
    "Prodotto": ["A123", "B777", "C900", "D010"],
    "PrezzoUnitario": ["1.234,50", "99,99", "", "2.000,00"],
    "Quantit√†": ["1.000", "250", "", "1.500"]
})

csv_name = "prezzi_legacy.csv"

# Salviamo come CSV con ';' perch√© √® molto comune negli export amministrativi italiani
df_orig.to_csv(
    csv_name,
    index=False,
    sep=";",
    encoding="utf-8"
)

print(f"[OK] Creato file CSV '{csv_name}' con separatori migliaia '.' e decimali ','.\n")



[OK] Creato file CSV 'prezzi_legacy.csv' con separatori migliaia '.' e decimali ','.



In [None]:
###################################
# 2. LETTURA SBAGLIATA (DEFAULT)  #
###################################

print("=== LETTURA SBAGLIATA (senza thousands/decimal) ===")

df_bad = pd.read_csv(
    csv_name,
    sep=";"          # leggiamo correttamente il separatore di colonna
    # ma NON diciamo a pandas come interpretare i numeri (migliaia e decimali)
)

print("\nDataFrame letto (sbagliato):")
print(df_bad)

print("\nTipi di dato dopo lettura sbagliata:")
print(df_bad.dtypes)

# Prova operazioni numeriche: qui 'Quantit√†' e 'PrezzoUnitario' sono ancora stringhe (object)
print("\nProvo a sommare la colonna Quantit√† (che √® testo):")
try:
    print(df_bad["Quantit√†"].sum())
except Exception as e:
    print("Errore durante la somma:", e)

=== LETTURA SBAGLIATA (senza thousands/decimal) ===

DataFrame letto (sbagliato):
  Prodotto PrezzoUnitario  Quantit√†
0     A123       1.234,50       1.0
1     B777          99,99     250.0
2     C900            NaN       NaN
3     D010       2.000,00       1.5

Tipi di dato dopo lettura sbagliata:
Prodotto           object
PrezzoUnitario     object
Quantit√†          float64
dtype: object

Provo a sommare la colonna Quantit√† (che √® testo):
252.5


**Perch√© `PrezzoUnitario` √® `object` in `df_bad.dtypes` (anzich√® `float`)?**

Per tre motivi insieme:<br>

**1. Il separatore decimale √® una virgola, non un punto**<br>
*Esempio*: *1.234,50*<br>
per pandas (senza istruzioni extra), *1.234,50* non √® un numero valido, **√® una stringa**.<br>
pandas si aspetta infatti *1234.50* (punto per i decimali, niente separatore migliaia).<br>
Quindi lo lascia come stringa di testo (`object`).

**2. C'√® il separatore delle migliaia `.`**<br>
Guarda *2.000,00*:<br>
l'ideale per pandas sarebbe *2000.00*<br>
invece trova *2.000,00*, che sembra ‚Äú2 punto 000 virgola 00‚Äù.<br>
Per il parser standard questo non √® un float valido ‚Üí resta stringa (`object`).

Stessa cosa per *1.000* nella colonna `Quantit√†`: pandas non sa se √® ‚Äúmille‚Äù oppure ‚Äúuno virgola zero zero zero‚Äù.<br>
Quindi preferisce NON indovinare e la tiene testo (`object`).

**3. Ci sono celle vuote**<br>
Nella colonna hai valori tipo "" (stringa vuota).<br>
Quindi dentro la stessa colonna hai:
- *1.234,50* (testo)
- *99,99* (testo)
- "" (testo vuoto)
- *2.000,00* (testo)

Colonna eterogenea ‚Üí pandas dice: ‚Äúok, tutto `object` (stringhe) e non parliamone pi√π‚Äù.

Se tutti i valori fossero numeri chiari in stile inglese (1234.50, 99.99, 2000.00, ecc.) allora pandas avrebbe inferito `float64` da solo.

In [None]:
#############################################
# 3. LETTURA CORRETTA (parsing in ingresso) #
#############################################

print("\n\n=== LETTURA CORRETTA (thousands='.', decimal=',') ===")

df_good = pd.read_csv(
    csv_name,
    sep=";",
    thousands=".",  # rimuovi separatore migliaia
    decimal=","     # interpreta la virgola come separatore decimale
)

print("\nDataFrame letto (corretto):")
print(df_good)

print("\nTipi di dato dopo lettura corretta:")
print(df_good.dtypes)

print("\nSomma Quantit√† (ora numerica):")
print(df_good["Quantit√†"].sum())

print("\nSomma PrezzoUnitario (notare i NaN dove c'erano celle vuote):")
print(df_good["PrezzoUnitario"].sum())



=== LETTURA CORRETTA (thousands='.', decimal=',') ===

DataFrame letto (corretto):
  Prodotto  PrezzoUnitario  Quantit√†
0     A123         1234.50    1000.0
1     B777           99.99     250.0
2     C900             NaN       NaN
3     D010         2000.00    1500.0

Tipi di dato dopo lettura corretta:
Prodotto           object
PrezzoUnitario    float64
Quantit√†          float64
dtype: object

Somma Quantit√† (ora numerica):
2750.0

Somma PrezzoUnitario (notare i NaN dove c'erano celle vuote):
3334.49


üßæ **5. Header non nella prima riga** - gi√† visto prima

<u>Problema</u>: i nomi di colonna non vengono letti correttamente.<br>
<u>Causa</u>: il file ha righe descrittive o metadati iniziali.<br>
<u>Soluzione</u>:
```python
    pd.read_csv("file.csv", header=2)   # se l‚Äôintestazione √® alla terza riga
```

In [None]:
# creazione del file csv
import csv

file_name = "dati_commentati.csv"

with open(file_name, "w", newline="", encoding="utf-8") as f:
    # Scrivo manualmente due righe iniziali commentate
    f.write("# Questo file contiene dati di esempio\n")
    f.write("# Formato: ID,Nome,Valore\n")

    writer = csv.writer(f, delimiter=";")

    # Header vero e proprio
    writer.writerow(["ID", "Nome", "Valore"])

    # 3 righe di dati
    writer.writerow([1, "Alpha", 10.5])
    writer.writerow([2, "Beta", 20.0])
    writer.writerow([3, "Gamma", 7.25])

print(f"Creato file {file_name}")


Creato file dati_commentati.csv


In [2]:
# lettura errata
pd.read_csv(file_name)

NameError: name 'pd' is not defined

In [None]:
# lettura corretta
pd.read_csv(
    file_name,
    sep=";",        # separatore di colonna
    header=2)       # l'header √® nella terza riga (python conta da 0)


Unnamed: 0,ID,Nome,Valore
0,1,Alpha,10.5
1,2,Beta,20.0
2,3,Gamma,7.25


In [None]:
# lettura elegante

df = pd.read_csv(
    "dati_commentati.csv",
    sep=";",        # separatore di campo
    comment="#"     # ignora tutte le righe che iniziano con '#'
)

print(df)
print(df.dtypes)

   ID   Nome  Valore
0   1  Alpha   10.50
1   2   Beta   20.00
2   3  Gamma    7.25
ID          int64
Nome       object
Valore    float64
dtype: object


ü™ì **6. File troppo grande**

<u>Problema</u>: `MemoryError` o caricamento lentissimo.<br>
<u>Causa</u>: CSV molto grande rispetto alla RAM.<br>
<u>Soluzione</u>:

Caricamento a **chunk**:
```python
    for chunk in pd.read_csv("file.csv", chunksize=100000):
        process(chunk)                                        # 'process' √® una funzione utente
```

Vediamo il **funzionamento dei *chunk*** in <u>due parti</u>:

**1. la lettura interna**:
```python
    pd.read_csv(..., chunksize=100000)
```

Normalmente la funzione `pd.read_csv("file.csv")` **legge tutto il file in RAM** e restituisce **un unico `DataFrame`**.<br>
Con `chunksize=100000`, invece, pandas NON carica tutto.<br>
Restituisce un **`iterator`** (un generatore) che produce un `DataFrame` alla volta, ciascuno con **al massimo 100000 righe**.

Quindi:
- primo ciclo ‚Üí righe 0‚Äì99999
- secondo ciclo ‚Üí righe 100000‚Äì199999
- terzo ciclo ‚Üí ecc.

‚Ä¶fino a fine file.

‚ö†Ô∏è Questo vuol dire che **in memoria, in ogni momento, ci sono solo 100k righe**, non milioni/miliardi. E' perfetto se **il file √® troppo grande per stare tutto in RAM**.

**2. il ciclo esterno**:
```python
    for chunk in ... :
```

`chunk` √® un `DataFrame` pandas ‚Äúparziale‚Äù, cio√® una fetta del CSV.<br>
Il `for` cicla su tutte le fette del file, una dopo l‚Äôaltra.


üß™ Vediamo **un esempio concreto**, in due passi:
- definiamo una **funzione per creare il file csv**, <u>in due varianti</u>:
    - la versione <u>piccola</u> della funzione (10 righe) ‚Äî utile da guardare a occhio
    - la versione <u>grande</u> della funzione (1_000_000 righe) ‚Äî utile per i test seri su `chunk`
    - si pu√≤ scegliere quale versione usare cambiando solo l'argomento `n_righe` alla chiamata.
- processiamo a chunk per **calcolare la somma globale della colonna `Importo`**

In [None]:
# PASSO 1: definizione di una funzione che serve a creare un CSV di grandi dimensioni per testare il caricamento a chunk

import csv
import random
import datetime

def crea_csv_grande(
    file_name="transazioni_grandi.csv",      # default
    n_righe=1_000_000,                       # default  (1_000_000: sintassi sugar per rendere il numero pi√π leggibile)
    seed=42                                  # default
):
    """
    Crea un CSV con molte righe, con le colonne:
    ID, DataOperazione, Categoria, Importo

    - ID: intero progressivo
    - DataOperazione: data fittizia
    - Categoria: tipo transazione (es. Vendita / Rimborso / Spesa)
    - Importo: float positivo o negativo
    """

    random.seed(seed)

    categorie = [
        "Vendita",
        "Rimborso",
        "Spesa Marketing",
        "Spesa Fornitore",
        "Abbonamento",
        "Servizio"
    ]

    start_date = datetime.date(2024, 1, 1)

    # Creo il file CSV
    with open(file_name, "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f, delimiter=",")

        # Header
        writer.writerow(["ID", "DataOperazione", "Categoria", "Importo"])

        for i in range(1, n_righe + 1):
            # data = start_date + offset giorni
            data_operazione = start_date + datetime.timedelta(days=i % 365)

            categoria = random.choice(categorie)

            # Importo:
            # - vendite positive tra 10 e 500
            # - rimborsi negativi tra -200 e -5
            # - spese negative tra -1000 e -20
            if categoria == "Vendita" or categoria == "Abbonamento" or categoria == "Servizio":
                importo = round(random.uniform(10, 500), 2)
            elif categoria == "Rimborso":
                importo = round(random.uniform(-200, -5), 2)
            else:
                # Spesa Marketing / Spesa Fornitore
                importo = round(random.uniform(-1000, -20), 2)

            writer.writerow([
                i,
                data_operazione.isoformat(),  # tipo 2024-03-15
                categoria,
                importo
            ])

    print(f"Creato file CSV '{file_name}' con {n_righe} righe.")

# Esempio di utilizzo della funzione (il MAIN)
# if __name__ == "__main__": serve per dire:
# - "esegui questo blocco di codice solo se sto lanciando direttamente questo file, e NON se lo sto importando da un altro file".

if __name__ == "__main__":
    # VERSIONE DEMO PICCOLA (per guardarlo a occhio)
    crea_csv_grande("transazioni_demo.csv", n_righe=10)

    # VERSIONE GROSSA (per testare chunksize ecc.)
    # ATTENZIONE: questo crea ~1 milione di righe.
    # Cambia questo numero come vuoi.
    crea_csv_grande("transazioni_grandi.csv", n_righe=1_000_000)   # 1_000_000: sintassi sugar


Creato file CSV 'transazioni_demo.csv' con 10 righe.
Creato file CSV 'transazioni_grandi.csv' con 1000000 righe.


In [None]:
# PASSO 2: processo a chunk:

totale = 0.0

for chunk in pd.read_csv("transazioni_grandi.csv", chunksize=100_000):   # sintassi numerica sugar
    totale += chunk["Importo"].sum()

print("Totale Importo:", totale)


Totale Importo: -59772293.91


Il codice della cella precedente d√† **la somma globale della colonna `Importo`** senza mai caricare tutto il milione di righe in RAM in un solo colpo ‚úÖ

---

**Commento al risultato NUMERICO ottenuto**<br>

Il dataset che abbiamo creato prima ha sia entrate che uscite.<br>
Nel generatore CSV avevamo questa logica:
- Categorie tipo `Vendita`, `Abbonamento`, `Servizio` ‚Üí importi **positivi** (ricavi, +10 a +500)
- Categorie tipo `"Rimborso"` ‚Üí importi **negativi** (rimborsi al cliente, -5 a -200)
- `Spesa Marketing` e `Spesa Fornitore` ‚Üí importi **negativi grandi** (costi, tra -1000 e -20)

Quindi:
- le vendite portano soldi dentro,
- le spese e i fornitori drenano soldi fuori,
- e spesso i costi sono in valore assoluto pi√π grandi delle vendite.

Se nel campione ci sono tante righe di costo rispetto alle vendite, il saldo finale va gi√π pesante ‚Üí da qui il totale molto negativo tipo `-59,772,293.91.`

Tradotto in business: **stiamo spendendo pi√π di quanto incassiamo** üòÖ.

√à un risultato ‚Äúnormale‚Äù?<br>
**S√¨, √® coerente con la generazione casuale**:
- gli importi negativi possibili arrivano fino a -1000
- gli importi positivi arrivano solo fino a +500

Quindi anche se met√† righe fossero vendite e met√† spese, la parte spese vince comunque in valore assoluto.

---

üßÆ **7. Colonne con valori mancanti o disallineati**

<u>Problema</u>: righe con numero diverso di colonne, errore tipo `ParserError: Error tokenizing data`.<br>
<u>Causa</u>: virgolette non chiuse o separatori dentro i campi.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", on_bad_lines="skip", quoting=csv.QUOTE_NONE)
```

Oppure controllare i delimitatori.

Segue il codice in 3 passi (per ognuno dei due errori):
- creazione del file csv
- lettura errata (voluta)
- lettura robusta

In [None]:
# -----------------------------------
# 1) CSV con VIRGOLETTE NON CHIUSE  -
# -----------------------------------
content_unclosed = """id,name,amount,notes
1,Mario Rossi,1200,OK
2,Luigi Bianchi,950,pagato
3,Carla Verdi,800,"nota con virgolette non chiuse
4,Paolo Neri,700,ok
"""

file_unclosed = "csv_virgolette_non_chiuse.csv"
with open(file_unclosed, "w", encoding="utf-8", newline="") as f:
    f.write(content_unclosed)

# ----------------------------------------------------
# 2) CSV con SEPARATORI DENTRO I CAMPI (non quotati) -
# ----------------------------------------------------
# header: 4 colonne
content_separators = """id,name,city,amount
1,Mario Rossi,Milano,1200
2,Luigi Bianchi,Roma,900
3,Carla Verdi,Milano, Italia,800
4,Paolo Neri,Torino,700
"""

file_separators = "csv_separatori_dentro_campi.csv"
with open(file_separators, "w", encoding="utf-8", newline="") as f:
    f.write(content_separators)

print("‚úÖ creati i due file CSV di test")


‚úÖ creati i due file CSV di test


In [None]:
# ==========================
# TEST di LETTURA file 1   =
# ==========================

print("\n=== 1) TEST: virgolette non chiuse ===")
try:
    df1 = pd.read_csv(file_unclosed)
    print(df1)
except Exception as e:
    print("‚ùå errore atteso (virgolette non chiuse):")
    print(e)





=== 1) TEST: virgolette non chiuse ===
‚ùå errore atteso (virgolette non chiuse):
Error tokenizing data. C error: EOF inside string starting at row 3


In [None]:
# ===============================
# lettura 'robusta' del file 1  =
# ===============================
df1_ok = pd.read_csv(
    file_unclosed,
    on_bad_lines="skip",
    quoting=csv.QUOTE_NONE,
    engine="python",
)
print("\n‚úÖ lettura robusta (file 1):")
print(df1_ok)


‚úÖ lettura robusta (file 1):
   id           name  amount                            notes
0   1    Mario Rossi    1200                               OK
1   2  Luigi Bianchi     950                           pagato
2   3    Carla Verdi     800  "nota con virgolette non chiuse
3   4     Paolo Neri     700                               ok


`quoting = csv.QUOTE_NONE`:<br>
serve proprio a dirgli: ‚Äúnon trattare le virgolette (") come qualcosa di speciale, considerale testo normale‚Äù.

Perch√© abbiamo messo anche `engine="python"`?<br>
Perch√© con CSV sporchi, il parser C √® **molto veloce ma meno tollerante**; quello Python **√® pi√π ‚Äúpaziente‚Äù** e, <u>combinato con on_bad_lines="skip" e quoting=csv.QUOTE_NONE</u>, permette di saltare solo le righe storte e caricare il resto.

In [None]:
# ==========================
# TEST di LETTURA file 2   =
# ==========================

print("\n=== 2) TEST: separatori dentro i campi ===")
try:
    df2 = pd.read_csv(file_separators)
    print(df2)
except Exception as e:
    print("‚ùå errore atteso (troppi separatori):")
    print(e)


=== 2) TEST: separatori dentro i campi ===
‚ùå errore atteso (troppi separatori):
Error tokenizing data. C error: Expected 4 fields in line 4, saw 5



In [None]:
# ===============================
# lettura 'robusta' del file 2  =
# ===============================

df2_ok = pd.read_csv(
    file_separators,
    on_bad_lines="skip",
    quoting=csv.QUOTE_NONE,
    engine="python",
)
print("\n‚úÖ lettura robusta (file 2):")
print(df2_ok)


‚úÖ lettura robusta (file 2):
   id           name    city  amount
0   1    Mario Rossi  Milano    1200
1   2  Luigi Bianchi    Roma     900
2   4     Paolo Neri  Torino     700


üß† **8. Date non interpretate correttamente**

<u>Problema</u>: le date restano stringhe o sono nel formato errato.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", parse_dates=["data"])
```

oppure
```python
df["data"] = pd.to_datetime(df["data"], dayfirst=True)
```

Creiamo un CSV con deliberatamente dentro date mischiate (italiane, americane, con testo, con ore) cos√¨ `read_csv` non le riconosce e le lascia come `object`.

In [None]:
# 1. Creazione CSV con date "brutte"
# CSV "cattivo": formati data diversi ‚Üí pandas non riesce a unificarli

from datetime import datetime

csv_text = """data;descrizione;importo
01/02/2025;Fattura cliente A;120.50
2025-02-01;Fattura cliente B;85.00
12/31/2024;Formato USA;15.75
31/12/2024;Chiusura anno;999.99
2025/02/01 14:30;Con orario;50.00
;Data mancante;0.00
non-data;Valore sporco;5.25
"""

with open("date_mischiate.csv", "w", encoding="utf-8", newline="") as f:
    f.write(csv_text)

print("‚úÖ creato date_mischiate.csv\n")

‚úÖ creato date_mischiate.csv



E' un file CSV con date miste.

Ora facciamo la lettura ‚Äúingenua‚Äù (pandas non capisce le date e le lascia `object`):

In [None]:
# 2. Lettura "sbagliata" / ingenua
df_raw = pd.read_csv("date_mischiate.csv", sep=";")
print("üî¥ LETTURA INGENUA")
print(df_raw.dtypes)
print(df_raw, "\n")

üî¥ LETTURA INGENUA
data            object
descrizione     object
importo        float64
dtype: object
               data        descrizione  importo
0        01/02/2025  Fattura cliente A   120.50
1        2025-02-01  Fattura cliente B    85.00
2        12/31/2024        Formato USA    15.75
3        31/12/2024      Chiusura anno   999.99
4  2025/02/01 14:30         Con orario    50.00
5               NaN      Data mancante     0.00
6          non-data      Valore sporco     5.25 



`data` √® `object` ‚Üí cio√® stringa.<br>
Adesso le due soluzioni:

Soluzione 1 ‚Äì direttamente in `read_csv`

In [None]:
# =========================================
# 3) LETTURA con parse_dates
#    ‚Üí con queste date miste, pandas si arrende
#    ‚Üí data RESTA object
# =========================================
df_auto = pd.read_csv(
    "date_mischiate.csv",
    sep=";",
    parse_dates=["data"],
    dayfirst=True
)
print("üü† LETTURA CON parse_dates (pandas non ce la fa)")
print(df_auto.dtypes)
print(df_auto, "\n")
# üëâ data = object
#    perch√© nel file ci sono: dd/mm/yyyy, ISO, mm/dd/yyyy, con orario, vuote, testo...


üü† LETTURA CON parse_dates (pandas non ce la fa)
data            object
descrizione     object
importo        float64
dtype: object
               data        descrizione  importo
0        01/02/2025  Fattura cliente A   120.50
1        2025-02-01  Fattura cliente B    85.00
2        12/31/2024        Formato USA    15.75
3        31/12/2024      Chiusura anno   999.99
4  2025/02/01 14:30         Con orario    50.00
5               NaN      Data mancante     0.00
6          non-data      Valore sporco     5.25 



In [None]:
# =========================================
# 4) LETTURA ROBUSTA (quella che DEVE riuscire)
#    ‚Üí leggiamo come stringa
#    ‚Üí convertiamo noi una per una
# =========================================

# definizione di una funzione di parsing "flessibile"
def parse_flessibile(x: str):
    if pd.isna(x) or x == "":
        return pd.NaT
    # proviamo pi√π formati noti
    for fmt in ("%d/%m/%Y", "%Y-%m-%d", "%m/%d/%Y", "%Y/%m/%d %H:%M", "%d/%m/%Y %H:%M"):
        try:
            return datetime.strptime(x, fmt)
        except ValueError:
            continue
    return pd.NaT   # quello che proprio non √® data

#la apply sulla colonna "data"
df_ok = pd.read_csv("date_mischiate.csv", sep=";")
df_ok["data"] = df_ok["data"].apply(parse_flessibile)

print("üü¢ LETTURA ROBUSTA (dopo apply)")
print(df_ok.dtypes)
print(df_ok)

üü¢ LETTURA ROBUSTA (dopo apply)
data           datetime64[ns]
descrizione            object
importo               float64
dtype: object
                 data        descrizione  importo
0 2025-02-01 00:00:00  Fattura cliente A   120.50
1 2025-02-01 00:00:00  Fattura cliente B    85.00
2 2024-12-31 00:00:00        Formato USA    15.75
3 2024-12-31 00:00:00      Chiusura anno   999.99
4 2025-02-01 14:30:00         Con orario    50.00
5                 NaT      Data mancante     0.00
6                 NaT      Valore sporco     5.25


Vediamo **riga per riga** cosa fa il codice della cella precedente:

1. `def parse_flessibile(x: str):`<br>
definisce una funzione che riceve **una sola cella** (una stringa) e restituisce una **data** oppure `NaT`.

2. `if pd.isna(x) or x == "":`<br>
se la cella √® vuota (`""`) oppure √® un NA (`NaN` letto da pandas) ‚Üí non prova nemmeno ‚Üí **restituisce** `pd.NaT`.<br>
(`pd.NaT` = Not A Time, l‚Äôequivalente di `NaN` ma per le date.)

3. `for fmt in (...):`<br>
qui c‚Äô√® la lista dei **formati che vuole provare**, in ordine:
    - `"%d/%m/%Y"` ‚Üí 31/12/2024 (italiano)
    - `"%Y-%m-%d"` ‚Üí 2025-02-01 (ISO)
    - `"%m/%d/%Y"` ‚Üí 12/31/2024 (americano)
    - `"%Y/%m/%d %H:%M"` ‚Üí 2025/02/01 14:30
    - `"%d/%m/%Y %H:%M"` ‚Üí 31/12/2024 09:15

    L‚Äôidea √®: ‚Äúnon sa il formato ‚Üí li prova tutti‚Äù.

4. `try: return datetime.strptime(x, fmt)`<br>
prova a convertire *quella singola stringa* col formato corrente.
- se **funziona** ‚Üí esce subito dalla funzione (`return`) ed abbiamo la `datetime`
- se **non funziona** ‚Üí scatta il `ValueError` ‚Üí va nell‚Äô`except`

5. `except ValueError: continue`<br>
cio√®: ‚Äúok, con questo formato non andava ‚Üí prova il prossimo‚Äù.

6. `return pd.NaT` (**alla fine**)<br>
se provati **tutti** i formati e nessuno ha funzionato ‚Üí quella riga non √® una data ‚Üí la si marca come vuota (`NaT`).

---

**Perch√© c‚Äô√® l‚Äôapply**??
```python
df_ok = pd.read_csv("date_mischiate.csv", sep=";")
df_ok["data"] = df_ok["data"].apply(parse_flessibile)
```

- `read_csv(...)` legge tutta la colonna come stringhe (perch√© erano tutte diverse).
- `df_ok["data"].apply(parse_flessibile)` vuol dire:<br>
    ‚Äúper **ogni riga** della colonna `data` esegue `parse_flessibile(...)`‚Äù.
- il risultato √® **una nuova Series di tipo `datetime`** (con dentro anche dei `NaT`).
- la riassegna a `df_ok["data"]` ‚Üí la colonna diventa davvero `datetime64[ns]`.

√à il trucco classico: **quando `parse_dates` non basta** ‚Üí si fa la `apply`.

---

**Perch√© non abbiamo usato solo `pd.to_datetime(...)`?**

Potevamo fare:
```python
df_ok["data"] = pd.to_datetime(df_ok["data"], dayfirst=True, errors="coerce")
```

e in molti casi va bene.<br>
Qui per√≤ avevamo formati sia italiani sia americani, sia con orario che no. `to_datetime` da solo a volte indovina, a volte no.<br>
Con questa funzione di parsing, invece, decidiamo noi l‚Äôordine dei formati.<br>
Esempio: prima prova italiano, poi americano ‚Üí cos√¨ non sbaglia 03/04/2025.

---

**Cosa succede alle righe ‚Äúsporche‚Äù?**
- `""` ‚Üí `NaT`
- `"non-data"` ‚Üí nessun formato lo capisce ‚Üí `NaT`
- `"2025/02/01 14:30"` ‚Üí lo becca al 4¬∞ formato ‚Üí diventa una vera `datetime`
- `"12/31/2024"` ‚Üí lo becca al 3¬∞ formato ‚Üí ok
- `"31/12/2024"` ‚Üí lo becca al 1¬∞ formato ‚Üí ok

---

```python
print(df_ok.dtypes)
```

data           datetime64[ns]<br>
descrizione            object<br>
importo               float64<br>
dtype: object<br>

E' questo il risultato che volevamo fin dall‚Äôinizio: la colonna non √® pi√π `object`, √® una colonna di date üí™

---

**RIASSUNTO FINALE del punto 8**

Se le date sono **tutte nello stesso formato** ‚Üí<br>
`pd.read_csv(..., parse_dates=["data"])` va benissimo.

Se le date hanno **formati diversi ma ‚Äúsimili‚Äù** (tutte europee, o tutte ISO) ‚Üí<br>
si pu√≤ leggere normalmente e poi fare:<br>
    ```python
    df["data"] = pd.to_datetime(df["data"], dayfirst=True, errors="coerce")
    ```

spesso basta.

Se le date sono proprio **eterogenee** (eu, usa, con ora, vuote, testo) ‚Üí<br>
`parse_dates` da solo non basta, e a volte nemmeno `to_datetime(...)` indovinato;<br>
allora conviene una **funzione di parsing flessibile** che provi pi√π formati.

**Regola pratica:**<br>
1 formato ‚Üí `parse_dates`<br>
pochi formati ‚Üí `to_datetime`<br>
formati misti/sporchi ‚Üí **funzione custom** ‚úÖ

‚¨ú **9. Duplicati o whitespace nei nomi colonna**

<u>Problema</u>: nomi con spazi o duplicati (`'Nome '` ‚â† `'Nome'`).<br>
<u>Soluzione</u>:
```python
df.columns = df.columns.str.strip()
```

In [None]:
# 1) creo un CSV con nomi colonna con spazi
csv_text = """  data  ;  nome cliente ; importo ;  note
01/02/2025;Mario Rossi;120.50;pagato
02/02/2025;  Anna Bianchi ;89.00;ritardo
03/02/2025;ACME S.p.A.;250.00;
"""

file_name = "con_spazi.csv"
with open(file_name, "w", encoding="utf-8", newline="") as f:
    f.write(csv_text)

print(f"‚úÖ creato {file_name}")

‚úÖ creato con_spazi.csv


In [None]:
# 2) lettura "normale" ‚Üí i nomi sono sporchi
df = pd.read_csv(file_name, sep=";")
print("üîé colonne lette (sporche):")
print(repr(df.columns.tolist()))

üîé colonne lette (sporche):
['  data  ', '  nome cliente ', ' importo ', '  note ']


In [None]:
# 3) pulizia nomi colonna
df.columns = df.columns.str.strip()

print("\n‚úÖ colonne dopo strip():")
print(repr(df.columns.tolist()))

print("\nüìÑ dataframe finale:")
print(df)


‚úÖ colonne dopo strip():
['data', 'nome cliente', 'importo', 'note']

üìÑ dataframe finale:
         data     nome cliente  importo     note
0  01/02/2025      Mario Rossi    120.5   pagato
1  02/02/2025    Anna Bianchi      89.0  ritardo
2  03/02/2025      ACME S.p.A.    250.0      NaN


**Cosa √® successo?**
- prima di `strip()` le colonne sono tipo:<br>
[*'  data  ', '  nome cliente ', ' importo ', '  note ']*<br>
- dopo:<br>
*['data', 'nome cliente', 'importo', 'note']*<br>

Quindi se si vuole fare:
    ```python
    df["data"]
    ```
ora funziona, mentre prima si sarebbe dovuto scrivere `df[" data "]` e non √® bello üòÖ

üß± **10. Quote e caratteri speciali**

<u>Problema</u>: CSV con virgolette interne, doppie virgolette, ecc.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", quotechar='"', escapechar='\\')
```

Vediamo il solito flusso (come per gli errori precedenti), in questo caso con 4 passi:
- creiamo un CSV **volutamente sporco, ma non abbastanza --> riesce a leggerlo
(con virgolette dentro, virgolette raddoppiate, backslash‚Ä¶)**
- proviamo la **lettura ingenua** ‚Üí si incarta / va in errore / spezza le colonne
- facciamo la **lettura robusta** ‚Üí `quotechar='"'`, `escapechar='\\'`, e volendo anche `engine="python"` per stare larghi.

In [None]:
from pathlib import Path

# =========================================================
# CASO A - CSV "sporco ma leggibile"
# ---------------------------------------------------------
# Qui vogliamo mostrare che: anche se ci sono virgolette interne
# e backslash, la lettura ingenua *potrebbe* funzionare comunque.
# =========================================================

file_ok = "csv_sporco_ok.csv"

csv_ok = (
    # riga 1
    'id,descrizione,note\n'
    # riga 2
    '1,"Martello, 500g","tutto ok"\n'
    # riga 3 - qui c'√® il backslash + virgolette: \"piatto\"
    '2,"Cacciavite \\"piatto\\"","virgolette con backslash (\\")"\n'
    # riga 4 - virgolette raddoppiate stile CSV
    '3,"Set ""professionale"" 24 pz","virgolette raddoppiate nel campo descrizione"\n'
    # riga 5 - percorso Windows
    '4,"C:\\\\attrezzi\\\\nuovo","percorso Windows con backslash"\n'
)

Path(file_ok).write_text(csv_ok, encoding="utf-8")
print(f"‚úÖ Scritto {file_ok}")
print(csv_ok)

print("\n=== CASO A - LETTURA INGENUA (funziona) ===")
# üëâ QUI *NON* mettiamo n√© quotechar n√© escapechar
df_ok_naive = pd.read_csv(file_ok)
print(df_ok_naive)


‚úÖ Scritto csv_sporco_ok.csv
id,descrizione,note
1,"Martello, 500g","tutto ok"
2,"Cacciavite \"piatto\"","virgolette con backslash (\")"
3,"Set ""professionale"" 24 pz","virgolette raddoppiate nel campo descrizione"
4,"C:\\attrezzi\\nuovo","percorso Windows con backslash"


=== CASO A - LETTURA INGENUA (funziona) ===
   id                descrizione                                          note
0   1             Martello, 500g                                      tutto ok
1   2      Cacciavite \piatto\""                 virgolette con backslash (\)"
2   3  Set "professionale" 24 pz  virgolette raddoppiate nel campo descrizione
3   4        C:\\attrezzi\\nuovo                percorso Windows con backslash


Come si vede:
- la lettura ingenua del file `csv_sporco_ok.csv` **ha funzionato** (anche senza `quotechar` + `escapechar` )
- cio√®, la lettura ‚Äúnon sempre d√† errore, ma √® meglio specificare‚Äù con `quotechar` + `escapechar`

Ovviamente, a fortiori la lettura robusta funziona anch'essa, come si vede dalla cella seguente:

In [None]:
print("\n=== CASO A - LETTURA ROBUSTA ===")
df_ok_safe = pd.read_csv(
    file_ok,
    quotechar='"',
    escapechar='\\',
    engine="python",
)
print(df_ok_safe)


=== CASO A - LETTURA ROBUSTA ===
   id                descrizione                                          note
0   1             Martello, 500g                                      tutto ok
1   2        Cacciavite "piatto"                  virgolette con backslash (")
2   3  Set "professionale" 24 pz  virgolette raddoppiate nel campo descrizione
3   4          C:\attrezzi\nuovo                percorso Windows con backslash


Creaimo ora, invece, un file CSV "rotto" in altro modo:

In [None]:
# =========================================================
# CASO B - CSV ROTTO APPOSTA (virgolette non bilanciate)
# ---------------------------------------------------------
# Qui vogliamo mostrare il caso nel quale la lettura
# ingenua NON funziona.
# L'idea √® mettere una riga con: "Pinza con "virgolette" dentro"
# ma SENZA escape e con una virgola dentro ‚Üí il parser C salta.
# =========================================================

file_bad = "csv_sporco_rotto.csv"

csv_bad = (
    'id,descrizione,prezzo\n'                    # riga 1 (header)
    '1,"Martello",12.5\n'                        # riga 2 ok
    '2,"Cacciavite \\"piatto\\"",8.9\n'          # riga 3 ok (ha \")
    '3,"Set ""professionale"" 24 pz",49.0\n'     # riga 4 ok (ha "")
    # riga 5 - QUESTA ROMPE:
    #   - campo quotato che contiene altre virgolette NON escape
    #   - e contiene anche una virgola ‚Üí il parser pensa che inizi/finisca un altro campo
    '4,"Pinza con "virgolette" dentro, con virgola",15.0\n'
)

Path(file_bad).write_text(csv_bad, encoding="utf-8")
print(f"\n‚úÖ Scritto {file_bad}")
print(csv_bad)


print("\n=== CASO B - LETTURA INGENUA (DEVE FALLIRE) ===")
try:
    df_bad_naive = pd.read_csv(file_bad)
    print(df_bad_naive)
except Exception as e:
    # qui ti aspetti qualcosa tipo:
    # ParserError: Error tokenizing data. C error: Expected 3 fields in line 5, saw 4
    print("‚ùå Lettura ingenua fallita:", e)


‚úÖ Scritto csv_sporco_rotto.csv
id,descrizione,prezzo
1,"Martello",12.5
2,"Cacciavite \"piatto\"",8.9
3,"Set ""professionale"" 24 pz",49.0
4,"Pinza con "virgolette" dentro, con virgola",15.0


=== CASO B - LETTURA INGENUA (DEVE FALLIRE) ===
‚ùå Lettura ingenua fallita: Error tokenizing data. C error: Expected 3 fields in line 5, saw 4



Con i due argomenti invece la lettura robusta (con `quotechar='"'` e `escapechar='\\'` **funziona**!

In [None]:
print("\n=== CASO B - LETTURA ROBUSTA  ===")
df_bad_safe = pd.read_csv(
    file_bad,
    quotechar='"',
    escapechar='\\',
    engine="python",
    on_bad_lines="warn",   # oppure "skip" per saltare via le righe rotte
)
print(df_bad_safe)


=== CASO B - LETTURA ROBUSTA  ===
   id                descrizione  prezzo
0   1                   Martello    12.5
1   2        Cacciavite "piatto"     8.9
2   3  Set "professionale" 24 pz    49.0



  df_bad_safe = pd.read_csv(


Ha letto, ma ha ottenuto un **warning**!<br>
Ci sta dicendo una cosa molto precisa: anche col parser ‚Äúpi√π tollerante‚Äù (engine="python") e anche con `quotechar` / `escapechar`, la riga 5 √® proprio rotta a livello di CSV. Non √® solo ‚Äúdifficile‚Äù, √® sintatticamente sbagliata: ci sono virgolette aperte e non chiuse, e in pi√π dentro c‚Äô√® una virgola.

Quindi: √® normale che la salti. L‚Äôabbiamo fatta cos√¨ apposta per mostrare il caso in cui ‚Äúneanche la lettura robusta la salva‚Äù e pandas dice ‚Äúok, la butto via e vado avanti‚Äù.

Adesso ci sono **due modi** per evitare il warning (il salto riga):

<u>Primo modo</u>: stile CSV **standard** ‚Üí **raddoppiamo le virgolette**:

In [None]:
import pandas as pd
from pathlib import Path

file_good = "csv_sporco_riparato_doppie.csv"

csv_good = (
    'id,descrizione,prezzo\n'
    '1,"Martello",12.5\n'
    '2,"Cacciavite \\"piatto\\"",8.9\n'
    '3,"Set ""professionale"" 24 pz",49.0\n'
    # üëá qui √® corretto: le virgolette interne sono raddoppiate
    '4,"Pinza con ""virgolette"" dentro, con virgola",15.0\n'
)

Path(file_good).write_text(csv_good, encoding="utf-8")

print("\n=== LETTURA ROBUSTA (CSV VALIDO, virgolette raddoppiate) ===")
df_ok = pd.read_csv(
    file_good,
    quotechar='"',
    escapechar='\\',
    engine="python",
)
print(df_ok)



=== LETTURA ROBUSTA (CSV VALIDO, virgolette raddoppiate) ===
   id                                 descrizione  prezzo
0   1                                    Martello    12.5
1   2                         Cacciavite "piatto"     8.9
2   3                   Set "professionale" 24 pz    49.0
3   4  Pinza con "virgolette" dentro, con virgola    15.0


Non c'√® pi√π il warning! Perch√©?<br> Perch√©:
- il campo √® quotato `"..."`,
- dentro ci sono virgolette ‚Üí le abbiamo riscritte come `""`,
- dentro c‚Äô√® anche la virgola ‚Üí ma siccome il campo √® quotato, la virgola √® ok.

<u>Secondo modo</u>: stile **‚Äú`escapechar`‚Äù** ‚Üí usiamo il backslash dentro (se proprio vogliamo mostrare l‚Äôuso di `escapechar='\\'`):

In [None]:
from pathlib import Path

file_good2 = "csv_sporco_riparato_escape.csv"

csv_good2 = (
    'id,descrizione,prezzo\n'
    '1,"Martello",12.5\n'
    '2,"Cacciavite \\"piatto\\"",8.9\n'
    '3,"Set ""professionale"" 24 pz",49.0\n'
    # üëá qui ESCAPE TUTTE le virgolette interne
    '4,"Pinza con \\"virgolette\\" dentro, con virgola",15.0\n'
)

Path(file_good2).write_text(csv_good2, encoding="utf-8")

print("\n=== LETTURA ROBUSTA (CSV VALIDO, escape con backslash) ===")
df_ok2 = pd.read_csv(
    file_good2,
    quotechar='"',
    escapechar='\\',   # üëà adesso serve davvero
    engine="python",
)
print(df_ok2)



=== LETTURA ROBUSTA (CSV VALIDO, escape con backslash) ===
   id                                 descrizione  prezzo
0   1                                    Martello    12.5
1   2                         Cacciavite "piatto"     8.9
2   3                   Set "professionale" 24 pz    49.0
3   4  Pinza con "virgolette" dentro, con virgola    15.0


Come si vede, di nuovo: niente warning ‚úÖ

**RIASSUNTO del punto 10**:
- ‚Äúlettura ingenua‚Äù: `pd.read_csv("file.csv")` ‚Üí se il CSV √® formalmente giusto, legge; se √® un po‚Äô sporco, a volte legge; se √® proprio rotto, lancia `ParserError`.
- ‚Äúlettura robusta‚Äù: `pd.read_csv("file.csv", quotechar='"', escapechar='\\', engine="python", on_bad_lines="warn")` ‚Üí **legge di pi√π, ma non pu√≤ inventare virgolette che non ci sono** ‚Üí e quindi d√† il **warning** visto prima.
- se NON vogliamo il warning ‚Üí le due modalit√† di lettura viste (oppure riscriviamo il CSV in modo valido (raddoppio "" oppure escape \")).

**RIASSUNTO dei 10 casi**

![](problemi_tipici_read_csv.png)

**Segue ora un secondo set di esempi** con **la correzione dati**:<br>

1Ô∏è‚É£ creazione di un file CSV **‚Äúsporco‚Äù** con vari **errori e inconsistenze reali**;<br>
2Ô∏è‚É£ il codice Python completo per leggerlo correttamente con `pandas.read_csv()`;<br>
3Ô∏è‚É£ **<u>il codice Python per pulire il dataframe</u>** ‚ùó

1Ô∏è‚É£ Il file `dati_sporchi.csv`<br>
üëâ Contiene:
- delimitatore `;` invece di `,`
- encoding misto (accenti e caratteri speciali)
- separatori decimali confusi (`,`, `.`)
- valori mancanti o `N/A`
- riga con virgolette interne e una virgola nel nome
- header con spazi
- colonna `Unnamed: 0` inutile
- righe con colonne disallineate

In [None]:
# =========================
# 1. CREA IL FILE CSV "SPORCO"
# =========================

csv_content = """# Dati di esempio esportati da sistema legacy
# Contengono errori di formato, encoding e separatori
ID; Nome ; Et√† ; Data_nascita ; Stipendio ; Note
0; "Mario Rossi"; 35 ; 12/05/1989 ; "2.500,50" ; "Lavora a Roma, ottimo rendimento"
1; "Anna Bianchi"; 29 ; 01/09/1995 ; "3.200,00" ; "Milano, nuovi progetti"
2; "Jos√© √Ålvarez"; 40 ; 15/02/1984 ; "4.000,75" ; "Problemi di encoding √†√®√¨√≤√π"
3; "Luigi Verdi"; "?" ; 03/11/1990 ; "2,800.00" ; "Errore nei separatori decimali"
4; "Giulia Rossi" ; 27 ; 31-08-1997 ; "3.000,00" ; "Riga OK"
5; "Paolo Bianchi" ; 33 ; 02/04/1991 ; "N/A" ; "Valore mancante stipendio"
6; "Marco, Test"; 38 ; 07/07/1986 ; "2.900,00" ; "Virgola nel nome"
7 "Sara Neri" ; 31 ; 10/10/1993 ; "3.200,00" ; Riga con separatore mancante
8; "Laura Verdi"; 25 ; 21/06/1999 ; "3.000,00"
9; "Andrea Neri" ; ; ; ; "Campi mancanti"
Unnamed: 0; "Extra colonna inutile"; ; ; ;
"""

with open("dati_sporchi.csv", "w", encoding="latin1") as f:
    f.write(csv_content)

print("‚úÖ File 'dati_sporchi.csv' creato.\n")

‚úÖ File 'dati_sporchi.csv' creato.



2Ô∏è‚É£ La lettura robusta:

In [None]:
# =========================
# 2. LETTURA ROBUSTA
# =========================
df = pd.read_csv(
    "dati_sporchi.csv",
    sep=";",                     # separatore europeo
    comment="#",                 # ignora righe di commento
    engine="python",             # parser pi√π flessibile
    encoding="latin1",           # gestisce accenti
    on_bad_lines="skip",         # salta righe errate
    skip_blank_lines=True,       # ignora righe vuote
    skipinitialspace=True        # rimuove spazi dopo ;
)

print("Colonne originali:", df.columns.tolist(), "\n")

Colonne originali: ['ID', 'Nome ', 'Et√† ', 'Data_nascita ', 'Stipendio ', 'Note'] 



In [None]:
df.head()

Unnamed: 0,ID,Nome,Et√†,Data_nascita,Stipendio,Note
0,8,Laura Verdi,25.0,21/06/1999,"3.000,00",
1,Unnamed: 0,Extra colonna inutile,,,,


3Ô∏è‚É£  La pulizia del dataframe

In [None]:
# =========================
# 3.1 PULIZIA NOMI COLONNE
# =========================
df.columns = df.columns.str.strip()                          # rimuove spazi
df.columns = df.columns.str.replace("√É", "√†", regex=False)   # corregge accenti errati
df = df.loc[:, ~df.columns.str.contains("^Unnamed", case=False)]  # rimuove colonne Unnamed

In [None]:
df.head()

Unnamed: 0,ID,Nome,Et√†,Data_nascita,Stipendio,Note
0,8,Laura Verdi,25.0,21/06/1999,"3.000,00",
1,Unnamed: 0,Extra colonna inutile,,,,


In [None]:
# =========================
# 3.2 TRASFORMAZIONI TIPICHE
# =========================

# -- Colonna Et√†
if "Et√†" in df.columns:
    df["Et√†"] = pd.to_numeric(df["Et√†"], errors="coerce")

# -- Colonna Stipendio
if "Stipendio" in df.columns:
    df["Stipendio"] = (
        df["Stipendio"]
        .astype(str)
        .str.replace(".", "", regex=False)  # rimuove i punti (migliaia)
        .str.replace(",", ".", regex=False) # converte virgola in punto
    )
    df["Stipendio"] = pd.to_numeric(df["Stipendio"], errors="coerce")

# -- Colonna Data_nascita
if "Data_nascita" in df.columns:
    df["Data_nascita"] = pd.to_datetime(df["Data_nascita"], dayfirst=True, errors="coerce")


In [None]:
df.head()

Unnamed: 0,ID,Nome,Et√†,Data_nascita,Stipendio,Note
0,8,Laura Verdi,25.0,1999-06-21,3000.0,
1,Unnamed: 0,Extra colonna inutile,,NaT,,


In [None]:
# =========================
# 3.3 RISULTATO FINALE
# =========================
print("‚úÖ File caricato e pulito correttamente!\n")
display(df)
print("\nTipi di dato:\n", df.dtypes)

‚úÖ File caricato e pulito correttamente!



Unnamed: 0,ID,Nome,Et√†,Data_nascita,Stipendio,Note
0,8,Laura Verdi,25.0,1999-06-21,3000.0,
1,Unnamed: 0,Extra colonna inutile,,NaT,,



Tipi di dato:
 ID                      object
Nome                    object
Et√†                    float64
Data_nascita    datetime64[ns]
Stipendio              float64
Note                   float64
dtype: object


# Accelerare il caricamento in pandas di un file csv di grandi dimensioni

Come accelerare il caricamento in pandas con read_csv di un file csv molto grande?<br>
Ecco il **workflow consigliato**:
```python
    import pandas as pd

    # Prima lettura, con ottimizzazioni di base
    df_iter = pd.read_csv(
        "bigdata.csv",
        usecols=["A", "B", "C"],
        dtype={"A": "int32", "B": "float32"},
        chunksize=1_000_000,
        engine="pyarrow"
    )

    # Elaborazione incrementale
    df = pd.concat(df_iter)

    # Salva in formato ottimizzato
    df.to_parquet("bigdata.parquet")
```
üëâ Le letture successive da Parquet o Feather saranno **fino a 50√ó pi√π rapide**.

**Piccoli trucchi pratici**
- pre-carica in RAM i file (es. `cat file.csv > /dev/null` su Linux) se il collo di bottiglia √® il disco.
- se lavori spesso con gli stessi dati ‚Üí converti subito a Parquet.
- se il file √® remoto ‚Üí usa `storage_options` (es. S3 o GDrive) per lettura diretta.
- se non serve l‚Äôindice ‚Üí `index_col=False` o `index_col=None`.
- per misurare l‚Äôeffetto: usa `%%time` in Jupyter o VSC oppure `timeit`.

**Ecco una guida pratica per velocizzare la lettura** üëá

Come velocizzare pandas.read_csv() su file grandi

1Ô∏è‚É£ **Specifica i tipi di dato (dtype)**<br>
Pandas, se non li dichiari, deve ‚Äúindovinare‚Äù i tipi scorrendo le righe ‚Üí lento e dispendioso in memoria.
```python
    dtypes = {
        "id": "int32",
        "categoria": "category",
        "prezzo": "float32",
        "quantita": "int16"
}
df = pd.read_csv("file.csv", dtype=dtypes)
```

‚úÖ Vantaggi: caricamento molto pi√π veloce e dataframe pi√π leggero.

2Ô∏è‚É£ **Leggi solo alcune colonne**<br>
Se non ti servono tutte, dichiara usecols:
```python
    df = pd.read_csv("file.csv", usecols=["id", "prezzo", "quantita"])
```

‚úÖ Risparmi tempo e memoria.

3Ô∏è‚É£ **Disattiva ci√≤ che non serve**

Niente indice:
```python
    index_col=False
```

Niente analisi di numeri mancanti complessa:
```python
    keep_default_na=False
na_values=[""]
```
Niente conversione automatica di date:
```python
    parse_dates=False
```

‚úÖ Tutto ci√≤ evita inferenze costose.

4Ô∏è‚É£ **Usa un chunking (lettura a blocchi)**

Se il file √® troppo grande per la RAM, leggilo a pezzi:
```python
    chunks = pd.read_csv("file.csv", chunksize=1_000_000)
    for chunk in chunks:
        # elabora il chunk
        process(chunk)
```

‚úÖ Mantieni basso il consumo di memoria e puoi elaborare in streaming.

5Ô∏è‚É£ **Specifica l‚Äôengine**

pandas pu√≤ usare due engine:
- `engine='c'` (default, scritto in C) ‚Üí pi√π veloce
- `engine='python'` ‚Üí pi√π flessibile ma pi√π lento

Assicurati di usare:
```python
    pd.read_csv("file.csv", engine="c")
```

6Ô∏è‚É£ **‚ÄúScalda‚Äù la cache del disco**

Su Linux:

cat file.csv > /dev/null

‚Üí cos√¨ il file √® gi√† in cache RAM e il successivo read_csv sar√† pi√π rapido.
(non migliora la prima lettura, ma le successive s√¨)

7Ô∏è‚É£ **Converti in Parquet appena puoi**

CSV ‚Üí Parquet una volta sola, poi lavora sempre in Parquet:
```python
    df = pd.read_csv("file.csv")
    df.to_parquet("file.parquet")
```

e successivamente:
```python
    df = pd.read_parquet("file.parquet")
```

‚úÖ Spesso 5‚Äì10√ó pi√π veloce in lettura e 3‚Äì4√ó meno spazio su disco.

8Ô∏è‚É£ Alternativa: usa Dask o Polars

Se il file √® enorme (decine di GB):
```python
    dask.dataframe.read_csv()
```
 ‚Üí lettura parallela su pi√π core;
```python
    polars.read_csv()
```
 ‚Üí motore Rust super veloce (anche 10√ó pi√π rapido di pandas).

9Ô∏è‚É£ Misura sempre con %%time

In Jupyter o VS Code:
```python
    %%time
    df = pd.read_csv("file.csv", dtype=dtypes, usecols=cols)
```

Confronta varie versioni e scegli la pi√π rapida nel tuo contesto.

# Applicazione al file finanziario `FinancialIndicators`
Il file *Credit_ISLR* √® molto piccolo. Usiamo il pi√π corposo file csv *FinancialIndicators.csv*:
- circa 7000 righe
- 73 colonne
- circa 2.4 GB
- separatore = ',' (file americano)

In [None]:
import time
start_time = time.time()

df_FI = pd.read_csv('FinancialIndicators.csv')

end_time = time.time()

print ('Tempo totale di esecuzione: ', end_time - start_time)

df_FI.head()

Tempo totale di esecuzione:  0.04415559768676758


Unnamed: 0,Company Name,Industry Name,SIC,Exchange,Country,Stock Price,% Chg in last year,Trading Volume,# of shares outstanding,Market Cap,...,Trailing Net Income,Dividends,Intangible Assets/Total Assets,Fixed Assets/Total Assets,Market D/E,Market Debt to Capital,Book Debt to Capital,Dividend Yield,Insider Holdings,Institutional Holdings
0,@Road Inc,Telecom. Services,4810,NDQ,US,5.23,-0.02,236397,54.8,319.6,...,27.0,0.0,0.0,0.02,0.0,0.0,0.0,0.0,,0.23
1,1-800 Contacts Inc,Medical Supplies,8060,NDQ,US,11.7,0.03,57921,13.3,151.9,...,3.3,0.0,0.48,0.19,0.16,0.14,0.29,0.0,,0.39
2,1-800-ATTORNEY Inc,Publishing,2700,NDQ,US,1.01,0.0,1438,0.0,0.0,...,-1.0,0.0,,,,,,0.0,,0.0
3,1-800-FLOWERS.COM,Internet,7370,NDQ,US,6.42,-0.01,197850,65.2,422.9,...,7.8,0.0,0.31,0.2,0.01,0.01,0.03,0.0,0.21,0.88
4,1mage Software Inc,Computer Software/Svcs,3579,NDQ,US,0.01,0.0,10200,3.3,0.03,...,-0.8,0.0,0.0,0.0,12.12,0.92,,0.0,,0.0


 Applichiamo gli argomenti sopra elencati al caricamento di questo file.

# Le prestazioni

Per quanto riguarda le **prestazioni dei vari formati** (come occupazione in memoria, salvtaggio su disco e apertura /lettura) vedi il seguente utile studio.

Il messaggio chiave dello studio √® che:
- il formato CSV √® molto meglio di excel (neanche preso in considerazione nella comparazione), √® disponibile in tutti gli ambienti di *data management*
- per big data (come vedremo) il formato migliore √® il parquet, soprattutto nella occupazione di memoria.

In [None]:
# Esempio d‚Äôuso:
show_pdf("I_O Optimization in Data Projects - by Avi Chawla.pdf")  # vedi ultimo capitolo per la lettura dei PDF in VSC.

# Il formato dei dati per big data

E' possibile caricare big data di 5M di righe in *pandas*? Dipende.

La risposta breve √®: s√¨, pandas pu√≤ gestire anche 5 milioni di righe, ma dipende da cosa si intende per ‚Äúgestire‚Äù e da quanta RAM si ha a disposizione.

In [None]:
import pandas as pd
import glob
import os

In [None]:
# Il prefisso r dice a Python di non interpretare \ come escape.
path = r'C:\Users\Utente\Desktop\salvataggi\SALVATAGGIO DATI\Documents\Seminari\Data Science (corsi)\Corso Python base\linkage\file_csv'

all_files = glob.glob(os.path.join(path, "*.csv"))

In [None]:
li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    li.append(df)

frame = pd.concat(li, axis=0, ignore_index=True)

In [None]:
frame.shape

(5749132, 12)

In [None]:
frame.head()

Unnamed: 0,id_1,id_2,cmp_fname_c1,cmp_fname_c2,cmp_lname_c1,cmp_lname_c2,cmp_sex,cmp_bd,cmp_bm,cmp_by,cmp_plz,is_match
0,37291,53113,0.833333333333333,?,1.0,?,1,1,1,1,0,True
1,39086,47614,1.0,?,1.0,?,1,1,1,1,1,True
2,70031,70237,1.0,?,1.0,?,1,1,1,1,1,True
3,84795,97439,1.0,?,1.0,?,1,1,1,1,1,True
4,36950,42116,1.0,?,1.0,1,1,1,1,1,1,True


In [None]:
frame.tail()

Unnamed: 0,id_1,id_2,cmp_fname_c1,cmp_fname_c2,cmp_lname_c1,cmp_lname_c2,cmp_sex,cmp_bd,cmp_bm,cmp_by,cmp_plz,is_match
5749127,47892,98941,1,?,0.166667,?,1,0,0,1,0,False
5749128,53346,74894,1,?,0.222222,?,1,0,0,1,0,False
5749129,18058,99971,0,?,1.0,?,1,0,0,0,0,False
5749130,84934,95688,1,?,0.0,?,1,0,1,0,0,False
5749131,20985,57829,1,1,0.0,?,1,0,1,1,0,False


---
‚öôÔ∏è **1. Dipende dalla dimensione totale in memoria**

Pandas lavora tutto in RAM.

Esempio:
- 5 milioni di righe √ó 50 colonne
- ogni cella occupa ~8 byte (`float64`)<br>
üëâ $5.000.000 √ó 50 √ó 8 ‚âà 2 GB$

Quindi un file CSV da 200 MB pu√≤ diventare **2‚Äì3 GB in RAM** una volta caricato, per via della conversione in tipi numerici, indici, metadati ecc.

Se si ha un PC con **16 GB di RAM**, va bene; se si hanno 8 GB, pandas ci riesce ma sar√† lento e potremmo vedere ‚Äúswap‚Äù o crash per mancanza di memoria.

---

üß† **2. Operazioni che pandas gestisce bene anche con 5M di righe**

Con hardware "decente" (CPU moderna, 16 GB RAM) pandas gestisce tranquillamente:

‚úÖ **Caricamento CSV**
```python
    df = pd.read_csv("dati.csv")
```

Si pu√≤ anche usare:
- `dtype=` per tipizzare meglio le colonne (meno RAM);
- `usecols=` per leggere solo alcune colonne;
- `chunksize=` per leggere a blocchi.

‚úÖ **Operazioni elementari e aggregazioni**
- `df.describe()`, `df.mean()`, `df.groupby("col").agg(...)`
- `df.sort_values("col")`
- `df.query("x > 10 and y < 5")`
- `df.sample(100_000)`<br>
tutte fattibili.

‚úÖ **Join e merge moderati**<br>
Fino a qualche milione di righe per tabella:
```python
    pd.merge(df1, df2, on="id", how="inner")
```
funziona, ma attenzione ai picchi di memoria.


---
üö´ **Operazioni che iniziano a diventare problematiche**

Quando il dataset supera **i 5‚Äì10 milioni di righe o supera i 5 GB in RAM**, ecco cosa rallenta o esplode:

‚ùå **ordinamenti multipli o sort complessi**
```python
    df.sort_values(["col1", "col2"])
```
Crea una copia in memoria grande quanto il DataFrame stesso.

‚ùå **merge / join molto grandi**<br>
se le due tabelle insieme superano la RAM disponibile.

‚ùå **apply / lambda riga per riga**
```python
    df.apply(lambda row: f(row.x), axis=1)
```

Molto lente: infatti sono eseguite in Python puro, non in C.<br>
Meglio usare funzioni **vectorized** (`np.where`, `pd.Series.map`, ecc.).

‚ùå **operazioni iterative**<br>
Cicli `for row in df.itertuples()` su milioni di righe ‚Üí un disastro!

‚ùå **Scrittura su CSV/parquet**
```python
    df.to_csv("file.csv")
```

Poco efficiente.

---
‚ö° **Alternative e strategie**

**1. Usare il *chunking***

Il seguente codice √® **rischioso**
```python
    import pandas as pd

    df = pd.read_csv("dati.csv")
    df["media"] = df["valore"].mean()

```

Meglio leggere a blocchi e processare iterativamente:
```python
    import pandas as pd

    chunksize = 500.000   # legge 500 mila righe per volta
    risultati = []        # lista dove accumulare i risultati

    for chunk in pd.read_csv("dati.csv", chunksize=chunksize):
        media_chunk = chunk["valore"].mean()       # calcolo sulla parte letta
        risultati.append(media_chunk)              # salvo il risultato parziale

    # dopo il ciclo puoi combinare i risultati
    media_totale = sum(risultati) / len(risultati)
    print("Media complessiva:", media_totale)

```


**2. Usare il formato dati *parquet***<br>
Vedi il prossimo capitolo.

**3. Usare `cuDF`**<br>
Utilizza la GPU senza modifiche al codice Pandas

**4. Usare `Spark`**<br>


# Un file CSV molto, molto grande
Riusciamo a caricare un file CSV come [questo](https://www.kaggle.com/datasets/aadimator/nyc-realtime-traffic-speed-data/data)? √® quasi 30GB.<br>
*Download* --> *Download dataset as zip (10 GBs)*.<br>
Il suo nome √® **DOT_Traffic_Speeds_NBE.csv** ed √® relativo al traffico nella citt√† di NewYorl.

Vediamone il significato:

---
That Kaggle dataset is an **export** of NYC DOT‚Äôs **real-time traffic speed feed** (‚ÄúDOT Traffic Speeds NBE‚Äù).

Each row is a **timestamped observation for one road segment (a ‚Äúlink‚Äù)** with the average **speed** and **travel time** between the segment‚Äôs start and end points. It‚Äôs maintained by NYC DOT and mirrored to Kaggle. ([Kaggle][1])

Here‚Äôs what the **fields mean** (names may appear in UPPER_CASE on Kaggle):

* **ID / LINK_ID**
  Unique identifier of the road **segment** (link) from TRANSCOM (regional traffic consortium). `LINK_ID` is the same as `ID`. Use this as **the key to group or join**. ([Sito Ufficiale di New York City][2])

* **SPEED**
  **Average speed (mph)** vehicles traveled **across the whole segment** during the most recent interval. It‚Äôs not spot speed at a point‚Äîthink ‚Äúsegment travel speed.‚Äù Expect missing or zero values at times. ([Sito Ufficiale di New York City][2])

* **TRAVEL_TIME**
  **Seconds** the average vehicle took to traverse the segment in that interval. Roughly `TRAVEL_TIME ‚âà segment_length / SPEED` (after converting units). Useful to derive segment length if you have a stable speed sample. ([Sito Ufficiale di New York City][2])

* **STATUS**
  Marked as an **artifact / not useful** in NYC DOT‚Äôs own metadata. Most people ignore it. ([Sito Ufficiale di New York City][2])

* **DATA_AS_OF** (a.k.a. `DataAsOf`)
  **Timestamp** when data for that link was last received. The feed updates **every few minutes**. Timezone is local (Eastern). Use this for time-series work and resampling. ([Sito Ufficiale di New York City][2])

* **LINK_POINTS**
  **Plaintext sequence of lat/long pairs** describing the link geometry (start‚Üíend polyline). **Caveat:** some values are **truncated**‚Äîdon‚Äôt rely on this alone for precise mapping. ([Medium][3])

* **ENCODED_POLY_LINE**
  **Google-encoded polyline** version of the same geometry. This is usually the better field to decode for maps. (See Google‚Äôs polyline spec referenced by DOT.) ([Sito Ufficiale di New York City][2])

* **ENCODED_POLY_LINE_LVLS**
  **Polyline ‚Äúlevels‚Äù** for Google‚Äôs legacy rendering (zoom levels). Often unused in modern tooling but included for completeness. ([Sito Ufficiale di New York City][2])

* **OWNER**
  Owner of the detector producing this link‚Äôs data (administrative/operational). ([Sito Ufficiale di New York City][2])

* **TRANSCOM_ID / TRANSCOM_ID (artifact)**
  Marked **not useful** by the publisher (redundant with ID). ([Sito Ufficiale di New York City][2])

* **BOROUGH**
  NYC borough name (**Brooklyn, Bronx, Manhattan, Queens, Staten Island**). It can be blank for some links. Handy for rollups and filtering. ([Sito Ufficiale di New York City][2])

* **LINK_NAME / DESCRIPTION**
  Human-readable description of the segment (e.g., ‚ÄúBQE N Atlantic Ave ‚Äî BKN Bridge Manhattan Side‚Äù). Note: **links are one-way**, and not every corridor has both directions in the feed. ([Medium][3])

### How to interpret the dataset (what a ‚Äúrow‚Äù is)

* One **segment (link)** √ó one **timestamp** ‚Üí **avg speed & travel time** for vehicles that **completed** that segment in the interval. It‚Äôs not per-vehicle data; it‚Äôs an **aggregate**. ([Medium][3])
* The feed is **real-time / near-real-time**, updated several times per minute, and covers **major arterials & highways** in NYC. ([Sito Ufficiale di New York City][2])

### Practical notes / gotchas

* **Geometry:** Prefer **`ENCODED_POLY_LINE`** over `LINK_POINTS`; the latter can be cut off. ([Medium][3])
* **Aggregation grain:** Links are **directional**; do not assume two-way coverage for a corridor. ([Medium][3])
* **Units:** SPEED = mph, TRAVEL_TIME = seconds; `BOROUGH` is a label, not a geometry. ([Sito Ufficiale di New York City][2])
* **Quality:** Occasional zeros/missing values; treat **STATUS** as ignorable. ([Sito Ufficiale di New York City][2])

### Typical uses

* Compute **p50/p90 speeds** by `BOROUGH`/`LINK_ID`/hour; detect slowdowns and incidents.
* Map segments by decoding **`ENCODED_POLY_LINE`**; join with borough boundaries for choropleths.
* Derive **segment length** via `median(SPEED)*median(TRAVEL_TIME)` (unit-converted) if length isn‚Äôt separately available.

[1]: https://www.kaggle.com/datasets/aadimator/nyc-realtime-traffic-speed-data?utm_source=chatgpt.com "NYC Real-Time Traffic Speed Data"
[2]: https://www.nyc.gov/html/dot/downloads/pdf/metadata-trafficspeeds.pdf?utm_source=chatgpt.com "Traffic Sensors Metadata What does this data set describe? ..."
[3]: https://medium.com/qri-io/new-qri-dataset-s-nyc-real-time-traffic-speeds-c3e4c88f44be "New Qri Dataset(s): NYC Real-Time Traffic Speeds | by Chris Whong | qri.io | Medium"

---


**NOTE su questa dimensione (circa 30 GB)**

28 GB ‚âà 28.000.000.000 byte ‚âà 26 GiB (se lo guardiamo in termini ‚Äúinformatici‚Äù).

Un file CSV √® testuale, quindi √® poco denso: gli stessi dati in **Parquet** starebbero spesso in **3‚Äì6 GB**.

In RAM questo file, <u>se letto con *pandas*</u>, **occupa ben pi√π spazio di 28 GB**: pandas infatti deve:
- leggere il testo,
- fare il parsing,
- creare gli array interni.

Risultato: 28 GB di CSV con la lettura *pandas* possono diventare **50‚Äì80 GB di RAM** senza sforzarsi troppo (dipende da quante colonne stringa ci sono, da quanti NaN, da quanto sono lunghe le etichette, ecc.).

**√à frequente in azienda una simile dimensione?**
- un singolo CSV da 28 GB non √® la norma nei gestionali/contabilit√†/HR. In questi sistemi troviamo pi√π facilmente **50‚Äì500 MB, massimo 2‚Äì3 GB** quando fanno l‚Äôexport ‚Äúdi tutto‚Äù.
- √® per√≤ normalissimo in contesti tipo:
    - log applicativi / web / sicurezza,
    - telco,
    - mobility / trasporti (tipo il tuo caso),
    - IoT,
    - data lake ‚Äúbuttato gi√π‚Äù da un sistema legacy.

Ma‚Ä¶ quasi mai le aziende vogliono avere un unico CSV da 28 GB. Di solito √® un ‚Äúdumpone‚Äù fatto cos√¨ perch√© ‚Äúera l‚Äôopzione di export‚Äù, oppure perch√© qualcuno ha fatto SELECT * su 3 anni e l‚Äôha mandato su S3. In produzione seria si spezza per data o per partizione e si va con il Parquet.

**Quindi: non √® strano avere 28 GB di dati. √à un po‚Äô strano averli tutti in un solo CSV.**

## Determinazione dell'ambiente di esecuzione.
Il notebook funziona **indifferentemente** sia su Jupyter Notebook / Visual Studio Code che su Google Colab, come detto, <u>a parte due aspetti</u>:
- il caricamento dei dataset nel notebook
- l'inclusione delle immagini *png* nelle singole celle

E' quindi utile **determinare l'ambiente di esecuzione**, impostando una variabile binaria (a `True` se siamo in Google Colab, a `False` se siamo in Jupyter Notebook).

Le due operazioni suddette saranno eseguite in modo differente a seconda del valore della variabile binaria.

In [1]:
# impostazione del TOGGLE BINARIO:
try:
    import google.colab                      # package disponibile SOLO in Google Colab
    IN_COLAB = True
except ImportError:
    IN_COLAB = False

print("Running on Colab:", IN_COLAB)


# IMPORT dei package necessari (necessari sia in JN che in Colab):
from IPython.display import Image, display   # import dei package di incorporamento e visualizzazione immagine (una tantum)
                                             # Image e display sono entrambi necessari a Jupyter Notebook
                                             # Google Colab utilizza solo Image
import os                                    # necessario a Google Colab per vedere da una cella codice
                                             # i contenuti del 'content'

Running on Colab: False


## Caricamento del big *csv* con Google Colab Pro

Quanto spazio abbiamo nel *session storage* della VM? (con un run-time **L4-GPU** con 53GB di RAM, 22.5 GB di VRAM e 235.7 GB di disco)

In [2]:
if IN_COLAB:
    !df -h

`overlay 236G 40G 197G 17% /`:  √® **la root** dell'ambiente Colab, cio√® quello che in Colab vediamo sotto `/content`.<br>
Quello che interessa davvero √® **Avail = 197G**.<br>

Tradotto: possiamo creare nuovi file fino a circa 197 GB (poi ovviamente dipende anche da quanto si usa per i notebook, i parquets, ecc.).

E le altre righe (`/dev/root`, `tmpfs`, `/dev/shm‚Ä¶`) dell'output precedente?
Sono cose del container Colab.
- `/dev/shm 26G` ‚Üí √® la shared memory (utile ad esempio per multiprocessing, ma non per salvare 28 GB).
- `tmpfs 27G` ‚Üí memorie temporanee in RAM.
- non sono il posto giusto per parcheggiare un CSV da 28 GB!

Abbiamo quindi tantissimo spazio locale nella VM: **circa 197 GB liberi** ‚Üí quindi s√¨, un file da 28 GB ci sta tranquillamente.

Tuttavia l'upload di un file cos√¨ grande nela *session storage* di Google colab √® lento e a rischio di failure. Molto meglio mettere il file su Google Drive e poi **montare il disco** (autorizzando la connessione Google con i soliti passi):

In [3]:
if IN_COLAB:
    from google.colab import drive
    drive.mount("/content/drive", force_remount=True)  # l'argomento 'force_remount = True' permette il mount multiplo

Cos√¨ il file resta su Drive, non lo dobbiamo ‚Äúcaricare‚Äù nella sessione, lo leggiamo da l√¨ (`/content/drive/MyDrive/.../big.csv`), Colab non deve tenere 28 GB sul disco locale.

‚ö†Ô∏è Attenzione: leggere 28 GB da Drive √® pi√π lento che leggere da disco locale. Per un CSV enorme pu√≤ voler dire **minuti di I/O**.

NB. `drive/MyDrive` √® ora **disponibile anche sotto la `content` del *session storage***.

Possiamo infatti vederlo rieseguendo il comando `!df -h`:

In [None]:
 if IN_COLAB:
    !df -h

<u>Domanda</u>: ma ‚Äúoverlay‚Äù e ‚Äúdrive‚Äù hanno la stessa dimensione (236G) ü§î?

S√¨, sembra cos√¨ perch√© Colab spesso **mostra lo stesso backing storage o comunque due volumi con taglia simile**. Quello che ci interessa √®: abbiamo ~200 GB liberi localmente e ~187 GB liberi su Drive ‚Üí entrambi > 28 GB ‚Üí siamo al sicuro.

Per prima cosa, come verifica, facciamo la **lista dei file sul drive**:

In [5]:
if IN_COLAB:
    import os
    base = "/content/drive/MyDrive"

    for name in os.listdir(base):
        print(name)


Se vogliamo vedere anche **la dimensione** dei file:

In [6]:
if IN_COLAB:
    for name in os.listdir(base):
        path = os.path.join(base, name)
        if os.path.isfile(path):
            print("FILE ", name, os.path.getsize(path))
        else:
            print("DIR  ", name)


Verifichiamo la dimensione del file `DOT_Traffic_Speeds_NBE.csv`:

In [7]:
if IN_COLAB:
    !ls -lh /content/drive/MyDrive/DOT_Traffic_Speeds_NBE.csv

Ora siamo pronti a leggere il file csv con pandas (`pd.read_csv`) con **cuDF**.

---

**`cudf` √® una versione di pandas con accelerazione CUDA.**

Vedi [questo post con video](https://www.linkedin.com/feed/update/urn:li:activity:7173982894921519105?utm_source=share&utm_medium=member_desktop) e [questo articolo](https://www.blog.dailydoseofds.com/p/nvidias-latest-update-can-make-your).

*Steve Nouri*:<br>
**NVIDIA made Pandas 50x faster with No code change!**<br>

Occorre fare semplicemente questo:<br>
```python
    %load_ext cudf.pandas
    import pandas as pd
```

Ora `cuDF` sar√† **integrato direttamente in Google Colab** (occore ovviamente avere un **run-time GPU abilitato**).

Dai un'occhiata anche qui https://bit.ly/3XX9pgm.

Vedi anche [questo ottimo video](https://www.youtube.com/watch?v=8X_IaCNpo7E) tradotto in italiano.

---

In [10]:
if IN_COLAB:
    %load_ext cudf.pandas
    import pandas as pd
    import cudf
else:
    import pandas as pd

Il ciclo seguente di **lettura** impiega **610 secondi** su L4-GPU.<br>
**L'idea generale**:
- abbiamo un CSV enorme **a blocchi da 250k righe** con *pandas*,
- lo leggiamo a pezzetti (`chunksize`), 
- ogni pezzetto lo spostiamo in GPU con cuDF,
- qui dentro (in GPU) potremmo filtrare le righe oppure trasformare il file,
- volendo lo salviamo subito oppure lo accumuliamo in una lista,
- alla fine possiamo concatenare tutto in GPU (solo se ci sta in VRAM),
- tutto il blocco di codice seguente √® temporizzato per sapere quanto ci mette.

In [1]:
CHUNK = 200_000_000  # 200 MB per volta
offset = 0
part = 0

import time

# l'avviamento del timer
start_time = time.time()

# // il codice da misurare

# 1. percorso del file
CSV_PATH = "/content/drive/MyDrive/DOT_Traffic_Speeds_NBE.csv"

# 2. dimensione del chunk (si parte basso)
ROWS_PER_CHUNK = 250_000   # ~200-300 MB a seconda delle colonne

# 3. se si vogliono accumulare i chunk in GPU (solo se li possiamo tenere)
gdf_parts = []

for i, chunk in enumerate(pd.read_csv(CSV_PATH, chunksize=ROWS_PER_CHUNK)):
    print(f"[pandas] letto chunk {i} con {len(chunk)} righe")

    # 4. converte il chunk pandas -> cuDF (qui usiamo la GPU)
    gdf_chunk = cudf.from_pandas(chunk)
    print(f"[cuDF] chunk {i} in GPU con shape {gdf_chunk.shape}")

    # ‚¨áÔ∏è qui possiamo fare le nostre operazioni in GPU
    # esempio: filtro
    # gdf_chunk = gdf_chunk[gdf_chunk["BOROUGH"] == "MANHATTAN"]

    # esempio: salviamo subito in parquet per non tenere tutto in GPU
    # gdf_chunk.to_parquet(f"/content/out_part_{i:04d}.parquet")

    # se invece li teniamo per per unirli dopo:
    gdf_parts.append(gdf_chunk)

# 5. (opzionale) uniamo tutti i pezzi GPU in un unico DataFrame cuDF
# ‚ö†Ô∏è facciamo solo se ci sta in VRAM
if gdf_parts:
    gdf_all = cudf.concat(gdf_parts, ignore_index=True)
    print(gdf_all.shape)

# // fine del codice da misurare

# fine timer e stampa
end_time = time.time()
print ('Tempo totale di esecuzione: ', end_time - start_time)

NameError: name 'pd' is not defined

Vediamo riga per riga cosa fa il codice della cella precedente.

**Timer**
```python
    import time
    start_time = time.time()
```
dove:
- importiamo il package `time`
- salviamo l‚Äôistante di partenza
- alla fine salviamo l'istante di fine elaborazione per dire ‚Äútutto questo giro ha impiegato X secondi‚Äù.

**Parametri di lettura**
```python
    CSV_PATH = "/content/drive/MyDrive/DOT_Traffic_Speeds_NBE.csv"
    ROWS_PER_CHUNK = 250_000
    gdf_parts = []
```
dove:
- `CSV_PATH`: dov‚Äô√® il file
- `ROWS_PER_CHUNK = 250_000`: invece di leggere 65 milioni di righe in un colpo solo, ne leggiamo **250k alla volta**. <u>√à il modo giusto quando il CSV √® enorme</u>.
- `gdf_parts = []`: la lista vuota dove mettiamo i DataFrame cuDF man mano che li convertiamo.

**Lettura a chunk con pandas**
```python
    for i, chunk in enumerate(pd.read_csv(CSV_PATH, chunksize=ROWS_PER_CHUNK)):
        print(f"[pandas] letto chunk {i} con {len(chunk)} righe")
```

Qui succede una cosa importante:
- non stiamo leggendo direttamente con cuDF.
- stiamo usando *pandas* con l‚Äôopzione `chunksize=...` ‚Üí questo fa s√¨ che la funzione `read_csv` diventi un **generatore**: ogni giro del ciclo `for` restituisce **solo un pezzo del file**.
- `i` √® l‚Äôindice del `chunk` (0, 1, 2, ‚Ä¶).
- `chunk` √® un **DataFrame pandas** con ~250k righe.
- stampiamo quante righe abbiamo  letto per vedere che stiamo avanzando.

Perch√© facciamo cos√¨? Perch√© spesso pandas √® pi√π ‚Äútollerante‚Äù e la lettura a chunk √® gi√† pronta, e poi usiamo cuDF solo per l‚Äôelaborazione.

> <u>Nota su `enumerate`</u><br>
> `enumerate` √® una funzione di Python che prende qualcosa di **iterabile** (lista, generator, in questo caso i chunk del `read_csv`) e restituisce coppie:
> - il numero del giro (0, 1, 2, 3‚Ä¶)
> - l‚Äôelemento vero dell‚Äôiterazione<br>
> 
> Cio√® con `enumerate(...)` stiamo dicendo: ‚Äúper ogni pezzo che ci dai, dacci anche l‚Äôindice del pezzo‚Äù.
> - `i` ‚Üí 0 per il primo chunk, 1 per il secondo, 2 per il terzo‚Ä¶
> - `chunk` ‚Üí **il DataFrame pandas con quelle 250.000 righe**<br>
> 
> Cos√¨ possiamo stampare:
> ```python
>     print(f"[pandas] letto chunk {i} ...")
> ```
> e sappiamo a che punto siamo.

**Conversione pandas ‚Üí cuDF**
```python
    gdf_chunk = cudf.from_pandas(chunk)
    print(f"[cuDF] chunk {i} in GPU con shape {gdf_chunk.shape}")
```
- prendiamo il pezzo letto in RAM (pandas),
- lo spostiamo in GPU convertendolo in un DataFrame cuDF.
- stampiamo la `shape` (le dimensioni) giusto per controllo.

Questo √® il punto in cui ‚Äúusiamo la GPU‚Äù.

**Punto in cui fare le elaborazioni (EVENTUALI)**
```python
    gdf_chunk = gdf_chunk[gdf_chunk["BOROUGH"] == "MANHATTAN"]
    gdf_chunk.to_parquet(...)
```

√à il pattern ‚Äúleggo CSV grossi ‚Üí li trasformo a pezzi ‚Üí li salvo in formato pi√π comodo‚Äù.

**Accumulo dei pezzi**
```python
    gdf_parts.append(gdf_chunk)
```

Invece di salvare subito, mettiamo il pezzo in una lista.<br>
E' comodo se:
- vogliamo fare una concatenazione alla fine,
- oppure se i chunk sono pochi e stanno in memoria.

√à rischioso se il CSV √® davvero enorme e la GPU ha poca VRAM.

**Concatenazione finale (opzionale)**
```python
    if gdf_parts:
        gdf_all = cudf.concat(gdf_parts, ignore_index=True)
        print(gdf_all.shape)
```

Se abbiamo almeno un pezzo, li uniamo tutti in un unico DataFrame cuDF.
```python
    ignore_index=True perch√© dopo una concat i vecchi indici non hanno senso.
```
‚ö†Ô∏è giustamente abbiamo messo il commento: ‚Äúfallo solo se ci sta in VRAM‚Äù.<br>
Questa √® la parte che spesso, sui dataset enormi, non si fa, e ci si ferma al salvataggio per chunk.

**Fine timer**
```python
    end_time = time.time()
    print ('Tempo totale di esecuzione: ', end_time - start_time)
```
Stampiamo quanto ci ha messo l‚Äôintero giro: lettura a chunk + conversione + eventuale concat.

La versione seguente ha un altro approccio: ‚Äúnon accumula, processa e poi butta‚Äù, √® ancora pi√π sicura (**770 secondi su L4-GPU**) üëá

In [None]:
import time
# l'avviamento del timer
start_time = time.time()

CSV_PATH = "/content/drive/MyDrive/DOT_Traffic_Speeds_NBE.csv"
ROWS_PER_CHUNK = 250_000

# creazione della directory sul session storage
out_dir = "/content/parquet_parts"
os.makedirs(out_dir, exist_ok=True)

for i, chunk in enumerate(pd.read_csv(CSV_PATH, chunksize=ROWS_PER_CHUNK)):
    gdf = cudf.from_pandas(chunk)
    # fai le tue operazioni qui...
    # e poi NON lo tieni in memoria
    gdf.to_parquet(f"{out_dir}/part_{i:04d}.parquet")

# fine timer e stampa
end_time = time.time()
print ('Tempo totale di esecuzione: ', end_time - start_time)


Tempo totale di esecuzione:  770.3484830856323


`chunk` ‚Üí √® il **dataframe pandas** che arriva dal CSV.

`gdf` ‚Üí √® il **dataframe cuDF** (quello ‚Äúvero‚Äù su cui si lavora in GPU).

si vuole usare pandas? ‚Üí usiamo `chunk`<br>
si vuole usare cuDF ‚Üí usiamo `gdf` (√® questo ‚Äúil dataframe‚Äù che ci interessa per la GPU)

Vogliamo contare le righe:

In [11]:
if IN_COLAB:
    !wc -l /content/drive/MyDrive/DOT_Traffic_Speeds_NBE.csv


64.914.524 righe!

Sapendo la dimensione in righe del file possiamo ora scrivere il codice di lettura del file pi√π efficace (con `chunk` = 1.000.000):

In [None]:
if IN_COLAB:
    path = "/content/drive/MyDrive/DOT_Traffic_Speeds_NBE.csv"

    ROWS_PER_CHUNK = 1_000_000   # 1 milione: ~65 giri

    total = 0
    for i, chunk in enumerate(pd.read_csv(path, chunksize=ROWS_PER_CHUNK)):
        gdf = cudf.from_pandas(chunk)
        total += len(gdf)
        print(f"chunk {i:03d} -> {len(gdf)} righe, totale: {total}")

    print("‚úÖ totale letto:", total)


NameError: name 'cudf' is not defined

In [None]:
chunk.shape # l'ultimo chunk in memoria

(914523, 13)

In [None]:
gdf.shape # l'ultimo 

(914523, 13)

Prima abbiamo letto a chunk.<br>
Ora PROVIAMO a leggere tutto il file **in un unico dataframe in memoria** (in 7 minuti su L4-GPU). C'√® il rischio che **esploda la RAM**, ma qui ne abbiamo 53GB!

In [None]:
if IN_COLAB:
    dfs = []
    for chunk in pd.read_csv(path, chunksize=1_000_000):
        dfs.append(chunk)

    df = pd.concat(dfs, ignore_index=True)


KeyboardInterrupt: 

In [None]:
df.shape

In [None]:
df.head()

Se volessimo invece rileggere il primo chunk faremmo cos√¨:

In [None]:
import pandas as pd

path = "/content/drive/MyDrive/DOT_Traffic_Speeds_NBE.csv"

reader = pd.read_csv(path, chunksize=1_000_000)  # crea l‚Äôiteratore
first_chunk = next(reader)                       # prende SOLO il primo pezzo

first_chunk.head()


# Il formato *parquet*

Useremo la serie storica `usa_stocks_30m.parquet`: √® una serie OHLCV di 514 titoli del Nasdaq del NYSE (dal 1998 al 2024).

Il dataset con cui lavoreremo √® un sottoinsieme del dataset [**USA 514 Stocks Prices NASDAQ NYSE**](https://www.kaggle.com/datasets/olegshpagin/usa-stocks-prices-ohlcv/data), anche disponibile su [Kaggle](https://www.kaggle.com/datasets), composto da circa **36 milioni** di elementi.

Scarichiamo il dataset NON da Kaggle ma dal "Public Google Cloud Storage bucket" di NVIDIA, per garantire velocit√† di download maggiori.

Il "Public Google Cloud Storage bucket" di NVIDIA √® uno spazio online dove NVIDIA mette a disposizione file pubblici (come dataset, modelli, esempi di codice) che chiunque pu√≤ scaricare.
√à un po‚Äô come un grande armadio digitale aperto a tutti, ospitato su Google Cloud.

Questo download richiede **circa 60 secondi**:

In [2]:
# Download della big time series
import urllib.request

file_path = "usa_stocks_30m.parquet"
url = "https://storage.googleapis.com/rapidsai/colab-data/usa_stocks_30m.parquet"

if not os.path.isfile(file_path):
    print(f"Scarico il file {file_path}...")
    urllib.request.urlretrieve(url, file_path)
    print("Download completato.")
else:
    print(f"{file_path} gi√† presente.")


NameError: name 'os' is not defined

**Il file `usa_stocks_30m.parquet`**<br>

Il file `usa_stocks_30m.parquet` √® un dataset messo a disposizione dal team RAPIDS (NVIDIA) per fare esempi di analisi su big time series finanziarie con librerie GPU-accelerate (tipo `cuDF`).

üìå In pratica:
- √à un file in **formato *Parquet*** (colonnare, compresso, molto efficiente per big data).
- Contiene dati di **prezzi azionari USA** (titoli quotati) registrati con una **frequenza di 30 minuti**.
- √à pensato per dimostrazioni: analisi di serie temporali, manipolazione con pandas/cuDF, benchmark CPU vs GPU.

üìä Tipicamente include:
- ticker ‚Üí il simbolo del titolo (es. AAPL, MSFT).
- timestamp ‚Üí la data/ora della rilevazione (ogni 30 min).
- open, high, low, close, volume (OHLCV) ‚Üí classici campi di trading.

üìê Dimensioni indicative:
- Circa **36 milioni di righe**,
- Grandezza **~ 600‚Äì700 MB** in formato Parquet,
- **Se convertito in CSV diventerebbe molto pi√π pesante (anche diversi GB)**.

üëâ Il formato Parquet **√® molto pi√π efficiente di CSV**:
- √® binario e compresso (occupa meno spazio);
- √® colonnare ‚Üí pandas pu√≤ leggere solo le colonne necessarie;
- conserva i tipi di dato (niente inferenza ogni volta).

In [None]:
df = pd.read_parquet("usa_stocks_30m.parquet")

In [None]:
df.head()

Unnamed: 0,datetime,open,high,low,close,volume,ticker
0,1999-11-18 17:00:00,45.56,50.0,45.5,46.0,9275000,A
1,1999-11-18 17:30:00,46.0,47.69,45.82,46.57,3200900,A
2,1999-11-18 18:00:00,46.56,46.63,41.0,41.0,3830500,A
3,1999-11-18 18:30:00,41.0,43.38,40.37,42.38,3688600,A
4,1999-11-18 19:00:00,42.31,42.44,41.56,41.69,1584300,A


In [None]:
df.shape

(36087094, 7)

# Pickle e Feather: poco usati?

- `Parquet`: default per dati tabellari grandi ‚Üí colonnare, compresso, schema, partizionabile, cross-linguaggio (Spark, DuckDB, BigQuery, etc.).
- `CSV`: scambio umano/‚Äúuniversale‚Äù, ma pesante e lento.
- `Feather (Arrow IPC file)`: super-veloce per passaggi temporanei tra Python/R o per caching locale; meno features (no partizionamento, no append, poca ‚Äúevoluzione schema‚Äù).
- `Pickle`: solo Python, non sicuro da caricare se non ti fidi della fonte, fragile tra versioni; buono per oggetti Python (modelli sklearn, liste), non per ‚Äúdati‚Äù tabellari duraturi.

**`Feather` e `Pickle` sono ‚Äúpoco usati‚Äù?**

`Pickle`
- üîí Sicurezza: pickle.load pu√≤ eseguire codice ‚Üí sconsigliato per file condivisi.
- üß¨ Portabilit√† bassa: Python-only e talvolta legato a versioni/librerie.
- üì¶ Dati tabellari: non √® colonnare n√© compresso in modo efficiente; niente predicate pushdown.

`Feather`
- üß© Niche use: ottimo per interop Python‚ÜîR/Arrow e cache ‚Äúfast‚Äù, ma‚Ä¶
- üß± Meno funzionalit√†: niente partizionamento, niente append, gestisce peggio ‚Äúdata lake‚Äù evolutivi.
- üåç Ecosistemi: Spark/DB/Cloud tool spingono Parquet come standard di fatto.

**Quando ha senso usarli**:

`Pickle`
- Snapshot veloci di oggetti Python (es. pipeline sklearn) per uso interno e controllato.
- Alternative spesso migliori: joblib.dump per modelli sklearn; ONNX / PMML per portabilit√†; per dati tabellari ‚Üí Parquet.

`Feather`
- Cache locale ‚Äúfast I/O‚Äù (es. salvataggio intermedio in notebook).
- Scambio rapido Python‚ÜîR (Arrow): pyarrow.feather / arrow::write_feather in R.

Se vuoi massima velocit√† di lettura/scrittura su singolo file e non ti serve partizionare.


# File JSON

Un formato di file **non tabellare** ma di **frequente uso** in Python √® JSON.

I file JSON (estensione *.json*) sono uno dei formati pi√π usati oggi per scambiare dati tra applicazioni, **specialmente sul web e in ambito API**.

üí° **In breve**
- JSON sta per **JavaScript Object Notation**<br>
√à un formato **testuale**, <u>leggibile da umani e facilmente interpretabile dai programmi</u>, nato da JavaScript ma oggi usato in **praticamente tutti i linguaggi** (Python, Java, C#, PHP, ecc.).

üì¶ **Struttura di un file JSON**

Un file JSON contiene dati organizzati come [**coppie chiave‚Äìvalore**](https://en.wikipedia.org/wiki/Name%E2%80%93value_pair), ad esempio:
```json
{
  "nome": "Antonio",
  "eta": 45,
  "iscritti": ["Mario", "Lucia", "Giorgio"],
  "attivo": true,
  "dettagli": {
    "ruolo": "Analista",
    "azienda": "ACI"
  }
}
```

üëÜ Questo √® un oggetto JSON, che contiene:
- stringhe ("`Antonio`", "`Analista`")
- numeri (`45`)
- booleani (`true`)
- liste (array) (["`Mario`", "`Lucia`", "`Giorgio`"])
- oggetti annidati ("`dettagli": {...}`)

**In Python**<br>
Puoi leggere o scrivere file JSON facilmente con il modulo json:
```python
    import json

    # Lettura
    with open("dati.json", "r") as f:
        dati = json.load(f)
    print(dati["nome"])  # -> Antonio

    # Scrittura
    nuovi_dati = {"linguaggio": "Python", "versione": 3.12}
    with open("config.json", "w") as f:
        json.dump(nuovi_dati, f, indent=4)
```

**Dove si usa JSON?**
- API REST (quasi tutte le API moderne usano JSON per scambiare dati)
- Configurazioni (es. package.json in Node.js)
- Database NoSQL come MongoDB (che usa BSON, una versione binaria di JSON)
- Applicazioni web e mobile per passare dati tra frontend e backend

üÜö Confronto rapido JSON vs CSV vs XML<br>
![](json_sintesi_2.png)




## Conversione di un file CSV o un dizionario Python in JSON e viceversa (cio√® import/export completo)


1Ô∏è‚É£ **Dizionario Python ‚Üí JSON (scrittura)**

In [None]:
import json

dati = {
    "nome": "Antonio",
    "eta": 45,
    "linguaggi": ["Python", "SQL", "R"],
    "attivo": True
}

# Scrivi su file JSON
with open("dati.json", "w") as f:
    json.dump(dati, f, indent=4, ensure_ascii=False)

print("‚úÖ File JSON creato!")

‚úÖ File JSON creato!


**Risultato** (`dati.json`):
```json
{
    "nome": "Antonio",
    "eta": 45,
    "linguaggi": ["Python", "SQL", "R"],
    "attivo": true
}
```

üî∏ `indent=4` ‚Üí rende il file leggibile<br>
üî∏ `ensure_ascii=False` ‚Üí mantiene i caratteri accentati

2Ô∏è‚É£ **JSON ‚Üí Dizionario Python (lettura)**

In [None]:
import json

with open("dati.json", "r") as f:
    dati_letti = json.load(f)

print(dati_letti["nome"])     # Antonio
print(type(dati_letti))       # dict

Antonio
<class 'dict'>


3Ô∏è‚É£ **CSV ‚Üí JSON**

Utilizziamo il file `Credit_ISLR.csv`.<br>
Convertiamolo in JSON:

In [None]:
import csv
import json

with open("Credit_ISLR.csv", "r") as f_csv:
    reader = csv.DictReader(f_csv)
    dati = list(reader)

with open("Credit_ISLR.json", "w") as f_json:
    json.dump(dati, f_json, indent=4, ensure_ascii=False)

print("‚úÖ CSV convertito in JSON!")

‚úÖ CSV convertito in JSON!


4Ô∏è‚É£ **JSON ‚Üí CSV**

Ora facciamo l‚Äôinverso:

In [None]:
import json
import csv

with open("Credit_ISLR.json", "r") as f_json:
    dati = json.load(f_json)

with open("Credit_ISLR_out.csv", "w", newline="") as f_csv:
    writer = csv.DictWriter(f_csv, fieldnames=dati[0].keys())
    writer.writeheader()
    writer.writerows(dati)

print("‚úÖ JSON convertito in CSV!")

‚úÖ JSON convertito in CSV!


![](json_sintesi.png)

# Nota tecnica sui PDF
In VSC il rendering dei file PDF √® differente da quello di Jupyter Notebook/Lab e da quello di Google Colab.<br>
La seguente funzione `show_pdf` rileva quale IDE √® attiva e "rende" il PDF in modo differente.

In [None]:
def show_pdf(pdf_path, width=1000, height=600):
    """
    Mostra un PDF nel modo pi√π appropriato per l'ambiente attuale:
    - In Jupyter: visualizza inline con IFrame.
    - In Colab: usa IFrame (gestisce bene i file caricati).
    - In VS Code o altri ambienti: apre nel browser predefinito.
    """
    import os, webbrowser, sys
    from pathlib import Path

    pdf_path = Path(pdf_path)
    if not pdf_path.exists():
        raise FileNotFoundError(f"File non trovato: {pdf_path}")

    # Rileva ambiente
    try:
        shell = get_ipython().__class__.__name__
    except NameError:
        shell = None

    if shell == 'ZMQInteractiveShell':  # Jupyter o Colab
        from IPython.display import IFrame, display
        display(IFrame(str(pdf_path), width=width, height=height))
    elif "vscode" in sys.executable.lower() or "vscode" in os.getcwd().lower():
        # Ambiente VS Code ‚Üí apre nel browser
        webbrowser.open(pdf_path.resolve().as_uri())
        print(f"üìÇ PDF aperto nel browser: {pdf_path}")
    else:
        # Altri ambienti (terminali, script)
        webbrowser.open(pdf_path.resolve().as_uri())
        print(f"üìÇ PDF aperto nel browser: {pdf_path}")
