<font size="6">**Leggere file tabellari in Python**</font><br>

> (c) 2025 Antonio Piemontese

# I dati in Python (nella Data Science)
Nella Data Science spesso siamo interessati:
- all'analisi dei **dati passati**, non in tempo reale
- all'analisi di un **singolo file**, non del DB

Questi dati sono in genere **file tabellari**, cos√¨ chiamati perch√® <u>composti da righe e colonne</u> (2 dimensioni). Sono in genere **creati dagli **utenti**, ricevuti **da altre aziende** o **semplicemente estratti da un DB** (come export).

Uno dei formati tabellari pi√π diffusi per l'import di dati in Python √® il formato [**CSV**](https://it.wikipedia.org/wiki/Comma-separated_values). E' un formato praticamente **ubiquo a tutti gli ambienti e tool di *data management* (tabellari)**: excel, google sheet, tutti i DB relazionali, ecc.

Ancorch√® in python si possa caricare in memoria **qualsiasi tipo di file** (xml, json, PDF, txt, ecc) ed accedere a **qualsiasi tipo di database** (Oracle, SQLServer, MySQL, ecc), il formato pi√π semplice ed efficiente da caricare in memoria (in un `dataframe` *pandas*) √® il CSV.

> ‚ÄúUn file CSV o Excel (**file *tabellare***) pu√≤ sembrare una tabella come nel database, ma √® solo un contenitore di dati grezzi.
Una tabella SQL invece √® una struttura controllata, con regole, tipi e relazioni, che il database gestisce in modo coerente, sicuro e transazionale.‚Äù

# Leggere file tabellari tramite librerie specifiche

Per leggere file tabellari <u>csv</u> una **prima possibilit√†** √® **la libreria `csv`**, cio√® il **CSV nativo di Python**.<br>
La ragione di questa scelta, che tuttavia presenta molti limiti, √® di evitare di caricare in memoria tutto il package *pandas* (pesante) ed evitare il problema delle dipendenze.

In [12]:
import csv

with open("Credit_ISLR.csv", newline="") as f:
    reader = csv.reader(f)
    for i, row in enumerate(reader):
        print(row)
        if i >= 20:   # stampa solo le prime 20 righe (0‚Äì19)
            break

['', 'ID', 'Income', 'Limit', 'Rating', 'Cards', 'Age', 'Education', 'Gender', 'Student', 'Married', 'Ethnicity', 'Balance']
['1', '1', '14.891', '3606', '283', '2', '34', '11', ' Male', 'No', 'Yes', 'Caucasian', '333']
['2', '2', '106.025', '6645', '483', '3', '82', '15', 'Female', 'Yes', 'Yes', 'Asian', '903']
['3', '3', '104.593', '7075', '514', '4', '71', '11', ' Male', 'No', 'No', 'Asian', '580']
['4', '4', '148.924', '9504', '681', '3', '36', '11', 'Female', 'No', 'No', 'Asian', '964']
['5', '5', '55.882', '4897', '357', '2', '68', '16', ' Male', 'No', 'Yes', 'Caucasian', '331']
['6', '6', '80.18', '8047', '569', '4', '77', '10', ' Male', 'No', 'No', 'Caucasian', '1151']
['7', '7', '20.996', '3388', '259', '2', '37', '12', 'Female', 'No', 'No', 'African American', '203']
['8', '8', '71.408', '7114', '512', '2', '87', '9', ' Male', 'No', 'No', 'Asian', '872']
['9', '9', '15.125', '3300', '266', '5', '66', '13', 'Female', 'No', 'No', 'Caucasian', '279']
['10', '10', '71.061', '6819

E' **leggerissimo**, ma si deve gestire **tutto ‚Äúa mano‚Äù** (tipi, header, encoding...):
- gestione dei tipi (tutto √® stringa) - il modulo `csv` non converte automaticamente i tipi: tutto ci√≤ che legge √® una stringa.
- header da gestire manualmente - il modulo `csv` non sa da solo se la prima riga √® intestazione o dati.
- problemi di encoding-se il file non √® in UTF-8 (es. √® in `latin-1` o `windows-1252`), `open()` dar√† errore o caratteri strani.
- separatori diversi (`,` oppure `;` oppure `\t`) -i file CSV non sono sempre separati da virgole ‚Äî in Italia spesso da `;` o tabulazioni.
- gestione di virgolette e caratteri speciali - se un campo contiene una virgola o un ritorno a capo, il parsing pu√≤ rompersi se non si usano i parametri giusti.
- dati mancanti (celle vuote) - non esiste un concetto di `NaN`
- con milioni di righe, `csv.reader` √® pi√π veloce di pandas in lettura pura, ma non si pu√≤ filtrare, unire, o fare operazioni sui dati facilmente.

**In sintesi**:<br>
Usare `csv` puro √® come leggere il file ‚Äúa mano‚Äù: abbiamo il pieno controllo ma anche tutto il lavoro √® a carico nostro. *pandas* (o *Polars*) invece capiscono header, tipi, separatori, encoding, missing, ecc. automaticamente.

Una **seconda possibilit√†** √® il modulo **`openpyxl`** (per file Excel **.xlsx**)

In [16]:
from openpyxl import load_workbook

wb = load_workbook("Credit_ISLR.xlsx")
ws = wb.active

for i, row in enumerate(ws.iter_rows(values_only=True)):
    print(row)
    if i >= 19:    # indice parte da 0 ‚Üí 0‚Äì19 = 20 righe
        break


('Column1', 'ID', 'Income', 'Limit', 'Rating', 'Cards', 'Age', 'Education', 'Gender', 'Student', 'Married', 'Ethnicity', 'Balance')
(1, 1, 14891, 3606, 283, 2, 34, 11, ' Male', 'No', 'Yes', 'Caucasian', 333)
(2, 2, 106025, 6645, 483, 3, 82, 15, 'Female', 'Yes', 'Yes', 'Asian', 903)
(3, 3, 104593, 7075, 514, 4, 71, 11, ' Male', 'No', 'No', 'Asian', 580)
(4, 4, 148924, 9504, 681, 3, 36, 11, 'Female', 'No', 'No', 'Asian', 964)
(5, 5, 55882, 4897, 357, 2, 68, 16, ' Male', 'No', 'Yes', 'Caucasian', 331)
(6, 6, 8018, 8047, 569, 4, 77, 10, ' Male', 'No', 'No', 'Caucasian', 1151)
(7, 7, 20996, 3388, 259, 2, 37, 12, 'Female', 'No', 'No', 'African American', 203)
(8, 8, 71408, 7114, 512, 2, 87, 9, ' Male', 'No', 'No', 'Asian', 872)
(9, 9, 15125, 3300, 266, 5, 66, 13, 'Female', 'No', 'No', 'Caucasian', 279)
(10, 10, 71061, 6819, 491, 3, 41, 19, 'Female', 'Yes', 'Yes', 'African American', 1350)
(11, 11, 63095, 8117, 589, 4, 30, 14, ' Male', 'No', 'Yes', 'Caucasian', 1407)
(12, 12, 15045, 1311, 138

Una **terza** possibilit√† √® il modulo `xlrd` o `xlwt` - sempre per file excel
- `xlrd` ‚Üí lettura di vecchi .xls (Excel 97-2003)
- `xlwt` ‚Üí scrittura di .xls<br>

‚ö†Ô∏è Deprecati per `.xlsx`, quindi oggi meno consigliati.

![](sintesi_formati_tabellari.png)

# Il caricamento in pandas

Se si vuole solo leggere/scrivere file (tabellari) senza installare grandi librerie, si pu√≤ usare `csv` o `openpyxl`, come visto prima.

Altrimenti, si usano i [**dataframe**](https://en.wikipedia.org/wiki/Dataframe) che sono la **struttura dati pi√π utilizzata nella Data Science**.

Per caricare un file tabellare in un dataframe si usano queste due funzioni *pandas*:
```python
    import pandas as pd
    df = pd.read_csv('dati.csv)
    df = pd.read_excel('dati.xlsx')
```

Se invece si vogliono alternative **pi√π performanti**, oggi si usa molto `cuDF` (con GPU) oppure `Polars`.


<p style="color:red; font-size:18px; font-weight:bold;">
üö® I file tabellari (ed anche le tabelle SQL che vedremo pi√π avanti) sono in genere caricati in un dataframe pandas üö®
</p>
Pandas √® comodo ma non √® l‚Äôunico modo per importare file tabellari in python.<br>

# Excel o csv?
Qual √® il formato migliore per importare file tabellari? Excel o csv?<br>
Dipende dallo scopo e dal contesto, ma **nella maggior parte dei casi CSV √® pi√π efficiente, trasparente e robusto, mentre Excel √® pi√π comodo per l‚Äôutente umano**.

---

Facciamo un confronto **CSV vs Excel** dal punto di vista <u>tecnico</u> e da quello <u>umano</u>.

---

**1. Dal punto di vista tecnico (*pandas*)**

üü© **CSV: √® il formato ‚Äúnativo‚Äù per pandas**
- √® pi√π leggero da leggere e scrivere:
```python
    df = pd.read_csv("dati.csv")
```
- pandas lo apre molto pi√π velocemente (soprattutto file grandi).
- nessuna dipendenza esterna (solo Python standard).
- perfetto per scambi tra sistemi o integrazione con altri linguaggi.
- √® testuale e trasparente ‚Üí lo si pu√≤ aprire anche con un editor o versionare su Git.

‚ö†Ô∏è Svantaggi:
- perde formattazioni, formule, fogli multipli (ad esempio se convertito da excel)
- non ha metadati (tipi, date, ecc.), quindi pandas deve ‚Äúindovinarli‚Äù (**inferirli**).

üü® **Excel (XLS / XLSX): comodo ma pi√π complesso**
- supporta fogli multipli, celle formattate, tipi pi√π espliciti.
- ottimo per file provenienti da utenti umani o report aziendali.

```python
    df = pd.read_excel("dati.xlsx")
```

‚ö†Ô∏è Svantaggi:
- meno stabile su grandi volumi (>100 000 righe).
- usa librerie esterne (`openpyxl`, `xlrd`, `pyxlsb` ecc.) - come visto prima
- pi√π lento da leggere e scrivere.
- gli errori di formattazione (celle unite, righe vuote, formule, ecc.) spesso creano problemi.
- meno adatto all‚Äôautomazione massiva (batch ETL, pipeline, ecc.).


---
**"Librerie esterne"**: cosa si intende?<br>
La funzione `pd.read_excel()` √® integrata in pandas, ma non fa tutto da sola: per funzionare **ha bisogno di librerie esterne** che gestiscono concretamente il formato Excel.<br>
Cio√®, come funziona davvero `pd.read_excel()`?<br>
Quando si chiama:
```python
import pandas as pd
df = pd.read_excel("dati.xlsx")
```
pandas:
- riconosce il formato del file (es. `.xls`, `.xlsx`, `.xlsb`)
- usa un ‚Äúmotore‚Äù esterno (engine) per leggere i dati
- trasforma ci√≤ che legge in un `DataFrame`

---

**2. Confronto dal punto di vista del ‚Äúdata pipeline‚Äù**:

![](cfr_pipeline.png)

**3. Performance: confronto indicativo**:<br>
![](performance_csv_excel.png)

**4. In pratica**:
üëâ Se il file **arriva da un sistema o un processo automatico** --> scegliere CSV.
üëâ Se il file **arriva da un collega o un cliente che lavora in Excel** --> usa Excel, pulirlo e poi convertirlo in CSV o Parquet.

üí° Molti flussi aziendali fanno proprio cos√¨:
1. `read_excel()`<br>
2.  **pulizia dati in *pandas***<br>
3. `to_csv()` o `to_parquet()` per uso interno / storage efficiente

# L'importanza e la diffusione del formato *csv*
Vediamo pi√π in dettaglio **perch√® il formato CSV √® cos√¨ ubiquo nel mondo dei dati**. Non c'√® praticamente ambiente di *data management* (excel, google sheet, DB relazionali, ecc) che non permetta import ed export di file csv.

![](importanza_csv.png)

# Ragioni tecniche della diffusione di csv
Ci sono diversi **motivi tecnici molto concreti** che spiegano perch√© il formato CSV √® cos√¨ onnipresente nel mondo dei dati.<br>
Ecco una tabella riassuntiva chiara e tecnica:

![](diffusione_csv.png)

üí° In breve:<br>
Il CSV √® il **‚Äúminimo comune denominatore‚Äù dei dati tabellari**: semplice, interoperabile, senza dipendenze e compatibile con tutto ‚Äî da Excel a Spark.<br>
Non √® perfetto (niente tipi, schema, compressione o metadati), ma proprio **la sua povert√† strutturale √® la sua forza**.

# Leggere file CSV in pandas

Come detto, nella Data Science, spesso, NON siamo interessati alla fotografia dei dati in tempo reale. In genere sia le analisi (EDA) che i modelli (predittivi) - i due obiettivi tipici del ML/AI - sono fatti su dati **passati (congelati)**, sia perch√® manca l'interesse sui dati recentissimi sia perch√® i dati in input ai modelli devono essere preprocessati (controllo qualit√†, gestione outlier, gestione MV, gestione duplicati, standardizzazione, ecc). Quindi, sebbene Python/pandas siano in gradi di accedere **direttamente** a tabelle SQL remote (tramite i metodi `pd.read_sql_query` per le query e `pd.read_sql_table` per il download dell'intera tabella), tuttavia √® molto pi√π veloce caricare i dati da un file esterno locale, che pu√≤ essere di vari formati (csv, json, parquest, ecc).

## 3 note tecniche sul formato CSV

* i due argomenti principali del metodo pandas `read_csv` sono  `sep`, che indica il carattere usato nel file per "separare" le colonne (in genere √® "," oppure il ";") e `header`, che indica la presenza (e l'eventuale numero) di righe di heading (intestazione).
* ci sono diversi formati csv disponibili da excel; occorre scegliere quello indicato in figura sottostante con la freccia rossa
  
  ![](tipi_CSV.png)
* [pro e contro](https://towardsdatascience.com/why-i-stopped-dumping-dataframes-to-a-csv-and-why-you-should-too-c0954c410f8f) del formato csv


Carichiamo in *pandas* il famoso file bancario `Credit_ISLR`:

In [4]:
import pandas as pd
df_credit = pd.read_csv("Credit_ISLR.csv",header=0)
df_credit

Unnamed: 0.1,Unnamed: 0,ID,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,1,1,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,2,2,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903
2,3,3,104.593,7075,514,4,71,11,Male,No,No,Asian,580
3,4,4,148.924,9504,681,3,36,11,Female,No,No,Asian,964
4,5,5,55.882,4897,357,2,68,16,Male,No,Yes,Caucasian,331
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,396,12.096,4100,307,3,32,13,Male,No,Yes,Caucasian,560
396,397,397,13.364,3838,296,5,65,17,Male,No,No,African American,480
397,398,398,57.872,4171,321,5,67,12,Female,No,Yes,Caucasian,138
398,399,399,37.728,2525,192,1,44,13,Male,No,Yes,Caucasian,0


Come si vede, la funzione *pandas* `read_csv` ha creato automaticamente un **indice** numerico, sicch√® l'indice originario `ID` √® ora <u>ridondante</u>, ed ha aggiunto una colonna `Unnamed: 0` (vedremo pi√π avanti perch√®). E' bene cancellarle entrambe perch√® inutili.

In [7]:
df_credit.drop(columns=['Unnamed: 0', 'ID'], inplace=True) 

In [8]:
df_credit.head()

Unnamed: 0,Income,Limit,Rating,Cards,Age,Education,Gender,Student,Married,Ethnicity,Balance
0,14.891,3606,283,2,34,11,Male,No,Yes,Caucasian,333
1,106.025,6645,483,3,82,15,Female,Yes,Yes,Asian,903
2,104.593,7075,514,4,71,11,Male,No,No,Asian,580
3,148.924,9504,681,3,36,11,Female,No,No,Asian,964
4,55.882,4897,357,2,68,16,Male,No,Yes,Caucasian,331


## pandas √® pesante?

‚öôÔ∏è Cosa significa che ‚Äúpandas √® pesante‚Äù? Lo √® in vari sensi:

1Ô∏è‚É£ **Dimensione e complessit√†**
- Pandas non √® una piccola libreria:<br>
    - l‚Äôinstallazione porta con s√© molte dipendenze:
    - `numpy`, `dateutil`, `pytz`, `tzdata`, `matplotlib`, `openpyxl`, `xlrd`, ecc.
- La dimensione del pacchetto √® di **decine di MB**.
- Il caricamento in memoria all‚Äôavvio √® **pi√π lento** rispetto a un semplice `import csv`.

üëâ Quindi per uno script che deve solo leggere un file CSV e stampare 10 righe, importare tutto pandas √® come usare un camion per consegnare una lettera.

2Ô∏è‚É£ **Dipendenze esterne**<br>

Pandas, per funzionare bene con molti formati, usa librerie esterne (come detto prima):
- `openpyxl` per i file *.xlsx*
- `xlrd` per i *.xls*
- `pyarrow` per i file *.parquet*
- `numexpr` per operazioni numeriche
- `matplotlib per .plot()`<br>

üëâ Queste dipendenze sono comode in un ambiente data science,
ma eccessive in uno script di sistema o un microservizio.

3Ô∏è‚É£ **Impatto su ambienti piccoli**<br>

In contesti come:
- microservizi Docker
- script CLI leggeri
- funzioni serverless (AWS Lambda, GCP Functions)
- sistemi con vincoli di memoria

importare pandas pu√≤:
- rallentare l‚Äôavvio dello script,
- aumentare l‚Äôimmagine Docker di decine o centinaia di MB,
- portare a incompatibilit√† o tempi di cold start lunghi.


**Ecco quindi perch√© a volte si vuole ‚Äúevitare pandas‚Äù**:
- Non ci servono le sue funzioni di analisi avanzata.
- Si vuole solo leggere un file e scorrerne le righe.
- Si vuole ridurre dipendenze e tempo di startup.

In quel caso ha pi√π senso usare:
```python
import csv      # per file CSV
import openpyxl # per file Excel moderni
```

che sono moduli molto pi√π leggeri.

üß† Metafora<br>
Pandas √® come Excel o un gestionale completo.<br>
Se ti serve solo aprire un file di testo e stampare due colonne, ti basta il Blocco Note.

## Convertire file Excel in formato CSV

Al contrario, per visualizzare un file CSV **nel formato Excel standard** si pu√≤ fare cos√¨ (ci sono anche altri modi):
* aprire un **nuovo file**
* scheda `Dati`
* bottone in alto a sx `Recupera dati`
* `Da file` --> `Da testo/CSV`
* nella preview fare le eventuali modifiche (al caricamento) e poi premere il bottone "Carica" in basso a dx

> Se un file nasce in excel e poi viene convertito in csv, salvato e in un secondo momento riaperto in excel, excel lo visualizza come excel (cio√® con la griglia). Come mai?<br>

Excel non apre il CSV come file Excel vero e proprio ‚Äî lo interpreta come una tabella testuale, e lo visualizza nella stessa interfaccia grafica (celle, righe, colonne).<br>
Questo fa s√¨ che ‚Äúsembri Excel‚Äù, ma in realt√† il file non contiene nessuna delle informazioni tipiche del formato `.xlsx`:
- niente formattazione,
- niente formule,
- niente fogli multipli,
- niente tipi di dato complessi.

Excel semplicemente mostra **una griglia sopra un file di testo**.<br>
√à un po‚Äô come aprire un file `.txt` in Word: il contenuto √® testo, ma l‚Äôambiente √® Word, con tutto il suo aspetto ‚Äúricco‚Äù.

üí° Riassunto in una frase:<br>
> Excel riconosce l‚Äôestensione `.csv`, ne interpreta i dati in forma tabellare e li visualizza nella sua interfaccia ‚Äî ma il file rimane puro testo strutturato, non un vero foglio Excel.

**Obiezione**: se apro in excel un file csv generato indipendentemente da excel, la griglia non √® applicata.<br>
Vero, Excel non legge il CSV ‚Äúintelligentemente‚Äù in base al contenuto, ma usa **impostazioni locali** del sistema operativo (la ‚Äúimpostazione paese‚Äù o ‚Äúseparatore di elenco‚Äù di Windows).<br>
Per esempio:
- in Italia, il separatore di elenco predefinito √® `;` (punto e virgola);
- in USA/UK, √® `,` (virgola).

Quindi:
- se il CSV viene da Excel, esso usa lo stesso separatore della tua configurazione regionale ‚Üí Excel lo ‚Äúriconosce‚Äù e mostra la tabella.
- Se invece il CSV viene da un altro programma (es. Python to_csv(), MySQL, o sistemi internazionali) che usa la virgola, Excel non sa che √® un separatore e ti mette tutto in un‚Äôunica cella.

L‚Äôutente pu√≤ correggere manualmente:

    `Dati ‚Üí Da testo/CSV ‚Üí scegli delimitatore corretto (virgola, punto e virgola, tab)`

oppure cambiare l‚Äôimpostazione regionale del sistema.

üí° In sintesi:

> Excel ‚Äúinterpreta‚Äù come tabella solo i CSV che rispettano le sue convenzioni regionali (separatore e encoding).<br>
> Se il file √® generato altrove con altri standard, Excel lo mostra come testo in una colonna.

![](apertura_csv.png)

üí¨ **Spiegazione breve**

Quando Excel mostra tutto in una sola colonna, √® perch√©:
- il delimitatore del file (es. `,`)
‚â†
- dal separatore di elenco di sistema (es. `;` in Italia).

üëâ Soluzione: usare l‚Äôimportazione guidata, che ti fa scegliere manualmente il delimitatore e l‚Äôencoding (UTF-8 consigliato).<br>
Dopo questa scelta, Excel mostra subito la griglia corretta e puoi salvare come .xlsx se vuoi mantenerla stabile.

üí° Consiglio pratico per chi lavora spesso con Python o CSV esterni:
- usa `df.to_csv('file.csv', sep=';', encoding='utf-8-sig')`
‚Üí cos√¨ Excel (versione italiana) lo apre gi√† ‚Äúa griglia‚Äù senza interventi manuali.
- `utf-8-sig` √® una variante dell‚Äôencoding UTF-8 molto usata proprio per far s√¨ che Excel riconosca correttamente i CSV.

## Gli argomenti di input della funzione `pd.read_csv`

Abbiamo gi√† citato i due **fondamentali argomenti in input** della funzione pandas `read_csv`: `sep` e `header`. Sono **critici:
- `header=1` dice a pandas di saltare la prima riga del file e usare la seconda riga come intestazione.<br>
Se i nostri CSV non hanno due righe di intestazione, oppure se il primo file ha un formato leggermente diverso dagli altri (spazi, separatore, BOM, ecc.), pandas **interpreter√† in modo sbagliato le colonne**
- `sep=';'` scassa tutti i dati (se il file √® effettivamente CSV!<br>
Attenzione: molti "file CSV" hanno sep=';'!

In realt√† la funzione `read_csv` ha **molti altri argomenti in input**, come si evince dall'help della cella successiva - pi√π avanti approfondiremo i **principali**:

In [5]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(
    filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]',
    *,
    sep: 'str | None | lib.NoDefault' = <no_default>,
    delimiter: 'str | None | lib.NoDefault' = None,
    header: "int | Sequence[int] | None | Literal['infer']" = 'infer',
    names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>,
    index_col: 'IndexLabel | Literal[False] | None' = None,
    usecols: 'UsecolsArgType' = None,
    dtype: 'DtypeArg | None' = None,
    engine: 'CSVEngine | None' = None,
    converters: 'Mapping[Hashable, Callable] | None' = None,
    true_values: 'list | None' = None,
    false_values: 'list | None' = None,
    skipinitialspace: 'bool' = False,
    skiprows: 'list[int] | int | Callable[[Hashable], bool] | None' = None,
    skipfooter: 'int' = 0,
    nrows: 'int | None' = None,
    na_values: 'Hashable | Iterable[Hashable] | Mapping[Hashable, Iterable[Hashable]] | None' = None,
  

> La lettura di un file *csv* rappresenta spesso una delle **prime attivit√†** di un Data Scientist e di un notebook. Sebbene essa possa sembrare banale, spesso invece rappresenta uno **scoglio iniziale**, fonte di **non poche frustrazioni**, per due ragioni:
> - i molti e non banali argomenti della funzione `read_csv`
> - le **irregoilarit√†** nei dati dei file

## Il mapping

La funzione `pd.read_csv` fa un **mapping** automatico dei dati CSV in pandas, come qui descritto:

![](how_pandas_infers_CSV_datatypes.png)

C'√® un problema, non citato nella slide: la funzione `read_csv` **non riesce spesso a inferire le variabili categoriche** (se presenti nel file CSV come stringhe), che vengono perci√≤ importate come `object`, il generico data type *stringa* di pandas. Come si vede, infatti:

In [12]:
df_credit.dtypes

Income       float64
Limit          int64
Rating         int64
Cards          int64
Age            int64
Education      int64
Gender        object
Student       object
Married       object
Ethnicity     object
Balance        int64
dtype: object

Le variabili `Gender`, `Student`, `Married` e `Ethnicity` sono **categoriche** perch√®, al di l√† del loro formato, possono assumere un numero finito e piccolo di valori, a differenza delle variabili **numeriche**, che possono assumere (almeno potenzialmente) un numero infinito di valori.

Ogni cella della variabile, se importata come `object`, **punta a una stringa in memoria, spesso duplicata pi√π volte**.

Occorre dunque **convertire** queste variabili in formato `category`, un data type atomico reso disponibile da *pandas* (non c'√® in Python base), nel seguente modo:

In [15]:
df_credit['Gender'] = df_credit['Gender'].astype('category')
df_credit.dtypes

Income        float64
Limit           int64
Rating          int64
Cards           int64
Age             int64
Education       int64
Gender       category
Student        object
Married        object
Ethnicity      object
Balance         int64
dtype: object

Il metodo *pandas* `astype('category')`:
- crea una **tabella di codifica interna** (i ‚Äúlevels‚Äù o ‚Äúcategories‚Äù),
- rappresenta la colonna come **interi** interni (0, 1, 2, ‚Ä¶) invece che stringhe ripetute.

Il funzionamento di `category` √® simile a quello del **fattore** di R.

üöÄ <font size="4">**Vantaggi principali** (di `category`)</font><br>

üîπ **Efficienza in memoria**<br>
Ogni valore diventa **un intero**, e la stringa viene **memorizzata una sola volta nella tabella delle categorie**.<br>
üëâ Su grandi dataset, il risparmio pu√≤ arrivare al 70‚Äì90% di RAM.
Esempio:
```python
df['citt√†'].memory_usage(deep=True)
df['citt√†'].astype('category').memory_usage(deep=True)
```
La seconda occupa molto meno spazio.

üîπ **Velocit√† di elaborazione**<br>
Molte operazioni pandas (`groupby`, `sort`, `value_counts`, `merges`) diventano **molto pi√π veloci**; infatti:
- confrontare interi √® pi√π rapido che confrontare stringhe,
- gli algoritmi di raggruppamento e join lavorano sui codici numerici.
üí° Tipico: `df.groupby('categoria').agg(...)` √® molto pi√π rapido se categoria √® `category`.

üîπ **Significato semantico**<br>
Una variabile categorica ha **un numero finito e noto di livelli**.<br>
Questo √® utile per:
- garantire che non compaiano valori ‚Äúfuori lista‚Äù (es. ‚ÄòFemmina‚Äô vs ‚ÄòF‚Äô),
- mantenere l‚Äôordine logico o gerarchico (es. Basso < Medio < Alto).<br>

Si pu√≤ anche definire esplicitamente l‚Äôordine, in questo modo:
```python
df['livello'] = pd.Categorical(df['livello'], categories=['basso','medio','alto'], ordered=True)
```

‚Üí utile per confronti, ordinamenti o encoding nel machine learning.

üîπ **Compatibilit√† ML e preprocessing**<br>
Molti algoritmi di machine learning o encoder (es. `sklearn.preprocessing.OrdinalEncoder`, `OneHotEncoder`) riconoscono category e la trattano subito come variabile discreta, **senza doverla prima convertire da object**.

---

‚ö†Ô∏è **Quando `category` non conviene?
- se la colonna ha **molti valori unici** (es. un codice univoco o un ID cliente), la conversione non porta benefici: la tabella delle categorie sarebbe grande quanto la colonna stessa.
- se si modificano spesso i valori (aggiungendo nuove categorie), il tipo `category` √® meno flessibile.

üîç **Esempio pratico**:
```
import pandas as pd
df = pd.DataFrame({
    'sesso': ['M','F','M','F','F']*100000
})
print(df['sesso'].memory_usage(deep=True))   # object
df['sesso'] = df['sesso'].astype('category')
print(df['sesso'].memory_usage(deep=True))   # category (molto meno!)
```

---

![](sintesi_category.png)

## Gli argomenti della funzione `pd.read_csv`

Ecco un ottimo notebook di [illustrazione dei vari argomenti](https://github.com/nikitaprasad21/ML-Cheat-Codes/blob/main/Data-Gathering/CSV-(Comma-Separated-Values)-Files/csv_file_cheatcodes.ipynb) per `pd.read_csv` - **scaricato** nella directory di questo notebook

## La colonna `Unnamed: 0`
Vedi [questa chat](https://chatgpt.com/share/68f74bca-554c-8012-a844-7260ce18391d) di chatGPT.

## Problemi frequenti nel caricamento dei file CSV in pandas.

Ecco un elenco dei **problemi** pi√π comuni che si incontrano caricando **file CSV** con `pandas.read_csv()`, insieme a **cause** e **soluzioni tipiche**:

üß© **1. Colonne ‚ÄúUnnamed: 0‚Äù o ‚ÄúUnnamed: n‚Äù** - gi√† visto prima

<u>Problema</u>: appare una colonna indesiderata chiamata `Unnamed: 0`.<br>
<u>Causa</u>: spesso il CSV include un indice salvato da un precedente `DataFrame.to_csv()` (cio√® `index=True` di default).<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", index_col=0)
# oppure
pd.read_csv("file.csv").drop(columns=["Unnamed: 0"])
```

‚öôÔ∏è **2. Delimitatori sbagliati** - gi√† visto prima

<u>Problema</u>: il file non viene separato correttamente (tutte le colonne finiscono in una sola).<br>
<u>Causa</u>: il separatore non √® la virgola ma punto e virgola ;, tab \t o altro.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", sep=";")      # per CSV europei
pd.read_csv("file.csv", sep="\t")     # per file TSV
```

---
Un TSV (*Tab-Separated Values*) √® praticamente un CSV, ma invece del separatore `,` oppure `;`, usa il tabulatore `\t` come separatore di campo.
Si pu√† anche rilevare automaticamente:
```python
pd.read_csv("file.csv", sep=None, engine="python")
```

üß© Quando si usa un TSV?
- quando i dati contengono molte virgole o punti e virgola (es. descrizioni di testo).
- quando il file √® esportato da sistemi Unix o database (es. PostgreSQL COPY TO, Excel ‚Üí ‚ÄúTesto con tabulazioni‚Äù).
- quando si vuole evitare ambiguit√† tra separatori decimali e di campo.

---

Il parametro `engine` in `pandas.read_csv()` serve a dire quale ‚Äúmotore di parsing‚Äù usare per leggere e interpretare il file CSV.<brr>
In pratica, Pandas ha **due diversi ‚Äúparser engine‚Äù** che fanno lo stesso lavoro (cio√® leggere il file e trasformarlo in DataFrame), ma **con caratteristiche e prestazioni diverse**.

1Ô∏è‚É£ **`engine="c"`** ‚Üí il parser ‚Äúveloce‚Äù (default)
- scritto in linguaggio C ‚Üí molto veloce
- √® quello usato di default in quasi tutti i casi.
- √® ottimo per file puliti e regolari.
- ma... √® meno flessibile: non supporta tutte le opzioni, e pu√≤ fallire su CSV ‚Äúsporchi‚Äù o complessi.

Esempio di uso:
```python
pd.read_csv("file.csv", engine="c")
```

2Ô∏è‚É£ **`engine="python"`** ‚Üí il parser ‚Äúrobusto‚Äù
- scritto in puro Python ‚Üí pi√π lento, ma pi√π tollerante.
- supporta opzioni che il parser C non gestisce bene, come:
    - `sep=None` (cio√® **il rilevamento automatico del separatore**),
    - delimitatori multipli o irregolari,
    - linee malformate (on_bad_lines),
    - quote e caratteri speciali complessi.

Esempio d'uso:
```python
pd.read_csv("file.csv", sep=None, engine="python")
```

üëâ Qui Pandas prova automaticamente a indovinare il separatore (',', ';', '\t', ecc.) analizzando le prime righe.

---

Torniamo all'elenco dei  problemi e soluzioni di `read_csv`.

üî§ **3. Encoding errato**

<u>Problema</u>: caratteri accentati o simboli speciali appaiono come ÔøΩ o danno errore `UnicodeDecodeError`.<br>
<u>Causa</u>: il file non √® in `UTF-8` ma in `latin1`, `cp1252`, ecc.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", encoding="latin1")
```

üìâ **4. Tipo di dato non corretto**

<u>Problema</u>: colonne numeriche importate come stringhe (object).<br>
<u>Causa</u>: presenza di separatori migliaia, simboli, o celle vuote.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", thousands=".", decimal=",")
```
oppure successivamente:
```python
df["col"] = pd.to_numeric(df["col"], errors="coerce")
```

üßæ **5. Header non nella prima riga** - gi√† visto prima

<u>Problema</u>: i nomi di colonna non vengono letti correttamente.<br>
<u>Causa</u>: il file ha righe descrittive o metadati iniziali.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", header=2)   # se l‚Äôintestazione √® alla terza riga
```

ü™ì **6. File troppo grande**

<u>Problema</u>: `MemoryError` o caricamento lentissimo.<br>
<u>Causa</u>: CSV molto grande rispetto alla RAM.<br>
<u>Soluzioni</u>:

- Caricamento a chunk:
```python
for chunk in pd.read_csv("file.csv", chunksize=100000):
    process(chunk)
```
- Oppure usare **Dask** o **Polars** per big data.

üßÆ **7. Colonne con valori mancanti o disallineati**

<u>Problema</u>: righe con numero diverso di colonne, errore tipo `ParserError: Error tokenizing data`.<br>
<u>Causa</u>: virgolette non chiuse o separatori dentro i campi.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", on_bad_lines="skip", quoting=csv.QUOTE_NONE)
```

Oppure controllare i delimitatori.

üß† **8. Date non interpretate correttamente**

<u>Problema</u>: le date restano stringhe o sono nel formato errato.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", parse_dates=["data"])
```

oppure
```python
df["data"] = pd.to_datetime(df["data"], dayfirst=True)
```

ü™™ **9. Duplicati o whitespace nei nomi colonna**

<u>Problema</u>: nomi con spazi o duplicati (`'Nome '` ‚â† `'Nome'`).<br>
<u>Soluzione</u>:
```python
df.columns = df.columns.str.strip()
```

üß± **10. Quote e caratteri speciali**

<u>Problema</u>: CSV con virgolette interne, doppie virgolette, ecc.<br>
<u>Soluzione</u>:
```python
pd.read_csv("file.csv", quotechar='"', escapechar='\\')
```

![](problemi_tipici_read_csv.png)

Vediamo ora:<br>
1Ô∏è‚É£ un file CSV **‚Äúsporco‚Äù** con vari **errori e inconsistenze reali**;<br>
2Ô∏è‚É£ e il codice Python completo per leggerlo correttamente con `pandas.read_csv()`.

Contenuto del file `dati_sporchi.csv`.<br>
üëâ Questo file contiene:
- delimitatore `;` invece di `,`
- encoding misto (accenti e caratteri speciali)
- separatori decimali confusi (`,`, `.`)
- valori mancanti o `N/A`
- riga con virgolette interne e una virgola nel nome
- header con spazi
- colonna `Unnamed: 0` inutile
- righe con colonne disallineate

In [48]:
# =========================
# 1. CREA IL FILE CSV "SPORCO"
# =========================
csv_content = """# Dati di esempio esportati da sistema legacy
# Contengono errori di formato, encoding e separatori
ID; Nome ; Et√† ; Data_nascita ; Stipendio ; Note
0; "Mario Rossi"; 35 ; 12/05/1989 ; "2.500,50" ; "Lavora a Roma, ottimo rendimento"
1; "Anna Bianchi"; 29 ; 01/09/1995 ; "3.200,00" ; "Milano, nuovi progetti"
2; "Jos√© √Ålvarez"; 40 ; 15/02/1984 ; "4.000,75" ; "Problemi di encoding √†√®√¨√≤√π"
3; "Luigi Verdi"; "?" ; 03/11/1990 ; "2,800.00" ; "Errore nei separatori decimali"
4; "Giulia Rossi" ; 27 ; 31-08-1997 ; "3.000,00" ; "Riga OK"
5; "Paolo Bianchi" ; 33 ; 02/04/1991 ; "N/A" ; "Valore mancante stipendio"
6; "Marco, Test"; 38 ; 07/07/1986 ; "2.900,00" ; "Virgola nel nome"
7 "Sara Neri" ; 31 ; 10/10/1993 ; "3.200,00" ; Riga con separatore mancante
8; "Laura Verdi"; 25 ; 21/06/1999 ; "3.000,00"
9; "Andrea Neri" ; ; ; ; "Campi mancanti"
Unnamed: 0; "Extra colonna inutile"; ; ; ;
"""

In [49]:
with open("dati_sporchi.csv", "w", encoding="latin1") as f:
    f.write(csv_content)

print("‚úÖ File 'dati_sporchi.csv' creato.\n")

‚úÖ File 'dati_sporchi.csv' creato.



In [50]:
# =========================
# 2. LETTURA ROBUSTA
# =========================
df = pd.read_csv(
    "dati_sporchi.csv",
    sep=";",                     # separatore europeo
    comment="#",                 # ignora righe di commento
    engine="python",             # parser pi√π flessibile
    encoding="latin1",           # gestisce accenti
    on_bad_lines="skip",         # salta righe errate
    skip_blank_lines=True,       # ignora righe vuote
    skipinitialspace=True        # rimuove spazi dopo ;
)

print("Colonne originali:", df.columns.tolist(), "\n")

Colonne originali: ['ID', 'Nome ', 'Et√† ', 'Data_nascita ', 'Stipendio ', 'Note'] 



In [51]:
df.head()

Unnamed: 0,ID,Nome,Et√†,Data_nascita,Stipendio,Note
0,8,Laura Verdi,25.0,21/06/1999,"3.000,00",
1,Unnamed: 0,Extra colonna inutile,,,,


In [52]:
# =========================
# 3. PULIZIA NOMI COLONNE
# =========================
df.columns = df.columns.str.strip()                          # rimuove spazi
df.columns = df.columns.str.replace("√É", "√†", regex=False)   # corregge accenti errati
df = df.loc[:, ~df.columns.str.contains("^Unnamed", case=False)]  # rimuove colonne Unnamed

In [53]:
df.head()

Unnamed: 0,ID,Nome,Et√†,Data_nascita,Stipendio,Note
0,8,Laura Verdi,25.0,21/06/1999,"3.000,00",
1,Unnamed: 0,Extra colonna inutile,,,,


In [54]:
# =========================
# 4. TRASFORMAZIONI TIPICHE
# =========================

# -- Colonna Et√†
if "Et√†" in df.columns:
    df["Et√†"] = pd.to_numeric(df["Et√†"], errors="coerce")

# -- Colonna Stipendio
if "Stipendio" in df.columns:
    df["Stipendio"] = (
        df["Stipendio"]
        .astype(str)
        .str.replace(".", "", regex=False)  # rimuove i punti (migliaia)
        .str.replace(",", ".", regex=False) # converte virgola in punto
    )
    df["Stipendio"] = pd.to_numeric(df["Stipendio"], errors="coerce")

# -- Colonna Data_nascita
if "Data_nascita" in df.columns:
    df["Data_nascita"] = pd.to_datetime(df["Data_nascita"], dayfirst=True, errors="coerce")


In [55]:
df.head()

Unnamed: 0,ID,Nome,Et√†,Data_nascita,Stipendio,Note
0,8,Laura Verdi,25.0,1999-06-21,3000.0,
1,Unnamed: 0,Extra colonna inutile,,NaT,,


In [56]:
# =========================
# 5. RISULTATO FINALE
# =========================
print("‚úÖ File caricato e pulito correttamente!\n")
print(df)
print("\nTipi di dato:\n", df.dtypes)

‚úÖ File caricato e pulito correttamente!

           ID                   Nome   Et√† Data_nascita  Stipendio  Note
0           8            Laura Verdi  25.0   1999-06-21     3000.0   NaN
1  Unnamed: 0  Extra colonna inutile   NaN          NaT        NaN   NaN

Tipi di dato:
 ID                      object
Nome                    object
Et√†                    float64
Data_nascita    datetime64[ns]
Stipendio              float64
Note                   float64
dtype: object


In [41]:
%%writefile dati_sporchi.csv
# Dati di esempio esportati da sistema legacy
# Contengono errori di formato, encoding e separatori
ID; Nome ; Et√† ; Data_nascita ; Stipendio ; Note
0; "Mario Rossi"; 35 ; 12/05/1989 ; "2.500,50" ; "Lavora a Roma, ottimo rendimento"
1; "Anna Bianchi"; 29 ; 01/09/1995 ; "3.200,00" ; "Milano, nuovi progetti"
2; "Jos√© √Ålvarez"; 40 ; 15/02/1984 ; "4.000,75" ; "Problemi di encoding √†√®√¨√≤√π"
3; "Luigi Verdi"; "?" ; 03/11/1990 ; "2,800.00" ; "Errore nei separatori decimali"
4; "Giulia Rossi" ; 27 ; 31-08-1997 ; "3.000,00" ; "Riga OK"
5; "Paolo Bianchi" ; 33 ; 02/04/1991 ; "N/A" ; "Valore mancante stipendio"
6; "Marco, Test"; 38 ; 07/07/1986 ; "2.900,00" ; "Virgola nel nome"
7 "Sara Neri" ; 31 ; 10/10/1993 ; "3.200,00" ; Riga con separatore mancante
8; "Laura Verdi"; 25 ; 21/06/1999 ; "3.000,00"
9; "Andrea Neri" ; ; ; ; "Campi mancanti"
Unnamed: 0; "Extra colonna inutile"; ; ; ;


Overwriting dati_sporchi.csv


Il codice python per leggerlo correttamente:

In [42]:
import pandas as pd

# Lettura robusta del file CSV "sporco"
df = pd.read_csv(
    "dati_sporchi.csv",
    sep=";",                     # separatore europeo
    comment="#",                 # ignora righe di commento iniziali
    engine="python",             # parser pi√π tollerante
    encoding="latin1",           # gestisce accenti e caratteri speciali
    on_bad_lines="skip",         # salta righe disallineate
    skip_blank_lines=True,       # evita righe vuote
    skipinitialspace=True        # rimuove spazi dopo il separatore
)

# Rimuove eventuale colonna "Unnamed"
df = df.loc[:, ~df.columns.str.contains("^Unnamed")]

# Conversione dei tipi di dato
df["Et√†"] = pd.to_numeric(df["Et√†"], errors="coerce")
df["Stipendio"] = (
    df["Stipendio"]
    .astype(str)
    .str.replace(".", "", regex=False)  # rimuove i punti come migliaia
    .str.replace(",", ".", regex=False) # converte la virgola in punto
)
df["Stipendio"] = pd.to_numeric(df["Stipendio"], errors="coerce")

# Parsing delle date
df["Data_nascita"] = pd.to_datetime(df["Data_nascita"], dayfirst=True, errors="coerce")

# Pulizia dei nomi colonna
df.columns = df.columns.str.strip()

print("\n‚úÖ File caricato correttamente!\n")
print(df)
print("\nTipi di dato:\n", df.dtypes)


KeyError: 'Et√†'

# Accelerare il caricamento in pandas di un file csv di grandi dimensioni

Come accelerare il caricamento in pandas con read_csv di un file csv molto grande?<br>
Ecco il **workflow consigliato**:
```python
    import pandas as pd

    # Prima lettura, con ottimizzazioni di base
    df_iter = pd.read_csv(
        "bigdata.csv",
        usecols=["A", "B", "C"],
        dtype={"A": "int32", "B": "float32"},
        chunksize=1_000_000,
        engine="pyarrow"
    )

    # Elaborazione incrementale
    df = pd.concat(df_iter)

    # Salva in formato ottimizzato
    df.to_parquet("bigdata.parquet")
```
üëâ Le letture successive da Parquet o Feather saranno **fino a 50√ó pi√π rapide**.

**Piccoli trucchi pratici**
- pre-carica in RAM i file (es. `cat file.csv > /dev/null` su Linux) se il collo di bottiglia √® il disco.
- se lavori spesso con gli stessi dati ‚Üí converti subito a Parquet.
- se il file √® remoto ‚Üí usa `storage_options` (es. S3 o GDrive) per lettura diretta.
- se non serve l‚Äôindice ‚Üí `index_col=False` o `index_col=None`.
- per misurare l‚Äôeffetto: usa `%%time` in Jupyter o VSC oppure `timeit`.

**Ecco una guida pratica per velocizzare la lettura** üëá

Come velocizzare pandas.read_csv() su file grandi

1Ô∏è‚É£ **Specifica i tipi di dato (dtype)**<br>
Pandas, se non li dichiari, deve ‚Äúindovinare‚Äù i tipi scorrendo le righe ‚Üí lento e dispendioso in memoria.
```python
dtypes = {
    "id": "int32",
    "categoria": "category",
    "prezzo": "float32",
    "quantita": "int16"
}
df = pd.read_csv("file.csv", dtype=dtypes)
```

‚úÖ Vantaggi: caricamento molto pi√π veloce e dataframe pi√π leggero.

2Ô∏è‚É£ **Leggi solo alcune colonne**<br>
Se non ti servono tutte, dichiara usecols:
```python
df = pd.read_csv("file.csv", usecols=["id", "prezzo", "quantita"])
```

‚úÖ Risparmi tempo e memoria.

3Ô∏è‚É£ **Disattiva ci√≤ che non serve**

Niente indice:
```python
index_col=False
```

Niente analisi di numeri mancanti complessa:
```python
keep_default_na=False
na_values=[""]
```
Niente conversione automatica di date:
```python
parse_dates=False
```

‚úÖ Tutto ci√≤ evita inferenze costose.

4Ô∏è‚É£ **Usa un chunking (lettura a blocchi)**

Se il file √® troppo grande per la RAM, leggilo a pezzi:
```python
chunks = pd.read_csv("file.csv", chunksize=1_000_000)
for chunk in chunks:
    # elabora il chunk
    process(chunk)
```

‚úÖ Mantieni basso il consumo di memoria e puoi elaborare in streaming.

5Ô∏è‚É£ **Specifica l‚Äôengine**

pandas pu√≤ usare due engine:
- `engine='c'` (default, scritto in C) ‚Üí pi√π veloce
- `engine='python'` ‚Üí pi√π flessibile ma pi√π lento

Assicurati di usare:
```python
pd.read_csv("file.csv", engine="c")
```

6Ô∏è‚É£ **‚ÄúScalda‚Äù la cache del disco**

Su Linux:

cat file.csv > /dev/null

‚Üí cos√¨ il file √® gi√† in cache RAM e il successivo read_csv sar√† pi√π rapido.
(non migliora la prima lettura, ma le successive s√¨)

7Ô∏è‚É£ **Converti in Parquet appena puoi**

CSV ‚Üí Parquet una volta sola, poi lavora sempre in Parquet:
```python
df = pd.read_csv("file.csv")
df.to_parquet("file.parquet")
```

e successivamente:
```python
df = pd.read_parquet("file.parquet")
```

‚úÖ Spesso 5‚Äì10√ó pi√π veloce in lettura e 3‚Äì4√ó meno spazio su disco.

8Ô∏è‚É£ Alternativa: usa Dask o Polars

Se il file √® enorme (decine di GB):
```python
dask.dataframe.read_csv()
```python
 ‚Üí lettura parallela su pi√π core;
```python
polars.read_csv()
```
 ‚Üí motore Rust super veloce (anche 10√ó pi√π rapido di pandas).

9Ô∏è‚É£ Misura sempre con %%time

In Jupyter o VS Code:
```python
%%time
df = pd.read_csv("file.csv", dtype=dtypes, usecols=cols)
```

Confronta varie versioni e scegli la pi√π rapida nel tuo contesto.

# Le prestazioni

Per quanto riguarda le **prestazioni dei vari formati** (come occupazione in memoria, salvtaggio su disco e apertura /lettura) vedi il seguente utile studio.

Il messaggio chiave dello studio √® che:
- il formato CSV √® molto meglio di excel (neanche preso in considerazione nella comparazione), √® disponibile in tutti gli ambienti di *data management*
- per big data (come vedremo) il formato migliore √® il parquet, soprattutto nella occupazione di memoria.

In [16]:
# Esempio d‚Äôuso:
show_pdf("I_O Optimization in Data Projects - by Avi Chawla.pdf")

# Il formato dei dati per big data

E' possibile caricare big data di 5M di righe in *pandas*? Dipende.

La risposta breve √®: s√¨, pandas pu√≤ gestire anche 5 milioni di righe, ma dipende da cosa si intende per ‚Äúgestire‚Äù e da quanta RAM si ha a disposizione.

In [17]:
import pandas as pd
import glob
import os

In [23]:
# Il prefisso r dice a Python di non interpretare \ come escape.
path = r'C:\Users\Utente\Desktop\salvataggi\SALVATAGGIO DATI\Documents\Seminari\Data Science (corsi)\Corso Python base\linkage\file_csv' 

all_files = glob.glob(os.path.join(path, "*.csv"))

In [32]:
li = []

for filename in all_files:
    df = pd.read_csv(filename, index_col=None, header=0)
    li.append(df)

frame = pd.concat(li, axis=0, ignore_index=True)

In [33]:
frame.shape

(5749132, 12)

In [34]:
frame.head()

Unnamed: 0,id_1,id_2,cmp_fname_c1,cmp_fname_c2,cmp_lname_c1,cmp_lname_c2,cmp_sex,cmp_bd,cmp_bm,cmp_by,cmp_plz,is_match
0,37291,53113,0.833333333333333,?,1.0,?,1,1,1,1,0,True
1,39086,47614,1.0,?,1.0,?,1,1,1,1,1,True
2,70031,70237,1.0,?,1.0,?,1,1,1,1,1,True
3,84795,97439,1.0,?,1.0,?,1,1,1,1,1,True
4,36950,42116,1.0,?,1.0,1,1,1,1,1,1,True


In [35]:
frame.tail()

Unnamed: 0,id_1,id_2,cmp_fname_c1,cmp_fname_c2,cmp_lname_c1,cmp_lname_c2,cmp_sex,cmp_bd,cmp_bm,cmp_by,cmp_plz,is_match
5749127,47892,98941,1,?,0.166667,?,1,0,0,1,0,False
5749128,53346,74894,1,?,0.222222,?,1,0,0,1,0,False
5749129,18058,99971,0,?,1.0,?,1,0,0,0,0,False
5749130,84934,95688,1,?,0.0,?,1,0,1,0,0,False
5749131,20985,57829,1,1,0.0,?,1,0,1,1,0,False


---
‚öôÔ∏è **1. Dipende dalla dimensione totale in memoria**

Pandas lavora tutto in RAM.

Esempio:
- 5 milioni di righe √ó 50 colonne
- ogni cella occupa ~8 byte (`float64`)<br>
üëâ $5.000.000 √ó 50 √ó 8 ‚âà 2 GB$

Quindi un file CSV da 200 MB pu√≤ diventare **2‚Äì3 GB in RAM** una volta caricato, per via della conversione in tipi numerici, indici, metadati ecc.

Se si ha un PC con **16 GB di RAM**, va bene; se si hanno 8 GB, pandas ci riesce ma sar√† lento e potremmo vedere ‚Äúswap‚Äù o crash per mancanza di memoria.

---

üß† **2. Operazioni che pandas gestisce bene anche con 5M di righe**

Con hardware "decente" (CPU moderna, 16 GB RAM) pandas gestisce tranquillamente:

‚úÖ **Caricamento CSV**
```python
df = pd.read_csv("dati.csv")
```

Si pu√≤ anche usare:
- `dtype=` per tipizzare meglio le colonne (meno RAM);
- `usecols=` per leggere solo alcune colonne;
- `chunksize=` per leggere a blocchi.

‚úÖ **Operazioni elementari e aggregazioni**
- `df.describe()`, `df.mean()`, `df.groupby("col").agg(...)`
- `df.sort_values("col")`
- `df.query("x > 10 and y < 5")`
- `df.sample(100_000)`<br>
tutte fattibili.

‚úÖ **Join e merge moderati**<br>
Fino a qualche milione di righe per tabella:
```python
pd.merge(df1, df2, on="id", how="inner")
```
funziona, ma attenzione ai picchi di memoria.


---
üö´ **Operazioni che iniziano a diventare problematiche**

Quando il dataset supera **i 5‚Äì10 milioni di righe o supera i 5 GB in RAM**, ecco cosa rallenta o esplode:

‚ùå **ordinamenti multipli o sort complessi**
```pythoon
df.sort_values(["col1", "col2"])
```
Crea una copia in memoria grande quanto il DataFrame stesso.

‚ùå **merge / join molto grandi**<br>
se le due tabelle insieme superano la RAM disponibile.

‚ùå **apply / lambda riga per riga**
```python
df.apply(lambda row: f(row.x), axis=1)
```

Molto lente: infatti sono eseguite in Python puro, non in C.<br>
Meglio usare funzioni **vectorized** (`np.where`, `pd.Series.map`, ecc.).

‚ùå **operazioni iterative**<br>
Cicli `for row in df.itertuples()` su milioni di righe ‚Üí un disastro!

‚ùå **Scrittura su CSV/parquet**
```python
df.to_csv("file.csv")
```

Poco efficiente. 

---
‚ö° **Alternative e strategie**

**1. Usare il *chunking***

Il seguente codice √® **rischioso**
```python
import pandas as pd

df = pd.read_csv("dati.csv")
df["media"] = df["valore"].mean()

```

Meglio leggere a blocchi e processare iterativamente:
```python
import pandas as pd

chunksize = 500.000   # legge 500 mila righe per volta
risultati = []        # lista dove accumulare i risultati

for chunk in pd.read_csv("dati.csv", chunksize=chunksize):
    media_chunk = chunk["valore"].mean()       # calcolo sulla parte letta
    risultati.append(media_chunk)              # salvo il risultato parziale

# dopo il ciclo puoi combinare i risultati
media_totale = sum(risultati) / len(risultati)
print("Media complessiva:", media_totale)

```


**2. Usare il formato dati *parquet***<br>
Vedi il prossimo capitolo.

**3. Usare `cuDF`**<br>
Utilizza la GPU senza modifiche al codice Pandas

**4. Usare `Spark`**<br>


# Il formato *parquet*

Useremo laserie storica `usa_stocks_30m.parquet`: √® una serie OHLCV di 514 titoli del Nasdaq del NYSE (dal 1998 al 2024).

Il dataset con cui lavoreremo √® un sottoinsieme del dataset [**USA 514 Stocks Prices NASDAQ NYSE**](https://www.kaggle.com/datasets/olegshpagin/usa-stocks-prices-ohlcv/data), anche disponibile su [Kaggle](https://www.kaggle.com/datasets), composto da circa **36 milioni** di elementi.

Scarichiamo il dataset NON da Kaggle ma dal "Public Google Cloud Storage bucket" di NVIDIA, per garantire velocit√† di download maggiori.

Il "Public Google Cloud Storage bucket" di NVIDIA √® uno spazio online dove NVIDIA mette a disposizione file pubblici (come dataset, modelli, esempi di codice) che chiunque pu√≤ scaricare.
√à un po‚Äô come un grande armadio digitale aperto a tutti, ospitato su Google Cloud.

Questo download richiede **circa 60 secondi**:

In [36]:
# Download della big time series
import urllib.request

file_path = "usa_stocks_30m.parquet"
url = "https://storage.googleapis.com/rapidsai/colab-data/usa_stocks_30m.parquet"

if not os.path.isfile(file_path):
    print(f"Scarico il file {file_path}...")
    urllib.request.urlretrieve(url, file_path)
    print("Download completato.")
else:
    print(f"{file_path} gi√† presente.")


Scarico il file usa_stocks_30m.parquet...
Download completato.


**Il file `usa_stocks_30m.parquet`**<br>

Il file `usa_stocks_30m.parquet` √® un dataset messo a disposizione dal team RAPIDS (NVIDIA) per fare esempi di analisi su big time series finanziarie con librerie GPU-accelerate (tipo `cuDF`).

üìå In pratica:
- √à un file in **formato *Parquet*** (colonnare, compresso, molto efficiente per big data).
- Contiene dati di **prezzi azionari USA** (titoli quotati) registrati con una **frequenza di 30 minuti**.
- √à pensato per dimostrazioni: analisi di serie temporali, manipolazione con pandas/cuDF, benchmark CPU vs GPU.

üìä Tipicamente include:
- ticker ‚Üí il simbolo del titolo (es. AAPL, MSFT).
- timestamp ‚Üí la data/ora della rilevazione (ogni 30 min).
- open, high, low, close, volume (OHLCV) ‚Üí classici campi di trading.

üìê Dimensioni indicative:
- Circa **36 milioni di righe**,
- Grandezza **~ 600‚Äì700 MB** in formato Parquet,
- **Se convertito in CSV diventerebbe molto pi√π pesante (anche diversi GB)**.

üëâ Il formato Parquet **√® molto pi√π efficiente di CSV**:
- √® binario e compresso (occupa meno spazio);
- √® colonnare ‚Üí pandas pu√≤ leggere solo le colonne necessarie;
- conserva i tipi di dato (niente inferenza ogni volta).

In [37]:
df = pd.read_parquet("usa_stocks_30m.parquet")  

In [38]:
df.head()

Unnamed: 0,datetime,open,high,low,close,volume,ticker
0,1999-11-18 17:00:00,45.56,50.0,45.5,46.0,9275000,A
1,1999-11-18 17:30:00,46.0,47.69,45.82,46.57,3200900,A
2,1999-11-18 18:00:00,46.56,46.63,41.0,41.0,3830500,A
3,1999-11-18 18:30:00,41.0,43.38,40.37,42.38,3688600,A
4,1999-11-18 19:00:00,42.31,42.44,41.56,41.69,1584300,A


In [39]:
df.shape

(36087094, 7)

# Nota tecnica sui PDF
In VSC il rendering dei file PDF √® differente da quello di Jupyter Notebook/Lab e da quello di Google Colab.<br>
La seguente funzione `show_pdf` rileva quale IDE √® attiva e "rende" il PDF in modo differente.

In [10]:
def show_pdf(pdf_path, width=1000, height=600):
    """
    Mostra un PDF nel modo pi√π appropriato per l'ambiente attuale:
    - In Jupyter: visualizza inline con IFrame.
    - In Colab: usa IFrame (gestisce bene i file caricati).
    - In VS Code o altri ambienti: apre nel browser predefinito.
    """
    import os, webbrowser, sys
    from pathlib import Path

    pdf_path = Path(pdf_path)
    if not pdf_path.exists():
        raise FileNotFoundError(f"File non trovato: {pdf_path}")

    # Rileva ambiente
    try:
        shell = get_ipython().__class__.__name__
    except NameError:
        shell = None

    if shell == 'ZMQInteractiveShell':  # Jupyter o Colab
        from IPython.display import IFrame, display
        display(IFrame(str(pdf_path), width=width, height=height))
    elif "vscode" in sys.executable.lower() or "vscode" in os.getcwd().lower():
        # Ambiente VS Code ‚Üí apre nel browser
        webbrowser.open(pdf_path.resolve().as_uri())
        print(f"üìÇ PDF aperto nel browser: {pdf_path}")
    else:
        # Altri ambienti (terminali, script)
        webbrowser.open(pdf_path.resolve().as_uri())
        print(f"üìÇ PDF aperto nel browser: {pdf_path}")


# File JSON

Un formato di file **non tabellare** ma di **frequente uso** in Python √® JSON.

I file JSON (estensione *.json*) sono uno dei formati pi√π usati oggi per scambiare dati tra applicazioni, **specialmente sul web e in ambito API**.

üí° **In breve**
- JSON sta per **JavaScript Object Notation**<br>
√à un formato **testuale**, <u>leggibile da umani e facilmente interpretabile dai programmi</u>, nato da JavaScript ma oggi usato in **praticamente tutti i linguaggi** (Python, Java, C#, PHP, ecc.).

üì¶ **Struttura di un file JSON**

Un file JSON contiene dati organizzati come **coppie chiave‚Äìvalore**, ad esempio:
```json
{
  "nome": "Antonio",
  "eta": 45,
  "iscritti": ["Mario", "Lucia", "Giorgio"],
  "attivo": true,
  "dettagli": {
    "ruolo": "Analista",
    "azienda": "ACI"
  }
}
```

üëÜ Questo √® un oggetto JSON, che contiene:
- stringhe ("`Antonio`", "`Analista`")
- numeri (`45`)
- booleani (`true`)
- liste (array) (["`Mario`", "`Lucia`", "`Giorgio`"])
- oggetti annidati ("`dettagli": {...}`)

**In Python**<br>
Puoi leggere o scrivere file JSON facilmente con il modulo json:
```python
    import json

    # Lettura
    with open("dati.json", "r") as f:
        dati = json.load(f)
    print(dati["nome"])  # -> Antonio

    # Scrittura
    nuovi_dati = {"linguaggio": "Python", "versione": 3.12}
    with open("config.json", "w") as f:
        json.dump(nuovi_dati, f, indent=4)
```

**Dove si usa JSON?**
- API REST (quasi tutte le API moderne usano JSON per scambiare dati)
- Configurazioni (es. package.json in Node.js)
- Database NoSQL come MongoDB (che usa BSON, una versione binaria di JSON)
- Applicazioni web e mobile per passare dati tra frontend e backend

üÜö Confronto rapido JSON vs CSV vs XML
![](json_sintesi_2.png)

**Come convertire un file CSV o un dizionario Python in JSON e viceversa (cio√® import/export completo)**

1Ô∏è‚É£ **Dizionario Python ‚Üí JSON (scrittura)**

```python
    import json

    dati = {
        "nome": "Antonio",
        "eta": 45,
        "linguaggi": ["Python", "SQL", "R"],
        "attivo": True
    }

    # Scrivi su file JSON
    with open("dati.json", "w") as f:
        json.dump(dati, f, indent=4, ensure_ascii=False)

    print("‚úÖ File JSON creato!")
```

**Risultato** (`dati.json`):
```json
{
    "nome": "Antonio",
    "eta": 45,
    "linguaggi": ["Python", "SQL", "R"],
    "attivo": true
}
```

üî∏ `indent=4` ‚Üí rende il file leggibile<br>
üî∏ `ensure_ascii=False` ‚Üí mantiene i caratteri accentati

2Ô∏è‚É£ **JSON ‚Üí Dizionario Python (lettura)**
```python
    import json

    with open("dati.json", "r") as f:
        dati_letti = json.load(f)

    print(dati_letti["nome"])     # Antonio
    print(type(dati_letti))       # dict
```

3Ô∏è‚É£ **CSV ‚Üí JSON**

Immaginiamo un file `clienti.csv` cos√¨:

*nome,citta,eta*<br>
*Mario,Roma,30*<br>
*Lucia,Milano,28*<br>
*Giorgio,Napoli,35*<br>

Convertiamolo in JSON:
```python
    import csv
    import json

    with open("clienti.csv", "r") as f_csv:
        reader = csv.DictReader(f_csv)
        dati = list(reader)

    with open("clienti.json", "w") as f_json:
        json.dump(dati, f_json, indent=4, ensure_ascii=False)

    print("‚úÖ CSV convertito in JSON!")
```

**Output** (`clienti.json`):

[<br>
    {"nome": "Mario", "citta": "Roma", "eta": "30"},<br>
    {"nome": "Lucia", "citta": "Milano", "eta": "28"},<br>
    {"nome": "Giorgio", "citta": "Napoli", "eta": "35"}<br>
]

4Ô∏è‚É£ **JSON ‚Üí CSV**

Ora facciamo l‚Äôinverso:
```python
    import json
    import csv

    with open("clienti.json", "r") as f_json:
        dati = json.load(f_json)

    with open("clienti_out.csv", "w", newline="") as f_csv:
        writer = csv.DictWriter(f_csv, fieldnames=dati[0].keys())
        writer.writeheader()
        writer.writerows(dati)

    print("‚úÖ JSON convertito in CSV!")
```


![](json_sintesi.png)
