Skip to content

fix: stop injecting implicit __extra csv column#8

Merged
Gabrymi93 merged 1 commit intomainfrom
fix/csv-columns-no-extra
Mar 3, 2026
Merged

fix: stop injecting implicit __extra csv column#8
Gabrymi93 merged 1 commit intomainfrom
fix/csv-columns-no-extra

Conversation

@Gabrymi93
Copy link
Copy Markdown
Member

Closes #7

Summary

Questa PR rimuove l'aggiunta automatica della colonna __extra quando clean.read.columns e' gia' definito in modo esplicito.

In pratica, il reader ora usa esattamente lo schema dichiarato nel config, senza allargarlo implicitamente.

Perche'

Il comportamento precedente rompeva casi reali a schema fisso:

  • file no-header con numero di colonne stabile
  • file sporchi con schema esplicito e null_padding

DuckDB riceveva una colonna in piu' rispetto a quelle presenti nel file e falliva in sniff/parsing.

Cosa cambia

  • rimosso l'inserimento automatico di __extra in toolkit/clean/duckdb_read.py
  • aggiunti test mirati per:
    • mantenere invariato lo schema esplicito
    • leggere un CSV no-header a schema fisso senza colonna extra implicita

Casi reali collegati

  • stress-local/cases/case_03_siope_no_header_schema
  • stress-local/cases/case_08_pnrr_progetti_m1

Questi casi hanno aiutato a identificare e validare il fix nel laboratorio locale.

Testing

Eseguito:

py -m pytest tests/test_clean_duckdb_read.py tests/test_clean_csv_columns.py tests/test_clean_input_selection.py -q

Esito:

  • 26 passed

Note

Il laboratorio stress-local non fa parte di questa PR.

Il branch contiene solo:

  • fix di prodotto
  • test del reader

@Gabrymi93 Gabrymi93 added the bug Something isn't working label Mar 3, 2026
@Gabrymi93 Gabrymi93 linked an issue Mar 3, 2026 that may be closed by this pull request
@github-project-automation github-project-automation bot moved this to Backlog in Open Board Mar 3, 2026
@Gabrymi93 Gabrymi93 merged commit 7233ecb into main Mar 3, 2026
5 checks passed
@Gabrymi93 Gabrymi93 deleted the fix/csv-columns-no-extra branch March 3, 2026 18:04
@github-project-automation github-project-automation bot moved this from Backlog to ✅ Completato in Open Board Mar 3, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

bug Something isn't working

Projects

Status: ✅ Completato

Development

Successfully merging this pull request may close these issues.

clean.read.columns non deve aggiungere automaticamente __extra

1 participant