Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Lavorazione programmi caricati su archive e documentcloud #95

Open
favoeva opened this issue Feb 2, 2018 · 13 comments
Open

Lavorazione programmi caricati su archive e documentcloud #95

favoeva opened this issue Feb 2, 2018 · 13 comments

Comments

@favoeva
Copy link
Collaborator

favoeva commented Feb 2, 2018

No description provided.

@favoeva
Copy link
Collaborator Author

favoeva commented Feb 2, 2018

Su archive invece qui https://archive.org/details/elezioni2018

@favoeva
Copy link
Collaborator Author

favoeva commented Feb 2, 2018

C'è da decidere come e se pulire gli OCR

@mfortini
Copy link
Collaborator

mfortini commented Feb 2, 2018

[Riporto qui]:
Farei così: verifichiamo al volo che non ci siano OCR "imbarazzanti", cioè con un 90% di errori. Poi nella pagina che racconta dei programmi in archive e propone la ricerca, mettiamo una frase del tipo:
"i programmi sono stati scaricati da qui(link al sito ministero), dove si trovano solo in formato fotografico, e sono stati sottoposti a riconoscimento automatico (OCR), che ha dei margini di errore. Sei un partito e vuoi mandarci il tuo programma in formato testo? Scrivi qui"

È da un lato la dimostrazione dell'efficacia di strumenti "open", che permettono la ricerca e il confronto, ma senza "stiamo facendo il vostro lavoro per voi", dall'altro uno stimolo per i partiti.

@cristigalas
Copy link
Collaborator

@mfortini io ho dato un'occhiata ai programmi provando a scaricarli in formato Plain Text e mi pare che non ci siano cose 'imbarazzanti'. Ci sono i soliti simboli strani per gli accenti, gli apostrofi e poco altro... E' questo il tipo di controllo che avevi in mente? Se sì, allora secondo me possiamo procedere come hai scritto, così possiamo anche inserire questa cosa nel comunicato stampa che vorremmo preparare e semmai farci anche un post sul sito...

@cristigalas
Copy link
Collaborator

cristigalas commented Feb 2, 2018

Qui intanto i risultati di qualche ricerchina al volo che mi sono divertita a fare sui 40 programmi in Archive:

  • Legalità 5
  • Mafia 1
  • Azzardo 0
  • Immigrazione/immigrati 12
  • Cittadinanza 18
  • Tasse 19
  • Donne 24
  • Benessere 12
  • Lavoro 33
  • Disoccupazione 15
  • Imprese 24
  • Sicurezza 28
  • Disabilità/Disabili 11
  • Liste d'attesa 5
  • Trasparenza 6
  • Corruzione 10
  • Partecipazione 17
  • Pubblica Amministrazione 17
  • Povertà 24
  • Pensioni 17
  • Fornero 10
  • Riforma 28
  • Rivoluzione 10
  • Innovazione 10
  • Internet 3
  • Giovani 22
  • Sostenibile 17
  • Sud 13

@aborruso
Copy link
Collaborator

aborruso commented Feb 2, 2018 via email

@aborruso
Copy link
Collaborator

aborruso commented Feb 2, 2018 via email

@cristigalas
Copy link
Collaborator

@aborruso hai ragione :(

@alesarrett
Copy link

Ciao a tutti, con l'idea di fare qualche analisi sui testi dei programmi, ho dato un'occhiata ad alcune delle versioni testo contenute in documentcloud. Come evidenziavate già voi ci sono vari errorini qua e là ma, per esempio per il programma di LeU, a volte il testuale è inutilizzabile. In archive l'OCR sembra più stabile. Così mi sono messo a pulire alcuni dei documenti, con la scusa di leggere qualche programma.
Allego qui i testi dei 5 fatti fin'ora, nel caso possano essere utilizzati per analisi o sostituiti alle versioni create automaticamente.
CasaPound.txt
Lega.txt
LeU.txt
M5S.txt
PD.txt

@aborruso
Copy link
Collaborator

aborruso commented Feb 4, 2018

@alesarret grazie mille.

Se volessimo dare una mano, che procedura hai usato? È ripetibile.

@lorenzoperone
Copy link

Ciao, ci sono anche io :)
Strutturiamo un elenco di attività da fare e ce le assegnamo?

@alesarrett
Copy link

@aborruso, la procedura è sicuramente ripetibile, ma non tanto automatizzabile, perché molto banalmente ho pulito a mano il file txt man mano che leggevo, con un occhio al pdf per controllo :-)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants