-
Notifications
You must be signed in to change notification settings - Fork 2
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Lavorazione programmi caricati su archive e documentcloud #95
Comments
Su archive invece qui https://archive.org/details/elezioni2018 |
C'è da decidere come e se pulire gli OCR |
[Riporto qui]: È da un lato la dimostrazione dell'efficacia di strumenti "open", che permettono la ricerca e il confronto, ma senza "stiamo facendo il vostro lavoro per voi", dall'altro uno stimolo per i partiti. |
@mfortini io ho dato un'occhiata ai programmi provando a scaricarli in formato Plain Text e mi pare che non ci siano cose 'imbarazzanti'. Ci sono i soliti simboli strani per gli accenti, gli apostrofi e poco altro... E' questo il tipo di controllo che avevi in mente? Se sì, allora secondo me possiamo procedere come hai scritto, così possiamo anche inserire questa cosa nel comunicato stampa che vorremmo preparare e semmai farci anche un post sul sito... |
Qui intanto i risultati di qualche ricerchina al volo che mi sono divertita a fare sui 40 programmi in Archive:
|
Su documentcloud ci sono 3 Italia Europa e 2 liberi uguali.
Li devo cancellare, ma segnalo la cosa per fare bene di conto
2018-02-02 15:27 GMT+01:00 Cristina Galasso <notifications@github.com>:
… Qui intanto i risultati di qualche ricerchina al volo che mi sono
divertita a fare sui programmi per parole-chiave:
- Legalità 5
- Mafia 1
- Azzardo 0
- Immigrazione/immigrati 12
- *Tasse 19*
- Donne 24
- Benessere 12
- *Lavoro 33*
- Disoccupazione 15
- *Imprese 24*
- *Sicurezza 28*
- Disabilità/Disabili 11
- Liste d'aatesa 5
- Trasparenza 6
- Corruzione 10
- Partecipazione 17
- Pubblica Amministrazione 17
- *Povertà 24*
- Pensioni 17
- Fornero 10
- *Riforma 28*
- Rivoluzione 10
- Innovazione 10
- Internet 3
- *Giovani 22*
- Sostenibile 17
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub
<#95 (comment)>,
or mute the thread
<https://github.com/notifications/unsubscribe-auth/AAB3j8l-8KtlgmifiQ_eXFHiIrp2V1r5ks5tQxtWgaJpZM4R2xm7>
.
--
___________________
Andrea Borruso
website: https://medium.com/tantotanto
38° 7' 48" N, 13° 21' 9" E, EPSG:4326
___________________
"cercare e saper riconoscere chi e cosa,
in mezzo all’inferno, non è inferno,
e farlo durare, e dargli spazio"
Italo Calvino
|
Su documentcloud ci sono 3 Italia Europa e 2 liberi uguali.
Li devo cancellare, ma segnalo la cosa per fare bene di conto
2018-02-02 15:27 GMT+01:00 Cristina Galasso <notifications@github.com>:
… Qui intanto i risultati di qualche ricerchina al volo che mi sono
divertita a fare sui programmi per parole-chiave:
- Legalità 5
- Mafia 1
- Azzardo 0
- Immigrazione/immigrati 12
- *Tasse 19*
- Donne 24
- Benessere 12
- *Lavoro 33*
- Disoccupazione 15
- *Imprese 24*
- *Sicurezza 28*
- Disabilità/Disabili 11
- Liste d'aatesa 5
- Trasparenza 6
- Corruzione 10
- Partecipazione 17
- Pubblica Amministrazione 17
- *Povertà 24*
- Pensioni 17
- Fornero 10
- *Riforma 28*
- Rivoluzione 10
- Innovazione 10
- Internet 3
- *Giovani 22*
- Sostenibile 17
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub
<#95 (comment)>,
or mute the thread
<https://github.com/notifications/unsubscribe-auth/AAB3j8l-8KtlgmifiQ_eXFHiIrp2V1r5ks5tQxtWgaJpZM4R2xm7>
.
--
___________________
Andrea Borruso
website: https://medium.com/tantotanto
38° 7' 48" N, 13° 21' 9" E, EPSG:4326
___________________
"cercare e saper riconoscere chi e cosa,
in mezzo all’inferno, non è inferno,
e farlo durare, e dargli spazio"
Italo Calvino
|
@aborruso hai ragione :( |
Ciao a tutti, con l'idea di fare qualche analisi sui testi dei programmi, ho dato un'occhiata ad alcune delle versioni testo contenute in documentcloud. Come evidenziavate già voi ci sono vari errorini qua e là ma, per esempio per il programma di LeU, a volte il testuale è inutilizzabile. In archive l'OCR sembra più stabile. Così mi sono messo a pulire alcuni dei documenti, con la scusa di leggere qualche programma. |
@alesarret grazie mille. Se volessimo dare una mano, che procedura hai usato? È ripetibile. |
Ciao, ci sono anche io :) |
@aborruso, la procedura è sicuramente ripetibile, ma non tanto automatizzabile, perché molto banalmente ho pulito a mano il file txt man mano che leggevo, con un occhio al pdf per controllo :-) |
No description provided.
The text was updated successfully, but these errors were encountered: