Classificatore bayesiano ingenuo di testi

Si tratta di un esempio ormai standard di analisi bayesiana di un corpus di testi, come per esempio descritta nel libro di Mitchell sul machine learning.

Il programma si aspetta in una cartella (che viene indicata nella variabile NOME_DIR, delle cartelle che corrispondono ciascuna a una classe di documenti e si aspetta in ciascuna cartella i documenti di quella classe.

Il programma analizza il corpus di documenti estraendo le parole e calcolando una misura classica basata sulla frequenza di apparizione delle parole in un singolo documento e nell'intero corpus per calcolare le probabilità che data una certa classe una parola compaia in qualche documento di quella classe.

A quel punto col teorema di Bayes si riesce a dare una predizione della classe dato un documento: l'ipotesi semplificativa che si usa nell'applicare il teorema di Bayes è che le parole in un documento compaiano in modo indipendente, il che è palesemente falso, ma semplifica il conto.

Per collaudare il programma ho usato il celebre corpus di 20.000 documenti 20_newsgroups che si trova per esempio sulla pagina web di Jason Rennie: http://qwone.com/~jason/20Newsgroups/

Il motore bayesiano e l'analizzatore lessicale sono condensati in una libreria nbayes.py che viene chiamata dal programma che ne fa il test sul corpus.

Enjoy, P

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
nayve_dump.py		nayve_dump.py
nbayes.py		nbayes.py
nbayes_test.py		nbayes_test.py
stopwords.py		stopwords.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Classificatore bayesiano ingenuo di testi

About

Releases

Packages

Languages

License

pcaressa/classificatore-bayesiano

Folders and files

Latest commit

History

Repository files navigation

Classificatore bayesiano ingenuo di testi

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages