Classificador de SPAM

Esse projeto tem como objetivo classificar emails como legítimos (ham) ou falsos (spam). Temos então um problema de classificação binário supervisionado offline. Em particular, estamos trabalhando com um problema de linguagem natural (NLP).

A execução foi separada em duas etapas: ETL e modelagem. Na ETL, os dados foram obtidos via requisição, transformados em emails e categorias, e salvos em csv. Na modelagem os dados foram pré-processados, analisados (análise de sentimentos, wordcloud, etc) e modelados com machine learning e deep learning.

A avaliação foi realizada com validação cruzada estratificada de 5 folds. Os resultados obtidos nos dados de teste com o melhor modelo (SVC) foram

Métricas de teste

Acurácia	Precisão	Recall
99%	99%	96%

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
img		img
notebooks		notebooks
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Classificador de SPAM

Métricas de teste

About

Languages

franklinzppa/spam

Folders and files

Latest commit

History

Repository files navigation

Classificador de SPAM

Métricas de teste

About

Topics

Resources

Stars

Watchers

Forks

Languages