Skip to content

Ensemble learning em python para classificação de texto em nótícias

License

Notifications You must be signed in to change notification settings

jonasaacampos/Ensemble-learning-em-python

Repository files navigation

Engenheiro de Machine Learning - Badge

Modelagem de tópicos do noticiário financeiro


brain

Ensemble learning em python para classificação de texto em nótícias

Anotações e projetos do curso de formação em Engenharia de Machine Learning da DS Academy.

Extrair, tratar e classificar textos para filtrar dados relevantes para auxílio de tomada de decisão do investidor

Índice / Table of Contents / Tabla de Contenido

LinkedIn Badge


Definição do projeto

Com alguns parágrafos de texto, podemos afirmar sobre qual assunto é discutido?

Modelos de entrada: trechos de notícias Modelos de saída: categorias, baseadas em dados históricos

A etiquetagem é um processo demorado e CARO, geralmente bancos de dados etiquetados são guardados secretamente.

A aprendizagem ensemble é um paradigma de aprendizagem de máquina em que vários modelos (frequentemente chamados de “estimadores fracos”) são treinados para resolver o mesmo problema e combinados para obter melhores resultados. A hipótese principal é que quando modelos fracos são combinados corretamente podemos obter modelos mais precisos e/ou robustos.

Conjuntos de dados

Os dados utilizados são notícias da BBC1. Para esta análise foram utilizados os dados brutos.

dados brutos na área...

dados brutos na área...

// para baixar os dados, acese o site da bbc, ou baixe o arquivo diretamente via terminal

wget http://mlg.ucd.ie/files/datasets/bbc-fulltext.zip

unzip bbc-fulltext.zip

Consiste em 2.225 documentos do site de notícias da BBC, publicadas entre 2004 e 2005, correspondentes a histórias em cinco áreas temáticas:

  1. negócios
  2. entretenimento
  3. política
  4. esporte
  5. tecnologia

Votin = todos os modelos fazem as previsões, e suas saídas passam por uma votação Staking = as saídas dos modelos individuais alimentam um terceiro modelo

Para saber mais

Crédito das imagens

  • Desenhos no título by flaticon
  • Badges e demos do projeto feitos por mim

Contato

Author: Jonas Araujo de Avila Campos

Confira mais projetos: AQUI

Referências

Footnotes

  1. D. Greene and P. Cunningham. ("Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering")[D. Greene and P. Cunningham. "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering", Proc. ICML 2006. ], Proc. ICML 2006.

Packages

No packages published

Languages