Anotações e projetos do curso de formação em Engenharia de Machine Learning da DS Academy.
Extrair, tratar e classificar textos para filtrar dados relevantes para auxílio de tomada de decisão do investidor
Com alguns parágrafos de texto, podemos afirmar sobre qual assunto é discutido?
Modelos de entrada: trechos de notícias Modelos de saída: categorias, baseadas em dados históricos
A etiquetagem é um processo demorado e CARO, geralmente bancos de dados etiquetados são guardados secretamente.
A aprendizagem ensemble é um paradigma de aprendizagem de máquina em que vários modelos (frequentemente chamados de “estimadores fracos”) são treinados para resolver o mesmo problema e combinados para obter melhores resultados. A hipótese principal é que quando modelos fracos são combinados corretamente podemos obter modelos mais precisos e/ou robustos.
Os dados utilizados são notícias da BBC1. Para esta análise foram utilizados os dados brutos.
dados brutos na área...
// para baixar os dados, acese o site da bbc, ou baixe o arquivo diretamente via terminal
wget http://mlg.ucd.ie/files/datasets/bbc-fulltext.zip
unzip bbc-fulltext.zip
Consiste em 2.225 documentos do site de notícias da BBC, publicadas entre 2004 e 2005, correspondentes a histórias em cinco áreas temáticas:
- negócios
- entretenimento
- política
- esporte
- tecnologia
Votin = todos os modelos fazem as previsões, e suas saídas passam por uma votação Staking = as saídas dos modelos individuais alimentam um terceiro modelo
- [S2E2] Ensemble Methods | 5 Minutes With Ingo
- Tom Michael, Machine Learning
- Mark Fenne, Machine Learning with Python for Everyone
- Andriy Burkov, The Hundred-Page Machine Learning Book
- sklearn.ensemble.StackingClassifier
- Stacked generalization¶
- Desenhos no título by flaticon
- Badges e demos do projeto feitos por mim
Author: Jonas Araujo de Avila Campos
Confira mais projetos: AQUI
Footnotes
-
D. Greene and P. Cunningham. ("Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering")[D. Greene and P. Cunningham. "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering", Proc. ICML 2006. ], Proc. ICML 2006. ↩