# Baselines

> *It can scarcely be denied that the supreme goal of all theory is to make the irreducible basic elements as simple and as few as possible without having to surrender the adequate representation of a single datum of experience*.
> 
> \- Albert Einstein,
[*often quoted as ‚ÄòEverything should be made as simple as possible, but not simpler‚Äô*, *‚ÄòOn the Method of Theoretical Physics‚Äô, lecture delivered at Oxford, 10 June 1933*](https://www.oxfordreference.com/view/10.1093/acref/9780191826719.001.0001/q-oro-ed4-00003988#:~:text=It%20can%20scarcely%20be%20denied,a%20single%20datum%20of%20experience.&text=The%20eternal%20mystery%20of%20the%20world%20is%20its%20comprehensibility%E2%80%A6)

 Alguns padr√µes de projeto para solu√ß√£o de competi√ß√µes que o NIASIA identificou at√© agora.

## Resumo

#### Fa√ßa r√°pido um modelo ruim, aprenda devagar a melhor√°-lo, e ganhe competi√ß√µes!

Um bom resumo deste notebook talvez seja [este post no blog do Emmanuel Ameisen: "Always start with a stupid model, no exceptions."](https://mlpowered.com/posts/start-with-a-stupid-model/), autor do livro 'Building Machine Learning Powered Applications: Going from Idea to Product', ou tamb√©m esse artigo da Google: [Rules of ML](https://developers.google.com/machine-learning/guides/rules-of-ml) ("Keep the first model simple and get the infrastructure right").

Neste notebook apresentamos argumentos e uma metodologia de errar r√°pido para conseguir acertar em competi√ß√µes de Intelig√™ncia Artificial.

## Objetivo

#### Nesse notebook o foco n√£o ser√° em aprofundar em ideias ou c√≥digos, nem na valida√ß√£o matem√°tica das propostas feitas aqui. 

#### Ao contr√°rio, aqui ser√£o apresentados exemplos de como muitos livros, autores e Kagglers encaram  e resolvem problemas de IA e atingem performances iguais ou acima do estado da arte.

## Resolvendo problemas com IA

Na maioria dos livros, cursos e at√© frameworks de implementa√ß√£o de solu√ß√µes em IA, discute-se uma vis√£o geral de como resolver problemas com IA. Essencialmente, modelos de aprendizado de m√°quina s√£o m√©todos matem√°ticos (frequentemente com forte embasamento estat√≠stico) que tomam entradas num√©ricas e predizem uma sa√≠da, seja ela uma determinada classe ou um n√∫mero.

Normalmente, o processo para treinar esses modelos consiste em:

    1. Adquirir dados (que acreditamos ter potencial para prever *algo*)

    2. Identificar caracter√≠sticas estat√≠sticas, anomalias e os tipos desses dados

    3. Transformar os dados em uma cole√ß√£o de n√∫meros com alguma rela√ß√£o com *algo* que queremos prever
    
    4. Escolher um modelo de aprendizado que seja capaz de eventualmente prever esses dados

    5. Medir a performance desse modelo

    6. Melhorar a performance do modelo

### Padr√£o de projeto em IA:

Agora, veja o √≠ndice de um dos cap√≠tulos do livro 'Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow':

<!-- ![Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow](./imgs/handson_ml_overview.png) -->

<div style = "height:520px">
    <img src="./imgs/handson_ml_overview.png">
</div>

D√™ uma olhada agora nos componentes do ciclo de MLOps da Google, no livro 'Practical MLOps
Operationalizing Machine Learning Models':

>[(MLOps ou ML Ops √© um conjunto de pr√°ticas que visa implantar e manter modelos de machine learning em produ√ß√£o de forma confi√°vel e eficiente. A palavra √© um composto de "machine learning" e a pr√°tica de desenvolvimento cont√≠nuo de DevOps na √°rea de software.)](https://www.google.com/search?q=mlops&sxsrf=ALiCzsYlr6Lajbj_pnIRMp_EcUHZJYf8_A:1658366859510&source=lnms&tbm=isch&sa=X&ved=2ahUKEwjBssX86Yj5AhXdSLgEHQ3CClsQ_AUoAXoECAIQAw&biw=1360&bih=699&dpr=1)

<!-- ![](./imgs/google_mlops.png) -->

<div style = "height:520px" >
    <img src="./imgs/google_mlops.png">
</div>

Por √∫ltimo, veja o ciclo de vida de solu√ß√µes de aprendizado de m√°quina, apresentado no livro 'Machine Learning Design Patterns Solutions to Common Challenges in Data Preparation, Model Building, and MLOps':

![](./imgs/ml_life_cycle_ml_design_patterns.png)

### Takeaway:

E ent√£o? Notou algum padr√£o?



Bem, diante dos livros e tamb√©m de competi√ß√µes (como vou mostrar a seguir), existe uma forte tendencia no mercado e na academia de transformar a proposta, treino e predi√ß√£o de modelos de IA em uma *pipeline* autom√°tica, composta de:

    1. EDA (an√°lise explorat√≥ria de dados, *exploratory data analysis*)

    2. Engenharia de Caracter√≠sticas

    3. Sele√ß√£o de Modelo(s)

    4. Treino

    5. Predi√ß√£o

    6. Retreino

Compare a lista de passos acima com as imagens e com a lista de passos no in√≠cio dessa se√ß√£o. Estes passos s√£o a ess√™ncia (automatiz√°vel!) do aprendizado de m√°quina.

### Seu papel ent√£o como pesquisador, desenvolvedor e competidor √© fazer isso t√£o r√°pido e t√£o bom quanto poss√≠vel!

## Competindo no Kaggle

OK. Vimos que *nos livros* esses m√©todos s√£o usados. Mas e no Kaggle?

D√™ uma olhada r√°pida nas se√ß√µes [deste notebook](). N√£o se preocupe neste primeiro momento em entender os dados ou os resultados. O foco aqui √© na metodologia deste autor. Notou um padr√£o relacionado √† se√ß√£o anterior?

No notebook, em linhas gerais, o autor:

    1. Importou e visualizou distribui√ß√µes dos dados

    2. Limpou e selecionou aqueles que mais importavam para seu contexto/problema

    3. Escolheu n√£o UM mas DOZE modelos diferentes, sendo eles:
        - Florestas aleat√≥rias:
            1. Linear Regression, 
            2. Ridge Regression, 
            3. Support Vector Regression, 
            4. Random Forest Regressor, 
            5. Gradient Boosting Regressor, 
            6. AdaBoost Regressor, 
            7. XGBoost Regressor.
        - Modelos Neurais Profundos:
            9. Simple RNN, 
            10. LSTM, 
            11. Bidirectional RNN
        - Transformers:
            11. BERT

    4. Treinou todos estes modelos 

    5. Previu as sa√≠das em banco de valida√ß√£o

    6. Escolheu o melhor modelo e utilizou ele para submiss√£o.

Tudo isso, em um notebook que executa por completo em 1789.1 segundos (30 minutos)!



Beleza, um monstro da IA. Como fa√ßo isso? Baby steps. Com certeza esse cara n√£o nasceu escrevendo notebooks Kaggle com 12 modelos treinados, ele aprendeu e realizou cada uma das etapas separadamente.

## Tipos de Problemas em IA:

## Academia

Eis algumas √°reas e problemas que modelos de IA s√£o utilizados para resolver, de acordo com os filtros [no famoso hub de solu√ß√µes Open Source https://huggingface.co/](https://huggingface.co/):

<!-- ![](./imgs/ml_tasks_huggingface.png) -->

<div style = "max-height:520px">
    <img src="./imgs/ml_tasks_huggingface.png">
</div>

Similarmente, acessando o tamb√©m famoso site agregador de artigos cient√≠ficos com c√≥digos de implementa√ß√µes e datasets [https://paperswithcode.com/sota](https://paperswithcode.com/sota), voc√™ encontr√° centenas de tarefas, agrupadas em:

    - Computer Vision
    - Natural Language Processing
    - Methodology
    - Miscellaneous
    - Time Series
    - Graphs 
    - Speech
    - Playing Games
    - Audio
    - Computer Code
    - Adversarial
    - Robots
    - Reasoning
    - Knowledge Base
    - Music

Todos estes agrupamentos de tarefas possuem diversas solu√ß√µes, empregando modelos com diferentes par√¢metros, que normalmente tem aplica√ß√£o interdisciplinar e para diferentes tarefas.

## Mercado

Al√©m dos agrupamentos de tarefas com base em estrat√©gias acad√™micas, no reposit√≥rio [Awesome Artificial Intelligence use cases](https://github.com/JosPolfliet/awesome-ai-usecases#contents) existem listas de links e recursos agregando problemas de mercado atuais, resolvidos atrav√©s de intelig√™ncia artificial:

    Use cases by department

    - Call center
    - Human Resources
    - Finance
    - IT
    - Marketing
    - Sales
    - Supply chain

    
    Use cases by industry

    - Banking
    - Healthcare
    - Insurance
    - Life sciences
    - Manufacturing
    - Public Safety
    - Retail
    - Telecommunications
    - Travel

## Takeaway:

Deve-se ter cuidado com a curva do Hype, como apresentado em [CLEMMEDSSON, Elin. Identifying pitfalls in machine learning implementation projects: a case study of four technology-intensive organizations. 2018.](http://www.diva-portal.org/smash/record.jsf?pid=diva2%3A1230169&dswid=6169):

<div style="height:520px">
    <img src="./imgs/hype_curve_2017.png",style="height:520px">
</div>

Nas competi√ß√µes, frequentemente temos ideias mirabolantes de execu√ß√£o dif√≠cil e valida√ß√£o ainda mais dif√≠cil. Busque implementar melhorias pequenas, cuja contribui√ß√£o seja mensur√°vel, para ter controle do impacto que as mudan√ßas que voc√™ prop√¥s teve sobre a sua *pipeline* de preprocessamento, treino ou infer√™ncia. Fa√ßa mudan√ßas pequenas, r√°pidas, o tempo todo, at√© que seu modelo inicial n√£o-t√£o-bom se torne um modelo final vencedor de competi√ß√µes.

Resumindo: 

#### Use ao m√°ximo tecnologias prontas, confi√°veis, de comportamento conhecido e que voc√™ domina. Se voc√™ n√£o domina nenhuma, escolha alguma que n√£o seja t√£o complexa e tenha certeza que a entendeu. Passo a passo, aprendemos juntos e atingimos resultados melhores!

Se quiser ainda mais recursos e informa√ß√µes, considere ler os links listados no reposit√≥rio [Awesome AI Awesomeness](https://github.com/amusi/awesome-ai-awesomeness#table-of-contents), onde s√£o agrupadas algumas das tarefas e casos de usos dicutidas aqui, al√©m de muitas que nem comentei.

## Como come√ßar?

> Qual modelo faz o que? Quando uso cada um? O que preciso para trein√°-los?

Evidentemente, n√£o existe resposta exata e completa para nenhuma destas perguntas. Mas assumindo o escopo dos problemas que buscamos resolver atualmente em competi√ß√µes de Kaggle, aqui est√£o alguns recursos e sugest√µes (üî®MARRETAS!) de onde eu comecei, que talvez possam te ajudar. 

### 0. RTFD (READ THE FUCKING DOCS)

> Respire fundo e estude um exemplo antes de desistir de uma abordagem

Leia sempre as documenta√ß√µes. Grande parte das respostas √† suas perguntas v√£o estar descritas em exemplos e documenta√ß√µes de sites como o da biblioteca [Scikit-Learn](https://scikit-learn.org/stable/index.html):

<!-- ![Sklearn LP](./imgs/sklearn_frontpage.png) -->

<div>
    <img src="./imgs/sklearn_frontpage.png", alt = 'Sklearn LP',height='520px'>
</div>

J√° na sua p√°gina inicial a sklearn nos d√° algumas li√ß√µes:

- Existem 2 tipos principais de problemas: Classifi√ß√£o e Regress√£o.
- Muitas vezes n√£o temos etiquetas (labels) para saber o que deveriamos prever. Para isso, Clustering.
- √Äs vezes temos dados demais (muitas dimens√µes) e precisaremos de m√©todos para reduz√≠-las (exemplo: PCA).
- Sele√ß√£o de modelos √© importante e existem m√©todos autom√°ticos (mas lentos) para isso.
- Preprocessamento (limpeza, normaliza√ß√£o e extra√ß√£o de caracter√≠sticas de dados) √© essencial!

Ent√£o, antes de desesperar ('Don't panic!' - The Hitchhiker's Guide to the Galaxy), tente buscar no Google: 'sklearn regression example', quando estiver com um problema de regress√£o. E claro, antes de abrir 327 abas da Wikipedia indo de "Regress√£o" at√© "F√≠sica Qu√¢ntica", considere executar passo a passo um exemplo da biblioteca sklearn. Voc√™ vai se surpreender com qu√£o simples √© usar as ferramentas de l√°!

### 2. Random Forests e Boosting

> Florestas marreteiras d√£o baseline pra te ajudar a decidir se seu preprocessamento est√° minimamente aceit√°vel


Florestas aleat√≥rias s√£o bastante tendenciosas e podem sofrer com bancos de dados desbalanceados. Mas trein√°-las √© r√°pido, f√°cil e frequentemente √© a primeira na maioria das submiss√µes "baseline" em competi√ß√µes Kaggle.

Elas recebem como entrada uma tabela com features (caracter√≠sticas) em colunas, e cada entrada (inst√¢ncia de dados) em linhas, sempre num√©ricas. 

Logo, se voc√™ tem features categ√≥ricas (texto, por exemplo), vai precisar transform√°-las em n√∫meros de alguma forma!

Como sa√≠da, estas redes normalmente possuem implementa√ß√µes para tarefas de regress√£o ou classifica√ß√£o. 

Aqui alguns links (com exemplos para classifica√ß√£o) de bibliotecas de Random Forests muito usadas:

- [lightgbm.LGBMClassifier ‚Äî LightGBM 3.3.2.99 documentation](https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGBMClassifier.html)
- [XGBoost Documentation ‚Äî xgboost 1.6.1 documentation](https://xgboost.readthedocs.io/en/stable/)
- [sklearn.ensemble.RandomForestClassifier ‚Äî scikit-learn 1.1.1 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
- [sklearn.multiclass.OneVsRestClassifier ‚Äî scikit-learn 1.1.1 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html)
- [LightGBM Classifier in Python | Kaggle](https://www.kaggle.com/code/prashant111/lightgbm-classifier-in-python/notebook)


Dica: XGBoost tem treino normalmente mais lento que o LGBM, e nem sempre tem uma performance melhor.

### 3. Perceptron Multicamadas (MLP)

> Neur√¥nios s√£o dif√≠ceis de treinar mas podem abstrair padr√µes, diferente das florestas marreteiras

Diferente das florestas aleat√≥rias, as redes neurais artificiais com base em perceptron multicamadas t√™m a vantagem de serem altamente flex√≠veis e abstrair padr√µes a partir dos dados.

sklearn.neural_network.MLPClassifier ‚Äî scikit-learn 1.1.1 documentation
https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html


Um problema para se atentar treinando redes neurais artificiais, √© a generaliza√ß√£o de padr√µes n√£o desejados, como exemplificado em [GEIRHOS, Robert et al. Shortcut learning in deep neural networks. Nature Machine Intelligence, v. 2, n. 11, p. 665-673, 2020](https://www.nature.com/articles/s42256-020-00257-z):

<div style="max-height:520px">
    <img src="./imgs/dll_unintended_abstractions.png">
</div>

Assim, MLPs rasas e profundas se caracterizam como ferramentas poderosas mas escorregadias. T√™m potencial de atingir aquele 2% a mais que traz a vit√≥ria na competi√ß√£o, mas seu treinamento est√° longe de ser trivial.

### 4. Redes Convolucionais

kkkkkkk boa sorte, ainda n√£o tive tempo de escrever essa parte (WIP TBD)

### 5. Outros m√©todos:

kkkkkkk boa sorte, ainda n√£o tive tempo de escrever essa parte (WIP TBD)

### 6. Mais recursos e links com exemplos para come√ßar:

> OK Boomer. Falou muito, mas onde encontro exemplos?

Existe uma gama enorme de exemplos de preprocessamento, treino de modelos e otimiza√ß√£o notebooks excelentes dispon√≠veis na pr√≥pria plataforma [Kaggle](https://www.kaggle.com/). Escolha um t√≥pico simples por dia, quando menos perceber, vai estar lidando com problemas e resultados bem pr√≥ximos do estado da arte!

Algumas inst√¢ncias de tarefas comuns em IA, exemplificadas e discutidas no livro "Building Machine Learning Powered Applications: Going from Idea to Product" est√£o dispon√≠veis no reposit√≥rio: [ml-powered-applications/notebooks at master ¬∑ hundredblocks/ml-powered-applications]
(https://github.com/hundredblocks/ml-powered-applications/tree/master/notebooks).


Existem diversos reposit√≥rios com nome "awesome" listando recursos para determinadas √°reas de conhecimento: 

- Em "[Awesome Machine Learning](https://github.com/josephmisiti/awesome-machine-learning#table-of-contents)", voc√™ encontrar√° exemplos de implementa√ß√£o e uso de diversas metodologias em aprendizado de m√°quinas, para as linguagens mais populares;

- Ainda em "Awesome Machine Learning", d√™ uma olhada em livros gr√°tis lidando com diferentes tarefas necess√°rias para construir modelos, listadas nesse link: [https://github.com/josephmisiti/awesome-machine-learning/blob/master/books.md](https://github.com/josephmisiti/awesome-machine-learning/blob/master/books.md);

- Em "[Awesome AI](https://github.com/MRCIEU/awesome-ai#awesome-ai)", voc√™ encontrar√° tutoriais, ferramentas e at√© artigos cient√≠ficos explicando diversos conceitos e tecnologias √∫teis para aprender a trabalhar com intelig√™ncia artificial.

- Em "[Awesome Software Engineering for Machine Learning](https://github.com/SE-ML/awesome-seml#contents)", voc√™ encontrar√° ferramentas, exemplos, tutoriais e artigos para obter uma vis√£o geral do panorama de Aprendizado de M√°quina visando construir modelos para aplica√ß√µes.

## Erros comuns e como escapar deles:

Em termos de nomenclatura quais [tipos de erros existem](https://www.expii.com/t/types-of-error-overview-comparison-8112)?

<div style="height:520px">
    <img src="./imgs/types_of_error.jpeg">
</div>

Aqui queremos diminuir os erros sistem√°ticos te√≥ricos (sele√ß√£o de modelos), observacionais (sele√ß√£o de features) e instrumentais (treinamento e emprego de modelos). Mas como?

Na documenta√ß√£o da biblioteca sklearn, existe um artigo interessante sobre [erros comuns e pr√°ticas recomendadas](https://scikit-learn.org/stable/common_pitfalls.html), frequentemente discutidos em cursos sobre IA. Voc√™ pode ler com mais detalhes no link, mas alguns pontos importantes s√£o:

- Preprocesse com pipelines, sempre da mesma maneira, para controlar melhor os ajustes que voc√™ aplica ao seu modelo.
- Atente-se para separar bem a sa√≠da e entrada do modelo! 
- Controle as seeds aleat√≥rias para obter reproducibilidade.
- Use valida√ß√£o cruzada para verificar com precis√£o a performance do seu modelo.

√â importante tamb√©m conhecer alguns detalhes importantes ao se trabalhar com medidas e transforma√ß√µes estat√≠sticas, para se interpretar corretamente a sua EDA. Leia [neste documento](https://scikit-learn.org/stable/auto_examples/inspection/plot_linear_model_coefficient_interpretation.html) um relat√≥rio sobre interpreta√ß√£o de correla√ß√£o, escala, vari√¢ncia, entre outros. [Um outro artigo interessante na biblioteca sklearn](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html#sphx-glr-auto-examples-preprocessing-plot-all-scaling-py) trata do impacto e comportamento da normaliza√ß√£o de escala e processamento de outliers.

Caso tenha mais interesse em estudar erros comuns para se preparar para evit√°-los (ou enfrent√°-los), d√™ uma olhada no artigo [LONES, Michael A. How to avoid machine learning pitfalls: a guide for academic researchers. arXiv preprint arXiv:2108.02497, 2021](https://arxiv.org/pdf/2108.02497.pdf), abaixo o sum√°rio dos t√≥picos analisados no trabalho:

<div style="height:520px">
    <img src="./imgs/avoid_pitfalls_paper.png">
</div>

## Outros recursos e refer√™ncias:

CommonLit: EDA + (Most) NLP Techniquesüìö | Kaggle
https://www.kaggle.com/code/utcarshagrawal/commonlit-eda-most-nlp-techniques/notebook

List of datasets for machine-learning research - Wikipedia
https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research#Human

Outline of machine learning - Wikipedia
https://en.wikipedia.org/wiki/Outline_of_machine_learning

Models - Hugging Face
https://huggingface.co/models?sort=downloads

scikit-learn: machine learning in Python ‚Äî scikit-learn 1.1.1 documentation
https://scikit-learn.org/stable/index.html

Ensemble deep learning in bioinformatics | Nature Machine Intelligence
https://www.nature.com/articles/s42256-020-0217-y

A Brief Introduction to Probability & Statistics
https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/

Shanky-21/Data_visualization
https://github.com/Shanky-21/Data_visualization

The Intuition Behind Correlation ‚Äì Time Series Analysis, Regression and Forecasting
https://timeseriesreasoning.com/contents/correlation/#:~:text=In%20the%20most%20general%20sense,manner%2C%20most%20of%20the%20time.
