# Baselines

> *It can scarcely be denied that the supreme goal of all theory is to make the irreducible basic elements as simple and as few as possible without having to surrender the adequate representation of a single datum of experience*.

[*often quoted as ‘Everything should be made as simple as possible, but not simpler’*, *‘On the Method of Theoretical Physics’, lecture delivered at Oxford, 10 June 1933*](https://www.oxfordreference.com/view/10.1093/acref/9780191826719.001.0001/q-oro-ed4-00003988#:~:text=It%20can%20scarcely%20be%20denied,a%20single%20datum%20of%20experience.&text=The%20eternal%20mystery%20of%20the%20world%20is%20its%20comprehensibility%E2%80%A6)

 Alguns padrões de projeto de solução de competições que o NIASIA identificou até agora.

## Resumo

Um bom resumo deste notebook talvez seja [este post no blog do Emmanuel Ameisen](https://mlpowered.com/posts/start-with-a-stupid-model/), autor do livro 'Building Machine Learning Powered Applications: Going from Idea to Product'.

Neste notebook apresentamos argumentos e uma metodologia de errar rápido para conseguir acertar em competições de Inteligência Artificial.

## Objetivo

Nesse notebook o foco não será em aprofundar em ideias ou códigos, nem na validação matemática das propostas feitas aqui. Ao contrário, aqui serão apresentados exemplos de como muitos livros, autores e Kagglers resolvem problemas de IA e atingem performances iguais ou acima do estado da arte.

## Resolvendo problemas com IA

Na maioria dos livros, cursos e até frameworks de implementação de soluções em IA, discute-se uma visão geral de como resolver problemas com IA. Essencialmente, modelos de aprendizado de máquina são métodos matemáticos (frequentemente com forte embasamento estatístico) que tomam entradas numéricas e predizem uma saída, seja ela uma determinada classe ou um número.

Normalmente, o processo para treinar esses modelos consiste em:

    1. Adquirir dados (que acreditamos ter potencial para prever *algo*)

    2. Identificar características estatísticas, anomalias e os tipos desses dados

    3. Transformar os dados em uma coleção de números com alguma relação com *algo* que queremos prever
    
    4. Escolher um modelo de aprendizado que seja capaz de eventualmente prever esses dados

    5. Medir a performance desse modelo

    6. Melhorar a performance do modelo

### Padrão de projeto em IA:

Agora, veja o índice de um dos capítulos do livro 'Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow':

![Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow](./imgs/handson_ml_overview.png)

Dê uma olhada agora nos componentes do ciclo de MLOps da Google, no livro 'Practical MLOps
Operationalizing Machine Learning Models':

>[(MLOps ou ML Ops é um conjunto de práticas que visa implantar e manter modelos de machine learning em produção de forma confiável e eficiente. A palavra é um composto de "machine learning" e a prática de desenvolvimento contínuo de DevOps na área de software.)](https://www.google.com/search?q=mlops&sxsrf=ALiCzsYlr6Lajbj_pnIRMp_EcUHZJYf8_A:1658366859510&source=lnms&tbm=isch&sa=X&ved=2ahUKEwjBssX86Yj5AhXdSLgEHQ3CClsQ_AUoAXoECAIQAw&biw=1360&bih=699&dpr=1)

![](./imgs/google_mlops.png)

Por último, veja o ciclo de vida de soluções de aprendizado de máquina, apresentado no livro 'Machine Learning Design Patterns Solutions to Common Challenges in Data Preparation, Model Building, and MLOps':

![](./imgs/ml_life_cycle_ml_design_patterns.png)

### Takeaway:

E então? Notou algum padrão?



Bem, diante dos livros e também de competições (como vou mostrar a seguir), existe uma forte tendencia no mercado e na academia de transformar a proposta, treino e predição de modelos de IA em uma *pipeline* automática, composta de:

    1. EDA (análise exploratória de dados, *exploratory data analysis*)

    2. Engenharia de Características

    3. Seleção de Modelo(s)

    4. Treino

    5. Predição

    6. Retreino

Compare a lista de passos acima com as imagens e com a lista de passos no início dessa seção. Estes passos são a essência (automatizável!) do aprendizado de máquina.

### Seu papel então como pesquisador, desenvolvedor e competidor é fazer isso tão rápido e tão bom quanto possível!

## Competindo no Kaggle

OK. Vimos que *nos livros* esses métodos são usados. Mas e no Kaggle?

Dê uma olhada rápida nas seções [deste notebook](). Não se preocupe neste primeiro momento em entender os dados ou os resultados. O foco aqui é na metodologia deste autor. Notou um padrão relacionado à seção anterior?

No notebook, em linhas gerais, o autor:

    1. Importou e visualizou distribuições dos dados

    2. Limpou e selecionou aqueles que mais importavam para seu contexto/problema

    3. Escolheu não UM mas DOZE modelos diferentes, sendo eles:
        - Florestas aleatórias:
            1. Linear Regression, 
            2. Ridge Regression, 
            3. Support Vector Regression, 
            4. Random Forest Regressor, 
            5. Gradient Boosting Regressor, 
            6. AdaBoost Regressor, 
            7. XGBoost Regressor.
        - Modelos Neurais Profundos:
            9. Simple RNN, 
            10. LSTM, 
            11. Bidirectional RNN
        - Transformers:
            11. BERT

    4. Treinou todos estes modelos 

    5. Previu as saídas em banco de validação

    6. Escolheu o melhor modelo e utilizou ele para submissão.

Tudo isso, em um notebook que executa por completo em 1789.1 segundos (30 minutos)!



Beleza, um monstro da IA. Como faço isso? Baby steps. Com certeza esse cara não nasceu escrevendo notebooks Kaggle com 12 modelos treinados, ele aprendeu e realizou cada uma das etapas separadamente.

## Tipos de Problemas em IA:

Eis algumas áreas e problemas que modelos de IA são utilizados para resolver:

![](./imgs/ml_tasks_huggingface.png)

## Como começar?

Qual modelo faz o que? Quando uso cada um? O que preciso para treiná-los?

Evidentemente, não existe resposta exata e completa para nenhuma destas perguntas. Mas assumindo o escopo dos problemas que buscamos resolver atualmente em competições de Kaggle, aqui estão alguns recursos e sugestões (🔨MARRETAS!) de onde eu comecei, que talvez possam te ajudar. 

### 0. RTFD (READ THE FUCKING DOCS)

Leia sempre as documentações. Grande parte das respostas à suas perguntas vão estar descritas em exemplos e documentações de sites como o da biblioteca [Scikit-Learn](https://scikit-learn.org/stable/index.html):

![Sklearn LP](./imgs/sklearn_frontpage.png)

Já na sua página inicial a sklearn nos dá algumas lições:

- Existem 2 tipos principais de problemas: Classifição e Regressão.
- Muitas vezes não temos etiquetas (labels) para saber o que deveriamos prever. Para isso, Clustering.
- Às vezes temos dados demais (muitas dimensões) e precisaremos de métodos para reduzí-las (exemplo: PCA).
- Seleção de modelos é importante e existem métodos automáticos (mas lentos) para isso.
- Preprocessamento (limpeza, normalização e extração de características de dados) é essencial!

Então, antes de desesperar ('Don't panic!' - The Hitchhiker's Guide to the Galaxy), tente buscar no Google: 'sklearn regression example', quando estiver com um problema de regressão. E claro, antes de abrir 327 abas da Wikipedia indo de "Regressão" até "Física Quântica", considere executar passo a passo um exemplo da biblioteca sklearn. Você vai se surpreender com quão simples é usar as ferramentas de lá!

### 2. Random Forests e Ensembles (Boosting)

> Florestas marreteiras dão baseline pra te ajudar a decidir se seu preprocessamento está minimamente aceitável


Florestas aleatórias são bastante tendenciosas e podem sofrer com bancos de dados desbalanceados. Mas treiná-las é rápido, fácil e frequentemente é a primeira na maioria das submissões "baseline" em competições Kaggle.

Elas recebem como entrada uma tabela em características em colunas, e cada entrada (instância de dados) em linhas, sempre numéricas. 

Logo, se você tem features categóricas (texto, por exemplo), vai precisar transformá-las em números de alguma forma!

Como saída, estas redes normalmente possuem implementações para tarefas de regressão ou classificação. 

Aqui alguns links (com exemplos para classificação) de bibliotecas de Random Forests muito usadas:

- [lightgbm.LGBMClassifier — LightGBM 3.3.2.99 documentation](https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGBMClassifier.html)
- [XGBoost Documentation — xgboost 1.6.1 documentation](https://xgboost.readthedocs.io/en/stable/)
- [sklearn.ensemble.RandomForestClassifier — scikit-learn 1.1.1 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
- [sklearn.multiclass.OneVsRestClassifier — scikit-learn 1.1.1 documentation](https://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html)
- [LightGBM Classifier in Python | Kaggle](https://www.kaggle.com/code/prashant111/lightgbm-classifier-in-python/notebook)


Dica: XGBoost tem treino normalmente mais lento que o LGBM, e nem sempre tem uma performance melhor.

### 3. Perceptron Multicamadas (MLP)

> Neurônios são difíceis de treinar mas podem abstrair padrões, diferente das florestas marreteiras

sklearn.neural_network.MLPClassifier — scikit-learn 1.1.1 documentation
https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html


kkkkkkk boa sorte, ainda não tive tempo de escrever essa parte

### 4. Redes Convolucionais

kkkkkkk boa sorte, ainda não tive tempo de escrever essa parte

### 5. Outros métodos:

kkkkkkk boa sorte, ainda não tive tempo de escrever essa parte

## Erros comuns e como escapar deles:

Em termos de nomenclatura quais [tipos de erros existem](https://www.expii.com/t/types-of-error-overview-comparison-8112)?

<div>
    <img src="./imgs/types_of_error.jpeg", height='520px'>
</div>

Aqui queremos diminuir os erros sistemáticos teóricos (seleção de modelos), observacionais (seleção de features) e instrumentais (treinamento e emprego de modelos). Mas como?

Na documentação da biblioteca sklearn, existe um artigo interessante sobre [erros comuns e práticas recomendadas](https://scikit-learn.org/stable/common_pitfalls.html), frequentemente discutidos em cursos sobre IA. Você pode ler com mais detalhes no link, mas alguns pontos importantes são:

- Preprocesse com pipelines, sempre da mesma maneira, para controlar melhor os ajustes que você aplica ao seu modelo.
- Atente-se para separar bem a saída e entrada do modelo! 
- Controle as seeds aleatórias para obter reproducibilidade.
- Use validação cruzada para verificar com precisão a performance do seu modelo.

É importante também conhecer alguns detalhes importantes ao se trabalhar com medidas e transformações estatísticas, para se interpretar corretamente a sua EDA. Leia [neste documento](https://scikit-learn.org/stable/auto_examples/inspection/plot_linear_model_coefficient_interpretation.html) um relatório sobre interpretação de correlação, escala, variância, entre outros. [Um outro artigo interessante na biblioteca sklearn](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html#sphx-glr-auto-examples-preprocessing-plot-all-scaling-py) trata do impacto e comportamento da normalização de escala e processamento de outliers.

## Referências

Recursos:

CommonLit: EDA + (Most) NLP Techniques📚 | Kaggle
https://www.kaggle.com/code/utcarshagrawal/commonlit-eda-most-nlp-techniques/notebook

List of datasets for machine-learning research - Wikipedia
https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research#Human

Outline of machine learning - Wikipedia
https://en.wikipedia.org/wiki/Outline_of_machine_learning

Models - Hugging Face
https://huggingface.co/models?sort=downloads

scikit-learn: machine learning in Python — scikit-learn 1.1.1 documentation
https://scikit-learn.org/stable/index.html

10. Common pitfalls and recommended practices — scikit-learn 1.1.1 documentation
https://scikit-learn.org/stable/common_pitfalls.html
