Este é um notebook "bônus", com alguns conceitos, recursos e técnicas que não tivemos tempo de falar durante as aulas mas que podem ser muito úteis nos processos de desenvolvimento e implantação de modelos de ML.

# Conceitos gerais

#### Fluxo de projeto

Um projeto de modelo de machine learning em uma empresa geralmente segue várias etapas sequencialmente. É comum que algumas sejam puladas ou que seja necessário voltar e refazer alguma parte.

**Entendimento do problema de negócio**

Aqui é onde nascem os primeiros conceitos e insights sobre o eventual modelo que será treinado. Envolve a compreensão do problema a ser resolvido em parceria com as áreas de negócio, incluindo a definição de indicadores de sucesso, requisitos do projeto e escala através de reuniões com as partes interessadas.

**Levantamento e aquisição de dados**

Esta etapa envolve elencar os dados possíveis de serem utilizados para o problema, e a preparação destes para consequente análise. É aqui que vamos começar a tratar os dados e nos preocupar com duplicidades, nulos e dados faltantes. É aqui também que daremos atenção à Lei Geral de Proteção de Dados (no Brasil), e às questões éticas pertinentes às variáveis que estamos utilizando e o problema que estamos resolvendo.


**Análise exploratória**
Aqui, os dados serão explorados para entender suas características, distribuições e relacionamentos. Usamos recursos visuais como plots, animações e diagramas além de estatísticas descritivas para entender as relações presentes no dataset construído e tirar insights relevantes.

**Feature engineering**
Chegou a hora de imputar conhecimentos específicos de negócios no processo. Aqui é onde construiremos novas variáveis a partir das que já temos, e incorporaremos relações conhecidas por negócio no dataset. Nessa etapa, é necessário que os dados já saiam no formato adequado para entrar nos modelos, usando recursos como a padronização.


**Modelagem**
E agora, finalmente, o .fit()! Com as variáveis construídas, aplicaremos as técnicas de ML para construir os modelos que representarão as relações nos dados e consequentemente resolverão o problema. É importante definir os hiperparâmetros adequadamente (sem otimizar).

**Avaliação**
Com um modelo treinado, avaliaremos seu desempenho de diversas formas; utilizamos métricas tradicionais (ROC-AUC, R²), validação cruzada, análises descritivas, plots e recursos visuais para ganharmos insights sobre o comportamento do modelo e quão bem ele resolve o problema.

**Iteração**
Iteração e Otimização: Com base nos resultados da avaliação, os modelos podem ser refinados e otimizados. Isso inlcui ajustes nos algoritmos, na seleção de variáveis e na preparação dos dados. O ciclo de iteração normalmente é repetido diversas vezes para melhorar gradualmente o desempenho do modelo agregando o conhecimento obtido de experimentos passados.


**Implantação**
A implantação é uma das partes mais de engenharia do processo. Precisamos construir um arcabouço computacional para execução adequada do modelo, automatizando os processos e garantindo que serão executados normalmente, com recursos para lidar com erros e falhas no processo.


**Tracking e manutenção**
Nosso trabalho ainda não acabou! Os modelos possuem prazo de validade (e não sabemos qual é!), portanto precisamos acompanhar seu comportamento ao longo do tempo. Para isso, podemos utilizar técnicas de deteção de deriva no dataset, analisar a distribuição das predições do modelo e a evolução de seu desempenho. Esta etapa é permanente e deve ser trabalhada durante toda a vida útil do modelo desenvolvido. É aqui também que observaremos a necessidade de retreinar o modelo ou mudar conceitos por evoluções nos negócios.

### Abordagens mistas

Modelos de ML não são "engessados" - na verdade, é necessário bastante criatividade do desenvolvedor para construir um modelo inovador. Nesse sentido, é muito comum a construção de técnicas que misturam arcabouços diferentes de ML, como o _Reinforcement Learning with Human Feedback_ do ChatGPT, que é uma espécie de aprendizado por reforço supervisionado.

### Abordagens alternativas
Nem todo problema de regressão precisa ser um problema de regressão - às vezes, o objetivo final é, por exemplo, estimar a rentabilidade de uma operação para encerrá-la caso dê prejuízo. No fundo, podemos ver como um problema de classificação binária: ou a operação dá lucro ou ela dá prejuízo. Muitas vezes é possível olhar para o problema de um jeito diferente que simplifica as relações a serem aprendidas.

Também podemos fazer o caminho contrário: modelar um problema de classificação como um problema de regressão. Essa abordagem é particularmente útil quando temos _classes ordenadas_, isto é, classes diferentes que possuem uma relação de ordem entre si. Nesse contexto, conseguimos imputar no modelo um conhecimento específico acerca das distâncias entre as classes.

### Redes neurais recorrentes
Estudamos o tipo de rede neural mais comum (fully-connected), mas existe um outro tipo "macro": as redes neurais recorrentes.

![image.png](attachment:image.png)

Essas redes são comumente utilizadas quando há alguma noção temporal no problema, pois a recorrência (saída do neurônio voltando para si mesmo) pode ser utilizada para construir mecanismos de memória, como nos LSTMs (_Long Short Term Memory_).

Comparativo: https://github.com/christianversloot/machine-learning-articles/blob/main/from-vanilla-rnns-to-transformers-a-history-of-seq2seq-learning.md

### Prazo de validade
Coloquialmente, os modelos possuem "prazo de validade" - uma vez treinados, não manterão seu desempenho para sempre. Isso se dá devido ao fato do mundo estar em constante mudança, e consequentemente as distribuições dos dados de entrada do modelo mudarão também ao longo do tempo. Atualmente não existem técnicas para calcular precisamente um prazo de validade, mas podemos observar o modelo ao longo do tempo para avaliar se continua válido.

### Ciência de dados, BI, ML ou data mining?

![image.png](attachment:image.png)

Existem muitos termos referentes a escopos dentro dos processos de dados nas empresas. Não há uma definição concreta e exclusiva das áreas, e muitos termos acabam, na prática, significando a mesma coisa (como BI e data mining). A distinção é mais forte no eixo técnico-negócio, onde aplicações mais próximas de negócio são menos técnicas, e aplicações mais próximas da tecnologia são menos "de negócio". BI nesse caso estaria mais próximo de negócios, enquanto engenharia de ML seria completamente técnico.

# Ferramentas

### AutoML
Existem muitos processos dentro do treinamento de um modelo que são extremamente consistentes ao longo dos experimentos, como a padronização de variáveis, testes de hiperparâmetros e técnicas diferentes. Será que podemos então automatizar estas etapas?

A resposta é sim! Existem técnicas e bibliotecas focadas em abstrair o máximo possível do treinamento, automatizando as etapas mais consistentes de forma paramétrica. Essas abordagens são comumente chamadas de AutoML (_automatic machine learning_). É importante notar que há mais risco envolvido devido à não-transparência dos processos executados, e cautela extra é necessária para validação do modelo. Entretanto, costumam conseguir ótimas métricas de desempenho.

Existe uma implementação de AutoML no formato do _sklearn_: https://automl.github.io/auto-sklearn/master/

### Tesseract

O Tesseract (https://github.com/tesseract-ocr/tesseract) é uma ferramenta desenvolvida pelo Google para tarefas de OCR (reconhecimento de caracteres ótico). É uma rede neural recorrente pré-treinada em diferentes linguagens e pode ser fine-tunada para escopos específicos, atingindo ótimas métricas de desempenho.

Também é bastante paramétrico e suporta diferentes modos de extração (como palavras únicas, frases ou blocos de texto), além de incluir algumas outras ferramentas úteis (como normalização da imagem) para facilitar a vida do desenvolvedor.

### Sklearn pipeline
A biblioteca _sklearn_ possui um objeto `pipeline` que permite encadearmos várias operações diferentes e ajustar todas de uma só vez. Com essa função, ao invés de chamarmos um `.fit()` para o scaler e outro para o modelo, podemos construir uma pipeline com ambas as técnicas e ajustar uma só vez. É bastante útil no processo de modelagem para iteração e experimentação.

Documentação: https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

### Huggingface
O Huggingface é um repositório colaborativo online de datasets e modelos pré-treinados (e também uma empresa de IA). É possível obter uma miríade de modelos já ajustados em diversos tipos de tarefas diferentes, além de fazer um fine-tuning posteriormente. Também abriga alguns datasets.

![image.png](attachment:image.png)

Link: https://huggingface.co/

### Kaggle
Outra comunidade de ML e uma das principais responsáveis pela democratização do acesso aos modelos e problemas. Promove competições com ótimos prêmios (de alguns milhares de dólares) para o melhor modelo, além de ser casa de bastante conteúdo educativo e problemas resolvidos. Também possui muitos datasets disponíveis para serem explorados, além dos datasets das competições.

Link: https://www.kaggle.com/

# Conhecimento
### StatQuest
Nosso já conhecido professor Josh Starmer possui uma ótima didática! Em seu canal StatQuest encontraremos vídeo-aulas sobre diversos assuntos de machine learning e estatística, todos explicados de forma intuitiva, com animações e recursos visuais e passos lentos para facilitar a compreensão. É **muito** bom para construir uma intuição sobre as técnicas e alavancar as fortalezas de cada uma.

Link: https://statquest.org/

### 3blue1brown
Outro canal com ótima didática e recursos visuais maravilhosos! O foco principal é matemática, mas o conteúdo abordado transcende as esferas do conhecimento. Possui uma ótima playlist de redes neurais, com visuais perfeitamente descritivos, sem simplificações, dos processos que acontecem nas redes.

Link: https://www.3blue1brown.com/

### 2 Minute Papers
Já um pouco mais acadêmico, aqui o foco é em artigos científicos. O professor Dr. Károly Zsolnai-Fehér nos explica com muita empolgação os mais novos avanços tecnológicos na computação, incluindo (e principalmente) machine learning. Aqui podemos ter uma noção do estado atual da academia e as técnicas mais relevantes sendo desenvolvidas, além dos problemas e formulações de foco dos cientistas.

Link: https://www.youtube.com/channel/UCbfYPyITQ-7l4upoX8nvctg

# Academia

### ICML (International Conference on Machine Learning)
Uma das principais conferências de ML do mundo. Acontece anualmente e está em sua quadragésima primeira edição, e conta com apresentações de artigos de ponta, acadêmicos e pesquisadores e indústrias líderes de mercado.

Link: https://icml.cc/

### ICLR (International Conference on Learning Representations)
Também uma das principais conferências de ML mundiais, bastante similar à ICML em escopo.

Link: https://iclr.cc/

### SIGGRAPH (Special Interest Group on Computer Graphics and Interactive Techniques)
Uma organização sem fins lucrativos com foco em computação gráfica que mantém uma conferência anual de mesmo nome, sendo a mais relevante conferência de computação gráfica do mundo. Também explora bastante tópicos de ML aplicados a esse escopo, como técnicas de visão computacional e simulação.

Link: https://www.siggraph.org/

### AISTATS (International Conference on Artificial Intelligence and Statistics)
Também uma conferência muito relevante para a área, foca na intersecção entre os campos de estatística e IA.

Link: https://aistats.org/aistats2024/ac_guidelines.html

### NeurIPS (Conference on Neural Information Processing Systems)
Talvez a conferência de maior peso dessa lista atualmente, foca especificamente em redes neurais e em outras técnicas relevantes para a área. Ter um artigo apresentado nessa conferência é visto por muitos como o ápice da carreira de um profissional desta área.

Link: https://neurips.cc/

### Papers with code
Repositório online de conhecimento acadêmico de ML. Possui _benchmarks_ e comparativos entre técnicas em datasets padronizados, além de, como o nome sugere, os próprios artigos e respectivo códigos. É uma ótima fonte para entender as "melhores" técnicas atualmente em cada tarefa e estudá-las direto da fonte. A leitura e compreensão destes artigos pode ser um pouco pesada a depender do assunto.

Link: https://neurips.cc/