# Exercício guiado de Machine Learning

## Case: advanced analytics no mercado de vinho
_________

Suponha que você é um cientista de dados que trabalha na área de *advanced analytics* de uma empresa especializada na distribuição e vendas de vinhos tintos. Naturalmente, a empresa está interessada em vender vinhos que sejam percebidos como bons por grande parte do público. Pensando nisso, foi feita uma pesquisa, na qual vinhos tintos com diferentes características físico-químicas foram oferecidos a alguns voluntários, que, após experimentá-los, deram notas de 0 a 10. A base coletada contém as seguintes informações:

- Medidas de 11 variáveis físico-químicas que caracterizam cada amostra (as features do problema):
<br><br>
    - 1 - fixed acidity - medida da acidez devido à presença de ácidos orgânicos de baixa volatilidade (ácido málico, lático, tartárico ou cítrico) no vinho;
    - 2 - volatile acidity - medida da acidez devido a ácidos de baixo peso molecular (sobretudo ácido acético) presentes no vinho, que são responsáveis pelo aroma e gosto de vinagre;
    - 3 - citric acid - medida de ácido cítrico no vinho;
    - 4 - residual sugar - medida de açúcar residual presente no vinho, com origem nos resíduos de açúcar da uva que permanecem no vinho após o fim da fermentação;
    - 5 - chlorides - medida de cloretos (íons de cloro) no vinho;
    - 6 - free sulfur dioxide - medida de dióxido de enxofre livre (isto é, que não está ligado a outras moléculas) no vinho;
    - 7 - total sulfur dioxide - medida de dióxido de enxofre total (livre + porção ligada a outras moléculas) no vinho;
    - 8 - density - medida da densidade do vinho;
    - 9 - pH - medida do pH do vinho;
    - 10 - sulphates - medida de sulfatos (íons SO₄²⁻) no vinho;
    - 11 - alcohol - medida da graduação alcoólica do vinho.
<br><br>
- Além disso, há a variável resposta que no caso é um score numérico:
<br><br>
    - 12 - quality - score numérico de qualidade (de 0 a 10), produzido com base em dados sensoriais.

Com base nestes dados coletados, seu objetivo é produzir um modelo capaz de distinguir vinhos bons de ruins, com base nas medidas de suas características físico-químicas. 

Uma vez que tenhamos este modelo, caso produtoras de vinho ofereçam um novo vinho para ser vendido por sua empresa, será possível decidir de maneira mais direcionada se vale a pena passar a vender este produto ou não, de acordo com a predição de sua qualidade dada pelo modelo.

Dentro deste contexto, seu objetivo como cientista de dados é claro:

> Agregar valor ao negócio, explorando os dados que você tem à disposição.

Na primeira sprint do projeto, você e outros colegas do time de ciência de dados chegaram na seguinte _TO-DO list_ para o desenvolvimento do projeto:

- [ ] Ingestão dos dados e detalhada análise exploratória
- [ ] Formulação do problema
- [ ] Primeiro modelo baseline
- [ ] Iterações pelo ciclo de modelagem
- [ ] Compilação dos resultados para o negócio
- [ ] Comunicação dos resultados

Com base na TO-DO list acima, o time de data science quebrou a análise exploratória em algumas perguntas importantes a serem respondidas, antes da etapa de modelagem.

Agora é com você! Bom trabalho, e divirta-se! :D


_________

*Obs.: Naturalmente, o enunciado acima foi apenas uma historinha que criei pra motivar o problema em um contexto de negócio. Para maiores informações sobre a coleta e origem real dos dados, veja a página do dataset no repositório UCI machine learning repository, [disponível aqui!](https://archive.ics.uci.edu/ml/datasets/wine+quality)* 

_________

Vamos começar pelos primeiros pontos da TO-DO list:

- [ ] Ingestão dos dados e detalhada análise exploratória
- [ ] Formulação do problema

_______

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

1) Leia o arquivo csv `winequality-red.csv`, construindo um Data Frame do pandas. Responda:

- Quantas linhas há no dataset?
- Quantas colunas há no dataset?
- Quais os tipos de dados em cada coluna?
- Há dados nulos (null, missing) na base?

_______

### Observação importante!

A primeira EDA pode ser feita com toda a amostra de dados que temos disponível, sem problemas.

No entanto, a partir do momento em que chegamos à conclusão de que de fato é necessário construir um modelo, é importante que façamos o **train-test split**, e:

>**Qualquer análise exploratória que, de qualquer maneira, guie o processo de construção do modelo, deve ser feita unicamente com os dados de treino!**

Isso é importante porque, lembre-se, a base de teste tem o único propósito de nos auxiliar a estimar a performance de generalização de nosso modelo, e não deve ser usada em hipótese alguma no passo 1 do ciclo de modelagem (construção do modelo), pois se isso acontecer, estaremos cometendo data leakage, e a estimativa de generalização pode se invalidar!

_______

2) Utilizando a base de vinhos tintos, estude a distribuição das variáveis numéricas, calculando, para cada coluna, as principais estatísticas descritivas de posição (média, mediana, quartis, etc.) e de dispersão (std, IQR, etc.). Se desejar, visualize as distribuições de cada variável na amostra.

Se houver interesse e importância em identificar/remover outliers, podemos usar métodos mais robustos, como os discutidos [neste post](https://machinelearningmastery.com/model-based-outlier-detection-and-removal-in-python/), ou segundo a própria [documentação do sklearn](https://scikit-learn.org/stable/modules/outlier_detection.html).

_______

3) Utilizando a base de vinhos tintos, responda: existe alguma coluna com outliers? Indique qual método de detecção de outliers você utilizou, justificando seu uso.

Se houver interesse e importância em identificar/remover outliers, podemos usar métodos mais robustos, como os discutidos [neste post](https://machinelearningmastery.com/model-based-outlier-detection-and-removal-in-python/), ou segundo a própria [documentação do sklearn](https://scikit-learn.org/stable/modules/outlier_detection.html).

_______

3) Utilizando a base de vinhos tintos, estude os dados na coluna `quality`, que é a variável resposta do problema. Em particular, responda:

- Essa é uma variável contínua ou discreta?
- Como as notas estão distribuídas? Quais as notas mais/menos comuns?
- Faz sentido discretizar esta variável em dois níveis categóricos? 
    - Se sim, qual seria o valor de corte, e, com este corte, qual é o significado de cada nível categórico?
    - Como estes dois níveis categóricos estão distribuídos?

_______

4) Utilizando a base de vinhos tintos, calcule e/ou visualize a correlação (utilizando a relação que achar mais adequada) entre as variáveis na base. 

Em particular, estude a correlação entre as features e o target `quality`, e responda se há correlações fortes.

Plote também a relação entre cada uma das features e o target (na forma de um scatterplot, por exemplo).

Com base nas análises acima, responda: é uma boa ideia modelar o problema como um problema de regressão? Se sim, que métodos de aprendizagem você utilizaria?

_______

5) Utilizando a base de vinhos tintos, calcule e/ou visualize (em um gráfico de barras, ou como preferir) o intervalo de confiança de 90% para a média de cada uma das variáveis físico-químicas, agrupadas pelos níveis categóricos da variável resposta `quality`. Que conclusões são possíveis tirar destes gráficos?

Sugestão: utilizar o seaborn para a visualização.

_______

6) Utilizando a base de vinhos tintos, discretize a variável resposta `quality` em dois níveis categóricos para transformar o problema em um problema de classificação binária. Como valor de corte, utilize aquele que seja tal que os dois níveis categóricos estejam o mais igualmente distribuídos possível (isto é, um corte que minimize o desbalanceamento das classes). Sugestão: teste todos os valores de corte possíveis (não são muitos!)

Após a determinação do valor de corte que satisfaça às condições acima, responda: o que, qualitativamente, cada uma das duas classes representa? Esta discretização faz sentido? Se sim, para facilitar análises posteriores, nomeie as classes de acordo.

Dica: vamos usar esta nova variável resposta binária nas análises dos próximos exercícios, então sugiro que o dataframe com esta variável seja salvo num arquivo, para que ele possa ser simplesmente lido posteriormente.

_______

7) Considere a base de vinhos tintos com a variável `quality` discretizada em duas classes ("bom" para nota maior que 5; "ruim" caso contrário). Vamos agora analisar a separabilidade das duas classes do problema. Para isso, faça:

- Visualize as distribuições das features, com indicação dos diferentes níveis categóricos do target;
- Visualize as projeções dos dados em cada um dos subespaços de pares de features, com indicação dos níveis categóricos do target;

Responda: com base nesta análise, o problema é linearmente separável?

O problema tem separabilidade não trivial. Com base nisso, é de se esperar que métodos lineares não tenham uma performance muito boa. Esta observação indica que, provavelmente, precisaremos de estimadores mais complexos para caputrar o padrão refletido na amostra de treino. Claro, testaremos isso tudo no ciclo de modelagem a seguir, mas é bom já termos alguma expectativa para os resultados que iremos obter.

_______

8) Considere a base de vinhos tintos com a variável `quality` discretizada em duas classes. Separe o dataset em dados de treino (70%) e de teste (30%), estratifidando pelo target. Utilize `random_state=42` como seed, para fins de reprodutibilidade.

Apenas com os dados de treino, calcule as componentes principais do espaço de features, e responda:

- Quantas componentes principais são necessárias para que pelo menos 90% da variância do dataset seja explicada?
- Faça um scatterplot das duas primeiras componentes principais, com indicação dos níveis categóricos do target;
    - No sub-espaço das duas primeiras componentes principais, há separabilidade linear dos dados?

Dica: utilize as ferramentas do scikit-learn.

Essa projeção também é um indicativo de que nosso problema não tem uma separabilidade linear trivial. Provavelmente, precisaremos criar modelos mais complexos!

_______

9) Considere a base de vinhos tintos com a variável `quality` discretizada em duas classes. Separe o dataset em dados de treino (70%) e de teste (30%), estratifidando pelo target. Utilize `random_state=42` como seed, para fins de reprodutibilidade. Usando os dados de treino, faça:

- Agrupe os dados pelos níveis categóricos do target, e calcule a média de cada uma das features;

- Faça um teste de hipótese para determinar se, a um nível de significância de 5%, há diferença na média de cada uma das sub-amostras de cada classe, para todas as variáveis;

- Compare a distribuição das features analisando o boxplot de cada uma, separados pelas duas classes do target.

Dica: utilize as ferramentas do scipy e do scikit-learn.

__________
__________
__________


Uma vez que você tenha respondido às questões anteriores, você completou, talvez sem perceber, o importantíssimo (e longo!) processo de análise exploratória dos dados (EDA, do termo inglês, *exploratory data analysis*)!

De fato, a etapa de EDA é importantíssima em todo projeto de ciência de dados, pois é apenas explorando os dados que de fato nos familiarizamos com o contexto do problema com o qual estamos trabalhando, o que é fundamental para o sucesso das próximas etapas, que pode envolver a criação e avaliação de modelos de machine learning, que é exatamente o que faremos agora, endereçando os próximos pontos da TO-DO list:

- [ ] Primeiro modelo baseline
- [ ] Iterações pelo ciclo de modelagem

Vamos lá!

___________

Vamos começar com o baseline - uma regressão logística, modelo linear simples.

### Passo 1 - Construção do modelo

In [50]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.linear_model import LogisticRegression

### Passo 2 - Avaliação do modelo

Agora vamos estimar a generalização do modelo com os dados de teste!

Lembre-se: o objetivo é avaliar onde estamos no tradeoff viés-variância (sobretudo no caso de alta variância (overfit)).

In [52]:
from sklearn.metrics import ConfusionMatrixDisplay, classification_report

Claro, é importante que calculemos as métricas de avaliação tanto na base de treino quanto na base de teste, pra aferir se o modelo está overfitado (isto é, aferir a variância):

Podemos dizer claramente que o modelo não está overfitado.

Inclusive, há até um fenômeno interessante: o modelo tem métricas melhores no teste do que no treino!

Esse é um sinal claro de que o modelo sofre de underfitting -- o que faz sentido, dado que a regressão logística (um modelo linear) é demasiadamente simples para os nossos dados!

Como baseline, funciona muito bem. 

Nosso objetivo agora vai ser melhorar esta performance, aumentando um pouco a complexidadce da hipótese!

### Agora, vamos entrar no ciclo, testando alguns estimadores mais complexos:

## Entrando no ciclo de modelagem!

Vamos agora treinar e avaliar sistematicamente diversos modelos.

Vamos criar uma função para o experimento:

Legal, já temos alguns resultados interessantes, muito melhores que os que tínhamos inicialmente!

Mas ainda estamos com os hiperparâmetros default dos estimadores. É possível melhorarmos os resultados, se otimizarmos os hiperparâmetros dos estimadores!

____________

### Otimização de hiperparâmetros

- Começo com um random search, pra identificar **regiões promissoras no espçao de hiperparâmetros**;

- Depois de encontrar estas regiões promissoros, uso o grid search pra fazer um **ajuste fino** nas redondezas da região promissora.

Tudo isso, se for relativamente rápido de passar pelos processos acima. 

Se demorar muito (é o caso, por exemplo, de bases muito grandes), podemos partir direto pra otimização baeysiana.

Vamos ilustrar este procedimento apenas com o Random Forest, para definirmos as ferramentas que podem ser utilizadas para os demais estimadores também.

Vamos alterar este comportamento, a partir da função a seguir, que considera também o gap (delta) para decidir a melhor combinação de hiperparâmetros: