<h1>Módulo 2: Aprendizado Supervisionado: Classificação</h1>

<h3>Objetivo: Prever se um cliente irá devolver ou não um produto.</h3>

<h2>1. Introdução e Coleta dos Dados</h2>

<h3>O que é Classificação?</h3>
<ul>
<li>Técnica de aprendizado supervisionado.</li>
<li>O objetivo é prever uma categoria ou classe.</li>
<li>Exemplos incluem detecção de spam, diagnóstico médico, e previsão de churn de clientes.</li>
</ul>    
<h3>Coleta dos Dados:</h3>
<ul>
<li>Histórico de Transações: Registros de compras feitas pelos clientes.</li>
<li>Dados de Devolução: Informações sobre quais produtos foram devolvidos e por quem.</li>
<li>Características do Cliente: Dados demográficos como idade, sexo, localização, histórico de compras, etc.</li>
<li>Características do Produto: Tipo de produto, preço, categoria, etc.</li>
</ul>    

<img src="M2_tipos_aprendizado.png" width="500" height="200">

In [1]:
# Ocultar todos os warnings (Opcional)
import warnings
warnings.filterwarnings('ignore')

<font color="blue"> <h1>Prompt</h1> </font>

Nós vamos trabalhar com Aprendizado Supervisionado, utilizando a Classificação com Árvore de Decisão. A finalidade é prever se um cliente devolverá ou não um produto comprado. Vou fornecer um passo a passo para ser executado a seguir. Importante: Execute apenas as etapas que forem passadas e não importe ace_tools. 

<font color="blue"> <h1>Prompt</h1> </font>

Primeiro, importe as bibliotecas necessárias para manipulação de dados, clusterização e visualização: pandas, numpy, matplotlib e sklearn. Não exiba as versões das bibliotecas.

<font color="blue"> <h1>Prompt</h1> </font>

Carregue a base de dados presente no link 'https://github.com/ksddavila/treinamentoMLChatGPT/raw/main/M2_base_devolucoes.xlsx'. Chame esse dataframe de 'df'

<h2>2. Análise de Dados e Pré-processamento</h2>

<h2>Objetivo: Preparar os dados para o treinamento do modelo.</h2>

<h3>Análise de Dados</h3>
<ul>
<li>Exploração dos dados: Verificar distribuições, estatísticas descritivas, e padrões nos dados.</li>
<li>Visualizações: Gráficos de barras, histogramas, boxplots, e scatter plots para entender relações e distribuições.</li>
</ul>
    
<h3>Pré-processamento</h3>
<ul>
<li><b>Lidando com valores nulos</b>: Tratar valores faltantes em colunas como Return_Date.</li>
<li><b>Codificação de variáveis categóricas</b>: Transformar variáveis categóricas (e.g., Gender, Location, Category) em numéricas usando one-hot encoding.</li>
<li><b>Normalização</b>: Escalar variáveis numéricas (e.g., Age, Price) para um intervalo padrão.</li>
</ul>

<font color="blue"> <h1>Prompt</h1> </font>

Verifique se existem valores ausentes no dataframe.

<font color="blue"> <h1>Prompt</h1> </font>

Faça o tratamento dos valores ausentes encontrados. Nesse caso, remova a coluna 'DATA_DEVOLUCAO', uma vez que já temos essa informação na coluna 'DEVOLVEU'. Remova também a 'DATA_COMPRA' e 'ID_CLIENTE'.    

<font color="blue"> <h1>Prompt</h1> </font>

Faça um histograma com a variável alvo 'DEVOLVEU'. Inclua rótulos de dados. 

<font color="blue"> <h1>Prompt</h1> </font>

Crie um histograma agrupado colorido por 'DEVOLVEU' para cada uma das variáveis:

'METODO_PAGAMENTO'

'LOCALIZACAO'

'CATEGORIA'

'SEGMENTO_CLIENTE'

Utilize barmode = 'group' e exiba cada gráfico legendado e com rótulos. 

<font color="blue"> <h1>Prompt</h1> </font>

Separe as variáveis características (variáveis independentes) da variável alvo 'DEVOLVEU' (variável dependente).

<font color="blue"> <h1>Prompt</h1> </font>

Codifique as variáveis categóricas utilizando o OneHotEncoder. 

<img src="M2_variaveis_Categoricas.png" width="300" height="200">

<b>Importante</b>: Normalizar as variáveis numéricas pode ser útil para melhorar o desempenho de alguns algoritmos de aprendizado de máquina, incluindo árvores de decisão. No entanto, as árvores de decisão não são tão sensíveis à escala das variáveis quanto outros algoritmos, como métodos baseados em distância (por exemplo, KNN) ou redes neurais. Portanto, normalizar ou padronizar as variáveis numéricas não é estritamente necessário para uma árvore de decisão, mas pode ser feito para garantir que todas as variáveis estejam na mesma escala, especialmente se você planeja usar outros algoritmos mais tarde.

<font color="blue"> <h1>Prompt</h1> </font>

Aplique o LabelEncoder na variável alvo 'DEVOLVEU'. 

<h2>3. Treinamento do Modelo</h2>

Uma árvore de decisão é como ir a um médico que faz uma série de perguntas a fim de determinar a causa dos seus sintomas. 

<h3>O que é?</h3>

Árvore de Decisão é um algoritmo supervisionado de aprendizado de máquina utilizado para classificação e regressão. O objetivo é criar um modelo que prevê o valor do target, aprendendo regras simples através das features.

<h3>Vantagens</h3>
<ul>
<li>Simples de entender e interpretar</li>
<li>Necessita pouca preparação dos dados</li>
<li>É capaz de lidar com variáveis númericas e categóricas</li>
</ul>
    
<h3>Desvantagens</h3>
<ul>
<li>Árvores de decisão são propensos a criar modelos com overfitting que não generalizam bem</li>
<li>Podem ser instáveis pois pequenas variáveis podem gerar árvores totalmente diferentes</li>
</ul>

<img src="M2_exemploarvore.png" width="500" height="200">

<img src="M2_treino_teste.png" width="500" height="200">

<font color="blue"> <h1>Prompt</h1> </font>

Vamos prosseguir com a divisão dos dados em conjuntos de treino e teste utilizando o train_test_split. Utilize um Stratify para manter a proporção da variável alvo. 

<font color="blue"> <h1>Prompt</h1> </font>

Aplique a árvore de decisão utilizando o Sklearn, faça previsões no conjunto de teste e calcule a acurácia. Explique esse resultado.

<h2>4. Avaliação</h2>
<ul>
<li><b>Acurácia</b>: É a porcentagem de classificações corretas.</li>
<li><b>Precisão</b>: A porcentagem de previsões corretas entre todas as previsões feitas para cada classe.</li>
<li><b>Recall</b>: A capacidade do modelo de encontrar todas as instâncias positivas na classe alvo.</li>
<li><b>F1-Score</b>: A média harmônica entre precisão e recall, usada como uma métrica balanceada.</li>
</ul>    

<h3>Matriz de Confusão</h3>
<ul>
<li><b>Verdadeiros Negativos (VN)</b>: Quando o valor real for 0 e a predição também for 0. Indica que o modelo classificou corretamente os valores da classe negativa.</li> 
<li><b>Falsos Positivos (FP)</b>: Quando o valor real for 0 e a predição for 1. Indica que o modelo classificou erroneamente um elemento da classe negativa como se fosse da classe positiva.</li>
<li><b>Falsos Negativos (FN)</b>: Quando o valor real for 1 e a predição for 0. Indica que o modelo classificou erroneamente um elemento da classe positiva como se fosse da classe negativa.</li>
<li><b>Verdadeiros Positivos (VP)</b>: Quando o valor real for 1 e a predição também for 1. Indica que o modelo classificou corretamente os valores da classe positiva.</li>
</ul>

<img src="M2_matriz_confusao.png" width="300" height="200">

<font color="blue"> <h1>Prompt</h1> </font>

Avalie a precisão do modelo com Acurácia, Matriz de Confusão, Precisão, Recall e F1-Score. Exiba o resultado usando print. Explique os resultados. 

<h2>5. Aplicando</h2>

<font color="blue"> <h1>Prompt</h1> </font>

Utilizando o modelo treinado e executando localmente, diga se a compra abaixo será devolvida. Garanta que o OneHotEncoder e o Label Encoder sejam aplicados. 

ID_CLIENTE: 2525

DATA_COMPRA: 2024-01-01

DATA_DEVOLUCAO: null

IDADE: 28

LOCALIZACAO: CAPITAL

CATEGORIA: ELETRÔNICOS

PRECO: 328  

METODO_PAGAMENTO: CREDIÁRIO

SEGMENTO_CLIENTE: SUMIDO

DEVOLVEU: nao

<h2>6. Melhorando o modelo</h2>

<font color="blue"> <h1>Prompt</h1> </font>

Qual a profundidade da árvore? 

<font color="blue"> <h1>Prompt</h1> </font>

Reduza a profundidade da árvore e aplique novamente as métricas de avaliação. Explique se isso melhorou o modelo. 

<font color="blue"> <h1>Prompt</h1> </font>

Com a nova profundidade definida, responda se a compra abaixo será devolvida. Garanta que o OneHotEncoder e o Label Encoder sejam aplicados.

ID_CLIENTE: 2525

DATA_COMPRA: 2024-01-01

DATA_DEVOLUCAO: null

IDADE: 28

LOCALIZACAO: CAPITAL

CATEGORIA: ELETRÔNICOS

PRECO: 328  

METODO_PAGAMENTO: CREDIÁRIO

SEGMENTO_CLIENTE: SUMIDO

DEVOLVEU: nao