<div style="text-align: center;">
    
# Oficina 3: Plano de preparação de dados para modelo preditivo
    
</div>

<div style="text-align: justify;">

Você é um analista de dados em uma grande empresa de varejo on-line que acaba de concluir uma campanha de marketing direcionada. A empresa coletou diversos dados sobre os clientes, incluindo informações demográficas, comportamento de compra e respostas à campanha. Agora, sua tarefa é preparar esse conjunto de dados para construir um modelo preditivo que ajudará a empresa a segmentar melhor seus clientes em campanhas futuras.

O conjunto de dados contém algumas inconsistências, valores faltantes e variáveis categóricas que precisam ser tratadas para garantir que o modelo preditivo seja preciso e eficaz, conforme apresentado na tabela abaixo:
    
</div>

[Audiodescrição: Tabela com sete colunas (“Cliente ID”, “Idade”, “Gênero”, “Renda Anual [R$]”, “Localização”, “Compras Anteriores” e “Resposta à Campanha”) e 10 linhas, com a ID de cada cliente sendo numerada de 1 a 10. Os dados variam, mas certos clientes possuem valores não informados. Por exemplo: o cliente de ID “3” informou todos os dados exceto renda anual; o cliente de ID “4” informou todos os dados exceto compras anteriores; o cliente de ID “5” informou todos os dados exceto gênero; o cliente de ID “6” informou todos os dados exceto idade; e, por fim, o cliente de ID “9” informou todos os dados exceto renda anual.]


 # **Sumário**
 
 - [0.Imports](#Imports)
     - [0.1.Formatação da Página](#Formatacao)
     - [0.2.Construção/Coleta dos Dados](#Coleta)
 - [1.Entendimento do Negócio:](#negocio)

<a id="Imports"></a>
# 0.Imports

In [1]:
# Formatação da página: 
from IPython.core.display import HTML

# Manipulação de dados:
import pandas as pd 
import numpy  as np

# Gráficos:
import matplotlib.pyplot as plt
import seaborn as sns

#%matplotlib inline

<a id="Formatacao"></a>
## 0.1.Formatação da Página

In [2]:
# Código de Cores ANSI
# Para prints no código
azul = "\033[38;2;10;31;68m"
verde = "\033[38;5;82m"
verde_escuro = "\033[38;2;0;100;0m"
laranja = "\033[38;5;208m"
reset = '\033[0m'

HTML('''
<style>
    /* Aplicar fonte monoespaçada a todo o notebook */
    body, div.text_cell_render, div.code_cell pre, h1, h2, h3, h4, p {
        font-family: "Courier New", Consolas, Monaco, monospace; /* Fonte monoespaçada */
    }
    
    /* Estilo para h1 */
    h3{ 
        color: #0a1f44;            /* Cor do texto (azul marinho) */
        background-color: #dcdde1; /* Fundo azul escuro (cinza mais escuro) */
        border-radius: 8px;        /* Bordas arredondadas */
        padding: 10px;
    }
    
    /* Estilo para h2 */
    h1{
        color: #dcdde1;            /* Cor do texto (cinza claro) */
        background-color: #0a1f44; /* Fundo azul escuro (azul marinho) */
        border-radius: 8px;        /* Bordas arredondadas */
        padding: 10px;
    }
    
    /* Estilo para h3 */
    h2{
        color:#dcdde1;            /* Cor do texto (azul mais claro) */
        background-color: #40739e; /* Fundo azul escuro (cinza mais escuro) */
        border-radius: 8px;        /* Bordas arredondadas */
        padding: 10px;
    }
    
    /* Estilo para h4 e h5 */
    h4, h5 {
        background-color:#40739e;  /* Fundo azul marinho */
        color: white;               /* Texto branco */
        border-radius: 8px;         /* Bordas arredondadas */
        padding: 10px;
    }
</style>
''')

<a id="Coleta"></a>
## 0.2.Construção/Coleta dos dados

![image.png](attachment:image.png)

In [3]:
# Dados
data = {
    "Cliente ID": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "Idade": [25, 34, 28, 45, 39, np.nan, 40, 50, 23, 29],
    "Gênero": ["Feminino", "Masculino", "Feminino", "Masculino", np.nan, "Feminino", "Feminino", "Masculino", "Feminino", "Masculino"],
    "Renda Anual (R$)": [45000, 60000, np.nan, 45000, 80000, 50000, 70000, 100000, 30000, np.nan],
    "Localização": ["São Paulo", "Rio de Janeiro", "São Paulo", "Belo Horizonte", "Salvador", "Porto Alegre", "São Paulo", "Curitiba", "Rio de Janeiro", "Belo Horizonte"],
    "Compras Anteriores": [3, 5, 2, np.nan, 7, 4, 6, 8, 1, 3],
    "Resposta à Campanha": ["Sim", "Não", "Sim", "Não", "Sim", "Sim", "Não", "Sim", "Sim", "Não"]
}

In [4]:
# Criando um dataframe:
df = pd.DataFrame(data)

In [5]:
df.head()

Unnamed: 0,Cliente ID,Idade,Gênero,Renda Anual (R$),Localização,Compras Anteriores,Resposta à Campanha
0,1,25.0,Feminino,45000.0,São Paulo,3.0,Sim
1,2,34.0,Masculino,60000.0,Rio de Janeiro,5.0,Não
2,3,28.0,Feminino,,São Paulo,2.0,Sim
3,4,45.0,Masculino,45000.0,Belo Horizonte,,Não
4,5,39.0,,80000.0,Salvador,7.0,Sim


<a id="negocio"></a>
# 1.Entendimento do negócio: 

Elabore um plano detalhado para preparar esses dados baseado no que você aprendeu nesta aula. Justifique cada decisão tomada considerando o impacto que essas escolhas terão na qualidade da análise preditiva.

<a id="dados"></a>
# 2.Entendimento dos dados:

**Descrição da Tabela:**

- Cliente ID: Identificador único para cada cliente.

- Idade: Idade do cliente.

- Gênero: Gênero do cliente (Feminino, Masculino ou faltante).

- Renda Anual (R$): Renda anual do cliente em reais, com alguns valores faltantes.

- Localização: Cidade onde o cliente reside.

- Compras Anteriores: Número de compras feitas pelo cliente antes da campanha.

- Resposta à Campanha: Indicação se o cliente respondeu positivamente à campanha (Sim ou Não).

# 3.Preparação dos dados:

In [6]:
# Realizando uma cópia do df:
df1 = df.copy()

In [8]:
# Visulizando as primeiras 5 linhas do dataset:
df1.head()

Unnamed: 0,Cliente ID,Idade,Gênero,Renda Anual (R$),Localização,Compras Anteriores,Resposta à Campanha
0,1,25.0,Feminino,45000.0,São Paulo,3.0,Sim
1,2,34.0,Masculino,60000.0,Rio de Janeiro,5.0,Não
2,3,28.0,Feminino,,São Paulo,2.0,Sim
3,4,45.0,Masculino,45000.0,Belo Horizonte,,Não
4,5,39.0,,80000.0,Salvador,7.0,Sim


<

In [7]:
# Informações do dataset:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Cliente ID           10 non-null     int64  
 1   Idade                9 non-null      float64
 2   Gênero               9 non-null      object 
 3   Renda Anual (R$)     8 non-null      float64
 4   Localização          10 non-null     object 
 5   Compras Anteriores   9 non-null      float64
 6   Resposta à Campanha  10 non-null     object 
dtypes: float64(3), int64(1), object(3)
memory usage: 688.0+ bytes


## Valores Faltantes 

In [19]:
# Verificando a quantidade de valores NaN:
df1.isnull().sum().sort_values(ascending=False)

Renda Anual (R$)       2
Idade                  1
Gênero                 1
Compras Anteriores     1
Cliente ID             0
Localização            0
Resposta à Campanha    0
dtype: int64

### Tratando os Valores 'Renda Anual (R$)'