# Descrição do Dataset

O dataset utilizado neste projeto foi encontrado no <a href="https://www.kaggle.com/mickey1968/individual-company-sales-data">kaggle</a>. Trata-se de dados de vendas de uma única empresa, com 40.000 instâncias e 15 features. Cada instância corresponde a informações sobre um único cliente.

<div class="alert alert-info">
  <strong><h3>Informações sobre as variáveis:</h3></strong><br>
    <li><strong>flag:</strong> (target) - o cliente comprou o produto em questão ou não? [variável binária]<br></li>
        <li><strong>gender:</strong> gênero do cliente. [variável binária]<br></li>
<li><strong>education:</strong> grau de escolaridade do cliente. [variável categórica]<br></li>
<li><strong>house_val:</strong> valor da casa que o cliente mora. [variável numérica]<br></li>
<li><strong>age:</strong> idade do cliente (faixa etária). [variável categórica]<br></li>
<li><strong>online:</strong> o cliente já fez compras online ou não? [variável binária]<br></li>
<li><strong>customer_psy:</strong> descreve a psicologia do consumidor com base na área de residência. [variável categórica]<br></li>
<li><strong>marriage:</strong> estado civil do cliente. [variável categórica]<br></li>
<li><strong>children:</strong> se o cliente tem filhos ou não. [variável binária]<br></li>
<li><strong>occupation:</strong> profissão do cliente. [variável categórica]<br></li>
<li><strong>mortgage:</strong> informações sobre empréstimos imobiliários do cliente. [variável categórica]<br></li>
<li><strong>house_own:</strong> se o cliente tem casa própria ou não. [variável binária]<br></li>
<li><strong>region:</strong> em que área o cliente está? [variável categórica]<br></li>
<li><strong>car_prob:</strong> probabilidade do cliente comprar um novo carro. [variável numérica]<br></li>
<li><strong>fam_income:</strong> renda familiar do cliente (sendo A a menor renda e L a maior). [variável categórica]</li>      
</div>

# Sumário

[1. Importação das Bibliotecas e dos Dados](#1.-Importação-das-Bibliotecas-e-dos-Dados)<br>
[2. Pré-Visualização dos Dados](#2.-Pré-Visualização-dos-Dados)<br>
[3. Pré-Processamento dos Dados](#3.-Pré-Processamento-dos-Dados)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.1. Limpeza dos Dados](#3.1.-Limpeza-dos-Dados)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.2. Tratamento de Variáveis Categóricas](#3.2.-Tratamento-de-Variáveis-Categóricas)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[3.2.1. Variáveis Binárias](#3.2.1.-Variáveis-Binárias)<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[3.2.2. Variáveis Categóricas](#3.2.2.-Variáveis-Categóricas)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.3. Formatação dos Dados](#3.2.-Formatação-dos-Dados)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.4. Feature Engineering](#3.3.-Feature-Engineering)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.5. Transformação dos Dados](#3.4.-Transformação-dos-Dados)<br>
[4. Análise Exploratória dos Dados](#4.-Análise-Exploratória-dos-Dados)<br>
[5. Treinamento do Modelo](#5.-Treinamento-do-Modelo)<br>
[6. Avaliação do Modelo](#6.-Avaliação-do-Modelo)<br>
[7. Exportação do Modelo](#7.-Exportação-do-Modelo)

# 1. Importação das Bibliotecas e dos Dados

In [1]:
# Importação das principais bibliotecas que serão utilizadas no projeto

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

<div class="alert alert-info">
  <strong><h3>Versões das Bibliotecas:</h3></strong><br>
    <li><strong>Pandas:</strong> 1.1.3<br></li>
    <li><strong>Numpy:</strong> 1.19.2<br></li>
<li><strong>Matplotlib:</strong> 3.3.2<br></li>
<li><strong>Seaborn:</strong> 0.11.0<br></li>      
</div>

In [2]:
# Importando os dados que serão utilizados

df = pd.read_csv('sales_data.csv')

# 2. Pré-Visualização dos Dados

In [3]:
# Visualizando o tamanho do dataset
df.shape

(40000, 15)

In [4]:
# Visualizando as colunas do dataset
df.columns

Index(['flag', 'gender', 'education', 'house_val', 'age', 'online',
       'customer_psy', 'marriage', 'child', 'occupation', 'mortgage',
       'house_owner', 'region', 'car_prob', 'fam_income'],
      dtype='object')

In [5]:
# Visualizando as 10 primeiras linhas
df.head(10)

Unnamed: 0,flag,gender,education,house_val,age,online,customer_psy,marriage,child,occupation,mortgage,house_owner,region,car_prob,fam_income
0,Y,M,4. Grad,756460,1_Unk,N,B,,U,Professional,1Low,,Midwest,1,L
1,N,F,3. Bach,213171,7_>65,N,E,,U,Professional,1Low,Owner,Northeast,3,G
2,N,M,2. Some College,111147,2_<=25,Y,C,,Y,Professional,1Low,Owner,Midwest,1,J
3,Y,M,2. Some College,354151,2_<=25,Y,B,Single,U,Sales/Service,1Low,,West,2,L
4,Y,F,2. Some College,117087,1_Unk,Y,J,Married,Y,Sales/Service,1Low,,South,7,H
5,Y,F,3. Bach,248694,6_<=65,Y,B,Married,N,Professional,2Med,Owner,West,1,G
6,Y,M,3. Bach,2000000,1_Unk,Y,A,Married,U,Professional,1Low,,Northeast,5,C
7,N,F,3. Bach,416925,5_<=55,Y,C,Married,Y,Professional,1Low,Owner,South,2,I
8,N,F,1. HS,207676,4_<=45,Y,G,,Y,Blue Collar,1Low,Renter,West,5,D
9,Y,M,1. HS,241380,1_Unk,Y,C,Married,U,Sales/Service,1Low,,Northeast,6,G


In [10]:
# Análise Estatística dos dados
# Em ordem: quantidade de linhas, quantidade de valores únicos, moda, frequência da moda, média, desvio padrão,
 # valor mínimo, primeiro quartil, segundo quartil (mediana), terceiro quartil
df.describe(include='all')

Unnamed: 0,flag,gender,education,house_val,age,online,customer_psy,marriage,child,occupation,mortgage,house_owner,region,car_prob,fam_income
count,40000,40000,39259,40000.0,40000,40000,40000,25973,40000,40000,40000,36623,40000,40000.0,40000
unique,2,3,5,,7,2,11,2,4,6,3,2,5,,13
top,N,M,2. Some College,,5_<=55,Y,B,Married,Y,Professional,1Low,Owner,South,,E
freq,20000,22019,11400,,8103,27319,8197,20891,18012,14936,29848,29232,15676,,8432
mean,,,,307213.8,,,,,,,,,,3.49115,
std,,,,422214.6,,,,,,,,,,2.577719,
min,,,,0.0,,,,,,,,,,0.0,
25%,,,,80657.25,,,,,,,,,,1.0,
50%,,,,214872.0,,,,,,,,,,3.0,
75%,,,,393762.0,,,,,,,,,,5.0,


<div class="alert alert-warning">
Antes de começar o pré-processamento dos dados, é importante entender melhor quais dados temos em mãos. Uma forma interessante de se fazer isso é sabendo quais e quantos são os valores únicos de cada uma das variáveis.
</div>

In [None]:
# Função para mostrar os valores únicos das colunas escolhidas

def valores_unicos(df):

    for col in df:  # Loop entre as colunas do dataset
        print(col)  # Printando o nome da coluna
        # Printando a quantidade de valores únicos
        print('A quantidade de valores únicos é: ', df[col].nunique())
        # Mostrando quais são os valores únicos
        print('Os valores únicos são: ', df[col].unique())
        print('\n')

In [None]:
# Visualizando os valores únicos do dataframe inteiro
valores_unicos(df);

# 3. Pré-Processamento dos Dados

## 3.1. Limpeza dos Dados

### 3.1.1. Variáveis Desconhecidas

<div class="alert alert-danger">
Pelo código de valores únicos, é possível observar que algumas variáveis apresentam valores desconhecidos. Primeiro, é preciso verificar quantas vezes variáveis como 'U' e 'Unknown' aparecem em cada variável para depois fazer a tratativa.<br>
Pelo código, as seguintes variáveis apresentaram valores classificados como desconhecidos: gender, age, child.
</div>

In [None]:
# Criando uma variável com as colunas que possuem valores desconhecidos
features_unk = df[['gender', 'age', 'child']]

In [None]:
# Visualizando a frequência das categorias que aparecem em cada coluna

valores_unicos(features_unk);

In [None]:
print('As variáveis desconhecidas da coluna de gênero correspondem a {:.2%} do total de instâncias.'.format(
    1151/df.shape[0]))

In [None]:
print('As variáveis desconhecidas da coluna de idade correspondem a {:.2%} do total de instâncias.'.format(
    6709/df.shape[0]))

In [None]:
print('As variáveis desconhecidas da coluna de idade correspondem a {:.2%} do total de instâncias.'.format(
    8528/df.shape[0]))

<div class="alert alert-warning">
As variáveis desconhecidas podem ser transformadas em nulas (visto que não temos essa informação de qualquer forma). Posteriormente, os dados serão tratados.
</div>

In [None]:
# Fazendo a substituição nas colunas

# Gender
df['gender'] = df.gender.replace('U', np.NaN)

# Age
df['age'] = df.age.replace('1_Unk', np.NaN)

# Child - OBS: A coluna child tem também outra variável desconhecida, o 0
df['child'] = df.child.replace('U', np.NaN)
df['child'] = df.child.replace('0', np.NaN)

### 3.1.2. Tratamento de Dados Nulos

<div class="alert alert-danger">
Agora que as variáveis desconhecidas já foram substituídas por valores nulos, podemos ver a quantidade de valores nulos por cada coluna.
</div>

In [None]:
# Visualizando quantos dados nulos aparecem em cada coluna (VALOR ABSOLUTO)
df.isnull().sum()

In [None]:
# Visualizando quantos dados nulos aparecem em cada coluna (VALOR RELATIVO)
df.isnull().sum() / df.shape[0] * 100

<div class="alert alert-danger">
As variáveis 'flag', 'house_val', 'online', 'customer_psy', 'occupation', 'mortgage', 'region', 'car_prob' e 'fam_income' não apresentaram valores nulos. Todas as outras apresentaram, variando de 1,8% até 35,06%.<br>
Vamos tratar caso a caso (da menor proporção até a maior proporção).
</div>

#### 3.1.2.1. Feature: 'education'

INSERIR STACKED BAR PLOT AQUI

#### 3.1.2.2. Feature: 'gender'

#### 3.1.2.3. Feature: 'house_owner'

#### 3.1.2.4. Feature: 'age'

#### 3.1.2.5. Feature: 'child'

#### 3.1.2.5. Feature: 'marriage'

## 3.2. Tratamento de Variáveis Categóricas

### 3.2.1. Variáveis Binárias

<div class="alert alert-danger">
A partir do código acima, é possível observar que as variáveis binárias estão com valores 'Y' e 'N'. Por isso, é preciso transformar 'Y' em 1 (sim) e 'N' em 0 (não), visto que o algoritmo precisa aprender a partir de números.<br>
As seguintes colunas serão ajustadas: flag, online, child.
</div>

In [None]:
# Criando variável com as features que serão transformadas
features_YN = df[['flag', 'online', 'child']]

# Loop entre as colunas da variável acima para fazer a substituição
for col in features_YN:
    df[col] = df[col].map({'Y': 1, 'N': 0})

In [None]:
# Printando o resultado 

for col in features_YN:
    print(col)  # Printando o nome da coluna
    # Printando a quantidade de valores únicos
    print('A quantidade de valores únicos é: ', df[col].nunique())
    # Mostrando quais são os valores únicos
    print('Os valores únicos são: ', df[col].unique())
    print('\n')

<div class="alert alert-danger">
Além das colunas binárias de Y/N, há também outras 3 colunas binárias: gender (F/M), marriage (solteiro/casado) e house_owner (casa própria ou alugada?). Essas colunas também precisam ser ajustadas. <br>
<strong>OBS:</strong> Não necessariamente quer dizer que, na realidade, gêneros são binários. Mas, no caso do nosso problema, as únicas categorias que aparecem são F, M e U (unknown/desconhecido).
</div>

In [None]:
# Fazendo a substituição na coluna 'gender'
df['gender'] = df['gender'].map({'M': 0, 'F': 1})

In [None]:
# Fazendo a substituição na coluna 'marriage'
df['marriage'] = df['marriage'].map({'Single': 0, 'Married': 1})

In [None]:
# Fazendo a substituição na coluna 'house_owner'
df['house_owner'] = df['house_owner'].map({'Renter': 0, 'Owner': 1})

In [None]:
# Criando variável das features binárias para visualizar como os dados estão após a tratativa
features_binarias = df[['gender', 'marriage', 'house_owner']]

# Printando o resultado 
for col in features_binarias:
    print(col)  # Printando o nome da coluna
    # Printando a quantidade de valores únicos
    print('A quantidade de valores únicos é: ', df[col].nunique())
    # Mostrando quais são os valores únicos
    print('Os valores únicos são: ', df[col].unique())
    print('\n')

### 3.2.2. Variáveis Categóricas

<div class="alert alert-warning">
Entre as variáveis categóricas, existem tipos diferentes que exigem tratativas diferentes. Esses dois tipos aparecem nesse dataset:<br>
    <li><strong>Variáveis Ordinais:</strong> Existe ordenação entre as categorias.</li>
    <li><strong>Variáveis Nominais:</strong> Não existe ordenação entre as categorias.</li><br>
    <strong>As ordinais são:</strong> education, age, mortgage e fam_income.<br>
    <strong>As nonimais são:</strong> customer_psy, occupation e region.<br>
</div>

#### 3.2.2.1. Variáveis Categóricas Ordinais

In [None]:
from sklearn.preprocessing import OrdinalEncoder

enc = OrdinalEncoder()
enc.fit(df[['education', 'age', 'mortgage', 'fam_income']])

#### 3.2.2.2. Variáveis Categóricas Nominais

<div class="alert alert-warning">
Para as variáveis categóricas nominais, podemos utilizar o método de dummies. Cada uma das três variáveis será separada em múltiplas colunas, de acordo com a quantidade de categorias de cada.
</div>

In [None]:
# Dummies das colunas nominais
df = pd.get_dummies(df, columns = ['customer_psy', 'occupation', 'region'])

In [None]:
# Visualizando as colunas atuais
df.columns

## 3.3. Formatação dos Dados

## 3.4. Feature Engineering

## 3.5. Transformação dos Dados

# 4. Análise Exploratória dos Dados

# 5. Treinamento do Modelo

# 6. Avaliação do Modelo

# 7. Exportação do Modelo