# Descrição do Dataset

O dataset utilizado neste projeto foi encontrado no <a href="https://www.kaggle.com/mickey1968/individual-company-sales-data">kaggle</a>. Trata-se de dados de vendas de uma única empresa, com 40.000 instâncias e 15 features. Cada instância corresponde a informações sobre um único cliente.

<div class="alert alert-info">
  <strong><h3>Informações sobre as variáveis:</h3></strong><br>
    <li><strong>flag:</strong> (target) - o cliente comprou o produto em questão ou não? [variável binária]<br></li>
        <li><strong>gender:</strong> gênero do cliente. [variável binária]<br></li>
<li><strong>education:</strong> grau de escolaridade do cliente. [variável categórica]<br></li>
<li><strong>house_val:</strong> valor da casa que o cliente mora. [variável numérica]<br></li>
<li><strong>age:</strong> idade do cliente (faixa etária). [variável categórica]<br></li>
<li><strong>online:</strong> o cliente já fez compras online ou não? [variável binária]<br></li>
<li><strong>customer_psy:</strong> descreve a psicologia do consumidor com base na área de residência. [variável categórica]<br></li>
<li><strong>marriage:</strong> estado civil do cliente. [variável categórica]<br></li>
<li><strong>children:</strong> se o cliente tem filhos ou não. [variável binária]<br></li>
<li><strong>occupation:</strong> profissão do cliente. [variável categórica]<br></li>
<li><strong>mortgage:</strong> informações sobre empréstimos imobiliários do cliente. [variável categórica]<br></li>
<li><strong>house_own:</strong> se o cliente tem casa própria ou não. [variável binária]<br></li>
<li><strong>region:</strong> em que área o cliente está? [variável categórica]<br></li>
<li><strong>car_prob:</strong> probabilidade do cliente comprar um novo carro. [variável numérica]<br></li>
<li><strong>fam_income:</strong> renda familiar do cliente (sendo A a menor renda e L a maior). [variável categórica]</li>      
</div>

# Sumário

[1. Importação das Bibliotecas e dos Dados](#1.-Importação-das-Bibliotecas-e-dos-Dados)<br>
[2. Pré-Visualização dos Dados](#2.-Pré-Visualização-dos-Dados)<br>
[3. Pré-Processamento dos Dados](#3.-Pré-Processamento-dos-Dados)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.1. Organização dos Dados](#3.1.-Organização-dos-Dados)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.2. Limpeza dos Dados](#3.1.-Limpeza-dos-Dados)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.3. Formatação dos Dados](#3.2.-Formatação-dos-Dados)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.4. Feature Engineering](#3.3.-Feature-Engineering)<br>
&nbsp;&nbsp;&nbsp;&nbsp;[3.5. Transformação dos Dados](#3.4.-Transformação-dos-Dados)<br>
[4. Análise Exploratória dos Dados](#4.-Análise-Exploratória-dos-Dados)<br>
[5. Treinamento do Modelo](#5.-Treinamento-do-Modelo)<br>
[6. Avaliação do Modelo](#6.-Avaliação-do-Modelo)<br>
[7. Exportação do Modelo](#7.-Exportação-do-Modelo)

# 1. Importação das Bibliotecas e dos Dados

In [11]:
# Importação das principais bibliotecas que serão utilizadas no projeto

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

<div class="alert alert-info">
  <strong><h3>Versões das Bibliotecas:</h3></strong><br>
    <li><strong>Pandas:</strong> 1.1.3<br></li>
    <li><strong>Numpy:</strong> 1.19.2<br></li>
<li><strong>Matplotlib:</strong> 3.3.2<br></li>
<li><strong>Seaborn:</strong> 0.11.0<br></li>      
</div>

In [12]:
# Importando os dados que serão utilizados

df = pd.read_csv('sales_data.csv')

# 2. Pré-Visualização dos Dados

In [13]:
# Visualizando o tamanho do dataset
df.shape

(40000, 15)

In [14]:
# Visualizando as colunas do dataset
df.columns

Index(['flag', 'gender', 'education', 'house_val', 'age', 'online',
       'customer_psy', 'marriage', 'child', 'occupation', 'mortgage',
       'house_owner', 'region', 'car_prob', 'fam_income'],
      dtype='object')

In [15]:
# Visualizando as 10 primeiras linhas
df.head(10)

Unnamed: 0,flag,gender,education,house_val,age,online,customer_psy,marriage,child,occupation,mortgage,house_owner,region,car_prob,fam_income
0,Y,M,4. Grad,756460,1_Unk,N,B,,U,Professional,1Low,,Midwest,1,L
1,N,F,3. Bach,213171,7_>65,N,E,,U,Professional,1Low,Owner,Northeast,3,G
2,N,M,2. Some College,111147,2_<=25,Y,C,,Y,Professional,1Low,Owner,Midwest,1,J
3,Y,M,2. Some College,354151,2_<=25,Y,B,Single,U,Sales/Service,1Low,,West,2,L
4,Y,F,2. Some College,117087,1_Unk,Y,J,Married,Y,Sales/Service,1Low,,South,7,H
5,Y,F,3. Bach,248694,6_<=65,Y,B,Married,N,Professional,2Med,Owner,West,1,G
6,Y,M,3. Bach,2000000,1_Unk,Y,A,Married,U,Professional,1Low,,Northeast,5,C
7,N,F,3. Bach,416925,5_<=55,Y,C,Married,Y,Professional,1Low,Owner,South,2,I
8,N,F,1. HS,207676,4_<=45,Y,G,,Y,Blue Collar,1Low,Renter,West,5,D
9,Y,M,1. HS,241380,1_Unk,Y,C,Married,U,Sales/Service,1Low,,Northeast,6,G


<div class="alert alert-warning">
Antes de começar o pré-processamento dos dados, é importante entender melhor quais dados temos em mãos. Uma forma interessante de se fazer isso é sabendo quais e quantos são os valores únicos de cada uma das variáveis.
</div>

In [18]:
# Visualizando valores únicos para cada variável

for col in df:  # Loop entre as colunas do dataset
    print(col)  # Printando o nome da coluna
    # Printando a quantidade de valores únicos
    print('A quantidade de valores únicos é: ', df[col].nunique())
    # Mostrando quais são os valores únicos
    print('Os valores únicos são: ', df[col].unique())
    print('\n')

flag
A quantidade de valores únicos é:  2
Os valores únicos são:  [1 0]


gender
A quantidade de valores únicos é:  3
Os valores únicos são:  ['M' 'F' 'U']


education
A quantidade de valores únicos é:  5
Os valores únicos são:  ['4. Grad' '3. Bach' '2. Some College' '1. HS' '0. <HS' nan]


house_val
A quantidade de valores únicos é:  19572
Os valores únicos são:  [756460 213171 111147 ... 120630 603554 213596]


age
A quantidade de valores únicos é:  7
Os valores únicos são:  ['1_Unk' '7_>65' '2_<=25' '6_<=65' '5_<=55' '4_<=45' '3_<=35']


online
A quantidade de valores únicos é:  2
Os valores únicos são:  [0 1]


customer_psy
A quantidade de valores únicos é:  11
Os valores únicos são:  ['B' 'E' 'C' 'J' 'A' 'G' 'F' 'I' 'D' 'H' 'U']


marriage
A quantidade de valores únicos é:  2
Os valores únicos são:  [nan 'Single' 'Married']


child
A quantidade de valores únicos é:  2
Os valores únicos são:  [nan  1.  0.]


occupation
A quantidade de valores únicos é:  6
Os valores únicos são:  ['

# 3. Pré-Processamento dos Dados

## 3.1. Organização dos Dados

<div class="alert alert-warning">
Antes de fazer a limpeza dos dados (verificar dados faltantes, possíveis erros e outliers), é importante deixar os dados mais estruturados e organizados. 
</div>

### 3.1.1. Variáveis Binárias

<div class="alert alert-danger">
A partir do código acima, é possível observar que as variáveis binárias estão com valores 'Y' e 'N'. Por isso, é preciso transformar 'Y' em 1 (sim) e 'N' em 0 (não), visto que o algoritmo precisa aprender a partir de números.<br>
As seguintes colunas serão ajustadas: flag, online, child.
</div>

In [17]:
# Criando variável com as features que serão transformadas
features_YN = df[['flag', 'online', 'child']]

# Loop entre as colunas da variável acima para fazer a substituição
for col in features_YN:
    df[col] = df[col].map({'Y': 1, 'N': 0})

In [22]:
# Printando o resultado 

for col in features_YN:
    print(col)  # Printando o nome da coluna
    # Printando a quantidade de valores únicos
    print('A quantidade de valores únicos é: ', df[col].nunique())
    # Mostrando quais são os valores únicos
    print('Os valores únicos são: ', df[col].unique())
    print('\n')

flag
A quantidade de valores únicos é:  2
Os valores únicos são:  [1 0]


online
A quantidade de valores únicos é:  2
Os valores únicos são:  [0 1]


child
A quantidade de valores únicos é:  2
Os valores únicos são:  [nan  1.  0.]




<div class="alert alert-danger">
Além das colunas binárias de Y/N, há também outras 2 colunas binárias: gender (F/M) e marriage (solteiro/casado). Essas colunas também precisam ser ajustadas. <br>
<strong>OBS:</strong> Não necessariamente quer dizer que, na realidade, gêneros são binários. Mas, no caso do nosso problema, as únicas categorias que aparecem são F, M e U (unknown/desconhecido).
</div>

In [23]:
# Fazendo a substituição na coluna 'gender'
df['gender'] = df['gender'].map({'M': 0, 'F': 1})

In [24]:
# Fazendo a substituição na coluna 'marriage'
df['marriage'] = df['marriage'].map({'Single': 0, 'Married': 1})

In [25]:
# Visualizando os valores da coluna 'gender'
df['gender'].value_counts()

0.0    22019
1.0    16830
Name: gender, dtype: int64

In [26]:
# Visualizando os valores da coluna 'marriage'
df['marriage'].value_counts()

1.0    20891
0.0     5082
Name: marriage, dtype: int64

## 3.2. Limpeza dos Dados

### 3.2.1. Variáveis Desconhecidas

<div class="alert alert-danger">
Pelo código de valores únicos, é possível observar que algumas variáveis apresentam valores desconhecidos. Primeiro, é preciso verificar quantas vezes variáveis como 'U' e 'Unknown' aparecem em cada variável para depois fazer a tratativa.<br>
Pelo código, as seguintes variáveis apresentaram valores classificados como desconhecidos: gender, age, child.
</div>

In [9]:
# Visualizando a quantidade de categorias na variável 'gender'
df['gender'].value_counts()

M    22019
F    16830
U     1151
Name: gender, dtype: int64

In [28]:
print('As variáveis desconhecidas da coluna de gênero correspondem a {:.2%} do total de instâncias.'.format(1151/40000))

As variáveis desconhecidas da coluna de gênero correspondem a 2.88% do total de instâncias.


In [10]:
# Visualizando a quantidade de categorias na variável 'age'
df['age'].value_counts()

5_<=55    8103
4_<=45    7115
1_Unk     6709
6_<=65    5907
3_<=35    4984
7_>65     4822
2_<=25    2360
Name: age, dtype: int64

In [29]:
print('As variáveis desconhecidas da coluna de idade correspondem a {:.2%} do total de instâncias.'.format(6709/40000))

As variáveis desconhecidas da coluna de idade correspondem a 16.77% do total de instâncias.


In [30]:
# Visualizando a quantidade de categorias na variável 'age'
df['child'].value_counts()

Y    18012
N    13333
U     8528
0      127
Name: child, dtype: int64

In [31]:
print('As variáveis desconhecidas da coluna de idade correspondem a {:.2%} do total de instâncias.'.format(8528/40000))

As variáveis desconhecidas da coluna de idade correspondem a 21.32% do total de instâncias.


## 3.3. Formatação dos Dados

## 3.4. Feature Engineering

## 3.5. Transformação dos Dados

# 4. Análise Exploratória dos Dados

# 5. Treinamento do Modelo

# 6. Avaliação do Modelo

# 7. Exportação do Modelo