# Preparando dados para árvore de decisão

Vamos começar a mexer na nossa base de projeto? Já fizemos um exercício de montar a variável resposta, já pudemos perceber que essa atividade pode não ser trivial. Vamos agora trabalhar a base para que fique propícia ao *scikitlearn* para trabalharmos.

Lembrando, a base se chama demo01.csv, e originalmente está publicada [aqui](https://www.kaggle.com/rikdifos/credit-card-approval-prediction).

#### 1) Carregue a base e avalie:

- As variáveis
- Tipos de dados de cada variável
- Quantidade de missings
- Distribuição da variável resposta (mau)

In [207]:
import pandas as pd
import numpy as np
import seaborn as sns

In [208]:
data = pd.read_csv('demo01.csv')
data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16650 entries, 0 to 16649
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   16650 non-null  object 
 1   posse_de_veiculo       16650 non-null  object 
 2   posse_de_imovel        16650 non-null  object 
 3   qtd_filhos             16650 non-null  int64  
 4   tipo_renda             16650 non-null  object 
 5   educacao               16650 non-null  object 
 6   estado_civil           16650 non-null  object 
 7   tipo_residencia        16650 non-null  object 
 8   idade                  16650 non-null  float64
 9   tempo_emprego          16650 non-null  float64
 10  possui_celular         16650 non-null  int64  
 11  possui_fone_comercial  16650 non-null  int64  
 12  possui_fone            16650 non-null  int64  
 13  possui_email           16650 non-null  int64  
 14  qt_pessoas_residencia  16650 non-null  float64
 15  ma

In [209]:
data.head()

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,qt_pessoas_residencia,mau
0,M,Y,Y,0,Working,Secondary / secondary special,Married,House / apartment,58.832877,3.106849,1,0,0,0,2.0,False
1,F,N,Y,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,52.356164,8.358904,1,0,1,1,1.0,False
2,F,N,Y,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,52.356164,8.358904,1,0,1,1,1.0,False
3,M,Y,Y,0,Working,Higher education,Married,House / apartment,46.224658,2.106849,1,1,1,1,2.0,False
4,F,Y,N,0,Working,Incomplete higher,Married,House / apartment,29.230137,3.021918,1,0,0,0,2.0,False


In [210]:
# Verificando dados ausentes
data.isna().sum()


sexo                     0
posse_de_veiculo         0
posse_de_imovel          0
qtd_filhos               0
tipo_renda               0
educacao                 0
estado_civil             0
tipo_residencia          0
idade                    0
tempo_emprego            0
possui_celular           0
possui_fone_comercial    0
possui_fone              0
possui_email             0
qt_pessoas_residencia    0
mau                      0
dtype: int64

In [211]:
# Verificando tipos de dados
data.dtypes

sexo                      object
posse_de_veiculo          object
posse_de_imovel           object
qtd_filhos                 int64
tipo_renda                object
educacao                  object
estado_civil              object
tipo_residencia           object
idade                    float64
tempo_emprego            float64
possui_celular             int64
possui_fone_comercial      int64
possui_fone                int64
possui_email               int64
qt_pessoas_residencia    float64
mau                         bool
dtype: object

In [212]:
# distribuição da variável 'mau'
data['mau'].value_counts()

False    16260
True       390
Name: mau, dtype: int64

#### 2) Vamos montar um metadados

1. Crie um dataframe com os nomes de cada variável e o tipo de dados de cada variável.
2. Adicione uma coluna nesse *dataframe* chamada "qtd_categorias" e coloque nela o número de categorias correspondente de cada variável. 
    Dica: 
        1. inicie uma lista vazia
        2. faça um for ao longo dos nomes das variáveis, 
        3. conte o número de categorias dessa variável 
        4. acumule essa informação de 3. na lista que você criou em 1. 
        5. No final, essa lista pode ser atribuída à nossa variável.
3. Crie variáveis dummy para as variáveis necessárias (i.e. aquelas que são qualitativas e não estão armazenadas como {0, 1} ou {True, False}.

In [213]:
df_tipos = pd.DataFrame(data.dtypes, columns=['tipo'])

# Adicionando a coluna "qtd_categorias" com o número de categorias de cada variável
qtd_categorias = []
for coluna in df_tipos.index:
    qtd_categorias.append(len(data[coluna].unique()))
    
df_tipos['qtd_categorias'] = qtd_categorias

In [214]:
df_tipos

Unnamed: 0,tipo,qtd_categorias
sexo,object,2
posse_de_veiculo,object,2
posse_de_imovel,object,2
qtd_filhos,int64,8
tipo_renda,object,5
educacao,object,5
estado_civil,object,5
tipo_residencia,object,6
idade,float64,5298
tempo_emprego,float64,3005


#### 3) Crie variáveis dummy para as variáveis necessárias (i.e. aquelas que são qualitativas e não estão armazenadas como {0, 1} ou {True, False}. Crie um *dataframe* apenas com as variáveis apropriadas para entrada no scikitlearn - elimine as variáveis tipo *str*, mantendo apenas suas versões *dummy*.

In [215]:
data_encoded = pd.get_dummies(data, columns=['qtd_filhos'
                                     ,'tipo_renda'
                                     , 'educacao'
                                     , 'estado_civil'
                                     , 'tipo_residencia'
                                     , 'qt_pessoas_residencia'
                                     ], drop_first=True
                     )
data_encoded.head(20)


Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,mau,...,tipo_residencia_Rented apartment,tipo_residencia_With parents,qt_pessoas_residencia_2.0,qt_pessoas_residencia_3.0,qt_pessoas_residencia_4.0,qt_pessoas_residencia_5.0,qt_pessoas_residencia_6.0,qt_pessoas_residencia_7.0,qt_pessoas_residencia_9.0,qt_pessoas_residencia_15.0
0,M,Y,Y,58.832877,3.106849,1,0,0,0,False,...,0,0,1,0,0,0,0,0,0,0
1,F,N,Y,52.356164,8.358904,1,0,1,1,False,...,0,0,0,0,0,0,0,0,0,0
2,F,N,Y,52.356164,8.358904,1,0,1,1,False,...,0,0,0,0,0,0,0,0,0,0
3,M,Y,Y,46.224658,2.106849,1,1,1,1,False,...,0,0,1,0,0,0,0,0,0,0
4,F,Y,N,29.230137,3.021918,1,0,0,0,False,...,0,0,1,0,0,0,0,0,0,0
5,F,Y,N,29.230137,3.021918,1,0,0,0,False,...,0,0,1,0,0,0,0,0,0,0
6,F,N,Y,27.482192,4.024658,1,0,1,0,False,...,0,0,1,0,0,0,0,0,0,0
7,F,N,Y,27.482192,4.024658,1,0,1,0,False,...,0,0,1,0,0,0,0,0,0,0
8,F,N,Y,30.049315,4.438356,1,0,0,0,False,...,0,0,1,0,0,0,0,0,0,0
9,F,N,Y,30.049315,4.438356,1,0,0,0,False,...,0,0,1,0,0,0,0,0,0,0


In [216]:
data_encoded.sexo = data_encoded.sexo.map({'F': 1, 'M':0})
data_encoded.posse_de_veiculo = data_encoded.posse_de_veiculo.map({'Y': 1, 'N':0})
data_encoded.posse_de_veiculo = data_encoded.posse_de_veiculo.astype(int)
data_encoded.posse_de_imovel = data_encoded.posse_de_imovel.map({'Y': 1, 'N':0})
data_encoded.posse_de_imovel = data_encoded.posse_de_imovel.astype(int)
data_encoded.mau = data_encoded.mau.astype(int)



In [217]:
data_encoded.dtypes

sexo                                        int64
posse_de_veiculo                            int32
posse_de_imovel                             int32
idade                                     float64
tempo_emprego                             float64
possui_celular                              int64
possui_fone_comercial                       int64
possui_fone                                 int64
possui_email                                int64
mau                                         int32
qtd_filhos_1                                uint8
qtd_filhos_2                                uint8
qtd_filhos_3                                uint8
qtd_filhos_4                                uint8
qtd_filhos_5                                uint8
qtd_filhos_7                                uint8
qtd_filhos_14                               uint8
tipo_renda_Pensioner                        uint8
tipo_renda_State servant                    uint8
tipo_renda_Student                          uint8


#### 4) Qual variável é mais poderosa?

Considere as variáveis ```possui_email``` e ```posse_de_veiculo```. Faça uma tabela cruzada entre elas e responda qual delas te parece mais poderosa para prever a probabilidade de ```mau = 1```?

In [218]:
tabela_cruzada = pd.crosstab(data_encoded['possui_email'], data_encoded['posse_de_veiculo'])
tabela_cruzada

posse_de_veiculo,0,1
possui_email,Unnamed: 1_level_1,Unnamed: 2_level_1
0,9341,5829
1,837,643


In [219]:
tabela_cruzada2 = pd.crosstab(data_encoded['mau'], data_encoded['posse_de_veiculo'])
tabela_cruzada2

posse_de_veiculo,0,1
mau,Unnamed: 1_level_1,Unnamed: 2_level_1
0,9931,6329
1,247,143


In [220]:
tabela_cruzada3 = pd.crosstab(data_encoded['mau'], data_encoded['possui_email'])
tabela_cruzada3

possui_email,0,1
mau,Unnamed: 1_level_1,Unnamed: 2_level_1
0,14810,1450
1,360,30


A tabela que parece ser mais poderosa para prever a possibilidade de mau = 1 é a tabela cruzada entre "mau" e "posse_de_veiculo". Essa tabela apresenta uma relação mais forte entre as variáveis, com uma diferença significativa nas contagens entre as combinações de valores de "mau" e "posse_de_veiculo". Por exemplo, podemos ver que a proporção de casos com mau = 1 é significativamente maior para aqueles que não possuem veículo (247/6576 = 0,04) em comparação com aqueles que possuem veículo (143/6772 = 0,02).

#### 5) Salve a base, pois ela será utilizada no final deste módulo.

In [221]:
data_encoded.to_csv('data_encoded.csv', index= False)