# Árvore de decisão - parte 1 (Preparando dados)

Vamos começar a mexer na nossa base de projeto? Já fizemos um exercício de montar a variável resposta, já pudemos perceber que essa atividade pode não ser trivial. Vamos agora trabalhar a base para que fique propícia ao *scikitlearn* para trabalharmos.

Lembrando, a base se chama demo01.csv, e originalmente está publicada [aqui](https://www.kaggle.com/rikdifos/credit-card-approval-prediction).

#### 1) Carregue a base e avalie:

- As variáveis
- Tipos de dados de cada variável
- Quantidade de missings
- Distribuição da variável resposta (mau)

In [527]:
# Importando bibliotecas
import pandas as pd

In [528]:
df = pd.read_csv('demo01.csv')
print(df.shape)
df.head()

(16650, 16)


Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,qt_pessoas_residencia,mau
0,M,Y,Y,0,Working,Secondary / secondary special,Married,House / apartment,58.832877,3.106849,1,0,0,0,2.0,False
1,F,N,Y,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,52.356164,8.358904,1,0,1,1,1.0,False
2,F,N,Y,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,52.356164,8.358904,1,0,1,1,1.0,False
3,M,Y,Y,0,Working,Higher education,Married,House / apartment,46.224658,2.106849,1,1,1,1,2.0,False
4,F,Y,N,0,Working,Incomplete higher,Married,House / apartment,29.230137,3.021918,1,0,0,0,2.0,False


In [529]:
# As colunas do DataFrame
df.columns

Index(['sexo', 'posse_de_veiculo', 'posse_de_imovel', 'qtd_filhos',
       'tipo_renda', 'educacao', 'estado_civil', 'tipo_residencia', 'idade',
       'tempo_emprego', 'possui_celular', 'possui_fone_comercial',
       'possui_fone', 'possui_email', 'qt_pessoas_residencia', 'mau'],
      dtype='object')

In [530]:
# Informações das variáveis
df.info()
# Não há dados faltantes na base
# Pode-se avaliar também o tipo das variáveis "Dtype"

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16650 entries, 0 to 16649
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   16650 non-null  object 
 1   posse_de_veiculo       16650 non-null  object 
 2   posse_de_imovel        16650 non-null  object 
 3   qtd_filhos             16650 non-null  int64  
 4   tipo_renda             16650 non-null  object 
 5   educacao               16650 non-null  object 
 6   estado_civil           16650 non-null  object 
 7   tipo_residencia        16650 non-null  object 
 8   idade                  16650 non-null  float64
 9   tempo_emprego          16650 non-null  float64
 10  possui_celular         16650 non-null  int64  
 11  possui_fone_comercial  16650 non-null  int64  
 12  possui_fone            16650 non-null  int64  
 13  possui_email           16650 non-null  int64  
 14  qt_pessoas_residencia  16650 non-null  float64
 15  ma

In [531]:
# Não há dados missing
df.isna().sum()

sexo                     0
posse_de_veiculo         0
posse_de_imovel          0
qtd_filhos               0
tipo_renda               0
educacao                 0
estado_civil             0
tipo_residencia          0
idade                    0
tempo_emprego            0
possui_celular           0
possui_fone_comercial    0
possui_fone              0
possui_email             0
qt_pessoas_residencia    0
mau                      0
dtype: int64

In [532]:
# Distribuição da variável "mau"
df['mau'].value_counts()

mau
False    16260
True       390
Name: count, dtype: int64

#### 2) Vamos montar um metadados

1. Crie um dataframe com os nomes de cada variável e o tipo de dados de cada variável.
2. Adicione uma coluna nesse *dataframe* chamada "qtd_categorias" e coloque nela o número de categorias correspondente de cada variável.
    Dica:
   
        1. inicie uma lista vazia
        2. faça um for ao longo dos nomes das variáveis,
        3. conte o número de categorias dessa variável
        4. acumule essa informação de 3. na lista que você criou em 1.
        5. No final, essa lista pode ser atribuída à nossa variável.

In [534]:
df_meta = pd.DataFrame()
df_meta = pd.DataFrame(df.dtypes)
df_meta.reset_index(drop=False,inplace=True)
# ou 
# df_meta = df_meta.reset_index(drop=False)

df_meta.columns = ['variavel', 'tipo_variavel']
df_meta.head()

Unnamed: 0,variavel,tipo_variavel
0,sexo,object
1,posse_de_veiculo,object
2,posse_de_imovel,object
3,qtd_filhos,int64
4,tipo_renda,object


In [535]:
# Adicionando a quantidade de categorias
qtd_categorias = df.nunique()
qtd_categorias = pd.DataFrame(qtd_categorias)
qtd_categorias.reset_index(drop=True, inplace=True)
# Renomeando a coluna
qtd_categorias.columns = ['qtd_categorias']
qtd_categorias.head()

Unnamed: 0,qtd_categorias
0,2
1,2
2,2
3,8
4,5


In [536]:
# Concatenando os DataFrames
df_metadados = pd.concat([df_meta, qtd_categorias], axis=1)
df_metadados

Unnamed: 0,variavel,tipo_variavel,qtd_categorias
0,sexo,object,2
1,posse_de_veiculo,object,2
2,posse_de_imovel,object,2
3,qtd_filhos,int64,8
4,tipo_renda,object,5
5,educacao,object,5
6,estado_civil,object,5
7,tipo_residencia,object,6
8,idade,float64,5298
9,tempo_emprego,float64,3005


#### 3) Crie variáveis dummy para as variáveis necessárias (i.e. aquelas que são qualitativas e não estão armazenadas como {0, 1} ou {True, False}. Crie um *dataframe* apenas com as variáveis apropriadas para entrada no scikitlearn - elimine as variáveis tipo *str*, mantendo apenas suas versões *dummy*.

In [538]:
# Utilizando um novo DataFrame
df_encoded = df 
df_encoded.head(2)

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,qt_pessoas_residencia,mau
0,M,Y,Y,0,Working,Secondary / secondary special,Married,House / apartment,58.832877,3.106849,1,0,0,0,2.0,False
1,F,N,Y,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,52.356164,8.358904,1,0,1,1,1.0,False


In [539]:
# Mapeando a variável "sexo"
df_encoded.sexo = df_encoded.sexo.map({'M': 1, 'F': 0})

In [540]:
# Mapeando a variável "posse_de_veiculo"
df_encoded['posse_de_veiculo'] = df_encoded['posse_de_veiculo'].map({'Y': 1, 'N': 0})

In [541]:
# Mapeando a variável "posse_de_imovel"
df_encoded['posse_de_imovel'] = df_encoded['posse_de_imovel'].map({'Y': 1, 'N': 0})

In [542]:
# Após o mapeamento 

df_encoded.head(2)

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,qt_pessoas_residencia,mau
0,1,1,1,0,Working,Secondary / secondary special,Married,House / apartment,58.832877,3.106849,1,0,0,0,2.0,False
1,0,0,1,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,52.356164,8.358904,1,0,1,1,1.0,False


In [543]:
# Agora se faz necessária a criação de variáveis "dummy"

# Para a variável "tipo_renda"
df_encoded = pd.get_dummies(df_encoded, columns=['tipo_renda'])

In [544]:
# Para "educacao"
df_encoded = pd.get_dummies(df_encoded, columns=['educacao'])

In [545]:
# Para "estado_civil"
df_encoded = pd.get_dummies(df_encoded, columns=['estado_civil'])

In [546]:
# "tipo_residencia"
df_encoded = pd.get_dummies(df_encoded, columns=['tipo_residencia'])

In [547]:
df_encoded.head(10)

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,...,estado_civil_Married,estado_civil_Separated,estado_civil_Single / not married,estado_civil_Widow,tipo_residencia_Co-op apartment,tipo_residencia_House / apartment,tipo_residencia_Municipal apartment,tipo_residencia_Office apartment,tipo_residencia_Rented apartment,tipo_residencia_With parents
0,1,1,1,0,58.832877,3.106849,1,0,0,0,...,True,False,False,False,False,True,False,False,False,False
1,0,0,1,0,52.356164,8.358904,1,0,1,1,...,False,False,True,False,False,True,False,False,False,False
2,0,0,1,0,52.356164,8.358904,1,0,1,1,...,False,False,True,False,False,True,False,False,False,False
3,1,1,1,0,46.224658,2.106849,1,1,1,1,...,True,False,False,False,False,True,False,False,False,False
4,0,1,0,0,29.230137,3.021918,1,0,0,0,...,True,False,False,False,False,True,False,False,False,False
5,0,1,0,0,29.230137,3.021918,1,0,0,0,...,True,False,False,False,False,True,False,False,False,False
6,0,0,1,0,27.482192,4.024658,1,0,1,0,...,True,False,False,False,False,True,False,False,False,False
7,0,0,1,0,27.482192,4.024658,1,0,1,0,...,True,False,False,False,False,True,False,False,False,False
8,0,0,1,1,30.049315,4.438356,1,0,0,0,...,False,False,True,False,False,True,False,False,False,False
9,0,0,1,1,30.049315,4.438356,1,0,0,0,...,False,False,True,False,False,True,False,False,False,False


In [548]:
# O número de colunas foi drasticamente modificado
# devido a criação de variáveis dummy
df_encoded.shape

(16650, 33)

In [549]:
# Verificando as informações do DataFrame
# Note que não há mais variáveis "str"
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16650 entries, 0 to 16649
Data columns (total 33 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   sexo                                    16650 non-null  int64  
 1   posse_de_veiculo                        16650 non-null  int64  
 2   posse_de_imovel                         16650 non-null  int64  
 3   qtd_filhos                              16650 non-null  int64  
 4   idade                                   16650 non-null  float64
 5   tempo_emprego                           16650 non-null  float64
 6   possui_celular                          16650 non-null  int64  
 7   possui_fone_comercial                   16650 non-null  int64  
 8   possui_fone                             16650 non-null  int64  
 9   possui_email                            16650 non-null  int64  
 10  qt_pessoas_residencia                   16650 non-null  fl

#### 4) Qual variável é mais poderosa?

Considere as variáveis ```possui_email``` e ```posse_de_veiculo```. Faça uma tabela cruzada entre elas e responda qual delas te parece mais poderosa para prever a probabilidade de ```mau = 1```?

In [551]:
tabela = pd.crosstab(df_encoded['posse_de_veiculo'], df_encoded['possui_email'])
tabela

possui_email,0,1
posse_de_veiculo,Unnamed: 1_level_1,Unnamed: 2_level_1
0,9341,837
1,5829,643


In [552]:
# Relacionando à "mau"
tabela1 = pd.crosstab(df_encoded['posse_de_veiculo'], df_encoded['mau'])
tabela2 = pd.crosstab(df_encoded['possui_email'], df_encoded['mau'])

In [553]:
# 'posse_de_veiculo'
tabela1

mau,False,True
posse_de_veiculo,Unnamed: 1_level_1,Unnamed: 2_level_1
0,9931,247
1,6329,143


In [554]:
# Verificando a proporção 
tabela1_prop = tabela1.div(tabela1.sum(axis=1), axis=0) * 100
tabela1_prop

mau,False,True
posse_de_veiculo,Unnamed: 1_level_1,Unnamed: 2_level_1
0,97.573197,2.426803
1,97.790482,2.209518


In [555]:
# 'possui_email'
tabela2

mau,False,True
possui_email,Unnamed: 1_level_1,Unnamed: 2_level_1
0,14810,360
1,1450,30


In [556]:
# Proporção tabela2
tabela2_prop = tabela2.div(tabela2.sum(axis=1), axis=0) * 100
tabela2_prop

mau,False,True
possui_email,Unnamed: 1_level_1,Unnamed: 2_level_1
0,97.626895,2.373105
1,97.972973,2.027027


A proporção de "mau"s se faz mais presente em relação a variável "posse_de_veiculo". Porém, as variáveis "posse_de_veiculo" e "possui_email" não parecem ser as melhores escolhas para a previsão de "mau"s, uma vez que em proporção elas são bem parecidas. Desta forma, distinguir entre elas a mais poderosa para a previsão de "mau" não parece ser muito adequado, uma vez que possuir ou não e-mail provavelmente não tem influência sobre "mau".

#### 5) Salve a base, pois ela será utilizada no final deste módulo.

In [559]:
# Salvando o DataFrame
df_encoded.to_csv('df_encoded.csv')