# Questões  <a name="questoes"></a>
0. [Dicionário de dados](#dicionario)
1. [Carregue a base e avalie](#avaliando)
2. [Vamos montar um metadados](#montando)
3. [Criando variáveis dummy](#criando)
4. [Qual variável é mais poderosa?](#variavel)
5. [Salvando a base](#salvando)

In [1]:
"""
Importando as bibliotecas
"""
import numpy as np
import pandas as pd

### Classificação de risco de crédito

Vamos começar a mexer na nossa base de projeto? Já fizemos um exercício de montar a variável resposta, já pudemos perceber que essa atividade pode não ser trivial. Vamos agora trabalhar a base para que fique propícia ao *scikitlearn* para trabalharmos.

Lembrando, a base se chama demo01.csv, e originalmente está publicada [aqui](https://www.kaggle.com/rikdifos/credit-card-approval-prediction).

### 0. Dicionário de dados <a name="dicionario"></a>   
     
<div style="text-align: right"
     
[Voltar ao índice](#questoes)

Os dados estão dispostos em uma tabela com uma linha para cada cliente, e uma coluna para cada variável armazenando as características desses clientes. Colocamos uma cópia o dicionário de dados (explicação dessas variáveis) abaixo neste notebook:

| Variable Name            | Description                                         | Tipo  |
| ------------------------ |:---------------------------------------------------:| -----:|
| sexo| M = 'Masculino'; F = 'Feminino' |M/F|
| posse_de_veiculo| Y = 'possui'; N = 'não possui' |Y/N|
| posse_de_imovel| Y = 'possui'; N = 'não possui' |Y/N|
| qtd_filhos| Quantidade de filhos |inteiro|
| tipo_renda|Tipo de renda (ex: assaliariado, autônomo etc) | texto |
| educacao| Nível de educação (ex: secundário, superior etc) |texto|
| estado_civil | Estado civil (ex: solteiro, casado etc)| texto |
| tipo_residencia | tipo de residência (ex: casa/apartamento, com os pais etc) | texto |
| idade | idade em anos |inteiro|
| tempo de emprego | tempo de emprego em anos |inteiro|
| possui_celular | Indica se possui celular (1 = sim, 0 = não) |binária|
| possui_fone_comercial | Indica se possui telefone comercial (1 = sim, 0 = não) |binária|
| possui_fone | Indica se possui telefone (1 = sim, 0 = não) |binária|
| possui_email | Indica se possui e-mail (1 = sim, 0 = não) |binária|
| qt_pessoas_residencia | quantidade de pessoas na residência |inteiro|
| **mau** | indicadora de mau pagador (True = mau, False = bom) |binária|

### 1. Carregue a base e avalie: <a name="avaliando"></a>

<div style="text-align: right"
     
[Voltar ao índice](#questoes)

- As variáveis
- Tipos de dados de cada variável
- Quantidade de missings
- Distribuição da variável resposta (mau)

In [2]:
"""
Carregando a base
"""
df_credito = pd.read_csv('demo01.csv')
df_credito.sample(10)

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,qt_pessoas_residencia,mau
13262,M,Y,N,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,44.575342,1.260274,1,0,1,0,1.0,False
3819,F,N,Y,0,State servant,Secondary / secondary special,Civil marriage,House / apartment,63.693151,23.863014,1,1,1,0,2.0,False
6239,F,N,Y,0,State servant,Secondary / secondary special,Separated,House / apartment,39.09863,0.827397,1,0,0,0,1.0,False
10500,F,N,Y,0,Commercial associate,Higher education,Married,House / apartment,32.641096,8.164384,1,0,0,0,2.0,False
13914,M,Y,Y,0,Commercial associate,Secondary / secondary special,Married,House / apartment,31.816438,11.043836,1,0,1,0,2.0,False
3894,F,N,Y,0,Pensioner,Secondary / secondary special,Separated,House / apartment,59.69863,-1000.665753,1,0,0,0,1.0,False
16485,F,N,Y,0,Working,Secondary / secondary special,Civil marriage,House / apartment,45.394521,1.416438,1,0,0,0,2.0,True
12691,F,Y,Y,2,Working,Secondary / secondary special,Married,House / apartment,39.882192,20.126027,1,0,1,1,4.0,False
5788,M,Y,Y,1,Commercial associate,Secondary / secondary special,Married,House / apartment,43.80274,5.463014,1,0,1,0,3.0,False
11734,F,N,Y,0,Working,Secondary / secondary special,Single / not married,House / apartment,50.545205,26.528767,1,0,0,0,1.0,False


In [3]:
"""
Verificando os tipos de dados de cada variavel
"""
print('\nTipos de dados: \n{}\n'.format(df_credito.dtypes))


Tipos de dados: 
sexo                      object
posse_de_veiculo          object
posse_de_imovel           object
qtd_filhos                 int64
tipo_renda                object
educacao                  object
estado_civil              object
tipo_residencia           object
idade                    float64
tempo_emprego            float64
possui_celular             int64
possui_fone_comercial      int64
possui_fone                int64
possui_email               int64
qt_pessoas_residencia    float64
mau                         bool
dtype: object



In [4]:
"""
Verificando a quantidade de missings
"""
print('\nNúmero de missig values: \n{}\n'.format(df_credito.isna().sum()))


Número de missig values: 
sexo                     0
posse_de_veiculo         0
posse_de_imovel          0
qtd_filhos               0
tipo_renda               0
educacao                 0
estado_civil             0
tipo_residencia          0
idade                    0
tempo_emprego            0
possui_celular           0
possui_fone_comercial    0
possui_fone              0
possui_email             0
qt_pessoas_residencia    0
mau                      0
dtype: int64



In [5]:
"""
Verificando a distribuição da variável resposta (mau)
"""
print(df_credito['mau'].value_counts())
print('\nTaxa de inadimplentes:\n{}\n'.format(df_credito['mau'].mean()*100))

mau
False    16260
True       390
Name: count, dtype: int64

Taxa de inadimplentes:
2.3423423423423424



### 2. Vamos montar um metadados <a name="montando"></a>

<div style="text-align: right"
     
[Voltar ao índice](#questoes)

1. Crie um dataframe com os nomes de cada variável e o tipo de dados de cada variável.
2. Adicione uma coluna nesse *dataframe* chamada "qtd_categorias" e coloque nela o número de categorias correspondente de cada variável. 
    Dica: 
        1. inicie uma lista vazia
        2. faça um for ao longo dos nomes das variáveis, 
        3. conte o número de categorias dessa variável 
        4. acumule essa informação de 3. na lista que você criou em 1. 
        5. No final, essa lista pode ser atribuída à nossa variável.
3. Crie variáveis dummy para as variáveis necessárias (i.e. aquelas que são qualitativas e não estão armazenadas como {0, 1} ou {True, False}.

In [6]:
"""
Crie um dataframe com os nomes de cada variável e o tipo de dados de cada variável.
"""
df_col_nomes = df_credito.columns.tolist()
df_col_tipos = df_credito.dtypes.tolist()
df_col_tipos

[dtype('O'),
 dtype('O'),
 dtype('O'),
 dtype('int64'),
 dtype('O'),
 dtype('O'),
 dtype('O'),
 dtype('O'),
 dtype('float64'),
 dtype('float64'),
 dtype('int64'),
 dtype('int64'),
 dtype('int64'),
 dtype('int64'),
 dtype('float64'),
 dtype('bool')]

In [7]:
"""
Adicione uma coluna nesse dataframe chamada "qtd_categorias" e coloque nela o número de categorias correspondente de cada
variável. Dica: 1. inicie uma lista vazia 2. faça um for ao longo dos nomes das variáveis, 3. conte o número de categorias dessa
variável 4. acumule essa informação de 3. na lista que você criou em 1. 5. No final, essa lista pode ser atribuída à nossa 
variável.
"""
lst_qtd_categorias = [len(df_credito[col].unique()) for col in df_col_nomes]

df_infos = pd.DataFrame({
    'Variável': df_col_nomes,
    'Tipo de Dados': df_col_tipos,
    'Qtd de Categorias': lst_qtd_categorias
})
df_infos

Unnamed: 0,Variável,Tipo de Dados,Qtd de Categorias
0,sexo,object,2
1,posse_de_veiculo,object,2
2,posse_de_imovel,object,2
3,qtd_filhos,int64,8
4,tipo_renda,object,5
5,educacao,object,5
6,estado_civil,object,5
7,tipo_residencia,object,6
8,idade,float64,5298
9,tempo_emprego,float64,3005


### 3. Criando variáveis dummy <a name="criando"></a>

<div style="text-align: right"
     
[Voltar ao índice](#questoes)

Crie variáveis dummy para as variáveis necessárias (i.e. aquelas que são qualitativas e não estão armazenadas como {0, 1} ou {True, False}. Crie um *dataframe* apenas com as variáveis apropriadas para entrada no scikitlearn - elimine as variáveis tipo *str*, mantendo apenas suas versões *dummy*.

In [8]:
"""
Criando um dataframe com as variaveis qualitativas
"""
df_qualitativa_var = df_infos[df_infos['Tipo de Dados'].apply(lambda x: x in [np.object_])]['Variável']
df_qualitativa_var

0                sexo
1    posse_de_veiculo
2     posse_de_imovel
4          tipo_renda
5            educacao
6        estado_civil
7     tipo_residencia
Name: Variável, dtype: object

In [9]:
"""
Transformando as variaveis qualitativas em dummies
"""
df_dummy_var = pd.get_dummies(df_credito[df_qualitativa_var],dtype = int)
df_dummy_var.sample(5)

Unnamed: 0,sexo_F,sexo_M,posse_de_veiculo_N,posse_de_veiculo_Y,posse_de_imovel_N,posse_de_imovel_Y,tipo_renda_Commercial associate,tipo_renda_Pensioner,tipo_renda_State servant,tipo_renda_Student,...,estado_civil_Married,estado_civil_Separated,estado_civil_Single / not married,estado_civil_Widow,tipo_residencia_Co-op apartment,tipo_residencia_House / apartment,tipo_residencia_Municipal apartment,tipo_residencia_Office apartment,tipo_residencia_Rented apartment,tipo_residencia_With parents
5764,1,0,1,0,1,0,1,0,0,0,...,0,0,0,0,0,1,0,0,0,0
16288,1,0,1,0,0,1,0,0,0,0,...,1,0,0,0,0,1,0,0,0,0
2608,1,0,0,1,0,1,1,0,0,0,...,1,0,0,0,0,1,0,0,0,0
8524,1,0,1,0,0,1,0,1,0,0,...,1,0,0,0,0,1,0,0,0,0
2105,1,0,1,0,0,1,0,0,0,0,...,1,0,0,0,0,1,0,0,0,0


In [10]:
"""
Selecionei apenas as variaveis numericas e depois concatenei as variaveis numericas com as dummies criando um no dataframe 
adequa para Scikit-learn e tranforme a variavel 'mau' em int
"""
df_numerica_var = df_infos[df_infos['Tipo de Dados'].apply(lambda x: x not in [np.object_])]['Variável']

df_numerica_sel= df_credito[df_numerica_var]

df_credito_sel= pd.concat([df_numerica_sel, df_dummy_var], axis=1)

df_credito_sel['mau'] = df_credito_sel['mau'].astype(int)

df_credito_sel.sample(5)

Unnamed: 0,qtd_filhos,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,qt_pessoas_residencia,mau,sexo_F,...,estado_civil_Married,estado_civil_Separated,estado_civil_Single / not married,estado_civil_Widow,tipo_residencia_Co-op apartment,tipo_residencia_House / apartment,tipo_residencia_Municipal apartment,tipo_residencia_Office apartment,tipo_residencia_Rented apartment,tipo_residencia_With parents
13685,0,50.947945,19.967123,1,0,0,0,1.0,0,1,...,0,0,1,0,0,1,0,0,0,0
16305,1,36.89589,10.547945,1,0,1,0,2.0,0,1,...,0,0,1,0,0,1,0,0,0,0
15076,0,43.726027,9.791781,1,0,0,0,1.0,0,0,...,0,0,1,0,0,1,0,0,0,0
5186,0,53.241096,10.663014,1,0,0,0,2.0,0,1,...,1,0,0,0,0,1,0,0,0,0
4061,0,54.536986,16.389041,1,0,0,0,2.0,0,1,...,1,0,0,0,0,1,0,0,0,0


### 4. Qual variável é mais poderosa? <a name="variavel"></a>

<div style="text-align: right"
     
[Voltar ao índice](#questoes)

Considere as variáveis ```possui_email``` e ```posse_de_veiculo```. Faça uma tabela cruzada entre elas e responda qual delas te parece mais poderosa para prever a probabilidade de ```mau = 1```?

In [11]:
"""
Primeiro criei uma função que verifica a coluna variavel em relação a coluna index, basta escolher o dataframe e as colunas
index (col_index) e variavel (col_var), no nosso caso a index é 'mau' e a variavel é 'possui_email' e 'posse_de_veiculo_Y'
"""
def cruzumento_variaveis(df: pd.DataFrame,col_index:str, col_var:str) -> None:
    
    tabela_quantidade = pd.crosstab(df[col_index], df[col_var])
    print(tabela_quantidade)
    
    print('')
    
    tabela_percentual = pd.crosstab(df[col_index], df[col_var],normalize='index').round(4)*100
    print(tabela_percentual)

In [12]:
"""
Cruzamos a variavel 'mau' com a variavel 'posse_de_veiculo_Y' primeiro a quantidade, depois em quantos % dos que possuem veiculo
('posse_de_veiculo_Y' = 1) e são maus ('mau'= True). 
"""
cruzumento_variaveis(
    df = df_credito_sel
    ,col_index =  'mau'
    ,col_var = 'posse_de_veiculo_Y'
)

posse_de_veiculo_Y     0     1
mau                           
0                   9931  6329
1                    247   143

posse_de_veiculo_Y      0      1
mau                             
0                   61.08  38.92
1                   63.33  36.67


In [13]:
"""
Cruzamos a variavel 'mau' com a variavel 'possui_email' primeiro a quantidade, depois em quantos % dos que possuem email
('possui_email' = 1) e são maus ('mau'= True). 
"""
cruzumento_variaveis(
    df = df_credito_sel
    ,col_index =  'mau'
    ,col_var = 'possui_email'
)

possui_email      0     1
mau                      
0             14810  1450
1               360    30

possui_email      0     1
mau                      
0             91.08  8.92
1             92.31  7.69


#### Então qual variável é mais poderosa?
Ao olharmos o porcentual das variaveis ```possui_email``` e ```posse_de_veiculo``` , verificamos que aqueles que possuem veiculo ('posse_de_veiculo_Y' = 1) são 36,67% dos maus pagadores ('mau'= True) já aqueles que não possuem email ('possui_email' = 0) representam 92,31% dos maus pagadores. Então podemos concluir que a variavel  ```possui_email```  é mais poderosa que ```posse_de_veiculo``` para prevermos a probabilidade 

### 5. Salvando a base <a name="salvando"></a>

<div style="text-align: right"
     
[Voltar ao índice](#questoes)

Salve a base, pois ela será utilizada no final deste módulo.

In [17]:
df_credito_sel.to_csv('df_credito_sel.csv',index = False)