<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Pratique** | Árvore de Classificação  
## Caderno **Módulo 7 | Tarefa 1**<br>

Notebook [Diego Furukawa](#eu)

---

# **Introdução**

Neste módulo, vamos preparar a base de dados para que ela esteja adequada para análise e modelagem com a biblioteca scikit-learn, que será crucial para a nossa modelagem com árvores de classificação.

A biblioteca scikit-learn é amplamente utilizada para tarefas de aprendizado de máquina em Python e oferece uma vasta gama de algoritmos e ferramentas para modelagem. No nosso caso, utilizaremos uma árvore de classificação, que é uma técnica poderosa para prever a categoria a que um dado pertence com base em seus atributos. A árvore de decisão divide os dados em subsets, criando uma estrutura em forma de árvore onde cada nó representa uma decisão baseada em uma característica dos dados.

O objetivo é garantir que os dados estejam no formato adequado e explorar algumas características das variáveis. 

Vamos trabalhar com a base demo01.csv.

# 0. Índice dos Exercícios <a name="Contents"></a>
1. [Exercício 1: Carregue a Base e Avalie](#exerc_01)
2. [Exercício 2: Monte o Metadado](#exerc_02)
3. [Exercício 3: Crie Variáveis Dummy](#exerc_03)
4. [Exercício 4: Análise de Variáveis](#exerc_04)
5. [Exercício 5: Salve a Base](#exerc_05)


# 1. Exercício 1: Carregue a Base e Avalie <a name="exerc_01"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

Antes de iniciar qualquer modelagem, é essencial entender a estrutura dos dados. Este passo nos ajudará a identificar variáveis importantes, tipos de dados e possíveis problemas com os dados, como valores faltantes.

* Em resumo: 

    * **Variáveis:** Identifique as variáveis presentes na base de dados.<br>

    * **Tipos de Dados:** Verifique os tipos de dados de cada variável para garantir que estão corretos e prontos para análise.<br>

    * **Quantidade de Missings:** Conte o número de valores ausentes em cada variável para entender se há necessidade de tratamento.<br>

    * **Distribuição da Variável Resposta (mau):** Analise a distribuição da variável resposta para avaliar o equilíbrio entre as classes.

> **Dicas:**
    >>Use o método pd.read_csv() para carregar o arquivo CSV.<br>
    >>Examine as variáveis e tipos de dados com df.info().<br>
    >>Verifique a quantidade de valores faltantes com df.isnull().sum().<br>
    >>Analise a distribuição da variável resposta (mau) com df['mau'].value_counts()


In [46]:
# Seu código aqui

# Importando Bibliotecas
import numpy as np
import pandas as pd
import seaborn as sns

#Carregando dataset / DataFrame defaut doinfo Seaborn
credit_card_approval_prediction = pd.read_csv('demo01.csv')

#Retornar as primeiras 5 linhas
credit_card_approval_prediction.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16650 entries, 0 to 16649
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   16650 non-null  object 
 1   posse_de_veiculo       16650 non-null  object 
 2   posse_de_imovel        16650 non-null  object 
 3   qtd_filhos             16650 non-null  int64  
 4   tipo_renda             16650 non-null  object 
 5   educacao               16650 non-null  object 
 6   estado_civil           16650 non-null  object 
 7   tipo_residencia        16650 non-null  object 
 8   idade                  16650 non-null  float64
 9   tempo_emprego          16650 non-null  float64
 10  possui_celular         16650 non-null  int64  
 11  possui_fone_comercial  16650 non-null  int64  
 12  possui_fone            16650 non-null  int64  
 13  possui_email           16650 non-null  int64  
 14  qt_pessoas_residencia  16650 non-null  float64
 15  ma

In [48]:
# Quantidade de missings
credit_card_approval_prediction.isnull().sum()

sexo                     0
posse_de_veiculo         0
posse_de_imovel          0
qtd_filhos               0
tipo_renda               0
educacao                 0
estado_civil             0
tipo_residencia          0
idade                    0
tempo_emprego            0
possui_celular           0
possui_fone_comercial    0
possui_fone              0
possui_email             0
qt_pessoas_residencia    0
mau                      0
dtype: int64

In [50]:
# Analise a distribuição da variável resposta (mau)
credit_card_approval_prediction['mau'].value_counts()

mau
False    16260
True       390
Name: count, dtype: int64

# 2. Exercício 2: Monte o Metadado <a name="exerc_02"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

Criar um metadado ajuda a documentar as características das variáveis e é útil para entender a estrutura dos dados antes da modelagem. Este passo nos permitirá saber quantas categorias cada variável possui e facilitará a criação de variáveis dummy.


* Crie um DataFrame com os Nomes e Tipos de Dados: Construa um DataFrame que liste o nome e o tipo de dados de cada variável.

* Adicione a Coluna "qtd_categorias":
    - Inicie uma lista vazia.
    - Faça um loop para contar o número de categorias de cada variável.
    - Adicione essas informações à lista.
    - Atribua essa lista como uma nova coluna no DataFrame.


In [54]:
# Seu código aqui

# Criar um DataFrame com os nomes e tipos de dados
new_dataframe = pd.DataFrame({
    'Nome': credit_card_approval_prediction.columns,
    'Tipo de Dados': credit_card_approval_prediction.dtypes
})

# Adicionar a coluna 'qtd_categorias'
new_dataframe['qtd_categorias'] = new_dataframe.apply(lambda col: col.nunique())

# Iniciar uma lista vazia
lista_vazia = []

# Adicionando informações do DataFrame à lista
lista_vazia.append(new_dataframe)

# Loop para contar o número de categorias de cada variável
for column in credit_card_approval_prediction.columns:
    print(f"Contagem de categorias na coluna {column}:")
    print(credit_card_approval_prediction[column].value_counts())
    print()

Contagem de categorias na coluna sexo:
sexo
F    11201
M     5449
Name: count, dtype: int64

Contagem de categorias na coluna posse_de_veiculo:
posse_de_veiculo
N    10178
Y     6472
Name: count, dtype: int64

Contagem de categorias na coluna posse_de_imovel:
posse_de_imovel
Y    11176
N     5474
Name: count, dtype: int64

Contagem de categorias na coluna qtd_filhos:
qtd_filhos
0     11486
1      3393
2      1552
3       189
4        24
5         2
14        2
7         2
Name: count, dtype: int64

Contagem de categorias na coluna tipo_renda:
tipo_renda
Working                 8565
Commercial associate    3826
Pensioner               2800
State servant           1451
Student                    8
Name: count, dtype: int64

Contagem de categorias na coluna educacao:
educacao
Secondary / secondary special    11245
Higher education                  4551
Incomplete higher                  649
Lower secondary                    188
Academic degree                     17
Name: count, dtype: i

# 3. Exercício 3: Crie Variáveis Dummy <a name="exerc_03"></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

Variáveis qualitativas precisam ser convertidas em variáveis dummy (ou one-hot encoded) para serem utilizadas em modelos de machine learning. 
Este passo garante que todas as variáveis categóricas estejam no formato apropriado para scikit-learn.

Logo, aqui as etapas consistem em: 

* Criação de Variáveis Dummy: Converta variáveis qualitativas em formato numérico. 

* Para variáveis categóricas que não são binárias, utilize o método pd.get_dummies() para criar colunas de dummy.

* DataFrame para o scikit-learn: Crie um DataFrame apenas com variáveis numéricas, eliminando as variáveis de tipo str e mantendo suas versões dummy.

> **Dica:**
    >> Utilize pd.get_dummies() para converter variáveis qualitativas em dummies.<br>
    >> Elimine variáveis do tipo str do DataFrame original e mantenha apenas suas versões dummy.<br>
    >> Verifique se todas as variáveis numéricas e dummies estão no DataFrame resultante.


In [58]:
# Seu código aqui

credit_card_approval_prediction.head(5)

Unnamed: 0,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,possui_celular,possui_fone_comercial,possui_fone,possui_email,qt_pessoas_residencia,mau
0,M,Y,Y,0,Working,Secondary / secondary special,Married,House / apartment,58.832877,3.106849,1,0,0,0,2.0,False
1,F,N,Y,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,52.356164,8.358904,1,0,1,1,1.0,False
2,F,N,Y,0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,52.356164,8.358904,1,0,1,1,1.0,False
3,M,Y,Y,0,Working,Higher education,Married,House / apartment,46.224658,2.106849,1,1,1,1,2.0,False
4,F,Y,N,0,Working,Incomplete higher,Married,House / apartment,29.230137,3.021918,1,0,0,0,2.0,False


In [60]:
credit_card_approval_prediction.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16650 entries, 0 to 16649
Data columns (total 16 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   16650 non-null  object 
 1   posse_de_veiculo       16650 non-null  object 
 2   posse_de_imovel        16650 non-null  object 
 3   qtd_filhos             16650 non-null  int64  
 4   tipo_renda             16650 non-null  object 
 5   educacao               16650 non-null  object 
 6   estado_civil           16650 non-null  object 
 7   tipo_residencia        16650 non-null  object 
 8   idade                  16650 non-null  float64
 9   tempo_emprego          16650 non-null  float64
 10  possui_celular         16650 non-null  int64  
 11  possui_fone_comercial  16650 non-null  int64  
 12  possui_fone            16650 non-null  int64  
 13  possui_email           16650 non-null  int64  
 14  qt_pessoas_residencia  16650 non-null  float64
 15  ma

In [62]:
# Criação de Variáveis Dummy: Converta variáveis qualitativas em formato numérico.

credit_card_approval_prediction = pd.get_dummies(credit_card_approval_prediction, columns=['tipo_renda','educacao', 'estado_civil', 'tipo_residencia'], drop_first=True)

In [66]:
credit_card_approval_prediction.sexo.unique()
credit_card_approval_prediction.posse_de_veiculo.unique()
credit_card_approval_prediction.posse_de_imovel.unique()

credit_card_approval_prediction.posse_de_imovel = credit_card_approval_prediction.posse_de_imovel.map({'Y': 1, 'N':0})
credit_card_approval_prediction.sexo = credit_card_approval_prediction.sexo.map({'F': 1, 'M':0})
credit_card_approval_prediction.posse_de_veiculo = credit_card_approval_prediction.posse_de_veiculo.map({'Y': 1, 'N':0})

credit_card_approval_prediction.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16650 entries, 0 to 16649
Data columns (total 29 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   sexo                                    0 non-null      float64
 1   posse_de_veiculo                        16650 non-null  int64  
 2   posse_de_imovel                         16650 non-null  int64  
 3   qtd_filhos                              16650 non-null  int64  
 4   idade                                   16650 non-null  float64
 5   tempo_emprego                           16650 non-null  float64
 6   possui_celular                          16650 non-null  int64  
 7   possui_fone_comercial                   16650 non-null  int64  
 8   possui_fone                             16650 non-null  int64  
 9   possui_email                            16650 non-null  int64  
 10  qt_pessoas_residencia                   16650 non-null  fl

In [84]:
# Convertendo todas as colunas booleanas para inteiros

credit_card_approval_prediction[['mau'
,'tipo_renda_Pensioner'
,'tipo_renda_State servant'
,'tipo_renda_Student'
,'tipo_renda_Working'
,'educacao_Higher education'
,'educacao_Incomplete higher'
,'educacao_Lower secondary'
,'educacao_Secondary / secondary special'
,'estado_civil_Married'
,'estado_civil_Separated'
,'estado_civil_Single / not married'
,'estado_civil_Widow'
,'tipo_residencia_House / apartment'
,'tipo_residencia_Municipal apartment'
,'tipo_residencia_Office apartment'
,'tipo_residencia_Rented apartment'
,'tipo_residencia_With parents']] = credit_card_approval_prediction[['mau'
,'tipo_renda_Pensioner'
,'tipo_renda_State servant'
,'tipo_renda_Student'
,'tipo_renda_Working'
,'educacao_Higher education'
,'educacao_Incomplete higher'
,'educacao_Lower secondary'
,'educacao_Secondary / secondary special'
,'estado_civil_Married'
,'estado_civil_Separated'
,'estado_civil_Single / not married'
,'estado_civil_Widow'
,'tipo_residencia_House / apartment'
,'tipo_residencia_Municipal apartment'
,'tipo_residencia_Office apartment'
,'tipo_residencia_Rented apartment'
,'tipo_residencia_With parents']].astype(int)

credit_card_approval_prediction.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16650 entries, 0 to 16649
Data columns (total 30 columns):
 #   Column                                  Non-Null Count  Dtype  
---  ------                                  --------------  -----  
 0   sexo                                    0 non-null      float64
 1   posse_de_veiculo                        16650 non-null  int64  
 2   posse_de_imovel                         16650 non-null  int64  
 3   qtd_filhos                              16650 non-null  int64  
 4   idade                                   16650 non-null  float64
 5   tempo_emprego                           16650 non-null  float64
 6   possui_celular                          16650 non-null  int64  
 7   possui_fone_comercial                   16650 non-null  int64  
 8   possui_fone                             16650 non-null  int64  
 9   possui_email                            16650 non-null  int64  
 10  qt_pessoas_residencia                   16650 non-null  fl

# 4. Exercício 4: Análise de Variáveis <a name="exerc_04"></a>
<div style="text-align: right"

[Voltar ao índice](#Contents)


Comparar variáveis qualitativas pode ajudar a identificar quais delas têm mais impacto na variável resposta. Nesta etapa, faremos uma análise simples para entender a relação entre duas variáveis e a variável resposta.

Uma forma para isso seria realizar uma tabela cruzada.

* Tabela Cruzada: Compare as variáveis possui_email e posse_de_veiculo para determinar qual delas é mais poderosa na previsão de mau = 1. 



In [98]:
# Seu código aqui

credit_card_approval_prediction[['possui_email', 'mau']].groupby(['mau']).count()

Unnamed: 0_level_0,possui_email
mau,Unnamed: 1_level_1
0,16260
1,390


In [100]:
credit_card_approval_prediction[['posse_de_veiculo', 'mau']].groupby(['mau']).count()

Unnamed: 0_level_0,posse_de_veiculo
mau,Unnamed: 1_level_1
0,16260
1,390


# 5. Exercício 5: Salve a Base <a name="exerc_05"></a>
<div style="text-align: right"

[Voltar ao índice](#Contents)

Após preparar a base de dados, é importante salvá-la para uso futuro em modelagem e análise. Garantir que todos os passos anteriores estejam completos antes de salvar a base ajudará a evitar problemas futuros.

* Os passos consiste em

    * Salvar a Base: Após realizar os pré-processamentos, salve o DataFrame preparado. 


Este arquivo será utilizado posteriormente para modelagem com scikit-learn e análise adicional.

Essa tarefa é crucial para garantir que a base esteja bem estruturada e adequada para a modelagem com árvores de decisão, permitindo uma análise eficaz e assertiva dos dados.

> **Dica:** 
    >> Use o método df.to_csv() para salvar a base de dados processada.<br>
    >> Verifique o nome do arquivo e o local onde a base será salva para garantir que esteja acessível para futuras etapas do módulo.

In [106]:
# Seu código aqui

# Salvar o DataFrame em um arquivo CSV
credit_card_approval_prediction.to_csv('dados.csv', index=False)