# Previsão de renda

### 4 elementos importantes
- Esse notebook
- Streamlit com as análises
- Seu Github com o projeto
- Vídeo no readme do github mostrando o streamlit

In [None]:
!pip install ydata_profiling

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Etapa 1 CRISP - DM: Entendimento do negócio

Na primeira fase do CRISP-DM (Cross-Industry Standard Process for Data Mining), é essencial compreender a natureza do negócio em questão e definir seus objetivos.

O problema abordado é relacionado à concessão de cartões de crédito e foi apresentado no Kaggle, uma plataforma renomada que promove desafios de ciência de dados, oferecendo prêmios aos melhores competidores. O link original para o problema pode ser acessado aqui.

A base de dados em análise consiste em informações de proponentes de cartão de crédito. O principal objetivo é desenvolver um modelo preditivo capaz de identificar o risco de inadimplência. Especificamente, a inadimplência é definida pela ocorrência de atrasos iguais ou superiores a 90 dias em um período de 12 meses. Esse modelo se baseará em variáveis observáveis no momento da avaliação do crédito, geralmente quando o cliente solicita o cartão.

As atividades conduzidas no âmbito do CRISP-DM incluem:

Objetivos do Negócio: É crucial destacar que o propósito do modelo é servir ao mutuário (cliente), auxiliando-o a avaliar suas próprias decisões financeiras, e não a instituição de crédito.

Objetivos da Modelagem: O objetivo está claramente definido: desenvolver o melhor modelo preditivo possível para capacitar o mutuário a tomar suas próprias decisões em relação ao crédito.

Nesta etapa, também se realiza uma análise da situação da empresa, segmento ou assunto em questão, buscando compreender o público-alvo, sua relevância, desafios existentes e todos os detalhes do processo que influenciam o fenômeno em questão e, consequentemente, os dados disponíveis.

Ademais, é durante essa fase que se estabelece um planejamento detalhado do projeto, delineando os passos a serem seguidos e as estratégias a serem adotadas.


## Etapa 2 Crisp-DM: Entendimento dos dados

A segunda fase do processo é dedicada ao entendimento dos dados. Um total de 15 variáveis foram disponibilizadas, além da variável resposta (destacada em negrito na tabela). O significado de cada uma dessas variáveis pode ser encontrado na tabela fornecida.


### Dicionário de dados





In [10]:
metadata = pd.DataFrame()
metadata['tipo'] = df.dtypes
metadata['n_categorias'] = df.agg('nunique')
metadata


Unnamed: 0,tipo,n_categorias
Unnamed: 0,int64,15000
data_ref,object,15
id_cliente,int64,9845
sexo,object,2
posse_de_veiculo,bool,2
posse_de_imovel,bool,2
qtd_filhos,int64,8
tipo_renda,object,5
educacao,object,5
estado_civil,object,5


#### Carregando os pacotes
É considerado uma boa prática carregar os pacotes que serão utilizados como a primeira coisa do programa.

In [15]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import os

from pandas_profiling import ProfileReport
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeRegressor
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import mean_squared_error

#### Carregando os dados
O comando pd.read_csv é um comando da biblioteca pandas (pd.) e carrega os dados do arquivo csv indicado para um objeto *dataframe* do pandas.

In [17]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from pandas_profiling import ProfileReport

In [19]:
renda = pd.read_csv('./previsao_de_renda.csv')

In [20]:
renda.head(1)

Unnamed: 0.1,Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,0,2015-01-01,15056,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.60274,1.0,8060.34


#### Entendimento dos dados - Univariada
Nesta etapa tipicamente avaliamos a distribuição de todas as variáveis. 

In [21]:
prof = ProfileReport(renda, explorative=True, minimal=True)
prof


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [23]:
prof.to_file('./renda_analisys.html')

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

In [24]:

prof = ProfileReport(renda, explorative=True, minimal=True)
prof

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [25]:
prof = ProfileReport(renda, explorative=True, minimal=True)
prof

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



### Entendimento dos dados - Bivariadas




In [26]:
prof = ProfileReport(renda, explorative=True, minimal=True)
prof

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [42]:
renda['data_ref'] = pd.to_datetime(renda['data_ref'])

#variável tipo de renda
ax = sns.countplot(
    data=renda,
    x='data_ref',
    hue='tipo_renda'
)

tick_labs = renda['data_ref'].map(lambda ts: ts.strftime('%m-%Y')).unique()

ticks = ax.set_xticks(list(range(renda['data_ref'].nunique())))
labels = ax.set_xticklabels(tick_labs, rotation=90)
plt.legend(bbox_to_anchor=(1.1,1), loc=2, borderaxespad=0.)




<matplotlib.legend.Legend at 0x20145893b90>

In [41]:
#variável tipo de renda
ax = sns.pointplot(
    data=renda,
    x='data_ref',
    y='renda',
    hue='tipo_renda',
    dodge=True,
    errorbar=('ci', 95)
)

# Definindo os rótulos dos ticks e a rotação
tick_labs = renda['data_ref'].map(lambda ts: ts.strftime('%m-%Y')).unique()
ticks = ax.set_xticks(list(range(renda['data_ref'].nunique())))
labels = ax.set_xticklabels(tick_labs, rotation=90)

# Ajustando a legenda
plt.legend(loc='lower center', bbox_to_anchor=(0.5, -.10), ncol=3)

# Salvando o gráfico como imagem PNG
plt.savefig('grafico_renda.png')

In [44]:
#variável sexo por renda
ax = sns.pointplot(
    data=renda,
    x='data_ref',
    y='renda',
    hue='sexo',
    dodge=True,
    errorbar=('ci', 95)
)

# Definindo os rótulos dos ticks e a rotação
tick_labs = renda['data_ref'].map(lambda ts: ts.strftime('%m-%Y')).unique()
ticks = ax.set_xticks(list(range(renda['data_ref'].nunique())))
labels = ax.set_xticklabels(tick_labs, rotation=90)

# Ajustando a legenda
plt.legend(loc='lower center', bbox_to_anchor=(0.5, -.10), ncol=3)

# Salvando o gráfico como imagem PNG
plt.savefig('grafico_sexo_renda.png')


In [45]:
#variável posse de veículo por renda
ax = sns.pointplot(
    data=renda,
    x='data_ref',
    y='renda',
    hue='posse_de_veiculo',
    dodge=True,
    errorbar=('ci', 95)
)

# Definindo os rótulos dos ticks e a rotação
tick_labs = renda['data_ref'].map(lambda ts: ts.strftime('%m-%Y')).unique()
ticks = ax.set_xticks(list(range(renda['data_ref'].nunique())))
labels = ax.set_xticklabels(tick_labs, rotation=90)

# Ajustando a legenda
plt.legend(loc='lower center', bbox_to_anchor=(0.5, -.10), ncol=3)

# Salvando o gráfico como imagem PNG
plt.savefig('grafico_posse_veiculo_renda.png')

In [46]:
#variável posse de imóvel por renda
ax = sns.pointplot(
    data=renda,
    x='data_ref',
    y='renda',
    hue='posse_de_imovel',
    dodge=True,
    errorbar=('ci', 95)
)

# Definindo os rótulos dos ticks e a rotação
tick_labs = renda['data_ref'].map(lambda ts: ts.strftime('%m-%Y')).unique()
ticks = ax.set_xticks(list(range(renda['data_ref'].nunique())))
labels = ax.set_xticklabels(tick_labs, rotation=90)

# Ajustando a legenda
plt.legend(loc='lower center', bbox_to_anchor=(0.5, -.10), ncol=3)

# Salvando o gráfico como imagem PNG
plt.savefig('grafico_posse_imovel_renda.png')

In [47]:
#variável educação por renda
ax = sns.pointplot(
    data=renda,
    x='data_ref',
    y='renda',
    hue='educacao',
    dodge=True,
    errorbar=('ci', 95)
)

# Definindo os rótulos dos ticks e a rotação
tick_labs = renda['data_ref'].map(lambda ts: ts.strftime('%m-%Y')).unique()
ticks = ax.set_xticks(list(range(renda['data_ref'].nunique())))
labels = ax.set_xticklabels(tick_labs, rotation=90)

# Ajustando a legenda
plt.legend(loc='lower center', bbox_to_anchor=(0.5, -.10), ncol=3)

# Salvando o gráfico como imagem PNG
plt.savefig('grafico_educacao_renda.png')

In [48]:
#variável tipo de residencia por renda
ax = sns.pointplot(
    data=renda,
    x='data_ref',
    y='renda',
    hue='tipo_residencia',
    dodge=True,
    errorbar=('ci', 95)
)

# Definindo os rótulos dos ticks e a rotação
tick_labs = renda['data_ref'].map(lambda ts: ts.strftime('%m-%Y')).unique()
ticks = ax.set_xticks(list(range(renda['data_ref'].nunique())))
labels = ax.set_xticklabels(tick_labs, rotation=90)

# Ajustando a legenda
plt.legend(loc='lower center', bbox_to_anchor=(0.5, -.10), ncol=3)

# Salvando o gráfico como imagem PNG
plt.savefig('grafico_tipo_residencia_renda.png')

In [49]:
#variável quantidade de pessoas na residência por renda
ax = sns.pointplot(
    data=renda,
    x='data_ref',
    y='renda',
    hue='qt_pessoas_residencia',
    dodge=True,
    errorbar=('ci', 95)
)

# Definindo os rótulos dos ticks e a rotação
tick_labs = renda['data_ref'].map(lambda ts: ts.strftime('%m-%Y')).unique()
ticks = ax.set_xticks(list(range(renda['data_ref'].nunique())))
labels = ax.set_xticklabels(tick_labs, rotation=90)

# Ajustando a legenda
plt.legend(loc='lower center', bbox_to_anchor=(0.5, -.10), ncol=3)

# Salvando o gráfico como imagem PNG
plt.savefig('grafico_quantidade_pessoas_residencia_renda.png')

## Etapa 3 Crisp-DM: Preparação dos dados
Nessa etapa realizamos tipicamente as seguintes operações com os dados:

 - **seleção**: Já temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **construção**: construção de novas variáveis
 - **integração**: Temos apenas uma fonte de dados, não é necessário integração
 - **formatação**: Os dados já se encontram em formatos úteis?



In [50]:
renda = renda.drop(['Unnamed: 0', 'data_ref', 'id_cliente', 'tempo_emprego'], axis=1)

In [54]:
#Tratando duplicatas

renda = renda.drop_duplicates()
renda = renda.reset_index(drop=True)
print(renda.shape)
print(renda.shape)
print(renda.info())

(10447, 24)
(10447, 24)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10447 entries, 0 to 10446
Data columns (total 24 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   posse_de_veiculo               10447 non-null  bool   
 1   posse_de_imovel                10447 non-null  bool   
 2   qtd_filhos                     10447 non-null  int64  
 3   idade                          10447 non-null  int64  
 4   qt_pessoas_residencia          10447 non-null  float64
 5   renda                          10447 non-null  float64
 6   sexo_M                         10447 non-null  bool   
 7   tipo_renda_Bolsista            10447 non-null  bool   
 8   tipo_renda_Empresário          10447 non-null  bool   
 9   tipo_renda_Pensionista         10447 non-null  bool   
 10  tipo_renda_Servidor público    10447 non-null  bool   
 11  educacao_Pós graduação         10447 non-null  bool   
 12  educacao_Secundário   

## Etapa 4 Crisp-DM: Modelagem
Nessa etapa que realizaremos a construção do modelo. Os passos típicos são:
- Selecionar a técnica de modelagem
- Desenho do teste
- Avaliação do modelo


In [52]:
renda = pd.get_dummies(renda, columns=['sexo', 'tipo_renda', 'educacao', 'estado_civil', 'tipo_residencia'], 
                      drop_first= True).copy()
renda.dtypes

posse_de_veiculo                    bool
posse_de_imovel                     bool
qtd_filhos                         int64
idade                              int64
qt_pessoas_residencia            float64
renda                            float64
sexo_M                              bool
tipo_renda_Bolsista                 bool
tipo_renda_Empresário               bool
tipo_renda_Pensionista              bool
tipo_renda_Servidor público         bool
educacao_Pós graduação              bool
educacao_Secundário                 bool
educacao_Superior completo          bool
educacao_Superior incompleto        bool
estado_civil_Separado               bool
estado_civil_Solteiro               bool
estado_civil_União                  bool
estado_civil_Viúvo                  bool
tipo_residencia_Casa                bool
tipo_residencia_Com os pais         bool
tipo_residencia_Comunitário         bool
tipo_residencia_Estúdio             bool
tipo_residencia_Governamental       bool
dtype: object

In [53]:
X = renda.drop(['renda'], axis=1).copy()
y = renda['renda']

### Rodando o modelo


In [55]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state= True)

In [56]:
reg1 = DecisionTreeRegressor(max_depth=4)
reg2 = DecisionTreeRegressor(max_depth=8)

reg1.fit(X_test, y_test)
reg2.fit(X_test, y_test)

In [57]:
mse1 = reg1.score(X_test, y_test)
mse2 = reg2.score(X_test, y_test)

template = 'O R-quadrado da árvore com profundidade {0} é: {1:.2f}'

print(template.format(reg1.get_depth(),mse1).replace('.',','))
print(template.format(reg2.get_depth(),mse2).replace('.',','))

O R-quadrado da árvore com profundidade 4 é: 0,14
O R-quadrado da árvore com profundidade 8 é: 0,36


In [58]:
plt.rc('figure', figsize=(30, 30))
tp = tree.plot_tree(reg2,
                   feature_names=X_test.columns,
                   filled=True)

In [62]:
reg2 = DecisionTreeRegressor(max_depth=8, min_samples_leaf=20)
reg2.fit(X_train, y_train)
mse1 = reg2.score(X_test, y_test)
mse1

0.08062727579141071

### Gerando o gráfico de calor

In [69]:
from sklearn.model_selection import GridSearchCV
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor

# Definindo a grade de hiperparâmetros
param_grid = {
    'max_depth': range(1, 9),
    'min_samples_leaf': range(1, 9)
}

# Instanciando o regressor de árvore de decisão
regressor = DecisionTreeRegressor()

# Realizando a busca em grade
grid_search = GridSearchCV(regressor, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Extraindo os resultados
results = pd.DataFrame(grid_search.cv_results_)

# Criando o mapa de calor
heatmap_data = results.pivot(index='param_max_depth', columns='param_min_samples_leaf', values='mean_test_score')
plt.figure(figsize=(10, 6))
sns.heatmap(heatmap_data, annot=True, fmt=".4f", cmap='viridis')
plt.title('Desempenho da Árvore de Decisão')
plt.xlabel('Número Mínimo de Amostras em Folhas')
plt.ylabel('Profundidade Máxima')
plt.savefig('GraficoML1.png')


## Etapa 5 Crisp-DM: Avaliação dos resultados


In [64]:
print(f'R-quadrado de treino é: {reg2.score(X_train, y_train)*100:.2f}%')

R-quadrado de treino é: 23.59%


In [65]:
print(f'R-quadrado de teste é: {reg2.score(X_test, y_test)*100:.2f}%')

R-quadrado de teste é: 5.26%


## Etapa 6 Crisp-DM: Implantação
Nessa etapa colocamos em uso o modelo desenvolvido, normalmente implementando o modelo desenvolvido em um motor que toma as decisões com algum nível de automação.

In [70]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

# Separando os dados em features (X) e target (y)
X = renda.drop(['renda'], axis=1)
y = renda['renda']

# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Treinando o modelo de regressão de árvore de decisão
model = DecisionTreeRegressor(max_depth=8, min_samples_leaf=20)
model.fit(X_train, y_train)

# Avaliando o modelo
train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)

print("R-quadrado de treino é: {:.2f}%".format(train_score * 100))
print("R-quadrado de teste é: {:.2f}%".format(test_score * 100))

R-quadrado de treino é: 18.21%
R-quadrado de teste é: 8.42%
