<img src="https://raw.githubusercontent.com/rhatiro/previsao-renda/main/ebac-course-utils/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Profiss√£o: Cientista de Dados**
### **Projeto #02** | Previs√£o de renda

**Aluno:** [Rafael Rosa](https://www.linkedin.com/in/rafael-rosa-alves/)<br>

---

# <div style="text-align:center"> Projeto 02 - Previs√£o de renda </div>

## Etapa 1 CRISP - DM: Entendimento do neg√≥cio

Uma institui√ß√£o financeira est√° interessada em aprofundar sua compreens√£o do perfil de renda de seus novos clientes para v√°rias finalidades, como ajustar de forma mais precisa os limites de cr√©dito dos cart√µes dos novos clientes, sem a necessidade de solicitar olerites ou documenta√ß√£o que possa afetar a experi√™ncia do cliente.

Com esse objetivo, realizou um estudo com alguns clientes, validando suas rendas por meio de olerites e outros documentos, e tem a inten√ß√£o de desenvolver um modelo preditivo para prever essas rendas com base em algumas vari√°veis j√° presentes em seu banco de dados.

## Etapa 2 Crisp-DM: Entendimento dos dados

### Dicion√°rio de dados <a name="dicionario"></a>

| Vari√°vel              | Descri√ß√£o                                                                                                  | Tipo             |
| --------------------- |:----------------------------------------------------------------------------------------------------------:| ----------------:|
| data_ref              | Data de refer√™ncia de coleta das vari√°veis                                                                 | object           |
| id_cliente            | C√≥digo identificador exclusivo do cliente                                                                  | int              |
| sexo                  | Sexo do cliente (M = 'Masculino'; F = 'Feminino')                                                          | object (bin√°ria) |
| posse_de_veiculo      | Indica se o cliente possui ve√≠culo (True = 'Possui ve√≠culo'; False = 'N√£o possui ve√≠culo')                 | bool (bin√°ria)   |
| posse_de_imovel       | Indica se o cliente possui im√≥vel (True = 'Possui im√≥vel'; False = 'N√£o possui im√≥vel')                    | bool (bin√°ria)   |
| qtd_filhos            | Quantidade de filhos do cliente                                                                            | int              |
| tipo_renda            | Tipo de renda do cliente (Empres√°rio, Assalariado, Servidor p√∫blico, Pensionista, Bolsista)                | object           |
| educacao              | Grau de instru√ß√£o do cliente (Prim√°rio, Secund√°rio, Superior incompleto, Superior completo, P√≥s gradua√ß√£o) | object           |
| estado_civil          | Estado civil do cliente (Solteiro, Uni√£o, Casado, Separado, Vi√∫vo)                                         | object           |
| tipo_residencia       | Tipo de resid√™ncia do cliente (Casa, Governamental, Com os pais, Aluguel, Est√∫dio, Comunit√°rio)            | object           |
| idade                 | Idade do cliente em anos                                                                                   | int              |
| tempo_emprego         | Tempo no emprego atual                                                                                     | float            |
| qt_pessoas_residencia | Quantidade de pessoas que moram na resid√™ncia                                                              | float            |
| **renda**             | Valor num√©rico decimal representando a renda do cliente em reais                                           | float            |

<div style="text-align: center"

### Carregando pacotes necess√°rios

In [None]:
##pip install ydata-profiling
##pip install ipywidgets

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# from pandas_profiling import ProfileReport
from ydata_profiling import ProfileReport
import os

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn import tree

%matplotlib inline

### Carregando dados necess√°rios

O comando pd.read_csv √© um comando da biblioteca pandas (pd.) e carrega os dados do arquivo csv indicado para um objeto *dataframe* do pandas.

In [None]:
filepath = './input/previsao_de_renda.csv'
renda = pd.read_csv(filepath_or_buffer=filepath)

renda.info()
renda

In [None]:
renda.nunique()

In [None]:
renda.drop(columns=['Unnamed: 0', 'id_cliente'], inplace=True)

print('Quantidade total de linhas:', len(renda), '\n')

print('Quantidade de linhas duplicadas:', renda.duplicated().sum(), '\n')

print('Quantidade ap√≥s remo√ß√£o das linhas duplicadas:', 
      len(renda.drop_duplicates()), '\n')

renda.drop_duplicates(inplace=True, ignore_index=True)
renda.info()

### Entendimento dos dados - Univariada
Nesta etapa tipicamente avaliamos a distribui√ß√£o de todas as vari√°veis. 

#### Pandas Profiling ‚Äì Relat√≥rio interativo para an√°lise explorat√≥ria de dados

In [None]:
prof = ProfileReport(df=renda, 
                     minimal=False, 
                     explorative=True, 
                     dark_mode=True, 
                     orange_mode=True)
os.makedirs(name='./output', exist_ok=True)
prof.to_file('./output/renda_analysis.html')

prof

####  Estat√≠sticas descritivas das vari√°veis quantitativas

In [None]:
renda.describe().transpose()

### Entendimento dos dados - Bivariadas

#### Matriz de correla√ß√£o

In [None]:
(renda
 .iloc[:,3:]
 .corr()
 .tail(n=1)
)

Com base na matriz de correla√ß√£o, nota-se que a vari√°vel `tempo_emprego` exibe a maior associa√ß√£o com a vari√°vel `renda`, apresentando um coeficiente de correla√ß√£o de 38,5%.

#### Matriz de dispers√£o 

In [None]:
sns.pairplot(data=renda, 
             hue='tipo_renda', 
             vars=['qtd_filhos', 
                   'idade', 
                   'tempo_emprego', 
                   'qt_pessoas_residencia', 
                   'renda'], 
             diag_kind='hist')

plt.show()

Ao examinar o *pairplot*, que √© uma representa√ß√£o gr√°fica na forma de matriz de dispers√£o, √© percept√≠vel a presen√ßa de alguns *outliers* na vari√°vel `renda`, os quais t√™m o potencial de influenciar os resultados da an√°lise de tend√™ncia, embora sejam pouco frequentes. Ademais, nota-se uma correla√ß√£o fraca entre praticamente todas as vari√°veis quantitativas, corroborando os achados da matriz de correla√ß√£o

##### Clustermap

In [None]:
cmap = sns.diverging_palette(h_neg=100, 
                             h_pos=359, 
                             as_cmap=True, 
                             sep=1, 
                             center = 'light')

ax = sns.clustermap(data=renda.corr(), 
               figsize=(10, 10), 
               center=0, 
               cmap=cmap)
plt.setp(ax.ax_heatmap.get_xticklabels(), rotation=45)

plt.show()

Ao analisar o *pairplot*, uma representa√ß√£o gr√°fica na forma de matriz de dispers√£o, √© evidente a presen√ßa de alguns *outliers* na vari√°vel `renda`, os quais possuem o potencial de impactar os resultados da an√°lise de tend√™ncia, apesar de sua baixa frequ√™ncia. Al√©m disso, observa-se uma correla√ß√£o fraca entre praticamente todas as vari√°veis quantitativas, o que confirma os resultados obtidos na matriz de correla√ß√£o.

#####  Linha de tend√™ncia

In [None]:
plt.figure(figsize=(16,9))

sns.scatterplot(x='tempo_emprego',
                y='renda', 
                hue='tipo_renda', 
                size='idade',
                data=renda,
                alpha=0.4)

# Linha de tend√™ncia:
sns.regplot(x='tempo_emprego', 
            y='renda', 
            data=renda, 
            scatter=False, 
            color='.3')

plt.show()

Apesar de n√£o ser t√£o alta, a correla√ß√£o entre a vari√°vel `tempo_emprego` e a vari√°vel `renda` revela claramente uma covari√¢ncia positiva, evidenciada pela inclina√ß√£o da linha de tend√™ncia.

##### An√°lise de relev√¢ncia preditiva com vari√°veis booleanas

In [None]:
plt.rc('figure', figsize=(12,4))
fig, axes = plt.subplots(nrows=1, ncols=2)

sns.pointplot(x='posse_de_imovel', 
              y='renda',  
              data=renda, 
              dodge=True, 
              ax=axes[0])

sns.pointplot(x='posse_de_veiculo', 
              y='renda', 
              data=renda, 
              dodge=True, 
              ax=axes[1])

plt.show()

Ao contrastar os gr√°ficos acima, √© evidente que a vari√°vel `posse_de_ve√≠culo` √© mais relevante na predi√ß√£o de renda, como indicado pela maior disparidade entre os intervalos de confian√ßa para aqueles que possuem e n√£o possuem ve√≠culo. Em contrapartida, a vari√°vel `posse_de_im√≥vel` n√£o mostra diferen√ßa significativa entre as diferentes condi√ß√µes de posse imobili√°ria.

In [None]:
renda['data_ref'] = pd.to_datetime(arg=renda['data_ref'])

qualitativas = renda.select_dtypes(include=['object', 'boolean']).columns

plt.rc('figure', figsize=(16,4))

for col in qualitativas:
    fig, axes = plt.subplots(nrows=1, ncols=2)
    fig.subplots_adjust(wspace=.6)
    
    tick_labels = renda['data_ref'].map(lambda x: x.strftime('%b/%Y')).unique()
    
    # barras empilhadas:
    renda_crosstab = pd.crosstab(index=renda['data_ref'], 
                                 columns=renda[col], 
                                 normalize='index')
    ax0 = renda_crosstab.plot.bar(stacked=True, 
                                  ax=axes[0])
    ax0.set_xticklabels(labels=tick_labels, rotation=45)
    axes[0].legend(bbox_to_anchor=(1, .5), loc=6, title=f"'{col}'")
    
    # perfis m√©dios no tempo: 
    ax1 = sns.pointplot(x='data_ref', y='renda', hue=col, data=renda, dodge=True, ci=95, ax=axes[1])
    ax1.set_xticklabels(labels=tick_labels, rotation=45)
    axes[1].legend(bbox_to_anchor=(1, .5), loc=6, title=f"'{col}'")
    
    plt.show()

---

## Etapa 3 Crisp-DM: Prepara√ß√£o dos dados
Nessa etapa realizamos tipicamente as seguintes opera√ß√µes com os dados:

 - **sele√ß√£o**: J√° temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **constru√ß√£o**: constru√ß√£o de novas vari√°veis
 - **integra√ß√£o**: Temos apenas uma fonte de dados, n√£o √© necess√°rio integra√ß√£o
 - **formata√ß√£o**: Os dados j√° se encontram em formatos √∫teis?

In [None]:
renda.drop(columns='data_ref', inplace=True)
renda.dropna(inplace=True)

pd.DataFrame(index=renda.nunique().index, 
             data={'tipos_dados': renda.dtypes, 
                   'qtd_valores': renda.notna().sum(), 
                   'qtd_categorias': renda.nunique().values})

### Convers√£o das vari√°veis categ√≥ricas em vari√°veis num√©ricas (dummies)

In [None]:
renda_dummies = pd.get_dummies(data=renda)
renda_dummies.info()

In [None]:
(renda_dummies.corr()['renda']
              .sort_values(ascending=False)
              .to_frame()
              .reset_index()
              .rename(columns={'index':'var', 
                               'renda':'corr'})
              .style.bar(color=['darkred', 'darkgreen'], align=0)
)

---

## Etapa 4 Crisp-DM: Modelagem
Nessa etapa que realizaremos a constru√ß√£o do modelo. Os passos t√≠picos s√£o:
- Selecionar a t√©cnica de modelagem
- Desenho do teste
- Avalia√ß√£o do modelo

Optamos pelo DecisionTreeRegressor como t√©cnica, dada sua aptid√£o para lidar com problemas de regress√£o, como a previs√£o de renda dos clientes. Al√©m disso, as √°rvores de decis√£o s√£o de f√°cil interpreta√ß√£o e possibilitam a identifica√ß√£o dos atributos mais relevantes para a previs√£o da vari√°vel-alvo, o que a torna uma escolha s√≥lida para o projeto.

### Divis√£o da base em treino e teste

In [None]:
X = renda_dummies.drop(columns='renda')
y = renda_dummies['renda']

print('Quantidade de linhas e colunas de X:', X.shape)
print('Quantidade de linhas de y:', len(y))

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print('X_train:', X_train.shape)
print('X_test:', X_test.shape)
print('y_train:', y_train.shape)
print('y_test:', y_test.shape)

### Sele√ß√£o de hiperpar√¢metros do modelo com for loop

In [None]:
score = pd.DataFrame(columns=['max_depth', 'min_samples_leaf', 'score'])

for x in range(1, 21):
    for y in range(1, 31):
        reg_tree = DecisionTreeRegressor(random_state=42, 
                                         max_depth=x, 
                                         min_samples_leaf=y)
        reg_tree.fit(X_train, y_train)
        
        score = pd.concat(objs=[score, 
                                pd.DataFrame({'max_depth': [x], 
                                              'min_samples_leaf': [y], 
                                              'score': [reg_tree.score(X=X_test, 
                                                                       y=y_test)]})], 
                          axis=0, 
                          ignore_index=True)
        
score.sort_values(by='score', ascending=False)

### Rodando o modelo

In [None]:
reg_tree = DecisionTreeRegressor(random_state=42, max_depth=8, min_samples_leaf=4)
reg_tree.fit(X_train, y_train)

#### Visualiza√ß√£o gr√°fica da √°rvore com plot_tree

In [None]:
plt.rc('figure', figsize=(18,9))

tp = tree.plot_tree(decision_tree=reg_tree, 
                    feature_names=X.columns, 
                    filled=True)

#### Visualiza√ß√£o impressa da √°rvore

In [None]:
text_tree_print = tree.export_text(decision_tree=reg_tree)

print(text_tree_print)

## Etapa 5 Crisp-DM: Avalia√ß√£o dos resultados 

In [None]:
r2_train = reg_tree.score(X=X_train, y=y_train)
r2_test = reg_tree.score(X=X_test, y=y_test)

template = 'O coeficiente de determina√ß√£o (ùëÖ2) da √°rvore com profundidade = {0} para a base de {1} √©: {2:.2f}'

print(template.format(reg_tree.get_depth(), 'treino', r2_train).replace(".", ","))
print(template.format(reg_tree.get_depth(), 'teste', r2_test).replace(".", ","), '\n')

In [None]:
renda['renda_predict'] = np.round(reg_tree.predict(X), 2)
renda[['renda', 'renda_predict']]

---

## Etapa 6 Crisp-DM: Implanta√ß√£o

Neste cen√°rio foi desenvolvida uma calculadora simples para a simula√ß√£o das condi√ß√µes de cr√©dito, baseando-se em todo o entendimento que foi feito sobre este modelo ao longo da trajet√≥ria da analise

### [Simulando a previs√£o de renda](https://rhatiro-ebac-projeto02-previsao-renda.streamlit.app/~/+/Simulac%CC%A7a%CC%83o)

In [None]:
entrada = pd.DataFrame([{'sexo': 'M', 
                         'posse_de_veiculo': False, 
                         'posse_de_imovel': True, 
                         'qtd_filhos': 1, 
                         'tipo_renda': 'Assalariado', 
                         'educacao': 'Superior completo', 
                         'estado_civil': 'Solteiro', 
                         'tipo_residencia': 'Casa', 
                         'idade': 34, 
                         'tempo_emprego': None, 
                         'qt_pessoas_residencia': 1}])
entrada = pd.concat([X, pd.get_dummies(entrada)]).fillna(value=0).tail(1)
print(f"Renda estimada: R${str(np.round(reg_tree.predict(entrada).item(), 2)).replace('.', ',')}")