# Previsão de renda

### 4 elementos importantes
- Esse notebook
- Streamlit com as análises
- Seu Github com o projeto
- Vídeo no readme do github mostrando o streamlit

## Etapa 1 CRISP - DM: Entendimento do negócio

<span style="color:red">O entendimento do negócio é importante para garantir que os esforços em Data Science sejam relevantes, eficazes e alinhados com as necessidades e objetivos da organização. </span>


## Etapa 2 Crisp-DM: Entendimento dos dados
<span style="color:red">O entendimento dos dados é fundamental para garantir que as análises sejam precisas, os modelos sejam robustos e os insights gerados sejam relevantes e acionáveis. Esse entendimento profundo permite aos cientistas de dados navegarem com eficácia pelas complexidades dos dados, transformando-os em soluções valiosas para os desafios do negócio.</span>


### Dicionário de dados

<span style="color:red">O dicionário de dados facilita o entendimento compartilhado do conjunto de dados, melhorando a comunicação e contribução para a qualidade e integridade dos dados</span>


| Variável                | Descrição                                           | Tipo         |
| ----------------------- |:---------------------------------------------------:| ------------:|
| data_ref                |  DATA DE REFERÊNCIA                                 | OBJECT|
| id_cliente              |  NÚMERO DE IDENTIFICAÇÃO                            | QUANTITATIVA DISCRETA|
| sexo                    |  GÊNERO DA PESSOA                                   | CATEGÓRICA NOMINAL|
| posse_de_veiculo        |  SE A PESSOA POSSUI VEÍCULO                         | BOOLEANO|
| posse_de_imovel         |  SE A PESSOA POSSUI IMÓVEL                          | BOOLEANO|
| qtd_filhos              |  QUANTIDADE DE FILHOS                               | QUANTITATIVA DISCRETA|
| tipo_renda              |  DE ONDE PROVEM A RENDA                             | CATEGÓRICA ORDINAL|
| educacao                |  NÍVEL DE ESCOLARIDADE                              | CATEGÓRICA ORDINAL|
| estado_civil            |  ESTADO CIVIL                                       | CATEGÓRICA NOMINAL|
| tipo_residencia         |  ONDE MORA (CASA, ALUGUEL, ETC)                     | CATEGÓRICA NOMINAL|
| idade                   |  IDADE EM ANOS                                      | QUANTITATIVA DISCRETA|
| tempo_emprego           |  TEMPO DE EMPREGO, EM ANOS                          | QUANTITATIVA CONTÍNUA|
| qt_pessoas_residencia   |  QUANTAS PESSOAS MORAM NA RESIDÊNCIA                | QUANTITATIVA DISCRETA|
| renda                   |  RENDA                                              | QUANTITATIVA CONTÍNUA|





#### Carregando os pacotes
É considerado uma boa prática carregar os pacotes que serão utilizados como a primeira coisa do programa.

<span style="color:red">ESCREVER AQUI</span>


#### Carregando os dados
O comando pd.read_csv é um comando da biblioteca pandas (pd.) e carrega os dados do arquivo csv indicado para um objeto *dataframe* do pandas.

<span style="color:red">ESCREVER AQUI</span>


In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
#from ydata_profiling import ProfileReport

In [2]:
renda = pd.read_csv('./input/previsao_de_renda.csv')

In [3]:
renda.head()

Unnamed: 0.1,Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,0,2015-01-01,15056,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.60274,1.0,8060.34
1,1,2015-01-01,9968,M,True,True,0,Assalariado,Superior completo,Casado,Casa,28,7.183562,2.0,1852.15
2,2,2015-01-01,4312,F,True,True,0,Empresário,Superior completo,Casado,Casa,35,0.838356,2.0,2253.89
3,3,2015-01-01,10639,F,False,True,1,Servidor público,Superior completo,Casado,Casa,30,4.846575,3.0,6600.77
4,4,2015-01-01,7064,M,True,False,0,Assalariado,Secundário,Solteiro,Governamental,33,4.293151,1.0,6475.97


#### Entendimento dos dados - Univariada
Nesta etapa tipicamente avaliamos a distribuição de todas as variáveis. 

In [3]:
prof = ProfileReport(renda, explorative=True, minimal=True)
prof


NameError: name 'profile_report' is not defined

In [None]:
prof.to_file('./output/renda_analisys.html')

HBox(children=(HTML(value='Export report to file'), FloatProgress(value=0.0, max=1.0), HTML(value='')))




<span style="color:red">ESCREVER AQUI</span>


### Entendimento dos dados - Bivariadas




<span style="color:red">ESCREVER AQUI</span>


## Etapa 3 Crisp-DM: Preparação dos dados
Nessa etapa realizamos tipicamente as seguintes operações com os dados:

 - **seleção**: Já temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **construção**: construção de novas variáveis
 - **integração**: Temos apenas uma fonte de dados, não é necessário integração
 - **formatação**: Os dados já se encontram em formatos úteis?



<span style="color:red">ESCREVER AQUI</span>


In [None]:
# Dados faltantes
renda.isna().sum()

Unnamed: 0                  0
data_ref                    0
id_cliente                  0
sexo                        0
posse_de_veiculo            0
posse_de_imovel             0
qtd_filhos                  0
tipo_renda                  0
educacao                    0
estado_civil                0
tipo_residencia             0
idade                       0
tempo_emprego            2573
qt_pessoas_residencia       0
renda                       0
dtype: int64

Deletar colunas que não são importantes para o caso

In [None]:
renda.drop(columns=['Unnamed: 0', 'data_ref', 'id_cliente'], inplace=True)

Há 2573 dados faltantes para o atributo tempo_emprego. Vamos verificar a correlação com a variável renda para tomar uma decisão com relalão a tempo_emprego.

In [None]:
renda[['tempo_emprego', 'renda']].corr(method='spearman')

Unnamed: 0,tempo_emprego,renda
tempo_emprego,1.0,0.377666
renda,0.377666,1.0


Como a correlação é positiva fraca, vou optar por deletar os dados faltantes da variável tempo_emprego:

In [None]:
renda.dropna(subset=['tempo_emprego'], inplace=True)

# verificando se ainda há dados faltantes
renda.tempo_emprego.isna().sum()

0

In [None]:
renda.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12427 entries, 0 to 14999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   12427 non-null  object 
 1   posse_de_veiculo       12427 non-null  bool   
 2   posse_de_imovel        12427 non-null  bool   
 3   qtd_filhos             12427 non-null  int64  
 4   tipo_renda             12427 non-null  object 
 5   educacao               12427 non-null  object 
 6   estado_civil           12427 non-null  object 
 7   tipo_residencia        12427 non-null  object 
 8   idade                  12427 non-null  int64  
 9   tempo_emprego          12427 non-null  float64
 10  qt_pessoas_residencia  12427 non-null  float64
 11  renda                  12427 non-null  float64
dtypes: bool(2), float64(3), int64(2), object(5)
memory usage: 1.1+ MB


Transformar os dados tipo object para formato correto:

In [None]:
# Sexo: qualitativa nominal para booleana
mapa_sexo = {'F': 0, 'M': 1}
renda['sexo'] = renda['sexo'].map(mapa_sexo)

In [None]:
# tipo_renda: variável ordinal
mapa_tipo_renda = {'Bolsista': 1, 'Assalariado': 2, 'Pensionista': 3, 'Servidor público': 4, 'Empresário': 5}
renda.tipo_renda = renda.tipo_renda.map(mapa_tipo_renda)

In [None]:
# Educacao - categórica ordinal
mapa_educacao = {'Primário': 1, 'Secundário': 2, 'Superior incompleto': 3, 'Superior completo': 4, 'Pós graduação': 5}
renda['educacao'] = renda['educacao'].map(mapa_educacao)

In [None]:
# Estado civil - categórica nominal
mapa_estado_civil = {'Casado': 1, 'Solteiro': 2, 'União': 3, 'Separado': 4, 'Viúvo': 5}
renda['estado_civil'] = renda['estado_civil'].map(mapa_estado_civil)

In [None]:
# tipo_residencia 
dummies = pd.get_dummies(renda['tipo_residencia'])
renda = renda.drop('tipo_residencia', axis=1)
renda = pd.concat([renda, dummies], axis=1)

In [None]:
renda.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12427 entries, 0 to 14999
Data columns (total 18 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   12427 non-null  int64  
 1   posse_de_veiculo       12427 non-null  bool   
 2   posse_de_imovel        12427 non-null  bool   
 3   qtd_filhos             12427 non-null  int64  
 4   tipo_renda             12427 non-null  int64  
 5   educacao               12427 non-null  int64  
 6   estado_civil           12427 non-null  int64  
 7   idade                  12427 non-null  int64  
 8   tempo_emprego          12427 non-null  float64
 9   qt_pessoas_residencia  12427 non-null  float64
 10  renda                  12427 non-null  float64
 11  estado_civil_numerico  12427 non-null  int64  
 12  Aluguel                12427 non-null  bool   
 13  Casa                   12427 non-null  bool   
 14  Com os pais            12427 non-null  bool   
 15  Comunit

Verificar correlação entre as variáveis explicativas e a variável-alvo

In [None]:
import plotly.express as px

In [None]:
matriz_correlacao = renda.corr()
fig = px.imshow(matriz_correlacao,
                   text_auto=True,
                   aspect='auto',
                   color_continuous_scale='RdBu_r',
                   labels=dict(x='Variável 1', y='Variável 2', color='Correlação'),
                   x=matriz_correlacao.columns,
                   y=matriz_correlacao.columns
                   )
fig.update_layout(title='Mapa de Calor da Correlação entre Variáveis',
                  xaxis_title='Variável 1',
                  yaxis_title='Variável 2'
                  )
fig.show()

Com base nesse mapa de calor, as variáveis escolhidas para explicar a renda serão: tempo_emprego, sexo e posse_de_veiculo

## Etapa 4 Crisp-DM: Modelagem
Nessa etapa que realizaremos a construção do modelo. Os passos típicos são:
- Selecionar a técnica de modelagem
- Desenho do teste
- Avaliação do modelo


<span style="color:red">A técnica de modelagem será a Regressão Linear Múltipla, pois pode oferecer bons resultados quando as relações entre as variáveis são lineares.</span>


### Rodando o modelo


<span style="color:red">ESCREVER AQUI</span>


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

In [None]:
# Convertendo posse_de_veiculo de bool para int (0 ou 1)
renda['posse_de_veiculo'] = renda['posse_de_veiculo'].astype(int)

In [None]:
# Definindo as variáveis independentes (X) e a dependente (y)
X = renda[['tempo_emprego', 'sexo', 'posse_de_veiculo']]
y = renda['renda']

In [None]:
# Dividindo os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
# Instanciando e ajustando o modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

LinearRegression()

In [None]:
# Fazendo previsões com o modelo de teste
y_pred = modelo.predict(X_test)

## Etapa 5 Crisp-DM: Avaliação dos resultados


<span style="color:red">MSE e RMSE são úteis para avaliar a magnitude dos erros do modelo, com RMSE sendo geralmente mais interpretável. R² é útil para entender quão bem o modelo captura a variabilidade dos dados.</span>


In [None]:
# Avaliando o modelo
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f'RMSE: {rmse}')
print(f'R²: {r2}')


RMSE: 6952.892795712732
R²: 0.2585369071291074


## Etapa 6 Crisp-DM: Implantação
Nessa etapa colocamos em uso o modelo desenvolvido, normalmente implementando o modelo desenvolvido em um motor que toma as decisões com algum nível de automação.