# Previsão de renda

### 4 elementos importantes
- Esse notebook
- Streamlit com as análises
- Seu Github com o projeto
- Vídeo no readme do github mostrando o streamlit

## Etapa 1 CRISP - DM: Entendimento do negócio

Os bancos são instituições financeiras responsáveis por oferecer diversos serviços, como contas correntes, investimentos, empréstimos e financiamentos. Para operar de maneira eficiente e segura, eles precisam avaliar o perfil financeiro de seus clientes, garantindo que possam oferecer produtos adequados sem comprometer sua sustentabilidade.  
Um dos principais desafios enfrentados pelos bancos é a avaliação da renda dos clientes. Essa informação é essencial para diversas operações, tais como:

- **Concessão de crédito**: Antes de aprovar um empréstimo ou financiamento, o banco precisa estimar a capacidade de pagamento do cliente para evitar inadimplência.
- **Definição de limites de cartões e cheque especial**: Bancos ajustam limites de crédito com base na renda estimada do cliente.
- **Personalização de produtos financeiros**: Com uma previsão precisa de renda, é possível oferecer investimentos e serviços mais alinhados ao perfil do cliente.
- **Compliance e regulamentação**: Autoridades regulatórias exigem que os bancos adotem práticas responsáveis na concessão de crédito, o que exige análises detalhadas da situação financeira dos clientes.
- **Personalização de investimentos**: Com a previsão de renda, é possível oferecer opções de investimentos adequadas ao perfil financeiro do cliente, como fundos de baixo risco para quem tem uma renda mais restrita, ou alternativas de maior retorno para clientes com maior capacidade financeira.

No entanto, nem sempre a informação de renda está disponível ou é declarada corretamente pelos clientes. Para contornar essa limitação, os bancos podem utilizar modelos de Machine Learning para prever a renda de um cliente com base em outras variáveis do seu perfil, como idade, histórico de crédito, comportamento financeiro e dados demográficos.

Neste projeto, o objetivo é desenvolver um modelo preditivo para estimar a renda dos clientes com base em seus atributos, permitindo que o banco otimize sua tomada de decisão e melhore a experiência do usuário fornecendo uma ferramenta que ajudará o cliente a tomar crédito de forma correta.

## Etapa 2 Crisp-DM: Entendimento dos dados

<span >Na etapa de Compreensão dos Dados do CRISP-DM, o foco está na coleta, análise e exploração inicial dos dados disponíveis. O objetivo principal é entender a estrutura, qualidade e relevância dos dados para o projeto. Aqui estão os passos detalhados para essa etapa, utilizando as bibliotecas mencionadas.

1. Coleta e Identificação das Fontes de Dados: A coleta de dados pode ocorrer de diversas fontes, como SQL, Excel, APIs externas, entre outros. Os dados podem ser coletados em intervalos diários, mensais ou anuais, dependendo da necessidade do negócio. Alguns dados podem vir de servidores internos da empresa, enquanto outros podem ser coletados externamente, como taxas de inflação calculadas por fontes oficiais ou dados de fornecedores como SERASA ou Boa Vista. Dados de crawlers da web também podem ser utilizados para enriquecer a base de dados. Neste caso o csv foi fornecido. E para sua manipulação utilizaremos o Pandas.



In [2]:
import pandas as pd
df = pd.read_csv("./test/input/previsao_de_renda.csv")  # Exemplo de carregamento de dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

Removeremos as colunas: id_cliente, Unnamed: 0 e data_ref pois não fazem sentido na análise neste momento.

In [3]:
df['qt_pessoas_residencia'] = df['qt_pessoas_residencia'].astype(int)
df.drop(columns=['id_cliente','Unnamed: 0','data_ref'], inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   sexo                   15000 non-null  object 
 1   posse_de_veiculo       15000 non-null  bool   
 2   posse_de_imovel        15000 non-null  bool   
 3   qtd_filhos             15000 non-null  int64  
 4   tipo_renda             15000 non-null  object 
 5   educacao               15000 non-null  object 
 6   estado_civil           15000 non-null  object 
 7   tipo_residencia        15000 non-null  object 
 8   idade                  15000 non-null  int64  
 9   tempo_emprego          12427 non-null  float64
 10  qt_pessoas_residencia  15000 non-null  int32  
 11  renda                  15000 non-null  float64
dtypes: bool(2), float64(2), int32(1), int64(2), object(5)
memory usage: 1.1+ MB


2. Análise Exploratória Inicial: Com os dados coletados, a primeira ação é carregá-los no ambiente de trabalho para uma análise preliminar. Usando pandas, pode-se importar os dados de diferentes formatos como CSV, Excel, ou bancos de dados SQL. O primeiro passo é realizar uma inspeção dos dados para identificar as variáveis disponíveis, seus tipos, e verificar a presença de valores ausentes ou inconsistentes. Para isso utilizaremos **ProfileReport** do **ydata_profiling**, O ydata-profiling é uma ferramenta de ponta na etapa de entendimento dos dados no fluxo de trabalho de ciência de dados, sendo um pacote pioneiro em Python para perfilagem de dados. O **ydata_profiling** é um pacote amplamente utilizado para perfilagem automática de dados, padronizando a geração de relatórios detalhados que incluem estatísticas descritivas e visualizações, facilitando a análise exploratória e a identificação de padrões, anomalias e correlações nas variáveis. </span>


In [None]:
from ydata_profiling import ProfileReport
from scipy.stats import zscore
import numpy as np
import warnings
# Gerar relatório sem autocorrelação
profile = ProfileReport(
    df,
    explorative=True,
    correlations={"auto": {"calculate": False}}  # <- isso desativa a autocorrelação
)

# Save the report as an HTML file
profile.to_file("report.html")

# Or display in a Jupyter Notebook
profile.to_notebook_iframe()

ProfileReport revelou destaques do dataset através do seu Overview e seu Alerts:
- **Variáveis**: Total de 12. 5 Categóricas,  2 Booleanas, 5 Numéricas.Também revelou 15000 observações de cada com 3460 duplicadas, o que pode ser maior considerendo todas as colunas do dataset.
- **qtd_filhos**: tem 944 (6.3%) zeros.
- **tempo_emprego**: tem 2573 (17.2%) valores faltantes.
- **tipo_residencia**: tem um alto imbalance (75.1%).
- **Consumo geral de memória**: 5,7mb, com tamanho médio de linha salva de 396,7 bytes.

Estes resultados sugerem quais tipos de tratamento o dataset precisa para atingir a qualidade necessária para as próximas etapas do CRISP-DM como:
- **Tratamento de Nan/Missing Values**
- **Tratamento de Linhas Duplicadas**
- **Imbalance**
- **Normalização**
- **Dummies**

### Dicionário de dados

| Variável                | Descrição                                           | Tipo         | Natureza         |
| ----------------------- |:---------------------------------------------------:| ------------:| ----------------:|
| data_ref                |  Data da referência da análise                                      | Data| Temporal         |
| id_cliente              |  Identificação única do cliente                                      | Inteiro| Discreta         |
| sexo                    |  Sexo do cliente                                      | Object| Categórica         |
| posse_de_veiculo        |  Se o cliente possui veículo                                      | Booleano| Categórica         |
| posse_de_imovel         |  Se o cliente possui imóvel                                     | Booleano| Categórica         |
| qtd_filhos              |  Número de filhos                                     | Inteiro| Discreta         |
| tipo_renda              |  Tipo de fonte de renda                                    | Object| Categórica         |
| educacao                |  Nível de educação                                     | Object| Categórica         |
| estado_civil            |  Estado civil do cliente                                     | Object| Categórica         |
| tipo_residencia         |  Tipo de residência                                      | Object| Categórica         |
| idade                   |  Idade do cliente                                      | Inteiro| Discreta         |
| tempo_emprego           |  Tempo de emprego (anos)                                     | Float| Contínua         |
| qt_pessoas_residencia   |  Número de pessoas na residência                                      | Inteiro| Discreta         |
| renda                   |  Renda mensal do cliente                                  | Float| Contínua         |





In [None]:
%matplotlib inline
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# 1. Vizualização da distribuição das observações das features contínuas , com kernel density estimate (KDE) plot.

df_filtrado = df[df['renda'] <= 25000]
plt.figure(figsize=(24, 6))
sns.histplot(df_filtrado['renda'], kde=True)
plt.title(f'Distribuição das observações da renda', fontsize=14)
plt.xlabel('Renda')
plt.ylabel('Frequência')
plt.xticks(range(0, 25000, 1000))
plt.show()

# 2. Pair Plot

sns.pairplot(df.select_dtypes(include=['float', 'int']))
plt.suptitle("Pair Plot das features numéricas", y=1.02, fontsize=16)
plt.show()

## Etapa 3 Crisp-DM: Preparação dos dados
Nessa etapa realizamos tipicamente as seguintes operações com os dados:

 - **seleção**: Já temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **construção**: construção de novas variáveis
 - **integração**: Temos apenas uma fonte de dados, não é necessário integração
 - **formatação**: Os dados já se encontram em formatos úteis?



## Preparação dos Dados

A preparação dos dados foi realizada utilizando o `ColumnTransformer` da biblioteca `scikit-learn`, permitindo pipelines separados para variáveis numéricas e categóricas. As etapas principais foram:

### 1. Seleção de Variáveis

Foram removidas colunas não informativas ou que poderiam causar vazamento de dados:

- `Unnamed: 0`, `id_cliente` e `data_ref`: colunas de identificação ou temporais sem pré-processamento adequado.
- `renda`: variável alvo, separada das features para modelagem supervisionada.

### 2. Tratamento de Valores Ausentes

- **Variáveis numéricas** (`idade`, `tempo_emprego`, `qt_pessoas_residencia`, `qtd_filhos`) foram imputadas com a **mediana**, estratégia robusta a outliers que mantém a distribuição central dos dados.
- **Variáveis categóricas** (`sexo`, `posse_de_veiculo`, `posse_de_imovel`, `tipo_renda`, `educacao`, `estado_civil`, `tipo_residencia`) foram preenchidas com o valor constante `'missing'`. Isso evita a exclusão de registros e permite que o modelo capture padrões associados à ausência de informação.

### 3. Escalonamento das Variáveis Numéricas

As variáveis numéricas foram padronizadas com `StandardScaler`, transformando a média para 0 e o desvio padrão para 1. Embora não essencial para modelos baseados em árvore (como o LightGBM), a padronização pode:

- Facilitar o entendimento da importância das variáveis.
- Aumentar a compatibilidade com outros algoritmos sensíveis à escala.
- Tornar o pipeline mais reutilizável em contextos distintos.

### 4. Codificação de Variáveis Categóricas

As variáveis categóricas foram transformadas com `OneHotEncoder`, utilizando o parâmetro `drop='first'` para evitar a multicolinearidade (armadilha das variáveis fictícias). Isso resulta em uma representação binária das categorias, preservando informação sem redundância linear.

### 5. Transformação da Variável Alvo

A variável `renda` foi transformada usando `np.log1p`, ou seja:

\[
y = \log(1 + \text{renda})
\]

Essa transformação é recomendada para variáveis com distribuição altamente assimétrica, como renda, e tem os seguintes benefícios:

- Reduz a heterocedasticidade.
- Atenua o impacto de outliers.
- Melhora a capacidade preditiva do modelo.

---

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler, FunctionTransformer
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.impute import SimpleImputer
from lightgbm import LGBMRegressor
import shap

# Carregando os dados
df = pd.read_csv("./test/input/previsao_de_renda.csv")

# Removendo colunas não úteis
X = df.drop(columns=['Unnamed: 0', 'id_cliente', 'data_ref', 'renda'])
y = df['renda']

# Transformação logarítmica na variável target
y_log = np.log1p(y)

# Separando tipos de colunas
numeric_features = ['idade', 'tempo_emprego', 'qt_pessoas_residencia', 'qtd_filhos']
categorical_features = ['sexo', 'posse_de_veiculo', 'posse_de_imovel', 'tipo_renda', 'educacao', 'estado_civil', 'tipo_residencia']

# Define imputers
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(drop='first'))
])

# Pré-processador
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, numeric_features),
    ('cat', categorical_transformer, categorical_features)
])

numeric_feature_names = numeric_features

# Pipeline de modelagem
model = LGBMRegressor(n_estimators=2000, learning_rate=0.02, subsample=0.8, random_state=42)
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', model)
])

# Divisão dos dados
X_train, X_test, y_train, y_test = train_test_split(X, y_log, test_size=0.2, random_state=42)

# Treinamento
pipeline.fit(X_train, y_train)

numeric_feature_names = numeric_features
preprocessor2 = pipeline.named_steps['preprocessor']
numeric_feature_names = numeric_features

# Obtendo as categorical features depois da transformação
ohe = preprocessor2.named_transformers_['cat'].named_steps['onehot']
categorical_feature_names = ohe.get_feature_names_out(categorical_features)

# Combinar as feature names
all_feature_names = list(numeric_feature_names) + list(categorical_feature_names)

# Obter os feature names
ohe = preprocessor.named_transformers_['cat'].named_steps['onehot']
categorical_feature_names = ohe.get_feature_names_out(categorical_features)
all_feature_names = numeric_features + list(categorical_feature_names)

# Computar SHAP values
explainer = shap.Explainer(pipeline.named_steps['model'])
X_transformed = preprocessor.transform(X_test)
shap_values = explainer(X_transformed)

# Inject correct feature names into the SHAP Explanation object
shap_values.feature_names = all_feature_names

# Plot
shap.plots.beeswarm(shap_values, max_display=15)

# Predição e avaliação
y_pred_log = pipeline.predict(X_test)
y_pred = np.expm1(y_pred_log)
y_true = np.expm1(y_test)

mae = mean_absolute_error(y_true, y_pred)
rmse = np.sqrt(mean_squared_error(y_true, y_pred))
print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")

# Visualização da distribuição dos resíduos
residuals = y_true - y_pred
plt.figure(figsize=(10, 6))
sns.histplot(residuals, bins=50, kde=True)
plt.title("Distribuição dos Resíduos")
plt.xlabel("Erro de Previsão (R$)")
plt.show()

## Etapa 4 Crisp-DM: Modelagem
## Modelagem

A modelagem foi realizada utilizando o algoritmo `LightGBM Regressor`, um método de **gradient boosting baseado em histogramas**, altamente eficiente para tarefas de regressão com dados tabulares. 

A variável alvo `renda` foi previamente transformada com `log1p` (`log(1 + renda)`) com o objetivo de:

- Reduzir a **heterocedasticidade**,
- Minimizar o impacto de **outliers**,
- Melhorar a performance preditiva do modelo ao lidar com uma variável com distribuição altamente assimétrica (comum em dados financeiros).

---

### Pipeline de Modelagem

Foi utilizado o `sklearn.Pipeline` para encadear todas as etapas de pré-processamento e modelagem, promovendo **reprodutibilidade**, **modularidade** e facilitando o deployment. O pipeline incluiu:

#### 🔧 Imputação de Valores Ausentes
- **Numéricas**: preenchidas com a **mediana**, estratégia robusta a valores extremos.
- **Categóricas**: preenchidas com o valor constante `'missing'`, preservando informações relevantes da ausência.

#### 🔢 Normalização
- Variáveis numéricas foram escaladas com `StandardScaler`, padronizando média 0 e desvio padrão 1.
- Embora modelos baseados em árvore não exijam normalização, isso melhora a consistência do pipeline e compatibilidade com outras técnicas.

#### 🧬 Codificação
- Variáveis categóricas foram codificadas com `OneHotEncoder` com `drop='first'`, eliminando uma categoria por variável para evitar **colinearidade** com o intercepto.

---

### Hiperparâmetros do Modelo

O `LightGBM Regressor` foi configurado com os seguintes hiperparâmetros:

- `n_estimators=1000`: número máximo de árvores no ensemble.
- `learning_rate=0.05`: controla o passo de atualização em cada iteração, permitindo treinamento mais estável.
- `subsample=0.8`: ativa o **stochastic boosting**, usando apenas 80% dos dados em cada árvore para melhorar a generalização.
- `random_state=42`: garante **reprodutibilidade** dos resultados.

---

### Pós-processamento das Predições

Após o treinamento, as previsões foram convertidas de volta da escala logarítmica com a função `np.expm1`, revertendo a transformação `log1p` e permitindo interpretação direta dos valores preditos de **renda** em reais.

---


## Etapa 5 Crisp-DM: Avaliação dos resultados


O processo de treinamento foi realizado utilizando o LightGBM, uma estrutura de gradient boosting altamente otimizada para grandes volumes de dados. O conjunto de treinamento consistiu em 12.000 pontos de dados e 22 características. Com base nas informações iniciais, o modelo utiliza multi-threading por linha, o que é automaticamente selecionado pelo LightGBM com base no custo da análise de sobrecarga (0.000384 segundos). Esse processo reduz significativamente o tempo de treinamento em comparação com outros métodos, mas vale destacar que o tempo de sobrecarga é negligível e não afeta o desempenho geral.

O score inicial de treinamento do modelo foi 8.202201, o que pode indicar o valor inicial de previsão antes da otimização. Um ponto importante é o valor de Total Bins, que é 356. Isso representa o número de intervalos discretizados que o modelo usa para dividir características contínuas. Essa abordagem é crucial para a eficiência do LightGBM, pois permite decisões mais rápidas e precisas com base na estrutura dos dados.

Métricas de Avaliação:
Erro Absoluto Médio (MAE): O MAE foi de 2775,40, o que indica que, em média, as previsões do modelo se desviam dos valores reais em cerca de 2775. Essa métrica fornece uma noção intuitiva da magnitude dos erros nas previsões do modelo, e, dado a escala dos dados, esse valor pode ser aceitável ou não, dependendo do contexto de negócio e da faixa de valores da variável alvo.

Erro Quadrático Médio (RMSE): O RMSE foi de 5419,87, o que fornece uma medida mais sensível para erros maiores, penalizando previsões com maiores desvios de forma mais acentuada do que o MAE. O RMSE é significativamente mais alto que o MAE, o que sugere que existem alguns outliers (valores extremos) nos dados que o modelo está tendo dificuldades em prever corretamente.

Análises e Próximos Passos:
Desempenho do Modelo: A diferença considerável entre o MAE e o RMSE indica a presença de possíveis outliers ou uma distribuição de erros assimétrica. Isso sugere que, enquanto o modelo pode estar fazendo previsões razoáveis para a maioria dos dados, ele está sendo penalizado desproporcionalmente por alguns erros maiores. Esse ponto pode indicar a necessidade de uma análise mais profunda dos resíduos para identificar e tratar outliers ou anomalias nos dados.

Ajuste de Hiperparâmetros: Dada a diferença significativa entre o MAE e o RMSE, pode ser interessante realizar uma otimização de hiperparâmetros (usando técnicas como Random Search, Grid Search ou Bayesian Optimization) para tentar reduzir as tendências de overfitting ou underfitting do modelo. Ajustar parâmetros como num_leaves, learning_rate ou max_depth pode ajudar a alcançar um equilíbrio melhor entre viés e variância.

Engenharia de Características: O modelo utiliza 22 características, e seria interessante verificar se alguma interação entre características ou transformações (por exemplo, logaritmos, polinômios ou discretização de variáveis) poderia melhorar o desempenho, especialmente em relação aos outliers.

Regularização: Dado o RMSE relativamente alto, aplicar métodos de regularização, como L1/L2, pode ajudar a suavizar as previsões, reduzindo a influência de outliers e melhorando a capacidade de generalização do modelo.

Avaliação: Avaliar o modelo por meio de outras métricas, como o R² (coeficiente de determinação), também pode fornecer uma visão mais detalhada sobre a proporção da variabilidade explicada pelo modelo. Além disso, a validação cruzada em diferentes subconjuntos dos dados pode ajudar a avaliar a robustez do modelo e prevenir o overfitting.

Em resumo, embora o modelo apresente um desempenho razoável com o LightGBM, as métricas de erro observadas sugerem que há espaço para melhorias, especialmente em relação aos outliers. Uma combinação de ajuste de hiperparâmetros, engenharia de características e maior regularização pode melhorar a precisão preditiva e a capacidade de generalização do modelo.

## Etapa 6 Crisp-DM: Implantação
Nessa etapa colocamos em uso o modelo desenvolvido, normalmente implementando o modelo desenvolvido em um motor que toma as decisões com algum nível de automação.