# Previsão de renda

### 4 elementos importantes
- Esse notebook
- Streamlit com as análises
- Seu Github com o projeto
- Vídeo no readme do github mostrando o streamlit

## Etapa 1 CRISP - DM: Entendimento do negócio

<span style="color:red">ESCREVER AQUI</span>

Esta é uma etapa em que vamos focar no entendimento do negócio e definir os objetivos. Estamos lidando com uma base de dados para previsão de renda de clientes de um banco. Nosso objetivo é realizar uma análise preditiva para:

    Identificar a quantidade de clientes com renda per capita maior do que um determinado valor.
    Determinar a fonte de renda de cada cliente.
    Verificar quantos clientes possuem ou não um automóvel.


## Etapa 2 Crisp-DM: Entendimento dos dados
<span style="color:red">ESCREVER AQUI</span>

A segunda etapa é o entendimento dos dados. Foram fornecidas 15 variáveis mais a variável resposta (em negrito na tabela). O significado de cada uma dessas variáveis se encontra na tabela.


### Dicionário de dados

<span style="color:red">ESCREVER AQUI</span>

Os dados estão dispostos em uma tabela com uma linha para cada cliente, e uma coluna para cada variável armazenando as características desses clientes. Colocamos uma cópia o dicionário de dados (explicação dessas variáveis) abaixo neste notebook:


| Variável                | Descrição                                           | Tipo         |
| ----------------------- |:---------------------------------------------------:| ------------:|
| data_ref                |  ESCREVER AQUI                                      | ESCREVER AQUI|
| id_cliente              |  ESCREVER AQUI                                      | ESCREVER AQUI|
| sexo                    |  ESCREVER AQUI                                      | ESCREVER AQUI|
| posse_de_veiculo        |  ESCREVER AQUI                                      | ESCREVER AQUI|
| posse_de_imovel         |  ESCREVER AQUI                                      | ESCREVER AQUI|
| qtd_filhos              |  ESCREVER AQUI                                      | ESCREVER AQUI|
| tipo_renda              |  ESCREVER AQUI                                      | ESCREVER AQUI|
| educacao                |  ESCREVER AQUI                                      | ESCREVER AQUI|
| estado_civil            |  ESCREVER AQUI                                      | ESCREVER AQUI|
| tipo_residencia         |  ESCREVER AQUI                                      | ESCREVER AQUI|
| idade                   |  ESCREVER AQUI                                      | ESCREVER AQUI|
| tempo_emprego           |  ESCREVER AQUI                                      | ESCREVER AQUI|
| qt_pessoas_residencia   |  ESCREVER AQUI                                      | ESCREVER AQUI|
| renda                   |  ESCREVER AQUI                                      | ESCREVER AQUI|





#### Carregando os pacotes
É considerado uma boa prática carregar os pacotes que serão utilizados como a primeira coisa do programa.

<span style="color:red">ESCREVER AQUI</span>


#### Carregando os dados
O comando pd.read_csv é um comando da biblioteca pandas (pd.) e carrega os dados do arquivo csv indicado para um objeto *dataframe* do pandas.

<span style="color:red">ESCREVER AQUI</span>


In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from pathlib import Path
from ydata_profiling import ProfileReport


In [2]:
renda = pd.read_csv('previsao_de_renda.csv')

In [3]:
renda.head(1)

Unnamed: 0.1,Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda
0,0,2015-01-01,15056,F,False,True,0,Empresário,Secundário,Solteiro,Casa,26,6.60274,1.0,8060.34


#### Entendimento dos dados - Univariada
Nesta etapa tipicamente avaliamos a distribuição de todas as variáveis. 

In [4]:
prof = ProfileReport(renda, explorative=True, minimal=True)
prof

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [5]:
try:
    # Expand the '~/Desktop/nalisys.html' path
    output_path = Path("~/Desktop/nalisys.html").expanduser()
    # Save the profile to the resolved file path
    prof.to_file(output_path)
except RuntimeError as e:
    print(f"Error: {e}")
    print("Could not determine home directory. Please check your environment.")

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

<span style="color:red">ESCREVER AQUI</span>


### Entendimento dos dados - Bivariadas




<span style="color:red">ESCREVER AQUI</span>

a tabela apresenta tres alertas sobre o conjunto de dados
tempo_emprego: possui 17.2% dos valores faltantes. isso significa que para
uma parte significativa das observacoes, nao se tem informacao sobre o tempo
de emprego.

Unnamed: 6: Possui valores únicos. Isso pode indicar uma variável identificadora ou uma
 variável com pouquíssima variabilidade, o que pode não ser útil para análises bivariadas.

 qtd_filhos: Apresenta 69,2% de zeros. Isso sugere que uma grande proporção das
observações corresponde a pessoas sem filhos.


## Etapa 3 Crisp-DM: Preparação dos dados
Nessa etapa realizamos tipicamente as seguintes operações com os dados:

 - **seleção**: Já temos os dados selecionados adequadamente?
 - **limpeza**: Precisaremos identificar e tratar dados faltantes
 - **construção**: construção de novas variáveis
 - **integração**: Temos apenas uma fonte de dados, não é necessário integração
 - **formatação**: Os dados já se encontram em formatos úteis?



<span style="color:red">ESCREVER AQUI</span>


In [6]:
renda.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

In [7]:
# Excluindo colunas desnecessárias do DataFrame
colunas_para_remover = ['Unnamed: 0', 'id_cliente']

# Verificando se as colunas existem antes de tentar removê-las
renda.drop(columns=[coluna for coluna in colunas_para_remover if coluna in renda.columns], inplace=True)


In [8]:
renda.isna().sum()

data_ref                    0
sexo                        0
posse_de_veiculo            0
posse_de_imovel             0
qtd_filhos                  0
tipo_renda                  0
educacao                    0
estado_civil                0
tipo_residencia             0
idade                       0
tempo_emprego            2573
qt_pessoas_residencia       0
renda                       0
dtype: int64

In [9]:
renda = renda.dropna()

In [10]:
num_duplicates = renda.duplicated().sum()
print(num_duplicates)

337


In [11]:
renda = renda.drop_duplicates()

In [12]:
renda['tem_filhos'] = renda['qtd_filhos'] != 0

In [13]:
new_order = ['sexo', 'posse_de_veiculo', 'posse_de_imovel', 'qtd_filhos', 'tem_filhos', 'tipo_renda', 'educacao',
             'estado_civil', 'tipo_residencia', 'idade' , 'tempo_emprego', 'qt_pessoas_residencia', 'renda']
renda = renda.reindex(columns=new_order)


In [14]:
renda = pd.get_dummies(renda, columns=['sexo', 'tipo_renda', 'educacao', 'tipo_residencia', 'estado_civil'])

In [15]:
renda.drop(labels='tem_filhos', axis=1, inplace=True)

In [16]:
def replace_outliers_with_std(renda):
    for col in renda.select_dtypes(include='number').columns:
        q1 = renda[col].quantile(0.25)
        q3 = renda[col].quantile(0.75)
        iqr = q3 - q1
        lower_bound = q1 - 1.5 * iqr
        upper_bound = q3 + 1.5 * iqr

        # Identificar outliers
        outliers = (renda[col] < lower_bound) | (renda[col] > upper_bound)

        # Substituir outliers pelo desvio padrão da coluna
        renda.loc[outliers, col] = renda[col].std()

    return renda

# Aplicando a função ao DataFrame
renda = replace_outliers_with_std(renda)

  renda.loc[outliers, col] = renda[col].std()
  renda.loc[outliers, col] = renda[col].std()


## Etapa 4 Crisp-DM: Modelagem
Nessa etapa que realizaremos a construção do modelo. Os passos típicos são:
- Selecionar a técnica de modelagem
- Desenho do teste
- Avaliação do modelo


<span style="color:red">ESCREVER AQUI</span>


### Rodando o modelo


<span style="color:red">ESCREVER AQUI</span>


In [17]:
X = renda.drop(['renda'], axis=1).copy()
y= renda['renda']

In [18]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.20, random_state=42)

In [19]:
from sklearn.ensemble import RandomForestRegressor
modelo_1 = RandomForestRegressor(max_depth=2)
modelo_2 = RandomForestRegressor(max_depth=8)

modelo_1.fit(X_train, y_train)
modelo_2.fit(X_train, y_train)

In [20]:
mse1 = modelo_1.score(X_test, y_test)
mse2 = modelo_2.score(X_test, y_test)

print(f'O mse do modelo 1 é {mse1}')
print(f'O mse do modelo 2 é {mse2}')

O mse do modelo 1 é 0.2596608533221686
O mse do modelo 2 é 0.37407601897000364


In [21]:
modelo_2 = RandomForestRegressor (max_depth=8, min_samples_leaf=20)
modelo_2.fit(X_train, y_train)
mse1 = modelo_2.score(X_test, y_test)
mse1

0.35919873778694933

In [22]:
r2s = []
i_indicador = []
j_indicador = []

for i in range(1, 9):
    for j in range (1, 9):
        modelo_2 = RandomForestRegressor(max_depth = i, min_samples_leaf=j, random_state=42)
        modelo_2.fit(X_train, y_train)
        r2_1 = modelo_2.score(X_test, y_test)
        r2s.append(r2_1)
        i_indicador.append(i)
        j_indicador.append(j)

In [23]:
renda_r2 = pd.DataFrame({'r2': r2s, 'profundidade': i_indicador, 'n_minimo': j_indicador})
sns.heatmap(renda_r2.pivot(index='profundidade', columns='n_minimo', values='r2'))
renda_r2.pivot(index='profundidade', columns='n_minimo', values='r2')

n_minimo,1,2,3,4,5,6,7,8
profundidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,0.124547,0.124547,0.124547,0.124547,0.124547,0.124547,0.124547,0.124547
2,0.258317,0.258317,0.258317,0.258317,0.258317,0.258317,0.258317,0.258317
3,0.308969,0.308969,0.308969,0.308969,0.308969,0.308969,0.308969,0.308969
4,0.33023,0.330242,0.330254,0.330259,0.330253,0.330276,0.330292,0.330271
5,0.337758,0.337695,0.337552,0.337442,0.337394,0.337402,0.337298,0.33715
6,0.348613,0.348061,0.347727,0.347465,0.347271,0.347354,0.34727,0.346908
7,0.360793,0.359149,0.358828,0.358308,0.357753,0.357279,0.356777,0.3565
8,0.375021,0.372722,0.371417,0.370884,0.369262,0.368356,0.367399,0.366385


In [24]:

from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [100, 200, 300, 400, 500, 1000],
}

# Crie o modelo
rf = RandomForestRegressor(max_depth = 7, min_samples_leaf=7, random_state=42)

# Realize o grid search
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Melhor modelo
best_model = grid_search.best_estimator_

In [25]:
print(best_model)

RandomForestRegressor(max_depth=7, min_samples_leaf=7, n_estimators=400,
                      random_state=42)


In [26]:
modelo_final = RandomForestRegressor(max_depth = 7, min_samples_leaf=7, n_estimators=500, random_state=42)

modelo_final.fit(X_train, y_train)
y_pred = modelo_final.predict(X_test)

## Etapa 5 Crisp-DM: Avaliação dos resultados


<span style="color:red">ESCREVER AQUI</span>


entre tabelas.

Etapa 3: Preparação dos Dados
Nesta etapa, realizamos a limpeza e preparação dos dados para garantir que estivessem adequados à modelagem. Esse processo incluiu o tratamento de valores ausentes, remoção de outliers e padronização das variáveis.

Etapa 4: Modelagem dos Dados
Aplicamos o modelo de Random Forest para prever a renda. Os resultados obtidos foram:

Desempenho moderado: O valor de R2=0,3469R2=0,3469 indica que o modelo possui desempenho moderado na tarefa de prever a renda. Embora seja capaz de identificar algumas tendências nos dados, ele não captura toda a variabilidade, resultando em erros significativos em algumas previsões.
Erros: As métricas de MAE (Erro Absoluto Médio) e MSE (Erro Quadrático Médio) mostraram que o modelo apresenta erros consideráveis.
Acurácia: O modelo apresentou uma acurácia de 24,12%, o que também reforça que há espaço para melhorias na sua performance.

Etapa 5: Avaliação dos Resultados
Com base nos resultados da modelagem, podemos concluir que o modelo de Random Forest teve um desempenho moderado. Ele é útil para identificar tendências gerais, mas melhorias significativas podem ser feitas para aumentar sua precisão. Recomenda-se explorar ajustes nos hiperparâmetros do modelo, incluir variáveis adicionais relevantes ou testar outros algoritmos de aprendizado de máquina.

## Etapa 6 Crisp-DM: Implantação
Nessa etapa colocamos em uso o modelo desenvolvido, normalmente implementando o modelo desenvolvido em um motor que toma as decisões com algum nível de automação.

In [27]:
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_test, y_pred)
mse

6621297.11088537

In [28]:
r2_train = modelo_final.score(X_train, y_train)
r2_test = modelo_final.score(X_test, y_test)

print(r2_train)
print(r2_test)

0.397394778494531
0.3577946863918894
