# <b>Previsão De Renda</b>
---


# **1. Entendimento do Negócio** <a name="entendimento_negocio"></a>  


### **Objetivos do Projeto** 

<p align='justify'>Este projeto tem como objetivo desenvolver um modelo de <b>Machine Learning</b> para prever a renda de indivíduos com base em dados históricos e variáveis socioeconômicas. Uma previsão precisa da renda pode ser valiosa para diversas aplicações, como análise de crédito, formulação de políticas públicas, estudos de mercado e planejamento financeiro. Este projeto integra o curso de Ciência de Dados da EBAC.</p>  


Essa versão melhora a fluidez, torna a leitura mais envolvente e destaca melhor o contexto do projeto.


### **Contexto**  


<p align='justify'>A renda de uma pessoa pode ser influenciada por diversos fatores, como nível de escolaridade, profissão, idade, gênero e outros aspectos socioeconômicos. Modelar essa relação por meio de técnicas de Machine Learning permite identificar padrões ocultos nos dados e fornecer previsões mais precisas.</p>

<p align='justify'>Neste projeto, utilizamos um conjunto de dados contendo informações individuais e características relevantes para a estimativa de renda. O objetivo é construir um modelo preditivo que possa auxiliar na análise de diferentes perfis de renda e apoiar decisões estratégicas baseadas em dados.</p>  


----

# 2. Entendimento dos Dados  <a name="entendimento_dados"></a>

<div style="text-align: justify"
  
Nesta etapa do projeto, exploramos os dados para entender suas características, padrões e possíveis problemas. Utilizamos **análises univariadas** e **bivariadas** para explorar as distribuições de variáveis individuais e as relações entre variáveis.

[Voltar ao índice](#Contents)

## Import das bibliotecas/pacotes <a name="bibliotecas"></a>

Aqui concentrarei todas as bibliotecas utilizadas durante o projeto

[Voltar ao índice](#Contents)

In [5]:
# ===============================
# Bibliotecas para manipulação de dados
# ===============================
import pandas as pd
import numpy as np

# ===============================
# Bibliotecas para visualização de dados
# ===============================
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from sklearn import tree  # Para exibição de árvores de decisão

# ===============================
# Bibliotecas para estatísticas e modelagem estatística
# ===============================
import statsmodels.api as sm
import statsmodels.formula.api as smf
import patsy

# ===============================
# Bibliotecas para Machine Learning
# ===============================
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import Lasso, Ridge, ElasticNet, LinearRegression
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn import datasets

# ===============================
# Bibliotecas para avaliação de modelos
# ===============================
from sklearn.metrics import accuracy_score,confusion_matrix,mean_absolute_error,mean_squared_error, r2_score

# ===============================
# Outras bibliotecas
# ===============================
import warnings
warnings.filterwarnings('ignore')


## Importação dos Dados <a name="importacao_dados"></a>

Nesta etapa, importaremos a base de dados que será utilizada ao longo do projeto.

[Voltar ao índice](#Contents)

In [7]:
# Importando a base de Dados

df = pd.read_csv('previsao_de_renda.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'previsao_de_renda.csv'

In [None]:
# Excluindo a coluna 'Unnamed:0'

df = df.drop(columns = 'Unnamed: 0', axis =1)

## Informações e visualização dos dados importados <a name="info"></a>
Iniciaremos a exploração visualizando as 5 primeiras e 5 últimas entradas do DataFrame, obtendo assim uma visão geral de sua organização.


[Voltar ao índice](#Contents)

In [None]:
# Vizualizando as 5 primeiras linhas

df.head()

In [None]:
# Vizualizando as 5 últimas linhas

df.tail()

## Dicionário das variáveis

Com as 5 primeiras entradas impressas na tela, podemos ter então uma noção de como os dados estão estruturados, bem como quais são as variáveis mais importantes para o início da investigação. A seguir apresentaremos uma tabela contendo o significado de cada variável do DataFrame:

### Dicionário de dados


| Variable Name   | Description | Tipo  |
|-|-|-|
| data_ref |Data em que liente foi Cadastrado|String|
| id_cliente|Número de identificação do cliente|Int|
| sexo| M = 'Masculino'; F = 'Feminino' |String|
| posse_de_veiculo| Y = 'possui'; N = 'não possui' |Boolean|
| posse_de_imovel| Y = 'possui'; N = 'não possui' |Boolean|
| qtd_filhos| Quantidade de filhos |Int|
| tipo_renda|Tipo de renda (ex: assaliariado, autônomo etc) | String |
| educacao| Nível de educação (ex: secundário, superior etc) |String|
| estado_civil | Estado civil (ex: solteiro, casado etc)| String |
| tipo_residencia | tipo de residência (ex: casa/apartamento, com os pais etc) | String |
| idade | idade em anos |Int|
| tempo de emprego | tempo de emprego em anos |Int|
| qt_pessoas_residencia | quantidade de pessoas na residência |Int|
| renda| Valor recebido mensalmente| Int|

## Analisando a estrutura do Dataset <a name=estrutura></a>

Nesta etapa do projeto, realizaremos uma análise detalhada da estrutura dos dados, incluindo o número de linhas e colunas, os nomes das colunas, os tipos de dados de cada variável e outras informações relevantes que nos ajudarão a entender melhor o conjunto de dados.

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

- Obtendo a Forma do Dataframe

In [None]:
df.shape

- Visualizando as colunas do Dataframe

In [None]:
df.columns

- Obtendo as Informações do Dataframe

In [None]:
df.info()

<p align = 'justify'>A análise inicial do dataset revelou um conjunto de dados com 15.000 observações e 14 features. Entre essas features, identificamos 6 variáveis categóricas, 6 numéricas e 2 booleanas. A variável <b><code>tempo_emprego</b></code> apresenta valores ausentes, o que demandará tratamento específico. Além disso a variável <b><code>data_ref</b></code>, embora contenha informações de data, está atualmente classificada como categórica. Essa inconsistência será corrigida em uma etapa posterior, convertendo a variável para o tipo datetime. Outro ponto será a remoção da variável <b><code>id_cliente </b></code> que aparentemente não oferece nehuma agregação para a analise.</p>

----

## Análise Univariada <a name=analise_univariada></a>

<p align ='justify'>Nesta etapa do projeto, vamos realizar uma <b>análise individualizada de cada variável</b> e, para isso, desenvolveremos duas funções auxiliares que otimizarão e simplificarão o processo de visualização gráfica das variáveis do nosso conjunto de dados. O objetivo é facilitar a análise univariada, permitindo uma exploração detalhada de cada variável. A primeira função será responsável por gerar gráficos de barras utilizando o método <code>plot.bar</code>, indicado para variáveis categóricas, enquanto a segunda função utilizará o <code>histplot</code>, ideal para representar a distribuição de variáveis numéricas. Essas funções proporcionarão uma análise mais eficiente e intuitiva de cada variável, aprimorando a interpretação dos dados e a comunicação dos resultados.</p>
     
[Voltar ao índice](#Contents)



- Função para Variáveis Categóricas

In [None]:
def distribuicao_categorica(column):

  '''Essa função servirá para criar gráficos de barras das variáveis categóricas de forma automatizada, sem precisar repetir o código várias vezes.
  '''

  plt.figure(figsize=(8, 6))  # Define o tamanho do gráfico

  # Criar o gráfico de barras com a paleta personalizada
  grafico_barras = df[column].value_counts().plot.bar()
  plt.title(f'Distribuição de {column}', fontsize=14)  # Título do gráfico
  plt.xlabel(column, fontsize=12)  # Rótulo do eixo X
  plt.ylabel('Contagem', fontsize=12)  # Rótulo do eixo Y
  plt.xticks(rotation=45)  # Gira os rótulos do eixo X para melhor leitura
  plt.tight_layout()  # Ajusta o layout para evitar sobreposição
  plt.show()  # Exibe o gráfico

- Função para Variáveis Numéricas

In [None]:
def distribuicao_numerica(column):
  '''Essa função ajudará a visualizar distribuições de variáveis numéricas através do histplot'''

  plt.figure(figsize=(8, 6))  # Define o tamanho do gráfico
  sns.set_theme(style='darkgrid') # Define o tema escuro para os gráficos
  # Criar o gráfico de barras com a paleta personalizada
  sns.histplot(df, x = column, bins = 50)
  plt.title(f'Distribuição de {column}', fontsize=14)  # Título do gráfico
  plt.xlabel(column, fontsize=12)  # Rótulo do eixo X
  plt.ylabel('Contagem', fontsize=12)  # Rótulo do eixo Y
  plt.xticks(rotation=45)  # Gira os rótulos do eixo X para melhor leitura
  plt.tight_layout()  # Ajusta o layout para evitar sobreposição
  plt.show()  # Exibe o gráfico

###  Atributos **categóricos**

Nesta etapa, concentraremos nossa atenção na análise das variáveis categóricas, buscando entender suas características e comportamentos dentro do conjunto de dados.

- Distribuição da variável **`sexo`**

In [None]:
distribuicao_categorica('sexo')

<p align="justify">A análise da variável <b><code>sexo</code></b> mostrou que a maioria dos clientes na base de dados é do sexo feminino, evidenciando a predominância desse grupo.</p>

- Distribuição da variável **`tipo_renda`**

In [None]:
distribuicao_categorica('tipo_renda')

Após analisar a variável **`tipo_renda`**, observamos uma concentração em clientes que são **assalariados**.

- Distribuição da variável **`estado_civil`**

In [None]:
distribuicao_categorica('estado_civil')

Após a análise da variável <b><code>estado_civil</b></code>, identificamos uma concentração significativa de clientes casados, enquanto os demais estados civis apresentam distribuições relativamente equilibradas entre si.

- Distribuição da variável **`educacao`**

In [None]:
distribuicao_categorica('educacao')

<p align="justify">Após a análise da variável <b><code>escolaridade</code></b>, verificamos que a <b>maioria dos clientes possui escolaridade secundária</b>, ou seja, concluíram até o ensino médio. Em seguida, a escolaridade superior completa apresenta a segunda maior concentração, embora em menor proporção. Já os demais níveis educacionais apresentam mostram proporções relativamente baixas e homogêneas entre si, sem variações significativas.

- Distribuição da variável **`tipo_residencia`**

In [None]:
distribuicao_categorica('tipo_residencia')

<p align="justify">Após a análise da variável <b><code>tipo_residencia</b></code>, identificamos <b>uma concentração significativa de clientes que residem em casas</b>, enquanto os demais tipo de residência apresentam apresentam proporções relativamente baixas e homogêneas entre si, sem variações significativas

- Distribuição da variável **`posse_de_veiculo`**

In [None]:
distribuicao_categorica('posse_de_veiculo')

Após a analise da variável **`posse_de_veiculo`** identificamos que a maioria dos clientes <b>não possuem veículo</b>.

- Distribuição da variável **`posse_de_imovel`**

In [None]:
distribuicao_categorica('posse_de_imovel')

Após a analise da variável **`posse_de_imovel`** identificamos uma concentração maior de clientes que <b>possuem imóveis</b>.

###  Atributos **numéricos**

Nesta etapa, concentraremos nossa atenção na análise das variáveis numéricas, buscando entender suas características e comportamentos dentro do conjunto de dados.

In [None]:
# Realizando a Análise estatística dos dados numéricos

df.describe().T

-  **id_cliente**: O id_cliente possui uma variabilidade normal para uma variável de identificação, com IDs variando de 1 a 16.649. Como é uma variável que não possui relevancia para a análise, iremos exclui-lá posteriormente.

- **qtd_filhos**: A quantidade de filhos varia de de 0 a 14, com grande concentração de clientes sem filhos (mediana de 0). Existem poucos casos com até 14 filhos, mas são exceções.

- **idade**: A idade possui uma média de 43.88 anos, com uma variação de 22 a 68 anos. A maioria dos clientes está na faixa adulta, e a distribuição é relativamente simétrica.

- **tempo_emprego**: A variável tempo de emprego possui dados ausentes, como já vimos anteriormente. A média é de 7.72 anos, mas a variável tem alta dispersão (de 0.12 a 42.91 anos), o que pode sugerir tanto recém-contratados quanto clientes com longa experiência na empresa.

- **qt_pessoas_residencia**: A quantidade de pessoas por residencia possui uma média de 2.20 pessoas por residência, com mediana de 2. A maior parte dos clientes vive com 2-3 pessoas, mas existem alguns casos extremos de pessoas que vivem com até 15 pessoas.

- **renda**: A renda possui uma média de 5.697,29, mas com grande variação (desvio padrão de 8.266,82), indicando a presença de outliers. A renda varia de 118.71 a 245.141,67, o que pode distorcer análises se não tratado.

---

- Distribuição da variável **`qtd_filhos`**

In [None]:
distribuicao_numerica('qtd_filhos')

A análise da variável <b><code>qtd_filhos</b></code>, observamos que <b>a maioria dos clientes não possui filhos</b>. Além disso, identificamos uma parcela menor de clientes com 1 ou 2 filhos, enquanto quantidades superiores são ainda menos frequentes.

----

- Distribuição da variável `idade`

In [None]:
distribuicao_numerica('idade')

A análise da variável **`idade`**, mostrou  que a maior parte dos clientes na base de dados se encontra na faixa etária entre 25 e 60 anos, com alguns picos de frequência em torno dos 30, 40 e 60 anos. Observamos uma leve assimetria à direita, sugerindo uma presença reduzida de clientes com idade superior a 60 anos.

---

- Distribuição da variável `tempo_emprego`

In [None]:
distribuicao_numerica('tempo_emprego')

<p align="justify"> Após a análise da variável <b><code>tempo_emprego</b></code>, identificamos que a maioria dos clientes possui um tempo de emprego inferior a 10 anos. Essa distribuição sugere uma predominância de profissionais em estágios iniciais ou intermediários de carreira, podendo incluir indivíduos que recentemente ingressaram no mercado de trabalho ou que possuem maior rotatividade profissional. Entretando possui uma parcela menos significativa de clientes que trabalham entre 20 e 40 anos, o que pode ser explicado por temos um grande números de clientes com 40 e 60 anos de idade. Esse comportamento pode ser útil para entender a relação entre estabilidade no emprego e renda.</p>

---

- Distribuição da variável **`qt_pessoas_residencia`**

In [None]:
distribuicao_numerica('qt_pessoas_residencia')

<p align="justify">Após analisar a variável <b><code>qt_pessoas_residencia</code></b>, observamos que a maioria dos clientes reside em lares com 2 pessoas, o que sugere que muitos vivem com um cônjuge. Isso pode estar relacionado ao fato de que nossa base de dados contém uma proporção maior de clientes casados. Além disso, identificamos uma parcela menor de clientes que moram sozinhos (1 pessoa) ou em residências com 3 ou 4 pessoas, sendo que domicílios com um número ainda maior de moradores são menos frequentes.</p>

---


- Distribuição da variável **`renda`**

In [None]:
distribuicao_numerica('renda')

<p align="justify"> A análise da variável <b><code>renda</b></code> nos mostrou que a distribuição da variável renda apresenta uma assimetria acentuada à direita, o que indica que a maioria dos clientes possui uma renda concentrada em valores mais baixos, enquanto uma parcela menor apresenta rendas significativamente mais elevadas. Essa disparidade pode sugerir a presença de outliers, que podem distorcer medidas estatísticas como a média.

---

## Análise Bivariada <a name=analise_bivariada></a>

<p align="justify">Nesta etapa do projeto, conduziremos uma análise detalhada sobre a relação entre diferentes variáveis e a variável <b>renda</b>. Nosso objetivo é identificar padrões, tendências e possíveis fatores determinantes que influenciam o valor da renda de cada indivíduo, contribuindo para uma compreensão mais profunda do comportamento desses dados. Para isso criaremos duas funções, uma delas utilizando <b>sns.barplot()</b> para facilitar a plotagem dos gráficos das variáveis categóricas e a outra utilizando <b>sns.pointplot()</b> para as variáveis booleanas.</p>

     
[Voltar ao índice](#Contents)



- Criando uma função para plotagem da análise bivariada das <b>variáveis categóricas</b>

In [None]:
# Define um tema global para os gráficos
sns.set_theme(style='darkgrid')

# Cria uma função para plotar o gráfico de barras
def plot_renda_por_categoria(df, coluna):
    """Gera um gráfico de barras da soma da renda por uma variável categórica."""

    plt.figure(figsize=(10, 6))

    # Agrupa e ordena os dados
    agrupado = df.groupby(coluna)['renda'].mean().sort_values()

    # Cria um gráfico de barras
    ax = sns.barplot(x=agrupado.index, y=agrupado, hue=agrupado.index, palette='crest', legend=False)

    # Melhora a rotação dos rótulos do eixo X
    plt.xticks(rotation=30, ha='right')

    # Define título e rótulos
    ax.set_title(f'Renda Total em função de {coluna}', fontsize=14)
    ax.set_xlabel(coluna, fontsize=12)
    ax.set_ylabel('Renda Média (R$)', fontsize=12)

    # Exibe gráfico
    plt.show()




- Criando uma função para plotagem da análise bivariada das <b>variáveis booleanas</b>

In [None]:
sns.set_theme(style='darkgrid')

def plot_media_por_categoria(column):
    """
    Gera um gráfico de pontos (pointplot) mostrando a média de 'valor' por 'categoria',
    com intervalo de confiança de 95%.

    Parâmetros:
    - df: DataFrame com os dados
    - categoria: Nome da variável categórica (string)
    - valor: Nome da variável numérica a ser analisada (padrão: 'renda')
    """


    # Criar a figura
    plt.figure(figsize=(8, 5))

    # Criar o gráfico de pointplot
    sns.pointplot(
        x=column,
        y='renda',
        data=df,
        dodge=True,
        errorbar=('ci', 95)
    )

    plt.title(f'Renda Média em Função de {column}')
    plt.ylabel('Renda Média (R$)')
    # Exibir o gráfico
    plt.show()


- renda x tipo_renda

In [None]:
plot_renda_por_categoria(df, 'tipo_renda')

<p align="justify">Ao analisar a distribuição da renda de acordo com o <b><code>tipo_renda</code></b>, podemos notar que os <b>indivíduos com a maior distribuição de renda são os servidores públicos</b>, que representam uma minoria em nosso banco de dados. Isso implica que servidores públicos possuem uma renda elevada. Por outro lado, os indivíduos assalariados, que são a maioria em nosso banco de dados, têm a segunda maior distribuição de renda. Já os demais tipo de renda apresentam mostram distribuições de renda relativamente homogêneas entre si, sem variações significativas.</p>

----

- renda x educação

In [None]:
plot_renda_por_categoria(df,'educacao')

<p align="justify"> Ao analisar a distribuição da variável renda de acordo com a <b><code>educação</code></b>, nota-se que, embora representem a segunda maior frequência em nossos bancos de dados, os clientes com maior renda são aqueles que possuem <b>Ensino Superior Completo</b>. Isso nos permite inferir que pessoas com ensino superior completo tendem a ter uma renda maior. Por outro lado, os clientes com maior frequência em nosso banco de dados, <b>aqueles que possuem Ensino Secundário</b>, representam a segunda maior distribuição de renda. Essa semelhança na distribuição de renda pode ser explicada pelo grande número de pessoas com ensino secundário, em contraste com a renda mais elevada daqueles com ensino superior.  Já os demais níveis educacionais apresentam mostram distribuições de renda relativamente homogêneas entre si, sem variações significativas.</p>

---

- renda x 'estado_civil'

In [None]:
plot_renda_por_categoria(df, 'estado_civil')

<p align="justify"> Ao analisar a distribuição da renda de acordo com o <b><code>estado_civil</code></b>, observamos que pessoas <b>casadas</b> possuem a maior renda média, possivelmente devido à maior estabilidade profissional e financeira. Por outro lado, <b>solteiros, separados e aqueles em união estável</b> apresentam rendas intermediárias, sugerindo que o estado civil pode influenciar a renda, mas não de forma isolada. Já os <b>viúvos</b> possuem a menor renda média, o que pode estar relacionado à aposentadoria ou à perda de um cônjuge que era o principal provedor. Dessa forma, o estado civil pode refletir, indiretamente, fatores como <b>experiência profissional, estabilidade financeira e participação no mercado de trabalho</b>. Enquanto casados tendem a ter melhores rendimentos, viúvos enfrentam maiores desafios financeiros.</p>

---



- renda x 'tipo_residencia'

In [None]:
plot_renda_por_categoria(df,'tipo_residencia')

<p align="justify">A análise da renda em relação ao <b><code>tipo de residência</code></b> revela que, apesar de representarem uma parcela pequena do banco de dados, pessoas que vivem em <b>estúdios</b> apresentam uma distribuição de renda significativamente mais elevada em comparação aos demais tipos de residência, que mantêm uma distribuição semelhante entre si. Esse padrão sugere que a variável <code>tipo_residência</code> pode ser um fator relevante para auxiliar no modelo preditivo.</p>

---

- renda x 'qtd_filhos'

In [None]:
plot_renda_por_categoria(df,'qtd_filhos')

<p align="justify">A análise da renda em relação ao <b><code>quantidade de filhos</code></b> revelou que, a renda média varia conforme o número de filhos. Observa-se que pessoas com 2 a 4 filhos apresentam uma renda média maior do que aquelas com 0 ou 1 filho, o que pode indicar que residências com poucas pessoas possuem indivíduos com maior poder aquisitivo, que moram sozinhos ou em famílias menores. Entretando arenda média reduz significativamente para quem tem 5 ou mais filhos, sendo a menor registrada para indivíduos com 7 filhos. Desta forma podemos inferir que o aumento excessivo de filhos pode impactar a renda disponível devido a maiores despesas, reduzindo a capacidade de trabalho ou investimentos na carreira. A relação entre número de pessoas na residência e renda não é linear, sendo importante testar a categorização desta variável</p>

- renda x 'qt_pessoas_residencia'

In [None]:
plot_renda_por_categoria(df,'qt_pessoas_residencia')

<p align="justify"> A análise da renda média por <b>quantidade de pessoas na residência</b> noa mostrou que a renda média parece aumentar até um certo número de pessoas (cerca de 4 a 7), mas cai drasticamente para famílias muito grandes. Residências com poucas pessoas podem indicar indivíduos com maior poder aquisitivo, que moram sozinhos ou em famílias menores. Enquanto residências que possuem entre 4 e 7 pessoas, pode haver um equilíbrio entre renda e estrutura familiar, sugerindo lares onde há múltiplos contribuintes financeiros. Já residências com 9 ou mais pessoas tendem a ter renda média menor, possivelmente indicando famílias de baixa renda, onde há mais dependentes do que provedores.</p>

---


- renda x 'posse_de_veiculo'

In [None]:
plot_media_por_categoria('posse_de_veiculo')

Após analisar a relação entre a renda média e a variável **<code>posse_de_veiculo</code>**, observamos que pessoas sem veículo apresentam, em média, uma renda inferior às que possuem. A diferença é significativa, indicando uma tendência clara de maior renda entre aqueles que têm um veículo. Como a maioria dos indivíduos em nosso dataset não possui veículo, esse padrão torna-se ainda mais relevante. Assim, podemos inferir que <b><code>posse_de_veiculo</code></b> pode ser um fator importante para um modelo preditivo de renda.  

---


- renda x 'posse_de_imovel'

In [None]:
plot_media_por_categoria('posse_de_imovel')

<p align ="justify">Após analisar a relação entre a renda média e a variável <b><code>posse_de_imovel</code></b>, observamos que pessoas que <b>não possuem imóvel</b>(False) têm, em média, uma renda ligeiramente inferior àquelas que possuem (True). No entanto, essa diferença é bem menos expressiva do que no caso da posse de veículo. Além disso, os intervalos de confiança (barras verticais) são mais amplos, indicando uma maior variabilidade nos dados, embora a tendência geral se mantenha. Vale destacar que a maioria dos clientes em nosso dataset possui imóvel, o que pode influenciar essa distribuição.</p>

---

- renda x 'sexo'

In [None]:
plot_media_por_categoria('sexo')

<p align='justify'>Após analisar a relação entre a renda média e a variável <b></b><code>sexo</code></b>, observamos que pessoas do gênero <b></b>masculino</b> (M) possuem uma renda média significativamente maior do que as do gênero  <b>feminino </b>(F), chegando a ser quase o dobro. Essa discrepância sugere que o sexo pode desempenhar um papel relevante na predição da renda. Além disso, como a maioria dos clientes em nosso dataset é do sexo feminino, essa diferença pode impactar a distribuição geral dos dados e a interpretação dos resultados.  

---

- Análise do Valor da renda em relação ao tempo de emprego

In [None]:
# Definir tema
sns.set_theme(style='darkgrid')

# Criar figura
plt.figure(figsize=(12, 6))

# Criar gráfico de linha para análise temporal
ax = sns.lineplot(
    data=df,
    x='tempo_emprego',   # Variável temporal (ex: ano, mês, dia)
    y='renda',  # Variável a ser analisada
    marker='o',  # Adiciona marcadores nos pontos
    color='b',   # Cor azul
    linestyle='-'
)

# Ajustar os rótulos do eixo X
plt.xticks(rotation=45, ha='right')

# Títulos e rótulos
plt.title('Valor da renda em relação ao tempo de emprego', fontsize=14)
plt.xlabel('tempo_emprego', fontsize=12)
plt.ylabel('Renda Média (R$)', fontsize=12)

# Ajustar layout para evitar cortes nos rótulos
plt.tight_layout()

# Exibir gráfico
plt.show()


<p align="justify">Após analisar a renda média em função da variável <b><code>tempo_emprego</code></b>, observamos que, com o aumento do tempo de emprego, há uma maior variação na distribuição de renda média por cliente. Para aqueles empregados por até 10 anos, a distribuição de renda permanece relativamente estável, sem grandes alterações. No entanto, a partir de 20 anos de emprego, a distribuição de renda média começa a apresentar mudanças mais expressivas, o que sugere que, com o tempo, os funcionários têm mais oportunidades de crescimento dentro da empresa, resultando em um aumento salarial mais expressivo.</p>

---


## Insights Preliminares

Após analisar a relação entre a renda e as demais variáveis do nosso DataFrame, podemos inferir que <b>algumas variáveis apresentaram grande potencial preditivo para o nosso modelo</b>. Entre elas, destacam-se `tipo_renda`, `educacao`, `posse_de_veiculo`, `sexo` e `tempo_emprego`. Ao examiná-las em relação à renda, nossa variável alvo, observamos uma variação significativa na distribuição de renda média dentro de suas categorias. Isso sugere que essas variáveis podem ser boas preditoras da renda. Entretanto, essa relação será analisada de maneira mais detalhada e quantitativa durante a fase de modelagem, onde avaliaremos o impacto dessas variáveis no desempenho do modelo preditivo.

---

# Pré- Processamento dos Dados  <a name=pre_processamento_dados></a>

<p align="justify">Nesta etapa do projeto, iremos realizar o pré-processamento completo dos dados, abrangendo as etapas de limpeza e tratamento, como a remoção de valores ausentes ou inconsistentes e a padronização das variáveis. Em seguida, procederemos com a conversão das variáveis categóricas em variáveis dummies, facilitando a utilização no modelo. Também faremos a separação dos dados em variáveis explicativas e variável alvo, garantindo a estrutura necessária para análise. Por fim, os dados serão divididos em conjuntos de treino e teste, assegurando que o modelo seja avaliado de forma robusta e sem viés.</p>
     
[Voltar ao índice](#Contents)

## Limpeza e Tratamento de Dados <a name=limpeza></a>

<p align= "justify">

A preparação dos dados para análise é fundamental para garantir a qualidade e a confiabilidade dos resultados. Nesta etapa, realizaremos as seguintes atividades:</p>

- **Limpeza de Dados**:
  
  - Verificar e tratar os valores ausentes
  - Verificar e tratar os dados duplicados
  - Verificar e tratar os Outliers

- **Transformação de Dados**:

  - Transformar a variável **data_ref**
  - Excluir a variável **id_cliente**
  - Codificação de variáveis categóricas usando .get_dummies()
  - Normalização/escala


### Identificando Valores Ausentes (Nan)<a name=nan></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
# CALCULANDO OS VALORES AUSENTES NO DATAFRAME

df.isnull().sum()

Como observado anteriormente, a variável `tempo_emprego` contém 2.573 valores ausentes. Nesta etapa, vamos calcular a porcentagem desses valores em relação ao total do nosso dataframe, analisar o impacto da ausência desses dados na qualidade da análise e, com base nessa avaliação, decidir o método mais apropriado para o tratamento dessas lacunas.

- Verificando a porcentagem de Valores Ausentes sa coluna  **tempo_emprego**

In [None]:
# Obtendo o total de linhas do DataFrame
total = len(df)

# Contando os valores nulos na coluna 'tempo_emprego  '
tempo_emprego = df['tempo_emprego'].isnull().sum()

# Calculando a porcentagem de valores nulos
pct_nan = tempo_emprego / total

# Exibindo os resultados
print(f"Total de linhas: {total}")
print(f"Número de valores ausentes em 'tempo_emprego': {tempo_emprego}")
print(f"Percentual de Missing Values: {pct_nan:.2%}")

### Tratando os valores ausentes da variável **tempo_emprego**

Como apenas **17,15%** dos valores da variável `tempo_emprego` estão ausentes, é preferível preencher esses dados utilizando a **média** dos valores disponíveis. Essa abordagem ajuda a preservar o tamanho da amostra e minimizar possíveis distorções na análise, garantindo que a variável continue sendo considerada sem a perda de informações relevantes.

- Preenchendo os valores ausentes com a média dos valores da variável <code>tempo_emprego</code>

In [None]:
# Calculando a média da variável tempo_emprego

media = df['tempo_emprego'].median()

# Preenchendo os valores ausentes com a média

df['tempo_emprego'] = df['tempo_emprego'].fillna(media)


In [None]:
# Verificando se ainda existem valores ausentes

df.isnull().sum()

Após preenchermos os dados faltantes da variável <b>tempo_emprego</b>, nosso dataset não possui mais dados ausentes.

### Identificando Valores Duplicados<a name=duplicados></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
# Identificando linhas duplicadas

duplicados = df.duplicated().sum()
print(f'O dataframe possui {duplicados} linhas duplicadas')

In [None]:
# Exclindo linhas duplicadas

df = df.drop_duplicates(keep='first')  # Mantém a primeira ocorrência

In [None]:
# Verificando se ainda possuimos linhas duplicadas

duplicados = df.duplicated().sum()
print(f'O dataframe possui {duplicados} linhas duplicadas')

In [None]:
# Verificando o novo formato do dataframe

df.shape

Após a remoção das duplicatas nosso dataset passou a ter 14593 observações.

### Identificando e Tratando Outliers<a name=outlier></a>

<div style="text-align: right"
     
[Voltar ao índice](#Contents)

In [None]:
for nome_coluna in df.columns:
    fig = px.box(df, y=nome_coluna, title=f"Boxplot de {nome_coluna}")  # Criar boxplot com título
    fig.show()  # Exibir o gráfico individualmente

### Transformação da Variável **data_ref** <a name="transformacao"></a>

Conforme verificamos anteriormente, a variável data_ref estava no formato string. Para que possamos trabalhar de maneira mais eficiente com esta variável, é necessário transformá-la para o formato de data.

- Verificando o tipo da variável **data_ref**

In [None]:
print(df['data_ref'].dtype)

- Transformando o tipo da variável **data_ref**

In [None]:
df['data_ref'] = pd.to_datetime(df['data_ref'])


- Verificando a variável **data_ref** após a modificação

In [None]:
print(df['data_ref'].dtype)

In [None]:
df['data_ref'] = df['data_ref'].astype('int64')

### Excluir a variável **id_cliente**

In [None]:
df = df.drop(columns='id_cliente', axis=1)
df.head()

In [None]:
df.info()

Após a remoção da variável <b>id_cliente</b>  passou a ter 14593 observações e 13 variáveis.

### Codificação de variáveis categóricas usando `pd.get_dummies`

In [None]:
# Transformando o dataframe em dummies

df_dummies = pd.get_dummies(df)


In [None]:
# Visualizando as 5 primeiras linhas do dataframe transformado

df_dummies.head()

In [None]:
#Observando a forma do novo dataframe

df_dummies.shape

In [None]:
# Obtendo as informações do dataframe

df_dummies.info()

Após a transformação do DataFrame em variáveis dummies, os dados passaram a conter 32 variáveis e 14.593 observações, todas do tipo numérico. No entanto, será necessário padronizar os nomes das variáveis, uma vez que atualmente apresentam formatação inadequada, incluindo acentos, espaços em branco e letras maiúsculas. Essa padronização é essencial para garantir a consistência e facilitar o manuseio dos dados em análises futuras.

### Transformando as insconsistencias das variaveis dummies

In [None]:
new_columns = []

for i in df_dummies.columns:
    x = i.lower()
    x = x.replace('á', 'a').replace('ã', 'a').replace('ú', 'u').replace('ó', 'o').replace('ç', 'c').replace(' ', '_')
    new_columns.append(x)

df_dummies.columns = new_columns


df_dummies.columns = new_columns

In [None]:
df_dummies.columns

### Correlação

In [None]:
correlacao = df_dummies.corr()
correlacao

In [None]:
sns.heatmap(correlacao, cmap='coolwarm', annot=False, linewidths=0.5)

Ao analisar a correlação entre as variáveis dummies e a variável `renda`, observamos que as demais variáveis do nosso conjunto de dados não apresentam uma relação forte com a `renda`. 

## Separação das Variáveis Explicativas e da Variável Alvo

In [None]:
y = df_dummies['renda']
y

In [None]:
X = df_dummies.drop(columns= ['renda', 'data_ref'])
X.head()

## Separando em Treino e Teste

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

In [None]:
print(f'A quantidade de linhas e colunas de X_train é: {X_train.shape}')
print(f'A quantidade de linhas e colunas de X_test é: {X_test.shape}')

print(f'A quantidade de linhas y_train (70%) é: {len(y_train)}')
print(f'A quantidade de linhas de y_test (30%) é: {len(y_test)}')

# 4. Modelagem   <a name=modelagem></a>

Para a seleção do modelo de regressão, iremos testar as seguintes abordagens:

1. **Regressão Ridge**: Aplicaremos a regularização Ridge utilizando diferentes valores de alpha \([0, 0.001, 0.005, 0.01, 0.05, 0.1]\). O desempenho de cada configuração será avaliado na base de testes.

2. **Regressão Lasso**: Em seguida, utilizaremos a regularização Lasso com os mesmos valores de alpha mencionados anteriormente. A performance também será avaliada na base de testes.

3. **Modelagem Stepwise**: Construiremos modelos stepwise com diferentes configurações:
   - Renda como variável dependente, considerando todas as variáveis independentes e removendo aquelas que não forem estatisticamente significativas.
   - Log(renda) como variável dependente, repetindo o processo de remoção de variáveis não significativas.
   - Inclusão de termos polinomiais para variáveis numéricas, avaliando o impacto dessas transformações no ajuste do modelo.

4. **Árvores de Regressão**: Por fim, desenvolveremos modelos baseados em árvores de regressão. Ajustaremos os hiperparâmetros para otimizar o desempenho e maximizar o coeficiente de determinação (R²).

O modelo final será escolhido com base na performance comparativa de cada técnica, priorizando o melhor equilíbrio entre precisão e simplicidade.

[Voltar ao índice](#Contents)


## **Regressão Ridge**

In [None]:
# Ridge regression 
print("\nRidge Model............................................\n")

list_alpha = [0, 0.001, 0.005, 0.01, 0.05, 0.1]

for alpha in list_alpha:
  Ridge_reg = Ridge(alpha=alpha) # Criando o Modelo

  Ridge_reg.fit(X_test, y_test) # Treinando o Modelo

  # y predito
  y_pred_test = Ridge_reg.predict(X_test)

  # R²
  r_quad = r2_score(y_test, y_pred_test)
  print(f' O R² para o alpha de {alpha} é de {r_quad}')

## **Regressão Lasso**

In [None]:
#Lasso regression model
print("\nLasso Model............................................\n")

list_alpha = [0, 0.001, 0.005, 0.01, 0.05, 0.1]


for alpha in list_alpha:
    Lasso_reg = Lasso(alpha=alpha)

    Lasso_reg.fit(X_test, y_test)

    # y predito
    y_pred_test = Lasso_reg.predict(X_test)

    # R²

    r_quad = r2_score(y_test, y_pred_test)
    print(f' O R² para o alpha de {alpha} é de {r_quad}')

##  **Modelagem Stepwise**

- Renda como variável dependente e demais variáveis explicativas

In [None]:
# Modelo de regressão linear com todas variáveis
modelo_reg = smf.ols(
    formula="""
    renda ~
    posse_de_veiculo +
    posse_de_imovel +
    qtd_filhos +
    idade +
    tempo_emprego +
    qt_pessoas_residencia +
    sexo_f +
    sexo_m +
    tipo_renda_assalariado +
    tipo_renda_bolsista +
    tipo_renda_empresario +
    tipo_renda_pensionista +
    tipo_renda_servidor_publico +
    educacao_primario +
    educacao_pos_graduacao +
    educacao_secundario +
    educacao_superior_completo +
    educacao_superior_incompleto +
    estado_civil_casado +
    estado_civil_separado +
    estado_civil_solteiro +
    estado_civil_uniao +
    estado_civil_viuvo +
    tipo_residencia_aluguel +
    tipo_residencia_casa +
    tipo_residencia_com_os_pais +
    tipo_residencia_comunitario +
    tipo_residencia_estudio +
    tipo_residencia_governamental
    """,
    data=df_dummies
).fit()

# Resumo do modelo
modelo_reg.summary()


- Modelo de renda com variaveis significativas

In [None]:
# Modelo de regressão linear com variáveis significativas
modelo_reg2 = smf.ols(
    formula="""
    renda ~
    posse_de_imovel +
    sexo_f +
    sexo_m +
    idade +
    tempo_emprego

    """,
    data=df_dummies
).fit()

# Resumo do modelo
modelo_reg2.summary()


- log(renda) e var

In [None]:
# Modelo de regressão linear de log(renda) com todas variáveis 
modelo_reg_log = smf.ols(
    formula="""
    np.log(renda) ~
    posse_de_veiculo +
    posse_de_imovel +
    qtd_filhos +
    idade +
    tempo_emprego +
    qt_pessoas_residencia +
    sexo_f +
    sexo_m +
    tipo_renda_assalariado +
    tipo_renda_bolsista +
    tipo_renda_empresario +
    tipo_renda_pensionista +
    tipo_renda_servidor_publico +
    educacao_primario +
    educacao_pos_graduacao +
    educacao_secundario +
    educacao_superior_completo +
    educacao_superior_incompleto +
    estado_civil_casado +
    estado_civil_separado +
    estado_civil_solteiro +
    estado_civil_uniao +
    estado_civil_viuvo +
    tipo_residencia_aluguel +
    tipo_residencia_casa +
    tipo_residencia_com_os_pais +
    tipo_residencia_comunitario +
    tipo_residencia_estudio +
    tipo_residencia_governamental
    """,
    data=df_dummies
).fit()

# Resumo do modelo
modelo_reg_log.summary()


- Modelo de regressãom polinonimal 

In [None]:
# Criando o modelo de regressão polinomial
modelo_polinomial = smf.ols(
    formula="""
    np.log(renda) ~
    posse_de_veiculo +
    posse_de_imovel +
    qtd_filhos + I(qtd_filhos**2) +
    idade + I(idade**2) + I(idade**3) +  
    tempo_emprego + I(tempo_emprego**2) +
    qt_pessoas_residencia +I(qt_pessoas_residencia**2) +
    sexo_f +
    sexo_m +
    tipo_renda_assalariado +
    tipo_renda_bolsista +
    tipo_renda_empresario +
    tipo_renda_pensionista +
    tipo_renda_servidor_publico +
    educacao_primario +
    educacao_pos_graduacao +
    educacao_secundario +
    educacao_superior_completo +
    educacao_superior_incompleto +
    estado_civil_casado +
    estado_civil_separado +
    estado_civil_solteiro +
    estado_civil_uniao +
    estado_civil_viuvo +
    tipo_residencia_aluguel +
    tipo_residencia_casa +
    tipo_residencia_com_os_pais +
    tipo_residencia_comunitario +
    tipo_residencia_estudio +
    tipo_residencia_governamental
    """,
    data=df_dummies
).fit()

# Exibindo o resumo do modelo
modelo_polinomial.summary()


## **Árvores de Regressão**

<p align = "justify">Antes de avançarmos para a construção do modelo de árvore de regressão, é essencial realizar o ajuste dos hiperparâmetros. Essa etapa é crucial para otimizar o desempenho preditivo, assegurando que o modelo esteja adequadamente configurado para identificar as variáveis mais relevantes que impactam o resultado. O principal objetivo é maximizar o valor do R², aumentando a precisão das previsões e reduzindo o risco de overfitting ou underfitting. Para isso, utilizaremos o método <b><code>GridSearchCV()</code></b>, que nos permitirá identificar a combinação ideal de parâmetros para aprimorar nosso modelo preditivo.</p>

In [None]:
# Definindo o grid de parâmetros para testar
param_grid = {
    'max_depth': [3, 5, 10, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]}


# Criando o modelo base
tree_model = DecisionTreeRegressor(random_state=42)

# Aplicando GridSearch para encontrar os melhores parâmetros
grid_search = GridSearchCV(tree_model, param_grid, cv=5, scoring='r2')
grid_search.fit(X_train, y_train)

# Melhor modelo encontrado
best_tree = grid_search.best_estimator_

# Fazendo previsões e calculando o R²
y_pred_tree = best_tree.predict(X_test)
r2_tree = r2_score(y_test, y_pred_tree)

print(f'Melhor R² com árvore de regressão: {r2_tree}')
print(f'Melhores parâmetros: {grid_search.best_params_}')

<p align ="justify"> Após a análise dos melhores valores para os hiperparâmetros da nossa árvore de regressão, identificamos que os parâmetros ideais são: <b>{'max_depth': 5, 'min_samples_leaf': 2, 'min_samples_split': 2}</b>. Com essa configuração, o modelo alcançou o melhor desempenho, obtendo um R² de <b>0.3698</b>. Portanto, utilizaremos esses parâmetros para construir nosso modelo final.</p>

## Rodando o Modelo

In [None]:
modelo = DecisionTreeRegressor(random_state= 42 ,max_depth = 5, min_samples_leaf = 4, min_samples_split = 2) # Criando o modelo
modelo.fit(X_train, y_train) # Treinando o modelo

y_pred = modelo.predict(X_test) # Fazendo as previsões

r2_tree = r2_score(y_test, y_pred_tree) #  Calculando o R²
print(f'R² com árvore de regressão: {r2_tree}')


In [None]:
modelo = DecisionTreeRegressor(random_state= 42 ,max_depth = 5, min_samples_leaf = 4, min_samples_split = 2) # Criando o modelo
modelo.fit(X_train, y_train) # Treinando o modelo

y_pred = modelo.predict(X_test) # Fazendo as previsões

r2_tree = r2_score(y_test, y_pred_tree) #  Calculando o R²
print(f'R² com árvore de regressão: {r2_tree}')

# 5. Avaliação dos resultados


Os resultados dos modelos mostram que ainda há espaço para melhorar a previsão da renda. O modelo **Stepwise com termos polinomiais** e a **regressão linear com log da renda** tiveram desempenhos parecidos, com \( R² \) de **0.350** e **0.348**, respectivamente. Isso indica que há alguma relação não-linear entre as variáveis e a renda, mas essas técnicas não trouxeram ganhos significativos em comparação à árvore de decisão.

A **regressão linear com todas as variáveis** alcançou um \(  R² \) de **0.261**, e o modelo com **variáveis significativas** ficou um pouco abaixo, com **0.257**. Isso mostra que, mesmo variáveis não tão relevantes individualmente, ajudam o modelo a explicar um pouco melhor a renda. Ainda assim, o desempenho desses modelos lineares foi inferior aos modelos que consideram não-linearidades.

Os modelos de regularização, **Lasso e Ridge**, tiveram um \(  R² \) de **0.2815**, superando a regressão linear simples. Isso indica que havia problemas como multicolinearidade ou overfitting, que foram parcialmente resolvidos com a regularização, mas sem um ganho expressivo.

O **DecisionTreeRegressor** teve o melhor desempenho com um \(  R² \) de **0.3698**, indicando que conseguiu capturar algumas relações não-lineares nos dados, mas ainda não explica bem a variabilidade total da renda. Esse valor sugere que o modelo pode estar simplificando demais ou precisa de ajustes nos parâmetros. Em resumo, o melhor desempenho foi da árvore de decisão, mas o \(  R² \) ainda é baixo.

# 6. Implantação <a name=implantacao></a>

<div style="text-align: justify"
    
Nesta etapa, iremos simular os dados dos clientes para prever o valor estimado de sua renda com base em suas características individuais.

[Voltar ao índice](#Contents)


- Salvando a variável alvo

In [None]:
y

In [None]:
y.to_csv('y.csv', index=False)

- Salvando as variáveis explicativas

In [None]:
X

In [None]:
X.to_csv('X.csv', index=False)


In [None]:
modelo = DecisionTreeRegressor(random_state= 42 ,max_depth = 5, min_samples_leaf = 4, min_samples_split = 2) # Criando o modelo
modelo.fit(X, y)

In [None]:
def simulacao_renda(dados_cliente):
 
  dados_cliente = np.array(dados_cliente).reshape(1, -1)
  
  # Fazendo a previsão com o modelo treinado
  renda_prevista = modelo.predict(dados_cliente)
  print(f' A renda prevista para o novo cliente é de: R${renda_prevista[0]:.2f}')


In [None]:
# Simulação de novos dados para previsão

novo_cliente = pd.DataFrame({
    'posse_de_veiculo': [1],        
    'posse_de_imovel': [1],           
    'qtd_filhos': [3],              
    'idade': [32],                 
    'tempo_emprego': [3],          
    'qt_pessoas_residencia': [4],   
    'renda': [0],                    
    'sexo_f': [1],                
    'sexo_m': [0],                   
    'tipo_renda_assalariado': [1],   
    'tipo_renda_bolsista': [0],      
    'tipo_renda_empresario': [0],    
    'tipo_renda_pensionista': [0],   
    'tipo_renda_servidor_publico': [0],  
    'educacao_primario': [0],        
    'educacao_pos_graduacao': [0],   
    'educacao_secundario': [1],    
    'educacao_superior_completo': [0],
    'educacao_superior_incompleto': [0],
    'estado_civil_casado': [0],      
    'estado_civil_separado': [0],    
    'estado_civil_solteiro': [1],    
    'estado_civil_uniao': [0],       
    'estado_civil_viuvo': [0],       
    'tipo_residencia_aluguel': [0],  
    'tipo_residencia_casa': [1],     
    'tipo_residencia_com_os_pais': [0],
    'tipo_residencia_comunitario': [0],
    'tipo_residencia_estudio': [0],  
    'tipo_residencia_governamental': [0]
})

# Remover a variável 'renda' se for o alvo da previsão
novo_cliente = novo_cliente.drop(columns=['renda'])


In [None]:
simulacao_renda(novo_cliente)

# 7.**Conclusão**

A partir dos resultados obtidos, é possível extrair algumas conclusões relevantes sobre o desempenho do nosso modelo. O **DecisionTreeRegressor** se destacou com o melhor resultado, apresentando um \( R² \) de **0.378**. Isso significa que o modelo conseguiu explicar **37,8%** da variação da renda, um valor que, embora superior aos demais modelos testados, ainda é considerado baixo. Esse desempenho sugere que os modelos aplicados não capturaram completamente a complexidade dos fatores que influenciam a renda, indicando a possível ausência de variáveis relevantes ou a presença de relações mais complexas que não foram devidamente modeladas.

Embora o modelo ofereça **alguns insights sobre os fatores que influenciam a renda**, ele **não é suficientemente robusto para fornecer previsões precisas**. Esse cenário sugere que o problema é mais complexo e que aprimoramentos são necessários para melhorar a performance preditiva. Algumas possíveis abordagens incluem:**Explorar novos modelos** mais sofisticados, como **Random Forest**, **Gradient Boosting** ou **XGBoost**, que podem capturar melhor padrões complexos. Investir em **feature engineering**, criando novas variáveis, testando interações entre as existentes ou aplicando transformações que revelem relações ocultas. E**Ampliar a base de dados** ou incluir variáveis externas que possam influenciar a renda, como fatores econômicos, regionais ou comportamentais.

Apesar das limitações, o modelo já fornece uma base sólida para entender quais variáveis têm maior impacto sobre a renda, servindo como um ponto de partida para análises mais aprofundadas e para o desenvolvimento de modelos mais eficazes.