In [1]:
#importações necessárias

import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


%matplotlib inline

import statsmodels.api as sm
import matplotlib.pyplot as plt

from mpl_toolkits.mplot3d import Axes3D

# Para ter melhor print
from IPython.display import display

In [3]:
dados = pd.read_csv("pnad23_filtrado.csv")
dados.head(5)

Unnamed: 0,Estado,Sexo,Idade,Cor_ou_Raça,Escolaridade,Ocupação,Faixa_de_rendimento,Rendimento_Bruto
0,Rondônia,Homem,30,Parda,Regular do ensino médio ou do 2º grau,Conta Própria,[3SM]+1 a [5SM],5000.0
1,Rondônia,Mulher,50,Parda,Superior - graduação,Empregado do setor público (inclusive empresas...,[2SM]+1 a [3SM],3500.0
2,Rondônia,Mulher,54,Branca,Superior - graduação,Empregado do setor público (inclusive empresas...,[2SM]+1 a [3SM],3700.0
3,Rondônia,Homem,36,Parda,Regular do ensino fundamental ou do 1º grau,Conta Própria,[2SM]+1 a [3SM],3300.0
4,Rondônia,Homem,33,Branca,Regular do ensino médio ou do 2º grau,Conta Própria,[2SM]+1 a [3SM],3500.0


## O projeto
Com o objetivo de prever o salário mais provável de uma pessoa, baseando-se nas suas características socioeconômicas, este projeto utiliza os microdados da PNAD Contínua.
Para construir um modelo preditivo, foi feito a escolha da nossa Target, sendo esta o rendimento bruto, e a seleção das variáveis explicativas , sendo estas escolaridade, idade, gênero, localização geográfica, ocupação, cor/raça e faixa de rendimento. 
A análise exploratória dos dados foi feita no arquivo Jupyter [analise_exploratória.iypnb](analise_exploratoria.ipynb)

Para atingir o objetivo foi necessário aplicar dois modelos preditivos, cujas precisões e resultados foram comparados a fim de decidir qual o modelo mais adequado para o porblema.




## Separando a base de treino e teste 

In [4]:
dados.isnull().sum()

Estado                 0
Sexo                   0
Idade                  0
Cor_ou_Raça            0
Escolaridade           0
Ocupação               0
Faixa_de_rendimento    0
Rendimento_Bruto       0
dtype: int64

In [5]:
dados.dtypes

Estado                  object
Sexo                    object
Idade                    int64
Cor_ou_Raça             object
Escolaridade            object
Ocupação                object
Faixa_de_rendimento     object
Rendimento_Bruto       float64
dtype: object

In [6]:
x_colunas = dados[['Estado', 'Sexo', 'Idade', 'Cor_ou_Raça', 'Escolaridade', 'Ocupação','Faixa_de_rendimento']]

y_colunas = dados[['Rendimento_Bruto']]


### Para separar as bases em treino e teste é necessário aplicar o get_dummies(), para as variáveis categoricas poderem ser utilizadas no modelo

In [12]:
x_dummies = pd.get_dummies(x_colunas)
x_dummies = x_dummies.astype(int)
x_dummies.dtypes

Idade                                   int32
Estado_Acre                             int32
Estado_Alagoas                          int32
Estado_Amapá                            int32
Estado_Amazonas                         int32
                                        ...  
Faixa_de_rendimento_[1SM]+1 a [2SM]     int32
Faixa_de_rendimento_[20SM]+1 ou mais    int32
Faixa_de_rendimento_[2SM]+1 a [3SM]     int32
Faixa_de_rendimento_[3SM]+1 a [5SM]     int32
Faixa_de_rendimento_[5SM]+1 a [10SM]    int32
Length: 65, dtype: object

In [13]:
x_train, x_test, y_train, y_test = train_test_split(x_dummies ,y_colunas , test_size=0.33, random_state= 42 )

In [14]:
x_train

Unnamed: 0,Idade,Estado_Acre,Estado_Alagoas,Estado_Amapá,Estado_Amazonas,Estado_Bahia,Estado_Ceará,Estado_Distrito Federal,Estado_Espirito Santo,Estado_Goiás,...,"Ocupação_Militar do exército, da marinha, da aeronáutica, da polícia militar ou do corpo de bombeiros militar",Ocupação_Trabalhador doméstico,"Faixa_de_rendimento_1 a [0,5SM]","Faixa_de_rendimento_[0,5SM]+1 a [1SM]",Faixa_de_rendimento_[10SM]+1 a [20SM],Faixa_de_rendimento_[1SM]+1 a [2SM],Faixa_de_rendimento_[20SM]+1 ou mais,Faixa_de_rendimento_[2SM]+1 a [3SM],Faixa_de_rendimento_[3SM]+1 a [5SM],Faixa_de_rendimento_[5SM]+1 a [10SM]
9255,20,0,0,0,1,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
83381,45,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
103097,48,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
139202,22,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
103004,53,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
119879,31,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
103694,42,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
131932,32,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
146867,51,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


### Aplicando o modelo Random Forest

In [15]:
random_model = RandomForestRegressor(n_estimators=100, random_state = 42 )

### Ensinando o modelo, para que consiga encontrar os padrões

In [16]:
random_model.fit(x_train, y_train)

  return fit_method(estimator, *args, **kwargs)


### Nas celulas abaixo utilizamos as métricas MAE(Erro médio absoluto), MSE(Erro médio quadrático) e $R^2$(Coeficiente de determinação que mede quanto da variância dos modelos reais é explicada pelo modelo)

In [17]:
y_prev_train = random_model.predict(x_train)
mae = mean_absolute_error(y_train, y_prev_train)
mse = mean_squared_error(y_train, y_prev_train)
r2 = r2_score(y_train, y_prev_train)
mae, mse, r2

(210.69812439007617, 463390.5781934575, 0.971475393335519)

O MAE indica que o modelo errou, em média, 210.69 unidades nas previsões. Um erro baixo, indicando uma boa performance nos dados de treino.

O valor do MSE é 46390.57. Esse número é maior devido à penalização de erros maiores.

O valor de $R^2$ foi de 0.97, indicando que o modelo está ajustado para a base de treino, mas o bom desempenho não garante que seja bom com os dados de teste.

In [27]:
y_prev = random_model.predict(x_test)
mse = mean_squared_error(y_test, y_prev)
r2 = r2_score(y_test, y_prev)
mae = mean_absolute_error(y_test, y_prev)
mae, mse, r2 

(434.50358136448807, 3465863.87181802, 0.7714871476759115)

O MAE indica que o modelo errou, em média, 434.50 unidades nas previsões. Valor maior do que nos dados de treino. Indicando dificuldade em generalizar.

O valor do MSE é 3465863.87. Mostrando um aumento considerável nos erros grandes.

O valor de $R^2$ foi de 0.77, mostrando que ainda explica boa parte da variância nos dados de teste, mas com desempenho inferior do que com os dados de treino.

O modelo se saiu muito bem com a base de treino, porém seu desempenho caiu quando foi  utilizada a base de teste, sugerindo um pouco de overfitting.
Overfitting é justamente quando um modelo se sai muito bem com os dados de treino, porém seu desempenho cai com os dados de treino.