In [None]:
import pandas as pd

#Gráfico
import seaborn as sns
import matplotlib.pyplot as plt

# ML
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import  DecisionTreeRegressor
from sklearn.metrics import r2_score #método para o cálculo do R2
from sklearn.metrics import mean_squared_error #erro absoluto

#Análise da base

In [None]:
pnad = pd.read_csv('../input/testes/dados.csv')
pnad.head()

In [None]:
pnad.describe()

Valores ausentes 

In [None]:
pnad.isnull().sum()

# Análise da variável renda 

A renda do brasileiro será analisada a partir da variáveis Idade e Anos de Estudo. O objetivo é mensurar o grau de correlação entre essas variáveis e a renda

In [None]:
#removendo valores não significativos para análise 
pnad.drop(columns= ['UF', 'Sexo', 'Cor', 'Altura'], inplace= True)
pnad.head()

**Possíveis outliers**

In [None]:
pnad.boxplot(['Renda'])

Os valores de renda estão muitos disperos. De forma que é dificil determinar o que de fato é outlier. Por este motivo a existência de outliers será desconsiderada 


**Gráfico Idade x Renda**

In [None]:
plt.bar( pnad['Idade'], pnad['Renda'])
plt.xlabel('Idade')
plt.ylabel('Renda')
plt.title('Idade x Renda')
plt.show()

**Gráfico Anos de Estudo x Renda**

In [None]:
plt.bar( pnad['Anos de Estudo'], pnad['Renda'])
plt.xlabel('Anos de Estudo')
plt.ylabel('Renda')
plt.title('Anos de Estudo x Renda')
plt.show()

**Analisando correlação entre variáveis**

In [None]:
#Correlação 
corr = pnad.corr()
corr.style.background_gradient()

O maior grau de correlação está associado ao Anos de Estudo.

OBS: como esperado a Idade e o Anos de Estudos são inversamente proporcionais 

# Modelos de Regressão Linear Multipla 

Separando os dados em treino e teste para a validação cruzada 70/30

In [None]:
x = pnad.iloc[:,:-1].values
#x_res = x.reshape((-1,1))
y = pnad.iloc[:,-1].values
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.30, random_state=42)

**LinearRegression**

In [None]:
#treinamento
reg_lg = LinearRegression()
reg_lg.fit(x_train,y_train)

In [None]:
#previsão
pred_lg = reg_lg.predict(x_test)
print('Y = {}X {}'.format(reg_lg.coef_,reg_lg.intercept_))

In [None]:
#métricas para dados de TEST 
R2_reg = r2_score(y_test, pred_lg)  #realiza o cálculo do R2

print("Coeficiente de Determinação (R2):", R2_reg)

MSE_reg = mean_squared_error(y_test,pred_lg) # encontra o MSE através do sklearn
print('MSE: ', MSE_reg) 

In [None]:
#métricas para dados de TREINAMENTO 

pred_lg2 = reg_lg.predict(x_train)
R2_reg2 = r2_score(y_train, pred_lg2)  #realiza o cálculo do R2

print("Coeficiente de Determinação (R2):", R2_reg2)

MSE_reg2 = mean_squared_error(y_train,pred_lg2) # encontra o MSE através do sklearn
print('MSE: ', MSE_reg2) 

**DecisionTreeRegressor**

In [None]:
#treinando 
reg_dt = DecisionTreeRegressor() # Cria objeto DecisionTreeRegressor
reg_dt.fit(x_train,y_train)


In [None]:
#previsão
pred_dt= reg_dt.predict(x_test)
print(pred_dt)

In [None]:
#métricas para dados de TESTE
R2_dt= r2_score(y_test,pred_dt)
print("Coeficiente de Determinação (R2):", R2_dt)

MSE_dt = mean_squared_error(y_test,pred_dt) # encontra o MSE através do sklearn
print('MSE: ', MSE_dt)

In [None]:
#métricas para dados de TREINAMENTO 

pred_dt2 = reg_dt.predict(x_train)
R2_dt2 = r2_score(y_train, pred_dt2)  #realiza o cálculo do R2
print("Coeficiente de Determinação (R2):", R2_dt2)

MSE_dt2 = mean_squared_error(y_train,pred_dt2) # encontra o MSE através do sklearn
print('MSE: ', MSE_reg2) 

# Conclusão:
Ambos os modelos de regressão linear simples apresentam desempenhos parecidos. Nenhum dos dois explica bem a variável Renda, pois não possuem **R2** (poder explicativo) satisfatórios e apresentam **MSE** (erro médio quadrático) elevados. 
  Como as métricas estão estão tão ruins para os dados de teste quanto para os de treinamento, pode se concluir que não estamos diantes de um problema de **overfitting** e sim de **underfitting**. As principais possíveis causas estão abaixo:  

1.   Pode ser que outras variáveis não presentes no dataset influenciem mais a renda do brasileiro ou complementem a análise. 
2.   Os dados podem não serem bem modelados um modelo linear, tal como foi utilizado. 
3.   Os outliers podem estar atrapalhando o desempenho dos modelos 

Por fim, podemos concluir que análise da renda do brasileiro requer uma modelagem mais complexa e/ou um melhor escolha de váriaveis preditoras.  