In [1]:
# configurações
import pandas as pd # manipulação e análise de dados
import seaborn as sns # gráficos
import numpy as np # arranjos multidimensionais

import warnings # ignora as mensagens de alerta
warnings.filterwarnings('ignore') # ignora as mensagens de alerta

from sklearn.model_selection import train_test_split # separar os dados entre dados de treino e teste
from sklearn.linear_model import LinearRegression # regressão linear
from sklearn import metrics # metricas

In [2]:
dados = pd.read_csv('salary_data.csv') # ler os dados

In [None]:
dados.head() # visualização

In [None]:
dados.info() # verificar tipo

In [None]:
dados.isna().sum() # ver se há dados faltantes

In [None]:
dados.describe().round(2) # estatística descritiva

In [None]:
dados.corr().round(4) # matriz de correlação

In [None]:
sns.set_palette("Dark2") # estilo do gráfico (Seaborn)
sns.set_style("darkgrid") # estilo do gráfico (Seaborn)
ax = sns.scatterplot(data=dados, x="YearsExperience", y="Salary") # gráfico de dispersão
ax.figure.set_size_inches(12, 6)
ax.set_title('Anos de experiência X Salário ($)', fontsize=18)
ax.set_xlabel('Anos de experiência', fontsize=14)
ax.set_ylabel('Salário ($)', fontsize=14)

In [None]:
ax = sns.lmplot(x="YearsExperience", y="Salary", data=dados).figure.set_size_inches(12, 6)

In [None]:
# Separar os dados (X e Y)
X = dados['YearsExperience']
y = dados['Salary']

In [None]:
# separar os dados entre dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)

In [None]:
# ajustar a dimensionalidade
X_train = np.array(X_train)[:, None]
X_test = np.array(X_test)[:, None]

In [None]:
modelo = LinearRegression() # regressão linear

In [None]:
modelo.fit(X_train, y_train) # modelar com os dados de treino

In [None]:
print('R² = {}'.format(modelo.score(X_train, y_train).round(2)))
# O coeficiente de determinação (R²) é uma medida resumida que diz quanto a linha de regressão ajusta-se aos dados. É um valor entra 0 e 1.
# O valor de R² significa que o modelo linear explica % da variância da variável dependente a partir do regressores (variáveis independentes) incluídas naquele modelo linear.

In [None]:
y_previsto = modelo.predict(X_test) # Gerando previsões para os dados de TESTE (X_test) utilizando o método *predict()* do objeto "modelo"

In [None]:
print('R² = %s' % metrics.r2_score(y_test, y_previsto).round(2)) # Obtendo o coeficiente de determinação (R²) para as previsões do nosso modelo

In [None]:
# Obtendo previsões pontuais
entrada=[[2.5]] # anos de experiência
print('Salario previsto de ${:,.2f}'.format(modelo.predict(entrada)[0])) #previsão

In [None]:
# obtendo o intercepto e o coeficiente angular
modelo.intercept_
modelo.coef_

In [None]:
# visualizando o intercepto e o coeficiente angular
index=['Intercepto', 'Coeficiênte angular']
pd.DataFrame(data=np.append(modelo.intercept_.round(2), modelo.coef_.round(2)), index=index, columns=['Parâmetros']) 

In [None]:
print('Y = {} + {}x'.format(modelo.intercept_.round(2), modelo.coef_[0].round(2))) # equação baseada no modelo

In [None]:
y_previsto_train = modelo.predict(X_train) # Gerando as previsões do modelo para os dados de TREINO

In [None]:
# Gráfico de dispersão entre valor estimado e valor real
ax = sns.scatterplot(x=y_previsto_train, y=y_train)
ax.figure.set_size_inches(12, 6)
ax.set_title('Previsão X Real', fontsize=18)
ax.set_xlabel('Salário ($) - Previsão', fontsize=14)
ax.set_ylabel('Salário ($) - Real', fontsize=14)
ax

In [None]:
residuo = y_train - y_previsto_train # Obtendo os resíduos

In [None]:
# Gráfico de dispersão entre valor estimado e resíduos / Método informal de verificação da hipótese de variância constante dos resíduos (homocedasticidade)
ax = sns.scatterplot(x=y_previsto_train, y=residuo, s=150)
ax.figure.set_size_inches(20, 8)
ax.set_title('Resíduos X Previsão', fontsize=18)
ax.set_xlabel('Salário ($) - Previsão', fontsize=14)
ax.set_ylabel('Resíduos', fontsize=14)
ax

In [None]:
# Gráfico de dispersão entre valor estimado e resíduos / Método informal de verificação da hipótese de variância constante dos resíduos (homocedasticidade)
ax = sns.scatterplot(x=y_previsto_train, y=residuo**2, s=150)
ax.figure.set_size_inches(20, 8)
ax.set_title('Resíduos² X Previsão', fontsize=18)
ax.set_xlabel('Salário ($) - Previsão', fontsize=14)
ax.set_ylabel('Resíduos²', fontsize=14)
ax

In [None]:
# Plotando a distribuição de frequências dos resíduos
ax = sns.distplot(residuo)
ax.figure.set_size_inches(12, 6)
ax.set_title('Distribuição de Frequências dos Resíduos', fontsize=18)
ax.set_xlabel('Salário ($)', fontsize=14)
ax.set_ylabel('Densidade', fontsize=14)
ax

In [None]:
EQM = metrics.mean_squared_error(y_test, y_previsto).round(2) #menor -> melhor
REQM = np.sqrt(metrics.mean_squared_error(y_test, y_previsto)).round(2) #menor -> melhor
R2 = metrics.r2_score(y_test, y_previsto).round(2) #maior -> melhor

pd.DataFrame([EQM, REQM, R2], ['EQM', 'REQM', 'R²'], columns=['Métricas'])