<h3> Regressão Linear </h3>

Entendimento do Negócio </br>
Prever o salário da pessoa com base na experiência em anos. Deverá ser construído um modelo preditivo de regressão.

Obtenção das Bases de Dados

In [None]:
# Importação de pacotes e bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error, mean_squared_error
from sklearn.metrics import r2_score

In [None]:
# Leitura da Base de Dados
url_base = 'https://github.com/ybifoundation/Dataset/raw/main/Salary%20Data.csv'
try:
    registros_anos_experiencias = pd.read_csv(url_base)
except Exception as excecao:
    print(f"Erro ao ler os dados!")
    print(excecao)
else:
    print(f"Dados lidos com sucesso. Dimensões {registros_anos_experiencias.shape}")

Análise Exploratória

In [None]:
registros_anos_experiencias.head(5)

In [None]:
# Exploração variável Experience Years
registros_anos_experiencias['Experience Years'].describe()

In [None]:
plt.title('Distribuição de Experiência em Anos')
plt.xlabel('Anos')
plt.ylabel('Qtde de registros')
plt.hist(registros_anos_experiencias['Experience Years'])
plt.show() 

In [None]:
print('Qtde de valores nulos')
registros_anos_experiencias['Experience Years'].isnull().sum()

In [None]:
# Exploração variável Salary
registros_anos_experiencias['Salary'].describe()

In [None]:
plt.title('Distribuição de Salary')
plt.xlabel('Salary')
plt.ylabel('Qtde de registros')
plt.hist(registros_anos_experiencias['Salary'])
plt.show() 

In [None]:
print('Qtde de valores nulos')
registros_anos_experiencias['Salary'].isnull().sum()

In [None]:
# Salário x Experiência em anos
x = registros_anos_experiencias['Salary']
y = registros_anos_experiencias['Experience Years']
plt.title('Relação entre Experiência em Anos e Salário')
plt.xlabel('Salário')
plt.ylabel('Qtde de anos de experiência')
plt.scatter(x, y)
plt.show()

In [None]:
# Correlação de Pearson ou coeficiente de correlação. Mede a correlação linear entre DUAS VARIÁVEIS QUANTITATIVAS. Varia entre -1 a 1. 
# Não implica em causalidade. 0.7 por exemplo, indica, correlação forte entre ambas. 1.0 correlação perfeita. 0, não tem correlação. 
# -1 correlação negativa perfeita.
print('Correlação entre variáveis: Experiência em Anos e Salário')
registros_anos_experiencias[['Experience Years','Salary']].corr()

Construção do Modelo Preditivo

In [None]:
X = registros_anos_experiencias['Experience Years']
y = registros_anos_experiencias['Salary']             
print('Recursos (X) e target(Y) criados')

In [None]:
print(X)   

In [None]:
print(y)   

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X,y, train_size=0.7, random_state=7)

In [None]:
total = len(registros_anos_experiencias)
print(f"Qtde de dados para treino:  {len(X_train)}")
print(f"% de dados para treino:  {len(X_train)/total * 100}")

print(f"Qtde de dados para teste:  {len(X_test)}")
print(f"% de dados para teste:  {len(X_test)/total * 100}")

In [None]:
model = LinearRegression()
model.fit(X_train,y_train)
print("Modelo treinado com sucesso")

Avaliação do Modelo Preditivo

In [None]:
# Previsões
y_pred = model.predict(X_test)
print('Previsões efetuadas')

In [None]:
# Coeficientes do modelo
model.intercept_

In [None]:
# Coeficientes do modelo
model.coef_

In [None]:
# Erro Médio Absoluto (MAE)
mean_absolute_error(y_test,y_pred)

In [None]:
# Erro quadrático médio (EQR)
mean_squared_error(y_test,y_pred,squared=False)

In [None]:
# Raiz do Erro Quadrático Médio (REQR)
mean_squared_error(y_test,y_pred,squared=True)

In [None]:
# Média percentual de erros (MAPE)
mean_absolute_percentage_error(y_test,y_pred)

In [None]:
# Coeficiente de determinação
r2_score(y_test, y_pred)

In [None]:
# Reta de regressão final
plt.scatter(X_train, y_train,color='g')
plt.plot(X_test, y_pred,color='k')
plt.show()