### Machine Learning com Scikit-Learn

Problema de Negócio:

Usando dados históricos é possível prever o salário de alguém com base no tempo dedicado aos estudos em horas por mês?

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [None]:
df = pd.read_csv("dataset.csv")

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.info()

### Análise Exploratória - Resumo Estatístico

In [None]:
df.isnull().sum()

In [None]:
df.corr()

In [None]:
df.describe()

In [None]:
# Variável preditora
df["horas_estudo_mes"].describe()

In [None]:
sns.histplot(data = df, x = "horas_estudo_mes", kde = True)

### Preparação de Dados

In [None]:
x = np.array(df[ "horas_estudo_mes"])

In [None]:
type(x)

In [None]:
x = x.reshape(-1, 1)

In [None]:
y = df["salario"]

In [None]:
# Gráfico de dispersão entre X e y
plt.scatter(x, y, color = "blue", label = "Dados Reais Históricos")
plt.xlabel("Horas de Estudo")
plt.ylabel("Salário")
plt.legend()
plt.show()

In [None]:
# Dividir dados em treinamento e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.2, random_state=42)

In [None]:
x_treino.shape

In [None]:
x_teste.shape

In [None]:
y_treino.shape

In [None]:
y_teste.shape

### Modelagem Preditiva (Machine Learning)

In [None]:
# Cria o modelo de regressão linear simples
modelo = LinearRegression()

In [None]:
modelo.fit(x_treino, y_treino)

In [None]:
# Visualiza a reta de regressão linear (previsões) e os dados reais usados no treinamento
plt.scatter(x, y, color = "blue", label = "Dados Reais Históricos")
plt.plot(x, modelo.predict(x), color = "red", label = "Reta de Regressão com as Previsões do Modelo")
plt.xlabel("Horas de Estudo")
plt.ylabel("Salário")
plt.legend()
plt.show()

In [None]:
# Avalia o modelo nos dados de testes
score = modelo.score(x_teste, y_teste)
print(f"Coeficiente R^2: {score:.2f}")

In [None]:
# Intercepto - Parâmetro w0
modelo.intercept_

In [None]:
# Slope - Parâmetro w1
modelo.coef_

### Deploy do Modelo

In [None]:
# Define um novo valor para horas de estudo
horas_estudo_novo = np.array([[48]])

# Faz previsão com o modelo treinado
salario_previsto = modelo.predict(horas_estudo_novo)

print(f"Se você estudar cerca de", horas_estudo_novo, "horas por mês seu salário pode ser igual a", salario_previsto)

In [None]:
# Mesmo resultado anterior usando os parâmetros (coeficientes) aprendidos pelo modelo
# y_novo = w0 + w1 * X
salario = modelo.intercept_ + (modelo.coef_ * horas_estudo_novo)
print(salario)

In [None]:
# Define um novo valor para horas de estudo
horas_estudo_novo = np.array([[65]]) 

# Faz previsão com o modelo treinado
salario_previsto = modelo.predict(horas_estudo_novo)

print(f"Se você estudar cerca de", horas_estudo_novo, "horas por mês seu salário pode ser igual a", salario_previsto)

In [None]:
# Define um novo valor para horas de estudo
horas_estudo_novo = np.array([[73]]) 

# Faz previsão com o modelo treinado
salario_previsto = modelo.predict(horas_estudo_novo)

print(f"Se você estudar cerca de", horas_estudo_novo, "horas por mês seu salário pode ser igual a", salario_previsto)