# <font color='blue'>Data Science Academy</font>

## <font color='blue'>Fundamentos de Linguagem Python Para Análise de Dados e Data Science</font>

## <font color='blue'>Machine Learning com Scikit-Learn</font>

Problema de Negócio:

Usando dados históricos é possível prever o salário de alguém com base no tempo dedicado aos estudos em horas por mês?

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

## Carregando os Dados

In [None]:
# Carrega o dataset
df_dsa = pd.read_csv('arquivos/dataset4.csv')

In [None]:
df_dsa.shape

In [None]:
df_dsa.columns

In [None]:
df_dsa.head()

In [None]:
df_dsa.info()

## Análise Exploratória - Resumo Estatístico

In [None]:
# Verifica se há valores ausentes
df_dsa.isnull().sum()

In [None]:
# Correlação
df_dsa.corr()

In [None]:
# Resumo estatístico do dataset 
df_dsa.describe()

In [None]:
# Resumo estatístico da variável preditora
df_dsa["horas_estudo_mes"].describe()

In [None]:
# Histograma da variável preditora
sns.histplot(data=df_dsa, x="horas_estudo_mes", kde=True)

## Preparação dos Dados

In [None]:
# Prepara a variável de entrada X
X = np.array(df_dsa['horas_estudo_mes'])

In [None]:
type(X)

In [None]:
# Ajusta o shape de X
X = X.reshape(-1, 1)

In [None]:
# Prepara a variável alvo
y = df_dsa['salario']

In [None]:
# Gráfico de dispersão entre X e y
plt.scatter(X, y, color="blue", label="Dados Reais Históricos")
plt.xlabel("Horas de Estudo")
plt.ylabel("Salário")
plt.legend()
plt.show()

In [None]:
# Dividir dados em treinamento e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=1/3, random_state=42)

In [None]:
X_treino.shape

In [None]:
X_teste.shape

In [None]:
y_treino.shape

In [None]:
y_teste.shape

## Modelagem Preditiva (Machine Learning)

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [None]:
# Cria o modelo de regressão linear simples
modelo = LinearRegression()

In [None]:
# Treina o modelo
modelo.fit(X_treino, y_treino)

In [None]:
# Visualiza a reta de regressão linear (previsões) e os dados reais usados no treinamento
plt.scatter(X, y, color = "blue", label = "Dados Reais Históricos")
plt.plot(X, modelo.predict(X), color = "red", label = "Reta de Regressão com as Previsões do Modelo")
plt.xlabel("Horas de Estudo")
plt.ylabel("Salário")
plt.legend()
plt.show()

In [None]:
# Avalia o modelo nos dados de teste
score = modelo.score(X_teste, y_teste)
print(f"Coeficiente R^2: {score:.2f}")

In [None]:
# Intercepto - parâmetro w0
modelo.intercept_

In [None]:
# Slope - parâmetro w1
modelo.coef_

Algoritmo de Regressão Linear:

## Deploy do Modelo

Usaremos o modelo para prever o salário com base nas horas de estudo.

In [None]:
# Define um novo valor para horas de estudo
horas_estudo_novo = np.array([[48]]) 

# Faz previsão com o modelo treinado
salario_previsto = modelo.predict(horas_estudo_novo)

print(f"Se você estudar cerca de", horas_estudo_novo, "horas por mês seu salário pode ser igual a", salario_previsto)

In [None]:
# Mesmo resultado anterior usando os parâmetros (coeficientes) aprendidos pelo modelo
# y_novo = w0 + w1 * X
salario = modelo.intercept_ + (modelo.coef_ * horas_estudo_novo)
print(salario)

In [None]:
# Define um novo valor para horas de estudo
horas_estudo_novo = np.array([[65]]) 

# Faz previsão com o modelo treinado
salario_previsto = modelo.predict(horas_estudo_novo)

print(f"Se você estudar cerca de", horas_estudo_novo, "horas por mês seu salário pode ser igual a", salario_previsto)

In [None]:
# Define um novo valor para horas de estudo
horas_estudo_novo = np.array([[73]]) 

# Faz previsão com o modelo treinado
salario_previsto = modelo.predict(horas_estudo_novo)

print(f"Se você estudar cerca de", horas_estudo_novo, "horas por mês seu salário pode ser igual a", salario_previsto)

# Fim