Nesta primeira célula, importamos as bibliotecas que usaremos:

- numpy para criar nossos dados numéricos.

- matplotlib.pyplot para visualizar os dados e o resultado da regressão.

- LinearRegression do sklearn.linear_model para criar e treinar nosso modelo.

- train_test_split do sklearn.model_selection para dividir nossos dados em conjuntos de treino e teste.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

print("Bibliotecas importadas com sucesso!")

Aqui, vamos criar dados sintéticos. X será nossa variável independente (característica) e y será nossa variável dependente (alvo). Criaremos uma relação aproximadamente linear entre eles, adicionando um pouco de "ruído" para tornar os dados mais realistas.

In [None]:
np.random.seed(42)

# Criar a variável independente (X)
# Usaremos 100 pontos de dados variando de 0 a 10
X = 10 * np.random.rand(100, 1)

# Criar a variável dependente (y) com uma relação linear e ruído
# y = 5 + 2*X + ruído
y = 5 + 2 * X + np.random.randn(100, 1)

# Vamos visualizar os dados que criamos
plt.figure(figsize=(10, 6))
plt.scatter(X, y)
plt.title('Dados Fictícios Gerados')
plt.xlabel('Variável Independente (X)')
plt.ylabel('Variável Dependente (y)')
plt.grid(True)
plt.show()

Agora, dividimos nossos dados em treino e teste.

In [None]:
# Dividir os dados: 80% para treino, 20% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Tamanho do conjunto de treino: {X_train.shape[0]} amostras")
print(f"Tamanho do conjunto de teste: {X_test.shape[0]} amostras")

Agora, vamos criar uma instância do modelo LinearRegression e usar o método ```.fit()``` para treiná-lo com nossos dados de treino

In [None]:
# Criar uma instância do modelo
modelo_regressao = LinearRegression()

# Treinar o modelo com os dados de treino
modelo_regressao.fit(X_train, y_train)

print("Modelo treinado com sucesso!")

# O modelo aprendeu os melhores coeficientes para a linha de regressão
# O coeficiente angular (slope) é chamado de 'coef_'
# O coeficiente linear (intercept) é chamado de 'intercept_'
print(f"Coeficiente angular (m): {modelo_regressao.coef_[0][0]:.2f}")
print(f"Intercepto (b): {modelo_regressao.intercept_[0]:.2f}")

Com o modelo treinado, podemos agora usar o método ```.predict()``` para fazer previsões sobre os dados de teste ```(X_test)```.

In [None]:
# Fazer previsões no conjunto de teste
y_pred = modelo_regressao.predict(X_test)

print("Previsões realizadas no conjunto de teste.")

Agora, visualizamos os resultados.

In [None]:
# Plotar os resultados
plt.figure(figsize=(12, 7))

# Plotar os dados de treino (azul)
plt.scatter(X_train, y_train, color='blue', label='Dados de Treino')

# Plotar os dados de teste (verde)
plt.scatter(X_test, y_test, color='green', label='Dados de Teste Reais')

# Plotar a linha de regressão (vermelho)
# Usaremos o modelo treinado para prever valores em todo o intervalo de X
plt.plot(X, modelo_regressao.predict(X), color='red', linewidth=2, label='Linha de Regressão')

plt.title('Regressão Linear Simples')
plt.xlabel('Variável Independente (X)')
plt.ylabel('Variável Dependente (y)')
plt.legend()
plt.grid(True)
plt.show()