<a href="https://colab.research.google.com/github/Jonas1997Pereira/Introdu-o-Ci-ncia-de-Dados/blob/main/C%C3%B3pia_de_02_basic_linear_regression_lab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. Introdução
Este caderno fornece uma introdução à regressão linear. Criaremos um conjunto de dados sintético, ajustaremos um modelo de regressão linear e avaliaremos seu desempenho.

## 2. Importando Bibliotecas

In [None]:
import numpy as np # importa uma biblioteca com funções matemáticas
import pandas as pd # importa uma biblioteca para análise e estruturação de dados
import matplotlib.pyplot as plt # importa biblioteca e módulo que auxilia na visualização gráfica dos dados
from sklearn.linear_model import LinearRegression # Possibilita o uso da regressão linear
from sklearn.metrics import mean_squared_error, r2_score # calcula erro quadrático médio e a variabilidade dos dados

## 3.  Criando o conjunto de dados sintético

In [None]:
#Gera dados de forma aleatória
n_samples = 100 # indica os 100 pontos de dados
np.random.seed(42) # gera números aleatórios com a semente 42
X = 2 * np.random.rand(n_samples, 1) # gera uma matriz de dimensão (100x1). X é preditora.
y = 4 + 3 * X + np.random.randn(n_samples, 1) # gera a variável dependente

# Criando um DataFrame
data = pd.DataFrame(data=np.hstack((X, y)), columns=['Feature', 'Target']) #são fornecidos dados ao data frame
# Os arrays são empilhados em colunas com o uso da função np.hstack()

# Exibindo as primeiras linhas do conjunto de dados
data.head(10)

## 4. Análise Exploratória de Dados (EDA)
Visualizando o relacionamento entre Recurso e Destino

In [None]:
plt.scatter(data['Feature'], data['Target']) # Criação de gráfico de dispersão
plt.xlabel('Feature') # Define o rótulo do eixo x
plt.ylabel('Target') # Define o rótulo do eixo y
plt.title('Feature vs Target') # Define o título do gráfico
plt.show() # exibe o gráfico

## 5. Treinando o modelo de regressão linear

In [None]:
model = LinearRegression() # É criada uma instância da classe de regressão
model.fit(data[['Feature']], data['Target']) # treina o modelo de regressão linear

## 6. Avaliando o modelo

In [None]:
y_pred = model.predict(data[['Feature']]) # Este modelo fazz previsões
mse = mean_squared_error(data['Target'], y_pred) # Erro quadrático médio
r2 = r2_score(data['Target'], y_pred) # indica se o modelo explica ou não a variabilidade
print(f'MSE: {mse}') # impressão do erro
print(f'R²: {r2}') # impressão da variabilidade

## 7. Visualising the Results

In [None]:
plt.scatter(data['Feature'], data['Target'], color='black', label='Actual Data') # cria gráfico de dispersão
plt.plot(data['Feature'], y_pred, color='blue', linewidth=3, label='Predictions') # linha contínua sobre o gráfico
plt.xlabel('Feature') # o rótulo do eixo X é "feature"
plt.ylabel('Target') # o rótulo do eixo Y é "Target"
plt.title('Linear Regression Model') # Título do gráfico
plt.legend() # Adição de legenda no gráfico
plt.show() # Exibe o gráfico

## 8. Conclusão
Neste notebook, criamos um conjunto de dados sintético e ajustamos um modelo de regressão linear. Avaliamos o desempenho do modelo usando MSE e R² e visualizamos os resultados. Este é um exemplo básico para demonstrar os fundamentos da regressão linear.