<a href="https://colab.research.google.com/github/WagnerMiron/introducao_a_ciencia_de_dados/blob/main/02-basic-linear-regression-lab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. Introduction
This notebook provides an introduction to linear regression. We will create a synthetic dataset, fit a linear regression model, and evaluate its performance.

## 2. Importing Libraries

In [None]:
import numpy as np #Importa a biblioteca NumPy, uma biblioteca fundamental para a computação científica em Python.
import pandas as pd #Importa a biblioteca Pandas, que fornece estruturas de dados e ferramentas de análise de dados
import matplotlib.pyplot as plt #Esta linha importa o módulo pyplot da biblioteca Matplotlib, que é usada para criar gráficos e visualizações de dados.
from sklearn.linear_model import LinearRegression # Esta linha importa a classe LinearRegression do módulo linear_model da biblioteca scikit-learn. Esta classe é usada para realizar regressão linear, uma técnica de modelagem preditiva.
from sklearn.metrics import mean_squared_error, r2_score #sta linha importa duas funções do módulo metrics da biblioteca scikit-learn: mean_squared_error: Usada para calcular o erro quadrático médio (MSE) e r2_score: Usada para calcular o coeficiente de determinação (R²)

## 3. Creating the Synthetic Dataset
Defining the size of the dataset.

In [None]:
# Generating random data
n_samples = 100 #Define a quantidade de amostras
np.random.seed(42) #Define a semente do gerador de números aleatórios da NumPy para 42. Isso garante que a geração de números aleatórios seja reproduzível.
X = 2 * np.random.rand(n_samples, 1) #Gera um array X de forma (100, 1) (100 linhas e 1 coluna) com números aleatórios uniformemente distribuídos entre 0 e 2. Multiplicar por 2 expande o intervalo para entre 0 e 2.
y = 4 + 3 * X + np.random.randn(n_samples, 1) #Gera a variável de saída y baseada em uma relação linear com X, com um pouco de ruído adicionado. np.random.randn(n_samples, 1) adiciona ruído gaussiano (distribuição normal com média 0 e variância 1) ao modelo para simular variações e imperfeições nos dados.

# Creating a DataFrame
data = pd.DataFrame(data=np.hstack((X, y)), columns=['Feature', 'Target']) #Cria um DataFrame do Pandas a partir dos arrays X e y e nomeia as colunas do DataFrame como 'Feature' e 'Target'. np.hstack((X, y)): Concatena os arrays X e y em colunas.

# Displaying the first few rows of the dataset
data.head(10) #Exibe as primeiras 10 linhas do DataFrame data

## 4. Exploratory Data Analysis (EDA)
Visualising the relationship between Feature and Target

Este código cria um gráfico de dispersão para visualizar a relação entre as variáveis Feature e Target.

In [None]:
plt.scatter(data['Feature'], data['Target']) #Plota um gráfico de dispersão usando os valores da coluna 'Feature' do DataFrame como coordenadas x e os valores da coluna 'Target' como coordenadas y.
plt.xlabel('Feature') #Define o rótulo do eixo x como 'Feature'.
plt.ylabel('Target') #Define o rótulo do eixo y como 'Target'.
plt.title('Feature vs Target') #Define o título do gráfico como 'Feature vs Target'.
plt.show() #Exibe o gráfico.

## 5. Training the Linear Regression Model

In [None]:
model = LinearRegression() #Cria uma instância do modelo de regressão linear da biblioteca scikit-learn. O objeto model agora pode ser usado para ajustar o modelo aos dados e fazer previsões.
model.fit(data[['Feature']], data['Target']) #Ajusta o modelo de regressão linear aos dados fornecidos.O [['Feature']] é usado para garantir que os dados sejam passados como um DataFrame de uma coluna, em vez de uma Series. data['Target']: O array ou Series com os valores de saída (ou alvo) que correspondem a cada valor em 'Feature'.

## 6. Evaluating the Model

In [None]:
y_pred = model.predict(data[['Feature']]) # Usa o modelo ajustado para fazer previsões com base nos dados de entrada data[['Feature']]. O método predict retorna um array com as previsões do modelo para cada amostra no conjunto de dados.
mse = mean_squared_error(data['Target'], y_pred) #Calcula o erro quadrático médio (MSE) das previsões.
r2 = r2_score(data['Target'], y_pred) #Calcula o coeficiente de determinação (R²) das previsões.
print(f'MSE: {mse}') #Imprime o valor do erro quadrático médio calculado.
print(f'R²: {r2}') #Imprime o valor do coeficiente de determinação (R²) calculado.

## 7. Visualising the Results

In [None]:
plt.scatter(data['Feature'], data['Target'], color='black', label='Actual Data') #Cria um gráfico de dispersão com os dados reais.data['Feature'] e data['Target'] são usados como coordenadas x e y, respectivamente.color='black' define a cor dos pontos como preta. label='Actual Data' define a legenda para os pontos de dados reais.
plt.plot(data['Feature'], y_pred, color='blue', linewidth=3, label='Predictions') # Plota uma linha que representa as previsões do modelo de regressão linear.data['Feature'] é usado como coordenadas x e y_pred como coordenadas y. linewidth=3 define a largura da linha para 3, tornando-a mais visível. label='Predictions' define a legenda para a linha das previsões.
plt.xlabel('Feature') #  Define o rótulo do eixo x como 'Feature'.
plt.ylabel('Target') #Define o rótulo do eixo y como 'Target'.
plt.title('Linear Regression Model') #Define o título do gráfico como 'Linear Regression Model'.
plt.legend() #Adiciona uma legenda ao gráfico, baseada nas labels definidas nas linhas anteriores ('Actual Data' e 'Predictions').
plt.show() #Exibe o gráfico.

## 8. Conclusion
In this notebook, we created a synthetic dataset and fitted a linear regression model. We evaluated the model's performance using MSE and R², and visualised the results. This is a basic example to demonstrate the fundamentals of linear regression.