In [28]:
import kagglehub
redwankarimsony_auto_insurance_in_sweden_path = kagglehub.dataset_download('redwankarimsony/auto-insurance-in-sweden')

print('Data source import complete.')

Data source import complete.


---

Este é um tutorial muito simples, destinado a iniciantes para entender e implementar a Regressão Linear Simples do zero.

<font color='blue'> Regressão Linear Simples </font> é um ótimo primeiro algoritmo de aprendizado de máquina para implementar, pois requer que você estime propriedades do seu conjunto de dados de treinamento, mas é simples o suficiente para iniciantes entenderem. A regressão linear é um método de previsão com mais de 200 anos. Neste tutorial, você descobrirá como implementar o algoritmo de regressão linear simples do zero em Python.

Depois de concluir este tutorial, você saberá:<br>
&#9632; Como estimar estatísticas a partir de dados de treinamento.<br>
&#9632; Como estimar coeficientes de regressão linear a partir de dados.<br>
&#9632; Como fazer previsões usando regressão linear para novos dados.<br>

A regressão linear pressupõe uma **relação linear ou de linha reta entre as variáveis ​​de entrada (X) e a variável de saída única (y).** Mais especificamente, essa saída (y) pode ser calculada a partir de uma combinação linear das variáveis ​​de entrada (X). Quando há uma única variável de entrada, o método é chamado de regressão linear simples.

Na regressão linear simples, podemos usar estatísticas nos dados de treinamento para estimar os coeficientes exigidos pelo modelo para fazer previsões em novos dados.

A linha para um modelo de regressão linear simples pode ser escrita como:

$$ y = b_0 + b_1 * x $$
onde $b_0$ e $b_1$ são os coeficientes que devemos estimar a partir dos dados de treinamento. Uma vez que os coeficientes são conhecidos, podemos usar esta equação para estimar valores de saída para $y$ dados novos exemplos de entrada de $x$. Ela requer que você calcule propriedades estatísticas a partir dos dados, como **média, variância** e **covariância.**

## <font color = 'blue'> Conjunto de dados de seguros suecos</font>
Usaremos um conjunto de dados real para demonstrar a regressão linear simples. O conjunto de dados é chamado de conjunto de dados **“Seguro de automóveis na Suécia”** e envolve **<font color='blue'> prever o pagamento total de todas as reivindicações em milhares de coroas suecas (y), dado o número total de reivindicações (x). </font>**

Isso significa que, para um novo número de reivindicações (x), seremos capazes de prever o pagamento total de reivindicações (y).

Vamos carregar algumas bibliotecas básicas do Python que precisaremos ao longo deste tutorial.

In [29]:
# library for manipulating the csv data
import pandas as pd

# library for scientific calculations on numbers + linear algebra
import numpy as np
import math

# # library for regular plot visualizations
import matplotlib.pyplot as plt

# #library for responsive visualizations
import plotly.express as px


In [30]:
data = pd.read_csv(redwankarimsony_auto_insurance_in_sweden_path + "/swedish_insurance.csv")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63 entries, 0 to 62
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   X       63 non-null     int64  
 1   Y       63 non-null     float64
dtypes: float64(1), int64(1)
memory usage: 1.1 KB


In [31]:
print(data.columns)
data.head(10)

Index(['X', 'Y'], dtype='object')


Unnamed: 0,X,Y
0,108,392.5
1,19,46.2
2,13,15.7
3,124,422.2
4,40,119.4
5,57,170.9
6,23,56.9
7,14,77.5
8,45,214.0
9,10,65.3


Vamos dar uma olhada nos dados em si. Você pode usar matplotlib.pyplot ou plotly para visualização.

### Plot a distribuição da coluna X usando o box plot da lib plotly

In [32]:
#plot distribution of columns x and y using plotly
fig = px.bar(data, x="X", y="Y", title="Distribution of X and Y")
fig.update_layout(template='plotly_dark')
fig.show()


### Plot a distribuição da coluna Y usando o box plot da lib plotly

In [33]:
fig = px.box(data, y="Y", title="Box plot of Y")
fig.update_layout(template='plotly_dark')
fig.show()

### Faça o plot da dispersão entre a variável X e Y para verificar o relacionamento entre variável independente e variável dependente (continue utilizando a lib plotly)

In [34]:
#plot distribution of columns x and y using plotly
fig = px.scatter(data, x="X", y="Y", title="Distribution of X and Y")
fig.update_layout(template='plotly_dark')
fig.show()


## Este treinamento é dividido em cinco partes:
* Calcular média e variância.
* Calcular covariância (X,Y).
* Estimar coeficientes.
* Fazer previsões.
* Comparação visual para correção.

Essas etapas darão a você a base necessária para implementar e treinar modelos de regressão linear simples para seus próprios problemas de previsão.

### 1. Calcular Média e Variância.
Como dito anteriormente, a regressão linear simples usa média e variância dos dados fornecidos. Usaremos as funções internas `numpy` para calculá-las.

In [35]:
# Faça o cálculo da média e variância para as variáveis X e Y aqui.
mean_x = data['X'].mean()
mean_y = data['Y'].mean()
variance_x = data['X'].var()
variance_y = data['Y'].var()

print(f'Mean of X: {mean_x}')
print(f'Mean of Y: {mean_y}')
print(f'Variance of X: {variance_x}')
print(f'Variance of Y: {variance_y}')

Mean of X: 22.904761904761905
Mean of Y: 98.18730158730159
Variance of X: 545.3133640552995
Variance of Y: 7626.101449052739


### 2. Calcule a covariância.
A covariância de dois grupos descreve como esses grupos mudam juntos. A covariância é uma generalização da correlação. A correlação descreve a relação entre dois grupos de dados, enquanto a covariância pode descrever a relação entre dois ou mais grupos de dados. Ela é calculada pela seguinte fórmula.
$$ Cov(X,Y) = \frac{\sum{(X_i - \overline{X})}{(Y_j - \overline{Y})}}{n} $$

In [36]:
# Faça o cálculo da covariância entre X e Y aqui.
covariance = np.sum((data['X'] - mean_x) * (data['Y'] - mean_y)) / len(data['Y'])
print(f'Covariance: {covariance}')

Covariance: 1832.054346182918


### 3. Estimar coeficientes
Agora que temos todas as variáveis necessárias para calcular os coeficientes (parâmetros) de uma regressão linear simples, vamos em frente para estimar esses parâmetros (b1 e b0);

### Fórmulas para os parâmetros da regressão linear simples

1. **Cálculo do coeficiente angular $b_1$:**

$$
b_1 = \frac{\sum{(x_i - \overline{x})(y_i - \overline{y})}}{\sum{(x_i - \overline{x})^2}}
$$

ou, equivalente:

$$
b_1 = \frac{Cov(X, Y)}{Var(X)}
$$

2. **Cálculo do intercepto $b_0$:**

$$
b_0 = \overline{y} - b_1 \cdot \overline{x}
$$

### Onde:
- $x_i$: valores da variável independente $x$,
- $y_i$: valores da variável dependente $y$,
- $\overline{x}$: média dos valores de $x$,
- $\overline{y}$: média dos valores de $y$,
- $Cov(X, Y)$: covariância entre $X$ e $Y$,
  - $$ Cov(X,Y) = \frac{\sum{(x_i - \overline{x})(y_i - \overline{y})}}{n} $$
- $Var(X)$: variância de $X$,
  - $$ Var(X) = \frac{\sum{(x_i - \overline{x})^2}}{n} $$


In [37]:
# Estime os valores para os parâmetros b1 e b0 aqui com base nas estatísticas calculadas anteriormente

# Calcular o coeficiente angular b1
b1 = covariance / variance_x

# Calcular o intercepto b0
b0 = mean_y - b1 * mean_x

print(f"Coeficiente angular (b1): {b1}")
print(f"Intercepto (b0): {b0}")

Coeficiente angular (b1): 3.359635884509758
Intercepto (b0): 21.235641565911422


### 4. Faça previsões
O modelo de regressão linear simples é uma reta definida por coeficientes estimados a partir de dados de treinamento. Uma vez que os coeficientes são estimados, podemos usá-los para fazer previsões. A equação para fazer previsões com um modelo de regressão linear simples é a seguinte:
$$ \hat{y} = b_0 + b_1 * x $$

In [38]:
# Calcule as predições aqui com base na variável X do nosso conjunto de dados.
predictions = b0 + b1 * data['X']

print(f"Predições: {predictions}")

Predições: 0     384.076317
1      85.068723
2      64.910908
3     437.830491
4     155.621077
         ...    
58     51.472365
59    125.384354
60     68.270544
61    199.296343
62    108.586175
Name: X, Length: 63, dtype: float64


### 5. Visualizando as predições como uma regressão linear

In [39]:
# Plot a regressão linear estimada aqui usando o plotly

# Criar DataFrame para plotagem
df = pd.DataFrame({'X': data['X'], 'Y': data['Y'], 'Predictions': predictions})

# Criar scatter plot com linha de regressão
fig = px.scatter(df, x='X', y='Y', title='Dispersion between X and Y with Predictions')
fig.update_layout(template='plotly_dark')
fig.add_scatter(x=df['X'], y=df['Predictions'], mode='lines', name='Regression Line')

## Para onde ir a partir daqui (extra)
* <font color="red">Você consegue descobrir precisão das previsões (RMSE e MSE)???</font>
* Estender o mesmo problema para vários recursos de entrada.

In [40]:
#run RMSE and mse calculations
rmse = math.sqrt(np.mean((predictions - data['Y']) ** 2))
mse = np.mean((predictions - data['Y']) ** 2)

print(f'RMSE: {rmse}')
print(f'MSE: {mse}')

RMSE: 35.38810138063528
MSE: 1252.3177193261204
