In [49]:
import pandas as pd
import plotly.express as px
import numpy as np
import plotly.graph_objects as go
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score


In [39]:
n_samples = 15
weight = np.random.normal(loc=50, scale=10, size=n_samples)  # Peso dos ratos em gramas
size = 30 + 0.5 * weight + np.random.normal(loc=0, scale=5, size=n_samples)
rats = {
    'weight' : weight,
    'size' : size
}
dataframe = pd.DataFrame(rats)
dataframe

Unnamed: 0,weight,size
0,46.987467,59.369583
1,57.889781,58.43102
2,37.56961,46.615741
3,66.787479,65.244869
4,55.323827,53.237458
5,46.865788,54.258407
6,26.027887,33.903327
7,44.370172,54.779192
8,46.556203,48.156616
9,37.272739,52.132678


In [40]:
fig = px.scatter(dataframe, x='weight', y='size',title='Rats')
fig.show()

## Começo 
Para começar a procurar a melhor linha que nos gera menos residuos começamos por uma linha da média do tamanho dos ratos

In [41]:
mean_size = np.mean(dataframe['size'])
mean_size

53.64340194553951

In [42]:
fig = px.scatter(dataframe, x='weight', y='size',title='Rats')

fig.add_hline(y=mean_size, line_color='red')
for index, row in dataframe.iterrows():
    fig.add_shape(type="line",
                  x0=row['weight'], y0=row['size'],
                  x1=row['weight'], y1=mean_size,
                  line=dict(color="red", width=1, dash="dash")
                 )
fig.show()

In [43]:
# Geramos um dataframe com a media do peso dos ratos para calcular o SSR (soma dos residuos quadraticos)
y_pred_mean = np.full_like(dataframe['size'], mean_size)
SSR_mean = np.sum((dataframe['size']-y_pred_mean)**2)
SSR_mean

840.4794704216242

Como podemos ver na primeira iteração temos um SSR muito alto

In [44]:
fig = px.scatter(dataframe, x='weight', y='size',title='Rats',trendline='ols')
fig.show()

Se pegarmos a formula que esta na linha e criarmos um array,conseguimos calcular o SSR gerado por essa reta

In [47]:
y_pred = 0.51*dataframe['size']+29
SSR_y_pred = np.sum((dataframe['size']-y_pred)**2)
SSR_y_pred

312.3457535697387

In [50]:
model = LinearRegression()

In [52]:
model.fit(dataframe[['weight']], dataframe[['size']])

In [54]:
model.intercept_

array([29.77084408])

In [55]:
model.coef_

array([[0.51856172]])