# Estatística em Python - Análise da Regressão

### Regressão
O objetivo de uma regressão é modelar a relação entre uma variável dependente (target) e uma variável
independente, ou um conjunto de variáveis independentes.

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

In [None]:
x = [49.0,65.0,45.0,40.0,55.0,45.0,44.0,47.0,50.0,56.0]
y = [24.0,40.0,25.0,23.5,33.5,22.0,22.5,23.5,25.0,35.0]
dados = {'X': x, 'Y': y}

In [None]:
df = pd.DataFrame(dados)
df.head(5)

In [None]:
plt.figure(figsize=(8, 5))
plt.title('Relação entre as variáveis X e Y')
plt.scatter(df['X'],df['Y'])
plt.xlabel('Variável Independente X')
plt.ylabel('Variável Dependente Y')
plt.grid(True)
plt.show()

In [None]:
df.sum()

In [None]:
df.mean()

In [None]:
df['x'] = df['X'] - df['X'].mean()
df['y'] = df['Y'] - df['Y'].mean()
df['x^2'] = (df['X'] - df['X'].mean())**2
df['y^2'] = (df['Y'] - df['Y'].mean())**2
df['xy'] = df['x']*df['y']
df.head()

In [None]:
beta = df['xy'].sum() / df['x^2'].sum()
print("Beta:", beta)

In [None]:
alfa = df['Y'].mean() - beta*df['X'].mean()
print("Alfa:", alfa)

In [None]:
# Cálculo da reta de regressão
reta = [alfa+beta*x for x in df['X']] # Previsto
reta

In [None]:
# Adicionamos a reta no gráfico:
plt.figure(figsize = (8, 5))
plt.scatter(df['X'], df['Y'])
plt.plot(df['X'], reta, color='r')
plt.title('Relação entre as variáveis X e Y', pad=20)
plt.xlabel('Variável independente X')
plt.ylabel('Variável dependente Y')
plt.grid(True)
plt.show()

In [None]:
# Adicionar os valores no DataFrame
df['Y-Y^'] = df['Y'] -reta             # Resíduo
df['(Y-Y^)^2'] = (df['Y'] -reta)**2
df['Y^'] = reta                        # Previsto
df.head()

In [None]:
# Calcular o SQT, SQE, SQR e R2
SQT = df['y^2'].sum().round(2)
SQE = sum((df['Y^'] - df['Y^'].mean())**2)
SQR = round(sum(df['(Y-Y^)^2']),2)
R2 = SQE/SQT
round(R2*100,2)

print("Soma de quadrado total:", SQT)
print("Soma de quadrados devida ao erro aleatório:", SQE)
print("Soma de quadrados da regressão:", SQR)
print("Coeficiente de determinação:", R2)

### Usando o pacote statsmodels

In [None]:
import statsmodels.api as sm

In [None]:
X = df['X']
X = sm.add_constant(X)
Y = df['Y']
resultados = sm.OLS(Y,X).fit()

In [None]:
resultados.summary()

Até a próxima<br>
Fernando Anselmo