# <div align="center">Exemplo Prático para Regressão Linear Simples Através do Método dos Mínimos Quadrados Ordinários</div>

Bibliotecas usadas:

In [1]:
import pandas as pd
import numpy as np
import plotly.express as exp
import plotly.graph_objects as go

Dados sobre o consumo per capita de cigarros em vários países em 1930 e as taxas de morte por câncer de pulmão em 1950

In [2]:
dados: dict[str, list[int|str]] = {
    'País': ['Austrália', 'Canadá', 'Dinamarca', 'Finlândia', 'Grã Bretanha', 
             'Islândia', 'Holanda', 'Noruega', 'Suécia', 'Suíça'],
    'Consumo de cigarro per capita (1930)': [480, 500, 380, 1100, 1100, 230, 490, 250, 300, 510],
    'Mortes por câncer de pulmão por milhão de pessoas (1950)': [180, 150, 170, 350, 460, 60, 240, 90, 110, 250]
}

df = pd.DataFrame(dados)

df

Unnamed: 0,País,Consumo de cigarro per capita (1930),Mortes por câncer de pulmão por milhão de pessoas (1950)
0,Austrália,480,180
1,Canadá,500,150
2,Dinamarca,380,170
3,Finlândia,1100,350
4,Grã Bretanha,1100,460
5,Islândia,230,60
6,Holanda,490,240
7,Noruega,250,90
8,Suécia,300,110
9,Suíça,510,250


### Exercício 1

Para o presente conjunto de dados, informe os valores de p e N. Além disso, existem quantos parâmetros da função regressora?

Resposta:

p = 1, pois p se refere ao número de variáveis independentes do problema

N = 10, pois N se refere ao número de amostras do problema

Parâmetros = 2, pois o número de parâmetros do modelo se refere ao número de "betas" com o qual a equação do modelo lida. O modelo de uma regressão linear simples é: $y = \beta_0 + \beta_1 x + \varepsilon$

### Exercício 2

Pode-se plotar um gráfico de dispersão dada a relação entre xi e yi, i = 1,...,10? Se sim o faça.

Resposta: **Sim**

In [3]:
fig: go.Figure = exp.scatter(
    df,
    x='Consumo de cigarro per capita (1930)',
    y='Mortes por câncer de pulmão por milhão de pessoas (1950)',
    title='Relação entre ambas as variáveis em países europeus',
    labels={
        'Consumo de cigarro per capita (1930)':
            'Consumo de cigarro',
        'Mortes por câncer de pulmão por milhão de pessoas (1950)':
            'Mortes por câncer de pulmão'
    }
)

fig.show()

### Exercício 3

Através do Método dos Mínimos Quadrados Ordinários, faça a estimação dos parâmetros da função regressora

In [4]:
# Variáveis independentes (x) e dependentes (y)
x: np.ndarray = np.array(df['Consumo de cigarro per capita (1930)'])
y: np.ndarray = np.array(df['Mortes por câncer de pulmão por milhão de pessoas (1950)'])

# Reformatação para garantir que x e y tenham a forma adequada
x = x.reshape(-1, 1) 
y = y.reshape(-1, 1) 
# -1 é a mesma coisa que len(x) ou len(y) nesses casos

# Adicionando uma coluna de 1s para o cálculo do intercepto (termo constante)
X: np.ndarray = np.concatenate(
    [np.ones((len(x), 1)), x], 
    axis=1
)

# Estimação dos coeficientes usando a fórmula do MMQO (beta = (X^T * X)^-1 * X^T * y)
B: np.ndarray = np.linalg.pinv(X.T @ X) @ X.T @ y

# Coeficientes da regressão
intercepto: float = B[0][0]
coeficiente_angular: float = B[1][0]

# Gerando pontos para a linha de regressão
x_pred: np.ndarray = np.linspace(min(x), max(x), 100)
X_pred: np.ndarray = np.concatenate([np.ones((len(x_pred), 1)), x_pred.reshape(-1, 1)], axis=1)
y_pred: np.ndarray = X_pred @ B

# Exibindo os coeficientes estimados
print(f"Intercepto (beta_0): {intercepto:.4f}")
print(f"Coeficiente angular (beta_1): {coeficiente_angular:.4f}")

Intercepto (beta_0): 9.1393
Coeficiente angular (beta_1): 0.3687


### Exercício 4

Trace a reta que melhor ajusta esses dados

In [5]:
# Adicionando a linha de regressão ao gráfico
fig.add_trace(
    go.Scatter(
        x=x_pred.flatten(),
        y=y_pred.flatten(),
        mode='lines',
        name='Linha de Regressão',
        line={'color':'blue'}
    )
)

# Exibindo o gráfico com a linha de regressão
fig.show()

### Exercício 5

Dado uma nova amostra $x_{11} = 400$, qual valor de $y_{11}$? Plote o ponto no gráfico de dispersão

In [6]:
x11: int = 400
y11: float = intercepto + x11 * coeficiente_angular

print(f'{x11 = }')
print(f'y11 = {float(y11):.3f}')

x11 = 400
y11 = 156.601


In [7]:
# Adicionando a nova amostra com x = 400 ao gráfico
fig.add_trace(
    go.Scatter(
        x=[x11],
        y=[y11],
        mode='markers',
        name=f'Nova Amostra ({x11}, {y11:.3f})',
        marker={
            'color':
                'red', 
            'size':
                10, 
            'symbol':
                'circle'
        }
    )
)

fig.show()

### Exercício 6

Se você estiver de posse de dados que possuam dois preditores e saídas quantitativas, é possível gerar um gráfico do modelo?

Resposta: Sim, pois, nesse caso, o gráfico ganha uma dimensão adicional, tornando-se tridimensional. Além disso, a "linha de regressão" se transforma em um "plano de regressão".