# 3 - Gráficos de Resíduos

In [None]:
import regression as reg
import pandas as pd
import numpy as np

## Regressões lineares

Vamos considerar uma parte do dataset [100,000 UK Used Car Data set](https://www.kaggle.com/datasets/adityadesai13/used-car-dataset-ford-and-mercedes). Cada item desse dataset representa um carro usado vendido no Reino Unido. Ele pode ser usado, por exemplo, para descobrir relações entre o preço e outras características.

In [None]:
data = pd.read_csv('../../Datasets/audi.csv')
data.head()

A regressão abaixo sugere que o preço tem relação com todas as variáveis quantitativas.

In [None]:
result = reg.linear(data=data, formula='price ~ year + mileage + tax + mpg + engineSize')
result.micro_summary()

No entanto, isso não significa que esse modelo seja adequado. Para verificá-lo, podemos plotar o gráfico de resíduos. Nesse gráfico, o eixo horizontal representa os valores previstos pelo modelo, enquanto o eixo vertical representa os erros, ou seja, a diferença

$$y_{\mathrm{esperado}} - y_{\mathrm{previsto}}.$$

In [None]:
result.plot_residuals()

Quando o modelo é adequado, espera-se que esses erros tenham comportamento aleatório, ou seja:

1. a distribuição deles deve ser próxima de uma normal;

2. nenhum padrão deve ser evidente.

Podemos observar acima que (1) não parece tão ruim, mas (2) definitivamente parece. O erro tende a aumentar conforme o preço fica mais alto. Isso sugere que a relação verdadeira pode ser exponencial ou polinomial, não linear. Para verificar, vamos considerar o logaritmo do preço.

In [None]:
result = reg.linear(data=data, formula='np.log(price) ~ year + mileage + tax + mpg + engineSize')
result.micro_summary()

Note que os valores-p continuam baixos e os erros padrão estão menores. 

In [None]:
result.plot_residuals()

De acordo com (1) e (2), o modelo parece estar mais adequado.

Isso, claro, não significa que esse modelo é perfeito ou mesmo bom. Mas indica, pelo menos, que ele não está incoerente com as premissas adotadas.

## Regressões lineares

Também podemos plotar o gráfico de resíduos para uma regressão logística.

Vamos considerar o [Income Dataset](https://www.kaggle.com/datasets/mastmustu/income). Cada item desse dataset corrresponde a uma pessoa dos Estados Unidos e contém uma variável binária que indica se essa pessoa tem renda superior a 50 mil.

In [None]:
data = pd.read_csv('../../Datasets/income.csv')
data.head()

A regressão abaixo sugere que a renda tem relação com idade e nível educacional.

*(o uso de Q na fórmula é necessário quando o nome da coluna tem caracteres inválidos)*

In [None]:
result = reg.logistic(data=data, formula='Q("income_>50K") ~ age + Q("educational-num")')
result.micro_summary()

No gráfico de resíduos de uma regressão logística, queremos duas propriedades:

1. pelo menos 95% dos pontos devem estar entre as linhas;

2. nenhum padrão deve ser evidente.

Podemos observar que tanto (1) quanto (2) não parecem ser verdade.

In [None]:
result.plot_residuals()

Como a variável dependente é binária, não podemos considerar um cálculo sobre ela. Porém, tanto no gráfico de resíduos da regressão linear quanto no gráfico de resíduos da regressão logística, podemos usar uma das variáveis independentes como eixo horizontal. Isso é particularmente útil para visualizar a relação entre cada uma delas e o erro.

In [None]:
result.plot_residuals(data['age'])

In [None]:
result.plot_residuals(data['educational-num'])

Note que o modelo parece errar mais para idades abaixo de 30, idades acima de 60 e níveis educacionais mais altos.

<div class="alert alert-block alert-info">
   <strong>DICA:</strong> Você pode clicar na aba
   <img style="vertical-align: middle" src="attachment:5a5268fc-95d3-4655-8915-c5a1488e8e99.png" alt"toc.png">
   à esquerda para navegar por seção.
</div>