# Regressão Linear

Regressão Linear tem origem na estatística. É uma equação para se estimar o valor esperado de uma variável Y com base nos valores de outras variáveis x.

![reglinear](../images/reg.png)

## Os dados

Voltando ao dataset do Fifa 19.

Esses dados podem ser [encontrados no Kaggle](https://www.kaggle.com/karangadiya/fifa19). 

![fifa](../images/fifa.jpeg)

Nesta aula, usaremos a biblioteca ScikitLearn e o modelo de regressão linear para tentar prever os valores da coluna "Overall".

In [None]:
#Lendo os dados
import pandas as pd
pd.set_option('display.max_columns',200)
data = pd.read_csv('../data/data.csv', index_col = 0)

#Arrumando algumas variáveis numéricas:
def convert_currency(col):
    return (col.str.lstrip('€')
               .str.rstrip('.')
               .str.replace('K','000')
               .str.replace('M','000000')
               .astype('float'))

data['Value'] = convert_currency(data.Value)
data['Wage'] = convert_currency(data.Wage)
data['Weight'] = data.Weight.str.rstrip('lbs').astype('float')

#Filtrando variáveis numéricas
#PS: escolha decorrente de um processo CONSCIENTE de Análise Exploratória!!!
data_numeric = data[['Age', 'Potential', 'Value', 'Wage', 'Special', 'International Reputation', 'Weight',
               'HeadingAccuracy', 'ShortPassing', 'Volleys', 'Dribbling', 'Curve', 'FKAccuracy',
                'LongPassing', 'BallControl', 'Acceleration', 'SprintSpeed', 'Agility', 'Reactions',
                'Balance', 'ShotPower', 'Jumping', 'Stamina', 'Strength', 'LongShots', 'GKPositioning',
                'Aggression', 'Interceptions', 'Positioning', 'Vision', 'Penalties','Composure',
                'Marking', 'StandingTackle', 'SlidingTackle', 'GKDiving', 'GKHandling',
                'GKKicking','GKReflexes', 'Overall']]

#Excluindo desse meu conjunto de variáveis selecionadas as linhas que tem algum valor nulo
#PS: aqui decidi excluir porque sei que não são muitos os casos, então não vou perder muito dado
data_numeric = data_numeric.dropna()

In [None]:
data_numeric.head(5)

## Passo 1: estimar com base na coluna 'Value'

Se usássemos somente a idade do jogador para estimar o overall, como seria?

### Vamos dar uma olhada rápida da distribuição dessa variável...

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.scatterplot(data = data, x = 'Value', y = 'Overall')

### Precisamos dividir algumas coisas:

1. Precisamos dividir o que é característica (x) do que é o valor a ser predito (y)
2. Também precisamos dividir o que vai ser usado para treinar o modelo e o que vai ser usado para verificar a performance do modelo.

In [None]:
from sklearn.model_selection import train_test_split

# Dividindo x e y
x = data_numeric.Value.values
y = data_numeric.Overall.values

# Dividindo dados para treino e dados para teste
x_train, x_test, y_train, y_test = train_test_split(x, y, 
                                                    test_size = 0.3, 
                                                    random_state = 42)


In [None]:
x_test

In [None]:
y_test

![train_test_split](../images/train_test.png)

### Agora sim podemos treinar o modelo:

In [None]:
from sklearn.linear_model import LinearRegression

# Treinando o modelo
model = LinearRegression().fit(x_train.reshape(-1,1), y_train)

In [None]:
x_test

In [None]:
# Fazendo as previsões
y_pred = model.predict(x_test.reshape(-1,1))
y_pred

In [None]:
# Vamos ver a reta das previsões feitas:
sns.regplot(x = x_test, y = y_pred)

In [None]:
sns.regplot(data = data, x = 'Value', y = 'Overall')

### Avaliando o modelo

In [13]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

#### Mean squared error (MSE):
Em português, erro quadrático médio, essa métrica penaliza *mais* erros maiores, já que os erros (diferença entre o valor previsto e o correto) são elevados ao quadrado. Podemos ter dificuldade em interpretar no contexto real o que o erro obtido significa. 

In [14]:
mean_squared_error(y_test, y_pred)

40.23938900435588

#### Mean absolute error (MAE):
Em português, erro absoluto médio, essa métrica basicamente faz a média do erro absoluto de cada previsão. Facilita a interpretação no modelo real, mas temos sempre que ter em mente que erros maiores (outliers) podem atrapalhar muito a ideia obtida pela média:

In [15]:
mean_absolute_error(y_test, y_pred)

4.994253480928422

#### R<sup>2</sup>:
O erro "R quadrado" é uma métrica que varia entre -∞ e 1 e é uma razão que indica o quão bom o nosso modelo está em comparação com um modelo "naive", que faz a predição com base no valor médio do target. Quanto maior seu valor, melhor é nosso modelo com relação a esse modelo mais simplista.

In [17]:
r2_score(y_test, y_pred)

0.14933268822378598

## Passo 2: estime com base na coluna 'Age'


In [None]:
# Dividindo x e y
#[Codigo aqui]

# Dividindo dados para treino e dados para teste
#[Codigo aqui]

# Treinando o modelo
#[Codigo aqui]

# Fazendo as predições
#[Codigo aqui]

# Calculando o erro - medida de qualidade do modelo
#[Codigo aqui]

## Passo 3: faça o mesmo para a coluna 'Weight'

In [None]:
# Dividindo x e y
#[Codigo aqui]

# Dividindo dados para treino e dados para teste
#[Codigo aqui]

# Treinando o modelo
#[Codigo aqui]

# Fazendo as predições
#[Codigo aqui]

# Calculando o erro - medida de qualidade do modelo
#[Codigo aqui]

## Passo 4: Agora com todas as variáveis numéricas

In [None]:
# Dividindo x e y
x = data_numeric.drop(columns="Overall").values
y = data_numeric.Overall.values

# Dividindo dados para treino e dados para teste
#[Codigo aqui]

# Treinando o modelo
#[Codigo aqui]

# Fazendo as predições
#[Codigo aqui]

# Calculando o erro - medida de qualidade do modelo
#[Codigo aqui]

## Interpretação dos coeficientes da regressão:
Vamos dar uma olhada nos coeficientes encontrados para cada característica:

In [None]:
(pd.DataFrame({'feature': data_numeric.columns[:-1],
               'coef': model.coef_.round(4)})
  .sort_values(by='coef', ascending = False)
  .reset_index(drop = True))

### Coeficientes e a padronização:
Não fizemos uma coisa MUITO importante para usar essas variáveis numéricas: PADRONIZAÇÃO!!!
Vamos retreinar o modelo e ver como os coeficientes resultantes são diferentes:

In [None]:
from sklearn.preprocessing import StandardScaler

data_numeric_scaled = StandardScaler().fit_transform(data_numeric.drop(columns=['Overall']))

x = data_numeric_scaled
y = data_numeric.Overall.values

# Dividindo dados para treino e dados para teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 42)

# Treinando o modelo
model = LinearRegression(normalize = True).fit(x_train, y_train)

# Fazendo as previsões
y_pred = model.predict(x_test)

# Avaliando o modelo
mean_absolute_error(y_test, y_pred)

O erro é muuuito semelhante, mas vamos olhar a diferença nos coeficientes:

In [None]:
(pd.DataFrame({'feature': data_numeric.columns[:-1],
               'coef': model.coef_.round(4)})
  .sort_values(by='coef', ascending = False)
  .reset_index(drop = True))

### Mais um detalhe: multicolinearidade

Basicamente, o problema da multicolinearidade é: se você colocar no conjunto de características duas características que carregam a mesma informação ou que tem relação linear muito forte, seu modelo pode acabar ignorando (colocando um coeficiente baixo) uma das características e isso não significa que ela não é importante para a previsão, só significa que a informação dela, naquele conjunto de características, não foi tão relevante.

Portanto, o ideal é retirar das características aquelas com correlação muito forte.

Nesse site, ele explica com uns exemplos de futebol essa ideia: https://blog.minitab.com/pt/basta-lidando-com-a-multicolinearidade-na-analise-de-regressao

Um artigo científico do IME-USP sobre isso, pra quem gosta de entender mais a fundo matematicamente: https://www.ime.usp.br/~yambar/MI404-Metodos%20Estatisticos/Aula%208-9%20Regress%E3o%20mult%20dim/inete%20adicional%20-%20multicolinearidade%20em%20modelos%20de%20regressao.pdf

In [None]:
plt.figure(figsize=(18,8))
sns.heatmap(data_numeric.corr(), annot=True, fmt=".1f");

## Próximos passos:

- Tente melhorar esse modelo explorando também as características categóricas do conjunto de dados.
- Faça outros exercícios de regressão. Nesse material, no diretório notebooks_extras, serão disponibilizados alguns exemplos e você também sempre pode recorrer aos vários desafios disponíveis no Kaggle.