<a href="https://colab.research.google.com/github/Ellen-Tuane/Statistics-for-machine-learning/blob/master/colabs/Correla%C3%A7%C3%A3o_e_regress%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Correlação e regressão

## Importações

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import math

## Base de dados

In [None]:
tamanho = np.array([30, 39, 49, 60])
preco = np.array([57000, 69000, 77000, 90000])

In [None]:
dataset = pd.DataFrame({'tamanho': tamanho, 'preco': preco})
dataset

In [None]:
media_tamanho = dataset['tamanho'].mean()
media_preco = dataset['preco'].mean()
media_tamanho, media_preco

In [None]:
dp_tamanho = dataset['tamanho'].std()
dp_preco = dataset['preco'].std()
dp_tamanho, dp_preco

## Correlação - cálculo manual

In [None]:
dataset['dif'] = (dataset['tamanho'] - media_tamanho) * (dataset['preco'] - media_preco)
dataset

In [None]:
soma_dif = dataset['dif'].sum()
soma_dif

In [None]:
covariancia = soma_dif / (len(dataset) - 1)
covariancia

In [None]:
coeficiente_correlacao = covariancia / (dp_tamanho * dp_preco)
coeficiente_correlacao

In [None]:
sns.scatterplot(tamanho, preco);

In [None]:
coeficiente_determinacao = math.pow(coeficiente_correlacao, 2)
coeficiente_determinacao

## Correlação - cálculo com numpy a pandas

In [None]:
np.cov(tamanho, preco)

In [None]:
dataset.cov()

In [None]:
np.corrcoef(tamanho, preco)

In [None]:
dataset.corr()

## Exercício - correlação base de dados preço das casas

In [None]:
dataset = pd.read_csv('house_prices.csv')
dataset.head()

In [None]:
dataset.drop(labels = ['id', 'date', 'sqft_living', 'sqft_lot'], axis = 1, inplace=True)
dataset.head()

In [None]:
dataset.corr()

In [None]:
sns.scatterplot(dataset['sqft_living15'], dataset['price']);

In [None]:
sns.scatterplot(dataset['grade'], dataset['price']);

In [None]:
sns.scatterplot(dataset['long'], dataset['price']);

In [None]:
sns.heatmap(dataset.corr(), annot=True);

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(15,15))
ax = sns.heatmap(dataset.corr(), annot=True)

## Correlação com a biblioteca Yellowbrick

- https://www.scikit-yb.org/en/latest/

In [None]:
!pip install yellowbrick --upgrade

In [None]:
from yellowbrick.target import FeatureCorrelation

In [None]:
dataset.columns[1:]

In [None]:
grafico = FeatureCorrelation(labels = dataset.columns[1:])
grafico.fit(dataset.iloc[:, 1:16].values, dataset.iloc[:, 0].values)
grafico.show();

## Regressão

- Correlação: relacionamento entre variáveis, uma variável afeta a outra. Duas vias: correlação de price x sqft_living = correlação sqft_living x price
- Regressão é uma via: sqft_living para prever o preço é diferente de utilizar o preço para prever sqft_living
- Espera-se que a correlação seja de moderada a forte para obter um bom modelo (positiva ou negativa)
- Coeficiente de determinação (R2): > 0.7 é um bom valor. Entre 0 e 0.3 é ruim. Entre esses valores é interessante fazer testes
- Regressão linear: existir lineariedade

In [None]:
dataset = pd.read_csv('house_prices.csv')
dataset.head()

In [None]:
dataset.drop(labels = ['id', 'date'], axis = 1, inplace=True)
dataset.head()

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(15,15))
ax = sns.heatmap(dataset.corr(), annot=True)

In [None]:
math.pow(0.7, 2)

### Regressão linear simples

- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [None]:
X = dataset['sqft_living'].values
X.shape

In [None]:
X = X.reshape(-1, 1)
X.shape

In [None]:
y = dataset['price'].values
y

In [None]:
from sklearn.model_selection import train_test_split
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size = 0.2, random_state = 1)
X_treinamento.shape, X_teste.shape

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_treinamento, y_treinamento)

In [None]:
# b0
regressor.intercept_

In [None]:
# b1
regressor.coef_

In [None]:
regressor.intercept_ + regressor.coef_ * 900

In [None]:
regressor.predict(np.array([[900]]))

In [None]:
import matplotlib.pyplot as plt
plt.scatter(X, y)
plt.plot(X, regressor.predict(X), color = 'red')

In [None]:
regressor.score(X_treinamento, y_treinamento)

In [None]:
regressor.score(X_teste, y_teste)

### Métricas de erros

In [None]:
previsoes = regressor.predict(X_teste)

In [None]:
previsoes, y_teste

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
mean_absolute_error(y_teste, previsoes)

In [None]:
mean_squared_error(y_teste, previsoes)

In [None]:
math.sqrt(mean_squared_error(y_teste, previsoes))

### Regressão linear múltipla

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(15,15))
ax = sns.heatmap(dataset.corr(), annot=True)

In [None]:
dataset.head()

In [None]:
X = dataset.iloc[:, [2, 3, 9, 10]].values
X

In [None]:
y = dataset.iloc[:, 0].values
y

In [None]:
import matplotlib.pyplot as plt
f, ax = plt.subplots(2, 2)
ax[0, 0].hist(X[0])
ax[0, 1].hist(X[1])
ax[1, 0].hist(X[2])
ax[1, 1].hist(X[3]);

In [None]:
plt.hist(y);

In [None]:
y = np.log(y)

In [None]:
plt.hist(y);

In [None]:
from sklearn.model_selection import train_test_split
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size = 0.2, random_state = 1)
X_treinamento.shape, X_teste.shape

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_treinamento, y_treinamento)

In [None]:
regressor.score(X_treinamento, y_treinamento)

In [None]:
regressor.score(X_teste, y_teste)

In [None]:
previsoes = regressor.predict(X_teste)
mean_absolute_error(y_teste, previsoes)

## Exercício

In [None]:
dataset.head()

In [None]:
dataset.drop(labels = ['sqft_living15', 'sqft_lot15'], axis = 1, inplace=True)
dataset.head()

In [None]:
X = dataset.iloc[:, 1:17].values
y = dataset.iloc[:, 0].values

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X, y, test_size = 0.2, random_state = 1)
regressor = LinearRegression()
regressor.fit(X_treinamento, y_treinamento)

In [None]:
regressor.score(X_treinamento, y_treinamento)

In [None]:
regressor.score(X_teste, y_teste)

### Seleção de atributos

- https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFdr.html

In [None]:
from sklearn.feature_selection import SelectFdr, f_regression
selecao = SelectFdr(f_regression, alpha = 0.0)
X_novo = selecao.fit_transform(X, y)
X.shape, X_novo.shape

In [None]:
selecao.pvalues_

In [None]:
colunas = selecao.get_support()
colunas

In [None]:
dataset.columns[1:17]

In [None]:
dataset.columns[1:17][colunas == True]

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X_novo, y, test_size = 0.2, random_state = 1)
regressor = LinearRegression()
regressor.fit(X_treinamento, y_treinamento)

In [None]:
regressor.score(X_treinamento, y_treinamento)

In [None]:
regressor.score(X_teste, y_teste)