# Regressões

## Regressão Linear Simples

Vamos começar inicialmente com a regressão linear simples. Note que existe o arquivo Salary_Data.csv nesta pasta, que é o arquivo que vamos trabalhar neste módulo.

Iremos realizar técnicas de pré-processamento de dados (modificações simples, o foco é em ML).

In [None]:
# Simple Linear Regression

# Importando as bibliotecas
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

%matplotlib inline

In [None]:
# Importando o dataset
dataset = pd.read_csv('Salary_Data.csv')
X = dataset.iloc[:, :-1]
y = dataset.iloc[:, 1]

In [None]:
# Dividindo em conjunto de treino e conjunto de testes
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [None]:
# Criando o modelo de Regressão Linear
from sklearn.linear_model import LinearRegression
regressor = LinearRegression(normalize = True)
regressor.fit(X_train, y_train)

In [None]:
# Predizendo no conjunto de testes
y_pred_train = regressor.predict(X_train)
y_pred_test = regressor.predict(X_test)

In [None]:
from sklearn.metrics import r2_score

r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)

print("R2 de treino: {}".format(r2_train))
print("R2 de teste: {}".format(r2_test))

In [None]:
# Visualizando o modelo no conjunto de treino
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, y_pred_train , color = 'blue')
plt.title('Salary vs Experience (Training set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

In [None]:
# Visualizando o modelo no conjunto de testes
plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary vs Experience (Test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# Regressão Linear Múltipla

Regressão Linear múltipla é semelhante à regressão linear simples, porém com mais de uma variável (regressor). O raciocínio (e o algoritmo) são os mesmos. Mudaremos apenas o dataset (50_Startups.csv)

In [None]:
# importando o dataset
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[:, :-1]
y = dataset.iloc[:, 4]

In [None]:
X.head()

In [None]:
#Tratando categorical data
X = pd.get_dummies(data = X)
X.head()

In [None]:
# Evitando a Dummy Variable Trap
X.drop('State_California', axis=1, inplace=True)

In [None]:
X.head()

In [None]:
# Dividindo em conjunto de treino e testes
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [None]:
# Criando o modelo de regressão linear múltipla
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

In [None]:
# Predizendo os resultados no test set
y_pred = regressor.predict(X_test)

In [None]:
r2 = r2_score(y_test, y_pred)
r2

## Feature Selection

### F Test
Iremos utilizar f_regression para implementar o método de seleção de features F Test

In [None]:
# Calculando F e pval
from sklearn.feature_selection import f_regression
F, pval = f_regression(X_train, y_train)

# Excluindo features com baixo pval
X_train_ftest = X_train.iloc[:, pval > 0.05]
X_test_ftest = X_test.iloc[:, pval > 0.05]

In [None]:
X_train_ftest.head()

### Mutual Information 

Iremos utilizar mutual_info_regression para calcular implementar o método de seleção de features de Informação Mútua.

In [None]:
from sklearn.feature_selection import mutual_info_regression

mi = mutual_info_regression(X_train, y_train, random_state = 42)
mi

In [None]:
# Excluindo features com baixo mi
X_train_mi = X_train.iloc[:, mi > 0.5]
X_test_mi = X_test.iloc[:, mi > 0.5]

In [None]:
X_train_mi.head()

### Recursive Feature Elimination (RFE)

Iremos utilizar RFE para calcular implementar o método de seleção de features de Backwards Elimination.

In [None]:
from sklearn.feature_selection import RFE

X_train_rfe = RFE(estimator = regressor, n_features_to_select = 3)
X_train_rfe.fit(X_train, y_train)
X_train.iloc[:, X_train_rfe.support_].head()

Como conclusão, para este modelo específico, nota-se que a localização da startup (Flórida ou New York), e também a quantia gasta em R&D são as melhores features para aplicar ao modelo de regressão.

# Regressão Polinomial

Regressão polinomial é realizada quando existe uma dependência polinomial entre seus dados e seus rótulos.

In [None]:
# Importando o dataset
dataset = pd.read_csv('Position_Salaries.csv')
X = dataset.iloc[:, 1:2]
y = dataset.iloc[:, 2]

In [None]:
X.head()

Para o intuito de visualização e teste, criaremos uma regressão linear em cima dos dados.

In [None]:
# Criando um modelo linear
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X, y)

# Visualização do modelo
plt.scatter(X, y, color = 'red')
plt.plot(X, lin_reg.predict(X), color = 'blue')
plt.title('Level x Salary (Linear Regression)')
plt.xlabel('Position Level')
plt.ylabel('Salary')
plt.show()

Como é possível perceber, uma reta não é o melhor modelo para representar estes dados. A solução é adicionar termos polinomiais para melhor adequação da nossa curva.

In [None]:
# Criando o modelo de regressão polinomial - fornecer features polinomiais para LR
from sklearn.preprocessing import PolynomialFeatures
poly_reg = PolynomialFeatures(degree = 4)
X_poly = poly_reg.fit_transform(X)

# criando regressão polinomial
lin_reg_2 = LinearRegression()
lin_reg_2.fit(X_poly, y)

In [None]:
pd.DataFrame(X_poly)

Agora podemos perceber que existem features polinomiais nos nossos dados. Desta forma, basta aplicarmos LinearRegression.

In [None]:
# Visualizaçãoo do modelo de regressção polinomial

#X_grid = np.arange(min(X), max(X), 0.1)
#X_grid = X_grid.reshape((len(X_grid), 1))
plt.scatter(X, y, color = 'red')
plt.plot(X, lin_reg_2.predict(X_poly), color = 'blue')
plt.title('Level x Salary (Polynomial Regression)')
plt.xlabel('Position Level')
plt.ylabel('Salary')
plt.show()

# Decision Trees Regression

Árvores de decisão são utilizadas tanto para regressão, quanto para classificação. É muito comum ouvir o termo CART (Classification and Regression Trees). É um algoritmo intuitivo, onde o objetivo é criar um modelo que prediz um valor baseado em pequenas regras de decisão inferidas das features.


### Vantagens:
- Simples de entender e interpretar;
- Lida bem com dados numéricos e categóricos;
- Custo computacional logarítmico no número training examples.

### Desvantagens:
- Podem criar árvores muito complexas que não generalizam bem (overfitting);
- Instável, pequenas variações nos dados podem causar árvores completamente diferentes (problema resolvido com ensemble);
- É considerado um algoritmo NP-completo sob a ótima de otimização, usualmente os nós são otimizados encontrando-se mínimos locais (problema resolvido com ensemble);
- Muito influenciado por bias;

In [None]:
# Importando o dataset
dataset = pd.read_csv('Position_Salaries.csv')
X = dataset.iloc[:, 1:2].values
y = dataset.iloc[:, 2].values

In [None]:
# Criando o modelo
from sklearn.tree import DecisionTreeRegressor
regressor = DecisionTreeRegressor(criterion = 'mse', random_state = 42)
regressor.fit(X, y)

In [None]:
# Visualização do modelo
plt.scatter(X, y, color = 'red')
plt.plot(X, regressor.predict(X), color = 'blue') # <- modelo de baixa resolução
plt.title('Level x Salary (Decision Trees Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

In [None]:
# Visualização com maior resolução
X_grid = np.arange(min(X), max(X), 0.01)
X_grid = X_grid.reshape((len(X_grid), 1))
plt.scatter(X, y, color = 'red')
plt.plot(X_grid, regressor.predict(X_grid), color = 'blue')
plt.title('Level x Salary (Decision Trees Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

Veremos um outro exemplo, onde tentamos aproximar uma função senoidal.

In [None]:
# Criando dados aleatórios
rng = np.random.RandomState(42)
X = np.sort(5 * rng.rand(80, 1), axis=0)
y = np.sin(X).ravel()
y[::5] += 3 * (0.5 - rng.rand(16))

In [None]:
plt.scatter(X, y)

In [None]:
# Criando as árvores
regr_1 = DecisionTreeRegressor(max_depth=2)
regr_2 = DecisionTreeRegressor(max_depth=5)
regr_1.fit(X, y)
regr_2.fit(X, y)

In [None]:
# Predict
X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]
y_1 = regr_1.predict(X_test)
y_2 = regr_2.predict(X_test)

In [None]:
# Plotando os resultados
plt.scatter(X, y, s=20, edgecolor="black", c="darkorange", label="data")
plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth = 2")
plt.plot(X_test, y_2, color="yellowgreen", label="max_depth = 5")
plt.xlabel("Dados")
plt.ylabel("Rótulos")
plt.title("Decision Tree Regression")
plt.legend()
plt.show()

É notável que para max_depth = 2 houve um fenômeno chamado Underfitting (ou High Bias), onde o modelo não é flexível o suficiente para generalizar bem para novos dados. Com max_depth = 5, temos um evento contrário à este, chamado Overfitting (ou High Variance), onde o modelo se dobra demais, também generalizando mal para novos dados.

<img src="overfit.png">






# Random Forest

Random Forest é um algoritmo do tipo ensemble. Algoritmos Ensemble são conhecidos por serem robustos à overfitting e por performarem bem para dados de teste, uma vez que utilizam modelos mais fracos (como árvores de decisão) para compor um modelo mais poderoso. 

Usualmente usam-se centenas de árvores de decisão para um ensemble de Random Forest. Também podem ser usados para classificação, e costumam extrair relações complexas entre os dados, criando árvores e mais árvores capazes de armazenar as decisões para dados com bastante densidade.

O processo de agrupamento dos resultados das árvores de decisão costuma anular o efeito de overfitting (semelhante à um sinal ruidoso, onde é possível cancelar o rúido pelo cálculo da média do sinal). Assim, tem-se um dos algoritmos mais poderosos.

In [None]:
# Importando o dataset
dataset = pd.read_csv('Position_Salaries.csv')
X = dataset.iloc[:, 1:2].values
y = dataset.iloc[:, 2].values

In [None]:
# Criando o modelo
from sklearn.ensemble import RandomForestRegressor
regressor = RandomForestRegressor(criterion = 'mse', n_estimators = 1000, random_state = 0, verbose = 2)
regressor.fit(X, y)

In [None]:
# Visualização do Random Forest Regression 
X_grid = np.arange(min(X), max(X), 0.01)
X_grid = X_grid.reshape((len(X_grid), 1))
plt.scatter(X, y, color = 'red')
plt.plot(X_grid, regressor.predict(X_grid), color = 'blue')
plt.title('Level x Salary (Random Forest Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

Assim, pode-se perceber que o modelo foi melhorado. A diferença não é tão significante devido à natureza e simplicidade dos dados, porém para dados mais desafiadores este modelo costuma performar bem.