# **Aula 04 - Regressão pt. 2**

In [None]:
import numpy as np
import os

#Para plotar imagens mais bonitinhas
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Para conseguir reproduzir os mesmos resultados 
np.random.seed(42)

#Caminho definido para salvar as imagens
#Esse comando só funcionará se você estiver com o Google Drive montado
DIR = "/Aula04_regressao_pt2/"

#Se a pasta ainda não foi criada, então vamos cria-la
if not os.path.isdir(DIR):
      os.makedirs(DIR)
      print("Criando pasta")

#Função para salvar as imagens na pasta
def salvar_figura(fig_id, tight_layout=True):
    path = os.path.join(DIR, fig_id + ".png")
    print("Salvando figura", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format='png', dpi=300)

## **Regressão Linear**



> A Função `rand()` do `numpy` gera valores aleatorios entre 0 e 1. Na célula de códgio abaixo, estamos criando uma matriz 100x1 com valores alteatórios, que ao multiplicarmos por 2, teremos valores entre 0 e 2, mas ainda com uma distribuição uniforme.

In [None]:
#Gerar dados sintéticos para X
import numpy as np

X = 2 * np.random.rand(100,1)
y = 4 + 3 * X + np.random.randn(100,1)

In [None]:
plt.plot(X, y, "b.")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.axis([0, 2, 0, 15])
salvar_figura("generated_data_plot")
plt.show()

In [None]:
#Regressão Linear com Equação Normal
X_b = np.c_[np.ones((100, 1)), X]  # add x0 = 1 to each instance
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)

In [None]:
#Adicionando x_0 = 1
X_new_b = np.array([[1,0], [1,2]])
y_pred = X_new_b.dot(theta_best)
y_pred

In [None]:
#Buscando as predições para esses dois valores de x
y_pred = X_new_b.dot(theta_best)
y_pred

In [None]:
plt.plot(X_new_b[:,1], y_pred, "r-", linewidth=2, label="Predições")
plt.plot(X, y, "b.")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.axis([0, 2, 0, 15])
salvar_figura("linear_model_predictions")
plt.show()

### **Gradiente Descendente para Regressão Linear**
> Cada iteração do Gradiente Descendente na vetorial: $$
\theta^{(proximo)} = \theta - \alpha \frac{2}{n}\bf{X}^T \cdot (\bf{X} \cdot \theta - \bf{y})
$$

In [None]:
from sklearn.metrics import mean_squared_error

alpha = 0.1 #taxa de aprendizado
iteracoes = 2000 # número de iterações até parar.
theta = np.random.randn(2,1) #Theta inicial (aleatorio)

for i in range(iteracoes):
  gradients = 2/X.shape[0] * X_b.T.dot(X_b.dot(theta) - y) #Calculando a derivada parcial da função de erro
  theta = theta - alpha * gradients #calculando o restante da operação e atualizando os pesos (theta)
  if i % 100 == 0: #a cada 100 iterações, mostrar o valor dos thetas e o erro.
    y_pred = X_b.dot(theta)
    print(" Iteração: ", i)
    print(f"theta0: {theta[0,0]} - theta1: {theta[1,0]} --> MSE: {mean_squared_error(y[:,0],y_pred[:,0])}") 
    print("=====================================")

**Gradiente Descendente com diferentes taxas de aprendizado**

In [None]:
theta_path_bgd = []

def plot_gradient_descent(theta, alpha, theta_path=None):
    m = len(X_b)
    plt.plot(X, y, "b.")
    n_iterations = 1000
    for iteration in range(n_iterations):
        if iteration < 10:
            y_predict = X_new_b.dot(theta)
            style = "b-" if iteration > 0 else "r--"
            plt.plot(X_new_b[:,1], y_predict, style)
        gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
        theta = theta - alpha * gradients
        if theta_path is not None:
            theta_path.append(theta)
    plt.xlabel("$x_1$", fontsize=18)
    plt.axis([0, 2, 0, 15])
    plt.title(r"$\alpha = {}$".format(alpha), fontsize=16)

In [None]:
np.random.seed(42)
theta = np.random.randn(2,1)  # inicialização aleatória

lista_thetas_bgd = [] #Armazena as predições dos BGDs com diferentes alpha

plt.figure(figsize=(10,4))
plt.subplot(131)
plot_gradient_descent(theta, alpha=0.02)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.subplot(132)
plot_gradient_descent(theta, alpha=0.1, theta_path=lista_thetas_bgd)
plt.subplot(133)
plot_gradient_descent(theta, alpha=0.5)

salvar_figura("gradient_descent_plot_diferentes_alfas")
plt.show()

### **Stochastic Gradient Descent (SGD)**

In [None]:
#Algoritmo SGD

# hiperparâmetros - constante1 (t0) e constante2 (t1)

# Heurisitica usada para diminuir gradativamente o alpha (taxa de aprendizado)
                                         

> ***Observação:*** 
  - Por convenção, fazemos rodadas de `n` iteração; cada rodada é chamada de `epoca`. 
  - Enquanto no BGD executamos 1000 rodadas no código usando todo o dataset, com SGD conseguimos bons resultados apenas com 50 dessas rodadas.

In [None]:
#Usando SGD no sci-kit learn


In [None]:
#Thethas sci-kit learn
sgd_reg.intercept_, sgd_reg.coef_

### **Mini-Batch Gradient Descent (miniBGD)**

In [None]:
lista_thetas_mgd = []


In [None]:
theta

### **Comparação GDs**

In [None]:
#Juntando os resultados dos thetas em arrays numpy para plotar a comparação
lista_thetas_mgd = np.array(lista_thetas_mgd)
lista_thetas_sgd = np.array(lista_thetas_sgd)
lista_thetas_bgd = np.array(lista_thetas_bgd)

In [None]:
#plotando comparação
plt.figure(figsize=(7,4))
plt.plot(lista_thetas_sgd[:, 0], lista_thetas_sgd[:, 1], "r-s", linewidth=1, label="Stochastic")
plt.plot(lista_thetas_mgd[:, 0], lista_thetas_mgd[:, 1], "g-+", linewidth=2, label="Mini-batch")
plt.plot(lista_thetas_bgd[:, 0], lista_thetas_bgd[:, 1], "b-o", linewidth=3, label="Batch")
plt.legend(loc="upper left", fontsize=16)
plt.xlabel(r"$\theta_0$", fontsize=20)
plt.ylabel(r"$\theta_1$   ", fontsize=20, rotation=0)
plt.axis([2.5, 4.5, 2.3, 3.9])
salvar_figura("plot_comparacao_GDs")
plt.show()

## **Regressão Polinomial** ##

> Primeiro, vamos gerar alguns dados não lineares, com base em uma equação quadrática simples ($y = ax^2 + bx + c$).

In [None]:
#Gerando dados


In [None]:
#Plotar dados


> Uma linha reta não seria adequada para esse tipo de distribuição.
> Vamos usar a função do Scikit-Learn `PolynomialFeatures` para adicionar graus polinomiais a nossos atributos.
> - nesse caso 2ª grau, ou seja, elevar o atributo $x_1$ ao quadrado e adicioná-lo como uma novo atributo $x_2 = x_1^2$

In [None]:
#importando poy


In [None]:
#pegando os atributos polinomiais


> `X_poly` agora contém o atributo original mais o quadrado desse atributo.
> Agora podemos treinar um modelo de regressão linear com esses novos dados

## **Curvas de Aprendizado**

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

for estilo, largura_traco, grau_polinomio in (("g-", 1, 300), ("b--", 2, 2), ("r-+", 2, 1)):
    polybig_features = PolynomialFeatures(degree=grau_polinomio, include_bias=False)
    std_scaler = StandardScaler()
    lin_reg = LinearRegression()
    
    poly_reg_pipeline = Pipeline([
            ("poly_features", polybig_features),
            ("std_scaler", std_scaler),
            ("lin_reg", lin_reg),
        ])
    
    poly_reg_pipeline.fit(X, y)
    y_newbig = poly_reg_pipeline.predict(X_new)
    plt.plot(X_new, y_newbig, estilo, label=str(grau_polinomio), linewidth=largura_traco)

plt.plot(X, y, "b.", linewidth=3)
plt.legend(loc="upper left")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.axis([-3, 3, 0, 10])
salvar_figura("comparacao_graus_polinomial_plot")
plt.show()

***Pipeline()***

> Existem muitas etapas de transformação de dados que precisam ser executadas na ordem correta. Felizmente, o Scikit-Learn fornece a classe `Pipeline` para ajudar com essas seqüências de transformações.

> O construtor do `Pipeline` pede uma lista de pares (nome/estimador), definindo uma sequência de etapas. Todos, exceto o último estimador, devem ser transformadores (ou seja, eles devem ter um método `fit_transform ()`).

> Quando chamamos o método `fit()` do pipeline (`poly_reg_pipeline.fit(X_treino, y_treino)`), ele chama os métodos `fit_transform()` sequencialmente em todos os transformadores, passando a saída de cada chamada como parâmetro para a próxima chamada, até atingir o estimador final, para o qual chama apenas o método `fit()` do mesmo.

> Para saber um pouco mais, leiam o artigo do Data Hackers ["Como Usar Pipelines no Scikit-Learn"](https://medium.com/data-hackers/como-usar-pipelines-no-scikit-learn-1398a4cc6ae9)

### **Verificando erros do modelo com Validação Cruzada (CV)**

In [None]:
#função verificar erro treino



In [None]:
#Verificando o erro no treino do algoritmo



In [None]:
#Função verificar erro VC

In [None]:
#Validação Cruzada execução

#Printando as médias das partições de cada VC.


### ***Verificando erros do modelo com Curvas de Aprendizado***

In [None]:
#Função das curvas de aprendizado

def curvas_aprendizado(modelo, X, y):
    X_treino, X_val, y_treino, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
    treino_erros, val_erros = [], []
    for m in range(1, len(X_treino)):
        modelo.fit(X_treino[:m], y_treino[:m])
        y_treino_pred = modelo.predict(X_treino[:m])
        y_val_pred = modelo.predict(X_val)
        treino_erros.append(mean_squared_error(y_treino[:m], y_treino_pred))
        val_erros.append(mean_squared_error(y_val, y_val_pred))

    plt.plot(np.sqrt(treino_erros), "r-+", linewidth=2, label="treino")
    plt.plot(np.sqrt(val_erros), "b-", linewidth=3, label="validação")
    plt.legend(loc="upper right", fontsize=14)
    plt.xlabel("n_treino", fontsize=14)
    plt.ylabel("MSE", fontsize=14)    

In [None]:
#Treinando modelos e plotando curvas de aprendizado
#modelo com underfitting

grau_polinomio = 1
polybig_features = PolynomialFeatures(degree=grau_polinomio, include_bias=False)
std_scaler = StandardScaler()
lin_reg = LinearRegression()
poly_reg_pipeline = Pipeline([
        ("poly_features", polybig_features),
        ("std_scaler", std_scaler),
        ("lin_reg", lin_reg),
    ])
curvas_aprendizado(poly_reg_pipeline, X, y)
plt.title("Grau: " + str(grau_polinomio))
plt.axis([0, 80, 0, 3])                        
salvar_figura("curvaAprendizado_underfitting_plot")   
plt.show() 

In [None]:
#Treinando modelos e plotando curvas de aprendizado
#Modelo com overffiting


In [None]:
#Treinando modelos e plotando curvas de aprendizado
#Modelo com configuração ideal
   

## **Regularização**

### **Ridge Regression**

In [None]:
from sklearn.linear_model import Ridge

np.random.seed(42)
m = 20
X = 3 * np.random.rand(m, 1)
y = 1 + 0.5 * X + np.random.randn(m, 1) / 1.5
X_new = np.linspace(0, 3, 100).reshape(100, 1)

#Função para plotar os gráficos que comparam regressão linear e polinomial com diferentes
# lambdas
def plot_model(model_class, polynomial, alphas, **model_kargs):
    for alpha, style in zip(alphas, ("b-", "g--", "r:")):
        model = model_class(alpha, **model_kargs) if alpha > 0 else LinearRegression()
        if polynomial:
            model = Pipeline([
                    ("poly_features", PolynomialFeatures(degree=10, include_bias=False)),
                    ("std_scaler", StandardScaler()),
                    ("regul_reg", model),
                ])
        model.fit(X, y)
        y_new_regul = model.predict(X_new)
        lw = 2 if alpha > 0 else 1
        plt.plot(X_new, y_new_regul, style, linewidth=lw, label=r"$\lambda = {}$".format(alpha))
    plt.plot(X, y, "b.", linewidth=3)
    plt.legend(loc="upper left", fontsize=15)
    plt.xlabel("$x_1$", fontsize=18)
    plt.axis([0, 3, 0, 4])

plt.figure(figsize=(8,4))
plt.subplot(121)
plot_model(Ridge, polynomial=False, alphas=(0, 10, 100), random_state=42)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.subplot(122)
plot_model(Ridge, polynomial=True, alphas=(0, 10**-5, 1), random_state=42)

salvar_figura("ridge_regression_plot")
plt.show()

In [None]:
#Com stochastic gradient descent


### Lasso Regression

In [None]:
from sklearn.linear_model import Lasso

plt.figure(figsize=(8,4))
plt.subplot(121)
plot_model(Lasso, polynomial=False, alphas=(0, 0.1, 1), random_state=42)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.subplot(122)
plot_model(Lasso, polynomial=True, alphas=(0, 10**-7, 1), tol=1, random_state=42)

salvar_figura("lasso_regression_plot")
plt.show()

### **Elastic Net**

### **Regressão Logística**

In [None]:

plt.figure(figsize=(8, 3))
plt.plot(X[y==0], y[y==0], "bs")
plt.plot(X[y==1], y[y==1], "g^")
plt.plot([decision_boundary, decision_boundary], [-1, 2], "k:", linewidth=2)
plt.plot(X_new, y_proba[:, 1], "g-", linewidth=2, label="Iris-Virginica")
plt.plot(X_new, y_proba[:, 0], "b--", linewidth=2, label="Not Iris-Virginica")
plt.text(decision_boundary+0.02, 0.15, "Decision  boundary", fontsize=14, color="k", ha="center")
plt.arrow(decision_boundary, 0.08, -0.3, 0, head_width=0.05, head_length=0.1, fc='b', ec='b')
plt.arrow(decision_boundary, 0.92, 0.3, 0, head_width=0.05, head_length=0.1, fc='g', ec='g')
plt.xlabel("Petal width (cm)", fontsize=14)
plt.ylabel("Probability", fontsize=14)
plt.legend(loc="center left", fontsize=14)
plt.axis([0, 3, -0.02, 1.02])
salvar_figura("logistic_regression_plot")
plt.show()

In [None]:
from sklearn.linear_model import LogisticRegression

X = iris["data"][:, (2, 3)]  # petal length, petal width
y = (iris["target"] == 2).astype(np.int)

log_reg = LogisticRegression(solver="liblinear", C=10**10, random_state=42)
log_reg.fit(X, y)

x0, x1 = np.meshgrid(
        np.linspace(2.9, 7, 500).reshape(-1, 1),
        np.linspace(0.8, 2.7, 200).reshape(-1, 1),
    )
X_new = np.c_[x0.ravel(), x1.ravel()]

y_proba = log_reg.predict_proba(X_new)

plt.figure(figsize=(10, 4))
plt.plot(X[y==0, 0], X[y==0, 1], "bs")
plt.plot(X[y==1, 0], X[y==1, 1], "g^")

zz = y_proba[:, 1].reshape(x0.shape)
contour = plt.contour(x0, x1, zz, cmap=plt.cm.brg)


left_right = np.array([2.9, 7])
boundary = -(log_reg.coef_[0][0] * left_right + log_reg.intercept_[0]) / log_reg.coef_[0][1]

plt.clabel(contour, inline=1, fontsize=12)
plt.plot(left_right, boundary, "k--", linewidth=3)
plt.text(3.5, 1.5, "Not Iris-Virginica", fontsize=14, color="b", ha="center")
plt.text(6.5, 2.3, "Iris-Virginica", fontsize=14, color="g", ha="center")
plt.xlabel("Petal length", fontsize=14)
plt.ylabel("Petal width", fontsize=14)
plt.axis([2.9, 7, 0.8, 2.7])
salvar_figura("logistic_regression_contour_plot")
plt.show()