<a href="https://colab.research.google.com/github/guilhermecarva/guilhermecarva/blob/main/Regressao_Linear_Logistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<br>

### Exercício: Regressão Linear:
__Parte 1:__

1- Usando a função getData(), carregue os dados disponibilizados.

2- Separe parte dos dados para o dataset de teste.

3- Usando a metodologia de validação cruzada, teste diferentes parâmetros da regLinear - diferentes learning_rates e num_steps - para escolher a melhor combinação de parâmetros.

4- Implemente a regressão linear do scikit-learn e compare os resultados obtidos.

__Parte 2 (Introdução):__

Para cada variável explicativa $X_1, .., X_5$, crie outras variáveis usando o __quadrado__ de cada um delas. Desta forma, o conjunto final será de 10 variáveis, em que:

$X_6 = (X_1)^{2}$, $X_7 = (X_2)^{2}$, $X_8 = (X_3)^{2}$, $X_9 = (X_4)^{2}$, $X_{10} = (X_5)^{2}$.

Ao treinarmos uma regressão linear com essas 10 variáveis, a predição é da forma:

$y_{pred} = \theta_0 + \theta_1 \cdot X_1 + .. + \theta_5 \cdot X_5 + \theta_6 \cdot (X_1)^{2} + .. + \theta_{10} \cdot (X_5)^{2}$

Como estamos usando o quadrado das variáveis explicativas, dizemos que temos um __modelo de regressão polinomial de grau 2__. Podemos ter variações deste modelo:

-Podemos aumentar o grau: basta mudar a potência que elevamos as variáveis. Por exemplo, podemos incluir o __cubo__ das variáveis e termos um modelo polinomial de ordem 3.

-Podemos ter __interações__ entre as variáveis: multiplicações entre as variáveis.

Exemplo:

$y_{pred} = \theta_0 + \theta_1 \cdot X_1 + .. + \theta_5 \cdot X_5 + \theta_6 \cdot (X_1)^{2} + .. + \theta_{10} \cdot (X_5)^{2} + \theta_{11} \cdot (X_1)^{3} + \theta_{12} \cdot V1 + \theta_{13} \cdot V2$,

onde

$V_1 = X_1 \cdot X_2$ e $V_2 = (X_2)^{2} \cdot X_4$

__Parte 2 (Exercício):__

1- Estude o link:
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

em que é discutido como criar modelos polinomiais com o scikit-learn de forma detalhada.

2- Repita os passos da primeira parte, mas agora considerando polinômios de graus 2 ou mais.

3- Inclua regularização Ridge e Lasso nas análises e teste os resultados para diferentes parâmetros $\alpha$.

<br>

### Exercício: Regressão Logística:

__Parte 1:__

Crie uma classe regLogistica para treinar o modelo de regressão logística. Essa classe deve ser usada para problemas de classificação binária, cuja variável target assume os valores: 0 (classe negativa) e 1 (classe positiva).

O método construtor dessa classe deve possuir 3 parâmetros: learning_rate, num_steps e limiar.

Os outros médotos devem ser:

    - médoto fit: para treinar o modelo - usando gradient descent
    
    - médoto predict_proba: para retornar a probabilidade da classe 1
    
    - médoto predict: retornar a classe predita: 0 ou 1 - dependente do limiar
    
__Parte 2:__

Usando a função getData2(), carregue o dataset disponibilizado.

Use a regLogistica, classe criada na parte 1 do exercício, para treinar modelos nestes dados. Use validação cruzada para seleção dos parâmetros. Considere diferentes métricas de classificação e justifique as escolhas.

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_friedman1, make_classification
import matplotlib.pyplot as plt

In [None]:
#função para acessar os dados do exercício 1

def getData():
    X, y = make_friedman1(n_samples = 10000, n_features = 5, noise = 5.0, random_state = 0)
    return X, y

In [None]:
X, y = getData()
X.shape, y.shape

((10000, 5), (10000,))

In [None]:
#classe regLinear para exercício

class regLinear():

    def __init__(self, learning_rate, num_steps):
        self.learning_rate = learning_rate
        self.num_steps = num_steps

    def fit(self, X, y):
        y = y.reshape(-1,1)
        m = X.shape[0]
        k = X.shape[1]
        theta = np.random.randn(k+1,1)
        X_b = np.c_[np.ones((m, 1)), X]
        for step in range(self.num_steps):
            gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
            theta = theta - self.learning_rate * gradients
        self.theta_final = theta
        print("modelo treinado.")

    def predict(self, X):
        m = X.shape[0]
        X_b = np.c_[np.ones((m, 1)), X]
        preds = X_b.dot(self.theta_final)
        return preds.reshape(-1,)

In [None]:
rg = regLinear(learning_rate=0.2,num_steps=20)

In [None]:
rg.fit(X, y)
rg.predict(X)

modelo treinado.


array([15.76624218, 17.04274433, 16.34055882, ..., 14.35172636,
       17.26256901, 17.49761984])

In [None]:
rg = regLinear(learning_rate=0.4,num_steps=20)

In [None]:
rg.fit(X, y)
rg.predict(X)

modelo treinado.


array([15.49328038, 17.81942122, 17.44955687, ..., 14.93164095,
       16.71751083, 18.08417005])

In [None]:
rg = regLinear(learning_rate=0.1,num_steps=200)

In [None]:
rg.fit(X, y)
rg.predict(X)

modelo treinado.


array([16.17832573, 18.88665815, 18.60039887, ..., 15.38484777,
       17.69072793, 19.39719941])

In [None]:
rg = regLinear(learning_rate=0.075,num_steps=200)

In [None]:
rg.fit(X, y)
rg.predict(X)

modelo treinado.


array([16.12542283, 18.69873802, 18.48353534, ..., 15.4103143 ,
       17.53505457, 19.22830484])

In [None]:
rg = regLinear(learning_rate=0.15,num_steps=200)  ## ESTES FORAM OS PARÂMETROS QUE MAIS SE APROXIMARAM DO LR

In [None]:
rg.fit(X, y)
rg.predict(X)

modelo treinado.


array([16.23712627, 19.04402336, 18.73914113, ..., 15.37802385,
       17.81530414, 19.55852197])

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lm = LinearRegression()
lm.fit(X, y)
print(lm.intercept_, lm.coef_)
print()
lm.predict(X)

-0.05568613230242292 [ 6.37661369  7.0025      0.21819147 10.42594526  4.78517778]



array([16.29170271, 19.20364386, 18.8105078 , ..., 15.3053878 ,
       17.95296077, 19.63525471])

In [None]:
from sklearn.preprocessing import PolynomialFeatures

In [None]:
poly_features = PolynomialFeatures(degree = 2, include_bias = False)
X_poly = poly_features.fit_transform(X)
X_poly.shape

(10000, 20)

In [None]:
class regLinearPoly():

    def __init__(self, learning_rate, num_steps):
        self.learning_rate = learning_rate
        self.num_steps = num_steps

    def fit(self, X_poly, y):
        y = y.reshape(-1,1)
        m = X_poly.shape[0]
        k = X_poly.shape[1]
        theta = np.random.randn(k+1,1)
        X_b = np.c_[np.ones((m, 1)), X_poly]
        for step in range(self.num_steps):
            gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
            theta = theta - self.learning_rate * gradients
        self.theta_final = theta
        print("modelo treinado.")

    def predict(self, X_poly):
        m = X_poly.shape[0]
        X_b = np.c_[np.ones((m, 1)), X_poly]
        preds = X_b.dot(self.theta_final)
        return preds.reshape(-1,)

In [None]:
rg_poly = regLinearPoly(learning_rate=0.15,num_steps=200)

In [None]:
rg_poly.fit(X_poly, y)
rg_poly.predict(X_poly)

modelo treinado.


array([15.98109034, 19.90938355, 18.51807905, ..., 14.95425638,
       17.51160655, 19.7923907 ])

In [None]:
poly_fit = LinearRegression()
poly_fit.fit(X_poly, y)

poly_fit.intercept_, poly_fit.coef_

(0.4504835474190205,
 array([ 18.06635723,  18.29480455, -22.06837755,   8.34123951,
          5.44837505, -12.35980551,   0.46905488,   0.40408001,
          1.21913492,  -0.58589089, -12.14159426,   1.04002326,
          0.48739516,  -0.37435475,  20.99465285,   1.02029732,
         -0.10653987,   0.49017536,   0.50322174,  -0.43200621]))

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Ridge, Lasso

In [None]:
def polyFitReg(X, y, grau, base_model, base_model_name):

    polybig_features = PolynomialFeatures(degree = grau, include_bias = False, interaction_only=True)
    std_scaler = StandardScaler()
    basemodel = base_model

    #criando um pipeline: sequencia de execução de passos
    polynomial_regression = Pipeline([
            ("poly_features", polybig_features),
            ("std_scaler", std_scaler),
            (base_model_name, base_model),
        ])

    polynomial_regression.fit(X, y)
    return polynomial_regression

In [None]:
grau = 200

for alpha in [0.001, 0.01, 0.1, 1, 5, 10, 100, 200]:

    model_name = 'Ridge_ alpha: '+str(alpha)
    polyfit = polyFitReg(X,
                         y,
                         grau,
                         base_model = Ridge(alpha = alpha),
                         base_model_name = model_name)

    print(model_name)
    print("RMSE:")
    print('treino:', np.sqrt(np.mean(np.square(y - polyfit.predict(X)))))

    print("------------------------------------------------\n\n")

Ridge_ alpha: 0.001
RMSE:
treino: 5.543185580216105
------------------------------------------------


Ridge_ alpha: 0.01
RMSE:
treino: 5.54318558882166
------------------------------------------------


Ridge_ alpha: 0.1
RMSE:
treino: 5.543186312637148
------------------------------------------------


Ridge_ alpha: 1
RMSE:
treino: 5.543211095501343
------------------------------------------------


Ridge_ alpha: 5
RMSE:
treino: 5.54335570290825
------------------------------------------------


Ridge_ alpha: 10
RMSE:
treino: 5.5435576238025766
------------------------------------------------


Ridge_ alpha: 100
RMSE:
treino: 5.545815040031815
------------------------------------------------


Ridge_ alpha: 200
RMSE:
treino: 5.547815130107186
------------------------------------------------




In [None]:
grau = 200

for alpha in [0.001, 0.01, 0.1, 1, 5, 10, 100, 200]:

    model_name = 'Lasso_ alpha: '+str(alpha)
    polyfit = polyFitReg(X,
                         y,
                         grau,
                         base_model = Lasso(alpha = alpha, max_iter=10000),
                         base_model_name = model_name)

    print(model_name)
    print("RMSE:")
    print('treino:', np.sqrt(np.mean(np.square(y - polyfit.predict(X)))))

    print("------------------------------------------------\n\n")

Lasso_ alpha: 0.001
RMSE:
treino: 5.543688054991845
------------------------------------------------


Lasso_ alpha: 0.01
RMSE:
treino: 5.545986847100434
------------------------------------------------


Lasso_ alpha: 0.1
RMSE:
treino: 5.554445681792339
------------------------------------------------


Lasso_ alpha: 1
RMSE:
treino: 5.8293116907315286
------------------------------------------------


Lasso_ alpha: 5
RMSE:
treino: 7.013406143619709
------------------------------------------------


Lasso_ alpha: 10
RMSE:
treino: 7.013406143619709
------------------------------------------------


Lasso_ alpha: 100
RMSE:
treino: 7.013406143619709
------------------------------------------------


Lasso_ alpha: 200
RMSE:
treino: 7.013406143619709
------------------------------------------------




Crie uma classe regLogistica para treinar o modelo de regressão logística. Essa classe deve ser usada para problemas de classificação binária, cuja variável target assume os valores: 0 (classe negativa) e 1 (classe positiva).

O método construtor dessa classe deve possuir 3 parâmetros: learning_rate, num_steps e limiar.

Os outros médotos devem ser:

- médoto fit: para treinar o modelo - usando gradient descent

- médoto predict_proba: para retornar a probabilidade da classe 1

- médoto predict: retornar a classe predita: 0 ou 1 - dependente do limiar

In [None]:
#função para acessar os dados do exercício 2

def getData2():
    X, y = make_classification(n_classes=2, n_features=5, n_samples=10000, random_state = 0)
    return X, y

In [None]:
X[:10]

array([[0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ],
       [0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152],
       [0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606],
       [0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215],
       [0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443],
       [0.63992102, 0.14335329, 0.94466892, 0.52184832, 0.41466194],
       [0.26455561, 0.77423369, 0.45615033, 0.56843395, 0.0187898 ],
       [0.6176355 , 0.61209572, 0.616934  , 0.94374808, 0.6818203 ],
       [0.3595079 , 0.43703195, 0.6976312 , 0.06022547, 0.66676672],
       [0.67063787, 0.21038256, 0.1289263 , 0.31542835, 0.36371077]])

In [None]:
y

array([15.28814034, 21.53563265, 15.33477388, ..., 13.55427826,
       20.05388514, 18.67813117])

In [None]:
def logLossCost(ytrue, ypred_probs):
    return (ytrue * np.log(ypred_probs) + (1 - ytrue) * np.log(1 - ypred_probs)).mean() * -1

In [None]:
def sigmoid(t):
    return 1 / (1 + np.exp(-t))

In [None]:
#classe regLogistica para exercício

class regLogistica():

    def __init__(self, learning_rate, num_steps,limiar):
        self.learning_rate = learning_rate
        self.num_steps = num_steps
        self.limiar = limiar

    def fit(self, X, y):
        y = y.reshape(-1,1)

        self.X_b = np.c_[np.ones(X.shape[0]), X]
        theta = np.random.randn(self.X_b.shape[1],1)

        for step in range(self.num_steps):
            yscores = sigmoid(self.X_b.dot(theta))
            gradient = self.X_b.T.dot(yscores - y)
            theta = theta - self.learning_rate * gradient
            logloss_step = logLossCost(ytrue = y, ypred_probs = yscores)
            print('passo:', step)
            print('theta:', theta.reshape(-1,))
            print(logloss_step)
            print('\n-----------------------------------------------------------\n')
        self.theta_final = theta
        print("modelo treinado.")
        #return theta_final

    def predict_proba(self, X):
        self.probs = sigmoid(self.X_b.dot(self.theta_final))
        return self.probs

    def predict(self, X):
        ypred = np.where(self.probs>self.limiar, 1, 0)
        return ypred

In [None]:
rl = regLogistica(learning_rate = 0.15, num_steps = 5, limiar = 0.5)

In [None]:
Xtrain, Xtest, ytrain, ytest = X[:7500], X[7500:], y[:7500], y[7500:]
Xtrain.shape, Xtest.shape, ytrain.shape, ytest.shape

((7500, 5), (2500, 5), (7500,), (2500,))

In [None]:
rl.fit(Xtrain,ytrain)

passo: 0
theta: [15702.93838008  8447.753136    8417.59693509  7878.36451731
  8833.272092    8244.60477228]
11.103583054443687

-----------------------------------------------------------

passo: 1
theta: [30665.64058154 16506.49388221 16455.54234858 15375.67084897
 17297.80132175 16126.9645517 ]
nan

-----------------------------------------------------------

passo: 2
theta: [45628.34278301 24565.23462841 24493.48776207 22872.97718062
 25762.3305515  24009.32433112]
nan

-----------------------------------------------------------

passo: 3
theta: [60591.04498447 32623.97537461 32531.43317556 30370.28351227
 34226.85978125 31891.68411053]
nan

-----------------------------------------------------------

passo: 4
theta: [75553.74718593 40682.71612082 40569.37858904 37867.58984392
 42691.38901099 39774.04388995]
nan

-----------------------------------------------------------

modelo treinado.


  return (ytrue * np.log(ypred_probs) + (1 - ytrue) * np.log(1 - ypred_probs)).mean() * -1


In [None]:
rl.predict_proba(Xtest)

array([[1.],
       [1.],
       [1.],
       ...,
       [1.],
       [1.],
       [1.]])

In [None]:
rl.predict(Xtest)

array([[1],
       [1],
       [1],
       ...,
       [1],
       [1],
       [1]])

In [None]:
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import KFold
from sklearn.linear_model import LogisticRegression

In [None]:
def validacao_cruzada(classificador,
                      X,
                      y,
                      metrica,
                      num_folds,
                      print_info = False,
                      nome_metrica = None):

    lista_metrica_treino = []
    lista_metrica_validacao = []

    kf = KFold(n_splits = num_folds)
    for train_index, val_index in kf.split(X, y):

        Xtrain_folds = X[train_index]
        ytrain_folds = y[train_index]
        Xval_fold = X[val_index]
        yval_fold = y[val_index]

        classificador.fit(Xtrain_folds, ytrain_folds)

        pred_treino = classificador.predict(Xtrain_folds)
        pred_validacao = classificador.predict(Xval_fold)

        lista_metrica_treino.append(metrica(y_true = pred_treino, y_score = ytrain_folds))
        lista_metrica_validacao.append(metrica(y_true = pred_validacao, y_score = yval_fold))

    if print_info:
        print("Métrica: " + nome_metrica)
        print('média treino:', np.mean(lista_metrica_treino))
        print('média validação:', np.mean(lista_metrica_validacao))

    return lista_metrica_treino, lista_metrica_validacao

In [None]:
validacao_cruzada(classificador = rl,
                 X = Xtrain,
                 y = ytrain,
                 metrica = roc_auc_score,
                 num_folds = 3,
                 print_info = True,
                 nome_metrica = 'AUC Score')

modelo treinado.


ValueError: Only one class present in y_true. ROC AUC score is not defined in that case.