# Regressão Logística
É usada para realizar classificação em problemas de aprendizagem supervisionada.

Pode ser aplicado em problemas de classificação binária ou em problemas multi-classes.

$$
p = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_nx_n)}}
$$
- p = probabilidade de pertencer a determinada classe
- e = número de Euler
- b0 = intercepto
- bn = constante
- xn = variáveis dependentes

No caso da __Regressão Logística__, a função de custo para quantificar o erro entre as previsões e os valores reais, é a que segue abaixo:

$$
J(\theta) = - \frac{1}{m} \sum_{i=1}^{m} \left[y^{(i)}\log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right]
$$

Onde:
- m = número de amostras
- yi = rótulo real da amostra
- h_theta(x^i) = predição realizada pelo modelo para determinada amostra
- theta = parâmetros do modelo.

**OBS:** A função de custo é utilizada para quantificar o erro entre as previsões realizadas pelo modelo e os valores reais, permitindo que o modelo aprenda durante o processo de treinamento.

# Codificação da Regressão Linear
Ao selecionar a penalidade (regularização), que é utilizada para evitar problemas de variância e multicolinearidade (alta correlação entre as variáveis), precisamos ter muito cuidado e seleciona-la junto com o solver, pois nem todas as penalidades podem ser usadas com um determinado solver.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [3]:
alvo = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas manualmente, sem escalonamento
previsores = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart2.pkl')

# previsores_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart3.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder.
previsores2 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart4.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder e OneHotEncoder, sem escalonamento.
previsores3 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart5.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas pelo LabelEncoder e OHE, com escalonamento.
previsores3_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart6.pkl')

### Divisão entre treino e teste

In [4]:
X_tr, X_ts, y_tr, y_ts = train_test_split(previsores3_esc, alvo, test_size=0.3, random_state=0)

In [5]:
X_tr.shape, y_tr.shape

((641, 20), (641,))

In [6]:
X_ts.shape, y_ts.shape

((276, 20), (276,))

### Criação do Modelo de Regressão Linear

In [7]:
reglog = LogisticRegression(random_state=1, max_iter=800,
                            penalty='l2', solver='lbfgs',
                            tol=0.0001, C=1)

# Ajuste do modelo
reglog.fit(X_tr, y_tr)

In [8]:
reglog.intercept_, reglog.coef_

(array([0.27658155]),
 array([[-0.31406564,  0.31406564,  0.51137246, -0.41267949, -0.17922755,
         -0.08748003,  0.05933652, -0.00197219, -0.05812458, -0.21992493,
          0.21992493, -0.01954813,  0.60985724, -0.60580567,  0.18106376,
         -0.00074436,  0.18899107,  0.43515932, -0.22774416,  0.29906174]]))

### Avaliação nos dados de teste

In [9]:
previsoes_reglog = reglog.predict(X_ts)
previsoes_reglog

array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1,
       1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0,
       1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1,
       1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0,
       1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1,
       1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1])

In [10]:
reglog.score(X_ts, y_ts)

0.8623188405797102

In [11]:
print(f"Acurácia: {accuracy_score(y_ts, previsoes_reglog):.2f}")

Acurácia: 0.86


In [12]:
print(f"Matriz de confusão:\n{confusion_matrix(y_ts, previsoes_reglog)}")

Matriz de confusão:
[[102  19]
 [ 19 136]]


In [13]:
print(f"Report de classificação:\n{classification_report(y_ts, previsoes_reglog)}")

Report de classificação:
              precision    recall  f1-score   support

           0       0.84      0.84      0.84       121
           1       0.88      0.88      0.88       155

    accuracy                           0.86       276
   macro avg       0.86      0.86      0.86       276
weighted avg       0.86      0.86      0.86       276



### Avaliação nos dados de treino

In [14]:
previsoes_treino_reglog = reglog.predict(X_tr)
previsoes_treino_reglog

array([1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1,
       1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1,
       0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1,
       0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0,
       1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0,
       1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0,
       1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1,

In [15]:
reglog.score(X_tr, y_tr)

0.858034321372855

In [16]:
print(f"Acurácia: {accuracy_score(y_tr, previsoes_treino_reglog):.2f}")

Acurácia: 0.86


In [17]:
print(f"Matriz de confusão:\n{confusion_matrix(y_tr, previsoes_treino_reglog)}")

Matriz de confusão:
[[237  52]
 [ 39 313]]


In [18]:
print(f"Report de classificação:\n{classification_report(y_tr, previsoes_treino_reglog)}")

Report de classificação:
              precision    recall  f1-score   support

           0       0.86      0.82      0.84       289
           1       0.86      0.89      0.87       352

    accuracy                           0.86       641
   macro avg       0.86      0.85      0.86       641
weighted avg       0.86      0.86      0.86       641



# Aplicação de Validação Cruzada

In [19]:
from sklearn.model_selection import KFold, cross_val_score

In [24]:
reglog2 = LogisticRegression()

# Ajuste do modelo
reglog.fit(X_tr, y_tr)

In [20]:
# Separação em K-Folds
kfold = KFold(n_splits=10, shuffle=True, random_state=5)

In [25]:
# Verificação do resultado
resultado = cross_val_score(reglog2, previsores3_esc, alvo, cv=kfold)

# Acurácia
print(f"Acurácia: {resultado.mean()*100:.2f}%")

# Desvio padrão
print(f"Desvio padrão: {resultado.std()*100:.2f}%")

Acurácia: 85.49%
Desvio padrão: 3.54%


# Teste de Diferentes Parâmetros

In [22]:
from sklearn.model_selection import GridSearchCV
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [26]:
# Valores a serem testados
valores_C = np.array([0.001, 0.01, 0.1, 1, 2, 3, 5, 10, 20, 50, 100])
regularização = ['l1', 'l2']
solver = ['liblinear', 'saga']
valores_grid = {'C': valores_C, 'penalty': regularização, 'solver': solver}

# Criação dos grids para testar
grid_reg_log = GridSearchCV(estimator=reglog2, param_grid=valores_grid, cv=kfold)
grid_reg_log.fit(X_tr, y_tr)

# Verificando os melhores resultados nos dados de TREINO
print(f"Acurácia: {grid_reg_log.best_score_:.2f}")
print(f"Melhores parâmetros: {grid_reg_log.best_params_}")
print(f"Melhor valor C: {grid_reg_log.best_estimator_.C}")

Acurácia: 0.87
Melhores parâmetros: {'C': 0.01, 'penalty': 'l2', 'solver': 'saga'}
Melhor valor C: 0.01


In [27]:
# Validacao dos melhores parametros dos dados de treino aplicados aos dados de teste
best_reglog = LogisticRegression(C=0.01, penalty='l2', solver='saga')
best_reglog.fit(X_tr, y_tr)

# Previsoes nos dados de teste usando os melhores parametros
y_pred = best_reglog.predict(X_ts)
print(f"Acuracia nos dados de teste usando os melhores parametros dos dados de treino:\n{accuracy_score(y_ts, y_pred)*100:.2f}")

Acuracia nos dados de teste usando os melhores parametros dos dados de treino:
86.23
