In [1]:
# Importa as classes LogisticRegression, log_loss e mean_squared_error do módulo sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import log_loss
from sklearn.metrics import mean_squared_error
import numpy as np  # Importa a biblioteca numpy para manipulação de arrays

# Define arrays numpy para as variáveis independentes (x) e dependentes (y)
x = np.array([-2.2, -1.4, -.8, .2, .4, .8, 1.2, 2.2, 2.9, 4.6])
y = np.array([0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0])

# Cria uma instância de LogisticRegression usando o solver 'lbfgs'
logr = LogisticRegression(solver='lbfgs')

# Ajusta o modelo de regressão logística usando os dados x e y
# A função reshape(-1, 1) transforma x em um array de duas dimensões com uma única coluna
logr.fit(x.reshape(-1, 1), y)

# Faz previsões de probabilidade para os dados x ajustados
# predict_proba retorna as probabilidades das classes (coluna 0: probabilidade de classe 0, coluna 1: probabilidade de classe 1)
# Pegamos apenas a coluna 1 (probabilidade de y ser 1) e achatamos o array para uma dimensão
y_pred = logr.predict_proba(x.reshape(-1, 1))[:, 1].ravel()

# Calcula o log loss (ou entropia cruzada) entre os valores reais y e as previsões y_pred
loss = log_loss(y, y_pred)

# Calcula o erro quadrático médio (MSE) entre os valores reais y e as previsões y_pred
loss2 = mean_squared_error(y, y_pred)

# Imprime os valores de x, y, as probabilidades previstas (arredondadas para 2 casas decimais), o log loss e o MSE
print('x = {}'.format(x))
print('y = {}'.format(y))
print('p(y) = {}'.format(np.round(y_pred, 2)))
print('Log Loss / Cross Entropy = {:.4f}'.format(loss))
print('MSE = {:.4f}'.format(loss2))


x = [-2.2 -1.4 -0.8  0.2  0.4  0.8  1.2  2.2  2.9  4.6]
y = [0. 0. 1. 0. 1. 1. 1. 1. 1. 1.]
p(y) = [0.19 0.33 0.47 0.7  0.74 0.81 0.86 0.94 0.97 0.99]
Log Loss / Cross Entropy = 0.3329
MSE = 0.1044
