### conceito

A regressão logística tenta resolver um problema de classificação, isto é, um problema onde as variáveis respostas estão previamente definidas e as saídas são categóricas. Na regressão linear o objetivo era encontrar uma reta que melhor se ajustasse aos dados, assim reduzindo o erro. Já na regressão logística o objetivo é encontrar os melhores limites de decisão, ou seja, as melhores linhas que dividem os dados de forma satisfatória.

Aplicando uma função **Sigmoid** na saída da previsão, que inicialmente é categórica, chegamos em uma função de probabilidade. Assim, em vez de dar uma saída discreta (0 e 1) a regressão logística fornece uma saída em termos de probabilidade (de 0 a 1). O objetivo é prever se algo é verdadeiro ou falso.

O algoritmo funciona transformando o eixo y, que vai de 0 a 1 (as probabilidades), em um eixo de log(odds), de forma que o p = 0.5 equivale ao y = 0 no novo eixo, que vai de 0 a + infinito para valores positivos e de 0 a - infinito para valores negativos. Com esse novo eixo, é possível encontrar uma reta que se ajusta aos dados usando a **Maximum Likelihood**. Neste caso, não se utiliza o método dos mínimos quadrados pois os valores estão em + e - infinito, portanto, a diferença entre o observado e a reta seria sempre + ou - infinito. Projeta-se os pontos na reta candidata, é feita a transormação de log(odds) para probabilidade e, então calcula-se a likelihood a fim de maximizá-la. 

In [1]:
import pandas as pd

In [2]:
# link dos dados
link = 'https://raw.githubusercontent.com/johnmyleswhite/ML_for_Hackers/master/02-Exploration/data/01_heights_weights_genders.csv'

# importando a base de dados
df = pd.read_csv(link)
df.head()

Unnamed: 0,Gender,Height,Weight
0,Male,73.847017,241.893563
1,Male,68.781904,162.310473
2,Male,74.110105,212.740856
3,Male,71.730978,220.04247
4,Male,69.881796,206.349801


In [3]:
# alterando valores target para numéricos

df['Gender'].replace({'Male':1, 'Female':0}, inplace = True)

In [4]:
# divisão entre treino e teste

from sklearn.model_selection import train_test_split

X = df.iloc[:, 1:3]
y = df.iloc[:, 0]

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

In [5]:
# inicializando e rodando algoritmo

from sklearn.linear_model import LogisticRegression

logisticRegr = LogisticRegression(C=1e40, solver='newton-cg')

fitted_model = logisticRegr.fit(X, y)

prediction_result = fitted_model.predict(x_test)

In [6]:
print(fitted_model.intercept_)
print(fitted_model.coef_ )

[0.69254178]
[[-0.49261999  0.19834042]]


### métricas

In [7]:
from sklearn import metrics

# roc auc é uma métrica que calcula a área sob a curva de taxa de verdadeiros positivos x taxa de falsos positivos
print(round(metrics.roc_auc_score(y_test, prediction_result), 3))

# acurácia é a quantidade de predições corretas (TP+TN)/(TP+TN+FP+FN)
print(round(metrics.accuracy_score(y_test, prediction_result), 3))

# recall é "dos que realmente eram positivos, quanto o modelo indicou" TP/(TP+FN)
print(round(metrics.recall_score(y_test, prediction_result), 3))

# precision é "dos que o modelo indicou como positivo, quantos realmente eram" TP/(TP+FP)
print(round(metrics.precision_score(y_test, prediction_result), 3))

# o f1 é uma métrica que combina o precision e o recall dando determinado peso a cada um
print(round(metrics.f1_score(y_test, prediction_result, average = 'weighted'), 3))

0.923
0.923
0.931
0.919
0.923
