In [5]:
# Importação de módulos

import pandas as pd
import plotly.express as px

Você foi contratado por um hosítal para prever quais pacientes irão desenvolver diabetes. Para isto o hospital fornece os seguintes registros

In [14]:
df = pd.read_csv("diabetes.csv").sample(n=100, random_state=4)
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
390,1,100,66,29,196,32.0,0.444,42,0
146,9,57,80,37,0,32.8,0.096,41,0
136,0,100,70,26,50,30.8,0.597,21,0
420,1,119,88,41,170,45.3,0.507,26,0
328,2,102,86,36,120,45.5,0.127,23,1


Você logo percebe que há uma forte relação entre o nível de glucose e o quadro clínico do paciente, etão decide fazer uma regressão linear, chegando no seguinte gráfico:

In [15]:
fig = px.scatter(df, x="Glucose", y="Outcome", trendline="ols")
fig.show()

Infelizmente seu modelo preditivo é horrível, mas por que?
Isto ocorre porque a regressão linear foi feita para prever o valor de variáveis contínuas (ou ao menos discretas):

In [22]:
fig = px.scatter(df, x="Glucose", y="BMI", trendline="ols")
fig.show()

Para casos como o que você precisa analisar, existe a chamada regressão logística:

É uma forma de regressão cujo resultado é uma curva em formato de S, que fica muito mais próxima do que realmente ocorre. O problema enfrentado agora é: como chegar nesta curva? Para isto, o primeiro passo é entendê-la.

A reta da regressão linear tem uma equação no formato $y = w_0 + w_1 x$. O problema com este formato é que ele permite que o valor de $y$ seja maior do que 1. No seu caso você precisa calcular a **probabilidade** de algo ocorrer, que varia entre 0 e 1 (o equivalente a 0%-100%).

Por isto, e também para encaixar melhor a curva aos dados, a regressão logística tem o formato da função Sigmoid:

$ y = \frac{1}{1+e^{w_0+w_1x}}$

ou seja, o $y$ é calculado através do $x$ e dos pesos, porém é através desta função especial.

Para interpretar esta função, basta escolher um $x$ e você então receberá uma probabilidade $y$. Caso esta probabilidade $y$ seja maior do que 0.5, se assume que naquele ponto o fato analisado ocorre, ou seja, $\hat{y}=1$, sendo $\hat{y}$ o valor previsto. Caso $y<0.5$, então se assume que o fato não ocorre no ponto e tem-se $\hat{y}=0$. Na prática, o $\hat{y}$ previsto pela função é $round(y)$.

In [None]:
# gráficos ilustrando o que foi dito anteriormente
# gráfico 1: função logística com pontos azul e vermelho EM CIMA da função logística (y=probabilidade, cor=previsão de sim/não)
# gráfico 2: função logística com pontos azul e vermelho nas linhas y=0 e y=1 (y = previsão de sim/não)
# obs: objetivo do gráfico é dar essa sensação de movimento

Agora que você entende o que o resultado da regressão logística quer dizer, pode partir para entender como ela funciona de verdade.

Quando se vai montar a função logística, o objetivo é criar uma curva que melhor represente os pontos do gráfico/dataset. Essa curva é criada se definindo os parâmetros da função Sigmoid $ y = \frac{1}{1+e^{w_0+w_1x}}$. Para deixar claro, os parâmetros são os pesos $w_0$ e $w_1$, além de outros pesos $w_2, ..., w_n$ caso hajam mais variáveis involvidas.

Os parâmtros que melhor representam os pontos são os que minimizam a chamada _fnução perda_, que é a função que calcula o erro de uma determinada curva (ou em outras palavras, de seus parâmetros). Há VÁRIAS funções erro, e aqui vão algumas delas:

Erro absoluto: calcula a distância entre o ponto previsto e o ponto real
Erro quadrado: calcula o quadrado da distância entre o ponto previsto e o ponto real. Seu diferencial é que dá mais impacto à erros grandes (um erro de módulo 2 é mais impactante que dois erros de módulo 1)
Erro logístico: essa função esquisita aqui: $-( y \log{\hat{y}}$