# Regressão Logística

## Revisando

A regressão logística é um método de classificação que estima a probabilidade de uma instância pertencer a uma classe específica.

Em vez de prever valores contínuos (como na regressão linear), a regressão logística prevê a probabilidade de uma observação pertencer a uma das categorias de uma variável binária dependente. Em outras palavras, a resposta pode assumir valores sim/não, verdadeiro/falso, 0/1.

> **Observação:** Os códigos a seguir não são executáveis, pois faltam dados. São apenas exemplos para ilustrar as classes e métodos a serem utilizados nesta aula.

A classe `LogisticRegression` do scikit-learn fornece uma implementação conveniente para ajustar um modelo de regressão logística.

In [None]:
from sklearn.linear_model import LogisticRegression


## Inicialização do Modelo
Podemos inicializar um modelo de regressão logística com diversos parâmetros. Aqui estão alguns dos mais importantes:

- **penalty**: Especifica a norma usada na penalização (regularização). Pode ser `l1`, `l2`, `elasticnet`, ou `None`.
- **C**: Parâmetro de regularização inversa; quanto menor o valor de `C`, maior a regularização.
- **solver**: Algoritmo a ser usado na otimização do problema. Pode ser `newton-cg`, `lbfgs`, `liblinear`, `sag`, ou `saga`.
- **max_iter**: Número máximo de iterações para os solvers de otimização.
- **random_state**: Semente usada pelo gerador de números aleatórios.

Exemplo de inicialização:

In [None]:
model = LogisticRegression(penalty='l2', C=1.0, solver='lbfgs', max_iter=100, random_state=42)


## Treinando o Modelo
Após inicializar o modelo, podemos ajustá-lo aos dados de treinamento:


In [None]:
model.fit(X_train, y_train)


##Fazendo Previsões
É possível usar o modelo treinado para fazer previsões tanto das classes quanto das probabilidades:


In [None]:
# Prevendo as classes:
y_pred = model.predict(X_test)

# Prevendo as probabilidades:
y_prob = model.predict_proba(X_test)

## Avaliação do Modelo
Depois de fazer as previsões, podemos avaliar o desempenho do modelo usando diferentes métricas:

In [None]:
# Acurácia
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia: {accuracy}')

# Matriz de Confusão
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred)
print(f'Matriz de Confusão:\n{cm}')

# Relatório de Classificação:
from sklearn.metrics import classification_report

report = classification_report(y_test, y_pred)
print(f'Relatório de Classificação:\n{report}')

## Interpretação dos Coeficientes
Os coeficientes do modelo indicam a relação entre as variáveis independentes e a variável dependente. Valores positivos indicam que o aumento da variável independente está associado a um aumento na probabilidade do evento, enquanto valores negativos indicam uma associação inversa.

In [None]:
coefficients = model.coef_[0]
feature_names = X.columns
coef_df = pd.DataFrame({'Variável': feature_names, 'Coeficiente': coefficients})

print(coef_df)


# Exemplo Completo
O exemplo a seguir utiliza dados hipotéticos de um processo seletivo de um programde Doutorado. Nesse processo, são considerados pontos de conhecimento em Computação (representados pela nota do POSCOMP, um exame nacional aplicado pela SBC), a nota obtida em um exame de inglês e a quantidade de artigos publicados pelo candidato. Nosso objetivo é determinar se o candidato será aprovado ($1$) ou não ($0$) nesse processo seletivo.

## Preparação dos Dados
Antes de construir o modelo, é essencial preparar os dados. Isso inclui a limpeza, transformação e normalização dos dados. No nosso caso, não existem dados nulos ou faltantes (ou seja, `na`). Além disso, não é necessário fazer a transformação dos dados (essa seria útil caso houvesse grande diferença de escalas, ou se algum valor fosse categórico).

No nosso caso, basta apenas ler a planilha.

In [None]:
import pandas as pd

# Carregar os dados
data = pd.read_csv('dados_poscomp.csv')

# Informações sobre os dados
print("Cabeçalho da tabela")
print(data.head())
print("Dimensões da tabela")
print(data.shape)
print("Estatísticas da tabela")
print(data.describe())
print("Informações da tabela")
print(data.info())
print("Tipos de dados das colunas")
print(data.dtypes)

In [None]:
# Limpeza dos dados, se necessário (exemplo: removendo valores nulos)
# data = data.dropna()

# Transformação de variáveis categóricas, se necessário
# data['categoria_codificada'] = data['categoria'].map({'valor1': 0, 'valor2': 1})

# Seleção de variáveis independentes e dependentes
X = data[['POSCOMP', 'Inglês', 'Artigos publicados']]
y = data['Admitido']

In [None]:
X.head()

In [None]:
y.head()

## Divisão dos Dados em Treinamento e Teste
Vamos, agora, dividir os dados em conjuntos de *treinamento* e *teste* para avaliar o desempenho do modelo.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Construção do Modelo
Usaremos, como de costume, a biblioteca `scikit-learn` para construir o modelo de regressão logística.

In [None]:
from sklearn.linear_model import LogisticRegression

# Inicialização do modelo
model = LogisticRegression()

# Treinamento do modelo
model.fit(X_train, y_train)


## Avaliação do Modelo
Para avaliar o desempenho do modelo, vamos considerar as métricas de precisão (*acurácia*) e a matriz de confusão, além de exibir um relatório das classes obtidas. Em seguida, vamos vizualizar a matriz de confusão.

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliação do modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f'Acurácia: {accuracy}')
print('Matriz de Confusão:')
print(conf_matrix)
print('Relatório de Classificação:')
print(class_report)

In [None]:
import seaborn as sn

confusion_matrix = pd.crosstab(y_test, y_pred, rownames=['Esperado'], colnames=['Predito'])
sn.heatmap(confusion_matrix, annot=True)

## Interpretação dos Resultados
Finalmente, é importante interpretar os coeficientes do modelo para entender o impacto de cada variável independente.

In [None]:
import numpy as np

# Coeficientes do modelo
coefficients = model.coef_[0]
feature_names = X.columns

# Criação de um DataFrame para melhor visualização
coef_df = pd.DataFrame({'Variável': feature_names, 'Coeficiente': coefficients})

print(coef_df)


## Usando o modelo
Para finalizar, vamos fazer algumas predições. Vamos considerar um candidato que teve nota $65$ no POSCOMP, $6.0$ no exame de inglês e publicou dois artigos.

Como exercício, teste outros cenários (por exemplo, candidato sem publicações, mas com boas notas no POSCOMP).

In [None]:
teste = {'POSCOMP': 65, 'Inglês': 6, 'Artigos publicados': 2}

df = pd.DataFrame(data = teste,index=[0])
print(df)

In [None]:
print(model.predict(df))

In [None]:
print(model.predict_proba(df))