In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [2]:
data = {
    'Estudante': ['Alice', 'Bruno', 'Carla', 'Daniel', 'Elena', 'Felipe', 'Gabriela', 'Hugo', 'Isabela', 'João',
                  'Karina', 'Lucas', 'Mariana', 'Nathan', 'Olivia', 'Pedro', 'Quintino', 'Rafaela', 'Sofia', 'Tiago'],
    'Horas_Estudo': [2.5, 3.0, 4.0, 3.5, 5.0, 6.0, 2.0, 4.5, 3.0, 5.5, 6.5, 1.5, 4.0, 3.5, 5.0, 2.0, 6.0, 4.5, 3.0, 5.5],
    'Nota_Prova': [55, 60, 70, 65, 80, 85, 50, 75, 58, 82, 90, 45, 72, 68, 78, 52, 88, 74, 62, 84],
    'Aprovado': [0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1]
}

In [3]:
df = pd.DataFrame(data)

In [4]:
print(df.head())

  Estudante  Horas_Estudo  Nota_Prova  Aprovado
0     Alice           2.5          55         0
1     Bruno           3.0          60         0
2     Carla           4.0          70         1
3    Daniel           3.5          65         0
4     Elena           5.0          80         1


In [5]:
df.to_csv('estudantes_regressao_logistica.csv', index=False)

In [6]:
df = pd.DataFrame(data)

In [7]:
X = df[['Horas_Estudo', 'Nota_Prova']]
y = df['Aprovado']

In [8]:
# dividindo os dados em treino e teste
# no caso, 30% dos dados serão para teste e 70% para treinar o modelo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [9]:
# utilizando o modelo LogisticRegression() do pacote scikit-learn
model = LogisticRegression()
# criando o modelo de regressao logistica
model.fit(X_train, y_train)

In [10]:
# testando, criando o modelo de previsoes
y_pred = model.predict(X_test)

In [11]:
# avaliacao do modelo
# acuracia -> % das previsoes corretas do
print(f'Acurácia: {accuracy_score(y_test, y_pred)}')
# plot dos verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos
print('\nMatriz de Confusão:')
print(confusion_matrix(y_test, y_pred))
print('\nRelatório de Classificação:')
print(classification_report(y_test, y_pred))

Acurácia: 1.0

Matriz de Confusão:
[[4 0]
 [0 2]]

Relatório de Classificação:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00         4
           1       1.00      1.00      1.00         2

    accuracy                           1.00         6
   macro avg       1.00      1.00      1.00         6
weighted avg       1.00      1.00      1.00         6



In [None]:
# Acurácia de 83.33% -> O modelo acertou 83.33% das previsões no conjunto de teste.

# Matriz de Confusão:
# 2 verdadeiros negativos (reprovados corretamente previstos).
# 1 falso positivo (reprovado erroneamente previsto como aprovado).
# 0 falsos negativos.
# 3 verdadeiros positivos (aprovados corretamente previstos).

# Relatório de Classificação:
# Para a classe 0 (reprovado): Precisão de 100%, recall de 67%.
# Para a classe 1 (aprovado): Precisão de 75%, recall de 100%.