In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score

In [None]:
dados = pd.read_csv('sample_data/student-mat.csv', sep= ';')
dados.head()

In [None]:
# remover as instâncias com valores faltantes do DataFrame
dados = dados.dropna()
print(dados)

In [None]:
#remover instâncias duplicadas
dados = dados.drop_duplicates()
print(dados)

In [None]:
X = dados[['sex', 'age', 'Pstatus', 'Medu', 'Fedu', 'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc', 'Walc', 'health', 'absences', 'G1', 'G2', 'G3']]

In [None]:
X.head(10)

In [None]:
#Aplicando One_Hot Encoding para as variaveis categoricas
X = pd.get_dummies(X, columns=['sex','Pstatus','schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic'])
X.head()

In [None]:
# criando um novo dataframe com a média das duas colunas
df_media = pd.DataFrame({'media': (dados['G1'] + dados['G2'] + dados['G3'])/3})
df_media.head()

In [None]:
# criando um dataframe com uma coluna binária "Aprovado"
Y = pd.DataFrame({'Aprovado': [1 if media >= 12 else 0 for media in df_media['media']]})
Y.head()

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=42)


In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

# definindo quais colunas serão normalizadas
colunas_a_normalizar = ['age', 'Medu', 'Fedu', 'traveltime', 'studytime', 'failures', 'famrel', 'freetime', 'goout', 'Dalc', 'Walc', 'health', 'absences', 'G1', 'G2', 'G3']

#fazendo os ajustes dos dados
scaler.fit(X_train[colunas_a_normalizar])


In [None]:
# normalizando as colunas selecionadas dos dados de treinamento e substituindo os dados originais no DataFrame
X_train[colunas_a_normalizar] = scaler.transform(X_train[colunas_a_normalizar])

# imprimindo o DataFrame resultante
X_train.head()

In [None]:
# normalizando as colunas selecionadas dos dados de teste e substituindo os dados originais no DataFrame
X_test[colunas_a_normalizar] = scaler.transform(X_test[colunas_a_normalizar])

# imprimindo o DataFrame resultante
X_test.head()

In [None]:
from sklearn.linear_model import LogisticRegression
modelo = LogisticRegression()

#treinando o modelo
modelo.fit(X_train, y_train)


In [None]:
#fazendo predições com os dados de teste
y_pred = modelo.predict(X_test)


In [None]:
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

#quantos aprovados e reprovados foram preditos corretamente
print("Acurácia: {:.2f}".format(accuracy))

#do nro total de preditos como aprovados, quantos são mesmo aprovados
print("Precisão: {:.2f}".format(precision))

#do nro total de aprovados na base de dados quantos foram preditos como aprovados
print("Recall: {:.2f}".format(recall))

#média harmônica entre precisão e recall
print("F1: {:.2f}".format(f1))