In [None]:
import pandas as pd

# Caminho do arquivo (ajuste se você moveu o arquivo para uma pasta)
filepath = '/content/aula2.csv'

# Ler o arquivo CSV com o delimitador especificado
df = pd.read_csv(filepath, delimiter=';')

# Mostrar as primeiras linhas do DataFrame para verificar os dados
print(df.head(5))


  sex  age  traveltime  studytime  failures schoolsup internet  freetime  \
0   F   18           2          2         0       yes       no         3   
1   F   17           1          2         0        no      yes         3   
2   F   15           1          2         3       yes      yes         3   
3   F   15           1          3         0        no      yes         2   
4   F   16           1          2         0        no       no         3   

   absences  G1  approved  
0         6   5         0  
1         4   5         0  
2        10   7         0  
3         2  15         1  
4         4   6         0  


In [None]:
# Para saber os tipos dos dados
print(df.dtypes)

sex           object
age            int64
traveltime     int64
studytime      int64
failures       int64
schoolsup     object
internet      object
freetime       int64
absences       int64
G1             int64
approved       int64
dtype: object


In [None]:
# Para ver o formato do DataFrame
print(df.shape)

(395, 11)


In [None]:
# Configurar a precisão dos números para 2 casas decimais
pd.set_option('display.precision', 2)

# Para visualizar uma descrição estatística das variáveis numéricas
print(df.describe())


          age  traveltime  studytime  failures  freetime  absences      G1  \
count  395.00      395.00     395.00    395.00    395.00    395.00  395.00   
mean    16.70        1.45       2.04      0.33      3.24      5.71   10.91   
std      1.28        0.70       0.84      0.74      1.00      8.00    3.32   
min     15.00        1.00       1.00      0.00      1.00      0.00    3.00   
25%     16.00        1.00       1.00      0.00      3.00      0.00    8.00   
50%     17.00        1.00       2.00      0.00      3.00      4.00   11.00   
75%     18.00        2.00       2.00      0.00      4.00      8.00   13.00   
max     22.00        4.00       4.00      3.00      5.00     75.00   19.00   

       approved  
count    395.00  
mean       0.25  
std        0.44  
min        0.00  
25%        0.00  
50%        0.00  
75%        1.00  
max        1.00  


In [None]:
# 4.1) Remoção de instâncias com dados faltantes
df = df.dropna()

# 4.2) Remoção de instâncias duplicadas
df = df.drop_duplicates()

# 4.3) One-hot encoding de variáveis categóricas
# Identificar variáveis categóricas. Neste caso, 'sex', 'schoolsup', 'internet' foram identificadas anteriormente.
# Substitua 'variáveis_categóricas' pelas variáveis categóricas identificadas em seu conjunto de dados, se necessário.
variaveis_categoricas = ['sex', 'schoolsup', 'internet']
df_encoded = pd.get_dummies(df, columns=variaveis_categoricas, drop_first=True)

# Visualizando as primeiras linhas do DataFrame após o pré-processamento
print(df_encoded.head())

   age  traveltime  studytime  failures  freetime  absences  G1  approved  \
0   18           2          2         0         3         6   5         0   
1   17           1          2         0         3         4   5         0   
2   15           1          2         3         3        10   7         0   
3   15           1          3         0         2         2  15         1   
4   16           1          2         0         3         4   6         0   

   sex_M  schoolsup_yes  internet_yes  
0      0              1             0  
1      0              0             1  
2      0              1             1  
3      0              0             1  
4      0              0             0  


------------------------------------------------------------------------

**Cenário 1: Sem pré-processamento adicional**

In [None]:
# 5) Treinando o modelo

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Definir as variáveis independentes (X) e a variável dependente (y)
# Supondo que 'approved' é a variável dependente
X = df_encoded.drop('approved', axis=1)
y = df_encoded['approved']

# Dividir os dados em conjunto de treinamento e conjunto de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar o modelo de Regressão Logística
logistic_model = LogisticRegression(max_iter=1000)

# Treinar o modelo com o conjunto de treinamento
logistic_model.fit(X_train, y_train)

# Prever os resultados do conjunto de teste
y_pred = logistic_model.predict(X_test)

# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Acurácia: {accuracy}")
print(f"Precisão: {precision}")
print(f"Recall: {recall}")
print(f"F1-Score: {f1}")


Acurácia: 0.9113924050632911
Precisão: 0.8571428571428571
Recall: 0.8181818181818182
F1-Score: 0.8372093023255814


------------------------------------------------------------------------

**Cenário 2: Com normalização dos dados**

In [None]:
from sklearn.preprocessing import MinMaxScaler

# Inicializar o MinMaxScaler
scaler = MinMaxScaler()

# Normalizar as variáveis independentes
X_normalized = scaler.fit_transform(X)

# Dividir os dados normalizados em conjunto de treinamento e conjunto de teste
X_train_norm, X_test_norm, y_train, y_test = train_test_split(X_normalized, y, test_size=0.2, random_state=42)

# Treinar e avaliar o modelo com dados normalizados
logistic_model.fit(X_train_norm, y_train)
y_pred_norm = logistic_model.predict(X_test_norm)

# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Acurácia: {accuracy}")
print(f"Precisão: {precision}")
print(f"Recall: {recall}")
print(f"F1-Score: {f1}")


Acurácia: 0.9113924050632911
Precisão: 0.8947368421052632
Recall: 0.7727272727272727
F1-Score: 0.8292682926829269


------------------------------------------------------------------------

**Cenário 3: Com padronização dos dados**

In [None]:
from sklearn.preprocessing import StandardScaler

# Inicializar o StandardScaler
scaler = StandardScaler()

# Padronizar as variáveis independentes
X_standardized = scaler.fit_transform(X)

# Dividir os dados padronizados em conjunto de treinamento e conjunto de teste
X_train_std, X_test_std, y_train, y_test = train_test_split(X_standardized, y, test_size=0.2, random_state=42)

# Treinar e avaliar o modelo com dados padronizados
logistic_model.fit(X_train_std, y_train)
y_pred_std = logistic_model.predict(X_test_std)

# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Acurácia: {accuracy}")
print(f"Precisão: {precision}")
print(f"Recall: {recall}")
print(f"F1-Score: {f1}")

Acurácia: 0.9113924050632911
Precisão: 0.8947368421052632
Recall: 0.7727272727272727
F1-Score: 0.8292682926829269
