In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

In [2]:
df_train = pd.read_csv('data/Dataset_Treino.csv')
df_train.head()

Unnamed: 0,ID_Aluno,Idade,Tipo_escola,Escolaridade,Estado,Municipio,Trabalhando,Estudando,Concluiu_EAD,Aprender_EAD,...,Disponibilidade_Tutoria,Disponibilidade_3_Meses,Pessoas_Casa,Renda_Familiar,Conheceu_PROA,Horario_Estudando,Data_Inscrição,Dias_Espera_Aprovacao,Dias_Espera_Inicio,Abandono_curso
0,1650,20,public,Cursando o 3º ano do Ensino Médio,SP,Ubatuba,Não,Não,Nunca realizei um curso a distância,Não sei dizer,...,Sim,Sim,3,Até 1 salário mínimo (até R$1.100),Instagram,Noite,08/10/2022,0.0,100,1
1,771,17,public,Cursando o 3º ano do Ensino Médio,SP,São Paulo,Não,Sim,Nunca realizei um curso a distância,Não sei dizer,...,Sim,Sim,3,Entre 1 e 2 salários mínimos (R$1.100 – R$2.200),Programa de televisão,Manhã,26/09/2022,6.0,112,0
2,503,22,public,Cursando o 3º ano do Ensino Médio,RJ,Queimados,Sim,Não,Nunca realizei um curso a distância,Muito eu tenho uma rotina definida para partic...,...,Sim,Sim,3,Entre 2 e 3 salários mínimos (R$2.200 – R$3.300),Site de notícias,Já concluí,23/09/2022,0.0,115,1
3,1586,19,public,Cursando o 3º ano do Ensino Médio,SP,Mogi das Cruzes,Não,Não,Sim e fiz totalmente pelo computador,Eu prefiro cursos presenciais,...,Sim,Sim,4,Entre 1 e 2 salários mínimos (R$1.100 – R$2.200),Instagram,Já concluí,07/10/2022,0.0,101,1
4,2381,17,scholarship,Cursando o 3º ano do Ensino Médio,SP,São Paulo,Não,Sim,Sim e fiz totalmente pelo computador,Muito eu tenho uma rotina definida para partic...,...,Sim,Sim,4,Entre 2 e 3 salários mínimos (R$2.200 – R$3.300),Facebook,Manhã,24/10/2022,6.0,84,1


In [3]:
df_train.shape

(2500, 21)

In [4]:
df_train.nunique()

ID_Aluno                   2500
Idade                         9
Tipo_escola                   2
Escolaridade                  5
Estado                        4
Municipio                   283
Trabalhando                   2
Estudando                     2
Concluiu_EAD                  5
Aprender_EAD                  4
Recursos                     51
Disponibilidade_Tutoria       2
Disponibilidade_3_Meses       2
Pessoas_Casa                 11
Renda_Familiar                6
Conheceu_PROA                21
Horario_Estudando             5
Data_Inscrição               94
Dias_Espera_Aprovacao        65
Dias_Espera_Inicio           94
Abandono_curso                2
dtype: int64

In [5]:
non_numeric_columns = df_train.select_dtypes(exclude=np.number).columns.tolist()
selected_columns = [col for col in non_numeric_columns if df_train[col].nunique() < 15]
print(selected_columns)

['Tipo_escola', 'Escolaridade', 'Estado', 'Trabalhando', 'Estudando', 'Concluiu_EAD', 'Aprender_EAD', 'Disponibilidade_Tutoria', 'Disponibilidade_3_Meses', 'Pessoas_Casa', 'Renda_Familiar', 'Horario_Estudando']


In [6]:
# Create an instance of LabelEncoder
label_encoder = LabelEncoder()

# Iterate over the columns and apply label encoding
for column in selected_columns:
    df_train[column] = label_encoder.fit_transform(df_train[column])

In [7]:
df_train.head()

Unnamed: 0,ID_Aluno,Idade,Tipo_escola,Escolaridade,Estado,Municipio,Trabalhando,Estudando,Concluiu_EAD,Aprender_EAD,...,Disponibilidade_Tutoria,Disponibilidade_3_Meses,Pessoas_Casa,Renda_Familiar,Conheceu_PROA,Horario_Estudando,Data_Inscrição,Dias_Espera_Aprovacao,Dias_Espera_Inicio,Abandono_curso
0,1650,20,0,0,3,Ubatuba,0,0,1,2,...,1,1,3,0,Instagram,3,08/10/2022,0.0,100,1
1,771,17,0,0,3,São Paulo,0,1,1,2,...,1,1,3,1,Programa de televisão,2,26/09/2022,6.0,112,0
2,503,22,0,0,0,Queimados,1,0,1,1,...,1,1,3,2,Site de notícias,1,23/09/2022,0.0,115,1
3,1586,19,0,0,3,Mogi das Cruzes,0,0,4,0,...,1,1,4,1,Instagram,1,07/10/2022,0.0,101,1
4,2381,17,1,0,3,São Paulo,0,1,4,1,...,1,1,4,2,Facebook,2,24/10/2022,6.0,84,1


In [8]:
numeric_columns = df_train.select_dtypes(include=np.number).columns.tolist()
print(numeric_columns)

['ID_Aluno', 'Idade', 'Tipo_escola', 'Escolaridade', 'Estado', 'Trabalhando', 'Estudando', 'Concluiu_EAD', 'Aprender_EAD', 'Disponibilidade_Tutoria', 'Disponibilidade_3_Meses', 'Pessoas_Casa', 'Renda_Familiar', 'Horario_Estudando', 'Dias_Espera_Aprovacao', 'Dias_Espera_Inicio', 'Abandono_curso']


In [9]:
#X = df_train.drop(['ID_Aluno','Abandono_curso'], axis=1)
X = df_train[numeric_columns].drop(['ID_Aluno','Abandono_curso'], axis=1)
y = df_train['Abandono_curso']

In [10]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42, stratify=df_train['Abandono_curso'])

In [14]:
#model = LogisticRegression(max_iter=1000)
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)
model.fit(X_train, y_train)

In [15]:
y_train_pred = model.predict(X_train)
y_val_pred = model.predict(X_val)

train_accuracy = accuracy_score(y_train, y_train_pred)
val_accuracy = accuracy_score(y_val, y_val_pred)

print("Train Accuracy:", train_accuracy)
print("Val Accuracy:", val_accuracy)

Train Accuracy: 0.7845
Val Accuracy: 0.792


In [16]:
# Calculate feature importance using Random Forest
importance = model.feature_importances_

# Create a dataframe to store the feature importance
feature_importance_df = pd.DataFrame({'Feature': X_train.columns, 'Importance': importance})

# Sort the dataframe by importance in descending order
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

# Print the feature importance
print(feature_importance_df)


                    Feature  Importance
2              Escolaridade    0.508050
14       Dias_Espera_Inicio    0.092954
12        Horario_Estudando    0.061653
6              Concluiu_EAD    0.058235
13    Dias_Espera_Aprovacao    0.054141
11           Renda_Familiar    0.053309
3                    Estado    0.046745
10             Pessoas_Casa    0.032053
0                     Idade    0.030827
7              Aprender_EAD    0.023469
5                 Estudando    0.011816
1               Tipo_escola    0.008996
9   Disponibilidade_3_Meses    0.006768
4               Trabalhando    0.006570
8   Disponibilidade_Tutoria    0.004416


# Working with TEST

In [17]:
df_test = pd.read_csv('data/Dataset_Resposta.csv') 
df_test.head()

Unnamed: 0,ID_Aluno,Idade,Tipo_escola,Escolaridade,Estado,Municipio,Trabalhando,Estudando,Concluiu_EAD,Aprender_EAD,Recursos,Disponibilidade_Tutoria,Disponibilidade_3_Meses,Pessoas_Casa,Renda_Familiar,Conheceu_PROA,Horario_Estudando,Data_Inscrição,Dias_Espera_Aprovacao,Dias_Espera_Inicio
0,2,21,public,Cursando o 3º ano do Ensino Médio,RJ,Rio de Janeiro,Não,Não,Ainda não concluí um curso a distância,Eu prefiro cursos presenciais,Computador,Sim,Sim,3,Entre 1 e 2 salários mínimos (R$1.100 – R$2.200),Junior Achievement,Manhã,15/09/2022,1.0,123
1,4,18,public,Ensino Médio concluído e não estudando,SP,Osasco,Não,Sim,Sim e fiz parcialmente pelo computador e parci...,Muito eu tenho uma rotina definida para partic...,Computador/Celular próprio/Tablet próprio/Inte...,Sim,Sim,5,Entre 1 e 2 salários mínimos (R$1.100 – R$2.200),Instagram,Noite,15/09/2022,3.0,123
2,5,19,public,Ensino Médio concluído e não estudando,RJ,Rio de Janeiro,Não,Não,Sim e fiz parcialmente pelo computador e parci...,Não sei dizer,Computador/Celular próprio/Tablet próprio/Inte...,Sim,Sim,3,Entre 1 e 2 salários mínimos (R$1.100 – R$2.200),Divulgação do iFood,Já concluí,15/09/2022,0.0,123
3,6,19,public,Cursando o 3º ano do Ensino Médio,SP,São Paulo,Sim,Sim,Sim e fiz parcialmente pelo computador e parci...,Muito eu tenho uma rotina definida para partic...,Computador/Celular próprio,Sim,Sim,2,Entre 1 e 2 salários mínimos (R$1.100 – R$2.200),Outros,Já concluí,15/09/2022,82.0,123
4,13,18,public,Cursando o 3º ano do Ensino Médio,SP,São Paulo,Não,Sim,SIm e fiz totalmente pelo celular,Não sei dizer,Celular próprio/Internet wifi/Internet 4G,Sim,Sim,3,Entre 1 e 2 salários mínimos (R$1.100 – R$2.200),Instagram,Noite,15/09/2022,0.0,123


In [18]:
for column in selected_columns:
    df_test[column] = label_encoder.fit_transform(df_test[column])

In [19]:
df_test.head()

Unnamed: 0,ID_Aluno,Idade,Tipo_escola,Escolaridade,Estado,Municipio,Trabalhando,Estudando,Concluiu_EAD,Aprender_EAD,Recursos,Disponibilidade_Tutoria,Disponibilidade_3_Meses,Pessoas_Casa,Renda_Familiar,Conheceu_PROA,Horario_Estudando,Data_Inscrição,Dias_Espera_Aprovacao,Dias_Espera_Inicio
0,2,21,0,0,0,Rio de Janeiro,0,0,0,0,Computador,1,0,2,1,Junior Achievement,2,15/09/2022,1.0,123
1,4,18,0,3,3,Osasco,0,1,3,1,Computador/Celular próprio/Tablet próprio/Inte...,1,0,4,1,Instagram,3,15/09/2022,3.0,123
2,5,19,0,3,0,Rio de Janeiro,0,0,3,2,Computador/Celular próprio/Tablet próprio/Inte...,1,0,2,1,Divulgação do iFood,1,15/09/2022,0.0,123
3,6,19,0,0,3,São Paulo,1,1,3,1,Computador/Celular próprio,1,0,1,1,Outros,1,15/09/2022,82.0,123
4,13,18,0,0,3,São Paulo,0,1,2,2,Celular próprio/Internet wifi/Internet 4G,1,0,2,1,Instagram,3,15/09/2022,0.0,123


In [20]:
X_test = df_test[numeric_columns[:-1]].drop(['ID_Aluno'], axis=1)
output = df_test[['ID_Aluno']].copy()

In [21]:
output.head()

Unnamed: 0,ID_Aluno
0,2
1,4
2,5
3,6
4,13


In [22]:
y_test_pred = model.predict(X_test)

In [23]:
output.loc[:,'Abandono_curso'] = y_test_pred
output.head()

Unnamed: 0,ID_Aluno,Abandono_curso
0,2,1
1,4,0
2,5,0
3,6,1
4,13,1


In [24]:
output.to_csv('subm_t785_v792.csv', index=False)