## Importações das bibliotecas

In [4]:
import pandas as pd
import os

## Lendo o dataset

In [5]:
os.makedirs("../preprocessed", exist_ok=True)
os.makedirs('../data', exist_ok=True)

In [6]:
df = pd.read_csv('../data/Course_Completion_Prediction.csv')

In [7]:
df.head()

Unnamed: 0,Student_ID,Name,Gender,Age,Education_Level,Employment_Status,City,Device_Type,Internet_Connection_Quality,Course_ID,...,Enrollment_Date,Payment_Mode,Fee_Paid,Discount_Used,Payment_Amount,App_Usage_Percentage,Reminder_Emails_Clicked,Support_Tickets_Raised,Satisfaction_Rating,Completed
0,STU100000,Vihaan Patel,Male,19,Diploma,Student,Indore,Laptop,Medium,C102,...,01-06-2024,Scholarship,No,No,1740,49,3,4,3.5,Completed
1,STU100001,Arjun Nair,Female,17,Bachelor,Student,Delhi,Laptop,Low,C106,...,27-04-2025,Credit Card,Yes,No,6147,86,0,0,4.5,Not Completed
2,STU100002,Aditya Bhardwaj,Female,34,Master,Student,Chennai,Mobile,Medium,C101,...,20-01-2024,NetBanking,Yes,No,4280,85,1,0,5.0,Completed
3,STU100003,Krishna Singh,Female,29,Diploma,Employed,Surat,Mobile,High,C105,...,13-05-2025,UPI,Yes,No,3812,42,2,3,3.8,Completed
4,STU100004,Krishna Nair,Female,19,Master,Self-Employed,Lucknow,Laptop,Medium,C106,...,19-12-2024,Debit Card,Yes,Yes,5486,91,3,0,4.0,Completed


In [8]:
df.isna().sum().sum()

np.int64(0)

In [9]:
pd.DataFrame(df.describe()).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,100000.0,25.70959,5.615292,17.0,21.0,25.0,30.0,52.0
Course_Duration_Days,100000.0,51.8173,20.324801,25.0,30.0,45.0,60.0,90.0
Instructor_Rating,100000.0,4.444478,0.202631,4.1,4.3,4.5,4.6,4.7
Login_Frequency,100000.0,4.78538,1.848289,0.0,3.0,5.0,6.0,15.0
Average_Session_Duration_Min,100000.0,33.87818,10.341964,5.0,27.0,34.0,41.0,81.0
Video_Completion_Rate,100000.0,62.17458,19.558126,5.0,48.5,64.0,77.5,99.9
Discussion_Participation,100000.0,2.32929,1.591365,0.0,1.0,2.0,3.0,12.0
Time_Spent_Hours,100000.0,3.873632,3.781185,0.5,0.5,2.7,6.2,25.6
Days_Since_Last_Login,100000.0,6.18886,6.982047,0.0,1.0,4.0,9.0,99.0
Notifications_Checked,100000.0,5.23211,2.401486,0.0,4.0,5.0,7.0,18.0


| Categoria             | Coluna                       | O que representa                    |
| --------------------- | ---------------------------- | ----------------------------------- |
| Identificação         | Student_ID                   | Identificador único do estudante    |
| Identificação         | Name                         | Nome do estudante                   |
| Perfil demográfico    | Gender                       | Gênero do estudante                 |
| Perfil demográfico    | Age                          | Idade do estudante                  |
| Perfil demográfico    | Education_Level              | Nível de escolaridade               |
| Perfil socioeconômico | Employment_Status            | Situação profissional               |
| Perfil socioeconômico | City                         | Cidade de residência                |
| Acesso e tecnologia   | Device_Type                  | Dispositivo principal de acesso     |
| Acesso e tecnologia   | Internet_Connection_Quality  | Qualidade da conexão com a internet |
| Acesso e tecnologia   | App_Usage_Percentage         | Percentual de uso via aplicativo    |
| Curso                 | Course_ID                    | Identificador do curso              |
| Curso                 | Course_Name                  | Nome do curso                       |
| Curso                 | Category                     | Área temática do curso              |
| Curso                 | Course_Level                 | Nível do curso                      |
| Curso                 | Course_Duration_Days         | Duração do curso em dias            |
| Instrutor             | Instructor_Rating            | Avaliação média do instrutor        |
| Engajamento           | Login_Frequency              | Frequência de acessos               |
| Engajamento           | Average_Session_Duration_Min | Duração média das sessões           |
| Engajamento           | Video_Completion_Rate        | Percentual de vídeos concluídos     |
| Engajamento           | Discussion_Participation     | Participação em fóruns              |
| Engajamento           | Time_Spent_Hours             | Total de horas dedicadas            |
| Engajamento           | Days_Since_Last_Login        | Dias desde o último acesso          |
| Engajamento           | Notifications_Checked        | Se verifica notificações            |
| Engajamento           | Peer_Interaction_Score       | Interação com outros alunos         |
| Engajamento           | Rewatch_Count                | Quantidade de revisualizações       |
| Avaliação acadêmica   | Assignments_Submitted        | Atividades entregues                |
| Avaliação acadêmica   | Assignments_Missed           | Atividades não entregues            |
| Avaliação acadêmica   | Quiz_Attempts                | Tentativas de quiz                  |
| Avaliação acadêmica   | Quiz_Score_Avg               | Média das notas dos quizzes         |
| Avaliação acadêmica   | Project_Grade                | Nota do projeto                     |
| Progresso             | Progress_Percentage          | Percentual de progresso no curso    |
| Temporal              | Enrollment_Date              | Data de matrícula                   |
| Financeiro            | Payment_Mode                 | Forma de pagamento                  |
| Financeiro            | Fee_Paid                     | Indica se houve pagamento           |
| Financeiro            | Discount_Used                | Uso de desconto                     |
| Financeiro            | Payment_Amount               | Valor pago                          |
| Comunicação e suporte | Reminder_Emails_Clicked      | Cliques em e-mails de lembrete      |
| Comunicação e suporte | Support_Tickets_Raised       | Chamados de suporte abertos         |
| Satisfação            | Satisfaction_Rating          | Avaliação geral do curso            |
| Variável alvo         | Completed                    | Indica se o curso foi concluído     |


## Preprocessamento

In [10]:
df_processed = df.copy()
#df_transformed.dtypes

In [11]:
lista_colunas_apagar = ['Student_ID', 'Name', 'Course_ID', 'Progress_Percentage','Satisfaction_Rating']
lista_unicos = set(lista_colunas_apagar)
print(f'{len(lista_unicos)} colunas unicas | {len(lista_colunas_apagar)} colunas totais')

5 colunas unicas | 5 colunas totais


In [12]:
df_processed = df_processed.drop(columns=lista_colunas_apagar)

In [13]:
df_processed.to_csv('../preprocessed/student_completion_data.csv', index=False)