# Projeto Nanodegree: Modelo Preditivo de Evasão de Estudantes

**Objetivo:** Construir um modelo preditivo da evasão de estudantes em um curso online síncrono.

**Contexto:** A PensComp, uma organização educacional, promove cursos online síncronos e gratuitos para desenvolver habilidades de pensamento computacional em estudantes do 5º ao 9º ano do Ensino Fundamental. Observa-se variação no engajamento dos estudantes com a plataforma Moodle, e postula-se que alunos mais engajados demonstram melhor aprendizado, desempenho e menor taxa de evasão.

Este notebook seguirá as etapas de um projeto de Machine Learning, desde a definição do problema até a exportação do modelo final.

In [10]:
import pandas as pd

df_treino = pd.read_csv("dados_projeto_evasao_treino.csv")


In [None]:
 # 2. Obter as dimensões (linhas, colunas)
print("--- 2. Dimensões dos Dados (Linhas, Colunas) ---")
print(f"Shape: {df_treino.shape}")
print(f"O conjunto de treino possui {df_treino.shape[0]} linhas e {df_treino.shape[1]} colunas.\n")

--- 2. Dimensões dos Dados (Linhas, Colunas) ---
Shape: (400, 37)
O conjunto de treino possui 400 linhas e 37 colunas.



In [12]:
# 3. Verificar os tipos de dados
print("--- 3. Tipos de Dados das Colunas ---")
print(df_treino.dtypes)
print("\n")

--- 3. Tipos de Dados das Colunas ---
Unnamed: 0                                int64
ds_cidade_usuario                        object
ts_primeiro_acesso                        int64
ts_ultimo_acesso                          int64
nr_dias_desde_primeiro_acesso             int64
nr_dias_desde_ultimo_acesso               int64
nr_atividades_sinalizadas                 int64
nr_atividades_mapeadas                    int64
nr_discussoes_forum_postadas              int64
nr_questionarios_abandonados              int64
nr_questionarios_finalizados              int64
vl_medio_tempo_questionario             float64
vl_medio_tempo_questionario_avaliado    float64
vl_desempenho_questionario              float64
nr_intervalos_uso                       float64
nr_dias_uso                               int64
vl_medio_atividade_diaria               float64
vl_engajamento_usuario_por_intervalo    float64
vl_engajamento_usuario_intradia         float64
nr_interacoes_usuario                     int64
nr

In [13]:
 # 4. Procurar por valores ausentes
print("--- 4. Contagem de Valores Ausentes por Coluna ---")
missing_values = df_treino.isnull().sum()
# Filtrar para mostrar apenas colunas com valores ausentes, se houver
missing_values_filtered = missing_values[missing_values > 0]
if not missing_values_filtered.empty:
    print("Colunas com valores ausentes e suas contagens:")
    print(missing_values_filtered)
    print(f"\nPorcentagem de Valores Ausentes (para colunas com ausentes):")
    print((missing_values_filtered / len(df_treino)) * 100)
else:
    print("Não há valores ausentes neste conjunto de dados.")
print("\n")

--- 4. Contagem de Valores Ausentes por Coluna ---
Colunas com valores ausentes e suas contagens:
ds_cidade_usuario                        54
vl_medio_tempo_questionario             289
vl_medio_tempo_questionario_avaliado    293
vl_desempenho_questionario              373
nr_intervalos_uso                       191
vl_medio_atividade_diaria               191
vl_engajamento_usuario_por_intervalo    371
vl_engajamento_usuario_intradia         371
vl_desempenho_usuario                   287
vl_media_questoes_por_dia               339
vl_engajamento_notas                    339
vl_media_notas                          287
vl_media_submissoes_codigo              396
vl_submissoes_por_dias_ativos           392
dtype: int64

Porcentagem de Valores Ausentes (para colunas com ausentes):
ds_cidade_usuario                       13.50
vl_medio_tempo_questionario             72.25
vl_medio_tempo_questionario_avaliado    73.25
vl_desempenho_questionario              93.25
nr_intervalos_uso          

In [14]:
 # 5. Obter estatísticas básicas
print("--- 5. Estatísticas Descritivas (para colunas numéricas) ---")
# .T para transpor, facilitando a leitura
print(df_treino.describe(include='all').T) # include='all' para incluir colunas não numéricas também
print("\n")

--- 5. Estatísticas Descritivas (para colunas numéricas) ---
                                      count unique       top freq  \
Unnamed: 0                            400.0    NaN       NaN  NaN   
ds_cidade_usuario                       346     10  Campinas  314   
ts_primeiro_acesso                    400.0    NaN       NaN  NaN   
ts_ultimo_acesso                      400.0    NaN       NaN  NaN   
nr_dias_desde_primeiro_acesso         400.0    NaN       NaN  NaN   
nr_dias_desde_ultimo_acesso           400.0    NaN       NaN  NaN   
nr_atividades_sinalizadas             400.0    NaN       NaN  NaN   
nr_atividades_mapeadas                400.0    NaN       NaN  NaN   
nr_discussoes_forum_postadas          400.0    NaN       NaN  NaN   
nr_questionarios_abandonados          400.0    NaN       NaN  NaN   
nr_questionarios_finalizados          400.0    NaN       NaN  NaN   
vl_medio_tempo_questionario           111.0    NaN       NaN  NaN   
vl_medio_tempo_questionario_avaliado  107.

--- 6. Examinar a Distribuição da Variável Alvo ---
Para examinar a distribuição da variável alvo, primeiro preciso saber qual coluna representa a EVASÃO dos alunos.
Por favor, informe o nome da coluna que contém os valores (por exemplo, 0 para não evasão e 1 para evasão).
Assim que você me fornecer o nome da coluna, poderei mostrar sua distribuição e continuar a análise.


In [16]:
import pandas as pd

# --- ASSUMINDO QUE df_treino JÁ FOI CARREGADO COMO ANTES ---
# Se não, descomente a linha abaixo e ajuste o caminho do arquivo se necessário
# df_treino = pd.read_csv("dados_projeto_evasao_treino.csv")

# Definir o limiar de inatividade em dias
limiar_inactividade_dias = 60

# Criar a coluna alvo 'FL_EVASAO'
# 1 se nr_dias_desde_ultimo_acesso > limiar_inactividade_dias, senão 0
df_treino['FL_EVASAO'] = df_treino['nr_dias_desde_ultimo_acesso'].apply(lambda x: 1 if x > limiar_inactividade_dias else 0)

print(f"Coluna alvo 'FL_EVASAO' criada com limiar de {limiar_inactividade_dias} dias de inatividade.\n")

# --- 6. Examinar a Distribuição da Variável Alvo ('FL_EVASAO') ---
print("--- Distribuição da Variável Alvo (FL_EVASAO) ---")
evasao_counts = df_treino['FL_EVASAO'].value_counts()
evasao_percentages = df_treino['FL_EVASAO'].value_counts(normalize=True) * 100

print("Contagem de alunos por status de evasão:")
print(evasao_counts)
print("\nPorcentagem de alunos por status de evasão:")
print(evasao_percentages)

# Mostrar as primeiras linhas com a nova coluna para verificação
print("\n--- Primeiras linhas do DataFrame com a nova coluna FL_EVASAO ---")
print(df_treino[['nr_dias_desde_ultimo_acesso', 'FL_EVASAO']].head(10))

# Mostrar algumas estatísticas da coluna nr_dias_desde_ultimo_acesso para os dois grupos
print("\n--- Estatísticas de 'nr_dias_desde_ultimo_acesso' para cada grupo de FL_EVASAO ---")
print(df_treino.groupby('FL_EVASAO')['nr_dias_desde_ultimo_acesso'].describe())

Coluna alvo 'FL_EVASAO' criada com limiar de 60 dias de inatividade.

--- Distribuição da Variável Alvo (FL_EVASAO) ---
Contagem de alunos por status de evasão:
FL_EVASAO
1    219
0    181
Name: count, dtype: int64

Porcentagem de alunos por status de evasão:
FL_EVASAO
1    54.75
0    45.25
Name: proportion, dtype: float64

--- Primeiras linhas do DataFrame com a nova coluna FL_EVASAO ---
   nr_dias_desde_ultimo_acesso  FL_EVASAO
0                        19612          1
1                        19612          1
2                        19612          1
3                            6          0
4                        19612          1
5                            6          0
6                        19612          1
7                           18          0
8                           13          0
9                           15          0

--- Estatísticas de 'nr_dias_desde_ultimo_acesso' para cada grupo de FL_EVASAO ---
           count          mean          std    min      25%   