## **Bibliotecas**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações visuais
sns.set(style="whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

## **Carregamento dos Dados**

In [None]:
df = pd.read_csv('../data/dados_projeto_evasao_treino.csv')
df.drop(columns=['Unnamed: 0'], inplace=True)
df.head()

## **Entendimento Inicial**

In [None]:
# Estrutura do DataFrame
print("Formato:", df.shape)
df.info()

display(df.describe().T)

# Classificação de colunas por prefixo
categoricas = [col for col in df.columns if col.startswith("ds_")]
temporais = [col for col in df.columns if col.startswith("ts_")]
numericas_nr = [col for col in df.columns if col.startswith("nr_")]
numericas_vl = [col for col in df.columns if col.startswith("vl_")]

print("Categóricas:", categoricas)
print("Temporais:", temporais)
print("Numéricas (contagem):", numericas_nr)
print("Numéricas (valores):", numericas_vl)

## **Valores Ausentes**

In [None]:
missing = (df.isnull().mean() * 100).sort_values(ascending=False)
missing_df = pd.DataFrame({'% de Valores Ausentes': missing.round(2)})
display(missing_df[missing_df['% de Valores Ausentes'] > 0])

sns.heatmap(df.isnull(), cbar=False, cmap="viridis")
plt.title("Mapa de Valores Ausentes")
plt.show()

## **Conversão de Datas**

In [None]:
df['ts_primeiro_acesso'] = pd.to_datetime(df['ts_primeiro_acesso'], unit='s', errors='coerce')
df['ts_ultimo_acesso'] = pd.to_datetime(df['ts_ultimo_acesso'], unit='s', errors='coerce')
df['tempo_total_participacao'] = (df['ts_ultimo_acesso'] - df['ts_primeiro_acesso']).dt.days

df[['ts_primeiro_acesso', 'ts_ultimo_acesso', 'tempo_total_participacao']].head()

## **Distribuições e Correlações**

In [None]:
for col in ['nr_dias_uso', 'nr_interacoes_usuario', 'vl_desempenho_usuario']:
    sns.histplot(df[col].dropna(), kde=True)
    plt.title(f'Distribuição de {col}')
    plt.show()

corr = df.select_dtypes(include=['int64', 'float64']).corr()
sns.heatmap(corr, cmap='coolwarm', center=0)
plt.title("Mapa de Correlação")
plt.show()

## **Relações Entre Variáveis**

In [None]:
sns.scatterplot(data=df, x='nr_interacoes_usuario', y='vl_desempenho_usuario')
plt.title("Interações vs Desempenho")
plt.show()

sns.scatterplot(data=df, x='nr_dias_engajamento_discussao', y='vl_media_notas')
plt.title("Engajamento em Discussão vs Média de Notas")
plt.show()

## **Pré-processamento dos Dados**
Nesta seção, realizaremos a limpeza, imputação, codificação e preparação para modelagem.