# An√°lise Explorat√≥ria de Dados (EDA)
## Sistema de Predi√ß√£o de Evas√£o Estudantil

Este notebook realiza uma an√°lise explorat√≥ria completa dos dados de estudantes para identificar padr√µes relacionados √† evas√£o.


In [None]:
# Importa√ß√µes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

%matplotlib inline


## 1. Carregamento dos Dados


In [None]:
# Carregar dataset
df = pd.read_csv('../data/student_dropout_dataset.csv')

print(f"üìä Dimens√µes do dataset: {df.shape}")
print(f"\nüìã Primeiras linhas:")
df.head()


## 2. Informa√ß√µes Gerais do Dataset


In [None]:
# Informa√ß√µes sobre o dataset
print("üìä Informa√ß√µes do Dataset:")
print(f"Total de registros: {len(df)}")
print(f"Total de features: {len(df.columns) - 1}")
print(f"\nüìà Distribui√ß√£o da vari√°vel target (dropout):")
print(df['dropout'].value_counts())
print(f"\nüìä Taxa de evas√£o: {df['dropout'].mean()*100:.2f}%")

# Tipos de dados
print("\nüîç Tipos de dados:")
print(df.dtypes)


In [None]:
# Estat√≠sticas descritivas
print("üìä Estat√≠sticas Descritivas:")
df.describe()


In [None]:
# Verificar valores ausentes
print("üîç Valores Ausentes:")
missing = df.isnull().sum()
missing_percent = (missing / len(df)) * 100
missing_df = pd.DataFrame({
    'Valores Ausentes': missing,
    'Percentual (%)': missing_percent
})
missing_df[missing_df['Valores Ausentes'] > 0]


## 3. An√°lise da Vari√°vel Target


In [None]:
# Distribui√ß√£o da vari√°vel target
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico de barras
df['dropout'].value_counts().plot(kind='bar', ax=axes[0], color=['#2ecc71', '#e74c3c'])
axes[0].set_title('Distribui√ß√£o de Evas√£o', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Evas√£o (0=N√£o, 1=Sim)', fontsize=12)
axes[0].set_ylabel('Frequ√™ncia', fontsize=12)
axes[0].set_xticklabels(['N√£o Evadiu', 'Evadiu'], rotation=0)

# Gr√°fico de pizza
df['dropout'].value_counts().plot(kind='pie', ax=axes[1], autopct='%1.1f%%', 
                                  colors=['#2ecc71', '#e74c3c'], startangle=90)
axes[1].set_title('Propor√ß√£o de Evas√£o', fontsize=14, fontweight='bold')
axes[1].set_ylabel('')

plt.tight_layout()
plt.show()


## 4. An√°lise de Correla√ß√£o


In [None]:
# Selecionar features num√©ricas
numeric_features = df.select_dtypes(include=[np.number]).columns.tolist()
numeric_features.remove('dropout')  # Remover target

# Matriz de correla√ß√£o
correlation_matrix = df[numeric_features + ['dropout']].corr()

# Visualizar correla√ß√£o com target
correlation_with_target = correlation_matrix['dropout'].sort_values(ascending=False)
print("üìä Correla√ß√£o das Features com Evas√£o:")
print(correlation_with_target.drop('dropout'))

# Heatmap de correla√ß√£o
plt.figure(figsize=(14, 10))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correla√ß√£o - Features Num√©ricas', fontsize=16, fontweight='bold', pad=20)
plt.tight_layout()
plt.show()


## 5. Insights e Conclus√µes da EDA


In [None]:
print("üîç PRINCIPAIS INSIGHTS DA EDA:\n")
print("1. Distribui√ß√£o da Evas√£o:")
print(f"   - Taxa de evas√£o: {df['dropout'].mean()*100:.2f}%")
print(f"   - Total de evas√µes: {df['dropout'].sum()}")
print(f"   - Total de n√£o evas√µes: {(df['dropout'] == 0).sum()}\n")

print("2. Features Mais Correlacionadas com Evas√£o:")
top_correlations = correlation_with_target.drop('dropout').head(5)
for feature, corr in top_correlations.items():
    print(f"   - {feature}: {corr:.3f}")

# Verificar balanceamento
print(f"\n3. Balanceamento da Classe Target:")
print(f"   - Propor√ß√£o N√£o Evas√£o: {(df['dropout'] == 0).mean()*100:.2f}%")
print(f"   - Propor√ß√£o Evas√£o: {df['dropout'].mean()*100:.2f}%")
