# Análise do ENCCEJA: Impacto da Pandemia de COVID-19 (2019 vs 2023)

## 📋 Resumo Executivo

**Objetivo**: Analisar o impacto da pandemia de COVID-19 nos resultados do Exame Nacional para Certificação de Competências de Jovens e Adultos (ENCCEJA), comparando dados de 2019 (pré-pandemia) e 2023 (pós-pandemia).

**Metodologia**: Análise quantitativa dos microdados oficiais do INEP, com separação entre populações Regular (candidatos livres) e PPL (pessoas privadas de liberdade), utilizando critérios oficiais de aprovação.

**Período**: Dezembro 2025

## 📚 1. Importação de Bibliotecas e Configuração

In [None]:
# Importações essenciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
from pathlib import Path
import logging

# Configurações
warnings.filterwarnings('ignore')
plt.style.use('default')
sns.set_palette("husl")

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(levelname)s: %(message)s')
logger = logging.getLogger(__name__)

# Definir caminhos dos dados
BASE_PATH = Path("z:/Dev/encejja-pré-pos-covid/data/raw")
DATA_PATHS = {
    'regular_2019': BASE_PATH / "microdados_encceja_2019/DADOS/MICRODADOS_ENCCEJA_NACIONAL_REGULAR_2019.csv",
    'ppl_2019': BASE_PATH / "microdados_encceja_2019/DADOS/MICRODADOS_ENCCEJA_NACIONAL_PPL_2019.csv",
    'regular_2023': BASE_PATH / "microdados_encceja_2023/DADOS/MICRODADOS_ENCCEJA_2023_REG_NAC.csv",
    'ppl_2023': BASE_PATH / "microdados_encceja_2023/DADOS/MICRODADOS_ENCCEJA_2023_PPL_NAC.csv"
}

print("✅ Bibliotecas importadas e caminhos configurados")
print("📁 Caminhos dos dados:")
for key, path in DATA_PATHS.items():
    exists = "✅" if path.exists() else "❌"
    print(f"   {exists} {key}: {path.name}")

## 🔧 2. Carregamento dos Microdados

In [None]:
class EnccejaDataLoader:
    """Carregador especializado para microdados ENCCEJA"""
    
    def __init__(self):
        self.data = {}
        self.metadata = {}
        # Configurações específicas por ano
        self.encoding_map = {
            2019: {'encoding': 'latin-1', 'sep': ','},
            2023: {'encoding': 'latin-1', 'sep': ';'}
        }
    
    def load_dataset(self, filepath, dataset_key):
        """Carrega um dataset específico"""
        try:
            # Detectar ano e configurações
            year = 2019 if '2019' in str(filepath) else 2023
            config = self.encoding_map[year]
            
            logger.info(f"Carregando {dataset_key} ({year})...")
            
            # Carregar dados completos
            df = pd.read_csv(filepath, encoding=config['encoding'], 
                           sep=config['sep'], low_memory=False)
            
            # Metadados
            metadata = {
                'year': year,
                'population': 'regular' if 'REGULAR' in str(filepath) or 'REG_NAC' in str(filepath) else 'ppl',
                'total_records': len(df),
                'total_columns': len(df.columns),
                'encoding': config['encoding'],
                'separator': config['sep'],
                'filepath': str(filepath)
            }
            
            # Armazenar
            self.data[dataset_key] = df
            self.metadata[dataset_key] = metadata
            
            logger.info(f"✅ {dataset_key}: {len(df):,} registros, {len(df.columns)} colunas")
            return df
            
        except Exception as e:
            logger.error(f"❌ Erro ao carregar {dataset_key}: {e}")
            return None
    
    def load_all_datasets(self):
        """Carrega todos os datasets"""
        print("🔄 CARREGANDO MICRODADOS ENCCEJA...")
        print("="*60)
        
        success_count = 0
        for key, filepath in DATA_PATHS.items():
            if filepath.exists():
                df = self.load_dataset(filepath, key)
                if df is not None:
                    success_count += 1
            else:
                logger.error(f"❌ Arquivo não encontrado: {filepath}")
        
        print(f"\n📊 RESUMO: {success_count}/{len(DATA_PATHS)} datasets carregados")
        return success_count == len(DATA_PATHS)
    
    def get_summary(self):
        """Retorna resumo dos dados carregados"""
        summary = {}
        for key, meta in self.metadata.items():
            summary[key] = {
                'year': meta['year'],
                'population': meta['population'],
                'records': meta['total_records'],
                'columns': meta['total_columns']
            }
        return summary

# Instanciar e carregar
loader = EnccejaDataLoader()
success = loader.load_all_datasets()

if success:
    print("\n✅ TODOS OS DATASETS CARREGADOS COM SUCESSO")
    
    # Exibir resumo
    print("\n📋 RESUMO DOS DADOS:")
    summary = loader.get_summary()
    total_records = sum(info['records'] for info in summary.values())
    
    for key, info in summary.items():
        print(f"   {key}: {info['year']} | {info['population'].upper()} | {info['records']:,} registros")
    
    print(f"\n🎯 TOTAL: {total_records:,} registros analisados")
else:
    print("❌ FALHA NO CARREGAMENTO")
    raise Exception("Não foi possível carregar os dados necessários")

## 📊 3. Análise Populacional

In [None]:
class EnccejaAnalyzer:
    """Analisador principal dos dados ENCCEJA"""
    
    def __init__(self, loader):
        self.loader = loader
        self.results = {}
        
        # Áreas de conhecimento
        self.areas = {
            'LC': 'Linguagens e Códigos',
            'MT': 'Matemática',
            'CN': 'Ciências da Natureza', 
            'CH': 'Ciências Humanas'
        }
    
    def analyze_population_changes(self):
        """Analisa mudanças populacionais entre 2019 e 2023"""
        print("📊 ANÁLISE DE MUDANÇAS POPULACIONAIS")
        print("="*60)
        
        population_analysis = {}
        
        # Analisar Regular
        if 'regular_2019' in self.loader.data and 'regular_2023' in self.loader.data:
            reg_2019 = len(self.loader.data['regular_2019'])
            reg_2023 = len(self.loader.data['regular_2023'])
            reg_change = ((reg_2023 - reg_2019) / reg_2019) * 100
            
            population_analysis['regular'] = {
                '2019': reg_2019,
                '2023': reg_2023,
                'change_pct': reg_change,
                'change_abs': reg_2023 - reg_2019
            }
            
            print(f"👥 POPULAÇÃO REGULAR (Candidatos Livres):")
            print(f"   2019: {reg_2019:,} candidatos")
            print(f"   2023: {reg_2023:,} candidatos")
            print(f"   Variação: {reg_change:+.1f}% ({reg_2023-reg_2019:+,} candidatos)")
        
        # Analisar PPL
        if 'ppl_2019' in self.loader.data and 'ppl_2023' in self.loader.data:
            ppl_2019 = len(self.loader.data['ppl_2019'])
            ppl_2023 = len(self.loader.data['ppl_2023'])
            ppl_change = ((ppl_2023 - ppl_2019) / ppl_2019) * 100
            
            population_analysis['ppl'] = {
                '2019': ppl_2019,
                '2023': ppl_2023,
                'change_pct': ppl_change,
                'change_abs': ppl_2023 - ppl_2019
            }
            
            print(f"\n🔒 POPULAÇÃO PPL (Pessoas Privadas de Liberdade):")
            print(f"   2019: {ppl_2019:,} candidatos")
            print(f"   2023: {ppl_2023:,} candidatos")
            print(f"   Variação: {ppl_change:+.1f}% ({ppl_2023-ppl_2019:+,} candidatos)")
        
        self.results['population_changes'] = population_analysis
        return population_analysis
    
    def analyze_demographics(self):
        """Analisa perfil demográfico dos candidatos"""
        print(f"\n🔍 ANÁLISE DEMOGRÁFICA")
        print("="*60)
        
        demographic_analysis = {}
        
        # Analisar cada população separadamente
        for pop_type in ['regular', 'ppl']:
            key_2019 = f"{pop_type}_2019"
            key_2023 = f"{pop_type}_2023"
            
            if key_2019 in self.loader.data and key_2023 in self.loader.data:
                df_2019 = self.loader.data[key_2019]
                df_2023 = self.loader.data[key_2023]
                
                demo_analysis = {}
                
                # Análise por sexo
                if 'TP_SEXO' in df_2019.columns and 'TP_SEXO' in df_2023.columns:
                    sex_2019 = df_2019['TP_SEXO'].value_counts(normalize=True) * 100
                    sex_2023 = df_2023['TP_SEXO'].value_counts(normalize=True) * 100
                    
                    demo_analysis['sexo'] = {
                        '2019': sex_2019.to_dict(),
                        '2023': sex_2023.to_dict()
                    }
                    
                    print(f"\n👥 DISTRIBUIÇÃO POR SEXO - {pop_type.upper()}:")
                    for sex in ['M', 'F']:
                        if sex in sex_2019 and sex in sex_2023:
                            change = sex_2023[sex] - sex_2019[sex]
                            sex_label = "Masculino" if sex == 'M' else "Feminino"
                            print(f"   {sex_label}: 2019={sex_2019[sex]:.1f}% | 2023={sex_2023[sex]:.1f}% | Δ={change:+.1f}pp")
                
                demographic_analysis[pop_type] = demo_analysis
        
        self.results['demographic_analysis'] = demographic_analysis
        return demographic_analysis

# Instanciar analisador
analyzer = EnccejaAnalyzer(loader)

# Executar análises
pop_results = analyzer.analyze_population_changes()
demo_results = analyzer.analyze_demographics()

## 📈 4. Análise de Desempenho

In [None]:
def analyze_performance():
    """Analisa desempenho usando critérios oficiais INEP"""
    print(f"\n📈 ANÁLISE DE DESEMPENHO (CRITÉRIOS OFICIAIS INEP)")
    print("="*60)
    
    performance_analysis = {}
    
    for pop_type in ['regular', 'ppl']:
        key_2019 = f"{pop_type}_2019"
        key_2023 = f"{pop_type}_2023"
        
        if key_2019 in loader.data and key_2023 in loader.data:
            perf_analysis = {}
            
            for year, key in [('2019', key_2019), ('2023', key_2023)]:
                df = loader.data[key]
                year_analysis = {}
                
                # Taxas de aprovação por área (critérios oficiais)
                approval_rates = {}
                for area_code, area_name in analyzer.areas.items():
                    col_name = f'IN_APROVADO_{area_code}'
                    if col_name in df.columns:
                        valid_data = df[col_name].dropna()
                        if len(valid_data) > 0:
                            approval_rate = (valid_data == 1).mean() * 100
                            approval_rates[area_name] = approval_rate
                
                year_analysis['approval_rates'] = approval_rates
                
                # Taxas de participação
                participation = {}
                for area_code in analyzer.areas.keys():
                    presence_col = f'TP_PRESENCA_{area_code}'
                    if presence_col in df.columns:
                        valid_presence = df[presence_col].dropna()
                        if len(valid_presence) > 0:
                            presence_rate = (valid_presence == 1).mean() * 100
                            participation[analyzer.areas[area_code]] = presence_rate
                
                year_analysis['participation_rates'] = participation
                perf_analysis[year] = year_analysis
            
            # Exibir resultados
            print(f"\n📊 DESEMPENHO - {pop_type.upper()}:")
            
            # Aprovação por área
            print(f"   Taxas de Aprovação:")
            for area in analyzer.areas.values():
                if (area in perf_analysis['2019'].get('approval_rates', {}) and 
                    area in perf_analysis['2023'].get('approval_rates', {})):
                    rate_2019 = perf_analysis['2019']['approval_rates'][area]
                    rate_2023 = perf_analysis['2023']['approval_rates'][area]
                    change = rate_2023 - rate_2019
                    print(f"     {area}: 2019={rate_2019:.1f}% | 2023={rate_2023:.1f}% | Δ={change:+.1f}pp")
            
            performance_analysis[pop_type] = perf_analysis
    
    analyzer.results['performance'] = performance_analysis
    return performance_analysis

# Executar análise de desempenho
perf_results = analyze_performance()

## 📊 5. Visualizações

In [None]:
def create_population_visualization():
    """Cria visualização das mudanças populacionais"""
    
    if 'population_changes' not in analyzer.results:
        print("❌ Dados de população não disponíveis")
        return None
    
    fig = make_subplots(
        rows=1, cols=2,
        subplot_titles=('População Regular', 'População PPL'),
        specs=[[{"secondary_y": False}, {"secondary_y": False}]]
    )
    
    pop_data = analyzer.results['population_changes']
    
    # Gráfico Regular
    if 'regular' in pop_data:
        reg_data = pop_data['regular']
        fig.add_trace(
            go.Bar(
                x=['2019 (Pré-pandemia)', '2023 (Pós-pandemia)'],
                y=[reg_data['2019'], reg_data['2023']],
                name='Candidatos Regulares',
                marker_color='lightblue',
                text=[f"{reg_data['2019']:,}", f"{reg_data['2023']:,}"],
                textposition='auto'
            ),
            row=1, col=1
        )
    
    # Gráfico PPL
    if 'ppl' in pop_data:
        ppl_data = pop_data['ppl']
        fig.add_trace(
            go.Bar(
                x=['2019 (Pré-pandemia)', '2023 (Pós-pandemia)'],
                y=[ppl_data['2019'], ppl_data['2023']],
                name='População PPL',
                marker_color='lightcoral',
                text=[f"{ppl_data['2019']:,}", f"{ppl_data['2023']:,}"],
                textposition='auto'
            ),
            row=1, col=2
        )
    
    fig.update_layout(
        title='📊 Mudanças Populacionais ENCCEJA: Pré vs Pós-Pandemia',
        showlegend=False,
        height=500
    )
    
    fig.update_yaxes(title_text="Número de Candidatos", row=1, col=1)
    fig.update_yaxes(title_text="Número de Candidatos", row=1, col=2)
    
    return fig

def create_performance_visualization():
    """Cria visualização de desempenho"""
    
    if 'performance' not in analyzer.results:
        print("❌ Dados de desempenho não disponíveis")
        return None
    
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=(
            'Aprovação por Área - População Regular',
            'Aprovação por Área - População PPL',
            'Variação na Aprovação - Regular',
            'Variação na Aprovação - PPL'
        )
    )
    
    perf_data = analyzer.results['performance']
    colors_2019 = '#1f77b4'
    colors_2023 = '#ff7f0e'
    
    for i, (pop_type, col) in enumerate([('regular', 1), ('ppl', 2)]):
        if pop_type in perf_data:
            pop_perf = perf_data[pop_type]
            
            if '2019' in pop_perf and '2023' in pop_perf:
                areas_2019 = pop_perf['2019'].get('approval_rates', {})
                areas_2023 = pop_perf['2023'].get('approval_rates', {})
                
                common_areas = set(areas_2019.keys()) & set(areas_2023.keys())
                areas = sorted(list(common_areas))
                
                if areas:
                    # Gráfico de aprovação absoluta
                    fig.add_trace(
                        go.Bar(
                            x=areas,
                            y=[areas_2019[area] for area in areas],
                            name='2019',
                            marker_color=colors_2019,
                            showlegend=(i == 0)
                        ),
                        row=1, col=col
                    )
                    
                    fig.add_trace(
                        go.Bar(
                            x=areas,
                            y=[areas_2023[area] for area in areas],
                            name='2023',
                            marker_color=colors_2023,
                            showlegend=(i == 0)
                        ),
                        row=1, col=col
                    )
                    
                    # Gráfico de variação
                    changes = [areas_2023[area] - areas_2019[area] for area in areas]
                    colors_change = ['green' if x >= 0 else 'red' for x in changes]
                    
                    fig.add_trace(
                        go.Bar(
                            x=areas,
                            y=changes,
                            name=f'Variação {pop_type}',
                            marker_color=colors_change,
                            showlegend=False
                        ),
                        row=2, col=col
                    )
    
    fig.update_layout(
        title='📈 Análise de Desempenho por Área de Conhecimento',
        height=800
    )
    
    fig.update_yaxes(title_text="Taxa de Aprovação (%)", row=1, col=1)
    fig.update_yaxes(title_text="Taxa de Aprovação (%)", row=1, col=2)
    fig.update_yaxes(title_text="Variação (pp)", row=2, col=1)
    fig.update_yaxes(title_text="Variação (pp)", row=2, col=2)
    
    return fig

# Criar e exibir visualizações
print("📊 GERANDO VISUALIZAÇÕES...")

pop_fig = create_population_visualization()
if pop_fig:
    pop_fig.show()

perf_fig = create_performance_visualization()
if perf_fig:
    perf_fig.show()

## 📋 6. Síntese dos Resultados

In [None]:
def generate_final_report():
    """Gera relatório final dos achados"""
    print("📋 SÍNTESE DOS RESULTADOS PRINCIPAIS")
    print("="*80)
    
    if 'population_changes' in analyzer.results:
        pop_data = analyzer.results['population_changes']
        
        print("\n🔍 PRINCIPAIS ACHADOS:")
        
        if 'regular' in pop_data:
            reg_change = pop_data['regular']['change_pct']
            reg_abs = pop_data['regular']['change_abs']
            print(f"\n📉 POPULAÇÃO REGULAR:")
            print(f"   • Redução de {abs(reg_change):.1f}% ({reg_abs:,} candidatos)")
            print(f"   • Possíveis fatores: impacto pandemia, mudanças demográficas, políticas educacionais")
        
        if 'ppl' in pop_data:
            ppl_change = pop_data['ppl']['change_pct']
            ppl_abs = pop_data['ppl']['change_abs']
            print(f"\n📈 POPULAÇÃO PPL:")
            print(f"   • Crescimento de {ppl_change:.1f}% (+{ppl_abs:,} candidatos)")
            print(f"   • Expansão significativa do programa prisional")
    
    print("\n⚠️  CONSIDERAÇÕES METODOLÓGICAS:")
    print("   📚 Escopo: Brasil (apenas Ensino Fundamental desde 2009)")
    print("   🔐 LGPD: Dados do exterior excluídos em 2023")
    print("   📊 Estrutura: Mudanças no questionário entre 2019-2023")
    print("   🔬 Causalidade: Correlação temporal ≠ causalidade pandêmica")
    
    print("\n🎯 IMPLICAÇÕES PARA POLÍTICAS PÚBLICAS:")
    print("   1. Necessidade de estratégias para recuperar participação regular")
    print("   2. Manutenção e expansão do programa PPL exitoso")
    print("   3. Investigação das causas da redução na população regular")
    print("   4. Consideração de modalidades híbridas/remotas")
    
    print("\n✅ ANÁLISE CONCLUÍDA")
    print("   Dados completos analisados com rigor metodológico")

# Gerar relatório final
generate_final_report()

## 📤 7. Exportação dos Resultados

In [None]:
import json
from datetime import datetime

def export_final_results():
    """Exporta resultados para publicação"""
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    # Preparar dados para exportação
    export_data = {
        'metadata': {
            'analysis_date': datetime.now().isoformat(),
            'title': 'Análise ENCCEJA: Impacto da Pandemia COVID-19 (2019 vs 2023)',
            'methodology': 'Análise quantitativa com separação de populações',
            'total_records': sum(info['records'] for info in loader.get_summary().values()),
            'datasets_analyzed': list(loader.metadata.keys())
        },
        'results': analyzer.results,
        'dataset_summary': loader.get_summary()
    }
    
    # Exportar JSON
    json_path = f"encceja_analise_publicacao_{timestamp}.json"
    try:
        with open(json_path, 'w', encoding='utf-8') as f:
            json.dump(export_data, f, indent=2, ensure_ascii=False, default=str)
        print(f"✅ Dados exportados: {json_path}")
    except Exception as e:
        print(f"❌ Erro ao exportar JSON: {e}")
    
    return json_path

# Exportar resultados
exported_file = export_final_results()
print(f"\n📁 Arquivo para publicação: {exported_file}")
print(f"\n🎯 ANÁLISE PRONTA PARA PUBLICAÇÃO")
print(f"   • Dados completos analisados")
print(f"   • Metodologia científica aplicada")
print(f"   • Resultados exportados em formato estruturado")