# An√°lise do ENCCEJA: Impacto da Pandemia de COVID-19 (2019 vs 2023)

## üìã Resumo Executivo

**Objetivo**: Analisar o impacto da pandemia de COVID-19 nos resultados do Exame Nacional para Certifica√ß√£o de Compet√™ncias de Jovens e Adultos (ENCCEJA), comparando dados de 2019 (pr√©-pandemia) e 2023 (p√≥s-pandemia).

**Metodologia**: An√°lise quantitativa dos microdados oficiais do INEP, com separa√ß√£o entre popula√ß√µes Regular (candidatos livres) e PPL (pessoas privadas de liberdade), utilizando crit√©rios oficiais de aprova√ß√£o.

**Per√≠odo**: Dezembro 2025

## üìö 1. Importa√ß√£o de Bibliotecas e Configura√ß√£o

In [None]:
# Importa√ß√µes essenciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
from pathlib import Path
import logging

# Configura√ß√µes
warnings.filterwarnings('ignore')
plt.style.use('default')
sns.set_palette("husl")

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(levelname)s: %(message)s')
logger = logging.getLogger(__name__)

# Definir caminhos dos dados
BASE_PATH = Path("z:/Dev/encejja-pr√©-pos-covid/data/raw")
DATA_PATHS = {
    'regular_2019': BASE_PATH / "microdados_encceja_2019/DADOS/MICRODADOS_ENCCEJA_NACIONAL_REGULAR_2019.csv",
    'ppl_2019': BASE_PATH / "microdados_encceja_2019/DADOS/MICRODADOS_ENCCEJA_NACIONAL_PPL_2019.csv",
    'regular_2023': BASE_PATH / "microdados_encceja_2023/DADOS/MICRODADOS_ENCCEJA_2023_REG_NAC.csv",
    'ppl_2023': BASE_PATH / "microdados_encceja_2023/DADOS/MICRODADOS_ENCCEJA_2023_PPL_NAC.csv"
}

print("‚úÖ Bibliotecas importadas e caminhos configurados")
print("üìÅ Caminhos dos dados:")
for key, path in DATA_PATHS.items():
    exists = "‚úÖ" if path.exists() else "‚ùå"
    print(f"   {exists} {key}: {path.name}")

## üîß 2. Carregamento dos Microdados

In [None]:
class EnccejaDataLoader:
    """Carregador especializado para microdados ENCCEJA"""
    
    def __init__(self):
        self.data = {}
        self.metadata = {}
        # Configura√ß√µes espec√≠ficas por ano
        self.encoding_map = {
            2019: {'encoding': 'latin-1', 'sep': ','},
            2023: {'encoding': 'latin-1', 'sep': ';'}
        }
    
    def load_dataset(self, filepath, dataset_key):
        """Carrega um dataset espec√≠fico"""
        try:
            # Detectar ano e configura√ß√µes
            year = 2019 if '2019' in str(filepath) else 2023
            config = self.encoding_map[year]
            
            logger.info(f"Carregando {dataset_key} ({year})...")
            
            # Carregar dados completos
            df = pd.read_csv(filepath, encoding=config['encoding'], 
                           sep=config['sep'], low_memory=False)
            
            # Metadados
            metadata = {
                'year': year,
                'population': 'regular' if 'REGULAR' in str(filepath) or 'REG_NAC' in str(filepath) else 'ppl',
                'total_records': len(df),
                'total_columns': len(df.columns),
                'encoding': config['encoding'],
                'separator': config['sep'],
                'filepath': str(filepath)
            }
            
            # Armazenar
            self.data[dataset_key] = df
            self.metadata[dataset_key] = metadata
            
            logger.info(f"‚úÖ {dataset_key}: {len(df):,} registros, {len(df.columns)} colunas")
            return df
            
        except Exception as e:
            logger.error(f"‚ùå Erro ao carregar {dataset_key}: {e}")
            return None
    
    def load_all_datasets(self):
        """Carrega todos os datasets"""
        print("üîÑ CARREGANDO MICRODADOS ENCCEJA...")
        print("="*60)
        
        success_count = 0
        for key, filepath in DATA_PATHS.items():
            if filepath.exists():
                df = self.load_dataset(filepath, key)
                if df is not None:
                    success_count += 1
            else:
                logger.error(f"‚ùå Arquivo n√£o encontrado: {filepath}")
        
        print(f"\nüìä RESUMO: {success_count}/{len(DATA_PATHS)} datasets carregados")
        return success_count == len(DATA_PATHS)
    
    def get_summary(self):
        """Retorna resumo dos dados carregados"""
        summary = {}
        for key, meta in self.metadata.items():
            summary[key] = {
                'year': meta['year'],
                'population': meta['population'],
                'records': meta['total_records'],
                'columns': meta['total_columns']
            }
        return summary

# Instanciar e carregar
loader = EnccejaDataLoader()
success = loader.load_all_datasets()

if success:
    print("\n‚úÖ TODOS OS DATASETS CARREGADOS COM SUCESSO")
    
    # Exibir resumo
    print("\nüìã RESUMO DOS DADOS:")
    summary = loader.get_summary()
    total_records = sum(info['records'] for info in summary.values())
    
    for key, info in summary.items():
        print(f"   {key}: {info['year']} | {info['population'].upper()} | {info['records']:,} registros")
    
    print(f"\nüéØ TOTAL: {total_records:,} registros analisados")
else:
    print("‚ùå FALHA NO CARREGAMENTO")
    raise Exception("N√£o foi poss√≠vel carregar os dados necess√°rios")

## üìä 3. An√°lise Populacional

In [None]:
class EnccejaAnalyzer:
    """Analisador principal dos dados ENCCEJA"""
    
    def __init__(self, loader):
        self.loader = loader
        self.results = {}
        
        # √Åreas de conhecimento
        self.areas = {
            'LC': 'Linguagens e C√≥digos',
            'MT': 'Matem√°tica',
            'CN': 'Ci√™ncias da Natureza', 
            'CH': 'Ci√™ncias Humanas'
        }
    
    def analyze_population_changes(self):
        """Analisa mudan√ßas populacionais entre 2019 e 2023"""
        print("üìä AN√ÅLISE DE MUDAN√áAS POPULACIONAIS")
        print("="*60)
        
        population_analysis = {}
        
        # Analisar Regular
        if 'regular_2019' in self.loader.data and 'regular_2023' in self.loader.data:
            reg_2019 = len(self.loader.data['regular_2019'])
            reg_2023 = len(self.loader.data['regular_2023'])
            reg_change = ((reg_2023 - reg_2019) / reg_2019) * 100
            
            population_analysis['regular'] = {
                '2019': reg_2019,
                '2023': reg_2023,
                'change_pct': reg_change,
                'change_abs': reg_2023 - reg_2019
            }
            
            print(f"üë• POPULA√á√ÉO REGULAR (Candidatos Livres):")
            print(f"   2019: {reg_2019:,} candidatos")
            print(f"   2023: {reg_2023:,} candidatos")
            print(f"   Varia√ß√£o: {reg_change:+.1f}% ({reg_2023-reg_2019:+,} candidatos)")
        
        # Analisar PPL
        if 'ppl_2019' in self.loader.data and 'ppl_2023' in self.loader.data:
            ppl_2019 = len(self.loader.data['ppl_2019'])
            ppl_2023 = len(self.loader.data['ppl_2023'])
            ppl_change = ((ppl_2023 - ppl_2019) / ppl_2019) * 100
            
            population_analysis['ppl'] = {
                '2019': ppl_2019,
                '2023': ppl_2023,
                'change_pct': ppl_change,
                'change_abs': ppl_2023 - ppl_2019
            }
            
            print(f"\nüîí POPULA√á√ÉO PPL (Pessoas Privadas de Liberdade):")
            print(f"   2019: {ppl_2019:,} candidatos")
            print(f"   2023: {ppl_2023:,} candidatos")
            print(f"   Varia√ß√£o: {ppl_change:+.1f}% ({ppl_2023-ppl_2019:+,} candidatos)")
        
        self.results['population_changes'] = population_analysis
        return population_analysis
    
    def analyze_demographics(self):
        """Analisa perfil demogr√°fico dos candidatos"""
        print(f"\nüîç AN√ÅLISE DEMOGR√ÅFICA")
        print("="*60)
        
        demographic_analysis = {}
        
        # Analisar cada popula√ß√£o separadamente
        for pop_type in ['regular', 'ppl']:
            key_2019 = f"{pop_type}_2019"
            key_2023 = f"{pop_type}_2023"
            
            if key_2019 in self.loader.data and key_2023 in self.loader.data:
                df_2019 = self.loader.data[key_2019]
                df_2023 = self.loader.data[key_2023]
                
                demo_analysis = {}
                
                # An√°lise por sexo
                if 'TP_SEXO' in df_2019.columns and 'TP_SEXO' in df_2023.columns:
                    sex_2019 = df_2019['TP_SEXO'].value_counts(normalize=True) * 100
                    sex_2023 = df_2023['TP_SEXO'].value_counts(normalize=True) * 100
                    
                    demo_analysis['sexo'] = {
                        '2019': sex_2019.to_dict(),
                        '2023': sex_2023.to_dict()
                    }
                    
                    print(f"\nüë• DISTRIBUI√á√ÉO POR SEXO - {pop_type.upper()}:")
                    for sex in ['M', 'F']:
                        if sex in sex_2019 and sex in sex_2023:
                            change = sex_2023[sex] - sex_2019[sex]
                            sex_label = "Masculino" if sex == 'M' else "Feminino"
                            print(f"   {sex_label}: 2019={sex_2019[sex]:.1f}% | 2023={sex_2023[sex]:.1f}% | Œî={change:+.1f}pp")
                
                demographic_analysis[pop_type] = demo_analysis
        
        self.results['demographic_analysis'] = demographic_analysis
        return demographic_analysis

# Instanciar analisador
analyzer = EnccejaAnalyzer(loader)

# Executar an√°lises
pop_results = analyzer.analyze_population_changes()
demo_results = analyzer.analyze_demographics()

## üìà 4. An√°lise de Desempenho

In [None]:
def analyze_performance():
    """Analisa desempenho usando crit√©rios oficiais INEP"""
    print(f"\nüìà AN√ÅLISE DE DESEMPENHO (CRIT√âRIOS OFICIAIS INEP)")
    print("="*60)
    
    performance_analysis = {}
    
    for pop_type in ['regular', 'ppl']:
        key_2019 = f"{pop_type}_2019"
        key_2023 = f"{pop_type}_2023"
        
        if key_2019 in loader.data and key_2023 in loader.data:
            perf_analysis = {}
            
            for year, key in [('2019', key_2019), ('2023', key_2023)]:
                df = loader.data[key]
                year_analysis = {}
                
                # Taxas de aprova√ß√£o por √°rea (crit√©rios oficiais)
                approval_rates = {}
                for area_code, area_name in analyzer.areas.items():
                    col_name = f'IN_APROVADO_{area_code}'
                    if col_name in df.columns:
                        valid_data = df[col_name].dropna()
                        if len(valid_data) > 0:
                            approval_rate = (valid_data == 1).mean() * 100
                            approval_rates[area_name] = approval_rate
                
                year_analysis['approval_rates'] = approval_rates
                
                # Taxas de participa√ß√£o
                participation = {}
                for area_code in analyzer.areas.keys():
                    presence_col = f'TP_PRESENCA_{area_code}'
                    if presence_col in df.columns:
                        valid_presence = df[presence_col].dropna()
                        if len(valid_presence) > 0:
                            presence_rate = (valid_presence == 1).mean() * 100
                            participation[analyzer.areas[area_code]] = presence_rate
                
                year_analysis['participation_rates'] = participation
                perf_analysis[year] = year_analysis
            
            # Exibir resultados
            print(f"\nüìä DESEMPENHO - {pop_type.upper()}:")
            
            # Aprova√ß√£o por √°rea
            print(f"   Taxas de Aprova√ß√£o:")
            for area in analyzer.areas.values():
                if (area in perf_analysis['2019'].get('approval_rates', {}) and 
                    area in perf_analysis['2023'].get('approval_rates', {})):
                    rate_2019 = perf_analysis['2019']['approval_rates'][area]
                    rate_2023 = perf_analysis['2023']['approval_rates'][area]
                    change = rate_2023 - rate_2019
                    print(f"     {area}: 2019={rate_2019:.1f}% | 2023={rate_2023:.1f}% | Œî={change:+.1f}pp")
            
            performance_analysis[pop_type] = perf_analysis
    
    analyzer.results['performance'] = performance_analysis
    return performance_analysis

# Executar an√°lise de desempenho
perf_results = analyze_performance()

## üìä 5. Visualiza√ß√µes

In [None]:
def create_population_visualization():
    """Cria visualiza√ß√£o das mudan√ßas populacionais"""
    
    if 'population_changes' not in analyzer.results:
        print("‚ùå Dados de popula√ß√£o n√£o dispon√≠veis")
        return None
    
    fig = make_subplots(
        rows=1, cols=2,
        subplot_titles=('Popula√ß√£o Regular', 'Popula√ß√£o PPL'),
        specs=[[{"secondary_y": False}, {"secondary_y": False}]]
    )
    
    pop_data = analyzer.results['population_changes']
    
    # Gr√°fico Regular
    if 'regular' in pop_data:
        reg_data = pop_data['regular']
        fig.add_trace(
            go.Bar(
                x=['2019 (Pr√©-pandemia)', '2023 (P√≥s-pandemia)'],
                y=[reg_data['2019'], reg_data['2023']],
                name='Candidatos Regulares',
                marker_color='lightblue',
                text=[f"{reg_data['2019']:,}", f"{reg_data['2023']:,}"],
                textposition='auto'
            ),
            row=1, col=1
        )
    
    # Gr√°fico PPL
    if 'ppl' in pop_data:
        ppl_data = pop_data['ppl']
        fig.add_trace(
            go.Bar(
                x=['2019 (Pr√©-pandemia)', '2023 (P√≥s-pandemia)'],
                y=[ppl_data['2019'], ppl_data['2023']],
                name='Popula√ß√£o PPL',
                marker_color='lightcoral',
                text=[f"{ppl_data['2019']:,}", f"{ppl_data['2023']:,}"],
                textposition='auto'
            ),
            row=1, col=2
        )
    
    fig.update_layout(
        title='üìä Mudan√ßas Populacionais ENCCEJA: Pr√© vs P√≥s-Pandemia',
        showlegend=False,
        height=500
    )
    
    fig.update_yaxes(title_text="N√∫mero de Candidatos", row=1, col=1)
    fig.update_yaxes(title_text="N√∫mero de Candidatos", row=1, col=2)
    
    return fig

def create_performance_visualization():
    """Cria visualiza√ß√£o de desempenho"""
    
    if 'performance' not in analyzer.results:
        print("‚ùå Dados de desempenho n√£o dispon√≠veis")
        return None
    
    fig = make_subplots(
        rows=2, cols=2,
        subplot_titles=(
            'Aprova√ß√£o por √Årea - Popula√ß√£o Regular',
            'Aprova√ß√£o por √Årea - Popula√ß√£o PPL',
            'Varia√ß√£o na Aprova√ß√£o - Regular',
            'Varia√ß√£o na Aprova√ß√£o - PPL'
        )
    )
    
    perf_data = analyzer.results['performance']
    colors_2019 = '#1f77b4'
    colors_2023 = '#ff7f0e'
    
    for i, (pop_type, col) in enumerate([('regular', 1), ('ppl', 2)]):
        if pop_type in perf_data:
            pop_perf = perf_data[pop_type]
            
            if '2019' in pop_perf and '2023' in pop_perf:
                areas_2019 = pop_perf['2019'].get('approval_rates', {})
                areas_2023 = pop_perf['2023'].get('approval_rates', {})
                
                common_areas = set(areas_2019.keys()) & set(areas_2023.keys())
                areas = sorted(list(common_areas))
                
                if areas:
                    # Gr√°fico de aprova√ß√£o absoluta
                    fig.add_trace(
                        go.Bar(
                            x=areas,
                            y=[areas_2019[area] for area in areas],
                            name='2019',
                            marker_color=colors_2019,
                            showlegend=(i == 0)
                        ),
                        row=1, col=col
                    )
                    
                    fig.add_trace(
                        go.Bar(
                            x=areas,
                            y=[areas_2023[area] for area in areas],
                            name='2023',
                            marker_color=colors_2023,
                            showlegend=(i == 0)
                        ),
                        row=1, col=col
                    )
                    
                    # Gr√°fico de varia√ß√£o
                    changes = [areas_2023[area] - areas_2019[area] for area in areas]
                    colors_change = ['green' if x >= 0 else 'red' for x in changes]
                    
                    fig.add_trace(
                        go.Bar(
                            x=areas,
                            y=changes,
                            name=f'Varia√ß√£o {pop_type}',
                            marker_color=colors_change,
                            showlegend=False
                        ),
                        row=2, col=col
                    )
    
    fig.update_layout(
        title='üìà An√°lise de Desempenho por √Årea de Conhecimento',
        height=800
    )
    
    fig.update_yaxes(title_text="Taxa de Aprova√ß√£o (%)", row=1, col=1)
    fig.update_yaxes(title_text="Taxa de Aprova√ß√£o (%)", row=1, col=2)
    fig.update_yaxes(title_text="Varia√ß√£o (pp)", row=2, col=1)
    fig.update_yaxes(title_text="Varia√ß√£o (pp)", row=2, col=2)
    
    return fig

# Criar e exibir visualiza√ß√µes
print("üìä GERANDO VISUALIZA√á√ïES...")

pop_fig = create_population_visualization()
if pop_fig:
    pop_fig.show()

perf_fig = create_performance_visualization()
if perf_fig:
    perf_fig.show()

## üìã 6. S√≠ntese dos Resultados

In [None]:
def generate_final_report():
    """Gera relat√≥rio final dos achados"""
    print("üìã S√çNTESE DOS RESULTADOS PRINCIPAIS")
    print("="*80)
    
    if 'population_changes' in analyzer.results:
        pop_data = analyzer.results['population_changes']
        
        print("\nüîç PRINCIPAIS ACHADOS:")
        
        if 'regular' in pop_data:
            reg_change = pop_data['regular']['change_pct']
            reg_abs = pop_data['regular']['change_abs']
            print(f"\nüìâ POPULA√á√ÉO REGULAR:")
            print(f"   ‚Ä¢ Redu√ß√£o de {abs(reg_change):.1f}% ({reg_abs:,} candidatos)")
            print(f"   ‚Ä¢ Poss√≠veis fatores: impacto pandemia, mudan√ßas demogr√°ficas, pol√≠ticas educacionais")
        
        if 'ppl' in pop_data:
            ppl_change = pop_data['ppl']['change_pct']
            ppl_abs = pop_data['ppl']['change_abs']
            print(f"\nüìà POPULA√á√ÉO PPL:")
            print(f"   ‚Ä¢ Crescimento de {ppl_change:.1f}% (+{ppl_abs:,} candidatos)")
            print(f"   ‚Ä¢ Expans√£o significativa do programa prisional")
    
    print("\n‚ö†Ô∏è  CONSIDERA√á√ïES METODOL√ìGICAS:")
    print("   üìö Escopo: Brasil (apenas Ensino Fundamental desde 2009)")
    print("   üîê LGPD: Dados do exterior exclu√≠dos em 2023")
    print("   üìä Estrutura: Mudan√ßas no question√°rio entre 2019-2023")
    print("   üî¨ Causalidade: Correla√ß√£o temporal ‚â† causalidade pand√™mica")
    
    print("\nüéØ IMPLICA√á√ïES PARA POL√çTICAS P√öBLICAS:")
    print("   1. Necessidade de estrat√©gias para recuperar participa√ß√£o regular")
    print("   2. Manuten√ß√£o e expans√£o do programa PPL exitoso")
    print("   3. Investiga√ß√£o das causas da redu√ß√£o na popula√ß√£o regular")
    print("   4. Considera√ß√£o de modalidades h√≠bridas/remotas")
    
    print("\n‚úÖ AN√ÅLISE CONCLU√çDA")
    print("   Dados completos analisados com rigor metodol√≥gico")

# Gerar relat√≥rio final
generate_final_report()

## üì§ 7. Exporta√ß√£o dos Resultados

In [None]:
import json
from datetime import datetime

def export_final_results():
    """Exporta resultados para publica√ß√£o"""
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    # Preparar dados para exporta√ß√£o
    export_data = {
        'metadata': {
            'analysis_date': datetime.now().isoformat(),
            'title': 'An√°lise ENCCEJA: Impacto da Pandemia COVID-19 (2019 vs 2023)',
            'methodology': 'An√°lise quantitativa com separa√ß√£o de popula√ß√µes',
            'total_records': sum(info['records'] for info in loader.get_summary().values()),
            'datasets_analyzed': list(loader.metadata.keys())
        },
        'results': analyzer.results,
        'dataset_summary': loader.get_summary()
    }
    
    # Exportar JSON
    json_path = f"encceja_analise_publicacao_{timestamp}.json"
    try:
        with open(json_path, 'w', encoding='utf-8') as f:
            json.dump(export_data, f, indent=2, ensure_ascii=False, default=str)
        print(f"‚úÖ Dados exportados: {json_path}")
    except Exception as e:
        print(f"‚ùå Erro ao exportar JSON: {e}")
    
    return json_path

# Exportar resultados
exported_file = export_final_results()
print(f"\nüìÅ Arquivo para publica√ß√£o: {exported_file}")
print(f"\nüéØ AN√ÅLISE PRONTA PARA PUBLICA√á√ÉO")
print(f"   ‚Ä¢ Dados completos analisados")
print(f"   ‚Ä¢ Metodologia cient√≠fica aplicada")
print(f"   ‚Ä¢ Resultados exportados em formato estruturado")