In [6]:
import os
import pandas as pd
import re

folder = "."
arquivos = [f for f in os.listdir(folder) if f.endswith('.xlsx') and not f.startswith('ANOSFINAIS_curriculo_normalizado')]

linhas = []

def encontrar_coluna(df, padroes):
    """Busca coluna por m√∫ltiplos padr√µes"""
    if isinstance(padroes, str):
        padroes = [padroes]
    
    for col in df.columns:
        nome = re.sub(r"\s+", " ", str(col).upper().strip())
        for padrao in padroes:
            if re.search(padrao, nome):
                return col
    return None

def normalizar_ano(ano_str):
    """Normaliza o formato do ano para 1¬∫ Ano, 2¬∫ Ano, etc. - Aceita ¬∫ e ¬∞"""
    if not ano_str:
        return ""
    
    ano_clean = re.sub(r"\s+", " ", str(ano_str).strip().upper())
    
    # Aceita tanto ¬∫ quanto ¬∞ (grau) quanto ¬™
    numero_match = re.search(r"(\d+)[¬∫¬∞¬™]?\s*ANO", ano_clean)
    
    if not numero_match:
        # Tenta apenas o n√∫mero
        numero_match = re.search(r"(\d+)", ano_clean)
    
    if not numero_match:
        return ano_str
    
    numero = numero_match.group(1)
    mapa_anos = {
        "6": "6¬∫ Ano",
        "7": "7¬∫ Ano", 
        "8": "8¬∫ Ano",
        "9": "9¬∫ Ano"
    }
    
    return mapa_anos.get(numero, f"{numero}¬∫ Ano")

def normalizar_disciplina(disciplina_str):
    """Normaliza o nome da disciplina com acentos corretos"""
    if not disciplina_str:
        return ""
    
    disciplina_clean = re.sub(r"\s+", " ", str(disciplina_str).strip().upper())
    
    mapa_disciplinas = {
        "ARTE": "ARTE",
        "ARTES": "ARTE",
        "MATEMATICA": "MATEM√ÅTICA",
        "MATEM√ÅTICA": "MATEM√ÅTICA",
        "PORTUGUES": "PORTUGU√äS",
        "PORTUGU√äS": "PORTUGU√äS",
        "LINGUA PORTUGUESA": "L√çNGUA PORTUGUESA",
        "L√çNGUA PORTUGUESA": "L√çNGUA PORTUGUESA",
        "CIENCIAS": "CI√äNCIAS",
        "CI√äNCIAS": "CI√äNCIAS",
        "HISTORIA": "HIST√ìRIA",
        "HIST√ìRIA": "HIST√ìRIA",
        "GEOGRAFIA": "GEOGRAFIA",
        "EDUCACAO FISICA": "EDUCA√á√ÉO F√çSICA",
        "EDUCA√á√ÉO FISICA": "EDUCA√á√ÉO F√çSICA",
        "EDUCA√á√ÉO F√çSICA": "EDUCA√á√ÉO F√çSICA",
        "ENSINO RELIGIOSO": "ENSINO RELIGIOSO",
        "INGLES": "INGL√äS",
        "INGL√äS": "INGL√äS",
        "LINGUA INGLESA": "L√çNGUA INGLESA",
        "L√çNGUA INGLESA": "L√çNGUA INGLESA"
    }
    
    return mapa_disciplinas.get(disciplina_clean, disciplina_clean)

def extrair_info_titulo(titulo):
    """Extrai ano e disciplina do t√≠tulo - Aceita ¬∫, ¬∞ e ¬™"""
    if not titulo:
        return "", ""
    
    titulo = str(titulo).strip()
    
    # Busca por ano - aceita ¬∫, ¬∞, ¬™ ou sem s√≠mbolo
    ano_match = re.search(r"(\d+)[¬∫¬™¬∞]?\s*ANO", titulo.upper())
    ano = ano_match.group(0) if ano_match else ""
    
    # Lista de disciplinas conhecidas
    disciplinas_conhecidas = [
        "ARTE", "ARTES", "MATEM√ÅTICA", "MATEMATICA", "PORTUGU√äS", "PORTUGUES",
        "L√çNGUA PORTUGUESA", "LINGUA PORTUGUESA", "CI√äNCIAS", "CIENCIAS",
        "HIST√ìRIA", "HISTORIA", "GEOGRAFIA", "EDUCA√á√ÉO F√çSICA", "EDUCACAO FISICA",
        "ENSINO RELIGIOSO", "INGL√äS", "INGLES", "L√çNGUA INGLESA", "LINGUA INGLESA"
    ]
    
    # Busca disciplina no t√≠tulo
    disciplina = ""
    titulo_upper = titulo.upper()
    for disc in disciplinas_conhecidas:
        if disc in titulo_upper:
            disciplina = disc
            break
    
    # Se n√£o encontrou, tenta extrair por separadores
    if not disciplina:
        partes = re.split(r"[-‚Äì‚Äî]", titulo)
        for parte in partes:
            parte_clean = parte.strip().upper()
            if (parte_clean and 
                not re.search(r"\d+[¬∫¬™¬∞]?\s*ANO", parte_clean) and
                "BIMESTRE" not in parte_clean and
                len(parte_clean) > 2):
                disciplina = parte_clean
                break
    
    return ano, disciplina

for arquivo in arquivos:
    try:
        caminho = os.path.join(folder, arquivo)
        
        # L√™ apenas as primeiras linhas para extrair t√≠tulo
        df_header = pd.read_excel(caminho, header=None, nrows=5)
        
        # Procura o t√≠tulo nas primeiras linhas
        titulo = ""
        for i in range(min(5, len(df_header))):
            for cell in df_header.iloc[i]:
                if isinstance(cell, str) and ("ANO" in str(cell).upper() or "BIMESTRE" in str(cell).upper()):
                    titulo = str(cell)
                    break
            if titulo:
                break
        
        # Extrai informa√ß√µes do t√≠tulo
        ano, disciplina = extrair_info_titulo(titulo)
        
        # L√™ a planilha com header na linha 2 (√≠ndice 2)
        df = pd.read_excel(caminho, header=2)
        
        # Limpa nomes das colunas
        df.columns = [str(col).strip() if col is not None else f"Coluna_{i}" for i, col in enumerate(df.columns)]
        
        # Preenche c√©lulas mescladas
        df = df.ffill()
        
        # Remove linhas completamente vazias
        df = df.dropna(how='all')
        
        # Busca colunas
        col_habilidades = encontrar_coluna(df, [
            r"HABILIDADES?",
            r"COMPETENCIAS?",
            r"OBJETIVOS?"
        ])
        
        col_orientacoes = encontrar_coluna(df, [
            r"ORIENTA(√á|C)(√ï|O)ES.*PEDAG(√ì|O)GICAS?",
            r"ORIENTA(√á|C)(√ï|O)ES.*DID(√Å|A)TICAS?",
            r"SUGEST(√ï|O)ES.*PEDAG(√ì|O)GICAS?",
            r"METODOLOGIA",
            r"SUGEST(√ï|O)ES"
        ])
        
        # Debug
        print(f"\n=== Processando: {arquivo} ===")
        print(f"T√≠tulo encontrado: '{titulo}'")
        print(f"Ano extra√≠do: '{ano}' -> Normalizado: '{normalizar_ano(ano)}'")
        print(f"Disciplina extra√≠da: '{disciplina}' -> Normalizada: '{normalizar_disciplina(disciplina)}'")
        print(f"Habilidades: {col_habilidades}")
        print(f"Orienta√ß√µes: {col_orientacoes}")
        
        # Processa cada linha
        linhas_adicionadas = 0
        for idx, row in df.iterrows():
            habilidades = ""
            if col_habilidades and col_habilidades in df.columns:
                hab_value = row[col_habilidades]
                if pd.notna(hab_value) and str(hab_value).strip().lower() != 'nan':
                    habilidades = str(hab_value).replace('\n', ' ').replace('\r', ' ').strip()
            
            orientacoes = ""
            if col_orientacoes and col_orientacoes in df.columns:
                orient_value = row[col_orientacoes]
                if pd.notna(orient_value) and str(orient_value).strip().lower() != 'nan':
                    orientacoes = str(orient_value).replace('\n', ' ').replace('\r', ' ').strip()
            
            # S√≥ adiciona se tiver conte√∫do relevante
            if habilidades or orientacoes:
                linhas.append({
                    "SEGMENTO": "ANOS FINAIS",
                    "ANO": normalizar_ano(ano),
                    "DISCIPLINA": normalizar_disciplina(disciplina),
                    "HABILIDADES": habilidades,
                    "ORIENTACOES_PEDAGOGICAS": orientacoes
                })
                linhas_adicionadas += 1
        
        print(f"Linhas processadas: {linhas_adicionadas}")
        
    except Exception as e:
        print(f"ERRO ao processar {arquivo}: {str(e)}")
        continue

# Cria DataFrame final e salva
if linhas:
    df_final = pd.DataFrame(linhas)
    
    # Remove linhas completamente vazias
    df_final = df_final[
        (df_final['HABILIDADES'].str.strip() != '') | 
        (df_final['ORIENTACOES_PEDAGOGICAS'].str.strip() != '')
    ]
    
    # Salva arquivo
    nome_arquivo = "ANOSFINAIS_curriculo_normalizado.xlsx"
    df_final.to_excel(nome_arquivo, index=False)
    
    print(f"\nüéâ SUCESSO!")
    print(f"üìÑ Arquivo criado: {nome_arquivo}")
    print(f"üìä Total de registros: {len(df_final)}")
    
else:
    print("‚ùå ERRO: Nenhum dado foi processado!")



=== Processando: 6 ano - 1¬∞ BIMESTRE - HIST√ìRIA.xlsx ===
T√≠tulo encontrado: '6¬∞ANO - 1¬∞BIMESTRE - HIST√ìRIA'
Ano extra√≠do: '6¬∞ANO' -> Normalizado: '6¬∫ Ano'
Disciplina extra√≠da: 'HIST√ìRIA' -> Normalizada: 'HIST√ìRIA'
Habilidades: HABILIDADES
Orienta√ß√µes: ORIENTA√á√ïES PEDAG√ìGICAS
Linhas processadas: 5

=== Processando: 6 ano - 1¬∫ BIMESTRE - EDUCA√á√ÉO F√çSICA.xlsx ===
T√≠tulo encontrado: '6¬∫ ANO - 1¬∫ BIMESTRE -  EDUCA√á√ÉO F√çSICA'
Ano extra√≠do: '6¬∫ ANO' -> Normalizado: '6¬∫ Ano'
Disciplina extra√≠da: 'EDUCA√á√ÉO F√çSICA' -> Normalizada: 'EDUCA√á√ÉO F√çSICA'
Habilidades: HABILIDADES
Orienta√ß√µes: ORIENTA√á√ïES PEDAG√ìGICAS
Linhas processadas: 5

=== Processando: 6 ano - 1¬∫ BIMESTRE - ENSINO RELIGIOSO.xlsx ===
T√≠tulo encontrado: '6¬∞ ANO - 1¬∞ BIMESTRE - ENSINO RELIGIOSO'
Ano extra√≠do: '6¬∞ ANO' -> Normalizado: '6¬∫ Ano'
Disciplina extra√≠da: 'ENSINO RELIGIOSO' -> Normalizada: 'ENSINO RELIGIOSO'
Habilidades: HABILIDADES
Orienta√ß√µes: ORIENTA√á√ïES PEDAG√ìGICAS
Lin