## Tratamento dos dados

1. Carregar Bibliotecas Necess√°rias

In [1]:
import pandas as pd
import numpy as np
import os
import logging 

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

1.1 - Verificar se o logging est√° configurado

In [2]:
import logging

# Configurar logging para ver as mensagens
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)

2. Fun√ß√£o para Carregar e Tratar os Dados

In [3]:
import logging
import pandas as pd
import os

# IMPORTANTE: Configurar logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.StreamHandler()  # Para mostrar no console
    ]
)

# %%
def carregar_dados_sem_mov(caged_dir='dados_caged_extraidos'):
    """
    Carrega apenas FOR e EXC (ignora MOV para economizar mem√≥ria)
    """
    print(f"\nüöÄ CARREGANDO DADOS (SEM MOV)")
    print(f"üìÅ Diret√≥rio: {caged_dir}")
    
    files = [f for f in os.listdir(caged_dir) if f.endswith('.txt')]
    print(f"üìÑ Total de arquivos: {len(files)}")
    
    df_for_list = []
    df_exc_list = []
    
    for i, file in enumerate(files, 1):
        if file.endswith('.txt'):
            print(f"üîÑ [{i}/{len(files)}] {file}")
            
            try:
                if 'CAGEDFOR' in file:
                    df_temp = pd.read_csv(
                        os.path.join(caged_dir, file), 
                        sep=';', 
                        encoding='latin1', 
                        on_bad_lines='skip', 
                        dtype=str
                    )
                    df_for_list.append(df_temp)
                    print(f"   ‚úÖ FOR: {df_temp.shape[0]:,} linhas")
                    
                elif 'CAGEDEXC' in file:
                    df_temp = pd.read_csv(
                        os.path.join(caged_dir, file), 
                        sep=';', 
                        encoding='latin1', 
                        on_bad_lines='skip', 
                        dtype=str
                    )
                    df_exc_list.append(df_temp)
                    print(f"   ‚úÖ EXC: {df_temp.shape[0]:,} linhas")
                    
                elif 'CAGEDMOV' in file:
                    print(f"   ‚è≠Ô∏è MOV: Ignorado (economia de mem√≥ria)")
                    
            except Exception as e:
                print(f"   ‚ùå Erro: {e}")
    
    # Consolidar
    print(f"\nüìä CONSOLIDANDO...")
    
    if df_for_list:
        df_for = pd.concat(df_for_list, ignore_index=True)
        print(f"   ‚úÖ DataFrame FOR final: {df_for.shape}")
    else:
        df_for = pd.DataFrame()
        print(f"   ‚ö†Ô∏è DataFrame FOR vazio")
    
    if df_exc_list:
        df_exc = pd.concat(df_exc_list, ignore_index=True)
        print(f"   ‚úÖ DataFrame EXC final: {df_exc.shape}")
    else:
        df_exc = pd.DataFrame()
        print(f"   ‚ö†Ô∏è DataFrame EXC vazio")
    
    # MOV vazio (n√£o usado)
    df_mov = pd.DataFrame()
    print(f"   ‚ö™ DataFrame MOV: Ignorado")
    
    print(f"\nüéâ CARREGAMENTO CONCLU√çDO!")
    print(f"   üìä FOR: {df_for.shape[0]:,} registros")
    print(f"   üìä EXC: {df_exc.shape[0]:,} registros")
    print(f"   üíæ Mem√≥ria economizada: ~16+ GB")
    
    return df_for, df_exc, df_mov

# üöÄ CARREGAR DADOS
print("üöÄ INICIANDO CARREGAMENTO SEM MOV")
print("=" * 50)

df_for, df_exc, df_mov = carregar_dados_sem_mov()

# Verificar se carregou corretamente
if not df_for.empty and not df_exc.empty:
    print(f"\n‚úÖ DADOS CARREGADOS COM SUCESSO!")
    print(f"   üìà Admiss√µes (FOR): {df_for.shape[0]:,} registros")
    print(f"   üìâ Demiss√µes (EXC): {df_exc.shape[0]:,} registros")
    
    # Mostrar colunas principais
    print(f"\nüìã Colunas principais FOR:")
    colunas_importantes = [col for col in df_for.columns if any(palavra in col.lower() for palavra in ['compet', 'se√ß√£o', 'uf', 'munic', 'regi', 'sal'])]
    for col in colunas_importantes[:10]:
        print(f"   - {col}")
    
    print(f"\nüéØ Pronto para an√°lise de TI!")
    
else:
    print(f"\n‚ùå Erro no carregamento!")

üöÄ INICIANDO CARREGAMENTO SEM MOV

üöÄ CARREGANDO DADOS (SEM MOV)
üìÅ Diret√≥rio: dados_caged_extraidos
üìÑ Total de arquivos: 63
üîÑ [1/63] 202401_CAGEDEXC202401.txt
   ‚úÖ EXC: 6,840 linhas
üîÑ [2/63] 202401_CAGEDFOR202401.txt
   ‚úÖ FOR: 49,453 linhas
üîÑ [3/63] 202401_CAGEDMOV202401.txt
   ‚è≠Ô∏è MOV: Ignorado (economia de mem√≥ria)
üîÑ [4/63] 202402_CAGEDEXC202402.txt
   ‚úÖ EXC: 7,295 linhas
üîÑ [5/63] 202402_CAGEDFOR202402.txt
   ‚úÖ FOR: 89,430 linhas
üîÑ [6/63] 202402_CAGEDMOV202402.txt
   ‚è≠Ô∏è MOV: Ignorado (economia de mem√≥ria)
üîÑ [7/63] 202403_CAGEDEXC202403.txt
   ‚úÖ EXC: 9,208 linhas
üîÑ [8/63] 202403_CAGEDFOR202403.txt
   ‚úÖ FOR: 59,210 linhas
üîÑ [9/63] 202403_CAGEDMOV202403.txt
   ‚è≠Ô∏è MOV: Ignorado (economia de mem√≥ria)
üîÑ [10/63] 202404_CAGEDEXC202404.txt
   ‚úÖ EXC: 9,410 linhas
üîÑ [11/63] 202404_CAGEDFOR202404.txt
   ‚úÖ FOR: 59,833 linhas
üîÑ [12/63] 202404_CAGEDMOV202404.txt
   ‚è≠Ô∏è MOV: Ignorado (economia de mem√≥ria)
üîÑ [13/63] 2

3. Fun√ß√£o para Filtrar por CNAE de TI e C&T

In [4]:
def corrigir_encoding_colunas(df):
    """
    Corrige o encoding das colunas do DataFrame
    """
    mapeamento = {
        'compet√É¬™nciamov': 'competencia_mov',
        'regi√É¬£o': 'regiao',
        'munic√É¬≠pio': 'municipio',
        'se√É¬ß√É¬£o': 'secao',
        'saldomovimenta√É¬ß√É¬£o': 'saldo_movimentacao',
        'cbo2002ocupa√É¬ß√É¬£o': 'cbo2002_ocupacao',
        'graudeinstru√É¬ß√É¬£o': 'grau_instrucao',
        'ra√É¬ßacor': 'raca_cor',
        'tipomovimenta√É¬ß√É¬£o': 'tipo_movimentacao',
        'tipodedefici√É¬™ncia': 'tipo_deficiencia',
        'sal√É¬°rio': 'salario',
        'origemdainforma√É¬ß√É¬£o': 'origem_informacao',
        'compet√É¬™nciadec': 'competencia_dec',
        'indicadordeexclus√É¬£o': 'indicador_exclusao',
        'unidadesal√É¬°rioc√É¬≥digo': 'unidade_salario_codigo',
        'valorsal√É¬°riofixo': 'valor_salario_fixo',
        'compet√É¬™nciaexc': 'competencia_exc'
    }
    
    return df.rename(columns=mapeamento)

In [5]:
def filtrar_cnae_ti(df, cnaes_ti=['62', '63'], verbose=True):
    """
    Filtra os DataFrames com base nos CNAEs de TI
    
    Args:
        df (DataFrame): DataFrame a ser filtrado
        cnaes_ti (list): Lista de CNAEs de TI (c√≥digos iniciais)
        verbose (bool): Se True, mostra informa√ß√µes do processo
    
    Returns:
        DataFrame: DataFrame filtrado
    """
    if verbose:
        print(f"üîç Filtrando CNAE de TI: {cnaes_ti}")
        print(f"üìä Registros de entrada: {df.shape[0]:,}")
    
    if df.empty:
        if verbose:
            print(f"‚ùå DataFrame vazio!")
        return pd.DataFrame()
    
    # Procurar colunas de CNAE (com encoding correto e incorreto)
    colunas_secao = [col for col in df.columns if 'se√ß√£o' in col.lower() or 'se√ß' in col.lower()]
    colunas_subclasse = [col for col in df.columns if 'subclasse' in col.lower()]
    
    df_filtrado = pd.DataFrame()
    
    # Priorizar coluna de se√ß√£o (mais espec√≠fica)
    if colunas_secao:
        col_secao = colunas_secao[0]
        if verbose:
            print(f"‚úÖ Usando coluna '{col_secao}' para filtrar por se√ß√£o")
        
        df_filtrado = df[df[col_secao].isin(cnaes_ti)]
        
    # Se n√£o encontrou por se√ß√£o, usar subclasse
    elif colunas_subclasse:
        col_subclasse = colunas_subclasse[0]
        if verbose:
            print(f"‚úÖ Usando coluna '{col_subclasse}' para filtrar por subclasse")
        
        # Filtrar por c√≥digos que come√ßam com os CNAEs especificados
        mask = df[col_subclasse].astype(str).str.startswith(tuple(cnaes_ti), na=False)
        df_filtrado = df[mask]
        
    else:
        if verbose:
            print(f"‚ùå Nenhuma coluna de CNAE encontrada!")
        logging.warning("Nenhuma coluna de CNAE encontrada.")
        return pd.DataFrame()
    
    if verbose:
        print(f"üéØ Registros filtrados: {df_filtrado.shape[0]:,}")
        print(f"üìà Percentual: {(df_filtrado.shape[0] / df.shape[0] * 100):.2f}%")
    
    logging.info(f"Filtrado por CNAE de TI: {df_filtrado.shape[0]} registros")
    return df_filtrado

4. Fun√ß√£o para Consolidar Dados por Localiza√ß√£o

In [6]:
# %%
def consolidar_por_localizacao_final(df_for, df_exc, periodo_inicio='202401', periodo_fim='202509', verbose=True):
    """
    Vers√£o final SEM MOV - apenas FOR e EXC
    """
    if verbose:
        print(f"\nüîç CONSOLIDANDO DADOS POR LOCALIZA√á√ÉO - PER√çODO {periodo_inicio} a {periodo_fim}")
        print(f"üìä Entrada: FOR={df_for.shape[0]:,}, EXC={df_exc.shape[0]:,}")
    
    # Mapear colunas
    col_municipio = next((col for col in df_for.columns if 'munic' in col.lower()), None)
    col_uf = 'uf' if 'uf' in df_for.columns else None
    col_regiao = next((col for col in df_for.columns if 'regi' in col.lower()), None)
    col_competencia = next((col for col in df_for.columns if 'compet' in col.lower() and 'mov' in col.lower()), None)
    col_salario = next((col for col in df_for.columns if 'sal' in col.lower() and 'movimenta' not in col.lower()), None)
    
    col_municipio_exc = next((col for col in df_exc.columns if 'munic' in col.lower()), None)
    col_uf_exc = 'uf' if 'uf' in df_exc.columns else None
    col_regiao_exc = next((col for col in df_exc.columns if 'regi' in col.lower()), None)
    col_competencia_exc = next((col for col in df_exc.columns if 'compet' in col.lower() and 'mov' in col.lower()), None)
    
    # üéØ FILTRAR POR PER√çODO
    if verbose:
        print(f"\nüìÖ Filtrando dados para per√≠odo {periodo_inicio} a {periodo_fim}...")
    
    filtro_for = (df_for[col_competencia] >= periodo_inicio) & (df_for[col_competencia] <= periodo_fim)
    filtro_exc = (df_exc[col_competencia_exc] >= periodo_inicio) & (df_exc[col_competencia_exc] <= periodo_fim)
    
    df_for_periodo = df_for[filtro_for].copy()
    df_exc_periodo = df_exc[filtro_exc].copy()
    
    if verbose:
        print(f"   üìà FOR: {df_for.shape[0]:,} ‚Üí {df_for_periodo.shape[0]:,} registros")
        print(f"   üìâ EXC: {df_exc.shape[0]:,} ‚Üí {df_exc_periodo.shape[0]:,} registros")
    
    # Gerar lista de compet√™ncias esperadas (21 meses)
    competencias_esperadas = []
    ano = int(periodo_inicio[:4])
    mes = int(periodo_inicio[4:])
    ano_fim = int(periodo_fim[:4])
    mes_fim = int(periodo_fim[4:])
    
    while (ano < ano_fim) or (ano == ano_fim and mes <= mes_fim):
        competencias_esperadas.append(f"{ano:04d}{mes:02d}")
        mes += 1
        if mes > 12:
            mes = 1
            ano += 1
    
    if verbose:
        print(f"   üéØ Compet√™ncias esperadas ({len(competencias_esperadas)}): {competencias_esperadas[0]} a {competencias_esperadas[-1]}")
    
    # Definir localiza√ß√µes
    localizacoes = {
        'Natal': {
            'filtro_for': df_for_periodo[col_municipio].isin(['240810', '261160']),
            'filtro_exc': df_exc_periodo[col_municipio_exc].isin(['240810', '261160']) if col_municipio_exc else pd.Series([False] * len(df_exc_periodo))
        },
        'RN': {
            'filtro_for': df_for_periodo[col_uf] == '24',
            'filtro_exc': df_exc_periodo[col_uf_exc] == '24' if col_uf_exc else pd.Series([False] * len(df_exc_periodo))
        },
        'Nordeste': {
            'filtro_for': df_for_periodo[col_regiao] == '2',
            'filtro_exc': df_exc_periodo[col_regiao_exc] == '2' if col_regiao_exc else pd.Series([False] * len(df_exc_periodo))
        },
        'Brasil': {
            'filtro_for': pd.Series([True] * len(df_for_periodo), index=df_for_periodo.index),
            'filtro_exc': pd.Series([True] * len(df_exc_periodo), index=df_exc_periodo.index)
        }
    }
    
    resultados = {}
    
    for local, filtros in localizacoes.items():
        if verbose:
            print(f"\nüîÑ Processando {local}...")
        
        try:
            # Aplicar filtros de localiza√ß√£o
            df_for_local = df_for_periodo[filtros['filtro_for']].copy()
            df_exc_local = df_exc_periodo[filtros['filtro_exc']].copy()
            
            if verbose:
                print(f"   üìà FOR: {df_for_local.shape[0]:,} registros")
                print(f"   üìâ EXC: {df_exc_local.shape[0]:,} registros")
            
            # Agrupar por compet√™ncia
            admissoes_por_mes = df_for_local.groupby(col_competencia).size() if not df_for_local.empty else pd.Series(dtype=int)
            demissoes_por_mes = df_exc_local.groupby(col_competencia_exc).size() if not df_exc_local.empty else pd.Series(dtype=int)
            
            # Calcular sal√°rio m√©dio
            salario_medio = pd.Series(dtype=float)
            if col_salario and not df_for_local.empty and col_salario in df_for_local.columns:
                try:
                    df_for_local['salario_limpo'] = (
                        df_for_local[col_salario]
                        .astype(str)
                        .str.replace(',', '.')
                        .str.replace(r'[^\d.]', '', regex=True)
                    )
                    df_for_local['salario_numerico'] = pd.to_numeric(df_for_local['salario_limpo'], errors='coerce')
                    df_salarios_validos = df_for_local[df_for_local['salario_numerico'] > 0]
                    
                    if not df_salarios_validos.empty:
                        salario_medio = df_salarios_validos.groupby(col_competencia)['salario_numerico'].mean()
                except Exception as e:
                    if verbose:
                        print(f"   ‚ö†Ô∏è Erro ao calcular sal√°rio: {e}")
            
            # Criar DataFrame consolidado
            df_consolidado = pd.DataFrame(index=competencias_esperadas)
            df_consolidado['Admissoes'] = admissoes_por_mes.reindex(competencias_esperadas, fill_value=0)
            df_consolidado['Demissoes'] = demissoes_por_mes.reindex(competencias_esperadas, fill_value=0)
            df_consolidado['Saldo'] = df_consolidado['Admissoes'] - df_consolidado['Demissoes']
            df_consolidado['Estoque'] = df_consolidado['Saldo'].cumsum()
            
            if not salario_medio.empty:
                df_consolidado['Salario_Medio'] = salario_medio.reindex(competencias_esperadas)
            
            if verbose:
                total_admissoes = df_consolidado['Admissoes'].sum()
                total_demissoes = df_consolidado['Demissoes'].sum()
                saldo_total = total_admissoes - total_demissoes
                estoque_final = df_consolidado['Estoque'].iloc[-1] if len(df_consolidado) > 0 else 0
                
                print(f"   ‚úÖ Processado: {len(df_consolidado)} meses")
                print(f"   üìä Admiss√µes: {total_admissoes:,}")
                print(f"   üìä Demiss√µes: {total_demissoes:,}")
                print(f"   üìä Saldo: {saldo_total:,}")
                print(f"   ÔøΩÔøΩ Estoque final: {estoque_final:,}")
            
            resultados[local] = df_consolidado
            
        except Exception as e:
            if verbose:
                print(f"   ‚ùå Erro: {e}")
            resultados[local] = pd.DataFrame()
    
    return resultados


5. Executar a An√°lise

In [9]:
# %%
def analisar_resultados_localizacao(resultados):
    """
    Analisa e apresenta os resultados da consolida√ß√£o por localiza√ß√£o
    """
    print(f"\nüìä AN√ÅLISE DOS RESULTADOS POR LOCALIZA√á√ÉO")
    print("=" * 60)
    
    for local, df in resultados.items():
        if df.empty:
            print(f"\n‚ùå {local}: Sem dados")
            continue
            
        print(f"\nüéØ {local.upper()}:")
        print(f"   üìÖ Per√≠odo: {df.index.min()} a {df.index.max()}")
        print(f"   ÔøΩÔøΩ Total de meses: {len(df)}")
        
        # Totais
        total_admissoes = df['Admissoes'].sum()
        total_demissoes = df['Demissoes'].sum()
        saldo_total = total_admissoes - total_demissoes
        estoque_final = df['Estoque'].iloc[-1] if len(df) > 0 else 0
        
        print(f"   ÔøΩÔøΩ Total admiss√µes: {total_admissoes:,}")
        print(f"   ÔøΩÔøΩ Total demiss√µes: {total_demissoes:,}")
        print(f"   üîÑ Saldo l√≠quido: {saldo_total:,}")
        print(f"   üì¶ Estoque final: {estoque_final:,}")
        
        # M√©dias mensais
        media_admissoes = df['Admissoes'].mean()
        media_demissoes = df['Demissoes'].mean()
        
        print(f"   üìä M√©dia mensal admiss√µes: {media_admissoes:.1f}")
        print(f"   üìä M√©dia mensal demiss√µes: {media_demissoes:.1f}")
        
        # Sal√°rio m√©dio (se dispon√≠vel) - CORRIGIDO
        if 'Salario_Medio' in df.columns and not df['Salario_Medio'].isna().all():
            salario_medio_geral = df['Salario_Medio'].mean()
            print(f"   üí∞ Sal√°rio m√©dio: R\$ {salario_medio_geral:,.2f}")  # SEM escape
        
        # An√°lise de tend√™ncias
        print(f"   üìà An√°lise de tend√™ncias:")
        
        # √öltimos 6 meses vs primeiros 6 meses
        primeiros_6 = df.head(6)
        ultimos_6 = df.tail(6)
        
        media_adm_inicio = primeiros_6['Admissoes'].mean()
        media_adm_fim = ultimos_6['Admissoes'].mean()
        
        if media_adm_inicio > 0:
            variacao_adm = ((media_adm_fim - media_adm_inicio) / media_adm_inicio) * 100
            print(f"      Admiss√µes: {variacao_adm:+.1f}% (√∫ltimos 6m vs primeiros 6m)")
        
        media_dem_inicio = primeiros_6['Demissoes'].mean()
        media_dem_fim = ultimos_6['Demissoes'].mean()
        
        if media_dem_inicio > 0:
            variacao_dem = ((media_dem_fim - media_dem_inicio) / media_dem_inicio) * 100
            print(f"      Demiss√µes: {variacao_dem:+.1f}% (√∫ltimos 6m vs primeiros 6m)")
        
        # Meses com maior atividade
        if df['Admissoes'].sum() > 0:
            mes_mais_admissoes = df['Admissoes'].idxmax()
            print(f"   üèÜ Recordes:")
            print(f"      Maior admiss√£o: {mes_mais_admissoes} ({df.loc[mes_mais_admissoes, 'Admissoes']:,} admiss√µes)")
        
        if df['Demissoes'].sum() > 0:
            mes_mais_demissoes = df['Demissoes'].idxmax()
            if df['Admissoes'].sum() == 0:
                print(f"   üèÜ Recordes:")
            print(f"      Maior demiss√£o: {mes_mais_demissoes} ({df.loc[mes_mais_demissoes, 'Demissoes']:,} demiss√µes)")
        
        # √öltimos 3 meses detalhados
        print(f"   üìÖ √öltimos 3 meses:")
        ultimos_3 = df.tail(3)
        for idx, row in ultimos_3.iterrows():
            print(f"      {idx}: +{row['Admissoes']:,} -{row['Demissoes']:,} = {row['Saldo']:,} (estoque: {row['Estoque']:,})")

def criar_resumo_executivo(resultados):
    """
    Cria um resumo executivo dos resultados
    """
    print(f"\nüìà RESUMO EXECUTIVO - MERCADO DE TI (Jan/2024 - Set/2025)")
    print("=" * 70)
    
    # Criar tabela resumo
    print(f"{'Local':<12} {'Admiss√µes':<10} {'Demiss√µes':<10} {'Saldo':<8} {'Estoque':<8} {'Sal.M√©dio'}")
    print("-" * 70)
    
    resumo_dados = {}
    
    for local, df in resultados.items():
        if not df.empty:
            total_adm = df['Admissoes'].sum()
            total_dem = df['Demissoes'].sum()
            saldo = total_adm - total_dem
            estoque = df['Estoque'].iloc[-1]
            
            # Sal√°rio m√©dio - CORRIGIDO
            if 'Salario_Medio' in df.columns and not df['Salario_Medio'].isna().all():
                sal_medio = df['Salario_Medio'].mean()
                sal_str = f"R\$ {sal_medio:,.0f}"  # SEM escape
            else:
                sal_str = "N/A"
            
            print(f"{local:<12} {total_adm:<10,} {total_dem:<10,} {saldo:<8,} {estoque:<8,} {sal_str}")
            
            resumo_dados[local] = {
                'admissoes': total_adm,
                'demissoes': total_dem,
                'saldo': saldo,
                'estoque': estoque
            }
    
    # Insights principais
    if resumo_dados:
        print(f"\nüéØ INSIGHTS PRINCIPAIS:")
        
        # Maior saldo positivo
        melhor_saldo = max(resumo_dados.items(), key=lambda x: x[1]['saldo'])
        print(f"   üèÜ Melhor desempenho: {melhor_saldo[0]} (+{melhor_saldo[1]['saldo']:,} saldo)")
        
        # Maior estoque
        maior_estoque = max(resumo_dados.items(), key=lambda x: x[1]['estoque'])
        print(f"   üì¶ Maior estoque: {maior_estoque[0]} ({maior_estoque[1]['estoque']:,} postos)")
        
        # Mais admiss√µes - CORRIGIDO
        mais_admissoes = max(resumo_dados.items(), key=lambda x: x[1]['admissoes'])
        print(f"   üìà Mais admiss√µes: {mais_admissoes[0]} ({mais_admissoes[1]['admissoes']:,} admiss√µes)")  # CHAVE CORRIGIDA
        
        # Taxa de crescimento l√≠quido
        for local, dados in resumo_dados.items():
            if dados['admissoes'] > 0:
                taxa_crescimento = (dados['saldo'] / dados['admissoes']) * 100
                print(f"   üìä Taxa l√≠quida {local}: {taxa_crescimento:.1f}%")

print("‚úÖ FUN√á√ïES DEFINITIVAMENTE CORRIGIDAS!")

‚úÖ FUN√á√ïES DEFINITIVAMENTE CORRIGIDAS!


  print(f"   üí∞ Sal√°rio m√©dio: R\$ {salario_medio_geral:,.2f}")  # SEM escape
  sal_str = f"R\$ {sal_medio:,.0f}"  # SEM escape


6. Execu√ß√£o das fun√ß√µes

In [10]:
# %%
# AN√ÅLISE COMPLETA - VERS√ÉO CORRIGIDA
print("üöÄ EXECUTANDO AN√ÅLISE COMPLETA DE TI (VERS√ÉO CORRIGIDA)")
print("=" * 60)

# Verificar se os dados foram carregados
if 'df_for' in locals() and 'df_exc' in locals():
    print("‚úÖ Dados principais encontrados!")
    
    # 1. Filtrar dados de TI (se ainda n√£o foi feito)
    if 'df_for_ti' not in locals():
        print("\nüîç 1. FILTRANDO DADOS DE TI...")
        df_for_ti = filtrar_cnae_ti(df_for, ['62', '63'], verbose=False)
        df_exc_ti = filtrar_cnae_ti(df_exc, ['62', '63'], verbose=False)
        print(f"‚úÖ Dados TI: FOR={df_for_ti.shape[0]:,}, EXC={df_exc_ti.shape[0]:,}")
    else:
        print("‚úÖ Dados TI j√° filtrados!")
    
    # 2. Consolidar por localiza√ß√£o (se ainda n√£o foi feito)
    if 'resultados_final' not in locals():
        print(f"\nüìä 2. CONSOLIDANDO POR LOCALIZA√á√ÉO...")
        resultados_final = consolidar_por_localizacao_final(df_for_ti, df_exc_ti, '202401', '202509', verbose=False)
    else:
        print("‚úÖ Dados j√° consolidados!")
    
    # 3. Analisar resultados
    print(f"\nüìà 3. ANALISANDO RESULTADOS...")
    analisar_resultados_localizacao(resultados_final)
    
    # 4. Resumo executivo
    print(f"\nüìã 4. RESUMO EXECUTIVO...")
    criar_resumo_executivo(resultados_final)
    
    print(f"\nüéâ AN√ÅLISE COMPLETA FINALIZADA SEM ERROS!")
    
else:
    print("‚ùå Dados n√£o carregados!")
    print("   Execute primeiro: df_for, df_exc, df_mov = carregar_dados_sem_mov()")

üöÄ EXECUTANDO AN√ÅLISE COMPLETA DE TI (VERS√ÉO CORRIGIDA)
‚úÖ Dados principais encontrados!
‚úÖ Dados TI j√° filtrados!
‚úÖ Dados j√° consolidados!

üìà 3. ANALISANDO RESULTADOS...

üìä AN√ÅLISE DOS RESULTADOS POR LOCALIZA√á√ÉO

üéØ NATAL:
   üìÖ Per√≠odo: 202401 a 202509
   ÔøΩÔøΩ Total de meses: 21
   ÔøΩÔøΩ Total admiss√µes: 140
   ÔøΩÔøΩ Total demiss√µes: 16
   üîÑ Saldo l√≠quido: 124
   üì¶ Estoque final: 124
   üìä M√©dia mensal admiss√µes: 6.7
   üìä M√©dia mensal demiss√µes: 0.8
   üí∞ Sal√°rio m√©dio: R\$ 3,083.13
   üìà An√°lise de tend√™ncias:
      Admiss√µes: -15.6% (√∫ltimos 6m vs primeiros 6m)
      Demiss√µes: -62.5% (√∫ltimos 6m vs primeiros 6m)
   üèÜ Recordes:
      Maior admiss√£o: 202401 (27 admiss√µes)
      Maior demiss√£o: 202404 (3 demiss√µes)
   üìÖ √öltimos 3 meses:
      202507: +3.0 -1.0 = 2.0 (estoque: 118.0)
      202508: +6.0 -0.0 = 6.0 (estoque: 124.0)
      202509: +0.0 -0.0 = 0.0 (estoque: 124.0)

üéØ RN:
   üìÖ Per√≠odo: 202401 a 2025

7. Criar tabela tratada

In [11]:
# %%
import pandas as pd
import os

def criar_tabela_resultados_mensal_csv(resultados, nome_arquivo='analise_ti_mensal_por_localizacao.csv'):
    """
    Cria uma tabela CSV detalhada com dados mensais por localiza√ß√£o
    """
    print(f"\nüìä CRIANDO TABELA CSV COM DADOS MENSAIS")
    print("=" * 50)
    
    # Lista para armazenar os dados
    dados_tabela = []
    
    # Processar cada localiza√ß√£o
    for local, df in resultados.items():
        if df.empty:
            print(f"‚ö†Ô∏è {local}: Sem dados")
            continue
            
        print(f"‚úÖ {local}: Processando {len(df)} meses...")
        
        # Processar cada m√™s
        for competencia, row in df.iterrows():
            # Extrair ano e m√™s da compet√™ncia
            ano = int(competencia[:4])
            mes = int(competencia[4:])
            
            # Calcular sal√°rio m√©dio para o m√™s
            salario_medio_mes = None
            if 'Salario_Medio' in df.columns and not pd.isna(row.get('Salario_Medio')):
                salario_medio_mes = row['Salario_Medio']
            
            # Criar linha da tabela
            linha = {
                'Perspectiva': local,
                'Ano': ano,
                'Mes': mes,
                'Competencia': competencia,
                'Admissoes': row['Admissoes'],
                'Demissoes': row['Demissoes'],
                'Saldo': row['Saldo'],
                'Estoque': row['Estoque'],
                'Salario_Medio': round(salario_medio_mes, 2) if salario_medio_mes else None
            }
            
            dados_tabela.append(linha)
    
    # Criar DataFrame
    df_resultado = pd.DataFrame(dados_tabela)
    
    # Reordenar as perspectivas na ordem desejada
    ordem_perspectivas = ['Natal', 'RN', 'Nordeste', 'Brasil']
    df_resultado['Perspectiva'] = pd.Categorical(df_resultado['Perspectiva'], categories=ordem_perspectivas, ordered=True)
    
    # Ordenar por perspectiva, ano e m√™s
    df_resultado = df_resultado.sort_values(['Perspectiva', 'Ano', 'Mes']).reset_index(drop=True)
    
    # Salvar como CSV
    df_resultado.to_csv(nome_arquivo, index=False, encoding='utf-8-sig')
    
    print(f"\n‚úÖ TABELA MENSAL CRIADA COM SUCESSO!")
    print(f"üìÅ Arquivo: {nome_arquivo}")
    print(f"üìä Dimens√µes: {df_resultado.shape[0]} linhas x {df_resultado.shape[1]} colunas")
    print(f"üìÇ Localiza√ß√£o: {os.path.abspath(nome_arquivo)}")
    
    # Mostrar preview da tabela
    print(f"\nüëÄ PREVIEW DA TABELA (primeiras 10 linhas):")
    print("-" * 120)
    print(df_resultado.head(10).to_string(index=False))
    
    # Estat√≠sticas por perspectiva
    print(f"\nüìà ESTAT√çSTICAS POR PERSPECTIVA:")
    print("-" * 80)
    stats = df_resultado.groupby('Perspectiva').agg({
        'Admissoes': ['sum', 'mean'],
        'Demissoes': ['sum', 'mean'],
        'Saldo': 'sum',
        'Estoque': 'last',
        'Salario_Medio': 'mean'
    }).round(2)
    
    # Simplificar nomes das colunas
    stats.columns = ['Total_Adm', 'Media_Adm', 'Total_Dem', 'Media_Dem', 'Saldo_Total', 'Estoque_Final', 'Sal_Medio']
    print(stats.to_string())
    
    return df_resultado

def criar_tabela_resumo_csv(resultados, nome_arquivo='resumo_ti_por_localizacao.csv'):
    """
    Cria uma tabela CSV resumida (uma linha por localiza√ß√£o)
    """
    print(f"\nüìä CRIANDO TABELA CSV RESUMIDA")
    print("=" * 50)
    
    # Lista para armazenar os dados
    dados_tabela = []
    
    # Processar cada localiza√ß√£o
    for local, df in resultados.items():
        if df.empty:
            print(f"‚ö†Ô∏è {local}: Sem dados - adicionando linha vazia")
            linha = {
                'Perspectiva': local,
                'Ano_Inicio': 2024,
                'Mes_Inicio': 1,
                'Ano_Fim': 2025,
                'Mes_Fim': 9,
                'Total_Admissoes': 0,
                'Total_Demissoes': 0,
                'Saldo_Liquido': 0,
                'Estoque_Final': 0,
                'Media_Mensal_Admissoes': 0.0,
                'Media_Mensal_Demissoes': 0.0,
                'Salario_Medio_Periodo': None,
                'Variacao_Admissoes_Pct': None,
                'Variacao_Demissoes_Pct': None,
                'Mes_Maior_Admissao': None,
                'Valor_Maior_Admissao': 0,
                'Mes_Maior_Demissao': None,
                'Valor_Maior_Demissao': 0,
                'Taxa_Crescimento_Liquido_Pct': 0.0,
                'Total_Meses': 21
            }
        else:
            print(f"‚úÖ {local}: Processando dados consolidados...")
            
            # Extrair per√≠odo
            competencia_inicio = df.index.min()
            competencia_fim = df.index.max()
            ano_inicio = int(competencia_inicio[:4])
            mes_inicio = int(competencia_inicio[4:])
            ano_fim = int(competencia_fim[:4])
            mes_fim = int(competencia_fim[4:])
            
            # C√°lculos b√°sicos
            total_admissoes = df['Admissoes'].sum()
            total_demissoes = df['Demissoes'].sum()
            saldo_total = total_admissoes - total_demissoes
            estoque_final = df['Estoque'].iloc[-1] if len(df) > 0 else 0
            
            # M√©dias mensais
            media_admissoes = df['Admissoes'].mean()
            media_demissoes = df['Demissoes'].mean()
            
            # Sal√°rio m√©dio do per√≠odo
            salario_medio_periodo = None
            if 'Salario_Medio' in df.columns and not df['Salario_Medio'].isna().all():
                salario_medio_periodo = df['Salario_Medio'].mean()
            
            # An√°lise de tend√™ncias (primeiros 6 vs √∫ltimos 6 meses)
            primeiros_6 = df.head(6)
            ultimos_6 = df.tail(6)
            
            media_adm_inicio = primeiros_6['Admissoes'].mean()
            media_adm_fim = ultimos_6['Admissoes'].mean()
            variacao_adm = ((media_adm_fim - media_adm_inicio) / media_adm_inicio) * 100 if media_adm_inicio > 0 else None
            
            media_dem_inicio = primeiros_6['Demissoes'].mean()
            media_dem_fim = ultimos_6['Demissoes'].mean()
            variacao_dem = ((media_dem_fim - media_dem_inicio) / media_dem_inicio) * 100 if media_dem_inicio > 0 else None
            
            # Recordes
            mes_maior_admissao = df['Admissoes'].idxmax() if df['Admissoes'].sum() > 0 else None
            valor_maior_admissao = df['Admissoes'].max() if df['Admissoes'].sum() > 0 else 0
            
            mes_maior_demissao = df['Demissoes'].idxmax() if df['Demissoes'].sum() > 0 else None
            valor_maior_demissao = df['Demissoes'].max() if df['Demissoes'].sum() > 0 else 0
            
            # Taxa de crescimento l√≠quido
            taxa_crescimento = (saldo_total / total_admissoes) * 100 if total_admissoes > 0 else 0.0
            
            # Criar linha da tabela
            linha = {
                'Perspectiva': local,
                'Ano_Inicio': ano_inicio,
                'Mes_Inicio': mes_inicio,
                'Ano_Fim': ano_fim,
                'Mes_Fim': mes_fim,
                'Total_Admissoes': total_admissoes,
                'Total_Demissoes': total_demissoes,
                'Saldo_Liquido': saldo_total,
                'Estoque_Final': estoque_final,
                'Media_Mensal_Admissoes': round(media_admissoes, 1),
                'Media_Mensal_Demissoes': round(media_demissoes, 1),
                'Salario_Medio_Periodo': round(salario_medio_periodo, 2) if salario_medio_periodo else None,
                'Variacao_Admissoes_Pct': round(variacao_adm, 1) if variacao_adm else None,
                'Variacao_Demissoes_Pct': round(variacao_dem, 1) if variacao_dem else None,
                'Mes_Maior_Admissao': mes_maior_admissao,
                'Valor_Maior_Admissao': valor_maior_admissao,
                'Mes_Maior_Demissao': mes_maior_demissao,
                'Valor_Maior_Demissao': valor_maior_demissao,
                'Taxa_Crescimento_Liquido_Pct': round(taxa_crescimento, 1),
                'Total_Meses': len(df)
            }
        
        dados_tabela.append(linha)
    
    # Criar DataFrame
    df_resultado = pd.DataFrame(dados_tabela)
    
    # Reordenar as perspectivas na ordem desejada
    ordem_perspectivas = ['Natal', 'RN', 'Nordeste', 'Brasil']
    df_resultado['Perspectiva'] = pd.Categorical(df_resultado['Perspectiva'], categories=ordem_perspectivas, ordered=True)
    df_resultado = df_resultado.sort_values('Perspectiva').reset_index(drop=True)
    
    # Salvar como CSV
    df_resultado.to_csv(nome_arquivo, index=False, encoding='utf-8-sig')
    
    print(f"\n‚úÖ TABELA RESUMIDA CRIADA COM SUCESSO!")
    print(f"üìÅ Arquivo: {nome_arquivo}")
    print(f"üìä Dimens√µes: {df_resultado.shape[0]} linhas x {df_resultado.shape[1]} colunas")
    print(f"üìÇ Localiza√ß√£o: {os.path.abspath(nome_arquivo)}")
    
    # Mostrar preview da tabela
    print(f"\nüëÄ PREVIEW DA TABELA RESUMIDA:")
    print("-" * 120)
    colunas_principais = ['Perspectiva', 'Ano_Inicio', 'Mes_Inicio', 'Ano_Fim', 'Mes_Fim', 'Total_Admissoes', 'Total_Demissoes', 'Saldo_Liquido', 'Estoque_Final']
    print(df_resultado[colunas_principais].to_string(index=False))
    
    return df_resultado

# üöÄ EXECUTAR CRIA√á√ÉO DAS TABELAS CSV
if 'resultados_final' in locals():
    print("üöÄ CRIANDO TABELAS CSV DOS RESULTADOS")
    print("=" * 60)
    
    # 1. Tabela mensal detalhada
    df_mensal = criar_tabela_resultados_mensal_csv(resultados_final, 'analise_ti_mensal_detalhada.csv')
    
    print("\n" + "="*60)
    
    # 2. Tabela resumida
    df_resumo = criar_tabela_resumo_csv(resultados_final, 'analise_ti_resumo_consolidado.csv')
    
    print(f"\nüéâ AMBAS AS TABELAS CSV CRIADAS COM SUCESSO!")
    print(f"üìä Tabela mensal: {df_mensal.shape[0]} linhas")
    print(f"üìä Tabela resumo: {df_resumo.shape[0]} linhas")
    
else:
    print("‚ùå Vari√°vel 'resultados_final' n√£o encontrada!")
    print("   Execute primeiro a an√°lise completa")

üöÄ CRIANDO TABELAS CSV DOS RESULTADOS

üìä CRIANDO TABELA CSV COM DADOS MENSAIS
‚úÖ Natal: Processando 21 meses...
‚úÖ RN: Processando 21 meses...
‚úÖ Nordeste: Processando 21 meses...
‚úÖ Brasil: Processando 21 meses...

‚úÖ TABELA MENSAL CRIADA COM SUCESSO!
üìÅ Arquivo: analise_ti_mensal_detalhada.csv
üìä Dimens√µes: 84 linhas x 9 colunas
üìÇ Localiza√ß√£o: c:\Marcelo - Arquivos\UFRN\Observatorio\analise_ti_mensal_detalhada.csv

üëÄ PREVIEW DA TABELA (primeiras 10 linhas):
------------------------------------------------------------------------------------------------------------------------
Perspectiva  Ano  Mes Competencia  Admissoes  Demissoes  Saldo  Estoque  Salario_Medio
      Natal 2024    1      202401       27.0        2.0   25.0     25.0        2130.09
      Natal 2024    2      202402        6.0        0.0    6.0     31.0        1936.83
      Natal 2024    3      202403        5.0        0.0    5.0     36.0        2229.60
      Natal 2024    4      202404        3.0

  stats = df_resultado.groupby('Perspectiva').agg({
