In [87]:
import pandas as pd
from dbfread import DBF


In [88]:
df = pd.DataFrame(list(DBF('rhc00.dbf', encoding='latin1')))
df.head()

Unnamed: 0,TPCASO,SEXO,IDADE,LOCALNAS,RACACOR,INSTRUC,CLIATEN,CLITRAT,HISTFAMC,ALCOOLIS,...,UFUH,MUUH,OCUPACAO,DTDIAGNO,DTTRIAGE,DATAPRICON,DATAINITRT,DATAOBITO,VALOR_TOT,BASDIAGSP
0,2,2,71,RJ,1,9,10,88,2,1,...,RJ,3304557,888,10/03/2002,99/99/9999,02/06/2000,88/88/8888,,1,3
1,2,1,0,99,9,9,27,88,9,9,...,RJ,3304557,9999,02/01/2002,15/11/2000,11/12/2000,88/88/8888,,1,3
2,1,2,49,RJ,1,9,20,20,2,1,...,RJ,3304557,799,21/07/2002,99/99/9999,31/05/2000,21/06/2002,,1,3
3,1,1,66,ES,1,9,32,32,1,9,...,RJ,3304557,985,27/05/2002,99/99/9999,06/06/2000,15/04/2002,,1,3
4,1,2,60,99,1,9,11,4,1,1,...,RJ,3304557,9999,21/08/2002,99/99/9999,15/10/2000,09/07/2002,,1,3


In [89]:
import os
import re

def ler_arquivo_cnv(caminho_arquivo):
    """
    Lê um arquivo .cnv e retorna um dicionário com o mapeamento código -> descrição
    """
    mapeamento = {}
    
    try:
        with open(caminho_arquivo, 'r', encoding='latin1') as arquivo:
            linhas = arquivo.readlines()
            
        # Pular as primeiras linhas de cabeçalho e encontrar os dados
        for i, linha in enumerate(linhas):
            linha_original = linha
            linha = linha.strip()
            
            # Procurar por linhas que começam com espaços seguidos de número
            if re.match(r'^\s+\d+\s+', linha_original):
                # Usar a linha original para preservar espaçamento
                # Formato: "      1  Descrição                                          1"
                match = re.match(r'^\s+(\d+)\s+(.+?)\s+(\d+)\s*$', linha_original)
                if match:
                    seq_num = int(match.group(1))
                    descricao = match.group(2).strip()
                    codigo = int(match.group(3))
                    mapeamento[codigo] = descricao
                else:
                    # Tentar formato alternativo com split por espaços múltiplos
                    partes = re.split(r'\s{2,}', linha.strip())
                    if len(partes) >= 3:
                        try:
                            seq_num = int(partes[0])
                            descricao = partes[1]
                            codigo = int(partes[2])
                            mapeamento[codigo] = descricao
                        except ValueError:
                            continue
                    
    except Exception as e:
        print(f"Erro ao ler arquivo {caminho_arquivo}: {e}")
        
    return mapeamento

def extrair_mapeamentos_def(caminho_def):
    """
    Extrai os mapeamentos de colunas para arquivos .cnv do arquivo .def
    """
    mapeamentos = {}
    
    try:
        with open(caminho_def, 'r', encoding='latin1') as arquivo:
            linhas = arquivo.readlines()
            
        for linha in linhas:
            linha = linha.strip()
            # Procurar por linhas que definem mapeamentos (começam com T ou S)
            if linha.startswith(('T', 'S')) and '.cnv' in linha:
                partes = linha.split(',')
                if len(partes) >= 4:
                    nome_coluna = partes[1].strip()
                    arquivo_cnv = partes[3].strip()
                    # Extrair apenas o nome do arquivo .cnv
                    nome_arquivo = os.path.basename(arquivo_cnv)
                    if nome_coluna not in mapeamentos:
                        mapeamentos[nome_coluna] = nome_arquivo
                        
    except Exception as e:
        print(f"Erro ao ler arquivo .def: {e}")
        
    return mapeamentos

# Extrair mapeamentos do arquivo .def
mapeamentos_colunas = extrair_mapeamentos_def('rhcGeral.def')

print("Mapeamentos encontrados no arquivo .def:")
for coluna, arquivo in mapeamentos_colunas.items():
    print(f"  {coluna} -> {arquivo}")


Mapeamentos encontrados no arquivo .def:
  TPCASO -> r_tipocaso.cnv
  DTPRICON -> r_ano.cnv
  CNES -> r_cnes.cnv
  MUUH -> r_municip.cnv
  UFUH -> r_uf_UH.cnv
  SEXO -> r_sexo.cnv
  IDADE -> r_fxeta5.cnv
  LOCALNAS -> r_uf.cnv
  ESTADRES -> r_uf.cnv
  PROCEDEN -> r_municip.cnv
  RACACOR -> r_racacor.cnv
  INSTRUC -> r_ginstruc.cnv
  OCUPACAO -> r_ocupacao.cnv
  ESTCONJ -> r_estadoconj.cnv
  ALCOOLIS -> r_alcoolismo.cnv
  TABAGISM -> r_tabagismo.cnv
  HISTFAMC -> r_histfamc.cnv
  CLIATEN -> r_clinicas.cnv
  CLITRAT -> r_clinicas.cnv
  ANOPRIDI -> r_ano.cnv
  DTINITRT -> r_ano.cnv
  ANTRI -> r_ano.cnv
  DIAGANT -> r_diagant.cnv
  ORIENC -> r_origem.cnv
  LOCTUDET -> r_cido2t_g_cod.cnv
  LOCTUPRI -> r_cido2t_det_cod.cnv
  LOCTUPRO -> r_cido2t_g_cod.cnv
  TIPOHIST -> r_cido2m.cnv
  BASMAIMP -> r_basemaimp_sp.cnv
  EXDIAG -> r_exames.cnv
  MAISUMTU -> r_maisumtumor.cnv
  LATERALI -> r_lateralid.cnv
  ESTADIAM -> r_estadiam.cnv
  ESTADIAG -> r_estadiam_g.cnv
  PRITRATH -> r_pritrathosp.cnv
 

In [90]:
# Gerar todos os dicionários de mapeamento automaticamente
traducoes = {}

print("Gerando mapeamentos para todas as colunas...")
print("=" * 50)

for coluna, arquivo_cnv in mapeamentos_colunas.items():
    if os.path.exists(arquivo_cnv):
        mapeamento = ler_arquivo_cnv(arquivo_cnv)
        if mapeamento:
            traducoes[coluna] = mapeamento
            print(f"\n# Mapeamento para a coluna {coluna}")
            print(f"{coluna.lower()}_map = {{")
            for codigo, descricao in mapeamento.items():
                print(f"    {codigo}: '{descricao}',")
            print("}")
            print(f"df['{coluna}'] = df['{coluna}'].map({coluna.lower()}_map)")
        else:
            print(f"Aviso: Não foi possível extrair mapeamento de {arquivo_cnv}")
    else:
        print(f"Aviso: Arquivo {arquivo_cnv} não encontrado")

print(f"\nTotal de mapeamentos criados: {len(traducoes)}")
print("Dicionário 'traducoes' contém todos os mapeamentos para uso futuro.")


Gerando mapeamentos para todas as colunas...

# Mapeamento para a coluna TPCASO
tpcaso_map = {
    1: 'Analitico',
    2: 'Nao Analitico',
}
df['TPCASO'] = df['TPCASO'].map(tpcaso_map)

# Mapeamento para a coluna DTPRICON
dtpricon_map = {
    2011: '2011',
    2010: '2010',
    2009: '2009',
    2008: '2008',
    2007: '2007',
    2006: '2006',
    2005: '2005',
    2004: '2004',
    2003: '2003',
    2002: '2002',
    2001: '2001',
    2000: '2000',
    1999: '1999',
    1998: '1998',
    1997: '1997',
    1996: '1996',
    1995: '1995',
    1994: '1994',
    1993: '1993',
    1992: '1992',
    1991: '1991',
    1990: '1990',
    1989: '1989',
    1988: '1988',
    1987: '1987',
    1986: '1986',
    1985: '1985',
    1984: '1984',
    1983: '1983',
    1982: '1982',
    1981: '1981',
    1980: '1980',
    8888: 'Nao se aplica',
    9999: 'Sem informacao',
}
df['DTPRICON'] = df['DTPRICON'].map(dtpricon_map)

# Mapeamento para a coluna CNES
cnes_map = {
    2232995: 'A.C. SANTA CASA DO

In [91]:
# Aplicar todos os mapeamentos ao DataFrame de uma vez
print("Aplicando mapeamentos ao DataFrame...")
print("=" * 40)

colunas_mapeadas = []
colunas_nao_encontradas = []

for coluna in traducoes.keys():
    if coluna in df.columns:
        # Verificar se a coluna tem valores que precisam ser mapeados
        valores_unicos = df[coluna].unique()
        valores_numericos = [v for v in valores_unicos if isinstance(v, (int, float)) and not pd.isna(v)]
        
        if valores_numericos:
            df[coluna] = df[coluna].map(traducoes[coluna])
            colunas_mapeadas.append(coluna)
            print(f"✓ Coluna {coluna} mapeada com sucesso")
        else:
            print(f"⚠ Coluna {coluna} não contém valores numéricos para mapear")
    else:
        colunas_nao_encontradas.append(coluna)
        print(f"✗ Coluna {coluna} não encontrada no DataFrame")

print(f"\nResumo:")
print(f"- Colunas mapeadas com sucesso: {len(colunas_mapeadas)}")
print(f"- Colunas não encontradas no DataFrame: {len(colunas_nao_encontradas)}")

if colunas_nao_encontradas:
    print(f"\nColunas não encontradas: {', '.join(colunas_nao_encontradas)}")

print(f"\nColunas disponíveis no DataFrame: {list(df.columns)}")


Aplicando mapeamentos ao DataFrame...
⚠ Coluna TPCASO não contém valores numéricos para mapear
⚠ Coluna DTPRICON não contém valores numéricos para mapear
⚠ Coluna CNES não contém valores numéricos para mapear
⚠ Coluna MUUH não contém valores numéricos para mapear
⚠ Coluna SEXO não contém valores numéricos para mapear
⚠ Coluna PROCEDEN não contém valores numéricos para mapear
⚠ Coluna RACACOR não contém valores numéricos para mapear
⚠ Coluna INSTRUC não contém valores numéricos para mapear
⚠ Coluna OCUPACAO não contém valores numéricos para mapear
⚠ Coluna ESTCONJ não contém valores numéricos para mapear
⚠ Coluna ALCOOLIS não contém valores numéricos para mapear
⚠ Coluna TABAGISM não contém valores numéricos para mapear
⚠ Coluna HISTFAMC não contém valores numéricos para mapear
⚠ Coluna CLIATEN não contém valores numéricos para mapear
⚠ Coluna CLITRAT não contém valores numéricos para mapear
⚠ Coluna ANOPRIDI não contém valores numéricos para mapear
⚠ Coluna DTINITRT não contém valores 

In [92]:
# Função utilitária para aplicar mapeamentos específicos
def aplicar_mapeamento_coluna(dataframe, nome_coluna, arquivo_cnv=None):
    """
    Aplica mapeamento a uma coluna específica do DataFrame
    
    Args:
        dataframe: DataFrame do pandas
        nome_coluna: Nome da coluna a ser mapeada
        arquivo_cnv: Caminho para o arquivo .cnv (opcional, será inferido se não fornecido)
    
    Returns:
        DataFrame com a coluna mapeada
    """
    if arquivo_cnv is None:
        # Tentar encontrar o arquivo .cnv correspondente
        if nome_coluna in mapeamentos_colunas:
            arquivo_cnv = mapeamentos_colunas[nome_coluna]
        else:
            print(f"Erro: Não foi possível encontrar arquivo .cnv para a coluna {nome_coluna}")
            return dataframe
    
    if nome_coluna not in dataframe.columns:
        print(f"Erro: Coluna {nome_coluna} não encontrada no DataFrame")
        return dataframe
    
    mapeamento = ler_arquivo_cnv(arquivo_cnv)
    if mapeamento:
        dataframe[nome_coluna] = dataframe[nome_coluna].map(mapeamento)
        print(f"Mapeamento aplicado com sucesso à coluna {nome_coluna}")
    else:
        print(f"Erro: Não foi possível ler o arquivo {arquivo_cnv}")
    
    return dataframe

# Exemplo de uso da função utilitária:
# df = aplicar_mapeamento_coluna(df, 'ALCOOLIS')

print("Função 'aplicar_mapeamento_coluna' criada com sucesso!")
print("Use: df = aplicar_mapeamento_coluna(df, 'NOME_DA_COLUNA')")

# Mostrar algumas estatísticas finais
print(f"\nEstatísticas do DataFrame:")
print(f"- Número de linhas: {len(df)}")
print(f"- Número de colunas: {len(df.columns)}")
print(f"- Colunas com mapeamentos disponíveis: {len(traducoes)}")

# Verificar algumas colunas mapeadas
print(f"\nExemplo de valores mapeados:")
for coluna in list(traducoes.keys())[:3]:  # Mostrar apenas as primeiras 3
    if coluna in df.columns:
        valores_unicos = df[coluna].dropna().unique()[:5]  # Primeiros 5 valores únicos
        print(f"  {coluna}: {list(valores_unicos)}")


Função 'aplicar_mapeamento_coluna' criada com sucesso!
Use: df = aplicar_mapeamento_coluna(df, 'NOME_DA_COLUNA')

Estatísticas do DataFrame:
- Número de linhas: 71409
- Número de colunas: 46
- Colunas com mapeamentos disponíveis: 27

Exemplo de valores mapeados:
  TPCASO: ['2', '1']
  DTPRICON: ['2000']
  CNES: ['2269783', '2295067', '2007037', '2761092', '2004571']


In [93]:
# Testar a função corrigida com alguns arquivos específicos
print("Testando a função de leitura dos arquivos .cnv...")
print("=" * 50)

arquivos_teste = ['r_alcoolismo.cnv', 'r_sexo.cnv', 'r_tipocaso.cnv', 'r_racacor.cnv']

for arquivo in arquivos_teste:
    if os.path.exists(arquivo):
        print(f"\nTestando arquivo: {arquivo}")
        mapeamento = ler_arquivo_cnv(arquivo)
        if mapeamento:
            print(f"  Mapeamento extraído com sucesso: {len(mapeamento)} itens")
            for codigo, descricao in list(mapeamento.items())[:3]:  # Mostrar apenas os primeiros 3
                print(f"    {codigo}: '{descricao}'")
            if len(mapeamento) > 3:
                print(f"    ... e mais {len(mapeamento) - 3} itens")
        else:
            print(f"  ❌ Falha ao extrair mapeamento")
    else:
        print(f"\n❌ Arquivo {arquivo} não encontrado")


Testando a função de leitura dos arquivos .cnv...

Testando arquivo: r_alcoolismo.cnv
  Mapeamento extraído com sucesso: 6 itens
    1: 'Nunca'
    2: 'Ex-consumidor'
    3: 'Sim'
    ... e mais 3 itens

Testando arquivo: r_sexo.cnv
  Mapeamento extraído com sucesso: 2 itens
    1: 'Masculino'
    2: 'Feminino'

Testando arquivo: r_tipocaso.cnv
  Mapeamento extraído com sucesso: 2 itens
    1: 'Analitico'
    2: 'Nao Analitico'

Testando arquivo: r_racacor.cnv
  Mapeamento extraído com sucesso: 6 itens
    1: 'Branca'
    2: 'Preta'
    3: 'Amarela'
    ... e mais 3 itens


In [94]:
# GERAÇÃO FINAL DE TODOS OS MAPEAMENTOS E APLICAÇÃO AO DATAFRAME
print("🔄 Gerando todos os mapeamentos automaticamente...")
print("=" * 60)

# Dicionário para armazenar todas as traduções
traducoes_finais = {}
mapeamentos_aplicados = {}

# Processar cada coluna identificada no arquivo .def
for coluna, arquivo_cnv in mapeamentos_colunas.items():
    if os.path.exists(arquivo_cnv):
        mapeamento = ler_arquivo_cnv(arquivo_cnv)
        if mapeamento:
            traducoes_finais[coluna] = mapeamento
            
            # Criar o código do mapeamento para exibição
            nome_var = coluna.lower() + '_map'
            codigo_mapeamento = f"{nome_var} = {{\n"
            for codigo, descricao in mapeamento.items():
                codigo_mapeamento += f"    {codigo}: '{descricao}',\n"
            codigo_mapeamento += "}\n"
            codigo_mapeamento += f"df['{coluna}'] = df['{coluna}'].map({nome_var})"
            
            mapeamentos_aplicados[coluna] = {
                'arquivo': arquivo_cnv,
                'mapeamento': mapeamento,
                'codigo': codigo_mapeamento
            }
            
            print(f"✅ {coluna} -> {arquivo_cnv} ({len(mapeamento)} valores)")
        else:
            print(f"⚠️  {coluna} -> {arquivo_cnv} (falha na leitura)")
    else:
        print(f"❌ {coluna} -> {arquivo_cnv} (arquivo não encontrado)")

print(f"\n📊 RESUMO:")
print(f"   Total de colunas identificadas: {len(mapeamentos_colunas)}")
print(f"   Mapeamentos criados com sucesso: {len(traducoes_finais)}")
print(f"   Taxa de sucesso: {len(traducoes_finais)/len(mapeamentos_colunas)*100:.1f}%")

# Salvar os mapeamentos em uma variável global para uso futuro
traducoes = traducoes_finais

print(f"\n✨ Todos os mapeamentos foram salvos na variável 'traducoes'")
print(f"   Use: df['COLUNA'] = df['COLUNA'].map(traducoes['COLUNA'])")


🔄 Gerando todos os mapeamentos automaticamente...
✅ TPCASO -> r_tipocaso.cnv (2 valores)
✅ DTPRICON -> r_ano.cnv (34 valores)
✅ CNES -> r_cnes.cnv (234 valores)
✅ MUUH -> r_municip.cnv (5582 valores)
❌ UFUH -> r_uf_UH.cnv (arquivo não encontrado)
✅ SEXO -> r_sexo.cnv (2 valores)
⚠️  IDADE -> r_fxeta5.cnv (falha na leitura)
⚠️  LOCALNAS -> r_uf.cnv (falha na leitura)
⚠️  ESTADRES -> r_uf.cnv (falha na leitura)
✅ PROCEDEN -> r_municip.cnv (5582 valores)
✅ RACACOR -> r_racacor.cnv (6 valores)
✅ INSTRUC -> r_ginstruc.cnv (7 valores)
✅ OCUPACAO -> r_ocupacao.cnv (350 valores)
✅ ESTCONJ -> r_estadoconj.cnv (6 valores)
✅ ALCOOLIS -> r_alcoolismo.cnv (6 valores)
✅ TABAGISM -> r_tabagismo.cnv (6 valores)
✅ HISTFAMC -> r_histfamc.cnv (3 valores)
✅ CLIATEN -> r_clinicas.cnv (51 valores)
✅ CLITRAT -> r_clinicas.cnv (51 valores)
✅ ANOPRIDI -> r_ano.cnv (34 valores)
✅ DTINITRT -> r_ano.cnv (34 valores)
✅ ANTRI -> r_ano.cnv (34 valores)
✅ DIAGANT -> r_diagant.cnv (5 valores)
✅ ORIENC -> r_origem.cnv 

In [95]:
# EXEMPLOS DE USO DOS MAPEAMENTOS GERADOS
print("📋 EXEMPLOS DE CÓDIGO GERADOS AUTOMATICAMENTE")
print("=" * 50)

# Mostrar alguns exemplos de mapeamentos gerados
exemplos = ['ALCOOLIS', 'SEXO', 'TPCASO', 'RACACOR']

for coluna in exemplos:
    if coluna in mapeamentos_aplicados:
        print(f"\n# Mapeamento para {coluna}:")
        print(mapeamentos_aplicados[coluna]['codigo'])
        print()

print("\n" + "="*50)
print("🔧 APLICAÇÃO AUTOMÁTICA DOS MAPEAMENTOS")
print("="*50)

# Verificar quais colunas existem no DataFrame e aplicar os mapeamentos
colunas_aplicadas = []
colunas_nao_encontradas = []

for coluna, mapeamento in traducoes.items():
    if coluna in df.columns:
        # Verificar se a coluna contém valores numéricos que podem ser mapeados
        valores_unicos = df[coluna].dropna().unique()
        tem_valores_numericos = any(isinstance(v, (int, float)) for v in valores_unicos)
        
        if tem_valores_numericos:
            # Aplicar o mapeamento
            df[coluna] = df[coluna].map(mapeamento)
            colunas_aplicadas.append(coluna)
            print(f"✅ {coluna}: mapeamento aplicado ({len(mapeamento)} valores)")
        else:
            print(f"⚠️  {coluna}: coluna não contém valores numéricos")
    else:
        colunas_nao_encontradas.append(coluna)

print(f"\n📈 RESULTADO FINAL:")
print(f"   Colunas mapeadas com sucesso: {len(colunas_aplicadas)}")
print(f"   Colunas não encontradas no DataFrame: {len(colunas_nao_encontradas)}")

if colunas_aplicadas:
    print(f"\n✨ Colunas mapeadas: {', '.join(colunas_aplicadas)}")

if colunas_nao_encontradas:
    print(f"\n⚠️  Colunas não encontradas: {', '.join(colunas_nao_encontradas[:10])}")
    if len(colunas_nao_encontradas) > 10:
        print(f"   ... e mais {len(colunas_nao_encontradas) - 10} colunas")

print(f"\n🎯 DICA: Para aplicar um mapeamento específico, use:")
print(f"   df['NOME_COLUNA'] = df['NOME_COLUNA'].map(traducoes['NOME_COLUNA'])")


📋 EXEMPLOS DE CÓDIGO GERADOS AUTOMATICAMENTE

# Mapeamento para ALCOOLIS:
alcoolis_map = {
    1: 'Nunca',
    2: 'Ex-consumidor',
    3: 'Sim',
    4: 'Nao avaliado',
    8: 'Nao se aplica',
    9: 'Sem Informacao',
}
df['ALCOOLIS'] = df['ALCOOLIS'].map(alcoolis_map)


# Mapeamento para SEXO:
sexo_map = {
    1: 'Masculino',
    2: 'Feminino',
}
df['SEXO'] = df['SEXO'].map(sexo_map)


# Mapeamento para TPCASO:
tpcaso_map = {
    1: 'Analitico',
    2: 'Nao Analitico',
}
df['TPCASO'] = df['TPCASO'].map(tpcaso_map)


# Mapeamento para RACACOR:
racacor_map = {
    1: 'Branca',
    2: 'Preta',
    3: 'Amarela',
    4: 'Parda',
    5: 'Indigena',
    9: 'Sem Informacao',
}
df['RACACOR'] = df['RACACOR'].map(racacor_map)


🔧 APLICAÇÃO AUTOMÁTICA DOS MAPEAMENTOS
⚠️  TPCASO: coluna não contém valores numéricos
⚠️  DTPRICON: coluna não contém valores numéricos
⚠️  CNES: coluna não contém valores numéricos
⚠️  MUUH: coluna não contém valores numéricos
⚠️  SEXO: coluna não contém valores numérico

In [96]:
# VERIFICAÇÃO FINAL: Confirmar que os mapeamentos funcionaram
print("🎯 VERIFICAÇÃO FINAL DOS MAPEAMENTOS")
print("=" * 50)

# Verificar colunas específicas que devem estar mapeadas
colunas_verificar = ['SEXO', 'ALCOOLIS', 'TPCASO', 'RACACOR', 'TABAGISM', 'INSTRUC', 'ESTCONJ']

print("Valores únicos após mapeamento:")
for coluna in colunas_verificar:
    if coluna in df.columns:
        valores_unicos = df[coluna].dropna().unique()[:8]  # Primeiros 8 valores
        print(f"  {coluna}: {list(valores_unicos)}")
    else:
        print(f"  {coluna}: ❌ não encontrada")

print(f"\n📋 DATAFRAME FINAL (primeiras 5 linhas):")
print("=" * 50)
df.head()

🎯 VERIFICAÇÃO FINAL DOS MAPEAMENTOS
Valores únicos após mapeamento:
  SEXO: ['2', '1', '3']
  ALCOOLIS: ['1', '9', '3', '8', '0', '2', '4']
  TPCASO: ['2', '1']
  RACACOR: ['1', '9', '2', '4', '3', '5']
  TABAGISM: ['1', '9', '3', '8', '2', '4', '0']
  INSTRUC: ['9', '2', '1', '4', '3', '6', '5']
  ESTCONJ: ['3', '9', '2', '1', '4', '5', '0']

📋 DATAFRAME FINAL (primeiras 5 linhas):


Unnamed: 0,TPCASO,SEXO,IDADE,LOCALNAS,RACACOR,INSTRUC,CLIATEN,CLITRAT,HISTFAMC,ALCOOLIS,...,UFUH,MUUH,OCUPACAO,DTDIAGNO,DTTRIAGE,DATAPRICON,DATAINITRT,DATAOBITO,VALOR_TOT,BASDIAGSP
0,2,2,71,RJ,1,9,10,88,2,1,...,RJ,3304557,888,10/03/2002,99/99/9999,02/06/2000,88/88/8888,,1,3
1,2,1,0,99,9,9,27,88,9,9,...,RJ,3304557,9999,02/01/2002,15/11/2000,11/12/2000,88/88/8888,,1,3
2,1,2,49,RJ,1,9,20,20,2,1,...,RJ,3304557,799,21/07/2002,99/99/9999,31/05/2000,21/06/2002,,1,3
3,1,1,66,ES,1,9,32,32,1,9,...,RJ,3304557,985,27/05/2002,99/99/9999,06/06/2000,15/04/2002,,1,3
4,1,2,60,99,1,9,11,4,1,1,...,RJ,3304557,9999,21/08/2002,99/99/9999,15/10/2000,09/07/2002,,1,3


In [97]:
# DIAGNÓSTICO: Verificar o estado atual do DataFrame
print("🔍 DIAGNÓSTICO DO PROBLEMA")
print("=" * 50)

# Verificar se as variáveis existem
print("1. Verificando variáveis disponíveis:")
if 'traducoes' in locals() or 'traducoes' in globals():
    print(f"   ✅ 'traducoes' existe com {len(traducoes)} mapeamentos")
else:
    print("   ❌ 'traducoes' não existe")

if 'mapeamentos_colunas' in locals() or 'mapeamentos_colunas' in globals():
    print(f"   ✅ 'mapeamentos_colunas' existe com {len(mapeamentos_colunas)} colunas")
else:
    print("   ❌ 'mapeamentos_colunas' não existe")

# Verificar algumas colunas específicas no DataFrame
print("\n2. Verificando valores atuais no DataFrame:")
colunas_teste = ['SEXO', 'ALCOOLIS', 'TPCASO']

for coluna in colunas_teste:
    if coluna in df.columns:
        valores_unicos = df[coluna].dropna().unique()[:5]
        print(f"   {coluna}: {list(valores_unicos)}")
    else:
        print(f"   {coluna}: não encontrada no DataFrame")

print(f"\n3. Colunas disponíveis no DataFrame: {len(df.columns)}")
print(f"   Primeiras 10: {list(df.columns[:10])}")

# Mostrar head atual
print(f"\n4. Estado atual do DataFrame (primeiras 3 linhas):")
print(df.head(3))


🔍 DIAGNÓSTICO DO PROBLEMA
1. Verificando variáveis disponíveis:
   ✅ 'traducoes' existe com 27 mapeamentos
   ✅ 'mapeamentos_colunas' existe com 37 colunas

2. Verificando valores atuais no DataFrame:
   SEXO: ['2', '1', '3']
   ALCOOLIS: ['1', '9', '3', '8', '0']
   TPCASO: ['2', '1']

3. Colunas disponíveis no DataFrame: 46
   Primeiras 10: ['TPCASO', 'SEXO', 'IDADE', 'LOCALNAS', 'RACACOR', 'INSTRUC', 'CLIATEN', 'CLITRAT', 'HISTFAMC', 'ALCOOLIS']

4. Estado atual do DataFrame (primeiras 3 linhas):
  TPCASO SEXO IDADE LOCALNAS RACACOR INSTRUC CLIATEN CLITRAT HISTFAMC  \
0      2    2   071       RJ       1       9      10      88        2   
1      2    1   000       99       9       9      27      88        9   
2      1    2   049       RJ       1       9      20      20        2   

  ALCOOLIS  ... UFUH     MUUH OCUPACAO    DTDIAGNO    DTTRIAGE  DATAPRICON  \
0        1  ...   RJ  3304557      888  10/03/2002  99/99/9999  02/06/2000   
1        9  ...   RJ  3304557     9999  02/01/

In [98]:
# CORREÇÃO: Aplicar mapeamentos manualmente para garantir funcionamento
print("🔧 APLICANDO MAPEAMENTOS CORRIGIDOS")
print("=" * 50)

# Recriar os mapeamentos principais manualmente para garantir funcionamento
mapeamentos_manuais = {
    'SEXO': {
        1: 'Masculino',
        2: 'Feminino',
        9: 'Não informado'
    },
    'ALCOOLIS': {
        1: 'Nunca',
        2: 'Ex-consumidor', 
        3: 'Sim',
        4: 'Nao avaliado',
        8: 'Nao se aplica',
        9: 'Sem Informacao'
    },
    'TPCASO': {
        1: 'Analitico',
        2: 'Nao Analitico'
    },
    'RACACOR': {
        1: 'Branca',
        2: 'Preta',
        3: 'Amarela',
        4: 'Parda',
        5: 'Indigena',
        9: 'Sem Informacao'
    },
    'TABAGISM': {
        1: 'Nunca',
        2: 'Ex-consumidor',
        3: 'Sim',
        4: 'Nao avaliado',
        8: 'Nao se aplica',
        9: 'Sem Informacao'
    },
    'INSTRUC': {
        1: 'Nenhuma',
        2: 'Fundamental incompleto',
        3: 'Fundamental completo',
        4: 'Nivel medio',
        5: 'Nivel superior incompleto',
        6: 'Nivel superior completo',
        9: 'Sem informacao'
    },
    'ESTCONJ': {
        1: 'SOLTEIRO',
        2: 'CASADO',
        3: 'VIUVO',
        4: 'SEPARADO JUDICIALMENTE',
        5: 'UNIAO CONSENSUAL',
        9: 'SEM INFORMACAO'
    }
}

# Aplicar os mapeamentos às colunas existentes
colunas_mapeadas_sucesso = []
colunas_nao_encontradas = []

for coluna, mapeamento in mapeamentos_manuais.items():
    if coluna in df.columns:
        # Verificar valores antes do mapeamento
        valores_antes = df[coluna].dropna().unique()[:5]
        print(f"\n{coluna}:")
        print(f"  Antes: {list(valores_antes)}")
        
        # Aplicar mapeamento
        df[coluna] = df[coluna].map(mapeamento).fillna(df[coluna])
        
        # Verificar valores depois do mapeamento
        valores_depois = df[coluna].dropna().unique()[:5]
        print(f"  Depois: {list(valores_depois)}")
        
        colunas_mapeadas_sucesso.append(coluna)
    else:
        colunas_nao_encontradas.append(coluna)
        print(f"\n❌ {coluna}: coluna não encontrada no DataFrame")

print(f"\n✅ RESULTADO:")
print(f"   Colunas mapeadas: {len(colunas_mapeadas_sucesso)}")
print(f"   Colunas não encontradas: {len(colunas_nao_encontradas)}")

if colunas_mapeadas_sucesso:
    print(f"   Sucesso: {', '.join(colunas_mapeadas_sucesso)}")
    
if colunas_nao_encontradas:
    print(f"   Não encontradas: {', '.join(colunas_nao_encontradas)}")


🔧 APLICANDO MAPEAMENTOS CORRIGIDOS

SEXO:
  Antes: ['2', '1', '3']
  Depois: ['2', '1', '3']

ALCOOLIS:
  Antes: ['1', '9', '3', '8', '0']
  Depois: ['1', '9', '3', '8', '0']

TPCASO:
  Antes: ['2', '1']
  Depois: ['2', '1']

RACACOR:
  Antes: ['1', '9', '2', '4', '3']
  Depois: ['1', '9', '2', '4', '3']

TABAGISM:
  Antes: ['1', '9', '3', '8', '2']
  Depois: ['1', '9', '3', '8', '2']

INSTRUC:
  Antes: ['9', '2', '1', '4', '3']
  Depois: ['9', '2', '1', '4', '3']

ESTCONJ:
  Antes: ['3', '9', '2', '1', '4']
  Depois: ['3', '9', '2', '1', '4']

✅ RESULTADO:
   Colunas mapeadas: 7
   Colunas não encontradas: 0
   Sucesso: SEXO, ALCOOLIS, TPCASO, RACACOR, TABAGISM, INSTRUC, ESTCONJ


In [99]:
# APLICAÇÃO COMPLETA: Todos os mapeamentos dos arquivos .cnv
print("🚀 APLICANDO TODOS OS MAPEAMENTOS AUTOMATICAMENTE")
print("=" * 60)

def aplicar_todos_mapeamentos():
    """Aplica todos os mapeamentos dos arquivos .cnv ao DataFrame"""
    
    # Lista de todos os arquivos .cnv e suas colunas correspondentes
    mapeamentos_completos = {
        'SEXO': 'r_sexo.cnv',
        'ALCOOLIS': 'r_alcoolismo.cnv', 
        'TPCASO': 'r_tipocaso.cnv',
        'RACACOR': 'r_racacor.cnv',
        'TABAGISM': 'r_tabagismo.cnv',
        'INSTRUC': 'r_ginstruc.cnv',
        'ESTCONJ': 'r_estadoconj.cnv',
        'IDADE': 'r_fxeta5.cnv',
        'OCUPACAO': 'r_ocupacao.cnv',
        'HISTFAMC': 'r_histfamc.cnv',
        'CLIATEN': 'r_clinicas.cnv',
        'CLITRAT': 'r_clinicas.cnv',
        'DIAGANT': 'r_diagant.cnv',
        'ORIENC': 'r_origem.cnv',
        'MAISUMTU': 'r_maisumtumor.cnv',
        'LATERALI': 'r_lateralid.cnv',
        'ESTADIAM': 'r_estadiam.cnv',
        'ESTADIAG': 'r_estadiam_g.cnv',
        'PRITRATH': 'r_pritrathosp.cnv',
        'RZNTR': 'r_razaonaotrat.cnv',
        'ESTDFIMT': 'r_estdoenfimtrat.cnv',
        'BASMAIMP': 'r_basemaimp_sp.cnv',
        'EXDIAG': 'r_exames.cnv'
    }
    
    sucessos = 0
    falhas = 0
    
    for coluna, arquivo_cnv in mapeamentos_completos.items():
        if coluna in df.columns and os.path.exists(arquivo_cnv):
            try:
                # Ler o mapeamento do arquivo .cnv
                mapeamento = ler_arquivo_cnv(arquivo_cnv)
                
                if mapeamento:
                    # Verificar se há valores numéricos para mapear
                    valores_numericos = df[coluna].dropna()
                    tem_numericos = any(isinstance(v, (int, float)) and v in mapeamento for v in valores_numericos)
                    
                    if tem_numericos:
                        # Aplicar mapeamento preservando valores não mapeados
                        df[coluna] = df[coluna].map(mapeamento).fillna(df[coluna])
                        print(f"✅ {coluna}: mapeado com sucesso ({len(mapeamento)} valores)")
                        sucessos += 1
                    else:
                        print(f"⚠️  {coluna}: sem valores numéricos para mapear")
                else:
                    print(f"❌ {coluna}: falha ao ler {arquivo_cnv}")
                    falhas += 1
                    
            except Exception as e:
                print(f"❌ {coluna}: erro - {str(e)}")
                falhas += 1
        else:
            if coluna not in df.columns:
                print(f"⚠️  {coluna}: coluna não existe no DataFrame")
            else:
                print(f"⚠️  {coluna}: arquivo {arquivo_cnv} não encontrado")
    
    return sucessos, falhas

# Executar a aplicação completa
sucessos, falhas = aplicar_todos_mapeamentos()

print(f"\n📊 RESUMO FINAL:")
print(f"   ✅ Mapeamentos aplicados com sucesso: {sucessos}")
print(f"   ❌ Falhas: {falhas}")
print(f"   📈 Taxa de sucesso: {sucessos/(sucessos+falhas)*100:.1f}%" if (sucessos+falhas) > 0 else "   📈 Nenhum mapeamento processado")

print(f"\n🎯 Verificando resultado final...")


🚀 APLICANDO TODOS OS MAPEAMENTOS AUTOMATICAMENTE
⚠️  SEXO: sem valores numéricos para mapear
⚠️  ALCOOLIS: sem valores numéricos para mapear
⚠️  TPCASO: sem valores numéricos para mapear
⚠️  RACACOR: sem valores numéricos para mapear
⚠️  TABAGISM: sem valores numéricos para mapear
⚠️  INSTRUC: sem valores numéricos para mapear
⚠️  ESTCONJ: sem valores numéricos para mapear
❌ IDADE: falha ao ler r_fxeta5.cnv
⚠️  OCUPACAO: sem valores numéricos para mapear
⚠️  HISTFAMC: sem valores numéricos para mapear
⚠️  CLIATEN: sem valores numéricos para mapear
⚠️  CLITRAT: sem valores numéricos para mapear
⚠️  DIAGANT: sem valores numéricos para mapear
⚠️  ORIENC: sem valores numéricos para mapear
⚠️  MAISUMTU: sem valores numéricos para mapear
⚠️  LATERALI: sem valores numéricos para mapear
❌ ESTADIAM: falha ao ler r_estadiam.cnv
⚠️  ESTADIAG: coluna não existe no DataFrame
⚠️  PRITRATH: sem valores numéricos para mapear
⚠️  RZNTR: sem valores numéricos para mapear
⚠️  ESTDFIMT: sem valores numéri

In [100]:
# VERIFICAÇÃO FINAL - DataFrame com mapeamentos aplicados
print("🎯 RESULTADO FINAL - DataFrame com valores mapeados:")
print("=" * 60)

# Mostrar algumas colunas específicas para confirmar o mapeamento
colunas_importantes = ['TPCASO', 'SEXO', 'RACACOR', 'ALCOOLIS', 'INSTRUC']
print("Verificação das colunas principais:")
for col in colunas_importantes:
    if col in df.columns:
        valores = df[col].unique()[:5]
        print(f"  {col}: {list(valores)}")

print(f"\n📋 DATAFRAME COMPLETO (primeiras 5 linhas):")
print("=" * 60)
df.head()

🎯 RESULTADO FINAL - DataFrame com valores mapeados:
Verificação das colunas principais:
  TPCASO: ['2', '1']
  SEXO: ['2', '1', '3']
  RACACOR: ['1', '9', '2', '4', '3']
  ALCOOLIS: ['1', '9', '3', '8', '0']
  INSTRUC: ['9', '2', '1', '4', '3']

📋 DATAFRAME COMPLETO (primeiras 5 linhas):


Unnamed: 0,TPCASO,SEXO,IDADE,LOCALNAS,RACACOR,INSTRUC,CLIATEN,CLITRAT,HISTFAMC,ALCOOLIS,...,UFUH,MUUH,OCUPACAO,DTDIAGNO,DTTRIAGE,DATAPRICON,DATAINITRT,DATAOBITO,VALOR_TOT,BASDIAGSP
0,2,2,71,RJ,1,9,10,88,2,1,...,RJ,3304557,888,10/03/2002,99/99/9999,02/06/2000,88/88/8888,,1,3
1,2,1,0,99,9,9,27,88,9,9,...,RJ,3304557,9999,02/01/2002,15/11/2000,11/12/2000,88/88/8888,,1,3
2,1,2,49,RJ,1,9,20,20,2,1,...,RJ,3304557,799,21/07/2002,99/99/9999,31/05/2000,21/06/2002,,1,3
3,1,1,66,ES,1,9,32,32,1,9,...,RJ,3304557,985,27/05/2002,99/99/9999,06/06/2000,15/04/2002,,1,3
4,1,2,60,99,1,9,11,4,1,1,...,RJ,3304557,9999,21/08/2002,99/99/9999,15/10/2000,09/07/2002,,1,3


In [101]:
# SOLUÇÃO DEFINITIVA: Mapeamentos diretos e funcionais
print("🔥 APLICANDO MAPEAMENTOS DEFINITIVOS")
print("=" * 50)

# Criar mapeamentos diretos baseados nos arquivos .cnv que já analisamos
mapeamentos_definitivos = {
    'SEXO': {
        1: 'Masculino',
        2: 'Feminino'
    },
    'ALCOOLIS': {
        1: 'Nunca',
        2: 'Ex-consumidor', 
        3: 'Sim',
        4: 'Nao avaliado',
        8: 'Nao se aplica',
        9: 'Sem Informacao'
    },
    'TPCASO': {
        1: 'Analitico',
        2: 'Nao Analitico'
    },
    'RACACOR': {
        1: 'Branca',
        2: 'Preta',
        3: 'Amarela',
        4: 'Parda',
        5: 'Indigena',
        9: 'Sem Informacao'
    },
    'TABAGISM': {
        1: 'Nunca',
        2: 'Ex-consumidor',
        3: 'Sim',
        4: 'Nao avaliado',
        8: 'Nao se aplica',
        9: 'Sem Informacao'
    },
    'INSTRUC': {
        1: 'Nenhuma',
        2: 'Fundamental incompleto',
        3: 'Fundamental completo',
        4: 'Nivel medio',
        5: 'Nivel superior incompleto',
        6: 'Nivel superior completo',
        9: 'Sem informacao'
    },
    'ESTCONJ': {
        1: 'SOLTEIRO',
        2: 'CASADO',
        3: 'VIUVO',
        4: 'SEPARADO JUDICIALMENTE',
        5: 'UNIAO CONSENSUAL',
        9: 'SEM INFORMACAO'
    },
    'HISTFAMC': {
        1: 'Nao',
        2: 'Sim',
        9: 'Sem informacao'
    }
}

# Aplicar cada mapeamento individualmente com verificação
print("Aplicando mapeamentos:")
colunas_mapeadas = []

for coluna, mapeamento in mapeamentos_definitivos.items():
    if coluna in df.columns:
        print(f"\n{coluna}:")
        
        # Mostrar valores antes
        valores_antes = df[coluna].value_counts().head(3)
        print(f"  Valores antes: {dict(valores_antes)}")
        
        # Aplicar mapeamento - FORÇAR a conversão
        df[coluna] = df[coluna].astype(str).replace({str(k): v for k, v in mapeamento.items()})
        
        # Mostrar valores depois
        valores_depois = df[coluna].value_counts().head(3)
        print(f"  Valores depois: {dict(valores_depois)}")
        
        colunas_mapeadas.append(coluna)
        print(f"  ✅ Mapeamento aplicado!")
    else:
        print(f"❌ {coluna}: coluna não encontrada")

print(f"\n🎉 CONCLUÍDO!")
print(f"Colunas mapeadas: {len(colunas_mapeadas)}")
print(f"Lista: {', '.join(colunas_mapeadas)}")


🔥 APLICANDO MAPEAMENTOS DEFINITIVOS
Aplicando mapeamentos:

SEXO:
  Valores antes: {'2': 39878, '1': 31524, '3': 7}
  Valores depois: {'Feminino': 39878, 'Masculino': 31524, '3': 7}
  ✅ Mapeamento aplicado!

ALCOOLIS:
  Valores antes: {'0': 33442, '9': 18521, '1': 10874}
  Valores depois: {'0': 33442, 'Sem Informacao': 18521, 'Nunca': 10874}
  ✅ Mapeamento aplicado!

TPCASO:
  Valores antes: {'1': 55779, '2': 15630}
  Valores depois: {'Analitico': 55779, 'Nao Analitico': 15630}
  ✅ Mapeamento aplicado!

RACACOR:
  Valores antes: {'9': 38276, '1': 19499, '4': 11145}
  Valores depois: {'Sem Informacao': 38276, 'Branca': 19499, 'Parda': 11145}
  ✅ Mapeamento aplicado!

TABAGISM:
  Valores antes: {'0': 33441, '9': 17831, '1': 9094}
  Valores depois: {'0': 33441, 'Sem Informacao': 17831, 'Nunca': 9094}
  ✅ Mapeamento aplicado!

INSTRUC:
  Valores antes: {'9': 24513, '2': 22603, '1': 8279}
  Valores depois: {'Sem informacao': 24513, 'Fundamental incompleto': 22603, 'Nenhuma': 8279}
  ✅ Mapea

In [102]:
# MÉTODO ALTERNATIVO: Mapeamento usando pandas.map() com tratamento robusto
print("🛠️ MÉTODO ALTERNATIVO - Mapeamento robusto")
print("=" * 50)

# Função para aplicar mapeamento de forma mais robusta
def aplicar_mapeamento_robusto(df, coluna, mapeamento):
    """Aplica mapeamento de forma robusta, lidando com diferentes tipos de dados"""
    if coluna not in df.columns:
        print(f"❌ Coluna {coluna} não encontrada")
        return False
    
    print(f"\n🔄 Processando {coluna}:")
    
    # Verificar tipos de dados na coluna
    tipos_unicos = df[coluna].apply(type).unique()
    print(f"  Tipos de dados encontrados: {[t.__name__ for t in tipos_unicos]}")
    
    # Mostrar valores antes
    valores_antes = df[coluna].value_counts().head(5)
    print(f"  Top 5 valores antes: {dict(valores_antes)}")
    
    # Criar uma cópia da coluna original
    coluna_original = df[coluna].copy()
    
    # Tentar diferentes métodos de mapeamento
    try:
        # Método 1: map direto
        df[coluna] = df[coluna].map(mapeamento)
        
        # Se há muitos NaN, tentar método alternativo
        nan_count = df[coluna].isna().sum()
        if nan_count > len(df) * 0.5:  # Se mais de 50% são NaN
            print(f"  ⚠️ Muitos NaN ({nan_count}), tentando método alternativo...")
            
            # Método 2: Converter para string primeiro
            df[coluna] = coluna_original.astype(str).map({str(k): v for k, v in mapeamento.items()})
            
            # Se ainda há muitos NaN, tentar método 3
            nan_count2 = df[coluna].isna().sum()
            if nan_count2 > len(df) * 0.5:
                print(f"  ⚠️ Ainda muitos NaN ({nan_count2}), tentando replace...")
                
                # Método 3: replace
                df[coluna] = coluna_original.replace(mapeamento)
        
        # Preencher NaN com valores originais
        df[coluna] = df[coluna].fillna(coluna_original)
        
        # Mostrar valores depois
        valores_depois = df[coluna].value_counts().head(5)
        print(f"  Top 5 valores depois: {dict(valores_depois)}")
        
        # Verificar se o mapeamento funcionou
        valores_mapeados = sum(1 for v in df[coluna].unique() if v in mapeamento.values())
        if valores_mapeados > 0:
            print(f"  ✅ Sucesso! {valores_mapeados} valores únicos mapeados")
            return True
        else:
            print(f"  ❌ Falha no mapeamento")
            return False
            
    except Exception as e:
        print(f"  ❌ Erro: {e}")
        df[coluna] = coluna_original  # Restaurar original
        return False

# Aplicar aos mapeamentos principais
sucessos = 0
for coluna, mapeamento in mapeamentos_definitivos.items():
    if aplicar_mapeamento_robusto(df, coluna, mapeamento):
        sucessos += 1

print(f"\n🎯 RESULTADO: {sucessos}/{len(mapeamentos_definitivos)} mapeamentos aplicados com sucesso")


🛠️ MÉTODO ALTERNATIVO - Mapeamento robusto

🔄 Processando SEXO:
  Tipos de dados encontrados: ['str']
  Top 5 valores antes: {'Feminino': 39878, 'Masculino': 31524, '3': 7}
  ⚠️ Muitos NaN (71409), tentando método alternativo...
  ⚠️ Ainda muitos NaN (71409), tentando replace...
  Top 5 valores depois: {'Feminino': 39878, 'Masculino': 31524, '3': 7}
  ✅ Sucesso! 2 valores únicos mapeados

🔄 Processando ALCOOLIS:
  Tipos de dados encontrados: ['str']
  Top 5 valores antes: {'0': 33442, 'Sem Informacao': 18521, 'Nunca': 10874, 'Sim': 4555, 'Nao se aplica': 3988}
  ⚠️ Muitos NaN (71409), tentando método alternativo...
  ⚠️ Ainda muitos NaN (71409), tentando replace...
  Top 5 valores depois: {'0': 33442, 'Sem Informacao': 18521, 'Nunca': 10874, 'Sim': 4555, 'Nao se aplica': 3988}
  ✅ Sucesso! 6 valores únicos mapeados

🔄 Processando TPCASO:
  Tipos de dados encontrados: ['str']
  Top 5 valores antes: {'Analitico': 55779, 'Nao Analitico': 15630}
  ⚠️ Muitos NaN (71409), tentando método alt

In [103]:
# RESULTADO FINAL DEFINITIVO
print("🏆 RESULTADO FINAL DEFINITIVO")
print("=" * 50)

# Verificar especificamente as colunas que você mencionou
print("Verificação das colunas principais:")
colunas_verificar = ['TPCASO', 'SEXO', 'ALCOOLIS', 'RACACOR', 'INSTRUC']

for col in colunas_verificar:
    if col in df.columns:
        valores = df[col].unique()
        print(f"\n{col}:")
        print(f"  Valores únicos: {list(valores[:10])}")  # Primeiros 10
        
        # Verificar se ainda tem códigos numéricos
        tem_numeros = any(str(v).isdigit() for v in valores if pd.notna(v))
        if tem_numeros:
            print(f"  ⚠️ AINDA TEM CÓDIGOS NUMÉRICOS!")
        else:
            print(f"  ✅ Mapeamento OK - apenas texto")

print(f"\n📊 DATAFRAME FINAL:")
print("=" * 30)
df.head()


🏆 RESULTADO FINAL DEFINITIVO
Verificação das colunas principais:

TPCASO:
  Valores únicos: ['Nao Analitico', 'Analitico']
  ✅ Mapeamento OK - apenas texto

SEXO:
  Valores únicos: ['Feminino', 'Masculino', '3']
  ⚠️ AINDA TEM CÓDIGOS NUMÉRICOS!

ALCOOLIS:
  Valores únicos: ['Nunca', 'Sem Informacao', 'Sim', 'Nao se aplica', '0', 'Ex-consumidor', 'Nao avaliado']
  ⚠️ AINDA TEM CÓDIGOS NUMÉRICOS!

RACACOR:
  Valores únicos: ['Branca', 'Sem Informacao', 'Preta', 'Parda', 'Amarela', 'Indigena']
  ✅ Mapeamento OK - apenas texto

INSTRUC:
  Valores únicos: ['Sem informacao', 'Fundamental incompleto', 'Nenhuma', 'Nivel medio', 'Fundamental completo', 'Nivel superior completo', 'Nivel superior incompleto']
  ✅ Mapeamento OK - apenas texto

📊 DATAFRAME FINAL:


Unnamed: 0,TPCASO,SEXO,IDADE,LOCALNAS,RACACOR,INSTRUC,CLIATEN,CLITRAT,HISTFAMC,ALCOOLIS,...,UFUH,MUUH,OCUPACAO,DTDIAGNO,DTTRIAGE,DATAPRICON,DATAINITRT,DATAOBITO,VALOR_TOT,BASDIAGSP
0,Nao Analitico,Feminino,71,RJ,Branca,Sem informacao,10,88,Sim,Nunca,...,RJ,3304557,888,10/03/2002,99/99/9999,02/06/2000,88/88/8888,,1,3
1,Nao Analitico,Masculino,0,99,Sem Informacao,Sem informacao,27,88,Sem informacao,Sem Informacao,...,RJ,3304557,9999,02/01/2002,15/11/2000,11/12/2000,88/88/8888,,1,3
2,Analitico,Feminino,49,RJ,Branca,Sem informacao,20,20,Sim,Nunca,...,RJ,3304557,799,21/07/2002,99/99/9999,31/05/2000,21/06/2002,,1,3
3,Analitico,Masculino,66,ES,Branca,Sem informacao,32,32,Nao,Sem Informacao,...,RJ,3304557,985,27/05/2002,99/99/9999,06/06/2000,15/04/2002,,1,3
4,Analitico,Feminino,60,99,Branca,Sem informacao,11,4,Nao,Nunca,...,RJ,3304557,9999,21/08/2002,99/99/9999,15/10/2000,09/07/2002,,1,3


In [104]:
# MAPEAMENTOS COMPLEMENTARES - Para as colunas que ainda estão com códigos
print("🔧 APLICANDO MAPEAMENTOS COMPLEMENTARES")
print("=" * 50)

# Mapeamentos adicionais baseados nos arquivos .cnv
mapeamentos_complementares = {
    'ORIENC': {
        1: 'SUS',
        2: 'Nao SUS',
        3: 'Veio por conta propria',
        8: 'Nao se aplica',
        9: 'Sem informacao'
    },
    'EXDIAG': {
        1: 'Exame Clinico e Patologia Clinica',
        2: 'Exames por Imagem',
        3: 'Endoscopia e Cirurgia Exploradora',
        4: 'Anatomia Patologica',
        5: 'Marcadores Tumorais',
        8: 'Nao se aplica',
        9: 'Sem Informacao'
    },
    'CLIATEN': {
        1: 'ALERGIA IMUNOLOGIA',
        2: 'CIRURGIA CARDIACA',
        3: 'CABECA E PESCOCO',
        4: 'CIRURGIA GERAL',
        5: 'PEDIATRIA CIRURGICA',
        6: 'CIRURGIA PLASTICA',
        7: 'CIRURGIA TORAXICA',
        8: 'CIRURGIA VASCULAR',
        9: 'CLINICA MEDICA',
        10: 'DERMATOLOGIA',
        11: 'ENDOCRINOLOGIA',
        12: 'GASTROCIRURGIA',
        13: 'GASTROENTEROLOGIA',
        14: 'GERIATRIA',
        15: 'GINECOLOGIA',
        16: 'GINECOLOGIA OBSTETRICIA',
        17: 'HEMATOLOGIA CLINICA',
        18: 'INFECTOLOGIA',
        19: 'NEFROLOGIA',
        20: 'NEUROCIRURGIA',
        21: 'NEUROLOGIA',
        22: 'OFTAMOLOGIA',
        23: 'ONCOLOGIA CIRURGICA',
        24: 'ONCOLOGIA CLINICA',
        25: 'PEDIATRIA ONCOLOGICA',
        26: 'ORTOPEDIA',
        27: 'OTORRINOLARINGOLOGIA',
        28: 'PEDIATRIA',
        29: 'PNEUMOLOGIA',
        30: 'PROCTOLOGIA',
        31: 'RADIOTERAPIA',
        32: 'UROLOGIA',
        33: 'MASTOLOGIA',
        34: 'ONCOLOGIA CUTANEA',
        35: 'CIRURGIA PELVICA',
        36: 'CIRURGIA ABDOMINAL',
        37: 'ODONTOLOGIA',
        38: 'CEMO',
        39: 'ENDOSCOPIA',
        40: 'ESTOMAGO ODONTOLOGIA',
        41: 'PLASTICA REPARADORA',
        42: 'TECIDO OSSEO E CONECTIVO',
        43: 'HEMOTERAPIA',
        44: 'MEDICINA NUCLEAR',
        45: 'PSIQUIATRIA',
        46: 'TRIAGEM',
        47: 'CLINICA DA DOR',
        48: 'SUPORTE TERAPEUTICO ONCOLOGICO',
        50: 'ABDOMEN PELVICA',
        51: 'TRANSPLANTE HEPATICO',
        88: 'NAO SE APLICA'
    },
    'CLITRAT': {  # Mesmo mapeamento de CLIATEN
        1: 'ALERGIA IMUNOLOGIA',
        2: 'CIRURGIA CARDIACA',
        3: 'CABECA E PESCOCO',
        4: 'CIRURGIA GERAL',
        5: 'PEDIATRIA CIRURGICA',
        6: 'CIRURGIA PLASTICA',
        7: 'CIRURGIA TORAXICA',
        8: 'CIRURGIA VASCULAR',
        9: 'CLINICA MEDICA',
        10: 'DERMATOLOGIA',
        11: 'ENDOCRINOLOGIA',
        12: 'GASTROCIRURGIA',
        13: 'GASTROENTEROLOGIA',
        14: 'GERIATRIA',
        15: 'GINECOLOGIA',
        16: 'GINECOLOGIA OBSTETRICIA',
        17: 'HEMATOLOGIA CLINICA',
        18: 'INFECTOLOGIA',
        19: 'NEFROLOGIA',
        20: 'NEUROCIRURGIA',
        21: 'NEUROLOGIA',
        22: 'OFTAMOLOGIA',
        23: 'ONCOLOGIA CIRURGICA',
        24: 'ONCOLOGIA CLINICA',
        25: 'PEDIATRIA ONCOLOGICA',
        26: 'ORTOPEDIA',
        27: 'OTORRINOLARINGOLOGIA',
        28: 'PEDIATRIA',
        29: 'PNEUMOLOGIA',
        30: 'PROCTOLOGIA',
        31: 'RADIOTERAPIA',
        32: 'UROLOGIA',
        33: 'MASTOLOGIA',
        34: 'ONCOLOGIA CUTANEA',
        35: 'CIRURGIA PELVICA',
        36: 'CIRURGIA ABDOMINAL',
        37: 'ODONTOLOGIA',
        38: 'CEMO',
        39: 'ENDOSCOPIA',
        40: 'ESTOMAGO ODONTOLOGIA',
        41: 'PLASTICA REPARADORA',
        42: 'TECIDO OSSEO E CONECTIVO',
        43: 'HEMOTERAPIA',
        44: 'MEDICINA NUCLEAR',
        45: 'PSIQUIATRIA',
        46: 'TRIAGEM',
        47: 'CLINICA DA DOR',
        48: 'SUPORTE TERAPEUTICO ONCOLOGICO',
        50: 'ABDOMEN PELVICA',
        51: 'TRANSPLANTE HEPATICO',
        88: 'NAO SE APLICA'
    }
}

# Aplicar os mapeamentos complementares
sucessos_complementares = 0
for coluna, mapeamento in mapeamentos_complementares.items():
    if coluna in df.columns:
        print(f"\n🔄 Mapeando {coluna}:")
        
        # Mostrar valores antes
        valores_antes = df[coluna].value_counts().head(5)
        print(f"  Antes: {dict(valores_antes)}")
        
        # Aplicar mapeamento
        df[coluna] = df[coluna].map(mapeamento).fillna(df[coluna])
        
        # Mostrar valores depois
        valores_depois = df[coluna].value_counts().head(5)
        print(f"  Depois: {dict(valores_depois)}")
        
        sucessos_complementares += 1
        print(f"  ✅ Mapeado!")
    else:
        print(f"❌ {coluna}: não encontrada")

print(f"\n🎯 Mapeamentos complementares aplicados: {sucessos_complementares}")


🔧 APLICANDO MAPEAMENTOS COMPLEMENTARES

🔄 Mapeando ORIENC:
  Antes: {'0': 33441, '1': 22758, '9': 6564, '2': 6035, '3': 2574}
  Depois: {'0': 33441, '1': 22758, '9': 6564, '2': 6035, '3': 2574}
  ✅ Mapeado!

🔄 Mapeando EXDIAG:
  Antes: {'': 41870, '4': 22938, '2': 1964, '1': 1624, '9': 1164}
  Depois: {'': 41870, '4': 22938, '2': 1964, '1': 1624, '9': 1164}
  ✅ Mapeado!

🔄 Mapeando CLIATEN:
  Antes: {'99': 33615, '24': 6530, '15': 5467, '31': 4615, '3': 3872}
  Depois: {'99': 33615, '24': 6530, '15': 5467, '31': 4615, '3': 3872}
  ✅ Mapeado!

🔄 Mapeando CLITRAT:
  Antes: {'24': 15811, '31': 9715, '15': 7176, '3': 5838, '33': 5139}
  Depois: {'24': 15811, '31': 9715, '15': 7176, '3': 5838, '33': 5139}
  ✅ Mapeado!

🎯 Mapeamentos complementares aplicados: 4


In [105]:
# VERIFICAÇÃO FINAL COMPLETA - Todas as colunas mapeadas
print("🏆 VERIFICAÇÃO FINAL COMPLETA")
print("=" * 50)

# Lista de todas as colunas que deveriam estar mapeadas
colunas_mapeadas_esperadas = [
    'TPCASO', 'SEXO', 'RACACOR', 'INSTRUC', 'HISTFAMC', 
    'ALCOOLIS', 'TABAGISM', 'ESTCONJ', 'ORIENC', 'EXDIAG', 
    'CLIATEN', 'CLITRAT'
]

print("Status dos mapeamentos:")
for coluna in colunas_mapeadas_esperadas:
    if coluna in df.columns:
        valores_unicos = df[coluna].unique()[:5]
        
        # Verificar se ainda tem códigos numéricos
        tem_numeros = any(str(v).isdigit() and len(str(v)) <= 2 for v in valores_unicos if pd.notna(v))
        
        if tem_numeros:
            print(f"  ❌ {coluna}: AINDA TEM CÓDIGOS - {list(valores_unicos)}")
        else:
            print(f"  ✅ {coluna}: MAPEADO - {list(valores_unicos)}")
    else:
        print(f"  ⚠️  {coluna}: não encontrada no DataFrame")

print(f"\n📋 DATAFRAME FINAL ATUALIZADO:")
print("=" * 40)
df.head()


🏆 VERIFICAÇÃO FINAL COMPLETA
Status dos mapeamentos:
  ✅ TPCASO: MAPEADO - ['Nao Analitico', 'Analitico']
  ❌ SEXO: AINDA TEM CÓDIGOS - ['Feminino', 'Masculino', '3']
  ✅ RACACOR: MAPEADO - ['Branca', 'Sem Informacao', 'Preta', 'Parda', 'Amarela']
  ✅ INSTRUC: MAPEADO - ['Sem informacao', 'Fundamental incompleto', 'Nenhuma', 'Nivel medio', 'Fundamental completo']
  ❌ HISTFAMC: AINDA TEM CÓDIGOS - ['Sim', 'Sem informacao', 'Nao', '0']
  ❌ ALCOOLIS: AINDA TEM CÓDIGOS - ['Nunca', 'Sem Informacao', 'Sim', 'Nao se aplica', '0']
  ✅ TABAGISM: MAPEADO - ['Nunca', 'Sem Informacao', 'Sim', 'Nao se aplica', 'Ex-consumidor']
  ✅ ESTCONJ: MAPEADO - ['VIUVO', 'SEM INFORMACAO', 'CASADO', 'SOLTEIRO', 'SEPARADO JUDICIALMENTE']
  ❌ ORIENC: AINDA TEM CÓDIGOS - ['9', '1', '2', '3', '8']
  ❌ EXDIAG: AINDA TEM CÓDIGOS - ['4', '2', '1', '', '3']
  ❌ CLIATEN: AINDA TEM CÓDIGOS - ['10', '27', '20', '32', '11']
  ❌ CLITRAT: AINDA TEM CÓDIGOS - ['88', '20', '32', '4', '15']

📋 DATAFRAME FINAL ATUALIZADO:


Unnamed: 0,TPCASO,SEXO,IDADE,LOCALNAS,RACACOR,INSTRUC,CLIATEN,CLITRAT,HISTFAMC,ALCOOLIS,...,UFUH,MUUH,OCUPACAO,DTDIAGNO,DTTRIAGE,DATAPRICON,DATAINITRT,DATAOBITO,VALOR_TOT,BASDIAGSP
0,Nao Analitico,Feminino,71,RJ,Branca,Sem informacao,10,88,Sim,Nunca,...,RJ,3304557,888,10/03/2002,99/99/9999,02/06/2000,88/88/8888,,1,3
1,Nao Analitico,Masculino,0,99,Sem Informacao,Sem informacao,27,88,Sem informacao,Sem Informacao,...,RJ,3304557,9999,02/01/2002,15/11/2000,11/12/2000,88/88/8888,,1,3
2,Analitico,Feminino,49,RJ,Branca,Sem informacao,20,20,Sim,Nunca,...,RJ,3304557,799,21/07/2002,99/99/9999,31/05/2000,21/06/2002,,1,3
3,Analitico,Masculino,66,ES,Branca,Sem informacao,32,32,Nao,Sem Informacao,...,RJ,3304557,985,27/05/2002,99/99/9999,06/06/2000,15/04/2002,,1,3
4,Analitico,Feminino,60,99,Branca,Sem informacao,11,4,Nao,Nunca,...,RJ,3304557,9999,21/08/2002,99/99/9999,15/10/2000,09/07/2002,,1,3


In [106]:
# VERIFICAÇÃO FINAL COMPLETA - Todas as colunas mapeadas
print("🏆 VERIFICAÇÃO FINAL COMPLETA")
print("=" * 50)

# Lista de todas as colunas que deveriam estar mapeadas
colunas_mapeadas_esperadas = [
    'TPCASO', 'SEXO', 'RACACOR', 'INSTRUC', 'HISTFAMC', 
    'ALCOOLIS', 'TABAGISM', 'ESTCONJ', 'ORIENC', 'EXDIAG', 
    'CLIATEN', 'CLITRAT'
]

print("Status dos mapeamentos:")
for coluna in colunas_mapeadas_esperadas:
    if coluna in df.columns:
        valores_unicos = df[coluna].unique()[:5]
        
        # Verificar se ainda tem códigos numéricos
        tem_numeros = any(str(v).isdigit() and len(str(v)) <= 2 for v in valores_unicos if pd.notna(v))
        
        if tem_numeros:
            print(f"  ❌ {coluna}: AINDA TEM CÓDIGOS - {list(valores_unicos)}")
        else:
            print(f"  ✅ {coluna}: MAPEADO - {list(valores_unicos)}")
    else:
        print(f"  ⚠️  {coluna}: não encontrada no DataFrame")

print(f"\n📋 DATAFRAME FINAL ATUALIZADO:")
print("=" * 40)
df.head()


🏆 VERIFICAÇÃO FINAL COMPLETA
Status dos mapeamentos:
  ✅ TPCASO: MAPEADO - ['Nao Analitico', 'Analitico']
  ❌ SEXO: AINDA TEM CÓDIGOS - ['Feminino', 'Masculino', '3']
  ✅ RACACOR: MAPEADO - ['Branca', 'Sem Informacao', 'Preta', 'Parda', 'Amarela']
  ✅ INSTRUC: MAPEADO - ['Sem informacao', 'Fundamental incompleto', 'Nenhuma', 'Nivel medio', 'Fundamental completo']
  ❌ HISTFAMC: AINDA TEM CÓDIGOS - ['Sim', 'Sem informacao', 'Nao', '0']
  ❌ ALCOOLIS: AINDA TEM CÓDIGOS - ['Nunca', 'Sem Informacao', 'Sim', 'Nao se aplica', '0']
  ✅ TABAGISM: MAPEADO - ['Nunca', 'Sem Informacao', 'Sim', 'Nao se aplica', 'Ex-consumidor']
  ✅ ESTCONJ: MAPEADO - ['VIUVO', 'SEM INFORMACAO', 'CASADO', 'SOLTEIRO', 'SEPARADO JUDICIALMENTE']
  ❌ ORIENC: AINDA TEM CÓDIGOS - ['9', '1', '2', '3', '8']
  ❌ EXDIAG: AINDA TEM CÓDIGOS - ['4', '2', '1', '', '3']
  ❌ CLIATEN: AINDA TEM CÓDIGOS - ['10', '27', '20', '32', '11']
  ❌ CLITRAT: AINDA TEM CÓDIGOS - ['88', '20', '32', '4', '15']

📋 DATAFRAME FINAL ATUALIZADO:


Unnamed: 0,TPCASO,SEXO,IDADE,LOCALNAS,RACACOR,INSTRUC,CLIATEN,CLITRAT,HISTFAMC,ALCOOLIS,...,UFUH,MUUH,OCUPACAO,DTDIAGNO,DTTRIAGE,DATAPRICON,DATAINITRT,DATAOBITO,VALOR_TOT,BASDIAGSP
0,Nao Analitico,Feminino,71,RJ,Branca,Sem informacao,10,88,Sim,Nunca,...,RJ,3304557,888,10/03/2002,99/99/9999,02/06/2000,88/88/8888,,1,3
1,Nao Analitico,Masculino,0,99,Sem Informacao,Sem informacao,27,88,Sem informacao,Sem Informacao,...,RJ,3304557,9999,02/01/2002,15/11/2000,11/12/2000,88/88/8888,,1,3
2,Analitico,Feminino,49,RJ,Branca,Sem informacao,20,20,Sim,Nunca,...,RJ,3304557,799,21/07/2002,99/99/9999,31/05/2000,21/06/2002,,1,3
3,Analitico,Masculino,66,ES,Branca,Sem informacao,32,32,Nao,Sem Informacao,...,RJ,3304557,985,27/05/2002,99/99/9999,06/06/2000,15/04/2002,,1,3
4,Analitico,Feminino,60,99,Branca,Sem informacao,11,4,Nao,Nunca,...,RJ,3304557,9999,21/08/2002,99/99/9999,15/10/2000,09/07/2002,,1,3


In [107]:
# CORREÇÃO FINAL FORÇADA - Para colunas que ainda têm códigos
print("🔥 CORREÇÃO FINAL FORÇADA")
print("=" * 50)

# Identificar e corrigir colunas que ainda têm códigos
colunas_problematicas = []

for coluna in colunas_mapeadas_esperadas:
    if coluna in df.columns:
        valores_unicos = df[coluna].unique()
        tem_numeros = any(str(v).isdigit() and len(str(v)) <= 2 for v in valores_unicos if pd.notna(v))
        
        if tem_numeros:
            colunas_problematicas.append(coluna)
            print(f"🔧 Corrigindo {coluna}...")
            
            # Aplicar mapeamento forçado baseado nos dicionários criados
            if coluna == 'ORIENC':
                mapeamento = {1: 'SUS', 2: 'Nao SUS', 3: 'Veio por conta propria', 8: 'Nao se aplica', 9: 'Sem informacao'}
            elif coluna == 'EXDIAG':
                mapeamento = {1: 'Exame Clinico e Patologia Clinica', 2: 'Exames por Imagem', 3: 'Endoscopia e Cirurgia Exploradora', 4: 'Anatomia Patologica', 5: 'Marcadores Tumorais', 8: 'Nao se aplica', 9: 'Sem Informacao'}
            elif coluna in ['CLIATEN', 'CLITRAT']:
                mapeamento = {1: 'ALERGIA IMUNOLOGIA', 2: 'CIRURGIA CARDIACA', 3: 'CABECA E PESCOCO', 4: 'CIRURGIA GERAL', 5: 'PEDIATRIA CIRURGICA', 6: 'CIRURGIA PLASTICA', 7: 'CIRURGIA TORAXICA', 8: 'CIRURGIA VASCULAR', 9: 'CLINICA MEDICA', 10: 'DERMATOLOGIA', 11: 'ENDOCRINOLOGIA', 12: 'GASTROCIRURGIA', 13: 'GASTROENTEROLOGIA', 14: 'GERIATRIA', 15: 'GINECOLOGIA', 16: 'GINECOLOGIA OBSTETRICIA', 17: 'HEMATOLOGIA CLINICA', 18: 'INFECTOLOGIA', 19: 'NEFROLOGIA', 20: 'NEUROCIRURGIA', 21: 'NEUROLOGIA', 22: 'OFTAMOLOGIA', 23: 'ONCOLOGIA CIRURGICA', 24: 'ONCOLOGIA CLINICA', 25: 'PEDIATRIA ONCOLOGICA', 26: 'ORTOPEDIA', 27: 'OTORRINOLARINGOLOGIA', 28: 'PEDIATRIA', 29: 'PNEUMOLOGIA', 30: 'PROCTOLOGIA', 31: 'RADIOTERAPIA', 32: 'UROLOGIA', 33: 'MASTOLOGIA', 34: 'ONCOLOGIA CUTANEA', 35: 'CIRURGIA PELVICA', 36: 'CIRURGIA ABDOMINAL', 37: 'ODONTOLOGIA', 38: 'CEMO', 39: 'ENDOSCOPIA', 40: 'ESTOMAGO ODONTOLOGIA', 41: 'PLASTICA REPARADORA', 42: 'TECIDO OSSEO E CONECTIVO', 43: 'HEMOTERAPIA', 44: 'MEDICINA NUCLEAR', 45: 'PSIQUIATRIA', 46: 'TRIAGEM', 47: 'CLINICA DA DOR', 48: 'SUPORTE TERAPEUTICO ONCOLOGICO', 50: 'ABDOMEN PELVICA', 51: 'TRANSPLANTE HEPATICO', 88: 'NAO SE APLICA'}
            elif coluna == 'TPCASO':
                mapeamento = {1: 'Analitico', 2: 'Nao Analitico'}
            elif coluna == 'SEXO':
                mapeamento = {1: 'Masculino', 2: 'Feminino', 9: 'Não informado'}
            elif coluna == 'RACACOR':
                mapeamento = {1: 'Branca', 2: 'Preta', 3: 'Amarela', 4: 'Parda', 5: 'Indigena', 9: 'Sem Informacao'}
            elif coluna == 'INSTRUC':
                mapeamento = {1: 'Nenhuma', 2: 'Fundamental incompleto', 3: 'Fundamental completo', 4: 'Nivel medio', 5: 'Nivel superior incompleto', 6: 'Nivel superior completo', 9: 'Sem informacao'}
            elif coluna == 'HISTFAMC':
                mapeamento = {1: 'Nao', 2: 'Sim', 9: 'Sem informacao'}
            elif coluna == 'ALCOOLIS':
                mapeamento = {1: 'Nunca', 2: 'Ex-consumidor', 3: 'Sim', 4: 'Nao avaliado', 8: 'Nao se aplica', 9: 'Sem Informacao'}
            elif coluna == 'TABAGISM':
                mapeamento = {1: 'Nunca', 2: 'Ex-consumidor', 3: 'Sim', 4: 'Nao avaliado', 8: 'Nao se aplica', 9: 'Sem Informacao'}
            elif coluna == 'ESTCONJ':
                mapeamento = {1: 'SOLTEIRO', 2: 'CASADO', 3: 'VIUVO', 4: 'SEPARADO JUDICIALMENTE', 5: 'UNIAO CONSENSUAL', 9: 'SEM INFORMACAO'}
            else:
                continue
            
            # Aplicar mapeamento com múltiplos métodos
            try:
                # Método 1: replace direto
                df[coluna] = df[coluna].replace(mapeamento)
                
                # Método 2: map com fallback
                df_temp = df[coluna].map(mapeamento)
                df[coluna] = df_temp.fillna(df[coluna])
                
                # Método 3: conversão string + replace
                df[coluna] = df[coluna].astype(str).replace({str(k): v for k, v in mapeamento.items()})
                
                print(f"  ✅ {coluna} corrigido!")
                
            except Exception as e:
                print(f"  ❌ Erro em {coluna}: {e}")

if not colunas_problematicas:
    print("🎉 Todas as colunas já estão mapeadas corretamente!")
else:
    print(f"\n🔧 Colunas corrigidas: {', '.join(colunas_problematicas)}")

print(f"\n🎯 Executando verificação final novamente...")


🔥 CORREÇÃO FINAL FORÇADA
🔧 Corrigindo SEXO...
  ✅ SEXO corrigido!
🔧 Corrigindo HISTFAMC...
  ✅ HISTFAMC corrigido!
🔧 Corrigindo ALCOOLIS...
  ✅ ALCOOLIS corrigido!
🔧 Corrigindo TABAGISM...
  ✅ TABAGISM corrigido!
🔧 Corrigindo ESTCONJ...
  ✅ ESTCONJ corrigido!
🔧 Corrigindo ORIENC...
  ✅ ORIENC corrigido!
🔧 Corrigindo EXDIAG...
  ✅ EXDIAG corrigido!
🔧 Corrigindo CLIATEN...
  ✅ CLIATEN corrigido!
🔧 Corrigindo CLITRAT...
  ✅ CLITRAT corrigido!

🔧 Colunas corrigidas: SEXO, HISTFAMC, ALCOOLIS, TABAGISM, ESTCONJ, ORIENC, EXDIAG, CLIATEN, CLITRAT

🎯 Executando verificação final novamente...


In [108]:
# RESULTADO FINAL DEFINITIVO - DataFrame completamente mapeado
print("🏆 RESULTADO FINAL DEFINITIVO")
print("=" * 50)

# Verificação final de todas as colunas
print("Status final dos mapeamentos:")
todas_mapeadas = True

for coluna in colunas_mapeadas_esperadas:
    if coluna in df.columns:
        valores_unicos = df[coluna].unique()[:3]
        tem_numeros = any(str(v).isdigit() and len(str(v)) <= 2 for v in valores_unicos if pd.notna(v))
        
        if tem_numeros:
            print(f"  ❌ {coluna}: AINDA TEM CÓDIGOS - {list(valores_unicos)}")
            todas_mapeadas = False
        else:
            print(f"  ✅ {coluna}: MAPEADO - {list(valores_unicos)}")

if todas_mapeadas:
    print(f"\n🎉 SUCESSO TOTAL! Todas as colunas estão mapeadas!")
else:
    print(f"\n⚠️ Algumas colunas ainda precisam de ajuste")

print(f"\n📊 DATAFRAME FINAL COM TODOS OS MAPEAMENTOS:")
print("=" * 60)

# Mostrar apenas as colunas mapeadas para verificação
colunas_mostrar = ['TPCASO', 'SEXO', 'RACACOR', 'ALCOOLIS', 'INSTRUC', 'ORIENC', 'EXDIAG', 'CLIATEN']
print("Amostra das principais colunas mapeadas:")
print(df[colunas_mostrar].head())

print(f"\n📋 DATAFRAME COMPLETO:")
df.head()


🏆 RESULTADO FINAL DEFINITIVO
Status final dos mapeamentos:
  ✅ TPCASO: MAPEADO - ['Nao Analitico', 'Analitico']
  ❌ SEXO: AINDA TEM CÓDIGOS - ['Feminino', 'Masculino', '3']
  ✅ RACACOR: MAPEADO - ['Branca', 'Sem Informacao', 'Preta']
  ✅ INSTRUC: MAPEADO - ['Sem informacao', 'Fundamental incompleto', 'Nenhuma']
  ✅ HISTFAMC: MAPEADO - ['Sim', 'Sem informacao', 'Nao']
  ✅ ALCOOLIS: MAPEADO - ['Nunca', 'Sem Informacao', 'Sim']
  ✅ TABAGISM: MAPEADO - ['Nunca', 'Sem Informacao', 'Sim']
  ✅ ESTCONJ: MAPEADO - ['VIUVO', 'SEM INFORMACAO', 'CASADO']
  ✅ ORIENC: MAPEADO - ['Sem informacao', 'SUS', 'Nao SUS']
  ✅ EXDIAG: MAPEADO - ['Anatomia Patologica', 'Exames por Imagem', 'Exame Clinico e Patologia Clinica']
  ✅ CLIATEN: MAPEADO - ['DERMATOLOGIA', 'OTORRINOLARINGOLOGIA', 'NEUROCIRURGIA']
  ✅ CLITRAT: MAPEADO - ['NAO SE APLICA', 'NEUROCIRURGIA', 'UROLOGIA']

⚠️ Algumas colunas ainda precisam de ajuste

📊 DATAFRAME FINAL COM TODOS OS MAPEAMENTOS:
Amostra das principais colunas mapeadas:
      

Unnamed: 0,TPCASO,SEXO,IDADE,LOCALNAS,RACACOR,INSTRUC,CLIATEN,CLITRAT,HISTFAMC,ALCOOLIS,...,UFUH,MUUH,OCUPACAO,DTDIAGNO,DTTRIAGE,DATAPRICON,DATAINITRT,DATAOBITO,VALOR_TOT,BASDIAGSP
0,Nao Analitico,Feminino,71,RJ,Branca,Sem informacao,DERMATOLOGIA,NAO SE APLICA,Sim,Nunca,...,RJ,3304557,888,10/03/2002,99/99/9999,02/06/2000,88/88/8888,,1,3
1,Nao Analitico,Masculino,0,99,Sem Informacao,Sem informacao,OTORRINOLARINGOLOGIA,NAO SE APLICA,Sem informacao,Sem Informacao,...,RJ,3304557,9999,02/01/2002,15/11/2000,11/12/2000,88/88/8888,,1,3
2,Analitico,Feminino,49,RJ,Branca,Sem informacao,NEUROCIRURGIA,NEUROCIRURGIA,Sim,Nunca,...,RJ,3304557,799,21/07/2002,99/99/9999,31/05/2000,21/06/2002,,1,3
3,Analitico,Masculino,66,ES,Branca,Sem informacao,UROLOGIA,UROLOGIA,Nao,Sem Informacao,...,RJ,3304557,985,27/05/2002,99/99/9999,06/06/2000,15/04/2002,,1,3
4,Analitico,Feminino,60,99,Branca,Sem informacao,ENDOCRINOLOGIA,CIRURGIA GERAL,Nao,Nunca,...,RJ,3304557,9999,21/08/2002,99/99/9999,15/10/2000,09/07/2002,,1,3


In [109]:
head = df.head()
head.to_csv('head_rhc00_mapeado.csv', index=False)