In [5]:
import pandas as pd
import numpy as np

def analisar_variavel_completa(csv_path, dicionario_path):
    """
    Analisa cada vari√°vel do CSV cruzando com o dicion√°rio de dados
    """
    
    # Carregar dados
    print("üìä Carregando dados...")
    df_dados = pd.read_csv(csv_path)
    df_dicionario = pd.read_excel(dicionario_path)
    
    print(f"‚úÖ CSV carregado: {df_dados.shape[0]} linhas x {df_dados.shape[1]} colunas")
    print(f"‚úÖ Dicion√°rio carregado: {df_dicionario.shape[0]} vari√°veis")
    
    # Verificar colunas do dicion√°rio
    print("\nüìã Colunas do dicion√°rio:")
    print(df_dicionario.columns.tolist())
    
    # Fun√ß√£o para analisar uma vari√°vel espec√≠fica
    def analisar_variavel(nome_variavel):
        print(f"\n{'='*80}")
        print(f"üîç AN√ÅLISE: {nome_variavel}")
        print(f"{'='*80}")
        
        # Buscar descri√ß√£o no dicion√°rio
        descricao_row = df_dicionario[df_dicionario['variavel'] == nome_variavel]
        
        if not descricao_row.empty:
            descricao = descricao_row['descricao'].iloc[0]
            print(f"üìù DESCRI√á√ÉO: {descricao}")
        else:
            print(f"‚ö†Ô∏è  VARI√ÅVEL N√ÉO ENCONTRADA NO DICION√ÅRIO")
        
        # Verificar se vari√°vel existe no dataset
        if nome_variavel not in df_dados.columns:
            print(f"‚ùå VARI√ÅVEL N√ÉO EXISTE NO DATASET")
            return
        
        # An√°lise da vari√°vel no dataset
        coluna = df_dados[nome_variavel]
        
        # Informa√ß√µes b√°sicas
        total_registros = len(coluna)
        valores_ausentes = coluna.isnull().sum()
        valores_validos = total_registros - valores_ausentes
        pct_validos = (valores_validos / total_registros) * 100
        pct_ausentes = (valores_ausentes / total_registros) * 100
        
        print(f"\nüìä INFORMA√á√ïES B√ÅSICAS:")
        print(f"   ‚Ä¢ Tipo: {coluna.dtype}")
        print(f"   ‚Ä¢ Valores v√°lidos: {valores_validos} ({pct_validos:.1f}%)")
        print(f"   ‚Ä¢ Valores ausentes: {valores_ausentes} ({pct_ausentes:.1f}%)")
        print(f"   ‚Ä¢ Valores √∫nicos: {coluna.nunique()}")
        
        # Mostrar todos os valores √∫nicos da vari√°vel
        if valores_validos > 0:  # S√≥ se h√° dados v√°lidos
            valores_unicos = coluna.dropna().value_counts()
            
            # Limitar a 10 se houver muitos valores
            if len(valores_unicos) > 10:
                valores_para_mostrar = valores_unicos.head(10)
                mostrar_mais = True
            else:
                valores_para_mostrar = valores_unicos
                mostrar_mais = False
            
            print(f"\nüè∑Ô∏è VALORES: ", end="")
            
            # Criar lista dos valores
            lista_valores = []
            for valor in valores_para_mostrar.index:
                count = valores_para_mostrar[valor]
                pct = (count / valores_validos) * 100
                lista_valores.append(f"{valor} ({count}, {pct:.1f}%)")
            
            # Mostrar valores separados por v√≠rgula
            print(", ".join(lista_valores))
            
            # Indicar se h√° mais valores
            if mostrar_mais:
                restantes = len(valores_unicos) - 10
                print(f"   ... e mais {restantes} valores √∫nicos")
        
        else:
            print(f"\n‚ö†Ô∏è NENHUM VALOR V√ÅLIDO")
        
        # Recomenda√ß√£o de a√ß√£o
        print(f"\nüí° RECOMENDA√á√ÉO PRELIMINAR:")
        
        # Verificar se √© tautol√≥gica (baseado no nome)
        tautologicas = ['k12_tempo', 'k28_aleitamento', 'k29_alimentacao', 
                       'k22_amamentou', 'k245_utilizou_mamadeira']
        
        if nome_variavel in tautologicas:
            print(f"   üö® REMOVER - Vari√°vel tautol√≥gica identificada")
        elif nome_variavel == 'id_anon':
            print(f"   üö® REMOVER - Vari√°vel de identifica√ß√£o")
        elif coluna.isnull().sum()/len(coluna) > 0.3:
            print(f"   ‚ö†Ô∏è  AVALIAR - Mais de 30% de valores ausentes")
        elif nome_variavel == 'k25_mamadeira':
            print(f"   üîÑ TRANSFORMAR - Recodificar para exposi√ß√£o √† mamadeira")
        elif coluna.dtype == 'object' and coluna.nunique() > 15:
            print(f"   üîÑ TRANSFORMAR - Alta cardinalidade, considerar target encoding")
        elif coluna.dtype == 'object':
            print(f"   üîÑ TRANSFORMAR - Aplicar one-hot encoding")
        else:
            print(f"   ‚úÖ MANTER - Vari√°vel adequada para ML")
    
    return analisar_variavel

# Criar fun√ß√£o de an√°lise
analisar_variavel = analisar_variavel_completa(
    '/Users/marcelosilva/Desktop/copia2 - artigo peer/predi√ß√£o_amamenta√ß√£o/7-limpeza do banco de dados/cs.csv',
    '/Users/marcelosilva/Desktop/copia2 - artigo peer/predi√ß√£o_amamenta√ß√£o/6 - limpeza e pre processamento/4-Dicionario-ENANI-2019 (1).xlsx'
)

# Exemplo de uso para analisar uma vari√°vel espec√≠fica:
# analisar_variavel('aleitamento_materno_exclusivo')

# Para analisar todas as vari√°veis em sequ√™ncia:
def analisar_todas_variaveis():
    df_dados = pd.read_csv('/Users/marcelosilva/Desktop/copia2 - artigo peer/predi√ß√£o_amamenta√ß√£o/7-limpeza do banco de dados/cs.csv')
    
    print("üîç INICIANDO AN√ÅLISE DE TODAS AS VARI√ÅVEIS")
    print(f"Total de vari√°veis: {len(df_dados.columns)}")
    
    for i, variavel in enumerate(df_dados.columns, 1):
        print(f"\nüî¢ [{i}/{len(df_dados.columns)}]")
        analisar_variavel(variavel)
        
        # Pausa para leitura (opcional)
        if i % 5 == 0:  # A cada 5 vari√°veis
            resposta = input(f"\n‚è∏Ô∏è  Analisadas {i} vari√°veis. Continuar? (s/n): ")
            if resposta.lower() != 's':
                break

# Para criar um resumo de todas as vari√°veis do CSV com suas descri√ß√µes:
def verificar_variaveis_no_dicionario():
    """
    Verifica quais vari√°veis do CSV existem no dicion√°rio e traz suas descri√ß√µes
    """
    df_dados = pd.read_csv('/Users/marcelosilva/Desktop/copia2 - artigo peer/predi√ß√£o_amamenta√ß√£o/7-limpeza do banco de dados/cs.csv')
    df_dicionario = pd.read_excel('/Users/marcelosilva/Desktop/copia2 - artigo peer/predi√ß√£o_amamenta√ß√£o/6 - limpeza e pre processamento/4-Dicionario-ENANI-2019 (1).xlsx')
    
    print("üîç VERIFICANDO VARI√ÅVEIS DO CSV NO DICION√ÅRIO")
    print(f"üìä CSV: {len(df_dados.columns)} vari√°veis")
    print(f"üìñ Dicion√°rio: {len(df_dicionario)} entradas")
    print("="*100)
    
    encontradas = 0
    nao_encontradas = 0
    
    for i, variavel in enumerate(df_dados.columns, 1):
        print(f"\n[{i:3d}/{len(df_dados.columns)}] {variavel}")
        
        # Buscar no dicion√°rio
        descricao_row = df_dicionario[df_dicionario['variavel'] == variavel]
        
        if not descricao_row.empty:
            encontradas += 1
            descricao = descricao_row['descricao'].iloc[0]
            print(f"    ‚úÖ DESCRI√á√ÉO: {descricao}")
            
        else:
            nao_encontradas += 1
            print(f"    ‚ùå N√ÉO ENCONTRADA NO DICION√ÅRIO")
            
        # AN√ÅLISE DOS DADOS REAIS DO CSV
        coluna = df_dados[variavel]
        
        # Informa√ß√µes b√°sicas
        total_registros = len(coluna)
        valores_ausentes = coluna.isnull().sum()
        valores_validos = total_registros - valores_ausentes
        pct_validos = (valores_validos / total_registros) * 100
        pct_ausentes = (valores_ausentes / total_registros) * 100
        
        print(f"    üìä V√°lidos: {valores_validos} ({pct_validos:.1f}%), Ausentes: {valores_ausentes} ({pct_ausentes:.1f}%)")
        
        # Mostrar valores √∫nicos do CSV (limitado a 10)
        if valores_validos > 0:
            valores_unicos = coluna.dropna().value_counts()
            
            # Limitar a 10 se houver muitos valores
            if len(valores_unicos) > 10:
                valores_para_mostrar = valores_unicos.head(10)
                mostrar_mais = True
            else:
                valores_para_mostrar = valores_unicos
                mostrar_mais = False
            
            # Criar lista dos valores
            lista_valores = []
            for valor in valores_para_mostrar.index:
                count = valores_para_mostrar[valor]
                pct = (count / valores_validos) * 100
                lista_valores.append(f"{valor} ({count}, {pct:.1f}%)")
            
            # Mostrar valores
            print(f"    üè∑Ô∏è  VALORES: {', '.join(lista_valores)}")
            
            # Indicar se h√° mais valores
            if mostrar_mais:
                restantes = len(valores_unicos) - 10
                print(f"    ... e mais {restantes} valores √∫nicos")
        
        else:
            print(f"    ‚ö†Ô∏è  NENHUM VALOR V√ÅLIDO")
    
    print("\n" + "="*100)
    print(f"üìä RESUMO:")
    print(f"   ‚úÖ Encontradas: {encontradas} vari√°veis")
    print(f"   ‚ùå N√£o encontradas: {nao_encontradas} vari√°veis")
    print(f"   üìà Taxa de correspond√™ncia: {encontradas/len(df_dados.columns)*100:.1f}%")

# Executar verifica√ß√£o completa
verificar_variaveis_no_dicionario()

üìä Carregando dados...


  warn(msg)


‚úÖ CSV carregado: 1960 linhas x 173 colunas
‚úÖ Dicion√°rio carregado: 2165 vari√°veis

üìã Colunas do dicion√°rio:
['bloco', 'variavel', 'descricao', 'origem', 'tamanho', 'tipo', 'n_decimais', 'valor', 'descricao_labels', 'imputada', 'metodo_imputacao', 'observacoes (referencias, calculos, notas)']
üîç VERIFICANDO VARI√ÅVEIS DO CSV NO DICION√ÅRIO
üìä CSV: 173 vari√°veis
üìñ Dicion√°rio: 2165 entradas

[  1/173] aleitamento_materno_exclusivo
    ‚ùå N√ÉO ENCONTRADA NO DICION√ÅRIO
    üìä V√°lidos: 1960 (100.0%), Ausentes: 0 (0.0%)
    üè∑Ô∏è  VALORES: 0 (1040, 53.1%), 1 (920, 46.9%)

[  2/173] id_anon
    ‚úÖ DESCRI√á√ÉO: id_anon - C√≥digo de identifica√ß√£o da crian√ßa
    üìä V√°lidos: 1960 (100.0%), Ausentes: 0 (0.0%)
    üè∑Ô∏è  VALORES: 10951009303 (1, 0.1%), 11231013107 (1, 0.1%), 10121030603 (1, 0.1%), 10121003303 (1, 0.1%), 10683029204 (1, 0.1%), 10703052203 (1, 0.1%), 10703023904 (1, 0.1%), 10701057704 (1, 0.1%), 10701013804 (1, 0.1%), 10138031703 (1, 0.1%)
    ... e 

  warn(msg)
