In [1]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
EXTRAÇÃO DE VARIÁVEIS ALIMENTARES (E_) PARA CLUSTERING
=====================================================
Input: /Users/marcelosilva/Desktop/clustering(0-4)/1-Sample/EnaniDS.csv
Output: /Users/marcelosilva/Desktop/clustering(0-4)/2-E-Choice/DatasetE.csv
Objetivo: Criar dataset limpo apenas com variáveis alimentares + id_anon
"""

import pandas as pd
import numpy as np
import os

print("🍎 EXTRAÇÃO DE VARIÁVEIS ALIMENTARES")
print("=" * 50)

# =============================================================================
# 1. DEFININDO CAMINHOS E VARIÁVEIS
# =============================================================================

# Caminhos
input_path = "/Users/marcelosilva/Desktop/clustering(0-4)/1-Sample/EnaniDS.csv"
output_dir = "/Users/marcelosilva/Desktop/clustering(0-4)/2-E-Choice"
output_path = os.path.join(output_dir, "DatasetE.csv")

# Criando diretório de output se não existir
os.makedirs(output_dir, exist_ok=True)

# Variáveis alimentares especificadas
food_variables = [
    'e01_leite_peito',
    'e02_agua', 
    'e03_filtrada_fervida',
    'e04_agua_com_acucar',
    'e05_cha',
    'e06_leite_vaca_po',
    'e07_leite_vaca_liquido',
    'e08_leite_soja_po',
    'e09_leite_soja_liquido',
    'e10_formula_infantil',
    'e11_suco',
    'e12_fruta_inteira',
    'e13_fruta_vezes',
    'e14_manga',
    'e16_comida_sal',
    'e17_sal_vezes',
    'e18_oferecida',
    'e181_pedacos',
    'e182_amassada',
    'e183_peneira',
    'e184_liquidificada',
    'e185_caldo',
    'e189_nao_sabe',
    'e19_mingau',
    'e20_iogurte',
    'e21_arroz',
    'e211a_pao_frances',
    'e212a_feito_em_casa',
    'e213a_industrializado',
    'e214a_nao_comeu',
    'e219a_nao_sabe',
    'e21a_pao',
    'e22_legumes',
    'e23_cenoura',
    'e24_couve',
    'e25_verduras',
    'e26_feijao',
    'e27_carne',
    'e28_figado',
    'e29_ovo',
    'e30_hamburger',
    'e31_salgadinhos',
    'e32_suco_industrializado',
    'e33_refrigerante',
    'e34_macarrao',
    'e35_biscoito',
    'e36_bala',
    'e37_tempero',
    'e38_farinhas',
    'e39_mamadeira',
    'e40_adocado'
]

print(f"📁 Input: {input_path}")
print(f"📁 Output: {output_path}")
print(f"🍽️ Variáveis alimentares: {len(food_variables)}")

# =============================================================================
# 2. CARREGANDO DATASET ORIGINAL
# =============================================================================

print(f"\n📊 CARREGANDO DATASET ORIGINAL")
print("-" * 40)

try:
    df_original = pd.read_csv(input_path)
    print(f"✅ Dataset carregado com sucesso!")
    print(f"   Linhas: {len(df_original):,}")
    print(f"   Colunas: {len(df_original.columns):,}")
    
except FileNotFoundError:
    print(f"❌ ERRO: Arquivo não encontrado em {input_path}")
    print(f"   Verifique se o caminho está correto")
    exit()
except Exception as e:
    print(f"❌ ERRO ao carregar arquivo: {e}")
    exit()

# Verificando se id_anon existe
if 'id_anon' not in df_original.columns:
    print(f"❌ ERRO: Coluna 'id_anon' não encontrada no dataset!")
    print(f"   Colunas disponíveis: {list(df_original.columns)[:10]}...")
    exit()

print(f"✅ Coluna 'id_anon' encontrada")

# =============================================================================
# 3. VERIFICANDO EXISTÊNCIA DAS VARIÁVEIS
# =============================================================================

print(f"\n🔍 VERIFICANDO VARIÁVEIS ALIMENTARES")
print("-" * 40)

# Verificando quais variáveis existem no dataset
existing_variables = []
missing_variables = []

for var in food_variables:
    if var in df_original.columns:
        existing_variables.append(var)
    else:
        missing_variables.append(var)

print(f"✅ Variáveis encontradas: {len(existing_variables)}/{len(food_variables)}")
print(f"❌ Variáveis ausentes: {len(missing_variables)}")

if missing_variables:
    print(f"\n⚠️ VARIÁVEIS AUSENTES:")
    for var in missing_variables[:10]:  # Mostra apenas as primeiras 10
        print(f"   - {var}")
    if len(missing_variables) > 10:
        print(f"   ... e mais {len(missing_variables) - 10} variáveis")

# =============================================================================
# 4. CRIANDO DATASET FINAL
# =============================================================================

print(f"\n📋 CRIANDO DATASET FINAL")
print("-" * 40)

# Selecionando apenas as variáveis existentes + id_anon
final_columns = ['id_anon'] + existing_variables
df_final = df_original[final_columns].copy()

print(f"✅ Dataset final criado:")
print(f"   Linhas: {len(df_final):,}")
print(f"   Colunas: {len(df_final.columns):,}")
print(f"   Variáveis alimentares: {len(existing_variables)}")

# =============================================================================
# 5. ANÁLISE RÁPIDA DOS DADOS
# =============================================================================

print(f"\n📊 ANÁLISE RÁPIDA DOS DADOS")
print("-" * 40)

# Verificando dados faltantes
missing_counts = df_final.isnull().sum()
total_missing = missing_counts.sum()

print(f"🔍 Dados faltantes:")
if total_missing == 0:
    print(f"✅ Nenhum dado faltante!")
else:
    print(f"⚠️ Total de missings: {total_missing:,}")
    variables_with_missing = missing_counts[missing_counts > 0]
    print(f"   Variáveis com missings: {len(variables_with_missing)}")
    
    if len(variables_with_missing) <= 10:
        for var, count in variables_with_missing.items():
            percentage = count / len(df_final) * 100
            print(f"     {var}: {count:,} ({percentage:.1f}%)")
    else:
        print(f"     (Mostrando top 5 com mais missings)")
        top_missing = variables_with_missing.nlargest(5)
        for var, count in top_missing.items():
            percentage = count / len(df_final) * 100
            print(f"     {var}: {count:,} ({percentage:.1f}%)")

# Tipos de dados
print(f"\n🔢 Tipos de dados:")
data_types = df_final.dtypes.value_counts()
for dtype, count in data_types.items():
    print(f"   {dtype}: {count} variáveis")

# Estatísticas das primeiras variáveis alimentares
print(f"\n📈 Estatísticas das primeiras 5 variáveis alimentares:")
if len(existing_variables) >= 5:
    sample_vars = existing_variables[:5]
    print(df_final[sample_vars].describe().round(3))
else:
    print(df_final[existing_variables].describe().round(3))

# =============================================================================
# 6. SALVANDO DATASET FINAL
# =============================================================================

print(f"\n💾 SALVANDO DATASET FINAL")
print("-" * 40)

try:
    df_final.to_csv(output_path, index=False, encoding='utf-8')
    print(f"✅ Dataset salvo com sucesso!")
    print(f"   Arquivo: {output_path}")
    print(f"   Tamanho do arquivo: {os.path.getsize(output_path) / 1024 / 1024:.1f} MB")
    
except Exception as e:
    print(f"❌ ERRO ao salvar arquivo: {e}")
    exit()

# =============================================================================
# 7. RESUMO FINAL
# =============================================================================

print(f"\n📊 RESUMO FINAL")
print("=" * 50)
print(f"🍎 Dataset original: {len(df_original):,} crianças")
print(f"🍽️ Variáveis solicitadas: {len(food_variables)}")
print(f"✅ Variáveis encontradas: {len(existing_variables)}")
print(f"❌ Variáveis ausentes: {len(missing_variables)}")
print(f"📋 Dataset final: {len(df_final):,} linhas × {len(df_final.columns)} colunas")
print(f"💾 Arquivo salvo: DatasetE.csv")

if missing_variables:
    print(f"\n⚠️ ATENÇÃO: {len(missing_variables)} variáveis não foram encontradas")
    print(f"   Verifique os nomes das variáveis no dataset original")

print(f"\n🚀 DATASET PRONTO PARA CLUSTERING!")
print(f"   Use o arquivo: {output_path}")
print("=" * 50)

🍎 EXTRAÇÃO DE VARIÁVEIS ALIMENTARES
📁 Input: /Users/marcelosilva/Desktop/clustering(0-4)/1-Sample/EnaniDS.csv
📁 Output: /Users/marcelosilva/Desktop/clustering(0-4)/2-E-Choice/DatasetE.csv
🍽️ Variáveis alimentares: 51

📊 CARREGANDO DATASET ORIGINAL
----------------------------------------


  df_original = pd.read_csv(input_path)


✅ Dataset carregado com sucesso!
   Linhas: 14,558
   Colunas: 741
✅ Coluna 'id_anon' encontrada

🔍 VERIFICANDO VARIÁVEIS ALIMENTARES
----------------------------------------
✅ Variáveis encontradas: 51/51
❌ Variáveis ausentes: 0

📋 CRIANDO DATASET FINAL
----------------------------------------
✅ Dataset final criado:
   Linhas: 14,558
   Colunas: 52
   Variáveis alimentares: 51

📊 ANÁLISE RÁPIDA DOS DADOS
----------------------------------------
🔍 Dados faltantes:
⚠️ Total de missings: 37,030
   Variáveis com missings: 11
     (Mostrando top 5 com mais missings)
     e13_fruta_vezes: 7,653 (52.6%)
     e14_manga: 7,653 (52.6%)
     e17_sal_vezes: 2,606 (17.9%)
     e181_pedacos: 2,606 (17.9%)
     e182_amassada: 2,606 (17.9%)

🔢 Tipos de dados:
   object: 49 variáveis
   float64: 2 variáveis
   int64: 1 variáveis

📈 Estatísticas das primeiras 5 variáveis alimentares:
       e01_leite_peito e02_agua e03_filtrada_fervida e04_agua_com_acucar  \
count            14558    14558            