In [1]:
import os
import pandas as pd

In [6]:
from collections import defaultdict

In [5]:
# Ruta base donde están tus carpetas de módulos
base_path = './2022'

# Lista para guardar los DataFrames
dataframes = []

# Recorrer carpetas y archivos
for root, dirs, files in os.walk(base_path):
    for file in files:
        if file.endswith('.csv'):
            file_path = os.path.join(root, file)
            print(f'📂 Evaluando archivo: {file_path}')
            try:
                df = pd.read_csv(file_path, encoding='utf-8', low_memory=False)
                print(f'✅ Cargado: {file} con {len(df)} registros')
                dataframes.append(df)
            except UnicodeDecodeError:
                try:
                    df = pd.read_csv(file_path, encoding='latin1', low_memory=False)
                    print(f'✅ Cargado con latin1: {file} con {len(df)} registros')
                    dataframes.append(df)
                except Exception as e:
                    print(f'❌ No se pudo leer {file}: {e}')





📂 Evaluando archivo: ./2022\784-Modulo01\Enaho01-2022-100.csv
✅ Cargado con latin1: Enaho01-2022-100.csv con 44122 registros
📂 Evaluando archivo: ./2022\784-Modulo02\ENAHO-TABLA-CIUO-88.csv
✅ Cargado con latin1: ENAHO-TABLA-CIUO-88.csv con 5195 registros
📂 Evaluando archivo: ./2022\784-Modulo02\ENAHO-TABLA-CNO-2015.csv
✅ Cargado con latin1: ENAHO-TABLA-CNO-2015.csv con 473 registros
📂 Evaluando archivo: ./2022\784-Modulo02\Enaho01-2022-200.csv
✅ Cargado con latin1: Enaho01-2022-200.csv con 121253 registros
📂 Evaluando archivo: ./2022\784-Modulo03\Enaho01a-2022-300.csv
✅ Cargado con latin1: Enaho01a-2022-300.csv con 110257 registros
📂 Evaluando archivo: ./2022\784-Modulo04\ENAHO-TABLA-PAISES.csv
✅ Cargado con latin1: ENAHO-TABLA-PAISES.csv con 203 registros
📂 Evaluando archivo: ./2022\784-Modulo04\ENAHO-TABLA-UBIGEO.csv
✅ Cargado con latin1: ENAHO-TABLA-UBIGEO.csv con 1320 registros
📂 Evaluando archivo: ./2022\784-Modulo04\Enaho01a-2022-400.csv
✅ Cargado con latin1: Enaho01a-2022-400.cs

In [8]:
# Diccionario para agrupar por encabezado
header_groups = defaultdict(list)

for root, dirs, files in os.walk(base_path):
    for file in files:
        if file.endswith('.csv'):
            file_path = os.path.join(root, file)
            try:
                # Leer solo encabezados
                df = pd.read_csv(file_path, encoding='latin1', nrows=0)
                header_tuple = tuple(df.columns)
                header_groups[header_tuple].append(file_path)
            except Exception as e:
                print(f'❌ No se pudo leer encabezado de {file}: {e}')



In [9]:
# Mostrar los grupos encontrados
print("\n📂 Archivos agrupados por encabezado:")
for i, (header, files) in enumerate(header_groups.items(), start=1):
    print(f"\n🔹 Grupo {i} ({len(files)} archivo(s)):")
    print("Encabezado:", header)
    for f in files:
        print(f"  - {f}")


📂 Archivos agrupados por encabezado:

🔹 Grupo 1 (1 archivo(s)):
Encabezado: ('AÑO', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'UBIGEO', 'DOMINIO', 'ESTRATO', 'PERIODO', 'TIPENC', 'FECENT', 'RESULT', 'PANEL', 'P22', 'P23', 'P24A', 'P24B', 'P25$1', 'P25$2', 'P25$3', 'P25$4', 'P25$5', 'P101', 'P102', 'P103', 'P103A', 'P104', 'P104A', 'P104B1', 'P104B2', 'P105A', 'P105B', 'P106', 'P106A', 'P106B', 'P107B1', 'P107C11', 'P107C12', 'P107C13', 'P107C14', 'P107C16', 'P107C17', 'P107C18', 'P107C19', 'P107C110', 'P107D1', 'P107B2', 'P107C21', 'P107C22', 'P107C23', 'P107C24', 'P107C26', 'P107C27', 'P107C28', 'P107C29', 'P107C210', 'P107D2', 'P107B3', 'P107C31', 'P107C32', 'P107C33', 'P107C34', 'P107C36', 'P107C37', 'P107C38', 'P107C39', 'P107C310', 'P107D3', 'P107B4', 'P107C41', 'P107C42', 'P107C43', 'P107C44', 'P107C46', 'P107C47', 'P107C48', 'P107C49', 'P107C410', 'P107D4', 'P107E', 'P110', 'P110A1', 'P110A', 'P110A_MODIFICADA', 'P110C', 'P110C1', 'P110C2', 'P110C3', 'P110D', 'P110E', 'P110F', 'P

In [None]:

# Lista de archivos seleccionados (rutas relativas desde base_path)
archivos_csv = [
    "784-Modulo01/Enaho01-2022-100.csv",
    "784-Modulo02/Enaho01-2022-200.csv",
    "784-Modulo03/Enaho01a-2022-300.csv",
    "784-Modulo04/Enaho01a-2022-400.csv",
    "784-Modulo05/Enaho01a-2022-500.csv",
    "784-Modulo07/Enaho01-2022-601.csv",
    "784-Modulo08/Enaho01-2022-602.csv",
    "784-Modulo09/Enaho01-2022-603.csv",
    "784-Modulo10/Enaho01-2022-604.csv",
    "784-Modulo11/Enaho01-2022-605.csv",
    "784-Modulo12/Enaho01-2022-606.csv",
    "784-Modulo13/Enaho01-2022-607.csv",
    "784-Modulo15/Enaho01-2022-609.csv",
    "784-Modulo16/Enaho01-2022-610.csv",
    "784-Modulo17/Enaho01-2022-611.csv",
    "784-Modulo18/Enaho01-2022-612.csv",
    "784-Modulo85/Enaho01B-2022-1.csv",
    "784-Modulo85/Enaho01B-2022-2.csv"
]

dataframes = []

for archivo in archivos_csv:
    ruta_completa = os.path.join(base_path, archivo)
    try:
        df = pd.read_csv(ruta_completa, encoding='latin1', low_memory=False)
        print(f'✅ Cargado: {archivo} con {len(df)} registros')
        dataframes.append(df)
    except Exception as e:
        print(f'❌ Error al leer {archivo}: {e}')


In [None]:
# Concatenar todos los DataFrames
if dataframes:
    df_total = pd.concat(dataframes, ignore_index=True)
    print(f'\n📊 Total de registros combinados: {len(df_total)}')

    # Exportar a archivo CSV final
    df_total.to_csv("enaho_2022_dataset_final.csv", index=False, encoding='utf-8-sig')
    print("📁 Archivo exportado como 'enaho_2022_dataset_final.csv'")
else:
    print("⚠️ No se cargó ningún archivo válido.")

In [2]:
import os
import pandas as pd

# Ruta base donde están las carpetas (ajusta si es necesario)
ruta_base = '2022'

# Nombre del archivo que queremos buscar
archivo_buscado = 'Enaho01-2022-612.csv'

# Buscar el archivo dentro de las subcarpetas
ruta_completa = None
for carpeta, subcarpetas, archivos in os.walk(ruta_base):
    if archivo_buscado in archivos:
        ruta_completa = os.path.join(carpeta, archivo_buscado)
        break

if ruta_completa:
    print(f"✅ Archivo encontrado: {ruta_completa}")
    # Leer el archivo
    df = pd.read_csv(ruta_completa, encoding='latin1')  # O cambia encoding si es necesario (utf-8, etc.)
    
    # Mostrar información básica del dataset
    print("\n📌 Columnas del dataset:")
    print(df.columns.tolist())

    print("\n📌 Primeras filas del dataset:")
    print(df.head())

    print("\n📌 Información general del dataset:")
    print(df.info())
else:
    print(f"❌ No se encontró el archivo {archivo_buscado} dentro de {ruta_base}")


✅ Archivo encontrado: 2022\784-Modulo18\Enaho01-2022-612.csv

📌 Columnas del dataset:
['AÑO', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'UBIGEO', 'DOMINIO', 'ESTRATO', 'P612N', 'P612', 'P612A', 'P612B', 'P612C', 'P612C1', 'P612G', 'P612H', 'TICUEST01', 'D612G', 'D612H', 'I612G', 'I612H', 'FACTOR07', 'NCONGLOME', 'SUB_CONGLOME']

📌 Primeras filas del dataset:
    AÑO  MES  CONGLOME  VIVIENDA  HOGAR  UBIGEO  DOMINIO  ESTRATO  P612N  \
0  2022    1      5030         8     11   10201        7        4      1   
1  2022    1      5030         8     11   10201        7        4      2   
2  2022    1      5030         8     11   10201        7        4      3   
3  2022    1      5030         8     11   10201        7        4      4   
4  2022    1      5030         8     11   10201        7        4      5   

   P612  ... P612G P612H TICUEST01 D612G             D612H I612G  \
0     2  ...                     2                                 
1     1  ...     0  1502         2        1526.1