In [52]:
import pandas as pd
import glob
import os


# Conteo por cada csv

In [53]:
def read_csv_flexible(path):
    # Intenta varios encodings
    for enc in ('utf-8', 'latin1', 'cp1252'):
        try:
            df = pd.read_csv(path, encoding=enc)
            break
        except UnicodeDecodeError:
            continue
    else:
        df = pd.read_csv(path, encoding='latin1', engine='python')
    df = df.loc[:, ~df.columns.str.match(r'^Unnamed')]
    return df

csv_files = glob.glob('Data/*.csv')
total_rows = 0
data_info = []

for csv_file in csv_files:
    df = read_csv_flexible(csv_file)
    name    = os.path.basename(csv_file)
    headers = list(df.columns)
    n_cols  = df.shape[1]
    n_rows  = df.shape[0]

    data_info.append({
        'Archivo': name,
        'Columnas': n_cols,
        'Filas': n_rows,
        'Encabezados': ', '.join(headers),
    })
    # print(f"Archivo: {name}")
    # print(f"Encabezados: {headers}")
    # print(f"Número de columnas: {n_cols}")
    # print(f"Número de filas: {n_rows}")
    # print('-' * 40)
    total_rows += n_rows
    
resumen_df = pd.DataFrame(data_info)
resumen_df
# resumen_df["Filas"].sum()



Unnamed: 0,Archivo,Columnas,Filas,Encabezados
0,alta verapaz.csv,17,295,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
1,bajaverapaz.csv,17,95,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
2,chimaltenango.csv,17,305,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
3,chiquimula.csv,17,137,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
4,ciudadcapital.csv,17,868,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
5,elprogreso.csv,17,98,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
6,escuintla.csv,17,394,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
7,guatemala.csv,17,1038,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
8,huehuetenango.csv,17,295,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."
9,izabal.csv,17,273,"CODIGO, DISTRITO, DEPARTAMENTO, MUNICIPIO, EST..."


# Conteo General

In [54]:
print(f"Total de filas en todos los CSV: {total_rows}")
print(f"Encabezados: {headers}")

Total de filas en todos los CSV: 6607
Encabezados: ['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO', 'DIRECCION', 'TELEFONO', 'SUPERVISOR', 'DIRECTOR', 'NIVEL', 'SECTOR', 'AREA', 'STATUS', 'MODALIDAD', 'JORNADA', 'PLAN', 'DEPARTAMENTAL']


# Combinar todos los csv

In [55]:
df_list = [read_csv_flexible(f) for f in csv_files]
df_all  = pd.concat(df_list, ignore_index=True)

output_path = 'Data/RepublicaGuatemala.csv'
df_all.to_csv(output_path, index=False, encoding='utf-8-sig')

print(f"Unidos {len(csv_files)} archivos en {output_path}, total filas: {len(df_all)}")

Unidos 23 archivos en Data/RepublicaGuatemala.csv, total filas: 6607
