In [2]:
import os
import glob
import pandas as pd

dir_origen = "./datos_crudos"
dir_filtrado = "./datos_latam"

os.makedirs(dir_filtrado, exist_ok=True)

csv_files = glob.glob(os.path.join(dir_origen, "*.csv"))

paises_sudamerica = [
    "Argentina", "Bolivia", "Brazil", "Chile", "Colombia", "Ecuador", 
    "Paraguay", "Peru", "Suriname", "Uruguay", "Venezuela", 
    "French Guiana", "Guyana"
]

for csv_lectura in csv_files:
    print(f"Procesando: {csv_lectura}")
    df = pd.read_csv(csv_lectura)
    
    df_filtrado = df[df["ref_area.label"].isin(paises_sudamerica)]
    
    nombre_archivo = os.path.splitext(os.path.basename(csv_lectura))[0]
    
    nuevo_nombre = f"{nombre_archivo}_sudamerica.csv"
    
    ruta_salida = os.path.join(dir_filtrado, nuevo_nombre)
    
    df_filtrado.to_csv(ruta_salida, index=False)
    
    print(f"Guardado: {ruta_salida} ({len(df_filtrado)} filas)")

    

Procesando: ./datos_crudos\poblacion_economicamente_activa_por_sexo_edad.csv
Guardado: ./datos_latam\poblacion_economicamente_activa_por_sexo_edad_sudamerica.csv (26453 filas)
Procesando: ./datos_crudos\salarios_promedio_mensuales_por_sexo.csv
Guardado: ./datos_latam\salarios_promedio_mensuales_por_sexo_sudamerica.csv (1936 filas)
Procesando: ./datos_crudos\tasa_desempleo_por_sexo_edad.csv
Guardado: ./datos_latam\tasa_desempleo_por_sexo_edad_sudamerica.csv (21377 filas)
Procesando: ./datos_crudos\tasa_empleo_informal_por_sexo.csv
Guardado: ./datos_latam\tasa_empleo_informal_por_sexo_sudamerica.csv (438 filas)
Procesando: ./datos_crudos\tasa_empleo_por_sexo_edad.csv
Guardado: ./datos_latam\tasa_empleo_por_sexo_edad_sudamerica.csv (18528 filas)


In [7]:
import pandas as pd
import glob
import os

# Directorio donde están los archivos filtrados de Sudamérica
dir_filtrado = "./datos_sudamerica"

# Obtener todos los archivos CSV de Sudamérica
csv_sudamerica = glob.glob(os.path.join(dir_filtrado, "*.csv"))

años_totales = []

for csv_file in csv_sudamerica:
    print(f"Analizando: {csv_file}")
    df = pd.read_csv(csv_file)
    
    if 'time' in df.columns:
        print(f"  Usando columna: time")
        
        años_archivo = df['time'].dropna().astype(str)
        
        años_numericos = []
        for año in años_archivo:
            try:
                año_str = str(año)[:4]
                if año_str.isdigit():
                    años_numericos.append(int(año_str))
            except:
                continue
        
        if años_numericos:
            años_totales.extend(años_numericos)
            print(f"  Años encontrados: {min(años_numericos)} - {max(años_numericos)}")
        else:
            print(f"  No se encontraron años válidos")
    else:
        print(f"  No se encontró columna 'time' en {csv_file}")

if años_totales:
    año_minimo = min(años_totales)
    año_maximo = max(años_totales)
    print(f"\n=== RESULTADO FINAL ===")
    print(f"Año mínimo en todos los datos: {año_minimo}")
    print(f"Año máximo en todos los datos: {año_maximo}")
    print(f"Rango total de años: {año_maximo - año_minimo + 1} años")
else:
    print("No se encontraron datos de años en los archivos")

Analizando: ./datos_sudamerica\poblacion_economicamente_activa_por_sexo_edad_sudamerica.csv
  Usando columna: time
  Años encontrados: 1951 - 2024
Analizando: ./datos_sudamerica\salarios_promedio_mensuales_por_sexo_sudamerica.csv
  Usando columna: time
  Años encontrados: 1982 - 2024
Analizando: ./datos_sudamerica\tasa_desempleo_por_sexo_edad_sudamerica.csv
  Usando columna: time
  Años encontrados: 1969 - 2024
Analizando: ./datos_sudamerica\tasa_empleo_informal_por_sexo_sudamerica.csv
  Usando columna: time
  Años encontrados: 2001 - 2024
Analizando: ./datos_sudamerica\tasa_empleo_por_sexo_edad_sudamerica.csv
  Usando columna: time
  Años encontrados: 1973 - 2024

=== RESULTADO FINAL ===
Año mínimo en todos los datos: 1951
Año máximo en todos los datos: 2024
Rango total de años: 74 años
