In [1]:
pip install pandas pyreadstat openpyxl

Collecting pyreadstat
  Downloading pyreadstat-1.3.1-cp312-cp312-win_amd64.whl.metadata (1.3 kB)
Collecting narwhals>=2.0 (from pyreadstat)
  Downloading narwhals-2.6.0-py3-none-any.whl.metadata (11 kB)
Downloading pyreadstat-1.3.1-cp312-cp312-win_amd64.whl (2.4 MB)
   ---------------------------------------- 0.0/2.4 MB ? eta -:--:--
   ---------------------------------------  2.4/2.4 MB 19.1 MB/s eta 0:00:01
   ---------------------------------------- 2.4/2.4 MB 15.1 MB/s eta 0:00:00
Downloading narwhals-2.6.0-py3-none-any.whl (408 kB)
Installing collected packages: narwhals, pyreadstat
Successfully installed narwhals-2.6.0 pyreadstat-1.3.1
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import pandas as pd
import os

# --- Configuración de Archivos ---
# Reemplaza 'nombre_archivo.sav' con la ruta y nombre de tu archivo SPSS
archivo_spss = '2021.sav'
# Reemplaza 'salida.xlsx' con el nombre que deseas para el archivo Excel
archivo_excel = '2021.xlsx'

# --- 1. Lectura del archivo SPSS (.sav) ---
try:
    # pd.read_spss() lee el archivo SPSS y lo convierte en un DataFrame de pandas
    # Si tu archivo tiene etiquetas de valor (value labels),
    # puedes usar pyreadstat directamente para manejarlas,
    # pero para una conversión simple, read_spss() es suficiente.
    df = pd.read_spss(archivo_spss)
    print(f"✅ Archivo SPSS '{archivo_spss}' cargado exitosamente. Se encontraron {len(df)} registros.")

except FileNotFoundError:
    print(f"❌ ERROR: No se encontró el archivo '{archivo_spss}'.")
    exit()
except ImportError:
    print("❌ ERROR: La librería 'pyreadstat' no está instalada o falló al cargar el archivo.")
    print("Por favor, ejecuta: pip install pyreadstat")
    exit()
except Exception as e:
    print(f"❌ Ocurrió un error al leer el archivo SPSS: {e}")
    exit()

# --- 2. Escritura en formato Excel (.xlsx) ---
try:
    # .to_excel() guarda el DataFrame de pandas en un archivo Excel.
    # index=False evita escribir el índice del DataFrame como una columna en Excel.
    df.to_excel(archivo_excel, index=False)

    ruta_absoluta = os.path.abspath(archivo_excel)
    print(f"✅ Conversión finalizada. El archivo Excel se guardó en: {ruta_absoluta}")

except ImportError:
    print("❌ ERROR: La librería 'openpyxl' no está instalada.")
    print("Por favor, ejecuta: pip install openpyxl")
    exit()
except Exception as e:
    print(f"❌ Ocurrió un error al escribir el archivo Excel: {e}")
    exit()

✅ Archivo SPSS '2021.sav' cargado exitosamente. Se encontraron 10544 registros.
✅ Conversión finalizada. El archivo Excel se guardó en: c:\Users\Javier Chiquin\OneDrive\Documents\UVG\Cuarto año\Segundo Semestre\Data Science\Lab8DS\2021.xlsx


In [4]:
pip install pandas openpyxl

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [5]:
import pandas as pd
import glob
import os

# --- Configuración de Parámetros ---

# Define el rango de años de tus archivos
ANIO_INICIO = 2014
ANIO_FIN = 2023

# Nombre del archivo de salida
NOMBRE_SALIDA = 'fallecimientos_lesionados_totales.xlsx'

# Lista para almacenar todos los DataFrames
todos_los_datos = []
archivos_encontrados = 0

print(f"Iniciando la concatenación de archivos Excel de {ANIO_INICIO} a {ANIO_FIN}...")

# --- Proceso de Lectura y Concatenación ---

for anio in range(ANIO_INICIO, ANIO_FIN + 1):
    # Crea un patrón de búsqueda para el archivo de cada año
    # Por ejemplo: '*2014*.xlsx', '*2015*.xlsx', etc.
    patron_busqueda = f'*{anio}*.xlsx'
    
    # Busca el archivo que coincida con el patrón. glob.glob devuelve una lista.
    # Se toma el primer archivo encontrado con ese año.
    archivo = glob.glob(patron_busqueda)

    if archivo:
        ruta_archivo = archivo[0]
        try:
            # Lee el archivo Excel. Por defecto, lee la primera hoja.
            # Si tus datos están en una hoja específica (ej: 'Hoja1'), usa:
            # df_temp = pd.read_excel(ruta_archivo, sheet_name='Hoja1')
            df_temp = pd.read_excel(ruta_archivo)
            
            # **OPCIONAL:** Agrega una columna de Año para saber a qué archivo pertenecía cada registro
            df_temp['Año_Origen'] = anio
            
            # Agrega el DataFrame temporal a la lista
            todos_los_datos.append(df_temp)
            archivos_encontrados += 1
            print(f"   ✅ Leído: {os.path.basename(ruta_archivo)}")
            
        except Exception as e:
            print(f"   ❌ ERROR al leer {ruta_archivo}: {e}")
            
    else:
        print(f"   ⚠️ Advertencia: No se encontró ningún archivo para el año {anio} con el patrón '{patron_busqueda}'")

# Verifica si se encontró algún archivo
if not todos_los_datos:
    print("\n❌ FINALIZADO: No se encontró ningún archivo para concatenar. Verifica tus nombres de archivo.")
else:
    # Concatena todos los DataFrames de la lista en uno solo
    df_final = pd.concat(todos_los_datos, ignore_index=True)
    
    # --- Escritura del Archivo Final ---
    try:
        df_final.to_excel(NOMBRE_SALIDA, index=False)
        ruta_absoluta = os.path.abspath(NOMBRE_SALIDA)
        
        print("\n--- RESUMEN ---")
        print(f"✅ CONCATENACIÓN EXITOSA: Se unieron {archivos_encontrados} archivos.")
        print(f"Total de filas en el archivo final: {len(df_final)}")
        print(f"Archivo guardado como: {ruta_absoluta}")
        
    except Exception as e:
        print(f"\n❌ ERROR al escribir el archivo final '{NOMBRE_SALIDA}': {e}")

Iniciando la concatenación de archivos Excel de 2014 a 2023...
   ✅ Leído: 2014.xlsx
   ✅ Leído: 2015.xlsx
   ✅ Leído: 2016.xlsx
   ✅ Leído: 2017.xlsx
   ✅ Leído: 2018.xlsx
   ✅ Leído: 2019.xlsx
   ✅ Leído: 2020.xlsx
   ✅ Leído: 2021.xlsx
   ✅ Leído: 2022.xlsx
   ✅ Leído: 2023.xlsx

--- RESUMEN ---
✅ CONCATENACIÓN EXITOSA: Se unieron 10 archivos.
Total de filas en el archivo final: 100357
Archivo guardado como: c:\Users\Javier Chiquin\OneDrive\Documents\UVG\Cuarto año\Segundo Semestre\Data Science\Lab8DS\fallecimientos_lesionados_totales.xlsx
