In [1]:
pip install pandas pyreadstat openpyxl

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import pandas as pd
import os

# --- Configuración de Archivos ---
# Reemplaza 'nombre_archivo.sav' con la ruta y nombre de tu archivo SPSS
archivo_spss = '2021.sav'
# Reemplaza 'salida.xlsx' con el nombre que deseas para el archivo Excel
archivo_excel = '2021.xlsx'

# --- 1. Lectura del archivo SPSS (.sav) ---
try:
    # pd.read_spss() lee el archivo SPSS y lo convierte en un DataFrame de pandas
    # Si tu archivo tiene etiquetas de valor (value labels),
    # puedes usar pyreadstat directamente para manejarlas,
    # pero para una conversión simple, read_spss() es suficiente.
    df = pd.read_spss(archivo_spss)
    print(f"✅ Archivo SPSS '{archivo_spss}' cargado exitosamente. Se encontraron {len(df)} registros.")

except FileNotFoundError:
    print(f"❌ ERROR: No se encontró el archivo '{archivo_spss}'.")
    exit()
except ImportError:
    print("❌ ERROR: La librería 'pyreadstat' no está instalada o falló al cargar el archivo.")
    print("Por favor, ejecuta: pip install pyreadstat")
    exit()
except Exception as e:
    print(f"❌ Ocurrió un error al leer el archivo SPSS: {e}")
    exit()

# --- 2. Escritura en formato Excel (.xlsx) ---
try:
    # .to_excel() guarda el DataFrame de pandas en un archivo Excel.
    # index=False evita escribir el índice del DataFrame como una columna en Excel.
    df.to_excel(archivo_excel, index=False)

    ruta_absoluta = os.path.abspath(archivo_excel)
    print(f"✅ Conversión finalizada. El archivo Excel se guardó en: {ruta_absoluta}")

except ImportError:
    print("❌ ERROR: La librería 'openpyxl' no está instalada.")
    print("Por favor, ejecuta: pip install openpyxl")
    exit()
except Exception as e:
    print(f"❌ Ocurrió un error al escribir el archivo Excel: {e}")
    exit()

✅ Archivo SPSS '2021.sav' cargado exitosamente. Se encontraron 10544 registros.
✅ Conversión finalizada. El archivo Excel se guardó en: c:\Users\Javier Chiquin\OneDrive\Documents\UVG\Cuarto año\Segundo Semestre\Data Science\Lab8DS\2021.xlsx


In [4]:
pip install pandas openpyxl

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.2 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [5]:
import pandas as pd
import glob
import os

# --- Configuración de Parámetros ---

# Define el rango de años de tus archivos
ANIO_INICIO = 2014
ANIO_FIN = 2023

# Nombre del archivo de salida
NOMBRE_SALIDA = 'fallecimientos_lesionados_totales.xlsx'

# Lista para almacenar todos los DataFrames
todos_los_datos = []
archivos_encontrados = 0

print(f"Iniciando la concatenación de archivos Excel de {ANIO_INICIO} a {ANIO_FIN}...")

# --- Proceso de Lectura y Concatenación ---

for anio in range(ANIO_INICIO, ANIO_FIN + 1):
    # Crea un patrón de búsqueda para el archivo de cada año
    # Por ejemplo: '*2014*.xlsx', '*2015*.xlsx', etc.
    patron_busqueda = f'*{anio}*.xlsx'
    
    # Busca el archivo que coincida con el patrón. glob.glob devuelve una lista.
    # Se toma el primer archivo encontrado con ese año.
    archivo = glob.glob(patron_busqueda)

    if archivo:
        ruta_archivo = archivo[0]
        try:
            # Lee el archivo Excel. Por defecto, lee la primera hoja.
            # Si tus datos están en una hoja específica (ej: 'Hoja1'), usa:
            # df_temp = pd.read_excel(ruta_archivo, sheet_name='Hoja1')
            df_temp = pd.read_excel(ruta_archivo)
            
            # **OPCIONAL:** Agrega una columna de Año para saber a qué archivo pertenecía cada registro
            df_temp['Año_Origen'] = anio
            
            # Agrega el DataFrame temporal a la lista
            todos_los_datos.append(df_temp)
            archivos_encontrados += 1
            print(f"   ✅ Leído: {os.path.basename(ruta_archivo)}")
            
        except Exception as e:
            print(f"   ❌ ERROR al leer {ruta_archivo}: {e}")
            
    else:
        print(f"   ⚠️ Advertencia: No se encontró ningún archivo para el año {anio} con el patrón '{patron_busqueda}'")

# Verifica si se encontró algún archivo
if not todos_los_datos:
    print("\n❌ FINALIZADO: No se encontró ningún archivo para concatenar. Verifica tus nombres de archivo.")
else:
    # Concatena todos los DataFrames de la lista en uno solo
    df_final = pd.concat(todos_los_datos, ignore_index=True)
    
    # --- Escritura del Archivo Final ---
    try:
        df_final.to_excel(NOMBRE_SALIDA, index=False)
        ruta_absoluta = os.path.abspath(NOMBRE_SALIDA)
        
        print("\n--- RESUMEN ---")
        print(f"✅ CONCATENACIÓN EXITOSA: Se unieron {archivos_encontrados} archivos.")
        print(f"Total de filas en el archivo final: {len(df_final)}")
        print(f"Archivo guardado como: {ruta_absoluta}")
        
    except Exception as e:
        print(f"\n❌ ERROR al escribir el archivo final '{NOMBRE_SALIDA}': {e}")

Iniciando la concatenación de archivos Excel de 2014 a 2023...
   ✅ Leído: 2014.xlsx
   ✅ Leído: 2015.xlsx
   ✅ Leído: 2016.xlsx
   ✅ Leído: 2017.xlsx
   ✅ Leído: 2018.xlsx
   ✅ Leído: 2019.xlsx
   ✅ Leído: 2020.xlsx
   ✅ Leído: 2021.xlsx
   ✅ Leído: 2022.xlsx
   ✅ Leído: 2023.xlsx

--- RESUMEN ---
✅ CONCATENACIÓN EXITOSA: Se unieron 10 archivos.
Total de filas en el archivo final: 100357
Archivo guardado como: c:\Users\Javier Chiquin\OneDrive\Documents\UVG\Cuarto año\Segundo Semestre\Data Science\Lab8DS\fallecimientos_lesionados_totales.xlsx


In [2]:
import pandas as pd

# =========================
# RUTAS DE ENTRADA/SALIDA
# =========================
PATH_DICT = "akJPkytmTlGr1QQoommBxUNXhZ9Qhwph.xlsx"            # "excel con nombre raro" (diccionario)
PATH_FALLE = "fallecimientos_lesionados_totales.xlsx"          # archivo unificado 2014–2023
SHEET_FALLE = "Sheet1"                                         # ajusta si tu hoja tiene otro nombre
OUT_CSV = "fallecimientos_lesionados_totales_clean.csv"        # salida limpia (CSV)
# OUT_XLSX = "fallecimientos_lesionados_totales_clean.xlsx"    # si prefieres Excel, descomenta y usa to_excel


# =========================
# UTILIDADES
# =========================
def _normalize_str(x):
    if pd.isna(x):
        return x
    s = str(x).strip()
    return " ".join(s.split())

def _parse_dictionary(path_dict: str) -> dict:
    """
    Lee el diccionario (una hoja con varios bloques) y devuelve:
    maps = { 'Nombre de Variable' : { 'codigo': 'etiqueta', ... }, ... }
    """
    df = pd.read_excel(path_dict, sheet_name=0)
    # Renombrar columnas genéricas detectadas
    cols = list(df.columns)
    # Esperado: [col0, codigo, etiqueta, extra], aunque los nombres reales vienen "raros"
    # Tomamos la primera como 'col0', segunda 'codigo', tercera 'etiqueta', cuarta 'extra'
    ren = {}
    if len(cols) >= 1: ren[cols[0]] = "col0"
    if len(cols) >= 2: ren[cols[1]] = "codigo"
    if len(cols) >= 3: ren[cols[2]] = "etiqueta"
    if len(cols) >= 4: ren[cols[3]] = "extra"
    df = df.rename(columns=ren)

    # Nombre de variable en col0, y las filas de datos tienen 'codigo' numérico y 'etiqueta'
    df["var"] = df["col0"].where(df["col0"].notna(), None)
    # Filas con "Valor" son encabezado del sub-bloque: no es nombre de variable
    df["var"] = df["var"].mask(df["var"].eq("Valor")).ffill()

    # Filas que realmente son códigos (número)
    def _is_digit_like(x):
        s = str(x).strip()
        # acepta enteros y enteros con .0
        try:
            int(float(s))
            return True
        except:
            return False

    mask_codes = df["codigo"].apply(_is_digit_like)
    maps = {}
    for var, sub in df[mask_codes].groupby("var"):
        # código → etiqueta (todo a str y sin espacios raros)
        mapping = {}
        for c, e in zip(sub["codigo"], sub["etiqueta"]):
            if pd.isna(c): 
                continue
            key = str(int(float(str(c).strip())))
            val = _normalize_str(e)
            mapping[key] = val
        maps[_normalize_str(var)] = mapping
    return maps

def _map_to_label(series: pd.Series, mapping: dict) -> pd.Series:
    """
    Convierte códigos a etiquetas usando 'mapping'.
    Si el valor ya es etiqueta (aparece en mapping.values()), lo deja igual.
    Si no encuentra match, deja el valor original.
    """
    if not mapping:
        return series
    label_set = set(mapping.values())

    def convert(v):
        if pd.isna(v):
            return v
        v_norm = _normalize_str(v)

        # Ya es etiqueta conocida
        if v_norm in label_set:
            return v_norm

        # Intentar por código (acepta "1", "01", 1.0, etc.)
        key = None
        try:
            key = str(int(float(v_norm)))
        except:
            key = v_norm  # por si viene como string exacto del código

        return mapping.get(key, v_norm)

    return series.apply(convert)


# =========================
# CARGA DICCIONARIO
# =========================
maps = _parse_dictionary(PATH_DICT)

# Puente entre nombres de columnas del dataset y nombres de variables en el diccionario
BRIDGE = {
    "día_sem_ocu": "Día de la semana de ocurrencia",
    "g_hora": "Grupo de hora",
    "mes_ocu": "Mes de ocurrencia",

    # territoriales (mantener por nombre SIEMPRE)
    "depto_ocu": "Departamento",
    "mupio_ocu": "Municipio de ocurrencia",

    "zona_ocu": "Zona de ocurrencia",
    "área_geo_ocu": "Área geográfica",

    # víctima/persona
    "sexo_víc": "Sexo de la víctima",
    "sexo_per": "Sexo de la víctima",      # en algunas bases usan *_per
    "g_edad": "Grupo de edad",
    "mayor_menor": "Mayor o menor",

    # evento/vehículo
    "tipo_eve": "Tipo de evento",
    "tipo_acc": "Tipo de evento",
    "tipo_veh": "Tipo de vehículo",
    "color_veh": "Color del vehículo",
    "marca_veh": "Marca del vehículo",
    "g_modelo_veh": "Modelo del vehículo",
}

# =========================
# CARGA Y LIMPIEZA
# =========================
df = pd.read_excel(PATH_FALLE, sheet_name=SHEET_FALLE)

# 1) Normalizar strings (trim/espacios múltiples) sin tocar numéricos
for c in df.select_dtypes(include=["object"]).columns:
    df[c] = df[c].map(_normalize_str)

# 2) Aplicar mapeos: SIEMPRE a etiqueta (nunca códigos)
for col, dict_var in BRIDGE.items():
    if col in df.columns:
        mapping = maps.get(dict_var, {})
        df[col] = _map_to_label(df[col], mapping)

# 3) (Opcional) Si quieres forzar que 'hora_ocu' y 'día_ocu' queden como enteros limpios:
# for c in ["hora_ocu", "día_ocu"]:
#     if c in df.columns:
#         df[c] = pd.to_numeric(df[c], errors="coerce").astype("Int64")

# =========================
# GUARDAR SALIDA
# =========================
df.to_csv(OUT_CSV, index=False, encoding="utf-8")
# Si prefieres Excel (más pesado/lento en archivos grandes), usa:
# df.to_excel(OUT_XLSX, index=False)
print("Listo. Archivo limpio guardado en:", OUT_CSV)


Listo. Archivo limpio guardado en: fallecimientos_lesionados_totales_clean.csv


In [3]:
import os
import pandas as pd

def desglosar_columnas(path_archivo: str, sheet: str | None = None, encoding: str = "utf-8", guardar_txt: bool = False, path_salida: str | None = None):
    """
    Lee SOLO los nombres de columnas de un CSV o Excel (.xlsx/.xls) y los devuelve como lista.
    - path_archivo: ruta al archivo
    - sheet: nombre de hoja (solo Excel). Si None, usa la primera hoja
    - encoding: codificación para CSV (por defecto 'utf-8')
    - guardar_txt: si True, guarda los nombres en un .txt
    - path_salida: ruta del .txt a guardar. Si None, crea uno al lado del archivo
    """
    ext = os.path.splitext(path_archivo)[1].lower()

    if ext == ".csv":
        # Solo encabezado (rápido y liviano)
        df = pd.read_csv(path_archivo, nrows=0, encoding=encoding)
    elif ext in [".xlsx", ".xls"]:
        if sheet is None:
            # Detectar primera hoja automáticamente
            xls = pd.ExcelFile(path_archivo)
            sheet = xls.sheet_names[0]
        df = pd.read_excel(path_archivo, sheet_name=sheet, nrows=0)
    else:
        raise ValueError(f"Extensión no soportada: {ext}. Usa CSV o Excel (.xlsx/.xls).")

    columnas = list(map(str, df.columns))

    # Mostrar en el notebook (orden natural)
    print(f"Total de columnas: {len(columnas)}")
    for c in columnas:
        print(c)

    # Guardar opcionalmente
    if guardar_txt:
        if path_salida is None:
            base, _ = os.path.splitext(path_archivo)
            sufijo = f"_{sheet}" if sheet else ""
            path_salida = f"{base}{sufijo}_columnas.txt"
        with open(path_salida, "w", encoding="utf-8") as f:
            for c in columnas:
                f.write(f"{c}\n")
        print(f"\nArchivo de columnas guardado en: {path_salida}")

    return columnas

# =========================
# EJEMPLOS DE USO (quita el # y ajusta rutas):
# columnas_csv = desglosar_columnas("ruta/archivo.csv", encoding="latin-1", guardar_txt=True)
columnas_xlsx = desglosar_columnas("2023.xlsx", sheet="Sheet1", guardar_txt=True)


Total de columnas: 25
núm_corre
año_ocu
día_ocu
hora_ocu
g_hora
g_hora_5
mes_ocu
día_sem_ocu
depto_ocu
mupio_ocu
zona_ocu
sexo_per
edad_per
g_edad_80ymás
g_edad_60ymás
edad_quinquenales
mayor_menor
tipo_veh
marca_veh
color_veh
modelo_veh
g_modelo_veh
tipo_eve
fall_les
int_o_noint

Archivo de columnas guardado en: 2023_Sheet1_columnas.txt


In [6]:
import os
import pandas as pd

def desglosar_columnas(path_archivo: str, sheet: str | None = None, encoding: str = "utf-8", guardar_txt: bool = False, path_salida: str | None = None):
    """
    Lee SOLO los nombres de columnas de un CSV o Excel (.xlsx/.xls) y los devuelve como lista.
    - path_archivo: ruta al archivo
    - sheet: nombre de hoja (solo Excel). Si None, usa la primera hoja
    - encoding: codificación para CSV (por defecto 'utf-8')
    - guardar_txt: si True, guarda los nombres en un .txt
    - path_salida: ruta del .txt a guardar. Si None, crea uno al lado del archivo
    """
    ext = os.path.splitext(path_archivo)[1].lower()

    if ext == ".csv":
        # Solo encabezado (rápido y liviano)
        df = pd.read_csv(path_archivo, nrows=0, encoding=encoding)
    elif ext in [".xlsx", ".xls"]:
        if sheet is None:
            # Detectar primera hoja automáticamente
            xls = pd.ExcelFile(path_archivo)
            sheet = xls.sheet_names[0]
        df = pd.read_excel(path_archivo, sheet_name=sheet, nrows=0)
    else:
        raise ValueError(f"Extensión no soportada: {ext}. Usa CSV o Excel (.xlsx/.xls).")

    columnas = list(map(str, df.columns))

    # Mostrar en el notebook (orden natural)
    print(f"Total de columnas: {len(columnas)}")
    for c in columnas:
        print(c)

    # Guardar opcionalmente
    if guardar_txt:
        if path_salida is None:
            base, _ = os.path.splitext(path_archivo)
            sufijo = f"_{sheet}" if sheet else ""
            path_salida = f"{base}{sufijo}_columnas.txt"
        with open(path_salida, "w", encoding="utf-8") as f:
            for c in columnas:
                f.write(f"{c}\n")
        print(f"\nArchivo de columnas guardado en: {path_salida}")

    return columnas

# =========================
# EJEMPLOS DE USO (quita el # y ajusta rutas):
columnas_csv = desglosar_columnas("fallecimientos_2014_2023_estandarizado.csv", encoding="latin-1", guardar_txt=True)
#columnas_xlsx = desglosar_columnas("fallecimientos_lesionados_totales_clean.csv", sheet="Sheet1", guardar_txt=True)


Total de columnas: 24
aÃ±o_ocu
dÃ­a_ocu
hora_ocu
g_hora
g_hora_5
mes_ocu
dÃ­a_sem_ocu
depto_ocu
mupio_ocu
zona_ocu
sexo_per
edad_per
g_edad_80ymÃ¡s
g_edad_60ymÃ¡s
edad_quinquenales
mayor_menor
tipo_veh
marca_veh
color_veh
modelo_veh
g_modelo_veh
tipo_eve
fall_les
int_o_noint

Archivo de columnas guardado en: fallecimientos_2014_2023_estandarizado_columnas.txt


In [2]:
import os
import pandas as pd

def csv_a_excel(path_csv: str,
                path_xlsx: str | None = None,
                sheet_name: str = "Sheet1",
                sep: str = ",",
                encoding: str = "utf-8",
                dtype_backend: str = "pyarrow"):
    """
    Convierte un archivo CSV a Excel (.xlsx).
    - path_csv: ruta del CSV de entrada
    - path_xlsx: ruta del Excel de salida (si None, usa el mismo nombre .xlsx)
    - sheet_name: nombre de la hoja destino
    - sep: separador del CSV (',' por defecto; usa ';' si tu CSV lo requiere)
    - encoding: codificación (utf-8, latin-1, etc.)
    - dtype_backend: 'pyarrow' (recomendado) o 'numpy'
    """
    if path_xlsx is None:
        base, _ = os.path.splitext(path_csv)
        path_xlsx = base + ".xlsx"

    df = pd.read_csv(path_csv, sep=sep, encoding=encoding, dtype_backend=dtype_backend)
    # Escribir a Excel
    df.to_excel(path_xlsx, index=False, sheet_name=sheet_name)
    print(f"✅ Convertido: {path_csv} → {path_xlsx} (hoja: {sheet_name})")

# ==== Ejemplo de uso básico ====
#csv_a_excel("fallecimientos_lesionados_totales_clean.csv")  # genera datos.xlsx
csv_a_excel("fallecimientos_lesionados_totales_clean.csv", "salida.xlsx", sheet_name="Datos", sep=";", encoding="latin-1")


✅ Convertido: fallecimientos_lesionados_totales_clean.csv → salida.xlsx (hoja: Datos)


In [9]:
import re
import unicodedata
import pandas as pd

def solo_letras(s: str, keep_digits_underscore: bool = True) -> str:
    """
    Normaliza un texto:
      - elimina tildes y diacríticos (áéíóúüñ → aeiouun)
      - elimina caracteres no deseados
      - comprime espacios/guiones en guion_bajo y limpia extremos
    Si keep_digits_underscore=True, permite [a-z0-9_]; si False, solo [a-z].
    """
    if s is None:
        return s
    # a) quitar espacios extremos
    s = str(s).strip()
    # b) normalizar y remover diacríticos
    s = unicodedata.normalize("NFD", s)
    s = "".join(ch for ch in s if unicodedata.category(ch) != "Mn")  # sin marcas
    # c) a minúsculas
    s = s.lower()
    # d) reemplazar separadores por "_"
    s = re.sub(r"[ \t\-./]+", "_", s)
    # e) filtrar caracteres
    if keep_digits_underscore:
        s = re.sub(r"[^a-z0-9_]", "", s)
    else:
        s = re.sub(r"[^a-z]", "", s)
    # f) comprimir múltiples "_"
    s = re.sub(r"_+", "_", s).strip("_")
    return s

# ==== aplicar a un DataFrame ya cargado ====
df = pd.read_csv("fallecimientos_2014_2023_estandarizado.csv", encoding="utf-8")
df.columns = [solo_letras(c, keep_digits_underscore=True) for c in df.columns]

print("Total de columnas:", len(df.columns))
for c in df.columns:
    print(c)

# (Opcional) guardar con encabezados limpios
df.to_csv("fallecimientos_2014_2023_estandarizado2.csv", index=False, encoding="utf-8")


  df = pd.read_csv("fallecimientos_2014_2023_estandarizado.csv", encoding="utf-8")


Total de columnas: 24
ano_ocu
dia_ocu
hora_ocu
g_hora
g_hora_5
mes_ocu
dia_sem_ocu
depto_ocu
mupio_ocu
zona_ocu
sexo_per
edad_per
g_edad_80ymas
g_edad_60ymas
edad_quinquenales
mayor_menor
tipo_veh
marca_veh
color_veh
modelo_veh
g_modelo_veh
tipo_eve
fall_les
int_o_noint
