# Proyecto 1: Análisis de Datos de Defunciones INE (2013-2022)

Lectura y consolidación de datos de defunciones del INE

In [8]:
# Importar librerías necesarias
import pandas as pd
import pyreadstat
import os
from pathlib import Path

In [9]:
# Definir ruta de datos y años a procesar
data_path = Path('data/defunciones')
years = range(2013, 2023)  # 2013 a 2022

# Verificar que los archivos existen
print("Archivos encontrados:")
for year in years:
    file_path = data_path / f"{year}.sav"
    if file_path.exists():
        print(f"  ✓ {year}.sav")
    else:
        print(f"  ✗ {year}.sav (NO ENCONTRADO)")

Archivos encontrados:
  ✓ 2013.sav
  ✓ 2014.sav
  ✓ 2015.sav
  ✓ 2016.sav
  ✓ 2017.sav
  ✓ 2018.sav
  ✓ 2019.sav
  ✓ 2020.sav
  ✓ 2021.sav
  ✓ 2022.sav


In [10]:
# Leer todos los archivos .sav y verificar columnas
dataframes = {}
all_columns = {}

print("Leyendo archivos .sav...\n")

for year in years:
    file_path = data_path / f"{year}.sav"
    if file_path.exists():
        try:
            # Leer archivo .sav
            df, meta = pyreadstat.read_sav(str(file_path))
            dataframes[year] = df
            all_columns[year] = list(df.columns)
            print(f"Año {year}: {len(df)} registros, {len(df.columns)} columnas")
        except Exception as e:
            print(f"Error al leer {year}.sav: {e}")

Leyendo archivos .sav...

Año 2013: 76639 registros, 28 columnas
Año 2014: 77807 registros, 27 columnas
Año 2015: 80876 registros, 28 columnas
Año 2016: 82565 registros, 28 columnas
Año 2017: 81726 registros, 28 columnas
Año 2018: 83071 registros, 27 columnas
Año 2019: 85600 registros, 27 columnas
Año 2020: 96001 registros, 27 columnas
Año 2021: 118465 registros, 27 columnas
Año 2022: 95386 registros, 27 columnas


In [11]:
# Recopilar todas las columnas únicas de todos los años
print("\n" + "="*60)
print("ANÁLISIS DE COLUMNAS POR AÑO")
print("="*60)

if len(all_columns) > 0:
    # Obtener todas las columnas únicas
    all_unique_columns = set()
    for columns in all_columns.values():
        all_unique_columns.update(columns)
    
    all_unique_columns = sorted(all_unique_columns)
    
    print(f"\nTotal de columnas únicas en todos los años: {len(all_unique_columns)}")
    
    # Crear un dataframe que muestre qué columnas tiene cada año
    columnas_por_año = {}
    for col in all_unique_columns:
        columnas_por_año[col] = {}
        for year in sorted(all_columns.keys()):
            columnas_por_año[col][year] = '✓' if col in all_columns[year] else 'NULL'
    
    df_columnas = pd.DataFrame(columnas_por_año).T
    
    print(f"\nResumen de disponibilidad de columnas por año:")
    print(f"(✓ = columna presente, NULL = columna ausente)\n")
    display(df_columnas)
    
    # Contar cuántas columnas faltan por año
    print("\nResumen de columnas por año:")
    for year in sorted(all_columns.keys()):
        num_cols = len(all_columns[year])
        faltantes = len(all_unique_columns) - num_cols
        print(f"  Año {year}: {num_cols} columnas (faltan {faltantes})")
else:
    print("No se pudieron leer archivos")


ANÁLISIS DE COLUMNAS POR AÑO

Total de columnas únicas en todos los años: 29

Resumen de disponibilidad de columnas por año:
(✓ = columna presente, NULL = columna ausente)



Unnamed: 0,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
Areag,✓,✓,✓,✓,✓,,,,,
Asist,✓,✓,✓,✓,✓,✓,✓,✓,✓,✓
Añoocu,,,✓,✓,✓,✓,✓,✓,✓,✓
Añoreg,✓,✓,✓,✓,✓,✓,✓,✓,✓,✓
Caudef,✓,✓,✓,✓,✓,✓,✓,✓,✓,✓
Cerdef,✓,✓,✓,✓,✓,✓,✓,✓,✓,✓
Ciuodif,✓,✓,✓,✓,✓,✓,✓,✓,✓,✓
Depocu,✓,✓,✓,✓,✓,✓,✓,✓,✓,✓
Depreg,✓,✓,✓,✓,✓,✓,✓,✓,✓,✓
Diaocu,✓,✓,✓,✓,✓,✓,✓,✓,✓,✓



Resumen de columnas por año:
  Año 2013: 28 columnas (faltan 1)
  Año 2014: 27 columnas (faltan 2)
  Año 2015: 28 columnas (faltan 1)
  Año 2016: 28 columnas (faltan 1)
  Año 2017: 28 columnas (faltan 1)
  Año 2018: 27 columnas (faltan 2)
  Año 2019: 27 columnas (faltan 2)
  Año 2020: 27 columnas (faltan 2)
  Año 2021: 27 columnas (faltan 2)
  Año 2022: 27 columnas (faltan 2)


In [12]:
# Unir todos los dataframes incluyendo TODAS las columnas (rellenando con NULL donde no existan)
if len(dataframes) > 0:
    print("\n" + "="*60)
    print("CONSOLIDACIÓN DE DATOS")
    print("="*60)
    
    # Agregar columna de año a cada dataframe
    dfs_with_year = []
    for year, df in dataframes.items():
        df_copy = df.copy()
        df_copy['año'] = year
        dfs_with_year.append(df_copy)
    
    # Concatenar todos los dataframes
    # sort=False mantiene el orden de columnas, las columnas faltantes se rellenan con NaN
    df_consolidado = pd.concat(dfs_with_year, ignore_index=True, sort=False)
    
    print(f"\n✓ Dataframe consolidado creado exitosamente")
    print(f"  - Total de registros: {len(df_consolidado):,}")
    print(f"  - Total de columnas (incluyendo 'año'): {len(df_consolidado.columns)}")
    print(f"  - Años incluidos: {sorted(df_consolidado['año'].unique())}")
    
    # Mostrar valores nulos por columna
    print(f"\nColumnas con valores NULL:")
    null_counts = df_consolidado.isnull().sum()
    null_cols = null_counts[null_counts > 0].sort_values(ascending=False)
    
    if len(null_cols) > 0:
        print(f"\nTotal de columnas con NULL: {len(null_cols)}")
        print("\nTop 10 columnas con más valores NULL:")
        for col, count in null_cols.head(10).items():
            pct = (count / len(df_consolidado)) * 100
            print(f"  {col}: {count:,} ({pct:.1f}%)")
    else:
        print("  No hay valores NULL en el dataframe")
    
    print(f"\nPrimeras filas del dataframe consolidado:")
    display(df_consolidado.head())
else:
    print("\n⚠ No se pudieron leer archivos")
    df_consolidado = None


CONSOLIDACIÓN DE DATOS

✓ Dataframe consolidado creado exitosamente
  - Total de registros: 878,136
  - Total de columnas (incluyendo 'año'): 30
  - Años incluidos: [np.int64(2013), np.int64(2014), np.int64(2015), np.int64(2016), np.int64(2017), np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022)]

Columnas con valores NULL:

Total de columnas con NULL: 3

Top 10 columnas con más valores NULL:
  caudef.descrip: 801,497 (91.3%)
  Areag: 478,523 (54.5%)
  Añoocu: 154,446 (17.6%)

Primeras filas del dataframe consolidado:


Unnamed: 0,Depreg,Mupreg,Mesreg,Añoreg,Depocu,Mupocu,Areag,Sexo,Diaocu,Mesocu,...,Predif,Dredif,Mredif,Caudef,caudef.descrip,Asist,Ocur,Cerdef,año,Añoocu
0,13.0,1327,10.0,2013.0,13.0,1327,2.0,1.0,4.0,10.0,...,320.0,13.0,1327,R000,"Taquicardia, no especificada",1.0,6.0,9.0,2013,
1,1.0,101,5.0,2013.0,1.0,101,1.0,2.0,25.0,5.0,...,320.0,1.0,101,R000,"Taquicardia, no especificada",1.0,2.0,1.0,2013,
2,8.0,801,5.0,2013.0,8.0,801,2.0,2.0,25.0,5.0,...,320.0,8.0,801,R000,"Taquicardia, no especificada",5.0,6.0,9.0,2013,
3,6.0,606,3.0,2013.0,6.0,606,2.0,1.0,19.0,3.0,...,9999.0,99.0,9999,R000,"Taquicardia, no especificada",5.0,6.0,9.0,2013,
4,1.0,113,4.0,2013.0,1.0,113,2.0,2.0,7.0,4.0,...,9999.0,99.0,9999,R011,"Soplo cardíaco, no especificado",5.0,6.0,1.0,2013,


In [13]:
# Mostrar distribución de registros por año
if df_consolidado is not None:
    print("\n" + "="*60)
    print("DISTRIBUCIÓN DE REGISTROS POR AÑO")
    print("="*60)
    
    distribucion = df_consolidado['año'].value_counts().sort_index()
    print("\n", distribucion)
    
    print(f"\nTotal general: {len(df_consolidado):,} registros")


DISTRIBUCIÓN DE REGISTROS POR AÑO

 año
2013     76639
2014     77807
2015     80876
2016     82565
2017     81726
2018     83071
2019     85600
2020     96001
2021    118465
2022     95386
Name: count, dtype: int64

Total general: 878,136 registros
