# Limpieza de datos de hospitalizaciones 2020

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.formula.api as snf
import seaborn as sns

In [3]:
df20 = pd.read_csv("1-2020.csv", delimiter= ";", encoding = "latin1")
df20.columns = df20.columns.str.strip()

In [4]:
# Mostrar los nombres de columnas para verificar
print("Columnas de df20:", df20.columns)

Columnas de df20: Index(['Diagnóstico principal (CIE10MC)', 'Total Nacional',
       'Comunidades y Ciudades Autónomas', 'Provincias', 'Sexo', 'Total'],
      dtype='object')


In [5]:
df20.dtypes

Diagnóstico principal (CIE10MC)     object
Total Nacional                      object
Comunidades y Ciudades Autónomas    object
Provincias                          object
Sexo                                object
Total                               object
dtype: object

In [6]:
# LIMPIEZA COLUMNA TOTAL
df20['Total'] = pd.to_numeric(df20['Total'].astype(str).str.replace('.', '', regex=False), errors='coerce').fillna(0).astype(int)

In [7]:
df20['Total'] = df20['Total'].apply(lambda x: str(x).replace('.', '') if pd.notnull(x) else '0').astype(int)

In [8]:

df20['Total'] = df20['Total'].replace('', '0').astype(str).str.replace('.', '', regex=False).astype(int)

In [9]:
df20.dtypes

Diagnóstico principal (CIE10MC)     object
Total Nacional                      object
Comunidades y Ciudades Autónomas    object
Provincias                          object
Sexo                                object
Total                                int32
dtype: object

In [10]:
df20.head()

Unnamed: 0,Diagnóstico principal (CIE10MC),Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Sexo,Total
0,0106 COVID-19 U07.1,Total Nacional,,,Ambos sexos,1556482
1,0106 COVID-19 U07.1,Total Nacional,,,Hombres,896018
2,0106 COVID-19 U07.1,Total Nacional,,,Mujeres,660463
3,0106 COVID-19 U07.1,Total Nacional,01 Andalucía,04 Almería,Ambos sexos,10321
4,0106 COVID-19 U07.1,Total Nacional,01 Andalucía,04 Almería,Hombres,6655


In [11]:
df20['Total'].isnull().sum()

0

In [12]:
df20['Comunidades y Ciudades Autónomas'] = df20['Comunidades y Ciudades Autónomas'].fillna('')
df20['Provincias'] = df20['Provincias'].fillna('')

In [13]:
df20['Combinada'] = df20['Comunidades y Ciudades Autónomas'].str.cat(df20['Provincias'], sep=' ')

In [14]:
df20.head(1)

Unnamed: 0,Diagnóstico principal (CIE10MC),Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Sexo,Total,Combinada
0,0106 COVID-19 U07.1,Total Nacional,,,Ambos sexos,1556482,


In [15]:
df20 = df20[df20.columns[[0,4,5,6]]]

In [16]:
df20

Unnamed: 0,Diagnóstico principal (CIE10MC),Sexo,Total,Combinada
0,0106 COVID-19 U07.1,Ambos sexos,1556482,
1,0106 COVID-19 U07.1,Hombres,896018,
2,0106 COVID-19 U07.1,Mujeres,660463,
3,0106 COVID-19 U07.1,Ambos sexos,10321,01 Andalucía 04 Almería
4,0106 COVID-19 U07.1,Hombres,6655,01 Andalucía 04 Almería
...,...,...,...,...
1744,1008 Otras enfermedades del sistema respirator...,Hombres,592,18 Ceuta
1745,1008 Otras enfermedades del sistema respirator...,Mujeres,583,18 Ceuta
1746,1008 Otras enfermedades del sistema respirator...,Ambos sexos,1730,19 Melilla
1747,1008 Otras enfermedades del sistema respirator...,Hombres,1114,19 Melilla


In [17]:
df20['Combinada'].unique()

array([' ', '01 Andalucía 04 Almería', '01 Andalucía 11 Cádiz',
       '01 Andalucía 14 Córdoba', '01 Andalucía 18 Granada',
       '01 Andalucía 21 Huelva', '01 Andalucía 23 Jaén',
       '01 Andalucía 29 Málaga', '01 Andalucía 41 Sevilla',
       '02 Aragón 22 Huesca', '02 Aragón 44 Teruel',
       '02 Aragón 50 Zaragoza', '03 Asturias, Principado de ',
       '04 Balears, Illes ', '05 Canarias 35 Palmas, Las',
       '05 Canarias 38 Santa Cruz de Tenerife', '06 Cantabria ',
       '07 Castilla y León 05 Ávila', '07 Castilla y León 09 Burgos',
       '07 Castilla y León 24 León', '07 Castilla y León 34 Palencia',
       '07 Castilla y León 37 Salamanca', '07 Castilla y León 40 Segovia',
       '07 Castilla y León 42 Soria', '07 Castilla y León 47 Valladolid',
       '07 Castilla y León 49 Zamora',
       '08 Castilla - La Mancha 02 Albacete',
       '08 Castilla - La Mancha 13 Ciudad Real',
       '08 Castilla - La Mancha 16 Cuenca',
       '08 Castilla - La Mancha 19 Guadalajara',
 

In [18]:
# RENOMBRADO DE COLUMNAS
df20.rename(
    columns = {'Combinada': 'Provincia',
              'Diagnóstico principal (CIE10MC)': 'Diagnóstico',
              'Total': 'Hospitalizaciones'},
    inplace = True
)

In [19]:
df20 = df20[['Diagnóstico', 'Provincia', 'Sexo', 'Hospitalizaciones']]

In [20]:
mapeo_combinada = {
    '01 Andalucía 04 Almería': 'Almería',
    '01 Andalucía 11 Cádiz': 'Cádiz',
    '01 Andalucía 14 Córdoba': 'Córdoba',
    '01 Andalucía 18 Granada': "Granada",
    '01 Andalucía 21 Huelva': 'Huelva',
    '01 Andalucía 23 Jaén': 'Jaén',
    '01 Andalucía 29 Málaga': 'Málaga',
    '01 Andalucía 41 Sevilla': 'Sevilla',
    '02 Aragón 22 Huesca': 'Huesca',
    '02 Aragón 44 Teruel': 'Teruel',
    '02 Aragón 50 Zaragoza': 'Zaragoza',
    '03 Asturias, Principado de ': 'Asturias',
    '04 Balears, Illes ': 'Islas Baleares',
    '05 Canarias 35 Palmas, Las': 'Islas Canarias',
    '05 Canarias 38 Santa Cruz de Tenerife': 'Islas Canarias',
    '06 Cantabria ': 'Cantabria',
    '07 Castilla y León 05 Ávila': 'Ávila',
    '07 Castilla y León 09 Burgos': 'Burgos',
    '07 Castilla y León 24 León': 'León',
    '07 Castilla y León 34 Palencia': 'Palencia',
    '07 Castilla y León 37 Salamanca': 'Salamanca',
    '07 Castilla y León 40 Segovia': 'Segovia',
    '07 Castilla y León 42 Soria': 'Soria',
    '07 Castilla y León 47 Valladolid': 'Valladolid',
    '07 Castilla y León 49 Zamora': 'Zamora',
    '08 Castilla - La Mancha 02 Albacete': 'Albacete',
    '08 Castilla - La Mancha 13 Ciudad Real': 'Ciudad Real',
    '08 Castilla - La Mancha 16 Cuenca': 'Cuenca',
    '08 Castilla - La Mancha 19 Guadalajara': 'Guadalajara',
    '08 Castilla - La Mancha 45 Toledo': 'Toledo',
    '09 Cataluña 08 Barcelona': 'Barcelona',
    '09 Cataluña 17 Girona': 'Girona',
    '09 Cataluña 25 Lleida': 'Lleida',
    '09 Cataluña 43 Tarragona': 'Tarragona',
    '10 Comunitat Valenciana 03 Alicante/Alacant': 'Alicante',
    '10 Comunitat Valenciana 12 Castellón/Castelló': 'Castellón',
    '10 Comunitat Valenciana 46 Valencia/València': 'Valencia',
    '11 Extremadura 06 Badajoz': 'Badajoz',
    '11 Extremadura 10 Cáceres': 'Cáceres',
    '12 Galicia 15 Coruña, A': 'A Coruña',
    '12 Galicia 27 Lugo': 'Lugo',
    '12 Galicia 32 Ourense': 'Ourense',
    '12 Galicia 36 Pontevedra': 'Pontevedra',
    '13 Madrid, Comunidad de ': 'Madrid',
    '14 Murcia, Región de ': 'Murcia',
    '15 Navarra, Comunidad Foral de ': 'Navarra',
    '16 País Vasco 01 Araba/Álava': 'Álava',
    '16 País Vasco 48 Bizkaia': 'Bizkaia',
    '16 País Vasco 20 Gipuzkoa': 'Gipuzkoa',
    '17 Rioja, La ': 'La Rioja',
    '18 Ceuta ': 'Ceuta',
    '19 Melilla ': 'Melilla'
}

df20['Provincia'] = df20['Provincia'].map(mapeo_combinada)

In [21]:
# Crear un filtro para seleccionar filas donde "Provincia" es NaN
filtro = df20['Provincia'].isna()

# Aplicar el filtro para obtener solo las filas donde "Provincia" es NaN
df20_nan_provincia = df20.loc[filtro]

# Mostrar el resultado
df20_nan_provincia


Unnamed: 0,Diagnóstico,Provincia,Sexo,Hospitalizaciones
0,0106 COVID-19 U07.1,,Ambos sexos,1556482
1,0106 COVID-19 U07.1,,Hombres,896018
2,0106 COVID-19 U07.1,,Mujeres,660463
159,"0202 Neoplasias malignas de tráquea, bronquios...",,Ambos sexos,309377
160,"0202 Neoplasias malignas de tráquea, bronquios...",,Hombres,223606
161,"0202 Neoplasias malignas de tráquea, bronquios...",,Mujeres,85771
318,0905 Enfermedades de la circulación pulmonar I...,,Ambos sexos,220909
319,0905 Enfermedades de la circulación pulmonar I...,,Hombres,102274
320,0905 Enfermedades de la circulación pulmonar I...,,Mujeres,118635
477,1001 Infecciones agudas de las vías respirator...,,Ambos sexos,169633


In [22]:
df20 = df20.dropna()

In [23]:
df20.head(3)

Unnamed: 0,Diagnóstico,Provincia,Sexo,Hospitalizaciones
3,0106 COVID-19 U07.1,Almería,Ambos sexos,10321
4,0106 COVID-19 U07.1,Almería,Hombres,6655
5,0106 COVID-19 U07.1,Almería,Mujeres,3665


In [24]:
# CREACIÓN DE OTRA COLUMNA PROVINCIA ID
columna_duplicada = df20['Provincia']
if 'ColumnaDuplicada' in df20.columns:
    df20.drop(columns=['ColumnaDuplicada'], inplace=True)
df20.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [25]:
df20.rename(
    columns = {'ColumnaDuplicada': 'Provincia_ID'},
    inplace = True
)

In [26]:
mapeo_provincias = {
    "Álava": 1,
    "Albacete": 2,
    "Alicante": 3,
    "Almería": 4,
    "Ávila": 5,
    "Badajoz": 6,
    "Islas Baleares": 7,
    "Barcelona": 8,
    "Burgos": 9,
    "Cáceres": 10,
    "Cádiz": 11,
    "Castellón": 12,
    "Ciudad Real": 13,
    "Córdoba": 14,
    "A Coruña": 15,
    "Cuenca": 16,
    "Girona": 17,
    "Granada": 18,
    "Guadalajara": 19,
    "Gipuzkoa": 20,
    "Huelva": 21,
    "Huesca": 22,
    "Jaén": 23,
    "León": 24,
    "Lleida": 25,
    "La Rioja": 26,
    "Lugo": 27,
    "Madrid": 28,
    "Málaga": 29,
    "Murcia": 30,
    "Navarra": 31,
    "Ourense": 32,
    "Asturias": 33,
    "Palencia": 34,
    "Islas Canarias": [35, 38],
    "Pontevedra": 36,
    "Salamanca": 37,
    "Cantabria": 39,
    "Segovia": 40,
    "Sevilla": 41,
    "Soria": 42,
    "Tarragona": 43,
    "Teruel": 44,
    "Toledo": 45,
    "Valencia": 46,
    "Valladolid": 47,
    "Bizkaia": 48,
    "Zamora": 49,
    "Zaragoza": 50,
    "Ceuta": 51,
    "Melilla": 52
}

df20['Provincia_ID'] = df20['Provincia_ID'].map(mapeo_provincias)

In [27]:
df20.head()

Unnamed: 0,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
3,0106 COVID-19 U07.1,Almería,4,Ambos sexos,10321
4,0106 COVID-19 U07.1,Almería,4,Hombres,6655
5,0106 COVID-19 U07.1,Almería,4,Mujeres,3665
6,0106 COVID-19 U07.1,Cádiz,11,Ambos sexos,19301
7,0106 COVID-19 U07.1,Cádiz,11,Hombres,11491


In [28]:
df20['Provincia_ID'].isna().sum()

0

In [29]:
df20['Diagnóstico'].unique()

array(['0106 COVID-19 U07.1',
       '0202 Neoplasias malignas de tráquea, bronquios y pulmón  C33-C34',
       '0905 Enfermedades de la circulación pulmonar I26-I28',
       '1001 Infecciones agudas de las vías respiratorias superiores y gripe J00-J11',
       '1002 Neumonía J12-J18',
       '1003 Bronquitis y bronquiolitis agudas J20-J22',
       '1004 Enfermedad crónica de amígdalas y adenoides J35',
       '1005 Otras enfermedades del tracto respiratorio superior J30-J34, J36-J39',
       '1006 Enfermedad pulmonar obstructiva crónica y bronquiectasias J40-J44, J47',
       '1007 Asma J45',
       '1008 Otras enfermedades del sistema respiratorio J60-J99'],
      dtype=object)

In [30]:
mapeo_diagnostico = {
    '0106 COVID-19 U07.1':'COVID-19',
    '0202 Neoplasias malignas de tráquea, bronquios y pulmón  C33-C34': "Neoplasia maligna de tráquea, bronquios y pulmón",
    '0905 Enfermedades de la circulación pulmonar I26-I28': "Enfermedades de la circulación pulmonar",
    '1001 Infecciones agudas de las vías respiratorias superiores y gripe J00-J11': 'Infecciones/enfermedades de las vías respiratorias superiores y gripe',
    '1002 Neumonía J12-J18': 'Neumonía',
    '1003 Bronquitis y bronquiolitis agudas J20-J22': 'Otras infecciones de las vias respiratorias inferiores',
    '1004 Enfermedad crónica de amígdalas y adenoides J35': 'Enfermedad crónica de amígdalas',
    '1005 Otras enfermedades del tracto respiratorio superior J30-J34, J36-J39': 'Infecciones/enfermedades de las vías respiratorias superiores y gripe',
    '1006 Enfermedad pulmonar obstructiva crónica y bronquiectasias J40-J44, J47': 'EPOC y bronquitis',
    '1007 Asma J45': 'Asma',
    '1008 Otras enfermedades del sistema respiratorio J60-J99': 'Neumoconiosis, enfermedades pulmonares por agentes externos y otras'
}

df20['Diagnóstico'] = df20['Diagnóstico'].map(mapeo_diagnostico)

In [31]:
df20.insert(0, 'Año', 2020)

In [32]:
df20

Unnamed: 0,Año,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
3,2020,COVID-19,Almería,4,Ambos sexos,10321
4,2020,COVID-19,Almería,4,Hombres,6655
5,2020,COVID-19,Almería,4,Mujeres,3665
6,2020,COVID-19,Cádiz,11,Ambos sexos,19301
7,2020,COVID-19,Cádiz,11,Hombres,11491
...,...,...,...,...,...,...
1744,2020,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Hombres,592
1745,2020,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Mujeres,583
1746,2020,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Ambos sexos,1730
1747,2020,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Hombres,1114


In [33]:
columna_duplicada = df20['Diagnóstico']
if 'ColumnaDuplicada' in df20.columns:
    df20.drop(columns=['ColumnaDuplicada'], inplace=True)
df20.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [34]:
df20.rename(
    columns = 
    {'ColumnaDuplicada': 'Diagnóstico_ID'
},
inplace = True)

In [35]:
df20['Diagnóstico_ID'].unique()

array(['COVID-19', 'Neoplasia maligna de tráquea, bronquios y pulmón',
       'Enfermedades de la circulación pulmonar',
       'Infecciones/enfermedades de las vías respiratorias superiores y gripe',
       'Neumonía',
       'Otras infecciones de las vias respiratorias inferiores',
       'Enfermedad crónica de amígdalas', 'EPOC y bronquitis', 'Asma',
       'Neumoconiosis, enfermedades pulmonares por agentes externos y otras'],
      dtype=object)

In [36]:
df20

Unnamed: 0,Año,Diagnóstico,Diagnóstico_ID,Provincia,Provincia_ID,Sexo,Hospitalizaciones
3,2020,COVID-19,COVID-19,Almería,4,Ambos sexos,10321
4,2020,COVID-19,COVID-19,Almería,4,Hombres,6655
5,2020,COVID-19,COVID-19,Almería,4,Mujeres,3665
6,2020,COVID-19,COVID-19,Cádiz,11,Ambos sexos,19301
7,2020,COVID-19,COVID-19,Cádiz,11,Hombres,11491
...,...,...,...,...,...,...,...
1744,2020,"Neumoconiosis, enfermedades pulmonares por age...","Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Hombres,592
1745,2020,"Neumoconiosis, enfermedades pulmonares por age...","Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Mujeres,583
1746,2020,"Neumoconiosis, enfermedades pulmonares por age...","Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Ambos sexos,1730
1747,2020,"Neumoconiosis, enfermedades pulmonares por age...","Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Hombres,1114


In [37]:
mapeo_diagnostico = {
    'Neoplasia maligna de tráquea, bronquios y pulmón': 1,
    'Enfermedades de la circulación pulmonar':2,
    'Enfermedad crónica de amígdalas': 3,
    'Neumonía': 4,
    'Asma': 5,
    'EPOC y bronquitis': 6,
    'Infecciones/enfermedades de las vías respiratorias superiores y gripe': 7,
    'Otras infecciones de las vias respiratorias inferiores': 8,
    'Neumoconiosis, enfermedades pulmonares por agentes externos y otras': 9,
    'COVID-19': 10
}

df20['Diagnóstico_ID'] = df20['Diagnóstico_ID'].map(mapeo_diagnostico)

In [38]:
df20 = df20[df20['Sexo'] != 'Ambos sexos']

In [39]:
df20 = df20.reset_index()

In [40]:
df20.drop('index', axis=1, inplace=True)

In [41]:
df20

Unnamed: 0,Año,Diagnóstico,Diagnóstico_ID,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,2020,COVID-19,10,Almería,4,Hombres,6655
1,2020,COVID-19,10,Almería,4,Mujeres,3665
2,2020,COVID-19,10,Cádiz,11,Hombres,11491
3,2020,COVID-19,10,Cádiz,11,Mujeres,7810
4,2020,COVID-19,10,Córdoba,14,Hombres,10035
...,...,...,...,...,...,...,...
1139,2020,"Neumoconiosis, enfermedades pulmonares por age...",9,La Rioja,26,Mujeres,3917
1140,2020,"Neumoconiosis, enfermedades pulmonares por age...",9,Ceuta,51,Hombres,592
1141,2020,"Neumoconiosis, enfermedades pulmonares por age...",9,Ceuta,51,Mujeres,583
1142,2020,"Neumoconiosis, enfermedades pulmonares por age...",9,Melilla,52,Hombres,1114


In [46]:
df20.to_csv("df20.csv", index=False, encoding="iso-8859-1")