# Limpieza de datos de hospitalizaciones 2015

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df15 = pd.read_csv("1-2015.csv", delimiter= ";", encoding = "latin1")

df15.columns = df15.columns.str.strip()

In [3]:
# Mostrar los nombres de columnas para verificar
print("Columnas de df15:", df15.columns)

Columnas de df15: Index(['Diagnóstico principal (CIE9MC)', 'Total Nacional',
       'Comunidades y Ciudades Autónomas', 'Provincias', 'Sexo', 'Total'],
      dtype='object')


In [4]:
df15.shape

(1716, 6)

In [5]:
# LIMPIEZA COLUMNA TOTAL
df15['Total'] = df15['Total'].str.replace('.', '')
df15['Total'] = pd.to_numeric(df15['Total'])

In [6]:
df15['Total'].isnull().sum()

49

In [7]:
df15['Total'] = df15['Total'].fillna(0)

In [8]:
df15['Total'] = df15['Total'].astype(int)

In [9]:
df15.dtypes

Diagnóstico principal (CIE9MC)      object
Total Nacional                      object
Comunidades y Ciudades Autónomas    object
Provincias                          object
Sexo                                object
Total                                int64
dtype: object

In [10]:
# CREACIÓN DE COLUMNA PROVINCIAS
df15['Comunidades y Ciudades Autónomas'] = df15['Comunidades y Ciudades Autónomas'].fillna('')
df15['Provincias'] = df15['Provincias'].fillna('')

In [11]:
df15['Combinada'] = df15['Comunidades y Ciudades Autónomas'].str.cat(df15['Provincias'], sep=' ')

In [12]:
df15.head(1)

Unnamed: 0,Diagnóstico principal (CIE9MC),Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Sexo,Total,Combinada
0,"162 Neoplasia maligna de tráquea, bronquios y ...",Total Nacional,01 Andalucía,04 Almería,Ambos sexos,3934,01 Andalucía 04 Almería


In [13]:
df15 = df15[df15.columns[[0,4,5,6]]]

In [14]:
df15

Unnamed: 0,Diagnóstico principal (CIE9MC),Sexo,Total,Combinada
0,"162 Neoplasia maligna de tráquea, bronquios y ...",Ambos sexos,3934,01 Andalucía 04 Almería
1,"162 Neoplasia maligna de tráquea, bronquios y ...",Hombres,3253,01 Andalucía 04 Almería
2,"162 Neoplasia maligna de tráquea, bronquios y ...",Mujeres,681,01 Andalucía 04 Almería
3,"162 Neoplasia maligna de tráquea, bronquios y ...",Ambos sexos,7354,01 Andalucía 11 Cádiz
4,"162 Neoplasia maligna de tráquea, bronquios y ...",Hombres,5947,01 Andalucía 11 Cádiz
...,...,...,...,...
1711,"500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PUL...",Hombres,694,18 Ceuta
1712,"500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PUL...",Mujeres,609,18 Ceuta
1713,"500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PUL...",Ambos sexos,1470,19 Melilla
1714,"500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PUL...",Hombres,746,19 Melilla


In [15]:
# RENOMBRADO DE COLUMNAS
df15.rename(
    columns = {'Combinada': 'Provincia',
              'Diagnóstico principal (CIE9MC)': 'Diagnóstico',
              'Total': 'Hospitalizaciones'},
    inplace = True
)

In [16]:
df15 = df15[['Diagnóstico', 'Provincia', 'Sexo', 'Hospitalizaciones']]

In [17]:
mapeo_combinada = {
    '01 Andalucía 04 Almería': 'Almería',
    '01 Andalucía 11 Cádiz': 'Cádiz',
    '01 Andalucía 14 Córdoba': 'Córdoba',
    '01 Andalucía 18 Granada': "Granada",
    '01 Andalucía 21 Huelva': 'Huelva',
    '01 Andalucía 23 Jaén': 'Jaén',
    '01 Andalucía 29 Málaga': 'Málaga',
    '01 Andalucía 41 Sevilla': 'Sevilla',
    '02 Aragón 22 Huesca': 'Huesca',
    '02 Aragón 44 Teruel': 'Teruel',
    '02 Aragón 50 Zaragoza': 'Zaragoza',
    '03 Asturias, Principado de ': 'Asturias',
    '04 Balears, Illes ': 'Islas Baleares',
    '05 Canarias 35 Palmas, Las': 'Las Palmas',
    '05 Canarias 38 Santa Cruz de Tenerife': 'Santa Cruz de Tenerife',
    '06 Cantabria ': 'Cantabria',
    '07 Castilla y León 05 Ávila': 'Ávila',
    '07 Castilla y León 09 Burgos': 'Burgos',
    '07 Castilla y León 24 León': 'León',
    '07 Castilla y León 34 Palencia': 'Palencia',
    '07 Castilla y León 37 Salamanca': 'Salamanca',
    '07 Castilla y León 40 Segovia': 'Segovia',
    '07 Castilla y León 42 Soria': 'Soria',
    '07 Castilla y León 47 Valladolid': 'Valladolid',
    '07 Castilla y León 49 Zamora': 'Zamora',
    '08 Castilla - La Mancha 02 Albacete': 'Albacete',
    '08 Castilla - La Mancha 13 Ciudad Real': 'Ciudad Real',
    '08 Castilla - La Mancha 16 Cuenca': 'Cuenca',
    '08 Castilla - La Mancha 19 Guadalajara': 'Guadalajara',
    '08 Castilla - La Mancha 45 Toledo': 'Toledo',
    '09 Cataluña 08 Barcelona': 'Barcelona',
    '09 Cataluña 17 Girona': 'Girona',
    '09 Cataluña 25 Lleida': 'Lleida',
    '09 Cataluña 43 Tarragona': 'Tarragona',
    '10 Comunitat Valenciana 03 Alicante/Alacant': 'Alicante',
    '10 Comunitat Valenciana 12 Castellón/Castelló': 'Castellón',
    '10 Comunitat Valenciana 46 Valencia/València': 'Valencia',
    '11 Extremadura 06 Badajoz': 'Badajoz',
    '11 Extremadura 10 Cáceres': 'Cáceres',
    '12 Galicia 15 Coruña, A': 'A Coruña',
    '12 Galicia 27 Lugo': 'Lugo',
    '12 Galicia 32 Ourense': 'Ourense',
    '12 Galicia 36 Pontevedra': 'Pontevedra',
    '13 Madrid, Comunidad de ': 'Madrid',
    '14 Murcia, Región de ': 'Murcia',
    '15 Navarra, Comunidad Foral de ': 'Navarra',
    '16 País Vasco 01 Araba/Álava': 'Álava',
    '16 País Vasco 48 Bizkaia': 'Bizkaia',
    '16 País Vasco 20 Gipuzkoa': 'Gipuzkoa',
    '17 Rioja, La ': 'La Rioja',
    '18 Ceuta ': 'Ceuta',
    '19 Melilla ': 'Melilla'
}

df15['Provincia'] = df15['Provincia'].map(mapeo_combinada)

In [18]:
df15.head(3)

Unnamed: 0,Diagnóstico,Provincia,Sexo,Hospitalizaciones
0,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,Ambos sexos,3934
1,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,Hombres,3253
2,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,Mujeres,681


In [19]:
# CREACIÓN DE OTRA COLUMNA PROVINCIA ID
columna_duplicada = df15['Provincia']
if 'ColumnaDuplicada' in df15.columns:
    df15.drop(columns=['ColumnaDuplicada'], inplace=True)
df15.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [20]:
df15.rename(
    columns = {'ColumnaDuplicada': 'Provincia_ID'},
    inplace = True
)

In [21]:
mapeo_provincias = {
    "Álava": 1,
    "Albacete": 2,
    "Alicante": 3,
    "Almería": 4,
    "Ávila": 5,
    "Badajoz": 6,
    "Islas Baleares": 7,
    "Barcelona": 8,
    "Burgos": 9,
    "Cáceres": 10,
    "Cádiz": 11,
    "Castellón": 12,
    "Ciudad Real": 13,
    "Córdoba": 14,
    "A Coruña": 15,
    "Cuenca": 16,
    "Girona": 17,
    "Granada": 18,
    "Guadalajara": 19,
    "Gipuzkoa": 20,
    "Huelva": 21,
    "Huesca": 22,
    "Jaén": 23,
    "León": 24,
    "Lleida": 25,
    "La Rioja": 26,
    "Lugo": 27,
    "Madrid": 28,
    "Málaga": 29,
    "Murcia": 30,
    "Navarra": 31,
    "Ourense": 32,
    "Asturias": 33,
    "Palencia": 34,
    "Las Palmas":35,
    "Santa Cruz de Tenerife":38,
    "Pontevedra": 36,
    "Salamanca": 37,
    "Cantabria": 39,
    "Segovia": 40,
    "Sevilla": 41,
    "Soria": 42,
    "Tarragona": 43,
    "Teruel": 44,
    "Toledo": 45,
    "Valencia": 46,
    "Valladolid": 47,
    "Bizkaia": 48,
    "Zamora": 49,
    "Zaragoza": 50,
    "Ceuta": 51,
    "Melilla": 52
}

df15['Provincia_ID'] = df15['Provincia_ID'].map(mapeo_provincias)

In [22]:
df15.head()

Unnamed: 0,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Ambos sexos,3934
1,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Hombres,3253
2,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Mujeres,681
3,"162 Neoplasia maligna de tráquea, bronquios y ...",Cádiz,11,Ambos sexos,7354
4,"162 Neoplasia maligna de tráquea, bronquios y ...",Cádiz,11,Hombres,5947


In [23]:
df15['Provincia_ID'].isna().sum()

0

In [24]:
df15['Diagnóstico'].unique()

array(['162 Neoplasia maligna de tráquea, bronquios y pulmón',
       '415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN PULMONAR',
       '466 Bronquitis y bronquiolitis aguda',
       '474 Enfermedad crónica de amígdalas y adenoides',
       'Resto (460-478) Otras infecciones respiratorias agudas y otras enfermedades del tracto respiratorio superior',
       '480-486 Neumonía', '487-488 Gripe',
       '490-492,494,496 Enfermedad pulmonar obstructiva crónica y bronquitis',
       '493 Asma',
       'Resto (490-496) Otras enfermedades asociadas a enfermedad pulmonar obstructiva crónica',
       '500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PULMONARES OCASIONADAS POR AGENTES EXTERNOS Y OTRAS ENF. DEL APARATO RESPIRATORIO'],
      dtype=object)

In [25]:
# SIMPLIFICACIÓN DE NOMBRES EN COLUMNA DIAGNÓSTICO
mapeo_diagnostico = {
    "162 Neoplasia maligna de tráquea, bronquios y pulmón": "Neoplasia maligna de tráquea, bronquios y pulmón",
    "415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN PULMONAR": "Enfermedades de la circulación pulmonar",
    "466 Bronquitis y bronquiolitis aguda": "Otras infecciones de las vias respiratorias inferiores",
    "474 Enfermedad crónica de amígdalas y adenoides": "Enfermedad crónica de amígdalas",
    "Resto (460-478) Otras infecciones respiratorias agudas y otras enfermedades del tracto respiratorio superior": "Infecciones/enfermedades de las vías respiratorias superiores y gripe",
    "480-486 Neumonía": "Neumonía",
    "487-488 Gripe": "Infecciones/enfermedades de las vías respiratorias superiores y gripe",
    "490-492,494,496 Enfermedad pulmonar obstructiva crónica y bronquitis": "EPOC y bronquitis",
    "493 Asma": "Asma",
    "Resto (490-496) Otras enfermedades asociadas a enfermedad pulmonar obstructiva crónica": "Neumoconiosis, enfermedades pulmonares por agentes externos y otras",
    "500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PULMONARES OCASIONADAS POR AGENTES EXTERNOS Y OTRAS ENF. DEL APARATO RESPIRATORIO": "Neumoconiosis, enfermedades pulmonares por agentes externos y otras"
}

df15['Diagnóstico'] = df15['Diagnóstico'].map(mapeo_diagnostico)

In [26]:
df15.insert(0, 'Año', 2015)

In [27]:
df15

Unnamed: 0,Año,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Ambos sexos,3934
1,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Hombres,3253
2,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Mujeres,681
3,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Ambos sexos,7354
4,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Hombres,5947
...,...,...,...,...,...,...
1711,2015,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Hombres,694
1712,2015,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Mujeres,609
1713,2015,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Ambos sexos,1470
1714,2015,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Hombres,746


In [28]:
df15['Diagnóstico'].unique()

array(['Neoplasia maligna de tráquea, bronquios y pulmón',
       'Enfermedades de la circulación pulmonar',
       'Otras infecciones de las vias respiratorias inferiores',
       'Enfermedad crónica de amígdalas',
       'Infecciones/enfermedades de las vías respiratorias superiores y gripe',
       'Neumonía', 'EPOC y bronquitis', 'Asma',
       'Neumoconiosis, enfermedades pulmonares por agentes externos y otras'],
      dtype=object)

In [29]:
df15['Provincia'].unique()

array(['Almería', 'Cádiz', 'Córdoba', 'Granada', 'Huelva', 'Jaén',
       'Málaga', 'Sevilla', 'Huesca', 'Teruel', 'Zaragoza', 'Asturias',
       'Islas Baleares', 'Las Palmas', 'Santa Cruz de Tenerife',
       'Cantabria', 'Ávila', 'Burgos', 'León', 'Palencia', 'Salamanca',
       'Segovia', 'Soria', 'Valladolid', 'Zamora', 'Albacete',
       'Ciudad Real', 'Cuenca', 'Guadalajara', 'Toledo', 'Barcelona',
       'Girona', 'Lleida', 'Tarragona', 'Alicante', 'Castellón',
       'Valencia', 'Badajoz', 'Cáceres', 'A Coruña', 'Lugo', 'Ourense',
       'Pontevedra', 'Madrid', 'Murcia', 'Navarra', 'Álava', 'Bizkaia',
       'Gipuzkoa', 'La Rioja', 'Ceuta', 'Melilla'], dtype=object)

In [30]:
df15 = df15[df15['Sexo'] != 'Ambos sexos']

In [31]:
df15

Unnamed: 0,Año,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
1,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Hombres,3253
2,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Mujeres,681
4,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Hombres,5947
5,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Mujeres,1406
7,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",Córdoba,14,Hombres,3287
...,...,...,...,...,...,...
1709,2015,"Neumoconiosis, enfermedades pulmonares por age...",La Rioja,26,Mujeres,7121
1711,2015,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Hombres,694
1712,2015,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Mujeres,609
1714,2015,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Hombres,746


In [32]:
df15["Diagnóstico"].unique()

array(['Neoplasia maligna de tráquea, bronquios y pulmón',
       'Enfermedades de la circulación pulmonar',
       'Otras infecciones de las vias respiratorias inferiores',
       'Enfermedad crónica de amígdalas',
       'Infecciones/enfermedades de las vías respiratorias superiores y gripe',
       'Neumonía', 'EPOC y bronquitis', 'Asma',
       'Neumoconiosis, enfermedades pulmonares por agentes externos y otras'],
      dtype=object)

In [33]:
# CREACIÓN COLUMNA DIAGNÓSTICO ID
columna_duplicada = df15['Diagnóstico']
if 'ColumnaDuplicada' in df15.columns:
    df15.drop(columns=['ColumnaDuplicada'], inplace=True)
df15.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [34]:
df15.rename(
    columns = {'ColumnaDuplicada': 'Diagnóstico_ID'},
    inplace = True
)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df15.rename(


In [35]:
mapeo_diagnostico = {
    'Neoplasia maligna de tráquea, bronquios y pulmón': 1,
    'Enfermedades de la circulación pulmonar':2,
    'Enfermedad crónica de amígdalas': 3,
    'Neumonía': 4,
    'Asma': 5,
    'EPOC y bronquitis': 6,
    'Infecciones/enfermedades de las vías respiratorias superiores y gripe': 7,
    'Otras infecciones de las vias respiratorias inferiores': 8,
    'Neumoconiosis, enfermedades pulmonares por agentes externos y otras': 9
}

df15['Diagnóstico_ID'] = df15['Diagnóstico_ID'].map(mapeo_diagnostico)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df15['Diagnóstico_ID'] = df15['Diagnóstico_ID'].map(mapeo_diagnostico)


In [36]:
df15 = df15.reset_index()

In [37]:
df15.drop('index', axis=1, inplace=True)

In [38]:
df15

Unnamed: 0,Año,Diagnóstico,Diagnóstico_ID,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Almería,4,Hombres,3253
1,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Almería,4,Mujeres,681
2,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Cádiz,11,Hombres,5947
3,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Cádiz,11,Mujeres,1406
4,2015,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Córdoba,14,Hombres,3287
...,...,...,...,...,...,...,...
1139,2015,"Neumoconiosis, enfermedades pulmonares por age...",9,La Rioja,26,Mujeres,7121
1140,2015,"Neumoconiosis, enfermedades pulmonares por age...",9,Ceuta,51,Hombres,694
1141,2015,"Neumoconiosis, enfermedades pulmonares por age...",9,Ceuta,51,Mujeres,609
1142,2015,"Neumoconiosis, enfermedades pulmonares por age...",9,Melilla,52,Hombres,746


In [39]:
df15 = df15.groupby(['Diagnóstico_ID','Año','Diagnóstico','Sexo','Provincia','Provincia_ID'])['Hospitalizaciones'].sum().reset_index()

In [41]:
df15.to_csv("df15.csv", index=False, encoding="iso-8859-1")