# Limpieza de datos de hospitalizaciones 2013

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df13 = pd.read_csv("1-2013.csv", delimiter= ";", encoding = "latin1")

df13.columns = df13.columns.str.strip()

In [3]:
# Mostrar los nombres de columnas para verificar
print("Columnas de df13:", df13.columns)

Columnas de df13: Index(['Diagnóstico principal (CIE9MC)',
       'Provincia, Comunidad y Ciudad autónoma de residencia', 'Sexo',
       'Total'],
      dtype='object')


In [4]:
df13.shape

(1716, 4)

In [5]:
# LIMPIEZA COLUMNA TOTAL
df13['Total'] = df13['Total'].str.replace('.', '')
df13['Total'] = pd.to_numeric(df13['Total'])

In [6]:
df13['Total'].isnull().sum()

40

In [7]:
df13['Total'] = df13['Total'].fillna(0)

In [8]:
df13['Total'] = df13['Total'].astype(int)

In [9]:
df13.dtypes

Diagnóstico principal (CIE9MC)                          object
Provincia, Comunidad y Ciudad autónoma de residencia    object
Sexo                                                    object
Total                                                    int64
dtype: object

In [10]:
# RENOMBRADO DE COLUMNAS
df13.rename(
    columns = {'Provincia, Comunidad y Ciudad autónoma de residencia': 'Provincia',
              'Diagnóstico principal (CIE9MC)': 'Diagnóstico',
              'Total': 'Hospitalizaciones'},
    inplace = True
)

In [11]:
# CREACIÓN DE OTRA COLUMNA PROVINCIA ID
columna_duplicada = df13['Provincia']
if 'ColumnaDuplicada' in df13.columns:
    df13.drop(columns=['ColumnaDuplicada'], inplace=True)
df13.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [12]:
df13.rename(
    columns = {'ColumnaDuplicada': 'Provincia_ID'},
    inplace = True
)

In [13]:
mapeo_provincias = {
    "Araba/Álava": 1,
    "Albacete": 2,
    "Alicante/Alacant": 3,
    "Almería": 4,
    "Ávila": 5,
    "Badajoz": 6,
    "BALEARS, ILLES": 7,
    "Barcelona": 8,
    "Burgos": 9,
    "Cáceres": 10,
    "Cádiz": 11,
    "Castellón/Castelló": 12,
    "Ciudad Real": 13,
    "Córdoba": 14,
    "Coruña, A": 15,
    "Cuenca": 16,
    "Girona": 17,
    "Granada": 18,
    "Guadalajara": 19,
    "Gipuzkoa": 20,
    "Huelva": 21,
    "Huesca": 22,
    "Jaén": 23,
    "León": 24,
    "Lleida": 25,
    "RIOJA, LA": 26,
    "Lugo": 27,
    "MADRID, COMUNIDAD DE": 28,
    "Málaga": 29,
    "MURCIA, REGIÓN DE": 30,
    "NAVARRA, COMUNIDAD FORAL DE": 31,
    "Ourense": 32,
    "ASTURIAS, PRINCIPADO DE": 33,
    "Palencia": 34,
    "Palmas, Las": 35,
    "Pontevedra": 36,
    "Salamanca": 37,
    "Santa Cruz de Tenerife": 38,
    "CANTABRIA": 39,
    "Segovia": 40,
    "Sevilla": 41,
    "Soria": 42,
    "Tarragona": 43,
    "Teruel": 44,
    "Toledo": 45,
    "Valencia/València": 46,
    "Valladolid": 47,
    "Bizkaia": 48,
    "Zamora": 49,
    "Zaragoza": 50,
    "Ceuta": 51,
    "Melilla": 52
}

df13['Provincia_ID'] = df13['Provincia_ID'].map(mapeo_provincias)

In [14]:
mapeo_provincias2 = {
    "Araba/Álava": "Álava",
    "Albacete": "Albacete",
    "Alicante/Alacant": "Alicante",
    "Almería": "Almería",
    "Ávila": "Ávila",
    "Badajoz": "Badajoz",
    "BALEARS, ILLES": "Islas Baleares",
    "Barcelona": "Barcelona",
    "Burgos": "Burgos",
    "Cáceres": "Cáceres",
    "Cádiz": "Cádiz",
    "Castellón/Castelló": "Castellón",
    "Ciudad Real": "Ciudad Real",
    "Córdoba": "Córdoba",
    "Coruña, A": "A Coruña",
    "Cuenca": "Cuenca",
    "Girona": "Girona",
    "Granada": "Granada",
    "Guadalajara": "Guadalajara",
    "Gipuzkoa": "Gipuzkoa",
    "Huelva": "Huelva",
    "Huesca": "Huesca",
    "Jaén": "Jaén",
    "León": "León",
    "Lleida": "Lleida",
    "RIOJA, LA": "La Rioja",
    "Lugo": "Lugo",
    "MADRID, COMUNIDAD DE": "Madrid",
    "Málaga": "Málaga",
    "MURCIA, REGIÓN DE": "Murcia",
    "NAVARRA, COMUNIDAD FORAL DE": "Navarra",
    "Ourense": "Ourense",
    "ASTURIAS, PRINCIPADO DE": "Asturias",
    "Palencia": "Palencia",
    "Palmas, Las": "Las Palmas",
    "Pontevedra": "Pontevedra",
    "Salamanca": "Salamanca",
    "Santa Cruz de Tenerife": "Santa Cruz de Tenerife",
    "CANTABRIA": "Cantabria",
    "Segovia": "Segovia",
    "Sevilla": "Sevilla",
    "Soria": "Soria",
    "Tarragona": "Tarragona",
    "Teruel": "Teruel",
    "Toledo": "Toledo",
    "Valencia/València": "Valencia",
    "Valladolid": "Valladolid",
    "Bizkaia": "Bizkaia",
    "Zamora": "Zamora",
    "Zaragoza": "Zaragoza",
    "Ceuta": "Ceuta",
    "Melilla": "Melilla"
}

df13['Provincia'] = df13['Provincia'].map(mapeo_provincias2)

In [15]:
df13.head()

Unnamed: 0,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Ambos sexos,4027
1,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Hombres,3282
2,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Mujeres,745
3,"162 Neoplasia maligna de tráquea, bronquios y ...",Cádiz,11,Ambos sexos,7440
4,"162 Neoplasia maligna de tráquea, bronquios y ...",Cádiz,11,Hombres,6111


In [16]:
df13['Provincia_ID'].isna().sum()

0

In [17]:
df13['Diagnóstico'].unique()

array(['162 Neoplasia maligna de tráquea, bronquios y pulmón',
       '415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN PULMONAR',
       '466 Bronquitis y bronquiolitis aguda',
       '474 Enfermedad crónica de amígdalas y adenoides',
       'Resto (460-478) Otras infecciones respiratorias agudas y otras enfermedades del tracto respiratorio superior',
       '480-486 Neumonía', '487-488 Gripe',
       '490-492,494,496 Enfermedad pulmonar obstructiva crónica y bronquitis',
       '493 Asma',
       'Resto (490-496) Otras enfermedades asociadas a enfermedad pulmonar obstructiva crónica',
       '500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PULMONARES OCASIONADAS POR AGENTES EXTERNOS Y OTRAS ENF. DEL APARATO RESPIRATORIO'],
      dtype=object)

In [18]:
# SIMPLIFICACIÓN DE NOMBRES EN COLUMNA DIAGNÓSTICO
mapeo_diagnostico = {
    "162 Neoplasia maligna de tráquea, bronquios y pulmón": "Neoplasia maligna de tráquea, bronquios y pulmón",
    "415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN PULMONAR": "Enfermedades de la circulación pulmonar",
    "466 Bronquitis y bronquiolitis aguda": "Otras infecciones de las vias respiratorias inferiores",
    "474 Enfermedad crónica de amígdalas y adenoides": "Enfermedad crónica de amígdalas",
    "Resto (460-478) Otras infecciones respiratorias agudas y otras enfermedades del tracto respiratorio superior": "Infecciones/enfermedades de las vías respiratorias superiores y gripe",
    "480-486 Neumonía": "Neumonía",
    "487-488 Gripe": "Infecciones/enfermedades de las vías respiratorias superiores y gripe",
    "490-492,494,496 Enfermedad pulmonar obstructiva crónica y bronquitis": "EPOC y bronquitis",
    "493 Asma": "Asma",
    "Resto (490-496) Otras enfermedades asociadas a enfermedad pulmonar obstructiva crónica": "Neumoconiosis, enfermedades pulmonares por agentes externos y otras",
    "500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PULMONARES OCASIONADAS POR AGENTES EXTERNOS Y OTRAS ENF. DEL APARATO RESPIRATORIO": "Neumoconiosis, enfermedades pulmonares por agentes externos y otras"
}

df13['Diagnóstico'] = df13['Diagnóstico'].map(mapeo_diagnostico)

In [19]:
df13.insert(0, 'Año', 2013)

In [20]:
df13

Unnamed: 0,Año,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Ambos sexos,4027
1,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Hombres,3282
2,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Mujeres,745
3,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Ambos sexos,7440
4,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Hombres,6111
...,...,...,...,...,...,...
1711,2013,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Hombres,728
1712,2013,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Mujeres,520
1713,2013,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Ambos sexos,1567
1714,2013,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Hombres,658


In [21]:
df13['Diagnóstico'].unique()

array(['Neoplasia maligna de tráquea, bronquios y pulmón',
       'Enfermedades de la circulación pulmonar',
       'Otras infecciones de las vias respiratorias inferiores',
       'Enfermedad crónica de amígdalas',
       'Infecciones/enfermedades de las vías respiratorias superiores y gripe',
       'Neumonía', 'EPOC y bronquitis', 'Asma',
       'Neumoconiosis, enfermedades pulmonares por agentes externos y otras'],
      dtype=object)

In [22]:
df13['Provincia'].unique()

array(['Almería', 'Cádiz', 'Córdoba', 'Granada', 'Huelva', 'Jaén',
       'Málaga', 'Sevilla', 'Huesca', 'Teruel', 'Zaragoza', 'Asturias',
       'Islas Baleares', 'Las Palmas', 'Santa Cruz de Tenerife',
       'Cantabria', 'Ávila', 'Burgos', 'León', 'Palencia', 'Salamanca',
       'Segovia', 'Soria', 'Valladolid', 'Zamora', 'Albacete',
       'Ciudad Real', 'Cuenca', 'Guadalajara', 'Toledo', 'Barcelona',
       'Girona', 'Lleida', 'Tarragona', 'Alicante', 'Castellón',
       'Valencia', 'Badajoz', 'Cáceres', 'A Coruña', 'Lugo', 'Ourense',
       'Pontevedra', 'Madrid', 'Murcia', 'Navarra', 'Álava', 'Bizkaia',
       'Gipuzkoa', 'La Rioja', 'Ceuta', 'Melilla'], dtype=object)

In [23]:
df13 = df13[df13['Sexo'] != 'Ambos sexos']

In [24]:
df13

Unnamed: 0,Año,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
1,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Hombres,3282
2,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Mujeres,745
4,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Hombres,6111
5,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Mujeres,1329
7,2013,"Neoplasia maligna de tráquea, bronquios y pulmón",Córdoba,14,Hombres,3102
...,...,...,...,...,...,...
1709,2013,"Neumoconiosis, enfermedades pulmonares por age...",La Rioja,26,Mujeres,6117
1711,2013,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Hombres,728
1712,2013,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Mujeres,520
1714,2013,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Hombres,658


In [25]:
df13["Diagnóstico"].unique()

array(['Neoplasia maligna de tráquea, bronquios y pulmón',
       'Enfermedades de la circulación pulmonar',
       'Otras infecciones de las vias respiratorias inferiores',
       'Enfermedad crónica de amígdalas',
       'Infecciones/enfermedades de las vías respiratorias superiores y gripe',
       'Neumonía', 'EPOC y bronquitis', 'Asma',
       'Neumoconiosis, enfermedades pulmonares por agentes externos y otras'],
      dtype=object)

In [26]:
# CREACIÓN COLUMNA DIAGNÓSTICO ID
columna_duplicada = df13['Diagnóstico']
if 'ColumnaDuplicada' in df13.columns:
    df13.drop(columns=['ColumnaDuplicada'], inplace=True)
df13.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [27]:
df13.rename(
    columns = {'ColumnaDuplicada': 'Diagnóstico_ID'},
    inplace = True
)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df13.rename(


In [28]:
mapeo_diagnostico = {
    'Neoplasia maligna de tráquea, bronquios y pulmón': 1,
    'Enfermedades de la circulación pulmonar':2,
    'Enfermedad crónica de amígdalas': 3,
    'Neumonía': 4,
    'Asma': 5,
    'EPOC y bronquitis': 6,
    'Infecciones/enfermedades de las vías respiratorias superiores y gripe': 7,
    'Otras infecciones de las vias respiratorias inferiores': 8,
    'Neumoconiosis, enfermedades pulmonares por agentes externos y otras': 9
}

df13['Diagnóstico_ID'] = df13['Diagnóstico_ID'].map(mapeo_diagnostico)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df13['Diagnóstico_ID'] = df13['Diagnóstico_ID'].map(mapeo_diagnostico)


In [29]:
df13 = df13.reset_index()

In [30]:
df13.drop('index', axis=1, inplace=True)

In [32]:
df13 = df13.groupby(['Diagnóstico_ID','Año','Diagnóstico','Sexo','Provincia','Provincia_ID'])['Hospitalizaciones'].sum().reset_index()

In [34]:
df13.to_csv("df13.csv", index=False, encoding="iso-8859-1")