# Limpieza de datos de hospitalizaciones 2014

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
df14 = pd.read_csv("1-2014.csv", delimiter= ";", encoding = "latin1")

df14.columns = df14.columns.str.strip()

In [4]:
# Mostrar los nombres de columnas para verificar
print("Columnas de df14:", df14.columns)

Columnas de df14: Index(['Diagnóstico principal (CIE9MC)',
       'Provincia, Comunidad y Ciudad autónoma de residencia', 'Sexo',
       'Total'],
      dtype='object')


In [5]:
df14.shape

(1716, 4)

In [6]:
# LIMPIEZA COLUMNA TOTAL
df14['Total'] = df14['Total'].str.replace('.', '')
df14['Total'] = pd.to_numeric(df14['Total'])

In [7]:
df14['Total'].isnull().sum()

38

In [8]:
df14['Total'] = df14['Total'].fillna(0)

In [9]:
df14['Total'] = df14['Total'].astype(int)

In [10]:
df14.dtypes

Diagnóstico principal (CIE9MC)                          object
Provincia, Comunidad y Ciudad autónoma de residencia    object
Sexo                                                    object
Total                                                    int32
dtype: object

In [11]:
# RENOMBRADO DE COLUMNAS
df14.rename(
    columns = {'Provincia, Comunidad y Ciudad autónoma de residencia': 'Provincia',
              'Diagnóstico principal (CIE9MC)': 'Diagnóstico',
              'Total': 'Hospitalizaciones'},
    inplace = True
)

In [12]:
mapeo_provincias2 = {
    "Araba/Álava": "Álava",
    "Albacete": "Albacete",
    "Alicante/Alacant": "Alicante",
    "Almería": "Almería",
    "Ávila": "Ávila",
    "Badajoz": "Badajoz",
    "BALEARS, ILLES": "Islas Baleares",
    "Barcelona": "Barcelona",
    "Burgos": "Burgos",
    "Cáceres": "Cáceres",
    "Cádiz": "Cádiz",
    "Castellón/Castelló": "Castellón",
    "Ciudad Real": "Ciudad Real",
    "Córdoba": "Córdoba",
    "Coruña, A": "A Coruña",
    "Cuenca": "Cuenca",
    "Girona": "Girona",
    "Granada": "Granada",
    "Guadalajara": "Guadalajara",
    "Gipuzkoa": "Gipuzkoa",
    "Huelva": "Huelva",
    "Huesca": "Huesca",
    "Jaén": "Jaén",
    "León": "León",
    "Lleida": "Lleida",
    "RIOJA, LA": "La Rioja",
    "Lugo": "Lugo",
    "MADRID, COMUNIDAD DE": "Madrid",
    "Málaga": "Málaga",
    "MURCIA, REGIÓN DE": "Murcia",
    "NAVARRA, COMUNIDAD FORAL DE": "Navarra",
    "Ourense": "Ourense",
    "ASTURIAS, PRINCIPADO DE": "Asturias",
    "Palencia": "Palencia",
    "Palmas, Las": "Islas Canarias",
    "Pontevedra": "Pontevedra",
    "Salamanca": "Salamanca",
    "Santa Cruz de Tenerife": "Islas Canarias",
    "CANTABRIA": "Cantabria",
    "Segovia": "Segovia",
    "Sevilla": "Sevilla",
    "Soria": "Soria",
    "Tarragona": "Tarragona",
    "Teruel": "Teruel",
    "Toledo": "Toledo",
    "Valencia/València": "Valencia",
    "Valladolid": "Valladolid",
    "Bizkaia": "Bizkaia",
    "Zamora": "Zamora",
    "Zaragoza": "Zaragoza",
    "Ceuta": "Ceuta",
    "Melilla": "Melilla"
}

df14['Provincia'] = df14['Provincia'].map(mapeo_provincias2)

In [13]:
df14['Provincia'].unique()

array(['Almería', 'Cádiz', 'Córdoba', 'Granada', 'Huelva', 'Jaén',
       'Málaga', 'Sevilla', 'Huesca', 'Teruel', 'Zaragoza', 'Asturias',
       'Islas Baleares', 'Islas Canarias', 'Cantabria', 'Ávila', 'Burgos',
       'León', 'Palencia', 'Salamanca', 'Segovia', 'Soria', 'Valladolid',
       'Zamora', 'Albacete', 'Ciudad Real', 'Cuenca', 'Guadalajara',
       'Toledo', 'Barcelona', 'Girona', 'Lleida', 'Tarragona', 'Alicante',
       'Castellón', 'Valencia', 'Badajoz', 'Cáceres', 'A Coruña', 'Lugo',
       'Ourense', 'Pontevedra', 'Madrid', 'Murcia', nan, 'Álava',
       'Bizkaia', 'Gipuzkoa', 'La Rioja', 'Ceuta', 'Melilla'],
      dtype=object)

In [14]:
# Crear un filtro para seleccionar filas donde "Provincia" es NaN
filtro = df14['Provincia'].isna()

# Aplicar el filtro para obtener solo las filas donde "Provincia" es NaN
df14_nan_provincia = df14.loc[filtro]

# Mostrar el resultado
df14_nan_provincia

Unnamed: 0,Diagnóstico,Provincia,Sexo,Hospitalizaciones
135,"162 Neoplasia maligna de tráquea, bronquios y ...",,Ambos sexos,15981
136,"162 Neoplasia maligna de tráquea, bronquios y ...",,Hombres,12147
137,"162 Neoplasia maligna de tráquea, bronquios y ...",,Mujeres,3834
291,415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN P...,,Ambos sexos,9149
292,415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN P...,,Hombres,4028
293,415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN P...,,Mujeres,5121
447,466 Bronquitis y bronquiolitis aguda,,Ambos sexos,17222
448,466 Bronquitis y bronquiolitis aguda,,Hombres,7453
449,466 Bronquitis y bronquiolitis aguda,,Mujeres,9769
603,474 Enfermedad crónica de amígdalas y adenoides,,Ambos sexos,1578


In [15]:
df14 = df14.dropna()

In [16]:
# CREACIÓN DE OTRA COLUMNA PROVINCIA ID
columna_duplicada = df14['Provincia']
if 'ColumnaDuplicada' in df14.columns:
    df14.drop(columns=['ColumnaDuplicada'], inplace=True)
df14.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [17]:
df14.rename(
    columns = {'ColumnaDuplicada': 'Provincia_ID'},
    inplace = True
)

In [18]:
mapeo_provincias = {
    "Álava": 1,
    "Albacete": 2,
    "Alicante": 3,
    "Almería": 4,
    "Ávila": 5,
    "Badajoz": 6,
    "Islas Baleares": 7,
    "Barcelona": 8,
    "Burgos": 9,
    "Cáceres": 10,
    "Cádiz": 11,
    "Castellón": 12,
    "Ciudad Real": 13,
    "Córdoba": 14,
    "A Coruña": 15,
    "Cuenca": 16,
    "Girona": 17,
    "Granada": 18,
    "Guadalajara": 19,
    "Gipuzkoa": 20,
    "Huelva": 21,
    "Huesca": 22,
    "Jaén": 23,
    "León": 24,
    "Lleida": 25,
    "La Rioja": 26,
    "Lugo": 27,
    "Madrid": 28,
    "Málaga": 29,
    "Murcia": 30,
    "Navarra": 31,
    "Ourense": 32,
    "Asturias": 33,
    "Palencia": 34,
    "Islas Canarias": [35, 38],
    "Pontevedra": 36,
    "Salamanca": 37,
    "Cantabria": 39,
    "Segovia": 40,
    "Sevilla": 41,
    "Soria": 42,
    "Tarragona": 43,
    "Teruel": 44,
    "Toledo": 45,
    "Valencia": 46,
    "Valladolid": 47,
    "Bizkaia": 48,
    "Zamora": 49,
    "Zaragoza": 50,
    "Ceuta": 51,
    "Melilla": 52
}

df14['Provincia_ID'] = df14['Provincia_ID'].map(mapeo_provincias)

In [19]:
df14.head()

Unnamed: 0,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Ambos sexos,4532
1,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Hombres,3806
2,"162 Neoplasia maligna de tráquea, bronquios y ...",Almería,4,Mujeres,726
3,"162 Neoplasia maligna de tráquea, bronquios y ...",Cádiz,11,Ambos sexos,7575
4,"162 Neoplasia maligna de tráquea, bronquios y ...",Cádiz,11,Hombres,6227


In [20]:
df14['Diagnóstico'].unique()

array(['162 Neoplasia maligna de tráquea, bronquios y pulmón',
       '415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN PULMONAR',
       '466 Bronquitis y bronquiolitis aguda',
       '474 Enfermedad crónica de amígdalas y adenoides',
       'Resto (460-478) Otras infecciones respiratorias agudas y otras enfermedades del tracto respiratorio superior',
       '480-486 Neumonía', '487-488 Gripe',
       '490-492,494,496 Enfermedad pulmonar obstructiva crónica y bronquitis',
       '493 Asma',
       'Resto (490-496) Otras enfermedades asociadas a enfermedad pulmonar obstructiva crónica',
       '500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PULMONARES OCASIONADAS POR AGENTES EXTERNOS Y OTRAS ENF. DEL APARATO RESPIRATORIO'],
      dtype=object)

In [21]:
# SIMPLIFICACIÓN DE NOMBRES EN COLUMNA DIAGNÓSTICO
mapeo_diagnostico = {
    "162 Neoplasia maligna de tráquea, bronquios y pulmón": "Neoplasia maligna de tráquea, bronquios y pulmón",
    "415-417 VII.5 ENFERMEDADES DE LA CIRCULACIÓN PULMONAR": "Enfermedades de la circulación pulmonar",
    "466 Bronquitis y bronquiolitis aguda": "Otras infecciones de las vias respiratorias inferiores",
    "474 Enfermedad crónica de amígdalas y adenoides": "Enfermedad crónica de amígdalas",
    "Resto (460-478) Otras infecciones respiratorias agudas y otras enfermedades del tracto respiratorio superior": "Infecciones/enfermedades de las vías respiratorias superiores y gripe",
    "480-486 Neumonía": "Neumonía",
    "487-488 Gripe": "Infecciones/enfermedades de las vías respiratorias superiores y gripe",
    "490-492,494,496 Enfermedad pulmonar obstructiva crónica y bronquitis": "EPOC y bronquitis",
    "493 Asma": "Asma",
    "Resto (490-496) Otras enfermedades asociadas a enfermedad pulmonar obstructiva crónica": "Neumoconiosis, enfermedades pulmonares por agentes externos y otras",
    "500-519 VIII.4 NEUMOCONIOSIS, ENFERMEDADES PULMONARES OCASIONADAS POR AGENTES EXTERNOS Y OTRAS ENF. DEL APARATO RESPIRATORIO": "Neumoconiosis, enfermedades pulmonares por agentes externos y otras"
}

df14['Diagnóstico'] = df14['Diagnóstico'].map(mapeo_diagnostico)

In [22]:
df14.insert(0, 'Año', 2014)

In [23]:
df14

Unnamed: 0,Año,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Ambos sexos,4532
1,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Hombres,3806
2,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Mujeres,726
3,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Ambos sexos,7575
4,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Hombres,6227
...,...,...,...,...,...,...
1711,2014,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Hombres,588
1712,2014,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Mujeres,604
1713,2014,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Ambos sexos,1713
1714,2014,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Hombres,825


In [24]:
df14 = df14[df14['Sexo'] != 'Ambos sexos']

In [25]:
df14

Unnamed: 0,Año,Diagnóstico,Provincia,Provincia_ID,Sexo,Hospitalizaciones
1,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Hombres,3806
2,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Almería,4,Mujeres,726
4,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Hombres,6227
5,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Cádiz,11,Mujeres,1348
7,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",Córdoba,14,Hombres,2949
...,...,...,...,...,...,...
1709,2014,"Neumoconiosis, enfermedades pulmonares por age...",La Rioja,26,Mujeres,7487
1711,2014,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Hombres,588
1712,2014,"Neumoconiosis, enfermedades pulmonares por age...",Ceuta,51,Mujeres,604
1714,2014,"Neumoconiosis, enfermedades pulmonares por age...",Melilla,52,Hombres,825


In [26]:
df14["Diagnóstico"].unique()

array(['Neoplasia maligna de tráquea, bronquios y pulmón',
       'Enfermedades de la circulación pulmonar',
       'Otras infecciones de las vias respiratorias inferiores',
       'Enfermedad crónica de amígdalas',
       'Infecciones/enfermedades de las vías respiratorias superiores y gripe',
       'Neumonía', 'EPOC y bronquitis', 'Asma',
       'Neumoconiosis, enfermedades pulmonares por agentes externos y otras'],
      dtype=object)

In [27]:
# CREACIÓN COLUMNA DIAGNÓSTICO ID
columna_duplicada = df14['Diagnóstico']
if 'ColumnaDuplicada' in df14.columns:
    df14.drop(columns=['ColumnaDuplicada'], inplace=True)
df14.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [28]:
df14.rename(
    columns = {'ColumnaDuplicada': 'Diagnóstico_ID'},
    inplace = True
)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df14.rename(


In [29]:
mapeo_diagnostico = {
    'Neoplasia maligna de tráquea, bronquios y pulmón': 1,
    'Enfermedades de la circulación pulmonar':2,
    'Enfermedad crónica de amígdalas': 3,
    'Neumonía': 4,
    'Asma': 5,
    'EPOC y bronquitis': 6,
    'Infecciones/enfermedades de las vías respiratorias superiores y gripe': 7,
    'Otras infecciones de las vias respiratorias inferiores': 8,
    'Neumoconiosis, enfermedades pulmonares por agentes externos y otras': 9
}

df14['Diagnóstico_ID'] = df14['Diagnóstico_ID'].map(mapeo_diagnostico)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df14['Diagnóstico_ID'] = df14['Diagnóstico_ID'].map(mapeo_diagnostico)


In [30]:
df14 = df14.reset_index()

In [31]:
df14.drop('index', axis=1, inplace=True)

In [32]:
df14

Unnamed: 0,Año,Diagnóstico,Diagnóstico_ID,Provincia,Provincia_ID,Sexo,Hospitalizaciones
0,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Almería,4,Hombres,3806
1,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Almería,4,Mujeres,726
2,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Cádiz,11,Hombres,6227
3,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Cádiz,11,Mujeres,1348
4,2014,"Neoplasia maligna de tráquea, bronquios y pulmón",1,Córdoba,14,Hombres,2949
...,...,...,...,...,...,...,...
1117,2014,"Neumoconiosis, enfermedades pulmonares por age...",9,La Rioja,26,Mujeres,7487
1118,2014,"Neumoconiosis, enfermedades pulmonares por age...",9,Ceuta,51,Hombres,588
1119,2014,"Neumoconiosis, enfermedades pulmonares por age...",9,Ceuta,51,Mujeres,604
1120,2014,"Neumoconiosis, enfermedades pulmonares por age...",9,Melilla,52,Hombres,825


In [64]:
df14.to_csv("df14.csv", index=False, encoding="iso-8859-1")