In [40]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns
import nltk
import re

In [5]:
os.getcwd()

'/home/dani94/Data_mortalidad/mortalidad-hospital-erasmo'

In [6]:
os.chdir('/home/dani94/Data_mortalidad/mortalidad-hospital-erasmo/dataset')

In [7]:
data = pd.read_csv('clean_mortalidad_historico.csv')

In [8]:
data.head(-5)

In [9]:
data.dtypes

In [10]:
data.describe()

In [11]:
data.info()

In [12]:
data['edad'].max()

In [13]:
plt.hist(data['edad'], bins=30, edgecolor='black')
plt.xlabel('edad')
plt.ylabel('frecuencia')
plt.title('distribución de edades')
plt.show()

In [14]:
diagnostico_counts = data['DIAGNOSTICO'].value_counts().head(10)

In [15]:
plt.bar(diagnostico_counts.index, diagnostico_counts.values)
plt.xlabel('Diagnóstico')
plt.ylabel('Cantidad')
plt.title('Diagnósticos más comunes')
plt.xticks(rotation=90)
plt.show()

In [16]:
sexo_counts = data['SEXO'].value_counts()

In [17]:
plt.pie(sexo_counts.values, labels=sexo_counts.index, autopct='%1.1f%%', wedgeprops={'linewidth':2, 'edgecolor':'white'})
plt.title('proporcion de sexos')
plt.show()

In [18]:
count_year = data['año'].value_counts().sort_index()

In [19]:
plt.plot(count_year.index, count_year.values)
plt.xlabel('Año')
plt.ylabel('Cantidad')
plt.title('Evolución de la mortalidad por año')
plt.show()

In [20]:
#Gráfico para mostrar la tendencia de mortalidad por mes

#convertimos la columna fecha a datetime
data['FECHA'] = pd.to_datetime(data['FECHA'])

#agrupamos los datos por mes y calcular el conteo de registros
count_for_month = data.groupby(data['FECHA'].dt.month)['FECHA'].count()

#gráfico de lineas
month = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'sep', 'oct', 'nov', 'dic']

plt.plot(month, count_for_month)
plt.xlabel('Mes')
plt.ylabel('Cantidad')
plt.title('Tendencia de Mortalidad por mes')
plt.show()

In [21]:
year = 2018

plt.figure(figsize=(10,6))


data_filtrada =  data[data['FECHA'].dt.year == year]
count_for_month = data_filtrada.groupby(data_filtrada['FECHA'].dt.month)['FECHA'].count()
meses = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'sep', 'oct', 'nov', 'dic']

plt.plot(meses, count_for_month)
    
plt.xlabel('Mes')
plt.ylabel('Cantidad')
plt.title(f'Tendencia de Mortalidad por mes - año {year}')
plt.show()




In [22]:
#Transformación de object a datetime
data['FECHA'] = pd.to_datetime(data['FECHA'])

In [23]:
#Función que gráfica la mortalidad de cada año dividida en meses.
def mortalidad_anio(anio):
    year = anio
    data_filtrada =  data[data['FECHA'].dt.year == year]

    conteo_por_mes_s = data_filtrada.groupby([data_filtrada['FECHA'].dt.month, 'SEXO'])['FECHA'].count()
    
    data_tendencia = conteo_por_mes_s.unstack(level='SEXO')
    
    meses = ['ene', 'feb', 'mar', 'abr', 'may', 'jun', 'jul', 'ago', 'sep', 'oct', 'nov', 'dic']
    plt.plot(meses, data_tendencia[0], label='Hombres')
    plt.plot(meses, data_tendencia[1], label='Mujeres')
    plt.xlabel('Mes')
    plt.ylabel('Cantidad')
    plt.title(f'Tendencia de Mortalidad por mes - año{year}')
    plt.legend()
    plt.show()

In [24]:
mortalidad_anio(2018)

In [25]:
mortalidad_anio(2019)

In [26]:
mortalidad_anio(2020)

In [27]:
mortalidad_anio(2021)

In [28]:
mortalidad_anio(2022)

In [29]:
import numpy as np
diagnostico_counts_s = data['DIAGNOSTICO'].value_counts().head(15).index
data_filtrado_sexo = data[data['DIAGNOSTICO'].isin(diagnostico_counts_s)]
conteo_diagnostico_sexo = data_filtrado_sexo.groupby(['DIAGNOSTICO', 'SEXO']).size().unstack()

n = len(conteo_diagnostico_sexo)
width = 0.4
x = np.arange(n)

fig, ax = plt.subplots()
rects1 = ax.bar(x - width/2, conteo_diagnostico_sexo[0], width, label='Hombre')
rects1 = ax.bar(x + width/2, conteo_diagnostico_sexo[1], width, label='Mujer')

ax.set_xlabel('diagnóstico')
ax.set_ylabel('Cantidad')
ax.set_title('Diagnóstico mas frecuente por sexo')
ax.set_xticks(x)
ax.set_xticklabels(conteo_diagnostico_sexo.index, rotation=90)
ax.legend(title='Sexo')
plt.show()

In [30]:
data['DIAGNOSTICO'].value_counts()

In [31]:
data['edad'].value_counts()

In [32]:
data['FECHA NACIO'] = pd.to_datetime(data['FECHA NACIO'])

In [33]:
data.dtypes

In [34]:
variables_incluidas = ['FECHA', 'FECHA NACIO', 'SEXO', 'año', 'SERVICIO_NEONATOLOGIA', 'SERVICIO_PEDIATRIA MEDICA',
                       'SERVICIO_RECUPERACION', 'SERVICIO_SALA DE PARTOS', 'SERVICIO_UCIN', 'SERVICIO_UNIDAD DE CUIDADO INTERMEDIO',
                       'SERVIVIO_PISO_5_12', 'SERVICIO_URGENCIA ADULTO', 'SERVICIOS_URGENCIA PEDIATRIA', 'edad', ]

data_filter = data[variables_incluidas]

correlation_matrix = data_filter.corr()

In [35]:
plt.figure(figsize=(10,8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de correlación')
plt.show()

In [36]:
x = data['edad']
y =  data['FECHA NACIO']

plt.scatter(x,y)

plt.xlabel('edad')
plt.ylabel('Fecha nacio')
plt.title('Gráfico de dispersión')
plt.show()

### Procesamiento de texto

In [37]:
from nltk.tokenize import word_tokenize

In [38]:
tokens = word_tokenize(data['DIAGNOSTICO'])

In [42]:
diagnostico = data['DIAGNOSTICO']

#eliminar caracteres especiales utilizando expresiones regulares
diagnostico_limpio = diagnostico.apply(lambda x: re.sub(r'[^a-zA-Z0-9\s]', '', x))


In [45]:
#Convertir todo a minusculas
diagnostico_min = diagnostico.str.lower()