# PROYECTO DEMOGRAFICO CAUSA MORTALIDAD BOGOTA POR AÑO
## Sebastian Abella Rocha
## Luisa Magaly Achury
## Johan Cuellar Orjuela
### Fecha 10 enero *2024*

En este cuaderno de jupyter se realiza un flujo de trabajo para predecir por años en localidades de Bogotá el porcentaje de afectados por el EPOC , a partir de una base de datos

> Bloque con sangría



### Importar librerías

In [None]:
import numpy as np
import pandas as pd

### Cargar datos

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# dataini = pd.read_csv('historico_siniestros_bogota_d.c_-.csv')
dataini = pd.read_csv('/content/drive/MyDrive/data/demografia_causasmortalidad.csv', sep=';', encoding='latin-1')

In [None]:
dataini.head()


Unnamed: 0,ANIO,SEXO,LOCALIDAD_CODIGO,LOCALIDAD_NOMBRE,EDAD_GRUPO,SEGURIDAD_SOCIAL_REGIMEN,MORTALIDAD_CODIGO_CIE10,MORTALIDAD_DESCRIPCION_CIE10,MORTALIDAD_DESCRIPCION_105,MORTALIDAD_DESCRIPCION_667,MORTALIDAD_CONDICION_CRONICA
0,2005,Masculino,1.0,Usaquén,00 a 04 años,VINCULADO,J189,"NEUMONIA, NO ESPECIFICADA",Neumonía,Infecciones respiratorias agudas,No aplica
1,2005,Femenino,1.0,Usaquén,00 a 04 años,CONTRIBUTIVO,J189,"NEUMONIA, NO ESPECIFICADA",Neumonía,Infecciones respiratorias agudas,No aplica
2,2005,Masculino,1.0,Usaquén,00 a 04 años,CONTRIBUTIVO,J219,"BRONQUIOLITIS AGUDA, NO ESPECIFICADA",Todas las demás enfermedades del sistema respi...,Infecciones respiratorias agudas,No aplica
3,2005,Masculino,1.0,Usaquén,00 a 04 años,SUBSIDIADO,P369,"SEPSIS BACTERIANA DEL RECIEN NACIDO, NO ESPECI...",Infecciones específicas del período perinatal,Sepsis bacteriana del recién nacido,No aplica
4,2005,Femenino,1.0,Usaquén,00 a 04 años,CONTRIBUTIVO,P369,"SEPSIS BACTERIANA DEL RECIEN NACIDO, NO ESPECI...",Infecciones específicas del período perinatal,Sepsis bacteriana del recién nacido,No aplica


In [None]:
data = dataini

data = data.drop(['LOCALIDAD_CODIGO','SEGURIDAD_SOCIAL_REGIMEN','MORTALIDAD_DESCRIPCION_105', 'MORTALIDAD_DESCRIPCION_667', 'MORTALIDAD_CONDICION_CRONICA', 'EDAD_GRUPO' ,'MORTALIDAD_DESCRIPCION_CIE10'], axis=1)

# Filtrar por códigos específicos en la columna 'MORTALIDAD_CODIGO_CIE10' y localidades específicas
#J449 ENFERMEDAD PULMONAR OBSTRUCTIVA CRONICA, NO ESPECIFICADA.
#J441 ENFERMEDAD PULMONAR OBSTRUCTIVA CRONICA CON EXACERBACION AGUDA, NO ESPECIFICADA
#J440 ENFERMEDAD PULMONAR OBSTRUCTIVA CRONICA CON INFECCION AGUDA DE LAS VIAS RESPIRATORIAS INFERIORES
#J42X BRONQUITIS CRONICA NO ESPECIFICADA
#J448 OTRAS ENFERMEDADES PULMONARES OBSTRUCTIVAS CRONICAS ESPECIFICADAS
#J439 ENFISEMA, NO ESPECIFICADO
#J431 ENFISEMA PANLOBULAR
#P250 ENFISEMA INTERSTICIAL ORIGINADO EN EL PERIODO PERINATAL
#J432 ENFISEMA CENTROLOBULAR
#J983 ENFISEMA COMPENSATORIO
#J982 ENFISEMA INTERSTICIAL
#P258 OTRAS AFECCIONES RELACIONADAS CON EL ENFISEMA INTERSTICIAL, ORIGINADAS EN EL PERIODO PERINATAL

codigos_deseados = ['J449', 'J441', 'J440', 'J42X', 'J448', 'J439', 'J431', 'P250', 'J432', 'J983', 'J982', 'P258']
localidades_deseadas = ['Ciudad Bolívar', 'Usme', 'Kennedy','Suba', 'Puente Aranda']

data = data[(data['MORTALIDAD_CODIGO_CIE10'].isin(codigos_deseados)) & (data['LOCALIDAD_NOMBRE'].isin(localidades_deseadas))]

#data.to_csv('/content/drive/MyDrive/data/resultados_mortalidad_por_año_epoc.csv', index=False)


data.head()

Unnamed: 0,ANIO,SEXO,LOCALIDAD_NOMBRE,MORTALIDAD_CODIGO_CIE10
4861,2005,Masculino,Usme,J42X
5034,2005,Masculino,Usme,J448
5080,2005,Masculino,Usme,J449
5081,2005,Masculino,Usme,J441
5082,2005,Masculino,Usme,J449


In [None]:
# getdummies convierte las variable de string a numerico transfomandolas en columnas por cada categoria
data = pd.get_dummies(data, columns=['SEXO','LOCALIDAD_NOMBRE','MORTALIDAD_CODIGO_CIE10'])
data.head()

Unnamed: 0,ANIO,SEXO_Femenino,SEXO_Masculino,LOCALIDAD_NOMBRE_Ciudad Bolívar,LOCALIDAD_NOMBRE_Kennedy,LOCALIDAD_NOMBRE_Puente Aranda,LOCALIDAD_NOMBRE_Suba,LOCALIDAD_NOMBRE_Usme,MORTALIDAD_CODIGO_CIE10_J42X,MORTALIDAD_CODIGO_CIE10_J431,MORTALIDAD_CODIGO_CIE10_J432,MORTALIDAD_CODIGO_CIE10_J439,MORTALIDAD_CODIGO_CIE10_J440,MORTALIDAD_CODIGO_CIE10_J441,MORTALIDAD_CODIGO_CIE10_J448,MORTALIDAD_CODIGO_CIE10_J449,MORTALIDAD_CODIGO_CIE10_J982,MORTALIDAD_CODIGO_CIE10_P250
4861,2005,0,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0
5034,2005,0,1,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0
5080,2005,0,1,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0
5081,2005,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0
5082,2005,0,1,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0


In [None]:
data.shape

(11482, 18)

In [None]:
data.dtypes

ANIO                               int64
SEXO_Femenino                      uint8
SEXO_Masculino                     uint8
LOCALIDAD_NOMBRE_Ciudad Bolívar    uint8
LOCALIDAD_NOMBRE_Kennedy           uint8
LOCALIDAD_NOMBRE_Puente Aranda     uint8
LOCALIDAD_NOMBRE_Suba              uint8
LOCALIDAD_NOMBRE_Usme              uint8
MORTALIDAD_CODIGO_CIE10_J42X       uint8
MORTALIDAD_CODIGO_CIE10_J431       uint8
MORTALIDAD_CODIGO_CIE10_J432       uint8
MORTALIDAD_CODIGO_CIE10_J439       uint8
MORTALIDAD_CODIGO_CIE10_J440       uint8
MORTALIDAD_CODIGO_CIE10_J441       uint8
MORTALIDAD_CODIGO_CIE10_J448       uint8
MORTALIDAD_CODIGO_CIE10_J449       uint8
MORTALIDAD_CODIGO_CIE10_J982       uint8
MORTALIDAD_CODIGO_CIE10_P250       uint8
dtype: object

In [None]:
data['ANIO']

4861      2005
5034      2005
5080      2005
5081      2005
5082      2005
          ... 
539424    2021
539425    2021
539426    2021
539427    2021
539428    2021
Name: ANIO, Length: 11482, dtype: int64

In [None]:
data['ANIO'] = pd.Categorical(data['ANIO'])
categories = data.ANIO.cat.categories
codes = data.ANIO.cat.codes

In [None]:
categories

Int64Index([2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015,
            2016, 2017, 2018, 2019, 2020, 2021],
           dtype='int64')

In [None]:
data['ANIO'] = data.ANIO.cat.codes
data.dtypes

ANIO                                int8
SEXO_Femenino                      uint8
SEXO_Masculino                     uint8
LOCALIDAD_NOMBRE_Ciudad Bolívar    uint8
LOCALIDAD_NOMBRE_Kennedy           uint8
LOCALIDAD_NOMBRE_Puente Aranda     uint8
LOCALIDAD_NOMBRE_Suba              uint8
LOCALIDAD_NOMBRE_Usme              uint8
MORTALIDAD_CODIGO_CIE10_J42X       uint8
MORTALIDAD_CODIGO_CIE10_J431       uint8
MORTALIDAD_CODIGO_CIE10_J432       uint8
MORTALIDAD_CODIGO_CIE10_J439       uint8
MORTALIDAD_CODIGO_CIE10_J440       uint8
MORTALIDAD_CODIGO_CIE10_J441       uint8
MORTALIDAD_CODIGO_CIE10_J448       uint8
MORTALIDAD_CODIGO_CIE10_J449       uint8
MORTALIDAD_CODIGO_CIE10_J982       uint8
MORTALIDAD_CODIGO_CIE10_P250       uint8
dtype: object

In [None]:
data['ANIO'].head()

4861    0
5034    0
5080    0
5081    0
5082    0
Name: ANIO, dtype: int8

In [None]:
X = data.drop('ANIO', axis=1)
X.shape

(11482, 17)

In [None]:
Y=pd.DataFrame()
Y['ANIO'] = data['ANIO']
Y.shape

(11482, 1)

In [None]:
print(data['ANIO'].value_counts(normalize=True).mul(100).round(1).astype(str)+'%')

14    8.9%
13    7.9%
12    7.5%
10    6.8%
11    6.7%
16    6.1%
9     6.1%
7     6.0%
8     6.0%
5     5.8%
6     5.7%
3     5.1%
2     4.9%
4     4.6%
1     4.2%
0     4.0%
15    3.8%
Name: ANIO, dtype: object


### Transformación datos: media cero y varianza unitaria

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# Media cero y varianza unitaria
sc = StandardScaler()
Xsc = sc.fit(X)
Xt = Xsc.transform(X)
Xt.shape


(11482, 17)

### Partición conjuntos de datos: Entrenamiento, prueba y validación

In [None]:
from sklearn.model_selection import train_test_split as split

In [None]:
## # Definir función para particionar el conjunto de datos

X_train, X_test, y_train, y_test = split(Xt,Y,
                                         test_size=0.30,
                                         random_state=42,
                                         stratify=Y)

# X_train, X_valid, y_train, y_valid = split(X_train, y_train,
#                                            test_size=0.2,
#                                            stratify=y_train)

## Modelos Supervisados

### Árboles de decisión

In [None]:
# import xgboost as xgb
from sklearn import metrics
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

In [None]:
#Definición del modelo
arbol1 = DecisionTreeClassifier()

#Entrenamiento y evaluación del modelo
arbol1 = arbol1.fit(X_train,y_train)

# Calcular métricas de desempeño
y_pred = arbol1.predict(X_test)
print("\n", metrics.classification_report(y_test, y_pred, digits=2))

# Visualizar matriz de confusión
# Y_pred13 = np_utils.to_categorical(y_pred13)
# cm = matriz_confusion(Y_test, y_pred, 'si', 'Matriz de confusión clasificador AD')


               precision    recall  f1-score   support

           0       0.07      0.01      0.02       137
           1       0.07      0.18      0.11       146
           2       0.09      0.14      0.11       168
           3       0.06      0.31      0.10       176
           4       0.07      0.01      0.01       158
           5       0.02      0.01      0.01       200
           6       0.04      0.03      0.03       196
           7       0.12      0.02      0.04       208
           8       0.07      0.03      0.05       206
           9       0.00      0.00      0.00       209
          10       0.10      0.07      0.08       233
          11       0.05      0.05      0.05       233
          12       0.10      0.09      0.10       259
          13       0.07      0.07      0.07       271
          14       0.12      0.19      0.14       305
          15       0.00      0.00      0.00       131
          16       0.04      0.04      0.04       209

    accuracy            

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Random Forests

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
#Definición del modelo
rfc = RandomForestClassifier(n_estimators=100) # 100 , 200 , 300 , 400 , 500

#Entrenamiento y evaluación del modelo
rfc.fit(X_train, y_train)

# Calcular métricas de desempeño
y_pred2 = rfc.predict(X_test)
print("\n", metrics.classification_report(y_test, y_pred2, digits=2))

  rfc.fit(X_train, y_train)



               precision    recall  f1-score   support

           0       0.08      0.01      0.02       137
           1       0.07      0.18      0.10       146
           2       0.09      0.15      0.11       168
           3       0.06      0.30      0.10       176
           4       0.00      0.00      0.00       158
           5       0.02      0.01      0.01       200
           6       0.04      0.03      0.03       196
           7       0.14      0.03      0.05       208
           8       0.07      0.03      0.05       206
           9       0.00      0.00      0.00       209
          10       0.09      0.07      0.08       233
          11       0.05      0.05      0.05       233
          12       0.10      0.09      0.10       259
          13       0.07      0.07      0.07       271
          14       0.12      0.19      0.14       305
          15       0.00      0.00      0.00       131
          16       0.04      0.04      0.04       209

    accuracy            

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### Xgboost

In [None]:
# from sklearn.model_selection import cross_val_score, KFold
import xgboost as xgb

In [None]:
#Definición del modelo
xg_class = xgb.XGBClassifier(objective ='multi:softprob', colsample_bytree = 1, learning_rate = 0.04,
                max_depth = 4, alpha = 10, n_estimators = 200, eval_metric='mlogloss')

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y_train = le.fit_transform(y_train)

  y = column_or_1d(y, warn=True)


In [None]:
#Entrenamiento del modelo
xg_class.fit(X_train, y_train,
             eval_set=[(X_train, y_train), (X_test, y_test)],
             verbose=False)

In [None]:
# Calcular métricas de desempeño
y_pred4 = xg_class.predict(X_test)
print("\n", metrics.classification_report(y_test, y_pred4, digits=2))


               precision    recall  f1-score   support

           0       0.00      0.00      0.00       137
           1       0.07      0.18      0.10       146
           2       0.33      0.01      0.01       168
           3       0.00      0.00      0.00       176
           4       0.00      0.00      0.00       158
           5       0.00      0.00      0.00       200
           6       0.20      0.01      0.02       196
           7       0.16      0.03      0.06       208
           8       0.00      0.00      0.00       206
           9       0.00      0.00      0.00       209
          10       0.05      0.04      0.05       233
          11       0.00      0.00      0.00       233
          12       0.08      0.28      0.13       259
          13       0.10      0.11      0.10       271
          14       0.10      0.51      0.16       305
          15       0.00      0.00      0.00       131
          16       0.00      0.00      0.00       209

    accuracy            

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
