# PROYECTO DEMOGRAFICO CAUSA MORTALIDAD BOGOTA POR GENERO
## Luisa Magaly Achury
## Johan Cuellar Orjuela
## Sebastian Abella Rocha
### Fecha 10 enero *2024*

En este cuaderno de jupyter se realiza un flujo de trabajo para predecir por años en localidades de Bogotá el porcentaje de afectados por el EPOC por medio del genero , a partir de una base de datos


### Importar librerías

In [1]:
import numpy as np
import pandas as pd

### Cargar datos

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [6]:
# dataini = pd.read_csv('historico_siniestros_bogota_d.c_-.csv')
dataini = pd.read_csv('/content/drive/MyDrive/data/demografia_causasmortalidad.csv', sep=';', encoding='latin-1')

In [7]:
dataini.head()

Unnamed: 0,ANIO,SEXO,LOCALIDAD_CODIGO,LOCALIDAD_NOMBRE,EDAD_GRUPO,SEGURIDAD_SOCIAL_REGIMEN,MORTALIDAD_CODIGO_CIE10,MORTALIDAD_DESCRIPCION_CIE10,MORTALIDAD_DESCRIPCION_105,MORTALIDAD_DESCRIPCION_667,MORTALIDAD_CONDICION_CRONICA
0,2005,Masculino,1.0,Usaquén,00 a 04 años,VINCULADO,J189,"NEUMONIA, NO ESPECIFICADA",Neumonía,Infecciones respiratorias agudas,No aplica
1,2005,Femenino,1.0,Usaquén,00 a 04 años,CONTRIBUTIVO,J189,"NEUMONIA, NO ESPECIFICADA",Neumonía,Infecciones respiratorias agudas,No aplica
2,2005,Masculino,1.0,Usaquén,00 a 04 años,CONTRIBUTIVO,J219,"BRONQUIOLITIS AGUDA, NO ESPECIFICADA",Todas las demás enfermedades del sistema respi...,Infecciones respiratorias agudas,No aplica
3,2005,Masculino,1.0,Usaquén,00 a 04 años,SUBSIDIADO,P369,"SEPSIS BACTERIANA DEL RECIEN NACIDO, NO ESPECI...",Infecciones específicas del período perinatal,Sepsis bacteriana del recién nacido,No aplica
4,2005,Femenino,1.0,Usaquén,00 a 04 años,CONTRIBUTIVO,P369,"SEPSIS BACTERIANA DEL RECIEN NACIDO, NO ESPECI...",Infecciones específicas del período perinatal,Sepsis bacteriana del recién nacido,No aplica


In [8]:
data = dataini

data = data.drop(['LOCALIDAD_CODIGO','SEGURIDAD_SOCIAL_REGIMEN','MORTALIDAD_DESCRIPCION_105', 'MORTALIDAD_DESCRIPCION_667', 'MORTALIDAD_CONDICION_CRONICA', 'EDAD_GRUPO' ,'MORTALIDAD_DESCRIPCION_CIE10'], axis=1)

# Filtrar por códigos específicos en la columna 'MORTALIDAD_CODIGO_CIE10' y localidades específicas
#J449 ENFERMEDAD PULMONAR OBSTRUCTIVA CRONICA, NO ESPECIFICADA.
#J441 ENFERMEDAD PULMONAR OBSTRUCTIVA CRONICA CON EXACERBACION AGUDA, NO ESPECIFICADA
#J440 ENFERMEDAD PULMONAR OBSTRUCTIVA CRONICA CON INFECCION AGUDA DE LAS VIAS RESPIRATORIAS INFERIORES
#J42X BRONQUITIS CRONICA NO ESPECIFICADA
#J448 OTRAS ENFERMEDADES PULMONARES OBSTRUCTIVAS CRONICAS ESPECIFICADAS
#J439 ENFISEMA, NO ESPECIFICADO
#J431 ENFISEMA PANLOBULAR
#P250 ENFISEMA INTERSTICIAL ORIGINADO EN EL PERIODO PERINATAL
#J432 ENFISEMA CENTROLOBULAR
#J983 ENFISEMA COMPENSATORIO
#J982 ENFISEMA INTERSTICIAL
#P258 OTRAS AFECCIONES RELACIONADAS CON EL ENFISEMA INTERSTICIAL, ORIGINADAS EN EL PERIODO PERINATAL

codigos_deseados = ['J449', 'J441', 'J440', 'J42X', 'J448', 'J439', 'J431', 'P250', 'J432', 'J983', 'J982', 'P258']
localidades_deseadas = ['Ciudad Bolívar', 'Usme', 'Kennedy','Suba', 'Puente Aranda']
genero_deseado = ['Masculino','Femenino']

data = data[(data['MORTALIDAD_CODIGO_CIE10'].isin(codigos_deseados)) & (data['LOCALIDAD_NOMBRE'].isin(localidades_deseadas)) & (data['SEXO'].isin(genero_deseado))]

data.to_csv('/content/drive/MyDrive/data/resultados_mortalidad_por_genero_epoc.csv', index=False)


data.head()

Unnamed: 0,ANIO,SEXO,LOCALIDAD_NOMBRE,MORTALIDAD_CODIGO_CIE10
4861,2005,Masculino,Usme,J42X
5034,2005,Masculino,Usme,J448
5080,2005,Masculino,Usme,J449
5081,2005,Masculino,Usme,J441
5082,2005,Masculino,Usme,J449


In [9]:
# getdummies convierte las variable de string a numerico transfomandolas en columnas por cada categoria
data = pd.get_dummies(data, columns=['LOCALIDAD_NOMBRE','MORTALIDAD_CODIGO_CIE10'])
data.head()

Unnamed: 0,ANIO,SEXO,LOCALIDAD_NOMBRE_Ciudad Bolívar,LOCALIDAD_NOMBRE_Kennedy,LOCALIDAD_NOMBRE_Puente Aranda,LOCALIDAD_NOMBRE_Suba,LOCALIDAD_NOMBRE_Usme,MORTALIDAD_CODIGO_CIE10_J42X,MORTALIDAD_CODIGO_CIE10_J431,MORTALIDAD_CODIGO_CIE10_J432,MORTALIDAD_CODIGO_CIE10_J439,MORTALIDAD_CODIGO_CIE10_J440,MORTALIDAD_CODIGO_CIE10_J441,MORTALIDAD_CODIGO_CIE10_J448,MORTALIDAD_CODIGO_CIE10_J449,MORTALIDAD_CODIGO_CIE10_J982,MORTALIDAD_CODIGO_CIE10_P250
4861,2005,Masculino,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0
5034,2005,Masculino,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0
5080,2005,Masculino,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0
5081,2005,Masculino,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0
5082,2005,Masculino,0,0,0,0,1,0,0,0,0,0,0,0,1,0,0


In [10]:
data.shape

(11482, 17)

In [11]:
data.dtypes

ANIO                                int64
SEXO                               object
LOCALIDAD_NOMBRE_Ciudad Bolívar     uint8
LOCALIDAD_NOMBRE_Kennedy            uint8
LOCALIDAD_NOMBRE_Puente Aranda      uint8
LOCALIDAD_NOMBRE_Suba               uint8
LOCALIDAD_NOMBRE_Usme               uint8
MORTALIDAD_CODIGO_CIE10_J42X        uint8
MORTALIDAD_CODIGO_CIE10_J431        uint8
MORTALIDAD_CODIGO_CIE10_J432        uint8
MORTALIDAD_CODIGO_CIE10_J439        uint8
MORTALIDAD_CODIGO_CIE10_J440        uint8
MORTALIDAD_CODIGO_CIE10_J441        uint8
MORTALIDAD_CODIGO_CIE10_J448        uint8
MORTALIDAD_CODIGO_CIE10_J449        uint8
MORTALIDAD_CODIGO_CIE10_J982        uint8
MORTALIDAD_CODIGO_CIE10_P250        uint8
dtype: object

In [12]:
data['SEXO']

4861      Masculino
5034      Masculino
5080      Masculino
5081      Masculino
5082      Masculino
            ...    
539424     Femenino
539425     Femenino
539426    Masculino
539427     Femenino
539428     Femenino
Name: SEXO, Length: 11482, dtype: object

In [13]:
data['SEXO'] = pd.Categorical(data['SEXO'])
categories = data.SEXO.cat.categories
codes = data.SEXO.cat.codes

In [14]:
categories

Index(['Femenino', 'Masculino'], dtype='object')

In [15]:
data['SEXO'] = data.SEXO.cat.codes
data.dtypes

ANIO                               int64
SEXO                                int8
LOCALIDAD_NOMBRE_Ciudad Bolívar    uint8
LOCALIDAD_NOMBRE_Kennedy           uint8
LOCALIDAD_NOMBRE_Puente Aranda     uint8
LOCALIDAD_NOMBRE_Suba              uint8
LOCALIDAD_NOMBRE_Usme              uint8
MORTALIDAD_CODIGO_CIE10_J42X       uint8
MORTALIDAD_CODIGO_CIE10_J431       uint8
MORTALIDAD_CODIGO_CIE10_J432       uint8
MORTALIDAD_CODIGO_CIE10_J439       uint8
MORTALIDAD_CODIGO_CIE10_J440       uint8
MORTALIDAD_CODIGO_CIE10_J441       uint8
MORTALIDAD_CODIGO_CIE10_J448       uint8
MORTALIDAD_CODIGO_CIE10_J449       uint8
MORTALIDAD_CODIGO_CIE10_J982       uint8
MORTALIDAD_CODIGO_CIE10_P250       uint8
dtype: object

In [16]:
data['SEXO'].head()

4861    1
5034    1
5080    1
5081    1
5082    1
Name: SEXO, dtype: int8

In [17]:
X = data.drop('SEXO', axis=1)
X.shape

(11482, 16)

In [18]:
Y=pd.DataFrame()
Y['SEXO'] = data['SEXO']
Y.shape

(11482, 1)

In [19]:
print(data['SEXO'].value_counts(normalize=True).mul(100).round(1).astype(str)+'%')

0    52.7%
1    47.3%
Name: SEXO, dtype: object


### Transformación datos: media cero y varianza unitaria

In [20]:
from sklearn.preprocessing import StandardScaler

In [21]:
# Media cero y varianza unitaria
sc = StandardScaler()
Xsc = sc.fit(X)
Xt = Xsc.transform(X)
Xt.shape


(11482, 16)

### Partición conjuntos de datos: Entrenamiento, prueba y validación

In [22]:
from sklearn.model_selection import train_test_split as split

In [23]:
## # Definir función para particionar el conjunto de datos

X_train, X_test, y_train, y_test = split(Xt,Y,
                                         test_size=0.30,
                                         random_state=42,
                                         stratify=Y)

# X_train, X_valid, y_train, y_valid = split(X_train, y_train,
#                                            test_size=0.2,
#                                            stratify=y_train)

## Modelos Supervisados

### Árboles de decisión

In [24]:
# import xgboost as xgb
from sklearn import metrics
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

In [25]:
#Definición del modelo
arbol1 = DecisionTreeClassifier()

#Entrenamiento y evaluación del modelo
arbol1 = arbol1.fit(X_train,y_train)

# Calcular métricas de desempeño
y_pred = arbol1.predict(X_test)
print("\n", metrics.classification_report(y_test, y_pred, digits=2))

# Visualizar matriz de confusión
# Y_pred13 = np_utils.to_categorical(y_pred13)
# cm = matriz_confusion(Y_test, y_pred, 'si', 'Matriz de confusión clasificador AD')


               precision    recall  f1-score   support

           0       0.55      0.70      0.62      1816
           1       0.52      0.36      0.42      1629

    accuracy                           0.54      3445
   macro avg       0.53      0.53      0.52      3445
weighted avg       0.53      0.54      0.52      3445



### Random Forests

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [26]:
#Definición del modelo
rfc = RandomForestClassifier(n_estimators=500) # 100 , 200 , 300 , 400 , 500

#Entrenamiento y evaluación del modelo
rfc.fit(X_train, y_train)

# Calcular métricas de desempeño
y_pred2 = rfc.predict(X_test)
print("\n", metrics.classification_report(y_test, y_pred2, digits=2))

  rfc.fit(X_train, y_train)



               precision    recall  f1-score   support

           0       0.55      0.66      0.60      1816
           1       0.51      0.40      0.45      1629

    accuracy                           0.53      3445
   macro avg       0.53      0.53      0.52      3445
weighted avg       0.53      0.53      0.53      3445



### Xgboost

In [27]:
# from sklearn.model_selection import cross_val_score, KFold
import xgboost as xgb

In [28]:
#Definición del modelo
xg_class = xgb.XGBClassifier(objective ='multi:softprob', colsample_bytree = 1, learning_rate = 0.04,
                max_depth = 4, alpha = 10, n_estimators = 200, eval_metric='mlogloss')

In [29]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y_train = le.fit_transform(y_train)

  y = column_or_1d(y, warn=True)


In [30]:
#Entrenamiento del modelo
xg_class.fit(X_train, y_train,
             eval_set=[(X_train, y_train), (X_test, y_test)],
             verbose=False)

XGBoostError: value 0 for Parameter num_class should be greater equal to 1
num_class: Number of output class in the multi-class classification.

In [None]:
# Calcular métricas de desempeño
y_pred4 = xg_class.predict(X_test)
print("\n", metrics.classification_report(y_test, y_pred4, digits=2))

NotFittedError: need to call fit or load_model beforehand