## **Codificación de variables categóricas**

In [74]:
import pandas as pd

In [75]:
# Cargar desde CSV
data = pd.read_csv('dataframe24salida.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28787 entries, 0 to 28786
Data columns (total 25 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   DESCRIPCION                          28787 non-null  object 
 1   Mes                                  28787 non-null  object 
 2   Tipo Egreso (INTERNACION)            28787 non-null  object 
 3   Paciente Entidad Responsable Pago    28787 non-null  object 
 4   Paciente Modalidad Contrato          28787 non-null  object 
 5   Paciente Regimen Afiliacion          28787 non-null  object 
 6   Minutos (Camara - F3)                28787 non-null  float64
 7   Dx Principal Tipo                    28787 non-null  object 
 8   Dx Principal Cod                     28787 non-null  object 
 9   Dx Principal Cod.1                   28787 non-null  object 
 10  Dx Relacionado1 Cod                  28787 non-null  object 
 11  Dx Relacionado2 Cod         

## Descripción

Codificación binaria

In [76]:
frec = data['DESCRIPCION'].value_counts()
print(frec)

URGENCIAS ADULTO         21426
URGENCIAS PEDIATRICAS     7361
Name: DESCRIPCION, dtype: int64


In [77]:
data['DESCRIPCION'] = data['DESCRIPCION'].map({'URGENCIAS PEDIATRICAS':0 , 'URGENCIAS ADULTO':1})

print(data['DESCRIPCION'].value_counts())

1    21426
0     7361
Name: DESCRIPCION, dtype: int64


## Mes

Codificación por frecuencia, dado que puede ser **útil cuando capturar la información sobre la prevalencia de hospitalizados según el mes, dado que hay variaciones considerables**

In [78]:
month_counts = data['Mes'].value_counts()

# Aplicar la codificación de frecuencia
data['Mes'] = data['Mes'].map(month_counts/1000)

# Imprimir el dataframe codificado
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

  Paciente Entidad Responsable Pago Paciente Modalidad Contrato  \
0                                48                      EVENTO   
1                                 5                         PGP   
2                                65                      EVENTO   
3                                48                      EVENTO   
4                             Otros                      EVENTO   

  Paciente Regimen Afiliacion  Minutos (Camara - F3) Dx Principal Tipo   \
0                  SUBSIDIADO              26.633333           REPETIDO   
1                  SUBSIDIADO              65.133333              NUEVO   
2                    ESPECIAL              82.050000             

## Paciente entidad responsable pago

In [79]:
frec = data['Paciente Entidad Responsable Pago'].value_counts()
print (frec)
# Reemplazar 'Otros' por 1
data['Paciente Entidad Responsable Pago'].replace('Otros', 1, inplace=True)

# Convertir la columna a tipo de datos numérico
data['Paciente Entidad Responsable Pago'] = data['Paciente Entidad Responsable Pago'].astype(int)

# Verificar el tipo de datos de la columna después de la conversión
print(data['Paciente Entidad Responsable Pago'].dtype)

48       10607
65        3458
4         3045
5         2535
47        2199
34        1259
68         830
Otros      690
53         602
18         460
23         408
2          398
11         375
63         364
39         326
56         242
15         222
60         163
46         140
62         139
57         118
8          107
61         100
Name: Paciente Entidad Responsable Pago, dtype: int64
int32


In [80]:
print(data['Paciente Entidad Responsable Pago'].value_counts())

48    10607
65     3458
4      3045
5      2535
47     2199
34     1259
68      830
1       690
53      602
18      460
23      408
2       398
11      375
63      364
39      326
56      242
15      222
60      163
46      140
62      139
57      118
8       107
61      100
Name: Paciente Entidad Responsable Pago, dtype: int64


## Paciente Modalidad Contrato 

In [81]:
frec = data['Paciente Modalidad Contrato'].value_counts()
print (frec)

EVENTO    24023
PGP        4734
CAPITA       30
Name: Paciente Modalidad Contrato, dtype: int64


In [82]:
data = pd.get_dummies(data, columns=['Paciente Modalidad Contrato'])
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago Paciente Regimen Afiliacion  \
0                                 48                  SUBSIDIADO   
1                                  5                  SUBSIDIADO   
2                                 65                    ESPECIAL   
3                                 48                CONTRIBUTIVO   
4                                  1                CONTRIBUTIVO   

   Minutos (Camara - F3) Dx Principal Tipo  Dx Principal Cod  \
0              26.633333           REPETIDO             I10X   
1              65.133333              NUEVO             W540   
2              82.050000              NUEVO             G510   
3               0.000000    

## Paciente Regimen Afiliacion 

In [83]:
frec = data['Paciente Regimen Afiliacion'].value_counts()
print (frec)

CONTRIBUTIVO    11911
SUBSIDIADO       9232
ESPECIAL         4978
NO ASEGURADO     2666
Name: Paciente Regimen Afiliacion, dtype: int64


In [84]:
data = pd.get_dummies(data, columns=['Paciente Regimen Afiliacion'])
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

  Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0           REPETIDO             I10X            I00-I99                NA00   
1              NUEVO             W540            V01-Y98                NA00   
2              NUEVO             G510            G00-G99                NA

## Dx principal tipo

Como solo se tienen dos categorías se usa codificación binaria.

In [85]:
frec = data['Dx Principal Tipo '].value_counts()
print (frec)

NUEVO       23861
REPETIDO     4926
Name: Dx Principal Tipo , dtype: int64


In [86]:
data['Dx Principal Tipo '] = data['Dx Principal Tipo '].map({'NUEVO':0 , 'REPETIDO':1})

In [87]:
print(data['Dx Principal Tipo '].value_counts())
print(data.head())

0    23861
1     4926
Name: Dx Principal Tipo , dtype: int64
   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2         

## Paciente Sexo  

Solo hay dos categorías y se realiza codificación binaria

In [88]:
frec = data['Paciente Sexo'].value_counts()
print (frec)

FEMENINO     14605
MASCULINO    14182
Name: Paciente Sexo, dtype: int64


In [89]:
data['Paciente Sexo'] = data['Paciente Sexo'].map({'MASCULINO':0 , 'FEMENINO':1})
print (data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2                   0             G510            G00-G99              

## Clasificacion 1 Triaje Enfermeria

Se hace una codificación ordinal dado que hay una jerarquía conocida entre las categorías. Se le da mayor valor numérico al triaje de mayor urgencia y así disminuye.

In [90]:
frec = data['Clasificacion 1 Triaje \nEnfermeria '].value_counts()
print (frec)

TRIAJE 3     22134
TRIAJE 2      4808
NO APLICA     1460
TRIAJE 4       207
TRIAJE 1       134
TRIAJE 5        44
Name: Clasificacion 1 Triaje \nEnfermeria , dtype: int64


In [91]:
# Definir el orden de las categorías
orden = ['NO APLICA', 'TRIAJE 5', 'TRIAJE 4', 'TRIAJE 3', 'TRIAJE 2', 'TRIAJE 1']

# Aplicar la codificación ordinal
data['Clasificacion 1 Triaje \nEnfermeria '] = data['Clasificacion 1 Triaje \nEnfermeria '].map({cat: idx for idx, cat in enumerate(orden)})

# Imprimir el dataframe codificado
print(data['Clasificacion 1 Triaje \nEnfermeria '].value_counts())
print(data.head())

3    22134
4     4808
0     1460
2      207
5      134
1       44
Name: Clasificacion 1 Triaje \nEnfermeria , dtype: int64
   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0        

## Causa Externa  (Riesgo) 

In [92]:
frec = data['Causa Externa  (Riesgo)'].value_counts()
print (frec)

ENFERMEDAD GENERAL        25595
ACCIDENTE DE TRANSITO      2237
ACCIDENTE DE TRABAJO        737
OTRO TIPO DE ACCIDENTE      156
LESIÓN POR AGRESIÓN          20
OTRA                         16
ENFERMEDAD PROFESIONAL       12
SOSPECHA ABUSO SEXUAL         9
ACCIDENTE RÁBICO              5
Name: Causa Externa  (Riesgo), dtype: int64


In [93]:
data = pd.get_dummies(data, columns=['Causa Externa  (Riesgo)'])
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2                   0             G510            G00-G99              

## Modalidad Atencion

In [94]:
frec = data['Modalidad Atencion'].value_counts()
print (frec)

URGENCIAS    26906
REMITIDO      1881
Name: Modalidad Atencion, dtype: int64


In [95]:
data['Modalidad Atencion'] = data['Modalidad Atencion'].map({'URGENCIAS':1 , 'REMITIDO':0})
print (data['Modalidad Atencion'].value_counts())
print (data.head())

1    26906
0     1881
Name: Modalidad Atencion, dtype: int64
   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2         

## Ubicación Triaje

In [96]:
frec = data['Ubicación Triaje'].value_counts()
print (frec)

CONSULTORIO 1               11786
CONSULTORIO PEDIATRIA        7270
TRAUMA                       5020
XPRESS                       3098
CONSULTORIO 4                 955
UDEA                          558
CONSULTORIO ONCOLOGIA          42
SAI ADULTO                     19
CONSULTORIO 1 MAGISTERIO       18
CONSULTORIO 2                  10
CONSULTORIO 3                   6
TAMIZAJE COVID                  4
XPress                          1
Name: Ubicación Triaje, dtype: int64


In [97]:
data = pd.get_dummies(data, columns=['Ubicación Triaje'])
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2                   0             G510            G00-G99              

## Urgencia Xpress F3

In [98]:
frec = data['Urgencia Xpress F3'].value_counts()
print (frec, frec.index)

False    22947
True      5840
Name: Urgencia Xpress F3, dtype: int64 Index([False, True], dtype='bool')


In [99]:
data['Urgencia Xpress F3'] = data['Urgencia Xpress F3'].map({False:1 , True:0})
print (data['Urgencia Xpress F3'].value_counts())
print (data.head())

1    22947
0     5840
Name: Urgencia Xpress F3, dtype: int64
   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2         

## Grupo Poblacional 

In [100]:
frec = data['Grupo Poblacional'].value_counts()
print (frec, frec.index)

POBLACIÓN GENERAL              28486
HABITANTE DE CALLE               205
VICTIMA DE CONFLICTO ARMADO       96
Name: Grupo Poblacional, dtype: int64 Index(['POBLACIÓN GENERAL', 'HABITANTE DE CALLE',
       'VICTIMA DE CONFLICTO ARMADO'],
      dtype='object')


In [101]:
data = pd.get_dummies(data, columns=['Grupo Poblacional'])
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2                   0             G510            G00-G99              

## Pertenencia Etnica

In [102]:
frec = data['Pertenencia Etnica'].value_counts()
print (frec)

OTRAS ETNIAS                                                     26991
NEGRO (A). MULATO (A). AFROCOLOMBIANO (A) O AFRO DESCENDIENTE     1506
RROM (GITANO)                                                      163
INDÍGENA                                                           106
RAIZAL (ARCHIPIELAGO DE SAN ANDRES Y PROVIDENCIA)                   21
Name: Pertenencia Etnica, dtype: int64


In [103]:
data = pd.get_dummies(data, columns=['Pertenencia Etnica'])
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2                   0             G510            G00-G99              

## Alto costo

In [104]:
frec = data['ALTO COSTO'].value_counts()
print (frec)

ZNO ALTO COSTO         27685
CANCER                   560
DIABETES                 191
HIPERTENSION             153
RENAL                    128
TUBERCULOSIS              37
VIH                       20
ARTRITIS REUMATOIDE        8
GESTANTES                  3
HEMOFILIA                  1
HEPATITIS C                1
Name: ALTO COSTO, dtype: int64


In [105]:
data = pd.get_dummies(data, columns=['ALTO COSTO'])
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2                   0             G510            G00-G99              

## Variables de diagnostico


In [106]:
# Suponiendo que 'data' es tu DataFrame
categorias_dx_principal = data['Dx Principal Cod'].value_counts().index
categorias_dx_relacionado1 = data['Dx Relacionado1 Cod'].value_counts().index
categorias_dx_relacionado2 = data['Dx Relacionado2 Cod '].value_counts().index
categorias_dx_relacionado3 = data['Dx Relacionado3 Cod'].value_counts().index

# Verificar si hay categorías iguales
categorias_comunes = set(categorias_dx_principal) & set(categorias_dx_relacionado1) & set(categorias_dx_relacionado2) & set(categorias_dx_relacionado3)

if len(categorias_comunes) > 0:
    print("Hay categorías comunes entre las columnas")
    print("Categorías comunes:", categorias_comunes)
else:
    print("No hay categorías comunes entre las columnas.")

Hay categorías comunes entre las columnas
Categorías comunes: {'R521', 'S069', 'J00X', 'E86X', 'S015', 'R101', 'S619', 'R300', 'R11X', 'S809', 'J441', 'R400', 'R34X', 'F09X', 'G934', 'G409', 'E039', 'R060', 'S068', 'M542', 'D649', 'S602', 'A419', 'L039', 'J449', 'M796', 'S519', 'H920', 'S018', 'E440', 'N939', 'K830', 'E107', 'N179', 'R51X', 'S810', 'R05X', 'N390', 'S903', 'N185', 'E119', 'I269', 'R104', 'S910', 'S701', 'S500', 'J960', 'S202', 'I499', 'S301', 'H651', 'J448', 'R17X', 'S019', 'R634', 'S501', 'S909', 'K922', 'S600', 'H659', 'J22X', 'S700', 'S609', 'S420', 'R31X', 'R509', 'A090', 'S422', 'M329', 'R040', 'T861', 'I500', 'S801', 'J353', 'H669', 'R418', 'J039', 'J050', 'N189', 'S800', 'C900', 'R55X', 'L089', 'S098', 'R520', 'S022', 'S900', 'E109', 'I10X', 'I219', 'Z940', 'S901', 'R072', 'S607', 'S099', 'S818', 'K746', 'R074', 'M545', 'B86X'}


Como hay categorias de diagnosticos comunes entre el principal y relacionados, en este caso se usa un enfoque similar al one-hot encoding, se crea una codificación especial donde se tenga una columna por cada código de diagnóstico posible, y si un paciente tiene ese diagnóstico como principal, el valor sea 2; si es un diagnóstico relacionado, el valor sea 1; y si el paciente no tiene ese diagnóstico, el valor sea 0.

In [107]:
# Obtener la lista de todos los códigos de diagnóstico únicos
codigos_diagnosticos = list(set(data['Dx Principal Cod'].unique()).union(
                             set(data['Dx Relacionado1 Cod'].unique()),
                             set(data['Dx Relacionado2 Cod '].unique()),  # Espacio adicional aquí
                             set(data['Dx Relacionado3 Cod'].unique())))

# Crear un DataFrame vacío para almacenar las nuevas columnas
nuevas_columnas = pd.DataFrame(0, index=data.index, columns=codigos_diagnosticos)

# Recorrer cada fila y establecer el valor apropiado para cada código de diagnóstico
for idx, row in data.iterrows():
    if row['Dx Principal Cod'] in codigos_diagnosticos:
        nuevas_columnas.at[idx, row['Dx Principal Cod']] = 2
    if row['Dx Relacionado1 Cod'] in codigos_diagnosticos:
        nuevas_columnas.at[idx, row['Dx Relacionado1 Cod']] = 1
    if row['Dx Relacionado2 Cod '] in codigos_diagnosticos:  # Espacio adicional aquí
        nuevas_columnas.at[idx, row['Dx Relacionado2 Cod ']] = 1  # Espacio adicional aquí
    if row['Dx Relacionado3 Cod'] in codigos_diagnosticos:
        nuevas_columnas.at[idx, row['Dx Relacionado3 Cod']] = 1

# Concatenar el DataFrame original con las nuevas columnas
data = pd.concat([data, nuevas_columnas], axis=1)

# Verificar el resultado
print(data.head())

   DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0            1  2.634             HOSPITALIZADO   
1            1  2.634                 NO APLICA   
2            1  2.634                 NO APLICA   
3            1  2.634             HOSPITALIZADO   
4            1  2.634             HOSPITALIZADO   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo  Dx Principal Cod Dx Principal Cod.1 Dx Relacionado1 Cod  \
0                   1             I10X            I00-I99                NA00   
1                   0             W540            V01-Y98                NA00   
2                   0             G510            G00-G99              

In [108]:
# Eliminar las columnas de diagnóstico originales si es necesario
data.drop(columns=['Dx Principal Cod.1','Dx Principal Cod', 'Dx Relacionado1 Cod', 'Dx Relacionado2 Cod ', 'Dx Relacionado3 Cod'], inplace=True)
print(data)

       DESCRIPCION    Mes Tipo Egreso (INTERNACION)  \
0                1  2.634             HOSPITALIZADO   
1                1  2.634                 NO APLICA   
2                1  2.634                 NO APLICA   
3                1  2.634             HOSPITALIZADO   
4                1  2.634             HOSPITALIZADO   
...            ...    ...                       ...   
28782            1  1.634                 NO APLICA   
28783            1  1.634                 NO APLICA   
28784            1  1.634                 NO APLICA   
28785            1  1.634                 NO APLICA   
28786            1  1.634                 NO APLICA   

       Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                     48              26.633333   
1                                      5              65.133333   
2                                     65              82.050000   
3                                     48               0.000000   
4   

## Variable de salida

In [109]:
frec = data['Tipo Egreso (INTERNACION)'].value_counts()
print (frec)

NO APLICA        14721
HOSPITALIZADO    14066
Name: Tipo Egreso (INTERNACION), dtype: int64


In [110]:
data['Tipo Egreso (INTERNACION)'] = data['Tipo Egreso (INTERNACION)'].map({'NO APLICA':1 , 'HOSPITALIZADO':0})
print (data['Tipo Egreso (INTERNACION)'].value_counts())
print (data.head())

1    14721
0    14066
Name: Tipo Egreso (INTERNACION), dtype: int64
   DESCRIPCION    Mes  Tipo Egreso (INTERNACION)  \
0            1  2.634                          0   
1            1  2.634                          1   
2            1  2.634                          1   
3            1  2.634                          0   
4            1  2.634                          0   

   Paciente Entidad Responsable Pago  Minutos (Camara - F3)  \
0                                 48              26.633333   
1                                  5              65.133333   
2                                 65              82.050000   
3                                 48               0.000000   
4                                  1             116.850000   

   Dx Principal Tipo   Paciente Edad  Paciente Sexo  \
0                   1           75.0              1   
1                   0           61.0              1   
2                   0           62.0              1   
3                   

Ya todas las columnas son numéricas y no hay ninguna categórica

In [111]:
# Mostrar información sobre el DataFrame
print(data.info())

# Filtrar columnas de tipo 'object'
columnas_categoricas = data.select_dtypes(include=['object']).columns

# Imprimir las columnas categóricas
print("Columnas categóricas:")
print(columnas_categoricas)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28787 entries, 0 to 28786
Columns: 2430 entries, DESCRIPCION to I359
dtypes: float64(5), int32(1), int64(2376), uint8(48)
memory usage: 524.4 MB
None
Columnas categóricas:
Index([], dtype='object')
