# CLEANING: SIAU tables (Excel files)

In [None]:
#Run only if there are errors related to missing packages
#!pip install -r requirements.txt

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from numpy import NaN

In [None]:
# Import all available files
df1 = pd.read_csv('/datasets/gdrive/DS4A - Team Project/data/aseguramiento.v3/aseguramiento_final.csv', parse_dates=['FECHA'],encoding="UTF-8")
df2 = pd.read_excel('/datasets/gdrive/DS4A - Team Project/data/SIAU.v1/correction_dates/ATENCION USUARIOS MES DE OCTUBRE  2021 (1).xlsx', skiprows=[0,1])
df3 = pd.read_excel('/datasets/gdrive/DS4A - Team Project/data/SIAU.v1/correction_dates/ATENCION USUARIOS MES DE NOVIEMBRE 2021 (1).xlsx')
df4 = pd.read_excel('/datasets/gdrive/DS4A - Team Project/data/SIAU.v1/correction_dates/ATENCION USUARIOS MES DE DICIEMBRE 2021 (1).xlsx')
df5 = pd.read_excel('/datasets/gdrive/DS4A - Team Project/data/SIAU.v1/correction_dates/ATENCION USUARIOS MES DE ENERO 2022 (1).xlsx')

In [None]:
df6 = pd.read_excel('/datasets/gdrive/DS4A - Team Project/data/SIAU.v1/correction_dates/Excel SIAU FEBRERO 2022(Recuperado automáticamente) (1).xlsx', skiprows=[0,2])
df7 = pd.read_excel('/datasets/gdrive/DS4A - Team Project/data/SIAU.v1/correction_dates/Excel SIAU MARZO 2022 (1).xlsx', skiprows=[0,2])
df8 = pd.read_excel('/datasets/gdrive/DS4A - Team Project/data/SIAU.v1/correction_dates/Excel SIAU ABRIL 2022 (1).xlsx', skiprows=[0,2])
df_pdf = pd.read_csv('/datasets/gdrive/DS4A - Team Project/data/PDF_Orfeo.v4/data_pdfs_Orfeo_final.csv', parse_dates=['DATE'], encoding='UTF-8')

**CHECKING DATES AND CONVERTING THEM TO DATETIME OBJECTS:**

In [None]:
# Let's check the format of the dates in each of the original files. Dates were parsed when reading the files corresponding to
# df1 and df_pdf only, because in the other files there are a lot of blank spaces and nulls, and it will be better to use pd.to_datetime() afterwards.

dfs = [df1,df2,df3,df4,df5,df6,df7,df8]
for df in dfs:
    print(df['FECHA'].head(1))
print(df_pdf['DATE'].head(1))


0   2019-05-06 14:24:20.476704
Name: FECHA, dtype: datetime64[ns]
0    04-10-2021
Name: FECHA, dtype: object
0    02-11-2021
Name: FECHA, dtype: object
0    01-12-2021
Name: FECHA, dtype: object
0    04-01-2022
Name: FECHA, dtype: object
0    31-01-2022
Name: FECHA, dtype: object
0    01-03-2022
Name: FECHA, dtype: object
0    01-04-2022
Name: FECHA, dtype: object
0   2018-10-27 11:09:51
Name: DATE, dtype: datetime64[ns]


In [None]:
# let's check how many null values we have in column FECHA for each one of the original files

dfs = [df1,df2,df3,df4,df5,df6,df7,df8]
for df in dfs:
    print(df['FECHA'].isnull().sum())
print(df_pdf['DATE'].isnull().sum())

0
3
5
121
100
0
0
4
0


In [None]:
# There are some null values, but there are also a lot of blank spaces. Let's convert all these FECHA columns to datetime objects 
# (for the columns that are not already datetime objects), and convert all blank spaces to NaN (or NaT) values

to_dates = [df2,df3,df4,df5,df6,df7,df8]
for df in to_dates:
    df['FECHA'] = pd.to_datetime(df['FECHA'], errors='coerce', format='%d-%m-%Y')

# and let's check again the format in all files

for df in dfs:
    print(df['FECHA'].head(1))

0   2019-05-06 14:24:20.476704
Name: FECHA, dtype: datetime64[ns]
0   2021-10-04
Name: FECHA, dtype: datetime64[ns]
0   2021-11-02
Name: FECHA, dtype: datetime64[ns]
0   2021-12-01
Name: FECHA, dtype: datetime64[ns]
0   2022-01-04
Name: FECHA, dtype: datetime64[ns]
0   2022-01-31
Name: FECHA, dtype: datetime64[ns]
0   2022-03-01
Name: FECHA, dtype: datetime64[ns]
0   2022-04-01
Name: FECHA, dtype: datetime64[ns]


In [None]:
# let's check null  values again

dfs = [df1,df2,df3,df4,df5,df6,df7,df8]
for df in dfs:
    print(df['FECHA'].isnull().sum())
print(df_pdf['DATE'].isnull().sum())

0
51
129
226
142
135
113
44
0


In [None]:
df5['FECHA'].head()

0   2022-01-04
1   2022-01-05
2          NaT
3   2022-01-06
4          NaT
Name: FECHA, dtype: datetime64[ns]

**CLEANING AND CONCATENATING df6, df7 and df8:**

In [None]:
# Let's see the columns of df6, df7 and df8
print(df6.columns)
print(df7.columns)
print(df8.columns)

Index(['ITEM', 'FECHA', 'SEXO', 'Unnamed: 3', 'Unnamed: 4', 'PREFERENCIAL',
       'Unnamed: 6', 'Unnamed: 7', 'NACIONALIDAD', 'Unnamed: 9', 'NOMBRES',
       'APELLLIDOS', 'EDAD', 'TIPO DE DOCUMENTO', 'Unnamed: 14', 'Unnamed: 15',
       'Unnamed: 16', 'N° DOCUMENTO', 'CONTACTO', 'EPS', 'SOLICITUD', 'PQRSDF',
       'AREA O DEPENDIENCIA', 'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO',
       'MONITOREO', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29'],
      dtype='object')
Index(['ITEM', 'FECHA', 'SEXO', 'Unnamed: 3', 'Unnamed: 4', 'PREFERENCIAL',
       'Unnamed: 6', 'Unnamed: 7', 'NACIONALIDAD', 'Unnamed: 9', 'NOMBRES',
       'APELLLIDOS', 'EDAD', 'TIPO DE DOCUMENTO', 'Unnamed: 14', 'Unnamed: 15',
       'Unnamed: 16', 'N° DOCUMENTO', 'CONTACTO', 'EPS', 'SOLICITUD', 'PQRSDF',
       'AREA O DEPENDIENCIA', 'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO',
       'MONITOREO', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29',
       'Unnamed: 30'],
      dtype='object')
Index(['ITEM', 'FECHA'

In [None]:
# df6, df7 and df8 have the same structure (although df7 has an aditional column at the end), so we can concatenate them:

df_concat678 = pd.concat([df6,df7,df8], axis=0, ignore_index=True, verify_integrity=True)
df_concat678.head(2)

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,1.0,2022-01-31,,Mujer,,X,,,,,...,P,ASEGURAMIENTO,ENERO 31/2022 Se realiza consulta ante asesora...,PRESENCIAL,FINALIZADO,ENERO 31/2022 MEDIANTE GESTION CON LA ASESORA ...,,,,
1,2.0,2022-01-31,,Mujer,,,,,,x,...,Q,SUPER SALUD,ENERO 31/2022 Se contacta telefonicamente a la...,VIRTUAL ORFEO,FINALIZADO,ENERO 31/2022 Se contacta telefonicamente a la...,,,,


In [None]:
# let's examine the following columns of interest (list cols_678). These columns will have to be unpivoted, so the total number of columns is reduced:

cols_678 = ['SEXO', #hombre
            'Unnamed: 3', #mujer
            'Unnamed: 4', #otro género
            'PREFERENCIAL', #adulto
            'Unnamed: 6', #discapacitado
            'Unnamed: 7', #niño
            'NACIONALIDAD', #migrante
            'Unnamed: 9', #no migrante
            'TIPO DE DOCUMENTO', #documento R.C
            'Unnamed: 14', #documento T.I
            'Unnamed: 15', #documento C.C
            'Unnamed: 16'] #documento C.E

for col in cols_678:
    print(col, df_concat678.loc[:,col].unique())

SEXO [nan 'x' 'X' 'Hombre' 'H' 'M']
Unnamed: 3 ['Mujer' nan 'x' 'X' 'M' 'H']
Unnamed: 4 [nan 'x' 'X' 'H']
PREFERENCIAL ['X' nan 'x']
Unnamed: 6 [nan 'x' 'X' 'Discapacitado']
Unnamed: 7 [nan 'X' 'x']
NACIONALIDAD [nan 'X' 'x']
Unnamed: 9 [nan 'x' 'X']
TIPO DE DOCUMENTO [nan 'b' 'X']
Unnamed: 14 [nan 'X']
Unnamed: 15 ['X' nan 'x' 'S']
Unnamed: 16 [nan 'X']


In [None]:
def rename_cat_values(col,df,rename_dict):
    """
    This function standardizes categorical values in a column.
    Arguments:
    col: the column
    df: the data frame
    rename_dict: the dictionary with the values to be replaced
    """
    df[col] = df[col].replace(rename_dict).astype('category')

    return df

In [None]:
# standardize values for some of the columns in cols_678.
# The remaining columns (sexo, unnamed 3, unnamed 4, tipo de documento, unnamed 15) should be examined carefully because
# they show weird values.

rename_ce = {"C.E": "C.E", "X": "C.E", "nan": NaN}
rename_cat_values("Unnamed: 16", df_concat678, rename_ce)

rename_ti = {"T.I": "T.I", "X":"T.I", "nan": NaN}
rename_cat_values("Unnamed: 14", df_concat678, rename_ti)

rename_migra = {"Migrante": "Migrante", "x": "Migrante", "X": "Migrante", "nan": NaN}
rename_cat_values("NACIONALIDAD", df_concat678, rename_migra)

rename_no_migra = {"No migrante": "No migrante", "x": "No migrante", "X": "No migrante", "nan": NaN}
rename_cat_values("Unnamed: 9", df_concat678, rename_no_migra)

rename_adulto = {"Adulto": "Adulto", "x": "Adulto", "X": "Adulto", "nan": NaN}
rename_cat_values("PREFERENCIAL", df_concat678, rename_adulto)

rename_discap = {"Discapacitado": "Discapacitado", "x": "Discapacitado", "X": "Discapacitado", "nan": NaN}
rename_cat_values("Unnamed: 6", df_concat678, rename_discap)

rename_niño = {"Niño": "Niño", "x": "Niño", "X": "Niño", "nan": NaN}
rename_cat_values("Unnamed: 7", df_concat678, rename_niño)
df_concat678.head(2)

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,1.0,2022-01-31,,Mujer,,Adulto,,,,,...,P,ASEGURAMIENTO,ENERO 31/2022 Se realiza consulta ante asesora...,PRESENCIAL,FINALIZADO,ENERO 31/2022 MEDIANTE GESTION CON LA ASESORA ...,,,,
1,2.0,2022-01-31,,Mujer,,,,,,No migrante,...,Q,SUPER SALUD,ENERO 31/2022 Se contacta telefonicamente a la...,VIRTUAL ORFEO,FINALIZADO,ENERO 31/2022 Se contacta telefonicamente a la...,,,,


In [None]:
#columns sexo, unnamed 3, unnamed 4, tipo de documento, unnamed 15 should be examined carefully

df_concat678[df_concat678['SEXO']=='M']

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
567,147,2022-04-20,M,,,Adulto,,,,No migrante,...,P,SALUD AMBIENTAL,SE HACE ENTREGA DEL DOCUMENTO,PRESENCIAL,SEGUIMIENTO,,,,,
568,148,2022-04-20,M,,,Adulto,,,,No migrante,...,P,SUPER SALUD,LA PETICION SE TRASLADA CON DELEGADO DE LA SUP...,PRESENCIAL,FINALIZADO,,,,,
671,254,2022-04-29,M,,,Adulto,,,Migrante,,...,P,PRESTACION DE SERVICIOS (?),SE DEBE VERIFICAR SI ES DE SU COMPETENCIA,PRESENCIAL,SEGUIMIENTO,,,,,


In [None]:
# rows 567, 568 and 671 correspond to women, so sex must be stated (as 'X' for now) in column Unnamed: 3 instead of column SEXO

df_concat678.loc[567,'SEXO'] = NaN
df_concat678.loc[568,'SEXO'] = NaN
df_concat678.loc[671,'SEXO'] = NaN
df_concat678.loc[567,'Unnamed: 3'] = 'X'
df_concat678.loc[568,'Unnamed: 3'] = 'X'
df_concat678.loc[671,'Unnamed: 3'] = 'X'

In [None]:
df_concat678[df_concat678['Unnamed: 3']=='H']

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
409,,2022-03-30,,H,,Adulto,,,,No migrante,...,P,SUPER SALUD,LA PETICION SE TRASLADA CON EL DELEGADO DE SUP...,PRESENCIAL,FINALIZADO,,,,,


In [None]:
# row 409 corresponds to a man, so sex must be stated in column SEXO instead of column Unnamed: 3

df_concat678.loc[409,'SEXO'] = 'X'
df_concat678.loc[409,'Unnamed: 3'] = NaN

df_concat678[df_concat678['Unnamed: 4']=='H']

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
212,,NaT,Hombre,,H,Adulto,,,,No migrante,...,P,ASEGURAMIENTO,LA PETICION SE ORIENTA AL AREA DE ASEGURAMIENT...,PRESENCIAL,FINALIZADO,,,,,
245,,NaT,Hombre,,H,Adulto,,,Migrante,,...,P,ASEGURAMIENTO,SE VERIFICAN DOCUMENTOS Y SE DA ORIENTACION DE...,PRESENCIAL,SEGUIMIENTO,,,,,
253,,2022-03-14,Hombre,,H,Adulto,,,,No migrante,...,P,ASEGURAMIENTO,SE BRINDA INFORMACION DE TRASLADO A LA EPS SAL...,PRESENCIAL,FINALIZADO,,,,,
286,,2022-03-16,Hombre,,H,Adulto,,,,No migrante,...,P,ASEGURAMIENTO,SE BRINDA LA INFORMACION CORRESPONDIENTE A SU ...,PRESENCIAL,FINALIZADO,,,,,


In [None]:
# rows 212, 245, 253, 286 are both declared as Hombre in column SEXO and as H in column Unnamed: 4, this is redundant, so H is replaced by NaN

df_concat678.loc[212,'Unnamed: 4'] = NaN
df_concat678.loc[245,'Unnamed: 4'] = NaN
df_concat678.loc[253,'Unnamed: 4'] = NaN
df_concat678.loc[286,'Unnamed: 4'] = NaN


In [None]:
# values for columns SEXO, unnamed: 3 and unnamed: 4 can now be standardize:

rename_sexoM = {"Hombre": "M", "x": "M", "X": "M", "H":"M", "nan": NaN}
df_concat678 = rename_cat_values("SEXO", df_concat678, rename_sexoM)

rename_sexoF = {"Mujer": "F", "x": "F", "X": "F", "M":"F", "nan": NaN}
df_concat678 = rename_cat_values("Unnamed: 3", df_concat678, rename_sexoF)

rename_sexoO = {"Otro": "Otro", "x": "Otro", "X": "Otro", "nan": NaN}
df_concat678 = rename_cat_values("Unnamed: 4", df_concat678, rename_sexoO)

In [None]:
# let's see what happens with weird value 'b' for TIPO DE DOCUMENTO
df_concat678[df_concat678['TIPO DE DOCUMENTO']=='b']

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
160,,NaT,M,,,Adulto,,,,,...,Q,SIAU,SE RECIBE QUEJA ESCRITA PARA TRASLADAR AL AUDI...,PRESENCIAL,FINALIZADO,Marzo 09. El caso es recogido por la asesora J...,,,,


In [None]:
# row 160 corresponds to a child with documento type T.I, not an adult as stated in PREFERENCIAL. The value 'b' should be converted to NaN, it is a typo

df_concat678.loc[160,'PREFERENCIAL'] = NaN
df_concat678.loc[160,'Unnamed: 7'] = 'Niño'
df_concat678.loc[160,'TIPO DE DOCUMENTO'] = NaN

# standardize values for column TIPO DE DOCUMENTO
rename_rc = {"R.C": "R.C", "X":"R.C", "nan": NaN}
df_concat678 = rename_cat_values("TIPO DE DOCUMENTO", df_concat678, rename_rc)

In [None]:
# let's see what happens with weird value 'S' for Unnamed: 15
df_concat678[df_concat678['Unnamed: 15']=='S']

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
303,,2022-03-17,,F,,Adulto,,,,No migrante,...,Q,SUPER SALUD,LA QUEJA SE RADICA FORMALMENTE ANTE LA SUPER I...,PRESENCIAL,FINALIZADO,,,,,


In [None]:
# row 303 corresponds to an adult colombian woman, so Unnamed: 15 should be C.C instead of S

rename_cc = {"C.C": "C.C", "x": "C.C", "X": "C.C", "S":"C.C", "nan": NaN}
df_concat678 = rename_cat_values("Unnamed: 15", df_concat678, rename_cc)

df_concat678.head(2)

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,1.0,2022-01-31,,F,,Adulto,,,,,...,P,ASEGURAMIENTO,ENERO 31/2022 Se realiza consulta ante asesora...,PRESENCIAL,FINALIZADO,ENERO 31/2022 MEDIANTE GESTION CON LA ASESORA ...,,,,
1,2.0,2022-01-31,,F,,,,,,No migrante,...,Q,SUPER SALUD,ENERO 31/2022 Se contacta telefonicamente a la...,VIRTUAL ORFEO,FINALIZADO,ENERO 31/2022 Se contacta telefonicamente a la...,,,,


In [None]:
# let's look at the columns EPS, PQRSDF, AREA O DEPENDENCIA, CANAL DE COMUNICACIÓN, ESTADO

print(df_concat678['EPS'].unique())
print(df_concat678['PQRSDF'].unique())
print(df_concat678['CANAL DE COMUNICACIÓN'].unique())
print(df_concat678['ESTADO'].unique())

['NUEVA EPS' 'COMFAMILIAR' nan 'CAPITAL SALUD' 'SALUD TOTAL' 'COMPENSAR'
 'MEDIMAS' 'POLICIA NACIONAL' 'ASMET SALUD' 'ECOOPSOS EPS' 'SANITAS'
 'MEDISALUD' 'CONVIDA' 'SIN' '3125022170 - 3144515180' 'FAMISANAR'
 'CAJACOPI' 'EJERCITO' 'COOSALUD' 'JER SALUD' 'EMMSANAR' 'ASMED SALUD'
 'MEDI SALUD' 'RETIRADO COOMEVA' 'CAPRESOCA' 'COOMEVA RET'
 'REGIMEN MILITAR' 'COMPARTA']
['P' 'Q' nan 'p']
['PRESENCIAL' 'VIRTUAL ORFEO' nan 'VIRTUAL']
['FINALIZADO' 'SEGUIMIENTO' nan 'B' 'FIINALIZADO']


In [None]:
df_concat678[df_concat678['EPS']=='3125022170 - 3144515180']

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
102,102.0,NaT,,F,,Adulto,,,,,...,P,SALUD AMBIENTAL,LA PETICION ES ATENDIDA POR EL CONTRATISTA ASI...,PRESENCIAL,FINALIZADO,,,,,


In [None]:
df_concat678[df_concat678['ESTADO']=='B']

Unnamed: 0,ITEM,FECHA,SEXO,Unnamed: 3,Unnamed: 4,PREFERENCIAL,Unnamed: 6,Unnamed: 7,NACIONALIDAD,Unnamed: 9,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
19,34.0,NaT,,F,,,,,,,...,P,PRESTACION DE SERVCIOS,LA SOLICITUD ES ATENDIDA POR LA PROFESIONAL QU...,PRESENCIAL,B,,,,,


In [None]:
# replace that value 'B' in ESTADO for FINALIZADO

df_concat678.loc[19,'ESTADO'] = 'FINALIZADO'

# change value '3125022170 - 3144515180' in EPS to column CONTACTO

df_concat678.loc[102,'EPS'] = NaN
df_concat678.loc[102,'CONTACTO'] = '3125022170 - 3144515180'

# standardize values in columns

rename_pqr1 = {'p':'P'}
rename_cat_values('PQRSDF',df_concat678,rename_pqr1)

renam_estado = {'FIINALIZADO':'FINALIZADO'}
rename_cat_values('ESTADO',df_concat678,renam_estado)

renam_canal = {'VIRTUAL ORFEO':'ORFEO (VIRTUAL)', 'VIRTUAL':'ORFEO (VIRTUAL)'}
rename_cat_values('CANAL DE COMUNICACIÓN', df_concat678, renam_canal)

renam_eps = {'ASMED SALUD':'ASMET SALUD', 
             'COOMEVA RET':'RETIRADO COOMEVA', 
             'EJERCITO':'SANIDAD FUERZAS MILITARES', 
             'REGIMEN MILITAR':'SANIDAD FUERZAS MILITARES', 
             'POLICIA NACIONAL':'SANIDAD POLICIAL', 
             'MEDI SALUD':'MEDISALUD',
             'SIN':'NO TIENE'}
rename_cat_values('EPS', df_concat678, renam_eps)

# Rename some columns

df_concat678.rename(columns = {
                    'APELLLIDOS':'APELLIDOS',
                    'EPS':'EAPB',
                    'SEXO':'M',
                    'Unnamed: 3':'F', 
                    'Unnamed: 4':'Otro', 
                    'PREFERENCIAL':'Adulto', 
                    'Unnamed: 6':'Discapacitado', 
                    'Unnamed: 7':'Niño', 
                    'NACIONALIDAD':'Migrante', 
                    'Unnamed: 9':'No migrante', 
                    'TIPO DE DOCUMENTO':'R.C', 
                    'Unnamed: 14':'T.I', 
                    'Unnamed: 15':'C.C', 
                    'Unnamed: 16':'C.E'}, inplace = True)
df_concat678.head()

Unnamed: 0,ITEM,FECHA,M,F,Otro,Adulto,Discapacitado,Niño,Migrante,No migrante,...,PQRSDF,AREA O DEPENDIENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,1.0,2022-01-31,,F,,Adulto,,,,,...,P,ASEGURAMIENTO,ENERO 31/2022 Se realiza consulta ante asesora...,PRESENCIAL,FINALIZADO,ENERO 31/2022 MEDIANTE GESTION CON LA ASESORA ...,,,,
1,2.0,2022-01-31,,F,,,,,,No migrante,...,Q,SUPER SALUD,ENERO 31/2022 Se contacta telefonicamente a la...,ORFEO (VIRTUAL),FINALIZADO,ENERO 31/2022 Se contacta telefonicamente a la...,,,,
2,3.0,NaT,M,,,,,,,,...,P,PRESTACION DE SERVICIOS,VERIFICAR INFORMACION CON LA JEFE PRESTACION D...,PRESENCIAL,FINALIZADO,,,,,
3,4.0,NaT,M,,,,,,,No migrante,...,P,SIAU,SE DA ORIENTACION AL USUARIO SOLOCITAR EL PROC...,PRESENCIAL,FINALIZADO,,,,,
4,5.0,NaT,,F,,,,,Migrante,,...,P,ASEGURAMIENTO,SE DA ORIENTACIONES AL USUARIO SOLICITUD DE AF...,PRESENCIAL,FINALIZADO,,,,,


In [None]:
# it is easier to replace values for the following columns for the value 1, so we can perform a "reverse" one-hot encoding,
# and reduce the number of columns in the dataframe:

# replace values for 1
df_concat678[['M', 'F', 'Otro', 'Adulto', 'Discapacitado', 'Niño', 'Migrante', 'No migrante', 'R.C', 'T.I', 'C.C', 'C.E']].replace(['M', 'F', 'Otro', 'Adulto', 'Discapacitado', 'Niño', 'Migrante', 'No migrante', 'R.C', 'T.I', 'C.C', 'C.E'], 1, inplace=True)

# create new columns that contain the "reverse" one-hot encoding
df_concat678['GENERO'] = (df_concat678.loc[:, ['M','F','Otro']] == 1).idxmax(1)
df_concat678['PREFERENCIAL'] = (df_concat678.loc[:, ['Adulto', 'Discapacitado', 'Niño']] == 1).idxmax(1)
df_concat678['NACIONALIDAD'] = (df_concat678.loc[:, ['Migrante', 'No migrante']] == 1).idxmax(1)
df_concat678['TIPO DE DOCUMENTO'] = (df_concat678.loc[:, ['R.C', 'T.I', 'C.C', 'C.E']] == 1).idxmax(1)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  method=method,


In [None]:
# drop the columns we don't need, because we already have "reversed" one-hot encoded ones
df_concat678.drop(columns=['M', 'F', 'Otro', 'Adulto', 'Discapacitado', 'Niño', 'Migrante', 'No migrante', 'R.C', 'T.I', 'C.C', 'C.E'], inplace=True)
df_concat678.columns

Index(['ITEM', 'FECHA', 'NOMBRES', 'APELLIDOS', 'EDAD', 'N° DOCUMENTO',
       'CONTACTO', 'EAPB', 'SOLICITUD', 'PQRSDF', 'AREA O DEPENDIENCIA',
       'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO',
       'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30', 'GENERO',
       'PREFERENCIAL', 'NACIONALIDAD', 'TIPO DE DOCUMENTO'],
      dtype='object')

**CLEANING AND CONCATENATING df2, df3, df4 and df5:**

In [None]:
df2 = df2.iloc[:, 0:16]
df3 = df3.iloc[:, 0:16]
df4 = df4.iloc[:, 0:16]
df5 = df5.iloc[:, 0:16]

In [None]:
# rename a couple columns
df2['EAPB'] = df2['Unnamed: 7']
df2 = df2.drop(['Unnamed: 7'], axis=1)
df2['PQRSDF'] = df2['PQRS']
df2 = df2.drop(['PQRS'], axis=1)

In [None]:
print(df2.shape)
print(df3.shape)
print(df4.shape)
print(df5.shape)

(228, 14)
(306, 16)
(236, 16)
(153, 16)


In [None]:
# print to check that these tables have similar structure
print(df2.columns)
print(df3.columns)
print(df4.columns)
print(df5.columns)

Index(['Unnamed: 0', 'FECHA', 'NOMBRES', 'APELLIDOS', 'No. DOCUMENTO',
       'CONTACTO', 'SOLICITUD', 'AREA O DEPENDENCIA', 'RESULTADO',
       'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO', 'EAPB', 'PQRSDF'],
      dtype='object')
Index(['Unnamed: 0', 'FECHA', 'NOMBRES', 'APELLIDOS', 'No. DOCUMENTO',
       'CONTACTO', 'SOLICITUD', 'PQRSDF', 'AREA O DEPENDENCIA', 'RESULTADO',
       'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO', 'EAPB', 'Unnamed: 14',
       'Unnamed: 15'],
      dtype='object')
Index(['Unnamed: 0', 'FECHA', 'NOMBRES', 'APELLIDOS', 'No. DOCUMENTO',
       'CONTACTO', 'GENERO', 'SOLICITUD', 'PQRSDF', 'AREA O DEPENDENCIA',
       'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO',
       'Unnamed: 14', 'Unnamed: 15'],
      dtype='object')
Index(['Unnamed: 0', 'FECHA', 'NOMBRES', 'APELLIDOS', 'No. DOCUMENTO',
       'CONTACTO', 'GENERO', 'SOLICITUD', 'PQRSDF', 'AREA O DEPENDENCIA',
       'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO',
       'U

In [None]:
df_concat = pd.concat([df2,df3,df4,df5], axis=0, ignore_index=True, verify_integrity=True)
df_concat.drop(columns=['NOMBRES', 'APELLIDOS', 'No. DOCUMENTO', 'CONTACTO'], inplace=True)


In [None]:
df_concat.columns

Index(['Unnamed: 0', 'FECHA', 'SOLICITUD', 'AREA O DEPENDENCIA', 'RESULTADO',
       'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO', 'EAPB', 'PQRSDF',
       'Unnamed: 14', 'Unnamed: 15', 'GENERO'],
      dtype='object')

In [None]:
df_concat['PQRSDF'].unique()

array(['S', 'Q', nan, 'DERECHO DE PETICION', 'S ', 'P', 'p'], dtype=object)

In [None]:
# Let's standardize values for columns PQRSDF
rename_pqr = {'DERECHO DE PETICION':'P',
                'p':'P',
                'S ':'S'
               }
df_concat = rename_cat_values('PQRSDF',df_concat,rename_pqr)
df_concat["PQRSDF"].unique()

['S', 'Q', NaN, 'P']
Categories (3, object): ['S', 'Q', 'P']

In [None]:
df_concat['GENERO'].unique()

array([nan, 'F', 'M'], dtype=object)

In [None]:
df_concat['CANAL DE COMUNICACIÓN'].unique()

array(['PRESENCIAL', 'VIRTUAL ORFEO', nan, 'VIRTUAL', 'VIRTUAL/ORFEO',
       'PENDIENTE', 'CANAL TELEFONICO', 'PRESCENCIAL', 'PRESENCIAL ',
       'TELEFONICO', 'FINALIZADO'], dtype=object)

In [None]:
# standardize values for CANAL DE COMUNICACIÓN

from numpy import NaN
rename_canal = {'PRESCENCIAL':'PRESENCIAL',
                'PRESENCIAL ':'PRESENCIAL',
                'CANAL TELEFONICO':'TELEFONICO',
                'VIRTUAL ORFEO':'ORFEO (VIRTUAL)',
                'VIRTUAL':'ORFEO (VIRTUAL)',
                'VIRTUAL/ORFEO':'ORFEO (VIRTUAL)',
                'PENDIENTE':NaN,
                'FINALIZADO':NaN
                }
df_concat = rename_cat_values('CANAL DE COMUNICACIÓN',df_concat,rename_canal)
df_concat["CANAL DE COMUNICACIÓN"].unique()

['PRESENCIAL', 'ORFEO (VIRTUAL)', NaN, 'TELEFONICO']
Categories (3, object): ['PRESENCIAL', 'ORFEO (VIRTUAL)', 'TELEFONICO']

In [None]:
df_concat['ESTADO'].unique()

array(['FINALIZADO', 'SEGUIMIENTO', nan, 'DIRECCIONADO', 'POR CONFIRMAR',
       'Enero 21/22 se asigna cita y se notifica al usuario para el 01/02/2022'],
      dtype=object)

In [None]:
df_concat[df_concat['ESTADO']=='Enero 21/22 se asigna cita y se notifica al usuario para el 01/02/2022']

Unnamed: 0.1,Unnamed: 0,FECHA,SOLICITUD,AREA O DEPENDENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,EAPB,PQRSDF,Unnamed: 14,Unnamed: 15,GENERO
797,27,NaT,LA HIJA DE LA USUARIA EN MENCION AFILIADA A LA...,SIAU,SE RECIBE LA SOLICITUD PARA SER CONSULTADA CON...,PRESENCIAL,Enero 21/22 se asigna cita y se notifica al us...,,,Q,,,F


In [None]:
# For row 797 let's change this weird ESTADO value, and put it in MONITOREO
df_concat.loc[797,'MONITOREO'] = 'Enero 21/22 se asigna cita y se notifica al usuario para el 01/02/2022'
df_concat.loc[797,'ESTADO'] = NaN

In [None]:
df_concat['ESTADO'].unique()

array(['FINALIZADO', 'SEGUIMIENTO', nan, 'DIRECCIONADO', 'POR CONFIRMAR'],
      dtype=object)

In [None]:
df_concat['EAPB'].unique()

array([nan, 'DISCAPACIDAD', 'NUEVA EPS', 'MEDIMAS', 'MIGRANTE',
       'COMFAMILIAR', 'SANITAS', 'CAJACOPI', 'COMPENSAR', 'SUPER'],
      dtype=object)

In [None]:
df_concat[df_concat['EAPB'] == 'DISCAPACIDAD']

Unnamed: 0.1,Unnamed: 0,FECHA,SOLICITUD,AREA O DEPENDENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,EAPB,PQRSDF,Unnamed: 14,Unnamed: 15,GENERO
7,8.0,2021-10-04,BUSCA INFORMACION PARA CERTICAR FAMILIAR EN CO...,SIAU,ES DIRECCIONADA AL AREA DE DISCAPACIDAD DE LA ...,PRESENCIAL,FINALIZADO,,DISCAPACIDAD,S,,,


In [None]:
rename_eapb = {'DISCAPACIDAD':NaN,
               'SUPER':'SUPERSALUD'
               }
df_concat = rename_cat_values('EAPB',df_concat,rename_eapb)
df_concat['EAPB'].unique()

[NaN, 'NUEVA EPS', 'MEDIMAS', 'MIGRANTE', 'COMFAMILIAR', 'SANITAS', 'CAJACOPI', 'COMPENSAR', 'SUPERSALUD']
Categories (8, object): ['NUEVA EPS', 'MEDIMAS', 'MIGRANTE', 'COMFAMILIAR', 'SANITAS', 'CAJACOPI', 'COMPENSAR', 'SUPERSALUD']

In [None]:
df_concat['Unnamed: 14'].unique()

array([nan, 'CITA ASIGNADA FEBRERO 22/2022', 'NUMEROS EQUIVOCADOS'],
      dtype=object)

In [None]:
df_concat[df_concat['Unnamed: 14'] == 'CITA ASIGNADA FEBRERO 22/2022']

Unnamed: 0.1,Unnamed: 0,FECHA,SOLICITUD,AREA O DEPENDENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,EAPB,PQRSDF,Unnamed: 14,Unnamed: 15,GENERO
540,7,NaT,USUARIO QUE MANIFIESTA INCONFORMIDAD PARA LA A...,ASEGURAMIENTO,SE RECIBE QUEJA ESCRITA DESPUES DE SER ANALIZA...,PRESENCIAL,FINALIZADO,ENERO 12 - SE REALIZA MONITOREO A LA SOLICITUD...,,Q,CITA ASIGNADA FEBRERO 22/2022,MEDIMAS,M


In [None]:
# For row 540, EAPB value is changed for the Unnamed: 15 value
df_concat.loc[540,'EAPB'] = 'MEDIMAS'

In [None]:
df_concat[df_concat['Unnamed: 14'] == 'NUMEROS EQUIVOCADOS']

Unnamed: 0.1,Unnamed: 0,FECHA,SOLICITUD,AREA O DEPENDENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,EAPB,PQRSDF,Unnamed: 14,Unnamed: 15,GENERO
590,60,NaT,USUARIO QUE MANIFIESTA INCONFORMIDAD ANTE LA I...,PRESTACION DE SERVICIOS,LA SOLICITUD SE TRASLADA AL AREA DE PRESTACION...,PRESENCIAL,SEGUIMIENTO,ENERO 12 - SE REALIZA MONITOREO AL NUMERO DE C...,,Q,NUMEROS EQUIVOCADOS,NUEVA EPS,M


In [None]:
# For row 590, EAPB value is changed for the Unnamed: 15 value in row 590
df_concat.loc[590,'EAPB'] = 'NUEVA EPS'

In [None]:
df_concat['Unnamed: 15'].unique() 

array([nan, 'NUEVA EPS', 'COMFAMILIAR', 'SUPER', 'MEDIMAS ', 'SIN',
       'MEDIMAS', 'SALUD TOTAL'], dtype=object)

In [None]:
df_concat[df_concat['Unnamed: 15'] == 'COMFAMILIAR'] ## CHANGE EAPB FOR ROWS 599 AND 617
df_concat[df_concat['Unnamed: 15'] == 'SUPER'] # change EAPB for rows 585,596,604,642
df_concat[df_concat['Unnamed: 15'] == 'SALUD TOTAL'] #change EAPB for row 618

Unnamed: 0.1,Unnamed: 0,FECHA,SOLICITUD,AREA O DEPENDENCIA,RESULTADO,CANAL DE COMUNICACIÓN,ESTADO,MONITOREO,EAPB,PQRSDF,Unnamed: 14,Unnamed: 15,GENERO
618,87,2021-12-15,USUARIA AFILIADA A EPS SALUD TOTAL QUE MANIFIE...,ASEGURAMIENTO,SE ATIENDE LA SOLICITUD Y ES DIRECCIONADA CON ...,ORFEO (VIRTUAL),SEGUIMIENTO,ENERO 12. SE REALIZA MONITOREO NO SE LOCALIZA ...,,Q,,SALUD TOTAL,F


In [None]:
# set categories in column EAPB to avoid an error in the next cell
categories = ['NUEVA EPS', 'MEDIMAS', 'MIGRANTE', 'COMFAMILIAR', 'SANITAS', 'CAJACOPI', 'COMPENSAR', 'SUPERSALUD', 'SALUD TOTAL']
df_concat['EAPB'] = pd.Categorical(df_concat['EAPB'], categories = categories)

In [None]:
# list of rows to change EAPB values
comfamiliar = [599,617]
supersalud = [585,596,604,642]

for i in comfamiliar:
    df_concat.loc[i,'EAPB'] = 'COMFAMILIAR'

for i in supersalud:
    df_concat.loc[i,'EAPB'] = 'SUPERSALUD'

df_concat.loc[618,'EAPB'] = 'SALUD TOTAL'

# Merging: combining all data

**WE CONCATENATE ALL FILES TO OBTAIN A FINAL UNIFIED DATAFRAME**

In [None]:
df1.columns

Index(['RADICADO', 'FECHA', 'ASUNTO', 'DIRECCION', 'MUNICIPIO', 'DEPARTAMENTO',
       'PAIS'],
      dtype='object')

In [None]:
# change names of columns so we are able to concatenate all files in a single unified dataframe

df_pdf.columns = ['RADICADO', 'FECHA', 'ASUNTO', 'PAIS', 'DIRECCION', 'TEXTO PQRSDF', 'MUNICIPIO', 'DEPARTAMENTO']

# add column CANAL DE COMUNICACIÓN to df_pdf
df_pdf['CANAL DE COMUNICACIÓN'] = 'ORFEO (VIRTUAL)'

df2345 = df_concat.copy()
df2345.rename(columns={'SOLICITUD':'TEXTO PQRSDF', 'PQRSDF':'TIPO DE PQRSDF'}, inplace=True)

df678 = df_concat678.copy()
df678.rename(columns={'N° DOCUMENTO':'No. DOCUMENTO', 'SOLICITUD':'TEXTO PQRSDF', 'PQRSDF':'TIPO DE PQRSDF', 'AREA O DEPENDIENCIA':'AREA O DEPENDENCIA'}, inplace=True)

In [None]:
print(df2345.columns)
print(df678.columns)

Index(['Unnamed: 0', 'FECHA', 'TEXTO PQRSDF', 'AREA O DEPENDENCIA',
       'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO', 'EAPB',
       'TIPO DE PQRSDF', 'Unnamed: 14', 'Unnamed: 15', 'GENERO'],
      dtype='object')
Index(['ITEM', 'FECHA', 'NOMBRES', 'APELLIDOS', 'EDAD', 'No. DOCUMENTO',
       'CONTACTO', 'EAPB', 'TEXTO PQRSDF', 'TIPO DE PQRSDF',
       'AREA O DEPENDENCIA', 'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO',
       'MONITOREO', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30',
       'GENERO', 'PREFERENCIAL', 'NACIONALIDAD', 'TIPO DE DOCUMENTO'],
      dtype='object')


In [None]:
# select relevant columns to concatenate
df2345 = df2345[['FECHA', 'GENERO', 'TEXTO PQRSDF', 'AREA O DEPENDENCIA', 'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO', 'EAPB', 'TIPO DE PQRSDF']]
df678 = df678[['FECHA', 'EDAD', 'TIPO DE DOCUMENTO', 'GENERO', 'PREFERENCIAL', 'NACIONALIDAD', 'TEXTO PQRSDF', 'AREA O DEPENDENCIA', 'RESULTADO', 'CANAL DE COMUNICACIÓN', 'ESTADO', 'MONITOREO', 'EAPB', 'TIPO DE PQRSDF']]

In [None]:
# unified dataframe
df_all = pd.concat([df1, df_pdf, df2345, df678], axis=0, ignore_index=True,  verify_integrity=True)

In [None]:
df_all.head()

Unnamed: 0,RADICADO,FECHA,ASUNTO,DIRECCION,MUNICIPIO,DEPARTAMENTO,PAIS,TEXTO PQRSDF,CANAL DE COMUNICACIÓN,GENERO,AREA O DEPENDENCIA,RESULTADO,ESTADO,MONITOREO,EAPB,TIPO DE PQRSDF,EDAD,TIPO DE DOCUMENTO,PREFERENCIAL,NACIONALIDAD
0,20191700000000.0,2019-05-06 14:24:20.476704,INFORMACION DE CAMBIO DE DIRECCION,CARRERA 14 No. 13-82,SOGAMOSO,BOYACA,COLOMBIA,,,,,,,,,,,,,
1,20191700000000.0,2019-05-06 16:14:32.807325,DESCARGOS POR PROCESO SANCIONATORIO Y CARGOS D...,KRA 10 A N° 53-68 JUAN JOSE RONDON,SOGAMOSO,BOYACA,COLOMBIA,,,,,,,,,,,,,
2,20191700000000.0,2019-05-06 17:20:00.604149,PD-1149\r\nRADICADO 1039 DE 24 DE ABRIL DE 2019,CALLE 15 NO. 11-79 OFICINA 302 EDIFICIO EL PIN...,SOGAMOSO,BOYACA,COLOMBIA,,,,,,,,,,,,,
3,20191700000000.0,2019-05-07 10:48:55.942940,TRASLADO DENUNCIA CON RADICADO INVIMA No. 2019...,CRA 10 N 64-28,BOGOTA,D.C.,COLOMBIA,,,,,,,,,,,,,
4,20191700000000.0,2019-05-07 11:44:11.598638,SOLICITUD INFORMACION,CARRERA 12 No. 16-31 PISO 3,SOGAMOSO,BOYACA,COLOMBIA,,,,,,,,,,,,,


In [None]:
print(df_all.shape)
print(df_all['RADICADO'].unique().size)
print(df_all['RADICADO'].notnull().sum())
print(df_all['RADICADO'].isna().sum())

(4323, 20)
2723
2722
1601


**LET'S COME BACK TO THE DATES AGAIN TO FILL THE NULL VALUES WITH AN INTERPOLATION:**

In [None]:
print(df_all['FECHA'].size)
print(df_all['FECHA'].notnull().sum())
print(df_all['FECHA'].isnull().sum())
print(df_all[df_all['FECHA']==' '].size)

4323
3483
840
0


In [None]:
# interpolate dates with the method 'pad', which just copies the last non-null value

df_all['FECHA'].interpolate(method='pad', inplace=True)
print(df_all['FECHA'].size)
print(df_all['FECHA'].notnull().sum())
print(df_all['FECHA'].isnull().sum())
print(df_all[df_all['FECHA']==' '].size)

4323
4323
0
0


In [None]:
print(df_all['FECHA'].min())
print(df_all['FECHA'].max())

2017-04-18 16:18:42.732437
2022-12-05 12:44:05


In [None]:
# export df_all to a csv file
df_all.to_csv(r'/datasets/gdrive/DS4A - Team Project/data/all_data.csv',encoding="UTF-8", index=False)

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=746f9757-a4f8-490f-a84c-875a1acb7471' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>