# Procesamiento de Datos usando Pandas

Gabriel Ruiz Martínez

Importando paquetes

In [1]:
import pandas as pd
from pandas import Timestamp

Los valores de los parámetros que se requieren para cargar los datos en un DataFrame se almacenarán en una variable para que el programa sea más genérico y pueda utilizarse, no solo en caso, sino en varios.

In [2]:
# Guardando en variable el nombre de archivo a abrir
namefile = 'BASES_FORMULACION.xlsx'

# Guardando en variable el numero de la linea donde se encuentran los encabezados de los datos
row_encab = 4

Cuando usamos un archivo que contiene un libro electrónico con hojas de cálculo es posible que se presenten casos donde solo es necesario cargar una sola hoja o todo el libro. En Pandas, cuando cargamos solamente una página electrónica, los datos se almacenarán en un DataFrame. Por otra parte, si se cargan todas las hojas del libro o un conjunto de ellas, los datos se guardarán en un diccionario de DataFrames; las etiquetas serán los números enteros que corresponden a las hojas electrónicas y los valores serán los DataFrames.<br>

Para específicar las hojas de cálculo que se exportarán a un DataFrame, se puede indicar el nombre de la hoja electrónica o usar el número entero que corresponde a la página del libro, recordando que el número de la primera página será cero. En Pandas, mediante una lista se puede indicar un conjunto de páginas a exportar, ya sea con los nombres o el número de página del libro.  Por ejemplo para seleccionar la primera página, con el nombre de 'CLIENTE 1', tenemos las siguientes opciones:<br>
`sheet_data = 'CLIENTE 1'`<br>
`sheet_data = 0`<br>

Imaginemos que se tiene un libro de 5 hojas, con etiquetas H1, H2, ... H5 y deseamos trabajar solo con un conjunto de ellas:<br>
`sheet_data = ['H1', 'H2', 'H3']`<br>
`sheet_data = [0, 2, 'H5']`<br>
`sheet_data = [0, 2, 4]`<br>

Si deseamos cargar todo el libro electrónico:<br>
`sheet_data = [0, 1, 2, 3, 4]`<br>
`sheet_data = ['H1', 'H2', 'H3', 'H4', 'H5']`<br>
`sheet_data = ['H1', 'H2', 2, 3, 4]`<br>
`sheet_data = None`<br>

Observa que si usas en el método `read_excel` y en el parámetro `sheet_name` específicas una lista, obtendrás un diccionario de DataFrames.

In [3]:
# Proporcionando solamente una hoja con los datos de interes,
sheet_data = 'CLIENTE 1'
#sheet_data = 0

 Por medio del parámetro `usecols`, se puede indicar a Pandas las columnas que deseamos exportar de la base de datos. La manera de específicar las columnas es similar a lo mencionado en la importación de las hojas electrónicas, es decir se puede utilizar los nombres de los encabezados o el número entero que corresponde al orden de las columnas. Si deseamos importar todas las columnas, especificar `None`.

In [4]:
# Especificando que deseamos exportar todas las columnas
columnsWork = None

En algunas ocasiones, nuestra base de datos contiene celdas vacías, cuando se presente este caso, debemos indicar como se tratarán e identificarán estos datos pérdidos. A continuación, en una variable almacenamos el string que indicará como deben reconocerse las celdas vacías.

In [5]:
# String para reconocimiento de datos perdidos
nanRecog = 'nan'

In [6]:
# Guardando los datos en un DataFrame de Pandas
datos = pd.read_excel(namefile,
                      sheet_name=sheet_data,
                      header=row_encab,
                      usecols=columnsWork,
                      na_values=nanRecog)

# Con el metodo head() por default puedo visualizar las primeras cinco lineas de mis datos
datos.head()

Unnamed: 0,SUBRAMO,No DE SINIESTRO,TRAMITE,MONTO RECLAMADO,PAGADO,DEDUCIBLE,COASEGURO,IVA,FECHA DE PRIMER GASTO,TIPO DE PAGO,...,POOL,Mes 2,Estado del Hospital,No. Empleado,Tit-Dep,LLAVE 1,LLAVE 2,llave2,TIPO_PAGO_CLAVE,INI_VIG_IMPRESION
0,2001,1240286391,3,1825.0,1825.0,0.0,0.0,0.0,2024-06-26,PAGO DIRECTO MÉDICO,...,,,,,,M0360925-4,CI BANCO-M0360925-55577-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
1,2001,1240290279,1,12971.0,12971.0,0.0,0.0,0.0,2024-08-01,PAGO DIRECTO MÉDICO,...,,,,,,M0360925-4,CI BANCO-M0360925-55938-HF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
2,2001,1240291400,6,177760.13,136387.59,6601.06,17900.73,16870.75,2024-12-07,PAGO DIRECTO HOSPITAL,...,,,,,,M0360925-4,CI BANCO-M0360925-42325-TM,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
3,2001,1240293215,1,180169.07,137373.4,6601.06,18280.73,17913.88,2024-06-01,PAGO DIRECTO HOSPITAL,...,,,,,,M0360922-24,CI BANCO-M0360922-669-CF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
4,2001,1240294921,1,70070.79,51458.91,6601.06,5358.67,6652.15,2024-12-19,PAGO DIRECTO HOSPITAL,...,,,,,,M0360921-21,CI BANCO-M0360921-0000000FM0139-CF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01


In [7]:
# Visualizando el número filas y datos que tiene la base de datos
print(f'La base de datos tiene {datos.shape[0]} lineas y {datos.shape[1]} columnas')

La base de datos tiene 584 lineas y 111 columnas


In [8]:
# Con el metodo tail() por default puedo visualizar las ultimas cinco lineas de mis datos
datos.tail()

Unnamed: 0,SUBRAMO,No DE SINIESTRO,TRAMITE,MONTO RECLAMADO,PAGADO,DEDUCIBLE,COASEGURO,IVA,FECHA DE PRIMER GASTO,TIPO DE PAGO,...,POOL,Mes 2,Estado del Hospital,No. Empleado,Tit-Dep,LLAVE 1,LLAVE 2,llave2,TIPO_PAGO_CLAVE,INI_VIG_IMPRESION
579,2001,2240240369,12,13642.0,13642.0,0.0,0.0,0.0,2024-07-29,PAGO DIRECTO MÉDICO,...,,,,,,M0360925-4,CI BANCO-M0360925-59982-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
580,2001,2250211369,1,75593.41,50834.46,6875.92,11292.52,6590.51,2025-02-02,PAGO DIRECTO HOSPITAL,...,,,,,,M0460925-4,CI BANCO-M0460925-51256-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
581,2001,2250211372,1,50395.61,35586.66,6875.92,3539.35,4393.68,2025-02-02,PAGO DIRECTO HOSPITAL,...,,,,,,M0460925-4,CI BANCO-M0460925-51256-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
582,2001,2250212431,3,179520.08,136673.63,6878.92,17634.59,18332.94,2025-03-14,PAGO DIRECTO HOSPITAL,...,,,,,,M0460925-4,CI BANCO-M0460925-51338-TM,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
583,2001,2250212445,1,33268.95,21211.39,6879.0,2535.52,2643.04,2025-03-15,PAGO DIRECTO HOSPITAL,...,,,,,,M0460925-4,CI BANCO-M0460925-59667-CF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01


In [9]:
# Verificando información básica del DataFrame
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 584 entries, 0 to 583
Columns: 111 entries, SUBRAMO to INI_VIG_IMPRESION
dtypes: datetime64[ns](10), float64(24), int64(13), object(64)
memory usage: 506.6+ KB


In [10]:
# Verificando los indices
datos.index

# Asignando un nombre a la columna de los indices
datos.index.name = 'No.'
print(datos.index)
datos.head(3)

RangeIndex(start=0, stop=584, step=1, name='No.')


Unnamed: 0_level_0,SUBRAMO,No DE SINIESTRO,TRAMITE,MONTO RECLAMADO,PAGADO,DEDUCIBLE,COASEGURO,IVA,FECHA DE PRIMER GASTO,TIPO DE PAGO,...,POOL,Mes 2,Estado del Hospital,No. Empleado,Tit-Dep,LLAVE 1,LLAVE 2,llave2,TIPO_PAGO_CLAVE,INI_VIG_IMPRESION
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,2001,1240286391,3,1825.0,1825.0,0.0,0.0,0.0,2024-06-26,PAGO DIRECTO MÉDICO,...,,,,,,M0360925-4,CI BANCO-M0360925-55577-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
1,2001,1240290279,1,12971.0,12971.0,0.0,0.0,0.0,2024-08-01,PAGO DIRECTO MÉDICO,...,,,,,,M0360925-4,CI BANCO-M0360925-55938-HF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
2,2001,1240291400,6,177760.13,136387.59,6601.06,17900.73,16870.75,2024-12-07,PAGO DIRECTO HOSPITAL,...,,,,,,M0360925-4,CI BANCO-M0360925-42325-TM,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01


In [11]:
# Revisando el contenido del objeto que almacena las etiquetas de las columnas
print(datos.columns)

# Cambiando el nombre de algunas columnas
datos.rename(columns={'SUBRAMO': 'Subramo', 'TRAMITE':'tramite'})
datos.head(3)

Index(['SUBRAMO', 'No DE SINIESTRO', 'TRAMITE', 'MONTO RECLAMADO', 'PAGADO',
       'DEDUCIBLE', 'COASEGURO', 'IVA', 'FECHA DE PRIMER GASTO',
       'TIPO DE PAGO',
       ...
       'POOL', 'Mes 2', 'Estado del Hospital', 'No. Empleado', 'Tit-Dep',
       'LLAVE 1', 'LLAVE 2', 'llave2', 'TIPO_PAGO_CLAVE', 'INI_VIG_IMPRESION'],
      dtype='object', length=111)


Unnamed: 0_level_0,SUBRAMO,No DE SINIESTRO,TRAMITE,MONTO RECLAMADO,PAGADO,DEDUCIBLE,COASEGURO,IVA,FECHA DE PRIMER GASTO,TIPO DE PAGO,...,POOL,Mes 2,Estado del Hospital,No. Empleado,Tit-Dep,LLAVE 1,LLAVE 2,llave2,TIPO_PAGO_CLAVE,INI_VIG_IMPRESION
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,2001,1240286391,3,1825.0,1825.0,0.0,0.0,0.0,2024-06-26,PAGO DIRECTO MÉDICO,...,,,,,,M0360925-4,CI BANCO-M0360925-55577-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
1,2001,1240290279,1,12971.0,12971.0,0.0,0.0,0.0,2024-08-01,PAGO DIRECTO MÉDICO,...,,,,,,M0360925-4,CI BANCO-M0360925-55938-HF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
2,2001,1240291400,6,177760.13,136387.59,6601.06,17900.73,16870.75,2024-12-07,PAGO DIRECTO HOSPITAL,...,,,,,,M0360925-4,CI BANCO-M0360925-42325-TM,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01


In [12]:
# Eliminando columnas
datos.drop(columns=['SUBRAMO'])

Unnamed: 0_level_0,No DE SINIESTRO,TRAMITE,MONTO RECLAMADO,PAGADO,DEDUCIBLE,COASEGURO,IVA,FECHA DE PRIMER GASTO,TIPO DE PAGO,FECHA DE PAGO,...,POOL,Mes 2,Estado del Hospital,No. Empleado,Tit-Dep,LLAVE 1,LLAVE 2,llave2,TIPO_PAGO_CLAVE,INI_VIG_IMPRESION
No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,1240286391,3,1825.00,1825.00,0.00,0.00,0.00,2024-06-26,PAGO DIRECTO MÉDICO,2025-01-02,...,,,,,,M0360925-4,CI BANCO-M0360925-55577-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
1,1240290279,1,12971.00,12971.00,0.00,0.00,0.00,2024-08-01,PAGO DIRECTO MÉDICO,2025-01-02,...,,,,,,M0360925-4,CI BANCO-M0360925-55938-HF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
2,1240291400,6,177760.13,136387.59,6601.06,17900.73,16870.75,2024-12-07,PAGO DIRECTO HOSPITAL,2025-01-02,...,,,,,,M0360925-4,CI BANCO-M0360925-42325-TM,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
3,1240293215,1,180169.07,137373.40,6601.06,18280.73,17913.88,2024-06-01,PAGO DIRECTO HOSPITAL,2025-01-02,...,,,,,,M0360922-24,CI BANCO-M0360922-669-CF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
4,1240294921,1,70070.79,51458.91,6601.06,5358.67,6652.15,2024-12-19,PAGO DIRECTO HOSPITAL,2025-01-02,...,,,,,,M0360921-21,CI BANCO-M0360921-0000000FM0139-CF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
579,2240240369,12,13642.00,13642.00,0.00,0.00,0.00,2024-07-29,PAGO DIRECTO MÉDICO,2025-03-26,...,,,,,,M0360925-4,CI BANCO-M0360925-59982-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
580,2250211369,1,75593.41,50834.46,6875.92,11292.52,6590.51,2025-02-02,PAGO DIRECTO HOSPITAL,2025-03-26,...,,,,,,M0460925-4,CI BANCO-M0460925-51256-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
581,2250211372,1,50395.61,35586.66,6875.92,3539.35,4393.68,2025-02-02,PAGO DIRECTO HOSPITAL,2025-03-26,...,,,,,,M0460925-4,CI BANCO-M0460925-51256-TF,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01
582,2250212431,3,179520.08,136673.63,6878.92,17634.59,18332.94,2025-03-14,PAGO DIRECTO HOSPITAL,2025-03-26,...,,,,,,M0460925-4,CI BANCO-M0460925-51338-TM,CI BANCO-45658,CIRUGIA PROGRAMADA,2025-01-01


In [38]:
# Ordenando los renglones por columna (ascendente)
sortAsc = datos.sort_values(by='PAGADO')

# Ordenando los renglones por columna (descendente)
sortDes = datos.sort_values(by='PAGADO', ascending=False)

# Almacenando en variable una columna para analisis
datos2 = datos.copy()
datosF = datos2.sort_values('FECHA DE PRIMER GASTO', inplace=True)
dateFirstpay = datos2['FECHA DE PRIMER GASTO']

# Obteniendo los índices líneas de todos aquellos registros donde la fecha del primer gasto fue diferente al year 2025
iFirstpay = datos2.index[(dateFirstpay < Timestamp('2025-1-1')) & (dateFirstpay > Timestamp('2024-1-1'))]

# Almacenando datos en Series para exportar a un DataFrame de resultado
ser1 = datos2['POLIZA'][iFirstpay]
ser2 = datos2['No DE SINIESTRO'][iFirstpay]
ser3 = dateFirstpay[iFirstpay]
ser4 = datos2['TITULAR.1'][iFirstpay]

# Creando el DataFrame con el resultado del analisis
output = pd.DataFrame({'POLIZA':ser1,
                       'No DE SINIESTRO':ser2,
                       'FECHA DE PRIMER GASTO':ser3,
                       'TITULAR.1':ser4})

# Reiniciando el contador de indice
output.reset_index(names='No.', inplace=True)

# Imprimiendo filtrado
for i in range(len(output)):
    data1 = output['POLIZA'][i]
    data2 = output['No DE SINIESTRO'][i]
    data3 = output['TITULAR.1'][i]
    data4 = output['FECHA DE PRIMER GASTO'][i].strftime('%d/%m/%Y')
    print(f'Poliza: {data1}, # de Siniestro: {data2}, Nombre del Titular: {data3}. Fecha del primer gasto: {data4}')

# Exportando a un libro de excel
output.to_excel('output.xlsx',
                sheet_name='Resultados',
                columns= ['POLIZA', 'No DE SINIESTRO', 'TITULAR.1', 'FECHA DE PRIMER GASTO' ],
                index=False, 
                index_label=False)


Poliza: M0360925, # de Siniestro: 2240235336, Nombre del Titular: VAZQUEZ LUNA ANA KARINA. Fecha del primer gasto: 04/01/2024
Poliza: M0360925, # de Siniestro: 2240235336, Nombre del Titular: VAZQUEZ LUNA ANA KARINA. Fecha del primer gasto: 04/01/2024
Poliza: M0360925, # de Siniestro: 2240245427, Nombre del Titular: AIZA KURI JESSICA. Fecha del primer gasto: 23/01/2024
Poliza: M0360925, # de Siniestro: 2240206171, Nombre del Titular: GALINDO AYALA MARIA CAROLINA. Fecha del primer gasto: 28/01/2024
Poliza: M0360925, # de Siniestro: 2240206171, Nombre del Titular: GALINDO AYALA MARIA CAROLINA. Fecha del primer gasto: 28/01/2024
Poliza: M0360925, # de Siniestro: 1240220095, Nombre del Titular: SUAREZ ESTRADA JESUS ARMANDO. Fecha del primer gasto: 01/02/2024
Poliza: M0360925, # de Siniestro: 1240220095, Nombre del Titular: SUAREZ ESTRADA JESUS ARMANDO. Fecha del primer gasto: 01/02/2024
Poliza: M0360925, # de Siniestro: 1240220095, Nombre del Titular: SUAREZ ESTRADA JESUS ARMANDO. Fecha de

En Pandas podemos usar la clase `ExcelWriter()` para exportar DataFrames (objetos) en páginas de Excel y empleando la clase `style` puedes generar diferentes formar de [visualizar las tablas](https://pandas.pydata.org/docs/user_guide/style.html) de resultados que deseas exportar hacia un archivo de Excel, HTML, LaTeX, CSV.

In [41]:
with pd.ExcelWriter('output1.xlsx', datetime_format='YYYY-MM-DD') as writer:
    output.style\
        .background_gradient(cmap='YlGn')\
        .to_excel(writer, index=False, sheet_name='Resultados')

 `ExcelWriter()` nos permite guardar múltiples páginas o agregar páginas a un libro. Te recomiendo consultar la página de referencia de esta [clase](https://pandas.pydata.org/docs/reference/api/pandas.ExcelWriter.html) para que conozcas los parámetros que puedes utilizar. 

In [40]:
# Generando un DataFrame Nuevo
result2 = pd.DataFrame({'No DE SINIESTRO':datos2['No DE SINIESTRO'][iFirstpay],
                       'PAGADO':datos2['PAGADO'][iFirstpay],
                       'COASEGURO':datos2['COASEGURO'][iFirstpay],
                       'IVA':datos2['IVA'][iFirstpay]})

# Exportando hacia archivo
file_resul = 'resultados2.xlsx'

# Exportando los DataFrames a una hoja de excel.
with pd.ExcelWriter(file_resul, datetime_format='YYYY-MM-DD') as writer:
    output.to_excel(writer, index=False, sheet_name='Analisis1')
    result2.to_excel(writer, index=False, sheet_name='Analisis2')

In [None]:
print('Se han exportado los resultados a un archivo de Excel!')