## Debugging

Al escribir código, es casi una garantía que ocurrirá algún error. La mayor parte de los errores o ***bugs*** ocurren en virtud de la existencia de una divergencia entre el modelo mental que se tiene del programa y el funcionamiento efectivo del código.

La adquisición de experiencia en programación permite refinar la capacidad de generar modelos mentales del flujo de ejecución que sigue un algoritmo. Sin embargo, toma años de experiencia el poder generar código que funcione sin errores en el primer intento.

En este sentido, es importante seguir un flujo de trabajo que haga posible la identificación y resolución de errores. Una de las habilidades requeridas para esto es el **debugging**.

Existen tres tipos de error que pueden ser atendidos mediante el debugging:

1. **Errores inesperados**: este es el tipo más fácil, dado que será posible rastrear la fuente del error por medio del **traceback** que se imprime en pantalla. Una vez que se ha identificado el problema, es necesario validar sistemáticamente los supuestos de la solución hasta cerrar la brecha entre expectativas y realidad.

2. **Resultados espurios**: no se muestra ningún error en pantalla, sin embargo el valor de retorno de la ejecución del programa no es el esperado. En este caso, es necesario evaluar paso a paso el flujo de ejecución hasta identificar el punto de error.

3. **Fallas en actualización**: no se muestra ningún error en pantalla y los valores de salida son correctos, no obstante, estos no se actualizan cuando corresponde.

A continuación se exponen algunos métodos que permiten una resolución ordenada de estos tipos de errores.

In [1]:
#Cargar la base de datos de trabajo

#Importar bibliotecas requeridas
import pandas as pd
import numpy as np

#Importar el archivo de texto de extensión .csv
df = pd.read_csv("D:/Documentos/Otros/Aplicaciones/DESI/Muertes_maternas_2002_2021.csv")

#Verificar que el dataset cargó correctamente
df.head()

Unnamed: 0,ANIO_NACIMIENTO,MES_NACIMIENTO,MES_NACIMIENTOD,DIA_NACIMIENTO,EDAD,ESTADO_CONYUGAL,ESTADO_CONYUGALD,ENTIDAD_RESIDENCIA,ENTIDAD_RESIDENCIAD,MUNICIPIO_RESIDENCIA,...,DIA_REGISTRO,ANIO_CERTIFICACION,MES_CERTIFICACION,MES_CERTIFICACIOND,DIA_CERTIFICACION,ANIO_BASE_DATOS,RAZON_MORTALIDAD_MATERNA,RAZON_MORTALIDAD_MATERNAD,EDAD_QUINQUENAL,EDAD_QUINQUENALD
0,1967,5,MAYO,4,35,1,SOLTERO,16,MICHOACÁN DE OCAMPO,104,...,15,0,0,NO ESPECIFICADO,0,2002,0,MUERTES MATERNAS EXCLUIDAS PARA LA RAZÓN DE MO...,6,35 a 39 años
1,1965,0,NO ESPECIFICADO,0,37,5,CASADO,20,OAXACA,41,...,9,0,0,NO ESPECIFICADO,0,2002,0,MUERTES MATERNAS EXCLUIDAS PARA LA RAZÓN DE MO...,6,35 a 39 años
2,1956,2,FEBRERO,4,46,5,CASADO,12,GUERRERO,1,...,2,0,0,NO ESPECIFICADO,0,2002,0,MUERTES MATERNAS EXCLUIDAS PARA LA RAZÓN DE MO...,8,45 a 49 años
3,1980,9,SEPTIEMBRE,3,22,5,CASADO,28,TAMAULIPAS,38,...,27,0,0,NO ESPECIFICADO,0,2002,0,MUERTES MATERNAS EXCLUIDAS PARA LA RAZÓN DE MO...,3,20 a 24 años
4,1947,12,DICIEMBRE,20,54,5,CASADO,27,TABASCO,3,...,22,0,0,NO ESPECIFICADO,0,2002,0,MUERTES MATERNAS EXCLUIDAS PARA LA RAZÓN DE MO...,9,50 a 54 años


## Debugger interactivo

La herramienta más poderosa para la búsqueda y resolución de errores es el **debugger interactivo**. Un debugger pausa la ejecución del código en **puntos de quiebre** especificados por el usuario, de manera que éste pueda examinar de manera secuencial la implementación del flujo de ejecución y así definir si el modelo mental del programa es consistente con el funcionamiento efectivo del código.

Para habilitar el debugger interactivo en Jupyter, es necesario ejecutar las siguientes instrucciones en el **Powershell** de Anaconda:

- `conda create -n jupyterlab-debugger -c conda-forge jupyterlab=4 “ipykernel>=6” xeus-python`
- `conda activate jupyterlab-debugger`
- `conda install jupyterlab dask pandas hvplot`
- `conda install -c conda-forge condastatsconda install -c conda-forge condastats`
- `conda install -c conda-forge jupyter_contrib_nbextensions`

A fin de utilizar el debugger interactivo es necesario especificar un punto de quiebre en el código:

In [4]:
#Definir una función que suma dos elementos
def add(a, b):
    res = a + b
    return res

#Llamar a la función
result = add(1, 2)
print(result)

3


Al iniciar el debugger interactivo de Jupyter, será posible observar **tres paneles**:

1. **Variables**: contiene información acerca de las variables que se han asignado en el fragmento de código ejecutado hasta el punto de quiebre. Estas variables pueden encontrarse almacenadas en un entorno local o global.
2. **Breakpoints**: contiene información relativa a los puntos de quiebre especificados como parte del ejercicio de debugging. Es posible observar la línea en la que se definió cada punto. Las flechas son utilizadas para las operaciones de **pausar o detener la ejecución**, **saltar al siguiente punto de quiebre** o **avanzar a la línea de código siguiente o retornar a la anterior**.
3. **Source**: indica la línea de código que se encuentra en ejecución. Esta información es útil para definir en qué momento del flujo de ejecución se produjo un cambio en las variables del proyecto.

El **debugger interactivo** permite examinar de forma detenida el código paso por paso. En el ejemplo anterior, es posible dar cuenta de las variables que se generan en el entorno local de la función `add`, así como la forma en que el valor de retorno de esta función es asignado al objeto de entorno global `result`.

El debugger interactivo hace sencillo el análisis de funciones complejas. A continuación se considerará el ejemplo de la función generada como parte del **Segundo reto de programación**:

In [6]:
#Definir función del reto
def gen_ficha():

    #Importar bibliotecas requeridas
    import pandas as pd

    #Filtrar columnas requeridas
    df_fl = df.iloc[:, [4, 22, 29, 38]]

    #Solicitar al usuario que indique criterios de filtrado
    age_min = int(input("¿Cuál es la edad mínima de las mujeres que desea conocer? "))
    age_max = int(input("¿Cuál es la edad máxima de las mujeres que desea conocer "))
    estado = input("Defina el estado de ocurrencia de las defunciones ").upper()
    año_df = int(input("Defina el año de ocurrencia de las defunciones "))

    #Filtrar datos con base a criterios
    df_fl = df_fl[(df_fl.EDAD > age_min) & 
                  (df_fl.EDAD < age_max) & 
                  (df_fl.ENTIDAD_OCURRENCIAD == estado) & 
                  (df_fl.ANIO_DEFUNCION == año_df)]
    
    #Verificar que haya datos
    if df_fl.shape[0] > 0:

        #Generar la lista contenedora
        ls_co = []

        #Definir bucle para la generación de las fichas
        for i in range(len(df_fl)):

            #Palabras a integrar para la ficha
            wds = ["Registro_", str(df_fl.index.values[i]), ":", 
                   "Edad:", str(df_fl.iloc[i,0]), "/", 
                   "Estado de ocurrencia:", str(df_fl.iloc[i,1]), "/", 
                   "Año de ocurrencia:", str(df_fl.iloc[i,2]), "/", 
                   "Causa de muerte:", str(df_fl.iloc[i,3])] 

            #Pegar todos los valores juntos:
            fic = " ".join(wds)

            #Depositar registros en contenedor
            ls_co.append(fic) 

        #Transformar lista en dataframe
        df_exp = pd.DataFrame(ls_co, columns = ["Fichas"])

        #Exportar dataframe como archivo .csv
        df_exp.to_csv("out_muj_defun.csv", index = False)
        
        #Señalar que el dataframe estará en directorio
        return print("Cantidad de registros encontrados:", df_exp.shape[0],
                     "\nEl archivo de excel con las fichas aparecerá en su directorio en unos segundos")
    
    #Si no se encontraron registros 
    else:
        print("No hay datos para los parámetros especificados")

A través de la utilización del **debugger interactivo** es posible observar de qué manera se ejecuta cada una de las líneas que integran la función. En concreto, se torna posible observar qué variables son definidas en el entorno local de la función; cómo se evalúan los loops o sentencias condicionales; o cómo se expresan los valores de retorno. 

In [None]:
#Ejecutar función generadora de fichas
gen_ficha()

¿Cuál es la edad mínima de las mujeres que desea conocer?  18


El uso del debugger interactivo permite evaluar hasta qué punto funciona correctamente una función que entrega errores. A fin de determinar eso, es necesario ejecutar línea por línea la función hasta identificar la porción de código en la que se  originan los errores.

## Obtener ayuda

Si la lectura del **traceback** o el uso del **debugger interactivo** no han sido suficientes para solucionar un problema, es posible recurrir al uso de herramientas de inteligencia artificial o a foros de programadores a fin de solicitar ayuda. 

Dicho esto, a fin de plantear una solicitud de ayuda coherente y fácil de entender, es necesario incluir un ejemplo reproducible del código trabajado (***reproducible example*** o **Reprex**). El objetivo del reprex es proveer la pieza mínima de código que ilustre el problema y pueda ser ejecutada en otra computadora sin demasiados requisitos.

Generar un **reprex** es un acto vital en tanto que captura los elementos esenciales de un problema de forma tal que cualquier individuo puede obtener **el mismo error** al momento de ejecutar el código para luego plantear una solución.

A fin de generar un buen reprex es necesario evaluar los supuestos integrados en el código; al eliminarlo, será posible que cualquier usuario ejecute el código con tan sólo copiar y pegar el código.

**¿Qué supuestos están implícitos en la función generadora de fichas?**

En primera instancia, que la persona tiene disponible el dataset de *Muertes maternas*

In [20]:
#Generar datos de prueba
test = {'col1': [18, 19, 20, 21, 22, 23, 24, 25],
        'col2': ['JALISCO', 'JALISCO', 'PUEBLA', 'VERACRUZ', 'JALISCO', 'YUCATÁN', 'OAXACA', 'PUEBLA'],
        'col3': ['Sangrado', 'Sangrado', 'Sangrado', 'Sangrado', 'Sangrado', 'Sangrado', 'Sangrado', 'Sangrado'],
        'col4': [2006, 2006, 2006, 2008, 2006, 2007, 2008, 2006]}

#Convertir en un dataframe
test = pd.DataFrame(test)
test.head()

Unnamed: 0,col1,col2,col3,col4
0,18,JALISCO,Sangrado,2006
1,19,JALISCO,Sangrado,2006
2,20,PUEBLA,Sangrado,2006
3,21,VERACRUZ,Sangrado,2008
4,22,JALISCO,Sangrado,2006


A fin de que la persona que responda pueda ejecutar fácilmente el código es recomendable incluir datos de prueba que puedan ser utilizados de manera expédita por la función.

**¿Qué otro supuesto está inserto en la función generadora de fichas?**
Que la persona necesita usar los mismos nombres de variables especificados en el dataset de *Muertes maternas*

In [None]:
#Filtrar datos con base a criterios
test = test[(test.col1 > age_min) & 
              (test.col1 < age_max) & 
              (test.col2 == estado) & 
              (test.col3 == año_df)]

Un aspecto adicional que facilita la comprensión de un **reprex** es la eliminación del código que no es fundamental para la generación de los valores de retorno esperados. 

Si la eliminación del **código redundante** hizo posible obtener los valores de retorno correctos, entonces el problema se encontraba en ese aspecto de la función; de lo contrario, eliminarlo no obstaculizará el análisis por  parte de terceros.

In [None]:
#Importar bibliotecas requeridas
import pandas as pd

#Solicitar al usuario que indique criterios de filtrado
age_min = int(input("¿Cuál es la edad mínima de las mujeres que desea conocer? "))
age_max = int(input("¿Cuál es la edad máxima de las mujeres que desea conocer "))
estado = input("Defina el estado de ocurrencia de las defunciones ").upper()
año_df = int(input("Defina el año de ocurrencia de las defunciones "))

#Filtrar datos con base a criterios
test = test[(test.col1 > age_min) & 
              (test.col1 < age_max) & 
              (test.col2 == estado) & 
              (test.col3 == año_df)]

#Generar la lista contenedora
ls_co = []

#Definir bucle para la generación de las fichas
for i in range(len(test)):
        
    #Palabras a integrar para la ficha
    wds = ["Registro_", str(test.index.values[i]), ":", 
               "Edad:", str(test.iloc[i,0]), "/", 
               "Estado de ocurrencia:", str(test.iloc[i,1]), "/", 
               "Año de ocurrencia:", str(test.iloc[i,2]), "/", 
               "Causa de muerte:", str(test.iloc[i,3])] 

    #Pegar todos los valores juntos:
    fic = " ".join(wds)

    #Depositar registros en contenedor
    ls_co.append(fic) 

#Transformar lista en dataframe
df_exp = pd.DataFrame(ls_co, columns = ["Fichas"])

Al integrar todo el **código libre de excepciones** y los elementos de apoyo se genera un **reprex** que puede ser publicado en un foro dirigido a proveer apoyo en soluciones de programación:

In [23]:
#Generar datos de prueba
test = {'col1': [18, 19, 20, 21, 22, 23, 24, 25],
        'col2': ['JALISCO', 'JALISCO', 'PUEBLA', 'VERACRUZ', 'JALISCO', 'YUCATÁN', 'OAXACA', 'PUEBLA'],
        'col3': ['Sangrado', 'Sangrado', 'Sangrado', 'Sangrado', 'Sangrado', 'Sangrado', 'Sangrado', 'Sangrado'],
        'col4': [2006, 2006, 2006, 2008, 2006, 2007, 2008, 2006]}

#Convertir en un dataframe
test = pd.DataFrame(test)

#Importar bibliotecas requeridas
import pandas as pd

#Solicitar al usuario que indique criterios de filtrado
age_min = int(input("¿Cuál es la edad mínima de las mujeres que desea conocer? "))
age_max = int(input("¿Cuál es la edad máxima de las mujeres que desea conocer "))
estado = input("Defina el estado de ocurrencia de las defunciones ").upper()
año_df = int(input("Defina el año de ocurrencia de las defunciones "))

#Filtrar datos con base a criterios
test = test[(test.col1 > age_min) & 
              (test.col1 < age_max) & 
              (test.col2 == estado) & 
              (test.col3 == año_df)]

#Generar la lista contenedora
ls_co = []

#Definir bucle para la generación de las fichas
for i in range(len(test)):
        
    #Palabras a integrar para la ficha
    wds = ["Registro_", str(test.index.values[i]), ":", 
               "Edad:", str(test.iloc[i,0]), "/", 
               "Estado de ocurrencia:", str(test.iloc[i,1]), "/", 
               "Año de ocurrencia:", str(test.iloc[i,2]), "/", 
               "Causa de muerte:", str(test.iloc[i,3])] 

    #Pegar todos los valores juntos:
    fic = " ".join(wds)

    #Depositar registros en contenedor
    ls_co.append(fic) 

#Transformar lista en dataframe
df_exp = pd.DataFrame(ls_co, columns = ["Fichas"])

#Visualizar resultados
df_exp.head()

¿Cuál es la edad mínima de las mujeres que desea conocer?  18
¿Cuál es la edad máxima de las mujeres que desea conocer  23
Defina el estado de ocurrencia de las defunciones  jalisco
Defina el año de ocurrencia de las defunciones  2006


Unnamed: 0,Fichas


Generar un reprex es un paso muy importante para obtener el apoyo de un tercero dado que le permite recrear el problema. La depuración del código permite generar un **ejemplo minímo reproducible**. Esta aproximación al problema permitirá a un individuo con más experiencia encontrar una solución al problema observado.