# Introducción a Python para IA.

 <p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><a property="dct:title" rel="cc:attributionURL" href="https://github.com/luiggix/intro_MeIA_2023">Introducción a Python para IA</a> by <span property="cc:attributionName">Luis Miguel de la Cruz Salas</span> is licensed under <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">CC BY-NC-SA 4.0<img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1"></a></p> 

# Objetivos.
Crearuna herramienta para generar mapas de calor (heatmaps) usando funciones de matplotlib.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

<div class="alert alert-success">
<b>Matplotlib.</b>
    
Para realizar esta práctica, necesitas conocer algunos conceptos y funciones de la biblioteca <b>matplotlib</b>. Para ello debes revisar la notebook: 
<ul>    
    <li><a href="T15_Matplotlib_Intro.ipynb">T15_Matplotlib_Intro.ipynb</a>.</li>
    <li><a href="T16_Matplotlib_Funciones.ipynb">T16_Matplotlib_Funciones.ipynb</a>.</li>
</ul>
</div>

# Heatmap

Un mapa de calor (*heatmap*) es una representación gráfica de datos numéricos, donde cada dato individual se representa usando un color. De esta manera, es posible simplificar conjuntos de datos numéricos en visualizaciones claras que se pueden entender más fácilmente.

En matplotlib se pueden generar mapas de calo de manera distinta.

## Versión 1.

In [None]:
# Generamos datos de manera pseudo-aleatoria.
data = np.random.random((5, 5))
print(data)

Usaremos la función `imshow()` para graficar los datos.

In [None]:
plt.imshow(data)
plt.show()

## Versión 2.
La gráfica anterior muestra ya los datos representados por colores. Para entender mejor esta información, vamos a realizar lo siguiente:

* Definición de etiquetas.
* Datos numéricos sobre el mapa de calor.
* Mapa y barra de color

In [None]:
# Definimos un conjunto de etiquetas para los datos
ver = ["vertical 1", "vertical 2", "vertical 3", "vertical 4", "vertical 5"]
hor = ["horizontal {}".format(i) for i in range(1,6)]

# Definimos la figura a través de subplots
fig, ax = plt.subplots()

# Generamos el mapa de calor usando un cmap 
im = ax.imshow(data, cmap="hot")

### Decoramos el mapa de calor con información relevante:

# Definimos las marcas sobre los ejes y las etiquetas
ax.set_xticks(np.arange(len(hor)), labels=hor, rotation=45, ha="right", fontsize=9)
ax.set_yticks(np.arange(len(ver)), labels=ver, fontsize=9)

# Visualizamos la información numérica.
for i in range(len(ver)):
    for j in range(len(hor)):
        text = ax.text(j, i, '{:0.2f}'.format(data[i, j]),
                       ha="center", va="center", color="w")

# Barra de color
cbar = plt.colorbar(im, ticks=[0.1, 0.5, 0.9])
cbar.ax.set_ylabel("Etiqueta para la barra", rotation=-90, va="bottom")
cbar.ax.set_yticklabels(['Bajo', 'Medio', 'Alto'])
      
plt.tight_layout()
plt.savefig('heatmap2.pdf')
plt.show()

## Versión 3.

Aún hay mucho que mejorar, lo siguiente será:

* Ajuste de los ticks y el marco de la gráfica.

In [None]:
# Obtenemos los ejes de la figura anterior
ax = fig.gca()

# Ponemos las ticks en el top de la figura.
ax.tick_params(top=True, bottom=False, labeltop=True, labelbottom=False)

# Cambiamos la alineación de las xticks
ax.set_xticks(np.arange(len(hor)), labels=hor, rotation=45, ha="left", fontsize=9)

# Ajustamos los minor ticks para dibujar una rejilla
ax.set_xticks(np.arange(data.shape[1]+1)-.5, minor=True)
ax.set_yticks(np.arange(data.shape[0]+1)-.5, minor=True)
ax.grid(which="minor", color="w", linestyle='-', linewidth=3)
ax.tick_params(which="minor", bottom=False, left=False)

# Quitamos el marco de los ejes (spines)
ax.spines[:].set_visible(False)

fig.tight_layout()
fig.savefig('heatmap3.pdf')
fig

## Versión 4.

Observa que en la figura anterior algunos números no se logran ver correctamente debido al contraste de colores. Lo que haremos a continuación será:

* Agregar un título al mapa de calor.
* Seleccionamos el color del texto de los datos adecuadamente.

In [None]:
# Obtenemos los ejes de la figura anterior
ax = fig.gca()

# Parámetros para el texto
kw = dict(ha="center", va="center")

text_format = '{:0.2f}' # Formato para el texto
textcolors  = ("black", "white") # Colores para el texto

# Calculamos un umbral. 
# * Usamos "im.norm" para normalizar los datos al intervalo [0,1]
threshold   = im.norm(data.max()) / 2

# Visualizamos la información numérica.
for i in range(len(ver)):
    for j in range(len(hor)):
        # Normalizamos el dato a [0,1]
        # Comparamos con el umbral, si es mayor usamos blanco para el texto, 
        # en otro caso se usa negro. Actualizamos el diccionario de parámetros.
        kw.update(color=textcolors[int(im.norm(data[i, j]) > threshold)])
        
        # Dibujamos el texto usando el formato "text_format".
        text = ax.text(j, i, text_format.format(data[i, j]), **kw)

fig.tight_layout()
fig.savefig('heatmap4.pdf')
fig

## Versión 5.
Finalmente, juntamos todo lo anterior en una función para posteriormente usarla como una herramienta de graficación.

In [None]:
def heatmap_0(data, row_labels, col_labels, ax = None, cbar_label="",
              text_format="{:.2f}", inv_tc=False, 
              **kwargs):
    """
    Crea un mapa de calor a partir de un conjunto de datos.
    
    Parameters
    ----------
    data: 2D `ndarray` 
        Los datos para generar el mapa de calor.
        
    row_labels: `list`
        Lista de etiquetas para el eje vertical.
        
    col_labels: `list`
        Lista de etiquetas para el eje horizontal.
    
    ax: `matplotlib.axes.Axes`
        Los ejes donde se dibujará el mapa de calor. Opcional.
        
    cbar_label: `string`
        Etiqueta para el `colorbar`. Opcional.

    text_format: `string`
        Cadena especificando el formato del texto para los valores numéricos. Opcional.
        
    inv_tc: `bool`
        Si es True se usa (black, white), en otro caso se usa (white,black). Opcional.
        
    **kwargs:
        Argumentos adicionales para `imshow`.
        
    Returns
    -------
        im : `AxesImage`
        cbar: `Colorbar`
        
    """
    # Si no se proporcionan los ejes de manera explícita, se generan o se obtiene los que
    # estén presentes.
    if ax == None:
        ax = plt.gca()
        
    # Generamos el mapa de calor
    im = ax.imshow(data, **kwargs)

    ### Decoramos el mapa de calor con información relevante:

    # Ponemos las ticks en el top de la figura.
    ax.tick_params(top=True, bottom=False, labeltop=True, labelbottom=False)

    # Definimos las marcas sobre los ejes y las etiquetas
    ax.set_xticks(np.arange(len(col_labels)), labels=col_labels, rotation=45, ha="left", fontsize=9)
    ax.set_yticks(np.arange(len(row_labels)), labels=row_labels, fontsize=9)

    # Ajustamos los minor ticks para dibujar una rejilla
    ax.set_xticks(np.arange(data.shape[1]+1)-.5, minor=True)
    ax.set_yticks(np.arange(data.shape[0]+1)-.5, minor=True)
    ax.grid(which="minor", color="w", linestyle='-', linewidth=3)
    ax.tick_params(which="minor", bottom=False, left=False)

    # Quitamos el marco de los ejes (spines)
    ax.spines[:].set_visible(False)    

    # Parámetros para el texto
    kw = dict(ha="center", va="center")
        
    # Calculamos un umbral. 
    # * Usamos "im.norm" para normalizar los datos al intervalo [0,1]
    threshold   = im.norm(data.max())/2

    # Colores para el texto        
    text_colors  = ("w", "k") if inv_tc else ("k", "w")

    # Visualizamos la información numérica.
    for i in range(len(row_labels)):
        for j in range(len(col_labels)):
            # Normalizamos el dato a [0,1]
            # Comparamos con el umbral, si es mayor usamos blanco para el texto, 
            # en otro caso se usa negro. Actualizamos el diccionario de parámetros.
            kw.update(color=text_colors[int(im.norm(data[i, j]) > threshold)])

            # Dibujamos el texto usando el formato "text_format".
            text = ax.text(j, i, text_format.format(data[i, j]), **kw)    

    # Barra de color
    cbar = plt.colorbar(im, ax=ax)
    cbar.ax.set_ylabel(cbar_label, rotation=-90, va="bottom")
    
    plt.tight_layout()
    return im, cbar

In [None]:
heatmap_0(data, hor, ver)
plt.savefig('heatmap5.pdf')

In [None]:
heatmap_0(data, hor, ver, cmap='cool')

### Ejemplo de aplicación.

Usaremos los datos que usan en este ejemplo: [airlines delays](https://www.kaggle.com/code/alexisbcook/bar-charts-and-heatmaps).  Cada dato de la tabla muestra en minutos el tiempo de retraso de llegada de los vuelos para diferentes aerolíneas, por mes durante el año 2015. Los número negativos significan que los vuelos llegaron anticipadamente.

Para leer los datos y maninuparlos un poco usaremos la biblioteca [Pandas](https://pandas.pydata.org/). Esto lo revisaremos con más detalle posteriormente.

In [None]:
import pandas as pd

In [None]:
vuelos = pd.read_csv('../utils/data/flight_delays.csv')
vuelos

Vamos a usar la columna del mes (**Month**) como el índice de los renglones

In [None]:
vuelos = pd.read_csv('../utils/data/flight_delays.csv', index_col="Month")
vuelos

In [None]:
vuelos.index # revisamos la cantidad de renglones

In [None]:
vuelos.columns # revisamos los nombres de las columnas

In [None]:
# Transformamos los nombre de los renglones y columnas en listas
# para manipularlos de una mejor manera en este ejemplo
meses = list(vuelos.index)
aerolineas = list(vuelos.columns)
print(meses)
print(aerolineas)

In [None]:
#Transformamos los datos en un arreglo de numpy:   
np.asarray(vuelos)

In [None]:
# Ahora usamos nuestra herramienta heatmap_0 para generar un mapa de calor
heatmap_0(np.asarray(vuelos), meses, aerolineas)

## Versión 6.
Lo que observamos en la figura anterior, fue que el mapa de calor no se generó adecuadamente. Vamos a modificar la función como sigue:


In [None]:
def heatmap(data, row_labels, col_labels, annot=True, 
            title = "", ax = None,
            cbar_kw = None, cbar_label = "", text_kw = None,
            text_format = "{:.2f}", inv_tc=False, 
            **kwargs):
    """
    Crea un mapa de calor a partir de un conjunto de datos.
    
    Parameters
    ----------
    data: 2D `ndarray` 
        Los datos para generar el mapa de calor.
        
    row_labels: `list`
        Lista de etiquetas para el eje vertical.
        
    col_labels: `list`
        Lista de etiquetas para el eje horizontal.
    
    ax: `matplotlib.axes.Axes`
        Los ejes donde se dibujará el mapa de calor. Opcional.
        
    cbar_kw: `dict`
        Diccionario con los argumentos para el `colorbar`. Opcional.
        
    cbar_label: `string`
        Etiqueta para el `colorbar`. Opcional.

    text_kw: `dict`
        Diccionario con los argumentos para el `Text`. Opcional.
        
    text_format: `string`
        Cadena especificando el formato del texto para los valores numéricos. Opcional.
        
    inv_tc: `bool`
        Si es True se usa (black, white), en otro caso se usa (white,black). Opcional.
        
    **kwargs:
        Argumentos adicionales para `imshow`.
        
    Returns
    -------
        im : `AxesImage`
        cbar: `Colorbar`
        
    """
    # Si no se proporcionan los ejes de manera explícita, se generan o se obtiene los que
    # estén presentes.
    if ax == None: ax = plt.gca()
    
    ax.set_title(title)
    
    # Generamos el mapa de calor
    im = ax.imshow(data, **kwargs)

    ### Decoramos el mapa de calor con información relevante:

    # Ponemos las ticks en el top de la figura.
    ax.tick_params(top=True, bottom=False, labeltop=True, labelbottom=False)

    # Definimos las marcas sobre los ejes y las etiquetas
    ax.set_xticks(np.arange(len(col_labels)), labels=col_labels, rotation=45, ha="left", fontsize=9)
    ax.set_yticks(np.arange(len(row_labels)), labels=row_labels, fontsize=9)

    # Ajustamos los minor ticks para dibujar una rejilla
    ax.set_xticks(np.arange(data.shape[1]+1)-.5, minor=True)
    ax.set_yticks(np.arange(data.shape[0]+1)-.5, minor=True)
    ax.grid(which="minor", color="w", linestyle='-', linewidth=3)
    ax.tick_params(which="minor", bottom=False, left=False)

    # Quitamos el marco de los ejes (spines)
    ax.spines[:].set_visible(False)    
        
    # Calculamos un umbral. 
    # * Usamos "im.norm" para normalizar los datos al intervalo [0,1]
    threshold   = im.norm(data.max())/2

    # Argumentos para el texto
    if text_kw == None: text_kw = {}
    text_kw.update(ha="center", va = "center")
    
    if annot:
        # Colores para el texto        
        text_colors  = ("w", "k") if inv_tc else ("k", "w")
    
        # Visualizamos la información numérica.
        for i in range(len(row_labels)):
            for j in range(len(col_labels)):
                # Normalizamos el dato a [0,1]
                # Comparamos con el umbral, si es mayor usamos blanco para el texto, 
                # en otro caso se usa negro. Actualizamos el diccionario de parámetros.
                text_kw.update(color=text_colors[int(im.norm(data[i, j]) > threshold)])

                # Dibujamos el texto usando el formato "text_format".
                text = ax.text(j, i, text_format.format(data[i, j]), **text_kw)    

    # Barra de color
    if cbar_kw == None: cbar_kw = {}

    
    from mpl_toolkits.axes_grid1 import make_axes_locatable
    divider = make_axes_locatable(ax)
    cax = divider.append_axes("right", "5%", pad="3%")
    
    cbar = plt.colorbar(im, cax=cax, **cbar_kw)
    cbar.ax.set_ylabel(cbar_label, rotation=-90, va="bottom")
    plt.tight_layout()

    plt.tight_layout()
    return im, cbar

In [None]:
cbar_kw = dict(ticks=[])
text_kw = dict(fontsize=6)
title = "Average Arrival Delay for Each Airline, by Month"

heatmap(np.asarray(vuelos.fillna(0)), meses, aerolineas, title=title,
        text_kw = text_kw, inv_tc=True)
plt.savefig('heatmap6.pdf')

Ahora, en vez de poner un número en el renglón, ponemos el nombre del mes.

In [None]:
min_month = "2023-01"
max_month = "2023-12"

months = pd.period_range(min_month, max_month, freq='M')
print(months)

print(months.strftime("%B"))

In [None]:
heatmap(np.asarray(vuelos.fillna(0)), list(months.strftime("%B")), aerolineas, 
        title=title, text_kw = text_kw, text_format='{:.1f}',inv_tc=True)
plt.show()

In [None]:
heatmap(np.asarray(vuelos.fillna(0)), list(months.strftime("%B")), aerolineas, 
        title = title, text_kw = text_kw, cbar_label="Delay time", inv_tc=True, cmap='hot')

plt.savefig('my_heatmap.pdf')
plt.show()

In [None]:
heatmap(np.asarray(vuelos.fillna(0)), list(months.strftime("%B")), aerolineas, 
        title = title, annot = False, cbar_label="Delay time", cmap='twilight')
plt.show()

## Versión Seaborn.

In [None]:
import seaborn as sns
sns.heatmap(data=vuelos, annot=True)
plt.savefig('sbn_heatmap.pdf')
plt.title(title)