<a href="https://colab.research.google.com/github/RodolfoFerro/curso-ai-basics/blob/main/notebooks/session_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Pandas

A lo largo de este cuaderno explicaremos algunos elemntos básicos y herramientas con las que cuenta la librería de Python llamada Pandas. Los temas que se cubrirán serán:
1. Intro a Pandas
2. Objetos Base de Pandas
3. Series
4. DataFrames
5. Index
6. Indexing y selecciones para DataFrames
7. Asignación y creación de nuevas columnas en DataFrames

## Introducción a Pandas
Pandas es la librería de Python más famosa para trabajar en análisis de datos, utiliza NumPy de base, (todos los objetos de Pandas están basados en NumPy arrays), y se ha construido un enorme y bastante completo paradigma para trabajar con esta librería.

Para importar Pandas lo hacemos igual que con numpy, pero con un alias diferente, en este caso:


In [None]:
import  pandas as pd # El alias de Pandas es pd
import numpy as np

## Objetos base de Pandas

Tenemos 3 objetos principales dentro de la librería Pandas

1. Series
2. DataFrames
3. Index

Aquí abajo hay un ejemplo del cómo se inicializa cada uno.

In [None]:
# SERIE
my_serie = pd.Series([0.25, 0.5, 0.75, 1.], dtype='float64')

# DATAFRAME
data = {
    "name": ["Rodo", "David", "Peter", "Miles"],
    "last_name": ["Ferro", "Pedroza", "Parker", "Morales"],
    "age": [31, 24, 16, 14]
}
my_df = pd.DataFrame(data)

# INDEX
my_index = pd.Index([2, 3, 5, 7, 11])

## Series
Un Pandas Series es un arreglo 1-dimensional de datos indexados. Se pueden crear a partir de listas u otros objetos iterables como tuplas y arreglos. Es el objeto más basico en la librería y es casi idéntico a un NumPy Array, excepto que este es más flexible porque tiene un índice bastente flexible.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.])
data

Son una estructura de dato que envuelve una secuencia de valores y una secuencia de índices. Podemos acceder a estos con los atributos de values e index. ESTOS INDEX PUEDEN SER VALORES DE CUALQUIER TIPO. Por esto, son generalización de los diccionarios en Python.

In [None]:
# Definamos una nueva Series
data = pd.Series([0.25, 0.5, 0.75, 1.],
                 index=['a', 'b', 'c', 'd'])

In [None]:
data.values

In [None]:
data.index

In [None]:
data['c']

Tienen muchas propiedades interesantes, pero es de mayor interés entenderlas dentor del contexto del Pandas DataFrame. Mientras tanto, qué te parece si resuelves el siguiente ejercicio:

### Ejercicio:
- Parte 1: Crea una Series cuyo contenido sean los primeros 5 números primos y cuyo índice diga "prime_number#1", "prime_number#2", "prime_number#3"... y así hasta el 10.
- Parte 2: Crea una Series cuyo contenido sean los primeros 100 números naturales y cuyo índice diga "nature_number#1", "nature_number#2",... "nature_number#100".

In [None]:
# TODO...

## Pandas DataFrame
Esta es la estructura principal de Pandas, es una generalización de un NumPy Array en 2-D, sin embargo, sirve más pensarlo como una generalización de un diccionario de Python, así mismo, es una colección en secuencia de **Pandas Series**, y hay muchas maneras de crear uno:

In [None]:
# Por medio de un diccionario con datos
data = {
    "name": ["Rodo", "David", "Peter", "Miles"],
    "last_name": ["Ferro", "Pedroza", "Parker", "Morales"],
    "age": [31, 24, 16, 14]
}
df = pd.DataFrame(data)
df

In [None]:
# Por medio de una matriz y un arreglo de columnas
data = [
    ["Rodo", "Ferro", 31],
    ["Buberto", "Bunzalez", 24],
    ["Peter", "Parker", 16],
    ["Miles", "Morales", 14],
]

columns = ["name", "last_name", "age"]

df = pd.DataFrame(data, columns=columns)
df

En lugar de crear los datos podríamos importarlos de algún archivo que tengamos, .csv, .excel, .parquet, .pkl, .pickle.
Además cada método tiene sus propias configuraciones.

La data que usamos se encuentra disponible [aquí](https://www.kaggle.com/datasets/sujaykapadnis/programming-languages/download?datasetVersionNumber=1).

In [None]:
df = pd.read_csv("languages.csv")
df

## Index
Tanto el objeto Series como el objeto DataFrame tienen este objeto 'Series', incrustado en si. Funciona como un NumPy Array pero es inmutable para prevenir errores. Son multi-conjuntos ordenados.

In [None]:
ind = pd.Index([[2, 3, 5, 7, 11]])
ind

In [None]:
ind[1] = 1

## Indexing y Selecciones en DataFrames
Hay varias maneras de acceder a los datos dentro de un DataFrame, estas son las principales y probablemente las que más van a utilizar:

### df.head(n): Regresa los primeros ‘n’ registros.

In [None]:
df.head() # Default: n = 5

### df.tail(n): Regresa los últimos ‘n’ registros.

In [None]:
df.tail() # Default n = 5

### df.columns: Regresa un array con las columnas.

In [None]:
df.columns

### df[column]: Regresa los valores en esa columna (los muestra en forma de Serie).

In [None]:
df["title"]

In [None]:
# Nota, las Series y los DataFrames tienen casi los mismos atributos y métodos básicos de selección de datos, por tanto podemos hacer:
df["title"].head()

### df[[columns]]: Regresa un sub-dataframe con solo esas columnas y en el orden especificado.


In [None]:
columns_showed = ["title", "appeared", "number_of_users"]
df[columns_showed]

### df.loc[index]: Regresa una Series/DataFrame con la información de esa/esas filas.

In [None]:
df.loc[3]

### df.iloc[n_index]: Regresa una Series/DataFrame con la información de esa/esas filas (ahora el parámetro es el número del índice, no el label del índice).


In [None]:
df.iloc[3] # ?????????????????????????????????

In [None]:
# Vamos a cambiar un poquito el DataFrame
df.index = range(1, len(df) + 1)
df.head(3)

In [None]:
# Ahora si el loc y iloc tienen diferencia
df.loc[3, columns_showed]

In [None]:
df.iloc[3][columns_showed]

### df[mask]: Regresa una series con la información del DataFrame tras pasar por la máscara.

In [None]:
# ¿Que pasa si hacemos una operacion lógica?
mask = df["appeared"] > 2015
mask

In [None]:
df[mask]

## Asignación
Para crear una columna usamos la misma lógica que en los diccionarios, accedemos asignamos el nombre de esa columna a un valor.

In [None]:
df["age"] = 2024 - df["appeared"]
columns_showed_new = columns_showed + ["age"]

df[columns_showed_new]

## Alineación de índices

In [None]:
a = pd.Series([2, 4, 6], index=[0, 1, 2])
b = pd.Series([1, 3, 5], index=[1, 2, 3])
a + b

# Fill Values con operaciones

In [None]:
a.add(b, fill_value=0)

## UFuncs entre Series y DataFrames
Funciona exactamente igual que NumPy.

In [None]:
rng = np.random.RandomState(73) # Asignando un estado aleatorio para que a pesar de ser números aleatorios, siempre sean los mismos por cada run
a = rng.randint(10, size = (3, 4))
a

In [None]:
# Numpy:
a - a[0]

In [None]:
# Pandas
df = pd.DataFrame(a, columns=list('QRST'))
df - df.iloc[0]

# Cambio de axis

In [None]:
df - df['R'] # ??????????????????

In [None]:
df.subtract(df['R'], axis = 0)

# ¿Qué hacer cuando hay missing data? (Datos faltantes)
La diferencia entre los datos que usan en los tutoriales y para aprender y los datos en la mundo real, es que en el mundo real rara vez los datos están limpios y homogéneos. En particular, muchos datasets muy interesantes van a tener algún porcentaje de los datos como faltantes. Y esto de "Datos faltantes" puede significar varias cosas, no solo que olvidaron llenar un campo.

## Trade-Offs in Missing Data Conventions (Compromisos en las Convenciones de Datos Faltantes)
Existen diversos métodos desarrollados para señalar la presencia de datos faltantes en una tabla o DataFrame. Estos métodos generalmente se basan en dos estrategias: usar una máscara que indica globalmente los valores faltantes, o elegir un valor centinela que señale una entrada ausente.

En el enfoque de máscara, esta puede ser un arreglo booleano completamente separado, o puede involucrar la asignación de un bit en la representación de los datos para indicar localmente el estado nulo de un valor.

En el enfoque del valor centinela, este podría ser una convención específica del dato, como indicar un valor entero faltante con -9999 o algún patrón de bits poco común, o podría ser una convención más global, como indicar un valor flotante faltante con NaN (Not a Number), un valor especial que forma parte de la especificación de punto flotante IEEE.

Ninguno de estos enfoques está libre de compromisos: el uso de un arreglo de máscara separado requiere la asignación de un arreglo booleano adicional, lo que añade sobrecarga tanto en almacenamiento como en cálculo. Un valor centinela reduce el rango de valores válidos que pueden representarse y puede requerir lógica extra (a menudo no optimizada) en la aritmética de CPU y GPU. Valores especiales comunes como NaN no están disponibles para todos los tipos de datos.

Como en la mayoría de los casos donde no existe una elección óptima universal, diferentes lenguajes y sistemas utilizan distintas convenciones. Por ejemplo, el lenguaje R usa patrones de bits reservados dentro de cada tipo de dato como valores centinela para indicar datos faltantes, mientras que el sistema SciDB utiliza un byte extra adjunto a cada celda que indica un estado NA.

## Datos faltantes en Pandas
La forma en que Pandas maneja los valores faltantes está limitada por su dependencia del paquete NumPy, el cual no tiene un concepto integrado de valores NA para tipos de datos que no son de punto flotante.

Pandas podría haber seguido el ejemplo de R en especificar patrones de bits para cada tipo de dato individual para indicar la nulidad, pero este enfoque resulta bastante engorroso. Mientras que R contiene cuatro tipos de datos básicos, NumPy soporta muchos más: por ejemplo, mientras R tiene un solo tipo de entero, NumPy soporta catorce tipos básicos de enteros si se toman en cuenta las precisiones disponibles, la signatura y la orientación de la codificación. Reservar un patrón de bits específico en todos los tipos disponibles de NumPy conduciría a una cantidad excesiva de sobrecarga en la especialización de diversas operaciones para varios tipos, probablemente requiriendo incluso una nueva versión del paquete NumPy. Además, para los tipos de datos más pequeños (como los enteros de 8 bits), sacrificar un bit para usarlo como máscara reduciría significativamente el rango de valores que puede representar.

NumPy sí tiene soporte para arreglos enmascarados, es decir, arreglos que tienen un arreglo de máscara booleano separado adjunto para marcar los datos como "buenos" o "malos". Pandas podría haber derivado de esto, pero la sobrecarga tanto en almacenamiento, cálculo como en mantenimiento de código hace que sea una opción poco atractiva.

Con estas limitaciones en mente, Pandas optó por usar valores centinela para los datos faltantes, y eligió utilizar dos valores nulos ya existentes en Python: el valor especial de punto flotante NaN y el objeto None de Python. Esta elección tiene algunos efectos secundarios, como veremos, pero en la práctica resulta ser un buen compromiso en la mayoría de los casos de interés.

## Datos numéricos faltantes (NaN) En NumPy
Es un valor de punto flotante reconocido por todos los sistemas que usan el estándar IEEE floating-point representation:

In [None]:
vals = np.array([1, np.nan, 3, 4])
vals.dtype

In [None]:
# Noten que pasa con las ufuncs aplicadas a un np.nan
print(1 + np.nan)
print(0 * np.nan)

In [None]:
# PERO
vals.sum(), vals.max(), vals.min()

In [None]:
# Arreglar ese PERO
np.nansum(vals), np.nanmin(vals), np.nanmax(vals)

## NaN y None en Pandas
En Pandas, tanto NaN como None, pueden ser exactamente lo mismo.

In [None]:
pd.Series([1, np.nan, 2, None])

Para tipos de dato que no contienen valores de centinela se castea al valor centinela np.nan o None dependiendo si es numérico o no.

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None
x

### UPDATE! Ya existe un valor NA entero:

In [None]:
x = pd.Series([1, 2, np.nan, None, pd.NA], dtype="Int64")
x

## Operando con valores nulos

Hay muchas maneras de detectar, remover o remplazar valores nulos en pandas

- isnull(): Generate a boolean mask indicating missing values
- notnull(): Opposite of isnull()
- dropna(): Return a filtered version of the data
- fillna(): Return a copy of the data with missing values filled or imputed

### Detectar valores nulos

In [None]:
data = pd.Series([1, np.nan, 'hello', None])

In [None]:
data.isnull()

In [None]:
# Ya que esto es una mascara podemos:
data[data.notnull()]

## Remover valores nulos

In [None]:
data.dropna() # No es inplace a menos que lo especifiques

Claro que para pandas dataframes existen mas opciones porque hay mas axis..

In [None]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

In [None]:
df.dropna() # Not inplace

In [None]:
df.dropna(axis='columns')

In [None]:
# SE puede usar otro parametro para configurar
df[3] = np.nan
df

In [None]:
df.dropna(axis='columns', how='all')

In [None]:
df.dropna(axis='rows', thresh=3)

### Rellenando valores nulos

In [None]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

In [None]:
data.fillna(0)

In [None]:
# forward-fill
data.fillna(method='ffill')

In [None]:
# back-fill
data.fillna(method='bfill')

In [None]:
# Tambien se puede en el eje 1 (columns) con los dataframes
df

In [None]:
df.fillna(method='ffill', axis = 1)

Por el momento esto es todo lo que deberían de saber tanto de Pandas como de Numpy, pero aún falta hacer cositas. Resuelve los siguientes retos.

- Encuentra cosas más interesantes que agregar y qué información sacar del dataframe que trabajamos o el que tu quieras.
- ¿Cuál es el lenguaje de programación con más ususarios?
- ¿Y el más viejo?
- ¿Cuales son los más jóvenes?

### Extras de Pandas:
- MultiIndexing
- Concat and Append
- Merge and Join
- Aggregation and Grouping
- Pivot Tables
- Vectorized string operations
- Time Series
- eval() and query()

# Visualizaciones básicas con Matplotlib

In [None]:
# Importacion general
import matplotlib.pyplot as plt
plt.style.use('classic') # Usamos los estilos clásicos (los por default están bien también, es simplemente el estilo que quieras)
# Es la interactividad que tenemos dentro de las graficas
%matplotlib inline

## Basics
plt.figure()
plt.plot()

In [None]:
x = np.linspace(0, 10, 100)

fig = plt.figure()
plt.plot(x, np.sin(x), '-')
plt.plot(x, np.cos(x), '--');

In [None]:
# Se pueden guardar
fig.savefig('my_figure.png')

## Multi-Graficas!


In [None]:
plt.figure()  # create a plot figure

# create the first of two panels and set current axis
plt.subplot(2, 1, 1) # (rows, columns, panel number)
plt.plot(x, np.sin(x))

# create the second panel and set current axis
plt.subplot(2, 1, 2)
plt.plot(x, np.cos(x))
plt.show()

## Aproximacion con objetos!

In [None]:
# First create a grid of plots
# ax will be an array of two Axes objects
fig, ax = plt.subplots(2)

# Call plot() method on the appropriate object
ax[0].plot(x, np.sin(x))
ax[1].plot(x, np.cos(x));

## Muchas graficas!

In [None]:
x = np.linspace(0, 10, 1000)

In [None]:
plt.plot(x, x + 0, linestyle='solid')
plt.plot(x, x + 1, linestyle='dashed')
plt.plot(x, x + 2, linestyle='dashdot')
plt.plot(x, x + 3, linestyle='dotted');

# For short, you can use the following codes:
plt.plot(x, x + 4, linestyle='-')  # solid
plt.plot(x, x + 5, linestyle='--') # dashed
plt.plot(x, x + 6, linestyle='-.') # dashdot
plt.plot(x, x + 7, linestyle=':');  # dotted

## Colores

In [None]:
plt.plot(x, np.sin(x - 0), color='blue')        # specify color by name
plt.plot(x, np.sin(x - 1), color='g')           # short color code (rgbcmyk)
plt.plot(x, np.sin(x - 2), color='0.75')        # Grayscale between 0 and 1
plt.plot(x, np.sin(x - 3), color='#FFDD44')     # Hex code (RRGGBB from 00 to FF)
plt.plot(x, np.sin(x - 4), color=(1.0,0.2,0.3)) # RGB tuple, values 0 to 1
plt.plot(x, np.sin(x - 5), color='chartreuse'); # all HTML color names supported

## Labeling

In [None]:
plt.plot(x, np.sin(x))
plt.title("A Sine Curve")
plt.xlabel("x")
plt.ylabel("sin(x)");

In [None]:
plt.plot(x, np.sin(x), '-g', label='sin(x)')
plt.plot(x, np.cos(x), ':b', label='cos(x)')
plt.axis('equal')

plt.legend();

## Scatter plots

In [None]:
plt.style.use('seaborn-v0_8-whitegrid') # Para la cuadricula bonita

In [None]:
x = np.linspace(0, 10, 30)
y = np.sin(x)

plt.plot(x, y, 'o', color='black');

In [None]:
# Configuracion de markers
rng = np.random.RandomState(0)
for marker in ['o', '.', ',', 'x', '+', 'v', '^', '<', '>', 's', 'd']:
    plt.plot(rng.rand(5), rng.rand(5), marker,
             label="marker='{0}'".format(marker))
plt.legend(numpoints=1)
plt.xlim(0, 1.8);

In [None]:
# Configuracion de tamaño
rng = np.random.RandomState(0)
x = rng.randn(100)
y = rng.randn(100)
colors = rng.rand(100)
sizes = 1000 * rng.rand(100)

plt.scatter(x, y, c=colors, s=sizes, alpha=0.3,
            cmap='viridis')
plt.colorbar();  # show color scale

In [None]:
# Carga de datasets y plot inmediato!
from sklearn.datasets import load_iris
iris = load_iris()
features = iris.data.T

plt.scatter(features[0], features[1], alpha=0.2,
            s=100*features[3], c=iris.target, cmap='viridis')
plt.xlabel(iris.feature_names[0])
plt.ylabel(iris.feature_names[1]);

# Ejemplitos

In [None]:
def f(x, y):
    return np.sin(x) ** 10 + np.cos(10 + y * x) * np.cos(x)

x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 40)

X, Y = np.meshgrid(x, y)
Z = f(X, Y)
plt.contour(X, Y, Z, colors='black');

In [None]:
plt.contour(X, Y, Z, 20, cmap='RdGy');

In [None]:
contours = plt.contour(X, Y, Z, 3, colors='black')
plt.clabel(contours, inline=True, fontsize=8)

plt.imshow(Z, extent=[0, 5, 0, 5], origin='lower',
           cmap='RdGy', alpha=0.5)
plt.colorbar();

In [None]:
plt.style.use('seaborn-v0_8-white')

data = np.random.randn(1000)

In [None]:
plt.hist(data);

In [None]:
x1 = np.random.normal(0, 0.8, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(3, 2, 1000)

kwargs = dict(histtype='stepfilled', alpha=0.3, density=True, bins=40)

plt.hist(x1, **kwargs)
plt.hist(x2, **kwargs)
plt.hist(x3, **kwargs);

In [None]:
# Histogramas en 2 dimensiones
mean = [0, 0]
cov = [[1, 1], [1, 2]]
x, y = np.random.multivariate_normal(mean, cov, 10000).T

In [None]:
from scipy.stats import gaussian_kde

# fit an array of size [Ndim, Nsamples]
data = np.vstack([x, y])
kde = gaussian_kde(data)

# evaluate on a regular grid
xgrid = np.linspace(-3.5, 3.5, 40)
ygrid = np.linspace(-6, 6, 40)
Xgrid, Ygrid = np.meshgrid(xgrid, ygrid)
Z = kde.evaluate(np.vstack([Xgrid.ravel(), Ygrid.ravel()]))

# Plot the result as an image
plt.imshow(Z.reshape(Xgrid.shape),
           origin='lower', aspect='auto',
           extent=[-3.5, 3.5, -6, 6],
           cmap='Blues')
cb = plt.colorbar()
cb.set_label("density")


In [None]:
# load images of the digits 0 through 5 and visualize several of them
from sklearn.datasets import load_digits
digits = load_digits(n_class=6)

fig, ax = plt.subplots(8, 8, figsize=(6, 6))
for i, axi in enumerate(ax.flat):
    axi.imshow(digits.images[i], cmap='binary')
    axi.set(xticks=[], yticks=[])

In [None]:
# Colorbars
from sklearn.manifold import Isomap
import matplotlib
iso = Isomap(n_components=2)
projection = iso.fit_transform(digits.data)

In [None]:
# plot the results
plt.scatter(projection[:, 0], projection[:, 1], lw=0.1,
            c=digits.target, cmap=matplotlib.colormaps['cubehelix'])
plt.colorbar(ticks=range(6), label='digit value')
plt.clim(-0.5, 5.5)

In [None]:
# Subplots
# Create some normally distributed data
mean = [0, 0]
cov = [[1, 1], [1, 2]]
x, y = np.random.multivariate_normal(mean, cov, 3000).T

# Set up the axes with gridspec
fig = plt.figure(figsize=(6, 6))
grid = plt.GridSpec(4, 4, hspace=0.2, wspace=0.2)
main_ax = fig.add_subplot(grid[:-1, 1:])
y_hist = fig.add_subplot(grid[:-1, 0], xticklabels=[], sharey=main_ax)
x_hist = fig.add_subplot(grid[-1, 1:], yticklabels=[], sharex=main_ax)

# scatter points on the main axes
main_ax.plot(x, y, 'ok', markersize=3, alpha=0.2)

# histogram on the attached axes
x_hist.hist(x, 40, histtype='stepfilled',
            orientation='vertical', color='gray')
x_hist.invert_yaxis()

y_hist.hist(y, 40, histtype='stepfilled',
            orientation='horizontal', color='gray')
y_hist.invert_xaxis()

In [None]:
# Plots en 3D
def f(x, y):
    return np.sin(np.sqrt(x ** 2 + y ** 2))

x = np.linspace(-6, 6, 30)
y = np.linspace(-6, 6, 30)

X, Y = np.meshgrid(x, y)
Z = f(X, Y)

In [None]:
r = np.linspace(0, 6, 20)
theta = np.linspace(-0.9 * np.pi, 0.8 * np.pi, 40)
r, theta = np.meshgrid(r, theta)

X = r * np.sin(theta)
Y = r * np.cos(theta)
Z = f(X, Y)

ax = plt.axes(projection='3d')
ax.plot_surface(X, Y, Z, rstride=1, cstride=1,
                cmap='viridis', edgecolor='none');

# Seaborn


In [None]:
# Comparacion
import matplotlib.pyplot as plt
plt.style.use('classic')
%matplotlib inline
import numpy as np
import pandas as pd

In [None]:
# Create some data
rng = np.random.RandomState(0)
x = np.linspace(0, 10, 500)
y = np.cumsum(rng.randn(500, 6), 0)

In [None]:
# Plot the data with Matplotlib defaults
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

In [None]:
import seaborn as sns
sns.set()

In [None]:
# Mas cute
plt.plot(x, y)
plt.legend('ABCDEF', ncol=2, loc='upper left');

In [None]:
# Se usa con pandas!
iris = sns.load_dataset("iris")
iris.head()

In [None]:
sns.pairplot(iris, hue='species', height=2.5);

# Extra:
- https://python-graph-gallery.com/
- https://plotly.com/python/

In [None]:
# TAMBIÉN SE PUEDEN IMÁGENES!
# Adapted from astroML: see http://www.astroml.org/book_figures/appendix/fig_broadcast_visual.html
import numpy as np
from matplotlib import pyplot as plt

#------------------------------------------------------------
# Draw a figure and axis with no boundary
fig = plt.figure(figsize=(6, 4.5), facecolor='w')
ax = plt.axes([0, 0, 1, 1], xticks=[], yticks=[], frameon=False)


def draw_cube(ax, xy, size, depth=0.4,
              edges=None, label=None, label_kwargs=None, **kwargs):
    """draw and label a cube.  edges is a list of numbers between
    1 and 12, specifying which of the 12 cube edges to draw"""
    if edges is None:
        edges = range(1, 13)

    x, y = xy

    if 1 in edges:
        ax.plot([x, x + size],
                [y + size, y + size], **kwargs)
    if 2 in edges:
        ax.plot([x + size, x + size],
                [y, y + size], **kwargs)
    if 3 in edges:
        ax.plot([x, x + size],
                [y, y], **kwargs)
    if 4 in edges:
        ax.plot([x, x],
                [y, y + size], **kwargs)

    if 5 in edges:
        ax.plot([x, x + depth],
                [y + size, y + depth + size], **kwargs)
    if 6 in edges:
        ax.plot([x + size, x + size + depth],
                [y + size, y + depth + size], **kwargs)
    if 7 in edges:
        ax.plot([x + size, x + size + depth],
                [y, y + depth], **kwargs)
    if 8 in edges:
        ax.plot([x, x + depth],
                [y, y + depth], **kwargs)

    if 9 in edges:
        ax.plot([x + depth, x + depth + size],
                [y + depth + size, y + depth + size], **kwargs)
    if 10 in edges:
        ax.plot([x + depth + size, x + depth + size],
                [y + depth, y + depth + size], **kwargs)
    if 11 in edges:
        ax.plot([x + depth, x + depth + size],
                [y + depth, y + depth], **kwargs)
    if 12 in edges:
        ax.plot([x + depth, x + depth],
                [y + depth, y + depth + size], **kwargs)

    if label:
        if label_kwargs is None:
            label_kwargs = {}
        ax.text(x + 0.5 * size, y + 0.5 * size, label,
                ha='center', va='center', **label_kwargs)

solid = dict(c='black', ls='-', lw=1,
             label_kwargs=dict(color='k'))
dotted = dict(c='black', ls='-', lw=0.5, alpha=0.5,
              label_kwargs=dict(color='gray'))
depth = 0.3

#------------------------------------------------------------
# Draw top operation: vector plus scalar
draw_cube(ax, (1, 10), 1, depth, [1, 2, 3, 4, 5, 6, 9], '0', **solid)
draw_cube(ax, (2, 10), 1, depth, [1, 2, 3, 6, 9], '1', **solid)
draw_cube(ax, (3, 10), 1, depth, [1, 2, 3, 6, 7, 9, 10], '2', **solid)

draw_cube(ax, (6, 10), 1, depth, [1, 2, 3, 4, 5, 6, 7, 9, 10], '5', **solid)
draw_cube(ax, (7, 10), 1, depth, [1, 2, 3, 6, 7, 9, 10, 11], '5', **dotted)
draw_cube(ax, (8, 10), 1, depth, [1, 2, 3, 6, 7, 9, 10, 11], '5', **dotted)

draw_cube(ax, (12, 10), 1, depth, [1, 2, 3, 4, 5, 6, 9], '5', **solid)
draw_cube(ax, (13, 10), 1, depth, [1, 2, 3, 6, 9], '6', **solid)
draw_cube(ax, (14, 10), 1, depth, [1, 2, 3, 6, 7, 9, 10], '7', **solid)

ax.text(5, 10.5, '+', size=12, ha='center', va='center')
ax.text(10.5, 10.5, '=', size=12, ha='center', va='center')
ax.text(1, 11.5, r'${\tt np.arange(3) + 5}$',
        size=12, ha='left', va='bottom')

#------------------------------------------------------------
# Draw middle operation: matrix plus vector

# first block
draw_cube(ax, (1, 7.5), 1, depth, [1, 2, 3, 4, 5, 6, 9], '1', **solid)
draw_cube(ax, (2, 7.5), 1, depth, [1, 2, 3, 6, 9], '1', **solid)
draw_cube(ax, (3, 7.5), 1, depth, [1, 2, 3, 6, 7, 9, 10], '1', **solid)

draw_cube(ax, (1, 6.5), 1, depth, [2, 3, 4], '1', **solid)
draw_cube(ax, (2, 6.5), 1, depth, [2, 3], '1', **solid)
draw_cube(ax, (3, 6.5), 1, depth, [2, 3, 7, 10], '1', **solid)

draw_cube(ax, (1, 5.5), 1, depth, [2, 3, 4], '1', **solid)
draw_cube(ax, (2, 5.5), 1, depth, [2, 3], '1', **solid)
draw_cube(ax, (3, 5.5), 1, depth, [2, 3, 7, 10], '1', **solid)

# second block
draw_cube(ax, (6, 7.5), 1, depth, [1, 2, 3, 4, 5, 6, 9], '0', **solid)
draw_cube(ax, (7, 7.5), 1, depth, [1, 2, 3, 6, 9], '1', **solid)
draw_cube(ax, (8, 7.5), 1, depth, [1, 2, 3, 6, 7, 9, 10], '2', **solid)

draw_cube(ax, (6, 6.5), 1, depth, range(2, 13), '0', **dotted)
draw_cube(ax, (7, 6.5), 1, depth, [2, 3, 6, 7, 9, 10, 11], '1', **dotted)
draw_cube(ax, (8, 6.5), 1, depth, [2, 3, 6, 7, 9, 10, 11], '2', **dotted)

draw_cube(ax, (6, 5.5), 1, depth, [2, 3, 4, 7, 8, 10, 11, 12], '0', **dotted)
draw_cube(ax, (7, 5.5), 1, depth, [2, 3, 7, 10, 11], '1', **dotted)
draw_cube(ax, (8, 5.5), 1, depth, [2, 3, 7, 10, 11], '2', **dotted)

# third block
draw_cube(ax, (12, 7.5), 1, depth, [1, 2, 3, 4, 5, 6, 9], '1', **solid)
draw_cube(ax, (13, 7.5), 1, depth, [1, 2, 3, 6, 9], '2', **solid)
draw_cube(ax, (14, 7.5), 1, depth, [1, 2, 3, 6, 7, 9, 10], '3', **solid)

draw_cube(ax, (12, 6.5), 1, depth, [2, 3, 4], '1', **solid)
draw_cube(ax, (13, 6.5), 1, depth, [2, 3], '2', **solid)
draw_cube(ax, (14, 6.5), 1, depth, [2, 3, 7, 10], '3', **solid)

draw_cube(ax, (12, 5.5), 1, depth, [2, 3, 4], '1', **solid)
draw_cube(ax, (13, 5.5), 1, depth, [2, 3], '2', **solid)
draw_cube(ax, (14, 5.5), 1, depth, [2, 3, 7, 10], '3', **solid)

ax.text(5, 7.0, '+', size=12, ha='center', va='center')
ax.text(10.5, 7.0, '=', size=12, ha='center', va='center')
ax.text(1, 9.0, r'${\tt np.ones((3,\, 3)) + np.arange(3)}$',
        size=12, ha='left', va='bottom')

#------------------------------------------------------------
# Draw bottom operation: vector plus vector, double broadcast

# first block
draw_cube(ax, (1, 3), 1, depth, [1, 2, 3, 4, 5, 6, 7, 9, 10], '0', **solid)
draw_cube(ax, (1, 2), 1, depth, [2, 3, 4, 7, 10], '1', **solid)
draw_cube(ax, (1, 1), 1, depth, [2, 3, 4, 7, 10], '2', **solid)

draw_cube(ax, (2, 3), 1, depth, [1, 2, 3, 6, 7, 9, 10, 11], '0', **dotted)
draw_cube(ax, (2, 2), 1, depth, [2, 3, 7, 10, 11], '1', **dotted)
draw_cube(ax, (2, 1), 1, depth, [2, 3, 7, 10, 11], '2', **dotted)

draw_cube(ax, (3, 3), 1, depth, [1, 2, 3, 6, 7, 9, 10, 11], '0', **dotted)
draw_cube(ax, (3, 2), 1, depth, [2, 3, 7, 10, 11], '1', **dotted)
draw_cube(ax, (3, 1), 1, depth, [2, 3, 7, 10, 11], '2', **dotted)

# second block
draw_cube(ax, (6, 3), 1, depth, [1, 2, 3, 4, 5, 6, 9], '0', **solid)
draw_cube(ax, (7, 3), 1, depth, [1, 2, 3, 6, 9], '1', **solid)
draw_cube(ax, (8, 3), 1, depth, [1, 2, 3, 6, 7, 9, 10], '2', **solid)

draw_cube(ax, (6, 2), 1, depth, range(2, 13), '0', **dotted)
draw_cube(ax, (7, 2), 1, depth, [2, 3, 6, 7, 9, 10, 11], '1', **dotted)
draw_cube(ax, (8, 2), 1, depth, [2, 3, 6, 7, 9, 10, 11], '2', **dotted)

draw_cube(ax, (6, 1), 1, depth, [2, 3, 4, 7, 8, 10, 11, 12], '0', **dotted)
draw_cube(ax, (7, 1), 1, depth, [2, 3, 7, 10, 11], '1', **dotted)
draw_cube(ax, (8, 1), 1, depth, [2, 3, 7, 10, 11], '2', **dotted)

# third block
draw_cube(ax, (12, 3), 1, depth, [1, 2, 3, 4, 5, 6, 9], '0', **solid)
draw_cube(ax, (13, 3), 1, depth, [1, 2, 3, 6, 9], '1', **solid)
draw_cube(ax, (14, 3), 1, depth, [1, 2, 3, 6, 7, 9, 10], '2', **solid)

draw_cube(ax, (12, 2), 1, depth, [2, 3, 4], '1', **solid)
draw_cube(ax, (13, 2), 1, depth, [2, 3], '2', **solid)
draw_cube(ax, (14, 2), 1, depth, [2, 3, 7, 10], '3', **solid)

draw_cube(ax, (12, 1), 1, depth, [2, 3, 4], '2', **solid)
draw_cube(ax, (13, 1), 1, depth, [2, 3], '3', **solid)
draw_cube(ax, (14, 1), 1, depth, [2, 3, 7, 10], '4', **solid)

ax.text(5, 2.5, '+', size=12, ha='center', va='center')
ax.text(10.5, 2.5, '=', size=12, ha='center', va='center')
ax.text(1, 4.5, r'${\tt np.arange(3).reshape((3,\, 1)) + np.arange(3)}$',
        ha='left', size=12, va='bottom')

ax.set_xlim(0, 16)
ax.set_ylim(0.5, 12.5);

Extra: https://colab.research.google.com/drive/1nQ4ZXIYQX6Mi7pu5drZ16IVC7LezBgES?usp=sharing

> Contenido creado por por **David (Bubu)** (2023). <br>
> **Contacto:** [@bubusaurio_rex](https://www.instagram.com/bubusaurio_rex/)