
<h1>Entendimiento de los datos</h1>


# **Introducción**

Con esta práctica aprenderá a explorar un conjunto de datos por medio de sus medidas estadísticas y gráficas de visualización de datos.
<br><br>
El conjunto de datos con el que trabajará tiene formato CSV (valores separados por comas), contiene la información de 205 automóviles con diferentes características y se encuentra en la nube (https://raw.githubusercontent.com/lvmeninnovations/datasets/main/crispdm/auto.csv).
<br><br>
Para iniciar, cargue los datos siguiendo el mismo procedimiento que hizo en la primera práctica:


In [33]:
# Importar la librería pandas
import pandas as pd

# Leer el conjunto de datos por medio de la URL proporcionada y asignarlo a la variable "df"
other_path = "https://raw.githubusercontent.com/lvmeninnovations/datasets/main/crispdm/auto.csv"
df = pd.read_csv(other_path, header=None)

# Crear la lista de nombres para el encabezado
headers = ["factor-riesgo","perdida-promedio-anual","fabricante","tipo-combustible","aspiracion", "num-puertas","estilo-carroceria",
         "traccion","ubicacion-motor","distancia-entre-ejes", "longitud","anchura","altura","peso-vacio","tipo-motor",
         "num-cilindros", "tamano-motor","sistema-combustible","calibre","carrera","relacion-compresion","caballos-fuerza",
         "pico-rpm","millas_por_galon_ciudad","millas_por_galon_carretera","precio"]
print("encabezados\n", headers)

encabezados
 ['factor-riesgo', 'perdida-promedio-anual', 'fabricante', 'tipo-combustible', 'aspiracion', 'num-puertas', 'estilo-carroceria', 'traccion', 'ubicacion-motor', 'distancia-entre-ejes', 'longitud', 'anchura', 'altura', 'peso-vacio', 'tipo-motor', 'num-cilindros', 'tamano-motor', 'sistema-combustible', 'calibre', 'carrera', 'relacion-compresion', 'caballos-fuerza', 'pico-rpm', 'millas_por_galon_ciudad', 'millas_por_galon_carretera', 'precio']


Verifiquemos nuestro *data frame*:

In [34]:
df.columns = headers
df.head(10)

Unnamed: 0,factor-riesgo,perdida-promedio-anual,fabricante,tipo-combustible,aspiracion,num-puertas,estilo-carroceria,traccion,ubicacion-motor,distancia-entre-ejes,...,tamano-motor,sistema-combustible,calibre,carrera,relacion-compresion,caballos-fuerza,pico-rpm,millas_por_galon_ciudad,millas_por_galon_carretera,precio
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


**Conocimiento básico del Dataset**

Después de leer los datos por medio de un *data frame* con Pandas, es tiempo de explorar el *dataset*. Hay varias formas de obtener información esencial de los datos que nos ayuda acomprender mejor nuestro *dataset*.



## Tipos de datos

Los tipos de dtos que se almacenen en un *data frame* con Pandas son **object**, **float**, **int**, **bool** y **datetime64**. Para conocer mejor los atributos de nuestro conjunto de datos, es importante que sepamos el tipo de dato de cada columna. La línea de código ```dataframe.dtypes``` retorna una Serie con el tipo de dato de cada columna.
<br><br>
*Nota: Un objeto "Series" es un vector con datos indexados.*

In [35]:
# Comprobar el tipo de datos del data frame "df" por medio de .dtypes
print(df.dtypes)

factor-riesgo                   int64
perdida-promedio-anual         object
fabricante                     object
tipo-combustible               object
aspiracion                     object
num-puertas                    object
estilo-carroceria              object
traccion                       object
ubicacion-motor                object
distancia-entre-ejes          float64
longitud                      float64
anchura                       float64
altura                        float64
peso-vacio                      int64
tipo-motor                     object
num-cilindros                  object
tamano-motor                    int64
sistema-combustible            object
calibre                        object
carrera                        object
relacion-compresion           float64
caballos-fuerza                object
pico-rpm                       object
millas_por_galon_ciudad         int64
millas_por_galon_carretera      int64
precio                         object
dtype: objec

Si ejecutó el código anterior, pudo ver claramente que el tipo de datos de "factor-riesgo" y "peso-vacio" es ```int64```,  el de "perdida-promedio-anual" es ```object```, el de "distancia-entre-ejes" es ```float64```, etc.

## Descripción

Si queremos obtener un resumen estadístico de cada columna, como por ejemplo el conteo, el valor medio, la desviación estándar, etc., debemos utilizar el método ```dataframe.describe()```. Este método proporciona varias estadísticas de resumen, excluyendo los valores no númericos (*NaN: Not a Number*)

In [36]:
# Obtener el resumen estadístico de las columnas de tipo numérico
df.describe()

Unnamed: 0,factor-riesgo,distancia-entre-ejes,longitud,anchura,altura,peso-vacio,tamano-motor,relacion-compresion,millas_por_galon_ciudad,millas_por_galon_carretera
count,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0
mean,0.834146,98.756585,174.049268,65.907805,53.724878,2555.565854,126.907317,10.142537,25.219512,30.75122
std,1.245307,6.021776,12.337289,2.145204,2.443522,520.680204,41.642693,3.97204,6.542142,6.886443
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.3,64.1,52.0,2145.0,97.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.1,66.9,55.5,2935.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.3,59.8,4066.0,326.0,23.0,49.0,54.0


La línea de código anterior nos muestra el resumen estadístico de todos las columnas de tipo numérico (int, float). Por ejemplo, el atributo "factor-riesgo" tiene 205 valores, su media es 0,83, la desviación estándar es 1,25, el valor mínimo es -2, el percentil 25 es 0, el percentil 50 es 1, el percentil 75 es 2 y el valor máximo es 3.
<br><br>
Sin embargo, ¿qué pasa si quisiéramos verificar todas las columnas incluyendo aquellas de tipo *object*? Para esto, podemos adicionar el argumento ```include = "all"```dentro del paréntesis. Veamos:

In [37]:
# Obtener el resumen estadístico de todas las columnas de "df"
df.describe(include = "all")

Unnamed: 0,factor-riesgo,perdida-promedio-anual,fabricante,tipo-combustible,aspiracion,num-puertas,estilo-carroceria,traccion,ubicacion-motor,distancia-entre-ejes,...,tamano-motor,sistema-combustible,calibre,carrera,relacion-compresion,caballos-fuerza,pico-rpm,millas_por_galon_ciudad,millas_por_galon_carretera,precio
count,205.0,205,205,205,205,205,205,205,205,205.0,...,205.0,205,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205
unique,,52,22,2,2,3,5,3,2,,...,,8,39.0,37.0,,60.0,24.0,,,187
top,,?,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,?
freq,,41,32,185,168,114,96,120,202,,...,,94,23.0,20.0,,19.0,37.0,,,4
mean,0.834146,,,,,,,,,98.756585,...,126.907317,,,,10.142537,,,25.219512,30.75122,
std,1.245307,,,,,,,,,6.021776,...,41.642693,,,,3.97204,,,6.542142,6.886443,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,97.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,141.0,,,,9.4,,,30.0,34.0,


Si ejecutó el código anterior, pudo darse cuenta que éste le proporcionó el resumen estadístico de todas las columnas, incluyendo los atributos de tipo *object*. Ahora podemos ver cuántos valores únicos existen, cuál es el valor *top* (la moda), y la frecuencia del valor *top* de las columnas de tipo *object*. Por otro lado, algunos valores de la tabla se muestran como "NaN", esto significa que esos valores no están disponibles para la columna correspondiente.

## Ejercicio 1

Usted puede seleccionar las columnas del *data frame* que desee, indicando el nombre de cada columna de la siguiente manera: ```dataframe[[' columna 1 ',columna 2', 'columna 3']]```, donde "columna" es el nombre de la columna. Luego, puede aplicar el método ```.describe()``` para obtener las estadísticas de esas columnas. Su código quedaría de la forma: ```dataframe[[' columna 1 ',columna 2', 'columna 3'] ].describe()```
<br><br>
**Aplique el método ```.describe()``` a las columnas 'longitud' y 'relacion-compresion'**. Ingrese sus líneas de código a continuación:

In [38]:
# Escriba su código a continuación y presione Shift + Enter para ejecutar


## Información
Otro método que puede utilizar para explorar su conjunto de datos es ```dataframe.info```. Èste proporciona un resumen consiso de su *data frame*.

In [39]:
# Ver la información de "df"
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   factor-riesgo               205 non-null    int64  
 1   perdida-promedio-anual      205 non-null    object 
 2   fabricante                  205 non-null    object 
 3   tipo-combustible            205 non-null    object 
 4   aspiracion                  205 non-null    object 
 5   num-puertas                 205 non-null    object 
 6   estilo-carroceria           205 non-null    object 
 7   traccion                    205 non-null    object 
 8   ubicacion-motor             205 non-null    object 
 9   distancia-entre-ejes        205 non-null    float64
 10  longitud                    205 non-null    float64
 11  anchura                     205 non-null    float64
 12  altura                      205 non-null    float64
 13  peso-vacio                  205 non

El código anterior no solo nos muestra la información de las filas superiores e inferiores de nuestro *data frame*, también nos muestra que todo el conjunto de datos tiene 205 instancias o filas y 26 atributos o columnas en total.

# Visualización de los datos

Ya hemos visto cómo explorar las características estadísticas de un *dataset*. Ahora, es tiempo de profundizar más y obtener una vista detallada de cada columna por medio de la visualización de datos.
<br><br>
La visualización de datos nos permite comprenderlos e interpretarlos fácilmente, y por lo tanto, hacer un análisis más efectivo que el que podemos hacer si sólo tuvieramos los datos estadísticos.
<br><br>
Existen diversos paquetes de Python para visualización de datos, por ejemplo, ```matplotlib```, ```seaborn``` o ```Bokeh```. En comparación con ellos, ```altair``` es relativamente nuevo, pero su comunidad de usuarios está creciendo rápidamente gracias a que maneja una sintaxis sencilla.
<br><br>
Google Colab tiene la librería Altair incorporada, de modo que, podrá importarla sin realizar instalaciones extra, tal y como se muestra en el siguiente código.

In [40]:
# Importar la librería altair
import altair as alt

## Explorando el API Altair

Para crear un gráfico con esta librería, primero debe instanciar un objeto Chart desde ```altair``` con el ```data frame``` como parámetro de entrada. Luego, debe especificar el tipo de gráfico que desea trazar. En nuestro ejemplo trazaremos un diagrama de dispersión, por lo que utilizamos el método ```mark_circle()```. Finalmente, por medio del método ```encode()``` se especifican las columnas que se mostrarán en los ejes x,y.
<br><br>
Veamos el gráfico de *millas_por_galon_carretera vs tamano-motor* (*millas por galón en carretera* vs *tamaño de motor*).

In [41]:
# Intanciar un objeto Chart con el dataframe df como parámetro
base = alt.Chart(df)

# Llamar el método mark_circle() para especificar que va a trazar un diagrama de dispersión (scatter plot)
chart = base.mark_circle()

# Especificar el nombre de las columnas:
chart.encode(x='millas_por_galon_carretera', y='tamano-motor')

Hemos trazado un diagrama de dispersión con varias líneas de código. Altair ofrece la opción de combinar todos sus métodos en una sola línea de código:

In [42]:
alt.Chart(df).mark_circle().encode(x='millas_por_galon_carretera', y='tamano-motor')

Podemos ver que obtuvimos el mismo resultado que antes. Este gráfico nos muestra claramente que a mayor tamaño de motor habrá un mayor consumo de combustible pues se disminuye el valor de millas por galón.
<br><br>
Ahora, supongamos que queremos visualizar la misma gráfica mientras agregamos la información del fabricante. Una forma fácil de hacer esto es usar el parámetro ```color``` del método ```encode()```. Esto coloreará todos los puntos de datos de acuerdo con el valor de la columna *make*.

In [43]:
alt.Chart(df).mark_circle().encode(x='millas_por_galon_carretera', y='tamano-motor', color='fabricante')

Agregamos la información de la columna *make* al gráfico, pero como podemos ver, hay demasiados valores y es difícil diferenciar entre fabricantes: hay muchos colores similares por lo que es difícil saber qué fabricantes están representando.
<br><br>
Con altair, podemos agregar fácilmente algunas interacciones en el gráfico para mostrar más información; solo necesitamos usar el parámetro ```tooltip``` dentro del método ```encode()``` y especificar la lista de columnas que se mostrarán. Luego debemos llamar al método ```interactive()``` para que todo sea interactivo.

In [44]:
alt.Chart(df).mark_circle()\
   .encode(x='millas_por_galon_carretera', y='tamano-motor', color='fabricante', \
           tooltip=['fabricante','tipo-combustible','num-puertas',\
                    'estilo-carroceria','ubicacion-motor']).interactive()

Si pasamos el cursor sobre cualquier muestra podemos ver la información que quisimos especificar en el *tooltip*. También podrá acercar o alejar los puntos para analizarlos mejor.

## Histograma para atributos numéricos

Para los tipos de datos numéricos, generalmente se utiliza un histograma para observar la **distribución de un atributo** del *dataset*. El eje x de un histograma, muestra los posibles valores de la columna y el eje y traza el número de instancias que tienen cada determinado valor. Debido a que el número de valores posibles puede ser muy alto para una variable numérica (potencialmente infinito), es mejor agrupar los valores por trozos. Por ejemplo, podemos agrupar los precios en rangos de 100.
<br><br>
Veamos esto con nuestro *dataset*. Trazaremos un histograma para el atributo *precio* usando los métodos ```mark_bar()``` y ```encode()``` con los siguientes parámetros:

* **```alt.X("precio:Q", bin=True)```:** De esta manera se pueden ajustar los parámetros para el eje x. Aquí, le estamos diciendo a altair que utilice la columna *precio* como eje. ```:Q``` especifica que esta columna tiene valores cuantitativos (numéricos) y ```bin=True``` fuerza el agrupamiento en trozos.
* **```y='count()'```:** Se usa para calcular el número de observaciones y trazarlas en el eje y.

In [45]:
alt.Chart(df).mark_bar()\
   .encode(alt.X("precio:Q", bin=True), \
           y='count()')

## Ejercicio 2

Por defecto, en el ejemplo anterior, altair agrupa los precios en rangos de 5mil: 0 a 5000, luego 5000 a 10000, y así sucesivamente.
<br><br>
Para obtener una mejor visualización de este parámetro, Usted puede especificar el valor del rango con el código ```alt.Bin(step=n)``` como el valor establecido para ```bin```, donde *n* será el rango deseado.
<br><br>
**Grafique el histograma para el atributo precio agrupando los precios en rangos de 1000 y detallando el color del fabricante**. Ingrese sus líneas de código a continuación:

In [46]:
# Escriba su código a continuación y presione Shift + Enter para ejecutar


**SOLUCIÓN DEL EJERCICIO:**

Haga doble clic **aquí** para ver la solución del Ejercicio 2.

<!-- La respuesta es la siguiente:

alt.Chart(df).mark_bar()\
   .encode(alt.X("precio:Q", bin=alt.Bin(step=1000)), \
           y='count()', color='fabricante')

-->

## Diagrama de barras para atributos categóricos

Para trazar la distribución de variables categóricas podemos utilizar un gráfico de barras simple. Esto es similar a trazar un histograma pero sin el parámetro ```bin```.
<br><br>
Grafiquemos el diagrama de barras para el parámetro *num-cilindros* y veamos el número de automóviles según el número de cilindros.

In [47]:
alt.Chart(df).mark_bar()\
   .encode(x='num-cilindros',y='count()')

## Diagramas de caja (Boxplots)

Un diagrama de caja se utiliza para mostrar la distribución de una variable en función de sus cuartiles. Los cuartiles son los valores que dividen un conjunto de datos en cuartos. Cada cuarto contiene exactamente un 25% del número de datos.
<br><br>
Por ejemplo, si tenemos el siguiente conjunto de números *{6, 5, 4, 5, 2, 16, 8}*, debemos ordenarlos ascendentemente para hallar sus cuartiles, y una vez ordenados buscamos las posiciones de los números que dividen el conjunto en cuartos:
<p><img height="80px" src="https://drive.google.com/uc?id=1QveAoLPchEBDBWF3N14JkseshY3xQG37"align="center" hspace="10px" vspace="0px"></p>

Por lo tanto, el primer cuartil (conocido como Q1) es 4, el segundo (Q2) es 5 que también es la mediana, y el tercer cuartil (Q3) es 8.
<br><br>
Una gráfica de caja mostrará estos cuartiles, pero también información adicional, como la siguiente:
* El rango intercuartil (o IQR), que corresponde a Q3 - Q1
* El valor más bajo, que corresponde a Q1 - (1.5 * IQR)
* El valor más alto, que corresponde a Q3 + (1.5 * IQR)
* Los **valores atípicos (outliers)**, es decir, cualquier punto por fuera de los puntos más bajo y más alto:

<p><img height="400px" src="https://drive.google.com/uc?id=1iu6AzMbb_wAIcYeVMI1rptd8QwiyBnw0"align="center" hspace="10px" vspace="0px"></p>

Con un diagrama de caja, es muy fácil ver el punto central (mediana), donde caen el 50% de los datos, así como los valores atípicos. Otro beneficio de utilizar un diagrama de caja es graficar la distribución de variables categóricas contra una variable numérica y compararlas. Veamos un ejemplo con los atributos *num-cilindros* y *precio* utilizando el método ```mark_boxplot()```.

In [48]:
alt.Chart(df).mark_boxplot().encode(x='num-cilindros:O', y='precio:Q')

## Ejercicio 3

**Genere el diagrama de caja con los atributos** ***fabricante*** **y** ***precio*** **utilizando el método mark_boxplot()**. Ingrese sus líneas de código a continuación:

In [49]:
# Escriba su código a continuación y presione Shift + Enter para ejecutar


**SOLUCIÓN DEL EJERCICIO:**

Haga doble clic **aquí** para ver la solución del Ejercicio 3.

<!-- La respuesta es la siguiente:

alt.Chart(df).mark_boxplot().encode(x='fabricante:O', y='precio:Q')

-->

Si realizó el ejercicio, pudo ver cómo se distribuye el atributo *precio* para los diferentes fabricantes del conjunto de datos. También, que algunos fabricantes tienen valores atípicos en sus precios, como por ejemplo Porche, Toyota, y Honda. Además, podemos concluir que los valores más altos los maneja Jaguar, Mercedes Benz, y Porche, mientras que los automóviles más baratos los fabrica Chevrolet.

## Mapa de calor (Heatmap)

El método más utilizado para hallar la correlación entre atributos numéricos es el **coeficiente de correlación de Pearson**. Otros dos métodos conocidos son el **coeficiente de correlación de rango de Kendall** y el **coeficiente de correlación de Spearman**. Pandas nos permite obtener la correlación entre atributos con cualquiera de estos tres coeficientes por medio de la función ```df.corr()```. Podemos utilizar el parámetro ```method``` para indicar el coeficiente a utilizar.

In [52]:
# Obtener la correlación entre variables por medio del coeficiente de correlación de Pearson
correlation = df.corr(method='pearson',numeric_only=True).reset_index().melt('index')
correlation.columns = ['variable1', 'variable2', 'indice-correlation']

correlation.head()


Unnamed: 0,variable1,variable2,indice-correlation
0,factor-riesgo,factor-riesgo,1.0
1,distancia-entre-ejes,factor-riesgo,-0.531954
2,longitud,factor-riesgo,-0.357612
3,anchura,factor-riesgo,-0.232919
4,altura,factor-riesgo,-0.541038


Un mapa de calor nos permite visualizar, de manera más clara, el nivel de correlación que hallamos con el trozo de código anterior. El siguiente código despliega el gráfico utilizando la librería ```altair```.

In [53]:
# Grafica del mapa de calor
chart = alt.Chart(correlation).mark_rect().encode(
    x=alt.X('variable1', title=None),
    y=alt.Y('variable2', title=None),
    # El color de cada casilla dependerá del índice de correlación hallado
    color=alt.Color('indice-correlation'),
).properties(
    # Establecemos el tamaño del gráfico
    width=alt.Step(40),
    height=alt.Step(40)
)

# Personalizamos el tamaño del texto de las casillas internas
chart += chart.mark_text(size=10).encode(
    # Establecemos el formato de la barra de temperatura
    text=alt.Text('indice-correlation', format=".2f"),
    color=alt.condition(
        "datum.correlation > 0.5",
        alt.value('white'),
        alt.value('black')
    )
)

# Desplegamos el gráfico
chart

## Ejercicio 4

**Genere el mapa de calor utilizando el coeficiente de correlación de Spearman. Establezca el tamaño del gráfico en 60 x 60 y un tamaño de letra de 20 para las casillas** Ingrese sus líneas de código a continuación:

In [None]:
# Escriba su código a continuación y presione Shift + Enter para ejecutar


**SOLUCIÓN DEL EJERCICIO:**

Haga doble clic **aquí** para ver la solución del Ejercicio 3.

<!-- La respuesta es la siguiente:

# Obtener la correlación entre variables por medio del coeficiente de correlación de Spearman
correlation = df.corr(method='spearman').reset_index().melt('index')
correlation.columns = ['variable1', 'variable2', 'indice-correlation']

# Grafica del mapa de calor
chart = alt.Chart(correlation).mark_rect().encode(
    x=alt.X('variable1', title=None),
    y=alt.Y('variable2', title=None),
    # El color de cada casilla dependerá del índice de correlación hallado
    color=alt.Color('indice-correlation'),
).properties(
    # Establecemos el tamaño del gráfico
    width=alt.Step(60),
    height=alt.Step(60)
)

# Personalizamos el tamaño del texto de las casillas internas
chart += chart.mark_text(size=20).encode(
    # Establecemos el formato de la barra de temperatura
    text=alt.Text('indice-correlation', format=".2f"),
    color=alt.condition(
        "datum.correlation > 0.5",
        alt.value('white'),
        alt.value('black')
    )
)

# Desplegamos el gráfico
chart

-->

<h3>Acerca de los autores:</h3>

Este cuaderno se hizo con base en el diseñado por <a href="https://www.linkedin.com/in/mahdi-noorian-58219234/" target="_blank">Mahdi Noorian PhD</a>, <a href="https://www.linkedin.com/in/joseph-s-50398b136/" target="_blank">Joseph Santarcangelo</a>, Bahare Talayian, Eric Xiao, Steven Dong, Parizad, Hima Vsudevan, <a href="https://www.linkedin.com/in/fiorellawever/" target="_blank">Fiorella Wenver</a> and <a href=" https://www.linkedin.com/in/yi-leng-yao-84451275/ " target="_blank" >Yi Yao</a>.

---

Utilizamos y modificamos el cuaderno original, acogiéndonos a la Licencia <a href="https://cognitiveclass.ai/mit-license/">MIT License</a>.