<img src = "https://drive.google.com/uc?export=view&id=1WaM3ez8iLaUk3VyWNYZQuifnvbEX4vbK" alt = "Encabezado MLDS" width = "100%">  </img>



# **Entendimiento de los datos con *pandas* II**
---
<img src = "https://pandas.pydata.org/static/img/pandas.svg" alt = "pandas Logo" width = "70%">  </img>



En este material se explorarán las tareas de entendimiento de datos basadas en la descripción de conjuntos de datos. Para esto, se toma como referencia la exploración de conjuntos de datos mediante **estadística descriptiva** y **visualización básica de datos**, como complemento de las utilidades generales de descripción de *pandas*.

In [None]:
import numpy as np
import pandas as pd

In [None]:
!python --version
print('NumPy', np.__version__)
print('pandas', pd.__version__)

Este material fue realizado con las siguientes versiones:

- Python 3.10.6
- NumPy 1.22.4
- pandas 1.5.3


## **5. Descripciones generales**
---

Ya tenemos a nuestra disposición herramientas para cargar y generar conjuntos de datos tabulares en forma de objetos *DataFrame* y *Series*. Con ellos podemos realizar muchas tareas, pero antes de comenzar se recomienda siempre realizar un proceso de **exploración de los datos**. Esto se refiere al proceso que nos permite conocer y entender los datos de forma preliminar. Los atributos de los objetos son una herramienta maravillosa para empezar con esta tarea, pero son insuficientes para conocer el detalle de los datos, sobre todo en conjuntos grandes.

*Pandas* ofrece herramientas para realizar esta exploración previa. Inicialmente, presentaremos las herramientas más generales y comunes en este proceso.

> El resto de este material se realizará tomando como referencia el [*dataset* de *Kaggle*](https://www.kaggle.com/crawford/80-cereals) correspondiente a la información nutricional de un listado de 80 cereales.

In [None]:
url = 'https://drive.google.com/uc?export=download&id=1cVDBakqy6tSwCwgzAtf08hNvjHk8a6hv'

df = pd.read_csv(url)

* **`[df|series].info()`:** El método **`.info()`** se ajusta perfectamente a esta descripción pues permite generar un vistazo inicial a la información general del conjunto de datos de interés. Entre esta información se incluyen:

  *  Nombre de las columnas.
  *  Tipos de dato (**`dtypes`**) por columna.
  *  Número de columnas y de filas.
  *  Número de valores faltantes por columna.
  *  Uso de memoria.



In [None]:
df.info()

* **`[df|series].describe()`:** El método **`.describe()`** realiza un resumen de las estadísticas descriptivas más comunes por columna. La **estadística descriptiva** se verá en la siguiente sección. Estos son:

  *  Conteo de valores no nulos. **`count`**
  *  Media aritmética. **`mean`**
  *  Desviación estándar. **`std`**
  *  Máximo y mínimo. **`max`** | **`min`**
  *  Cuartiles 1, 2 y 3. **`25%`** | **`50%`** | **`75%`**



In [None]:
df.describe()

* **`[df|series].head(n)` | `[df|series].tail(n)`:** Cuando se realiza una exploración inicial, no es conveniente imprimir en pantalla todos los registros de un conjunto de datos. Para esto se dispone de las funciones **`head(n)`** y **`tail(n)`**, que retornan un subconjunto de los primeros (para **`head`**) o últimos (para **`tail`**) $n$ registros de un objeto *DataFrame* o *Series*. Por defecto, si no se pasa el argumento **`n`** se imprimen los primeros/últimos $5$ registros.


In [None]:
df.head()

In [None]:
df.head(2)

In [None]:
df.tail()

In [None]:
df.tail(10)

* **`[df|series].sample(n)`:** Similar a los métodos **`head`** y **`tail`**, el método **`sample(n)`** genera un subconjunto de entradas aleatorias de los datos de tamaño **n**.


In [None]:
df.sample(5)
# Si ejecutamos esta celda varias veces, cada vez obtendremos una muestra diferente

In [None]:
# Los números aleatorios son generados con el módulo random de NumPy.
np.random.seed(123) # Cambiar la semilla afecta también a las funciones aleatorias de pandas.
# Si plantamos una semilla, tendremos el mismo resultado al ejecutar esta celda varias veces.
# Esto es muy útil para garantizar la reproducibilidad de resultados en algunos experimentos.
df.sample(6)

* **`[df|series].nlargest(n, columns)` | `[df|series].nsmallest(n, columns)`:** Además de las funciones mencionadas anteriormente, *pandas* ofrece los métodos **`nlargest`** y **`nsmallest`**, que permite obtener un subconjunto de los datos cuyos valores en determinada columna sean los mayores y menores, respectivamente. Se tiene que definir las columnas sobre las que realizar el cálculo.


In [None]:
df.nlargest(3, 'Calories') # Sobre una única columna.

In [None]:
df.nsmallest(5, ['Calories', 'Sodium']) # Las columnas pueden ser una lista de índices.

* **`[df|series].idxmax(n)` | `[df|series].idxmin(n)`:** *Pandas* hereda muchos de los métodos de *NumPy* como **`max`** y **`min`**, que se discutirán más adelante en la sección de estadística descriptiva. Los equivalentes a los métodos **`argmax`** y **`argmin`** de *NumPy* en *pandas* son los métodos **`idxmax`** y **`idxmin`** que extienden su utilidad al permitir retornar el índice de *pandas*, que no es necesariamente numérico como en *NumPy*.


In [None]:
df['Calories'].idxmax() #Posición de los máximos por columna

In [None]:
df['Sugars'].idxmin()  #Etiqueta del índice con el valor mínimo de la serie.

* **`[df|series].unique()` | `[df|series].nunique()` | `[df|series].value_counts()`:** Cuando se trata con variables categóricas, es necesario encontrar información acerca de las categorías posibles que puede tomar una variable. Para esto *pandas* dispone de métodos para identificar un arreglo con estas categorías (**`unique`**), identificar el número total de categorías posibles (**`nunique`**) o evaluar el conteo de valores por cada categoría (**`value_counts`**).


In [None]:
df['Manufacturer'].unique()

In [None]:
df['Manufacturer'].nunique()

In [None]:
df['Manufacturer'].value_counts()

## **6. Estadística descriptiva**
---
La **estadística descriptiva** es el área de la estadística que se encarga de organizar, presentar y describir los datos de forma cuantitativa con el propósito de facilitar su uso. Con ella se cálculan medidas a partir de los datos, que buscan representar numéricamente características generales de los datos.

*Pandas* ofrece la posibilidad de calcular algunas de estas estadísticas de manera directa, a partir de objetos *DataFrame* y *Series*. A continuación presentamos las funciones principales de medidas de estadística descriptiva que abarca *pandas*.


### **6.1. Medidas de posición**
---

Las medidas de posición son medidas estadísticas que caracterizan la posición y distribución general de los datos de manera cuantitativa. Consideramos dos categorías principales: medidas de tendencia central y cuantiles.

#### **6.1.1. Medidas de tendencia central**
---

Estas medidas representan características generales y centrales en los datos. Las medidas de tendencia central más importantes, y aquellas que son descritas en conjunto usualmente son:
* **Media aritmética o promedio.** Valor medio del conjunto, resultado de la suma de todos los valores dividido entre la cantidad total. No está definido en variables ordinales.
> **`.mean()`**
* **Moda.** Elemento o elementos que más se repiten en el conjunto.
> **`.mode()`**
* **Mediana.** Elemento central en el conjunto ordenado.
>**`.median()`**

> Nota: `numeric_only` indica que solo se tenga en cuenta las columnas con valores numéricos

In [None]:
df.mean(numeric_only=True)   #Media aritmética

In [None]:
df.median(numeric_only=True) #Mediana

In [None]:
df['Calories'].mode()   #Moda. Pueden ser varios valores.

#### **6.1.2. Cuantiles**
---
 Los cuantiles son medidas de posición no central que permiten ilustrar la división de una distribución entre un número de grupos equidistantes de muestras. Los cuartiles, los deciles y los percentiles son los cuantiles más comunes. Otra medida importante es el rango intercuartílico, que es la diferencia entre los cuartiles $1$ y $3$, es decir, el área central que contiene el $50\%$ de los datos.

  Es posible calcularlos con la función:

  > **`.quantile(q)`**

  El argumento **`q`** es la posición, entre 0 y 1, del cuantil o cuantiles a calcular.

In [None]:
df['Potassium'].quantile(0.5) #Equivale a la mediana

In [None]:
df['Potassium'].quantile([0.25, 0.5, 0.75]) # Calcular varios cuantiles en un solo llamado.

### **6.2. Medidas de forma**
---

Otro tipo de medida es aquella que busca describir numéricamente la forma de una distribución. Si se graficara la distribución de los datos ordenados (como se verá en la siguiente sección) se podría identificar patrones en la forma de la función que describen, significando concentraciones de datos comunes o tendencias.

#### **6.2.1. Curtosis**
---
 La curtosis es una medida cuantitativa que representa la forma de una distribución y, en particular, de su apuntamiento y el grosor de sus picos, que refleja la concentración de los valores cerca de la media.
Al igual que antes, es posible calcularlo directamente al llamar el siguiente método:

  > **`.kurt()`** | **`.kurtosis()`**

In [None]:
df['Fat'].kurt()

In [None]:
df['Fat'].kurtosis() # Las dos funciones son equivalentes.

#### **6.2.2. Asimetría o *skewness***
---
 La asimetría o *skewness* es la medida que representa la concentración o sesgo de los datos centrales de una distribución en una dirección particular. Está estrechamente relacionada con el orden de las medidas de tendencia central. Si los valores se concentran a la izquierda de la media se considera una asimetría **positiva**; y si se concentran a la derecha, se considera una asimetría **negativa**. En datos simétricos, el valor de la medida de asimetría es cero.

  > **`.skew()`**


In [None]:
#Las calorías parecen estar concentradas en valores altos, cercanos al máximo.

df['Calories'].skew()

### **6.3. Medidas de dispersión**
---

Las medidas de dispersión son medidas que reflejan la distancia media de los valores de las medidas de tendencia central como la media aritmética. Si la dispersión de los valores es alta, los valores calculados de las medidas de tendencia central no pueden caracterizar correctamente, por sí solos, a todo el conjunto.

#### **6.3.1. Desviación estándar y varianza**
---
 La desviación estándar y la varianza son las medidas principales de dispersión. Representan la variación o distancia de los datos de una distribución respecto a su media aritmética. La varianza es el cuadrado de la desviación estándar, que es ampliamente usada en el análisis de datos junto a la media.

  Se pueden calcular directamente con los siguientes métodos:

  **Varianza:**
  > **`.var()`**

  **Desviación estándar:**
  > **`.std()`**

In [None]:
df.std(numeric_only=True)

In [None]:
df.var(numeric_only=True)

In [None]:
df['Sodium'].std() ** 2 # La varianza es el cuadrado de la desviación estándar.

#### **6.3.2. Rango, máximo y mínimo**
---
 Otra forma de representar la dispersión de un conjunto de datos es considerando sus valores extremos. Para esto, se suele calcular la diferencia entre el valor máximo y el valor mínimo. Esta medida se llama **rango** y su magnitud refleja de cierta manera la dispersión de los datos. Este rango es similar al rango intercuartílico, que es más recomendado cuando los valores extremos pueden contener valores atípicos.

  El rango no se calcula directamente con un método en *pandas*, pero puede calcularse fácilmente con el mínimo y máximo de un conjunto de datos.

  **Mínimo:**
  > **`.min()`**

  **Máximo:**
  > **`.min()`**

Estas medidas son heredadas de *NumPy*.

In [None]:
df['Calories'].min()

In [None]:
df['Calories'].max()

In [None]:
#Rango. Calculado a partir del máximo y mínimo.
df['Calories'].max() - df['Calories'].min()

Todas las funciones descritas están disponibles tanto para objetos *DataFrame*, *Series* y *GroupBy*. Son muy útiles para realizar operaciones de agregación en objetos agrupados.

In [None]:
df.groupby('Manufacturer').mean(numeric_only=True)

In [None]:
df.groupby('Manufacturer').describe()

In [None]:
df.groupby('Manufacturer').count() #Este argumento permite contar el número de apariciones de cada valor, similar a value_counts.

In [None]:
#La desviación estándar no está definida si hay menos de dos elementos en el conjunto.
df.groupby('Manufacturer').std(numeric_only=True)

### **6.4. Medidas multivariadas**
---

Las medidas descritas hasta el momento solo son calculadas independientemente en cada variable. Es así, que al evaluar estos métodos en objetos *DataFrame* se genera una serie con el valor calculado por cada columna o variable.

Para sacar un mejor provecho de las capacidades computacionales de *pandas* se consideran métodos y herramientas matemáticas para calcular medidas que caractericen la relación entre dos o más variables, representadas como las columnas de un *DataFrame*.

#### **6.4.1. Correlación y covarianza**
---

Una manera de caracterizar numéricamente relaciones entre los datos es mediante las medidas multivariadas de la **covarianza** y de los **coeficientes de correlación**. Estas, representan la dependencia y variación conjunta de dos variables numéricas continuas. Son importantes para identificar relaciones ocultas entre características de los datos de interés.

  Se calculan con los siguientes métodos:

  **Covarianza:**

  > **`.cov()`**

  **Coeficientes de correlación**

  > **`.corr(method)`**

  El argumento **`method`** define el tipo de coeficiente que se desea calcular.

> **Nota:** Los coeficientes de correlación se explorarán en detalle en la **Unidad 3**.

In [None]:
df.cov(numeric_only=True) # Matriz de covarianza entre cada variable.

In [None]:
df.corr(numeric_only=True) # Matriz de correlación entre cada variable.

#### **6.4.2. Tablas de contingencia**
---
 Las tablas de contingencia son un método más tradicional usado para representar la relación entre dos variables, comúnmente, cualitativas o categóricas. En esta tabla se caracterizan los conjuntos que comparten propiedades con cálculos como la frecuencia o la media aritmética.

  Se calcula con el método:

  > **`pd.crosstab(index, columns, ...)`**


Por defecto se usa la frecuencia. Es decir, la cantidad de registros cuyo valor corresponda a ambas categorías. El argumento **`margins`** permite calcular un resumen general por filas y columnas.

In [None]:
df["Manufacturer"].value_counts()

In [None]:
df.loc[df["Manufacturer"] == "American Home Food Products",["Manufacturer", "Calories"]]

In [None]:
pd.crosstab(df['Manufacturer'], df['Calories'], margins = True)

También se pueden definir funciones de agregación para las categorías que correspondan. Una función de agregación es un cálculo proveniente de todos los datos, como el máximo, la suma o el producto. Se específica con una función en el argumento **`aggfunc`**. Cuando se define, se tiene que definir la variable sobre la cual hacer la agregación en el argumento **`values`**.

In [None]:
pd.crosstab(df['Manufacturer'], df['Calories'],
            margins = True,
            aggfunc = np.mean, #Función de agregación. En este caso se busca la media aritmética.
            values = df['Vitamins and Minerals'] #Variable (o serie) sobre la cual evaluar la agregación.
            )

#Si no hay parejas que cumplan ambas condiciones, el valor es NaN

En este caso, para las parejas de elementos que no tenían coincidencias no era posible calcular la media (el promedio de un conjunto vacío no está definido) por lo que *pandas* y *NumPy* asignan el valor **NaN** en estas celdas. Estos valores no son tenidos en cuenta en el cálculo del promedio en los márgenes.

Otro tipo de tabla de contingencia es el creado a partir de **tablas pivote**. Este es un método muy similar al descrito previamente. Mientras que el método **`crosstab`** recibe como entrada dos o tres series del mismo tamaño, en las que se calcula correspondencia en el mismo índice, con **`pivot_table`** el cálculo se realiza dentro de un *DataFrame* y las filas y columnas representadas se definen con el nombre de sus columnas.

In [None]:
df.pivot_table(
      index = 'Manufacturer',
      columns = 'Calories',
      margins = True,
      aggfunc = np.mean,
      values = 'Vitamins and Minerals'
)

## **7. Visualización básica de datos**
---

La visualización de información es, en sí mismo, un campo entero de la ciencia de datos, que busca representar de manera gráfica la naturaleza de los datos a los que referencia. *Pandas* ofrece la posibilidad de generar de manera directa visualizaciones comunes a partir de *DataFrames* o *Series*.

Las visualizaciones en *pandas* giran en torno del módulo **`plot`** de sus estructuras de datos, desde el cual se hacen los llamados de todas las visualizaciones descritas. En este material se describirán estas visualizaciones tomando como referencia el objeto *DataFrame*.

Por defecto, *pandas* realiza estas visualizaciones usando la librería de visualización ***matplotlib***. Esta librería se estudiará en detalle la **Unidad 4**.

### **7.1. Histograma**
---
Un **histograma** es la representación de la distribución de variables numéricas en intervalos discretos. Es útil para identificar valores atípicos, tendencias generales y representar la forma que tiene la distribución de los datos.

Se puede generar un histograma con el siguiente método:

> **`df.plot.hist(bins)`**

El argumento **`bins`** define la cantidad de intervalos de clase o *bins* usados para generar el histograma.

Cuando se usan múltiples histogramas en una misma visualización, se recomienda utilizar el argumento **`alpha`** de *Matplotlib* que define la transparencia de los histogramas.




In [None]:
df.describe()

In [None]:
df['Potassium'].plot.hist(alpha = 0.5);
#El punto y coma impide que se escriba en pantalla el objeto de Matplotlib.

In [None]:
# Nota: Esta forma de indexado se verá en detalle en la siguiente guía.
df[['Potassium', 'Sodium', 'Vitamins and Minerals']].plot.hist(alpha = 0.5);

### **7.2. Gráfica de líneas**
---
Una **gráfica de líneas** es la representación de la evolución de una variable numérica en relación a otra variable ordenada, comúnmente, en el tiempo. Permite identificar patrones o tendencias en los datos y comparar la evolución de varias variables.

Se puede generar una gráfica de líneas con el siguiente método:

> **`df.plot.line(x, y)`**

Las gráficas de líneas requieren de por lo menos dos variables numéricas que representen la posición de cada eje. Estas variables se pasan como argumento con el nombre de la etiqueta de sus columnas correspondientes. La primera corresponde al eje x. El segundo argumento acepta múltiples variables, en forma de lista o arreglo, que producirán líneas independientes superpuestas.

In [None]:
x = np.linspace(0, 1, 100)
y = np.random.randn(100).cumsum()
z = np.random.randn(100).cumsum()

df_line = pd.DataFrame({'x': x,
                   'y': y,
                   'z': z})

df_line

In [None]:
df_line.plot.line('x', ['y', 'z']);

### **7.3. Gráfica de dispersión o *Scatter***
---
Un **diagrama de dispersión** (***scatter plot*** en inglés) es una representación espacial de la relación entre dos variables. Es usada principalmente para identificar e ilustrar relaciones lineales y no lineales entre variables cuantitativas.

Se puede generar un diagrama de dispersión con el siguiente método:

> **`df.plot.scatter(x, y, s, c)`**

Las gráficas de dispersión requieren los mismos argumentos que las gráficas de líneas. El primer argumento se interpreta como el argumento de referencia usado en el eje x. El segundo argumento se interpreta como la variable que representa el eje vertical.

El argumento **`s`** permite definir el radio de los círculos de cada punto.
El argumento **`c`** permite definir el color de cada punto. Se puede usar una variable para codificar el radio o el color de los puntos.


In [None]:
df.plot.scatter('Dietary Fiber', 'Potassium');

In [None]:
z = np.random.randint(10, 50, len(df))
c = pd.Series(['red', 'blue', 'green']).sample(len(df), replace = True)

df.plot.scatter('Dietary Fiber', 'Potassium',
                 s = z, # Se pueden usar series/arreglos independientes como parámetros.
                 c = c);

### **7.4. Gráfica de barras**
---
Una **gráfica de barras** es una representación de la frecuencia y distribución de variables categóricas. Se usa principalmente para hacer comparaciones de magnitud entre variables por cada categoría identificada.

Se puede generar una gráfica de barras con el siguiente método:

> **`df.plot.bar(x, y)`**

En este caso, el primer argumento será interpretado como una variable categórica, donde cada categoría representa una barra distinta. Para el segundo argumento se permiten varias variables cuantitativas en forma de lista, que representarán la magnitud o longitud vertical de la barra.



In [None]:
df_means = df.groupby('Manufacturer').mean()

df_means

In [None]:
#Si x no se indica, se usa el índice del DataFrame.

df_means.plot.bar(y = ['Calories', 'Potassium', 'Sodium']);

### **7.5. Diagrama de cajas**
---

Un **diagrama de cajas** es la representación que muestra a simple vista la mediana, los cuartiles, el mínimo, el máximo y el rango. También puede representar los valores atípicos.

Se puede generar un diagrama de cajas con el siguiente método:

> **`df.plot.box(by)`**

El argumento **`by`** recibe las columnas que se van a usar para construir diagramas de cajas independientes. Cada variable cuantitativa en la lista tiene una representación propia.


In [None]:
df['Sugars'].plot.box();

In [None]:
# Los puntos representan valores atípicos en la distribución.

df[['Sodium', 'Calories', 'Potassium'] ].plot.box();

### **7.6. Gráfica circular**
---

Una **gráfica circular** o de torta es una representación de las proporciones o porcentajes de los valores en una variable categórica. Permite visualizar de forma sencilla la proporción numérica de los posibles valores de una variable. A pesar de ser muy popular, existen otras representaciones más efectivas para conseguir el objetivo deseado como los diagramas de barras.

Se puede generar una gráfica circular con el siguiente método:

> **`df.plot.pie(y)`**

El argumento **`y`** recibe la columna a graficar. Con esta columna, se graficarán los segmentos de la gráfica por cada índice o registro en el objeto.

In [None]:
df['Manufacturer'].value_counts().plot.pie();

### **7.7. Gráfica de áreas**
---

Una **gráfica de áreas** o de **áreas apiladas** es una representación de la proporción o magnitud de varias variables en relación a una variable ordenada, como el tiempo. Es usada para comparar la evolución y magnitud de variables.

Se puede generar una gráfica de áreas con el siguiente método:

> **`df.plot.area(x, y)`**

Al igual que en las gráficas de líneas y de dispersión, las gráficas de áreas reciben como primer argumento una variable de control para el eje **x** y una o más variables como segundo argumento.


In [None]:
x = np.linspace(0, 1, 100)
y = np.random.randint(0, 10, 100).cumsum()
z = np.random.randint(0, 25, 100).cumsum()
w = np.random.randint(0, 50, 100).cumsum()


df_area = pd.DataFrame({'x': x,
                   'y': y,
                   'z': z,
                   'w': w})

df_area

In [None]:
df_area.plot.area('x', ['y', 'z', 'w'])

### **7.8. Gráfica hexagonal**
---
Una **gráfica hexagonal** o ***hexagonal binning*** es una representación de la frecuencia de valores dentro de intervalos en dos variables distintas. Es considerada un histograma en un espacio bidimensional. Permite identificar concentraciones de valores asociados en dos variables. Es útil para datos con alta densidad.

Se puede generar una gráfica hexagonal con el siguiente método:

> **`df.plot.hexbin(x, y, gridsize)`**

La gráfica hexagonal recibe dos argumentos. En este caso, ambos representan una columna o variable única. Además, se pueden definir funciones para la reducción de los valores de cada *bin*, o definir la cantidad de *bins* por eje con el argumento **`gridsize`**.


In [None]:
x = np.random.randn(1000) + 5
y = 3 + 1.25 * x + 1.5 * np.random.randn(1000)


df_hex = pd.DataFrame({'x': x,
                   'y': y,})

df_hex

In [None]:
df_hex.plot.hexbin('x', 'y', gridsize=10);

## **Recursos adicionales**
---

En este material se consideran algunas de las funciones más comunes, pero quedan muchas otras fuera de alcance. Lo invitamos a que consulte la [documentación oficial](https://pandas.pydata.org/pandas-docs/stable/reference/index.html), y en especial la [Guía de usuario](https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html) de *pandas*.

Además, a continuación se presenta una lista de recursos adicionales que le podrán ser de utilidad:

*  [University of California San Diego. Coursera - Machine Learning With Big Data](https://www.coursera.org/learn/big-data-machine-learning)
*  [Data vedas - Exploración y preparación de los datos](https://www.datavedas.com/data-exploration-and-preparation/)
*  [Kaggle - Pandas](https://www.kaggle.com/learn/pandas)
*  [CodeCademy - Learn Data Analysis with Pandas](https://www.codecademy.com/learn/data-processing-pandas)
*  [University of Michigan. Coursera - Applied Data Science with Python Specialization](https://www.coursera.org/specializations/data-science-python)

## **Créditos**
---

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
  - Alberto Nicolai Romero Martínez
  - Miguel Angel Ortiz Marín

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*