>
> <span style="font-size: 22px"><b>Docente: Luis Enrique Maldonado de la Torre</b></span>
> 
> *LinkedIn:* https://www.linkedin.com/in/luis-maldonado-de-la-torre/
> 
> *Facebook:* https://www.facebook.com/StructuralTech.py
> 
> *Portafolio de Proyectos:* https://luismaldonado-py.github.io/
>

# INTRODUCCIÓN A PANDAS

Hasta ahora hemos encontrado cuatro tipos de estructuras de datos: listas, diccionarios, tuplas y arrays de NumPy. Estas estrucutras son útiles cuando los datos que manejamos son relativamente simples, especialmente los arrays de NumPy están diseñados para trabajar **rápido** con matrices regulares. Pero ¿qué hay cuando, por ejemplo, necesitamos importar datos desde una tabla de Excel? ¿Y si necesitamos estructurar, filtrar y categorizar los datos contenidos en una tabla? Pues bien, eso es exactamente para lo que **Pandas** fue diseñado: manejar grandes y complejas estructuras de datos de forma sencilla.

La principal herramienta que Pandas provee a sus usuarios es un nuevo tipo de datos llamado **DataFrame**. Podemos pensar en los DataFrame como estructuras de datos bidimensionales con encabezados tanto para columnas como para filas. Le permite a los usuarios llevar a cabo todo tipo de operaciones sobre los valores contenidos dentro de ellas, desde un simple seccionamiento hasta complejos sistemas de interpolación. A continuación nos pasearemos por las principales características de Pandas.

## Importando la biblioteca

Nuevamente será necesario instalar la biblioteca previamente en el entorno de desarrollo virtual. Puedes guiarte de la siguiente celda para ejecutar desde el terminal la instalación:

Luego de instalada la biblioteca podemos importarla y dar los primeros pasos

In [72]:
import pandas as pd

Tal y como ocurría en caso de NumPy,  al importar Pandas es un estandar utilizar las letras **"pd"** para identificar la biblitoteca.

## DataFrames
La mejor manera de entender como funciona Pandas en creando un DataFrame simple y usarlo para probar las funcionalidades de la biblioteca.

In [73]:
data = {"A": [4, 2, 6], 
        "B": [9, 1, 8], 
        "C": [5, 7, 4]}

df = pd.DataFrame(data = data, index=[1, 2, 3])
df

Unnamed: 0,A,B,C
1,4,9,5
2,2,1,7
3,6,8,4


Como vemos en la celda anterior, la función **pd.DataFrame()** nos permite inicializar un DataFrame columnas por columnas. El diccionario pasado entre llaves al parametro _data_ se utiliza para definir las columnas con sus encabezados y contenido por fila. El parámetro opcional _index_ se utiliza para especificar las etiquetas asignadas a cada fila. Nota que la longitud de la lista pasada al parámetro _index_ deben ser igual a la longitud de las columnas de datos.

### Creando un DataFrame desde un array de NumPy

Esta es una operación muy común y la sintaxis en realmente muy sencilla:

In [74]:
import numpy as np

matriz = np.random.randint(0, 10, (4, 4))
matriz

array([[2, 2, 5, 7],
       [3, 0, 0, 4],
       [4, 5, 6, 5],
       [1, 0, 9, 0]])

In [75]:
numpy_df = pd.DataFrame(matriz, columns=["Enero", "Febrero", "Marzo", "Abril"])
numpy_df

Unnamed: 0,Enero,Febrero,Marzo,Abril
0,2,2,5,7
1,3,0,0,4
2,4,5,6,5
3,1,0,9,0


En la primera línea importamos NumPy, debido a que hasta ahora solo habíamos importado Pandas. Luego pasamos a crear un array de enteros con valores aleatorios entre 0 y 10, con la forma (4, 4), y lo asignamos a la variable **matriz**. En la siguiente línea creamos el DataFrame **numpy_df** utilizando los valores almacenados en **matriz**, y utilizamos el parámetro _columns_ para pasar una lista con las etiquetas de cada columna. Este último paso no es obligatorio. Si lo omitiéramos Pandas simplemente crearía el DataFrame con el nombre de las columnas empezando en 0 y terminando en 3.

### Cambiando la forma de un DataFrame

Pandas ofrece numerosas funciones para gestionar las filas y columnas de un DataFrame, así que vamos a echar un vistazo a las más utilizadas:

#### Ordernar valores _sort_values_
Esta función se utiliza para ordenar las filas en un orden específico. Por ejemplo, utilizando del DataFrame creado previamente podríamos ordenar las filas según los valores de la columna __B__:

In [76]:
df.sort_values("B")

Unnamed: 0,A,B,C
2,2,1,7
3,6,8,4
1,4,9,5


Como puedes ver, las filas se han ordenado de forma ascendente con respecto a los valores contenidos en la columna __B__. Nota que los índices del DataFrame han sido afectados también, y que estos siguen conectados a sus respectivas filas.
<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"> NOTA: </i> Es importante especificar que con funciones como <em>sort_value</em> la nueva configuración del DataFrame no queda almacenada en la variable <strong>df</strong>. A fin de mantener la nueva configuración deberás llamar a la función <em>y</em> asignar el resultado al propio DataFrame o a un nuevo DataFrame:

    
_df = df.sort_values("B")_
    
También puedes utilizar le parámetro opcional <em>inplace=True</em> para especificar que se edite el DataFrame base:
    
_df.sort_values("B", inplace=True)_
    
</div>

#### Renombrar

Con _rename_ podemos asignar nuevos nombres a filas y columnas en el DataFrame:

In [77]:
df.rename(columns={"A": "col_1", "B": "col_2", "C": "col_3"}, index={1: "fil_1", 2: "fil_2", 3: "fil_3"})

Unnamed: 0,col_1,col_2,col_3
fil_1,4,9,5
fil_2,2,1,7
fil_3,6,8,4


#### Drop
Podemos usar _drop()_ para eliminar columnas y filas del DataFrame:

In [78]:
df.drop(columns={"B"}, index={2})

Unnamed: 0,A,C
1,4,5
3,6,4


En ocasiones, luego de borrar una fila de un DataFrame, quizás deseemos resetear los índices de tal manera que cada fila se nombre con un número, iniciando desde cero. Esto se debe a que, al borrar un fila en el medio de un DataFrame, los índices se vuelve discontinuos. podemos solucionar este problema llamando a la función _reset_index()_:

In [79]:
df = pd.DataFrame({"A": [2, 1, 5], "B": [3, 5, 6], "C": [3, 6, 8]})
df

Unnamed: 0,A,B,C
0,2,3,3
1,1,5,6
2,5,6,8


In [80]:
# Eliminamos la fila de índice 1
df = df.drop(1)
df

Unnamed: 0,A,B,C
0,2,3,3
2,5,6,8


In [81]:
# Reseteamos los índices
df = df.reset_index(drop=True)
df

Unnamed: 0,A,B,C
0,2,3,3
1,5,6,8


#### Concatenar
Si contamos con dos DataFrames que deseamos concatenar, podemos utilizar _concat_:

In [82]:
df1 = pd.DataFrame({"A": [4, 2], "B": [9, 1]}, index=["fila 1", "fila 2"])
df1

Unnamed: 0,A,B
fila 1,4,9
fila 2,2,1


In [83]:
df2 = pd.DataFrame({"A": [5, 3], "B" :[7, 9]}, index=["fila 3", "fila 4"])
df2

Unnamed: 0,A,B
fila 3,5,7
fila 4,3,9


In [84]:
res = pd.concat([df1, df2])
res

Unnamed: 0,A,B
fila 1,4,9
fila 2,2,1
fila 3,5,7
fila 4,3,9


In [85]:
matriz = np.random.randint(0, 10, (4, 4))
matriz
df0 = pd.DataFrame(matriz)
df0

Unnamed: 0,0,1,2,3
0,7,6,6,2
1,2,9,8,2
2,8,7,2,2
3,1,3,1,6


In [86]:
matriz1 = np.random.randint(0, 10, (4, 4))
matriz
df01 = pd.DataFrame(matriz1)
df01

Unnamed: 0,0,1,2,3
0,4,7,3,5
1,2,7,1,2
2,6,1,9,1
3,6,9,2,9


In [87]:
concat = pd.concat([df0, df01], axis = 1)
concat

Unnamed: 0,0,1,2,3,0.1,1.1,2.1,3.1
0,7,6,6,2,4,7,3,5
1,2,9,8,2,2,7,1,2
2,8,7,2,2,6,1,9,1
3,1,3,1,6,6,9,2,9


Por defecto, _concat_ concatena DataFrames a lo largo del __eje 0__, es decir, la primera dimensión del DataFrame. Lo que produce un apilamiento vertical. Nota que los DataFrames del ejemplo anterior tienen las misma cantidad de columnas. Si tratas de contatenar DataFrames con diferente número de elementos en la dimensión objetivo se producirá un error.

Para concatenar horizontalmente solo debemos agregar el argumento _axis=1_ en la llamada a la función _concat_. En este caso los DataFrames deben tener el mismo número de filas:

In [88]:
df1 = pd.DataFrame({"A": [4, 2], "B": [9, 1]}, index=["fila 1", "fila 2"])
df1

Unnamed: 0,A,B
fila 1,4,9
fila 2,2,1


In [89]:
df2 = pd.DataFrame({"C": [5, 3], "D" :[7, 9]}, index=["fila 1", "fila 2"])
df2

Unnamed: 0,C,D
fila 1,5,7
fila 2,3,9


In [90]:
res = pd.concat([df1, df2], axis=1)
res

Unnamed: 0,A,B,C,D
fila 1,4,9,5,7
fila 2,2,1,3,9


In [91]:
array_res = res.values
print(array_res)

[[4 9 5 7]
 [2 1 3 9]]


Nota que en el ejemplo anterior hemos creado los DataFrame de tal manera que los nombres de las columnas no resulten duplicados, mientras que los nombre de las filas si se repiten. Esto ha de tomarse en cuenta con se han asignado encabezados personalizados a las columnas y filas. Pero si has utilizando los valores por defecto en la creación del DataFrame no habrá problema.

### Extracción de datos desde el DataFrame

Una operación común que llevamos a cabo sobre los DataFrames es el seccionado o __slicing__, algo que ya hemos aprendido a hacer antes tanto con listas de Python como con arrays de NumPy. El concepto es el mismo para el caso de los DataFrame, solo que la sintaxis cambia levemente. Vamos a crear un DataFrame con datos aleatorios y probemos algunas de las funcionalidades de Pandas ofrece para esta tarea:

In [92]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 5)), columns=["Fx", "Fy", "Mx", "My", "V"], index = ["Piso 1", "Piso 2", "Piso 3"])
df

Unnamed: 0,Fx,Fy,Mx,My,V
Piso 1,2,8,5,8,3
Piso 2,8,8,4,2,2
Piso 3,2,7,4,3,7


Ahora veamos como seleccionar columnas en específico:

In [93]:
display(df[["Fx", "Fy"]])

Unnamed: 0,Fx,Fy
Piso 1,2,8
Piso 2,8,8
Piso 3,2,7


In [94]:
display(df.filter(regex="Mx"))

Unnamed: 0,Mx
Piso 1,5
Piso 2,4
Piso 3,4


#### Métodos _loc_ y _iloc_
Estos dos métodos son utilizados para generar secciones tanto en filas como en columnas. La sintaxis en similiar a la seguida en NumPy:

In [95]:
display(df.loc[:, "Mx":"V"])

Unnamed: 0,Mx,My,V
Piso 1,5,8,3
Piso 2,4,2,2
Piso 3,4,3,7


In [96]:
display(df.loc["Piso 3", "My"])

3

In [97]:
display(df.iloc[:,2:])

Unnamed: 0,Mx,My,V
Piso 1,5,8,3
Piso 2,4,2,2
Piso 3,4,3,7


La diferencia entre _loc_ y _iloc_ es que _loc_ utiliza los nombres de las columnas y filas, mientras que _iloc_ utiliza los índices.

#### Crear un DataFrame con encabezados complejos

En algunas ocaciones es útil estructurar los datos de una forma más compacta que simplemente por líneas o columnas. En estos casos la función __MultiIndex__ toma lugar. En la siguiente celda creamos un DataFrame de forma 4x4 con un encabezados e índices anidados que usaremos en ejemplos siguientes:

In [98]:
encabezados = pd.MultiIndex.from_tuples([("A", "x"), ("A", "y"),  ("B", "u"), ("B", "v")])
indices = [np.array(["M", "M","N", "N"]), np.array(["bar", "foo", "baz", "qux"])]
datos = np.array([[9, 4, 8, 5],[4, 4, 0, 1],[5, 7, 4, 5],[6, 6, 2, 2]])
df = pd.DataFrame(data=datos, columns=encabezados, index=indices)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,A,B,B
Unnamed: 0_level_1,Unnamed: 1_level_1,x,y,u,v
M,bar,9,4,8,5
M,foo,4,4,0,1
N,baz,5,7,4,5
N,qux,6,6,2,2


Cómo puedes ver, antes de crear el DataFrame en el celda anterior, hemos creado las variables __encabezados__, __indices__ y __datos__. Hemos utilizado la función _pd.MultiIndex.from_tuples_ para construir los encabezados pasando una lista de tuplas que define la jerarquía de las columnas. El primer elemento de las tuplas define el primer nivel y  de forma similar se aplica para los siguientes niveles. En la siguiente línea creamos los índices de las filas utilizando arrays de NumPy. El primer array de las lista define el primer nivel, y el segundo array define el segundo nivel. En la línea 3 creamos un array de datos, asegurándonos de que las dimensiones sean compatibles con los encabezados e índices que ya se han definido. Finalmente construimos el DataFrame pasando cada parámetro correspondiente. 

Para seccionar un DataFrame multi-índice también podemos utilizar _loc_ y _iloc_. Con _loc_ podemos especificar las sub-columnas y las sub-filas utilizando tuplas:

In [99]:
df.loc[("M", "foo"), ("A", "x")]

4

### Operaciones con DataFrames
Algo que surge frecuentemente cuanto utilizamos DataFrames es la necesidad de realizar operaciones algebráicas entre columnas. Por ejemplo, multiplicar dos columnas y almacenar el resultado en una nueva columna. En la siguiente celda de código calculamos el segundo momento de incercia de un rectángulo, dados el ancho __b__ y la altura __h__:

In [100]:
b = np.array([30, 45, 40])
h = np.array([60, 50, 50])
df = pd.DataFrame({"b": b, "h": h})
df

Unnamed: 0,b,h
0,30,60
1,45,50
2,40,50


In [101]:
df["Inercia"] = (df.b * (df.h)**3) / 12 /10000
df = df.round(2)
df

Unnamed: 0,b,h,Inercia
0,30,60,54.0
1,45,50,46.88
2,40,50,41.67


In [102]:
df["Area"] = (df.b * (df.h))
df

Unnamed: 0,b,h,Inercia,Area
0,30,60,54.0,1800
1,45,50,46.88,2250
2,40,50,41.67,2000


En las líneas 1 y 2 creamos dos arrays que contienen las dimensiones de los rectángulos. Luego, creamos el DataFrame con estos dos arrays. Y finalmente computamos el segundo momento de inercia utilizando la fórmula:
$$
\frac{b . h^3}{12}
$$

El resultado se almacena en una nueva columnas llamada __I__.

## Trabajo con datos externos
A menudo los ingenieros debe llevar a cabo operaciones que involucran datos almacenados en archivos _.csv_ o _.xlsx_. Pandas incluye funciones para cargar este tipo de archivos y almacenar sus datos en DataFrames, e incluso manejar datos faltantes. 

### Cargar un tabla de Excel

<div class="alert alert-block alert-info">
<i class="fa fa-info-circle" aria-hidden="true"> NOTA: </i> En versiones recientes de Pandas será necesario instalar la biblioteca <strong>openpyxl</strong> antes de poder realizar la lectura de archivos de Excel
    
</div>

Para el siguiente ejemplo utilizaremos el archivo _ejemplo_columna.xlsx_, que debe encontrarse en la misma carpeta que el presente cuaderno de Jupyter. Podemos cargar el archivo de la siguiente manera:

In [103]:
df = pd.read_excel("datos\ejemplo_columna.xlsx", header = [0,1], index_col = 0)
df = df.round(3)
df = df.fillna(0)
df

Columna,Columna,Columna,Columna,Columna,Columna,Columna
x,M neg,M pos,V neg,V pos,N neg,N pos
0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.0,0.0,2.992,0.0,0.568,0.0,806.822
0.1675,0.0,2.902,0.0,0.568,0.0,806.822
0.335,0.0,2.813,0.0,0.568,0.0,806.822
0.5025,0.0,2.725,0.0,0.568,0.0,806.822
0.67,0.0,2.637,0.0,0.567,0.0,806.822
0.8375,0.0,2.549,0.0,0.567,0.0,806.822
1.005,0.0,2.462,0.0,0.566,0.0,806.822
1.1725,0.0,2.376,0.0,0.565,0.0,806.822
1.34,0.0,2.29,0.0,0.563,0.0,806.822


El archivo que estamos importando contiene el momento flector, corte y fuerza axial de una columna en un pórtico de concreto. Si le echamos un vistazo el archivo de Excel veremos que los datos tienen un encabezado que dice __Columna__ en la primera línea y luego otros sub-encabezados en la segunda. 

Para importar los datos hemos utilizando la función _read_excel_, especificando el nombre del archivo (si el archivo se encontrar en otra carpeta acá se deberá incluir el camino que lo precede). También pasamos el argumento __header__ que especifica cuales líneas serán utilizadas como encabezamiento. Y con el parámetro __index_col__ le indicamos a Pandas cual columna seraá utilizada como índice. En la línea dos especificamos la cantidad de decimales máximos que deseamos por valor numérico. Y finalmente utilizamos la función __head()__ par mostrar las primeras filas del DataFrame. 

Pero el DataFrame que acabamos de crear necesita algunos retoques. Por ejemplo, en realidad no necesitamos el primer nivel del encabezamiento que dice __Columna__. Tampoco necesitamos la primera línea de datos, debido a que solo está compuesta por ceros. Y si le damos un vistazo a la última fila veremos que contiene datos imcompletos. Para mostrar las últimas filas del DataFrame podemos utilizar la función __tail()__:

In [104]:
df.head()

Columna,Columna,Columna,Columna,Columna,Columna,Columna
x,M neg,M pos,V neg,V pos,N neg,N pos
0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.0,0.0,2.992,0.0,0.568,0.0,806.822
0.1675,0.0,2.902,0.0,0.568,0.0,806.822
0.335,0.0,2.813,0.0,0.568,0.0,806.822
0.5025,0.0,2.725,0.0,0.568,0.0,806.822


In [105]:
df.tail()

Columna,Columna,Columna,Columna,Columna,Columna,Columna
x,M neg,M pos,V neg,V pos,N neg,N pos
3.35,0.0,1.36,0.0,0.514,0.0,806.823
3.35,0.0,3.087,0.0,0.603,0.0,220.709
5.025,0.0,2.15,0.0,0.603,0.0,220.709
6.7,0.0,1.318,0.0,0.603,0.0,220.709
6.7,0.0,0.0,0.0,0.0,0.0,0.0


Realizar estas modificaciones solo tomará unas pocas líneas de código:

In [106]:
df.columns = df.columns.droplevel(0)
df = df.dropna()
df = df.drop(0)
df.head()

x,M neg,M pos,V neg,V pos,N neg,N pos
0.1675,0.0,2.902,0.0,0.568,0.0,806.822
0.335,0.0,2.813,0.0,0.568,0.0,806.822
0.5025,0.0,2.725,0.0,0.568,0.0,806.822
0.67,0.0,2.637,0.0,0.567,0.0,806.822
0.8375,0.0,2.549,0.0,0.567,0.0,806.822


En la primera línea estamos borrando el primer nivel del encabezado haciendo uso de __droplevel__. En la línea 2 utilizamos la función __dropna__ para borra cualquier fila que contenga valores _NaN_ (_NaN Non A Value, o no un valor_). Los valores NaN representan datos faltantes. Finalmente borramos la primera línea de datos con la función __drop__.Este un ejemplo muy simple de lo que se conoce como la etapa de limpieza y preprocesado de datos. Tarea común en Ciencia de Datos.

### Cargar un archivo _csv_

Los archivos de valores separados por coma (CSV por _Comma Separated Values_) son otro formato comúnmente utilizados para almacenar datos. Podemos abrir un archivo csv en cualquier editor de texto instalado en nuestro computador. Para el siguiente ejemplo vamos a utilizar el archivo _ejemplo_viga.csv_. Y se cargará de forma análoga al caso de los archivos de Excel, pero utilizando la función __read_csv__:

In [107]:
df = pd.read_csv("datos\ejemplo_viga.csv", header=1)
df

Unnamed: 0,x,M neg,M pos,T neg,T pos,N neg,N pos
0,,,,,,,
1,0.000000,0.000000,0.0,0.000000,0.000000,0.000000,0.000000
2,0.000000,-32.145088,0.0,57.935637,0.000000,-0.073215,0.073217
3,0.068634,-28.254538,0.0,55.435300,0.000000,-0.073215,0.073217
4,0.137268,-24.535597,0.0,52.934955,0.000000,-0.070227,0.070229
...,...,...,...,...,...,...,...
151,12.155640,-53.893969,0.0,0.000000,-136.723676,-0.076245,0.076250
152,12.237084,-65.291527,0.0,0.000000,-143.164187,-0.079791,0.079796
153,12.318527,-77.213627,0.0,0.000000,-149.604725,-0.083337,0.083341
154,12.399971,-89.660272,0.0,0.000000,-156.045294,-0.086883,0.086887


In [108]:
df = df.round(3)
df = df.dropna()
df = df.reset_index(drop=True)
df

Unnamed: 0,x,M neg,M pos,T neg,T pos,N neg,N pos
0,0.000,0.000,0.0,0.000,0.000,0.000,0.000
1,0.000,-32.145,0.0,57.936,0.000,-0.073,0.073
2,0.069,-28.255,0.0,55.435,0.000,-0.073,0.073
3,0.137,-24.536,0.0,52.935,0.000,-0.070,0.070
4,0.206,-20.988,0.0,50.435,0.000,-0.067,0.067
...,...,...,...,...,...,...,...
150,12.156,-53.894,0.0,0.000,-136.724,-0.076,0.076
151,12.237,-65.292,0.0,0.000,-143.164,-0.080,0.080
152,12.319,-77.214,0.0,0.000,-149.605,-0.083,0.083
153,12.400,-89.660,0.0,0.000,-156.045,-0.087,0.087


In [110]:
# df.to_csv("output.csv")
df.to_excel("output.xlsx", index=True)