# Introducción a Pandas para Ingeniería civil
## pandas
### INTRODUCCIÓN A PANDAS

>Nos va a permitir trabajar con datos, leer un archivo en Excel, CSV, `.txt` y poder manipularlo dentro de Python. Nosotros vamos a extraer información de una
>tabla en Etabs.

Hasta ahora hemos encontrado cuatro tipos de estructuras de datos: listas, diccionarios, tuplas y arrays de NumPy. Estas estructuras son útiles cuando los
datos que manejamos son relativamente simples, especialmente los arrays de NumPy están diseñados para trabajar **rápido** con matrices regulares. Pero,
¿qué hay cuando, por ejemplo, necesitamos importar datos desde una tabla de Excel? ¿Y si necesitamos estructurar, filtrar y categorizar los datos
contenidos en una tabla? Pues bien, eso es exactamente para lo que **Pandas** fue diseñado: manejar grandes y complejas estructuras de datos de forma sencilla.

La principal herramienta que Pandas provee a sus usuarios es un nuevo tipo de datos llamado **DataFrame**. Podemos pensar en los DataFrame como estructuras de datos bidimensionales con encabezados tanto para columnas como para filas. Le permite a los usuarios llevar a cabo todo tipo de operaciones sobre los valores contenidos dentro de ellas, desde un simple seccionamiento hasta complejos sistemas de interpolación. A continuación nos pasearemos por las principales características de Pandas.

### Importando la biblioteca

Nuevamente será necesario instalar la biblioteca previamente en el entorno de desarrollo virtual. Puedes guiarte de la siguiente celda para ejecutar desde el terminal la instalación:

```bash
pip install pandas
```
Luego de instalada la biblioteca podemos importarla y dar los primeros pasos

In [76]:
import pandas as pd

Al importar Pandas es un estandar utilizar las letras **"pd"** para identificar la biblioteca.

### DataFrames

La mejor manera de entender como funciona Pandas es creando un DataFrame simple y usarlo para probar las funcionalidades de la biblioteca.

In [77]:
data = {"A": [4, 2, 6],
        "B": [9, 1, 8],
        "C": [5, 7, 4]}

df = pd.DataFrame(data = data, index = [1, 2, 3])
df

Unnamed: 0,A,B,C
1,4,9,5
2,2,1,7
3,6,8,4


Como vemos en la celda anterior, la función **pd.DataFrame()** nos permite inicializar un DataFrame columnas por columnas. El diccionario pasado entre
llaves al parametro *data* se utiliza para definir las columnas con sus encabezados y contenido por fila. El parámetro opcional *index* se utiliza para
especificar las etiquetas asignadas a cada fila. Nota que la longitud de la lista pasada al parámetro *index* deben ser igual a la longitud de las columnas
de datos.

### Creando un DataFrame desde un array de NumPy

Esta es una operación muy común y la sintaxis es realmente muy sencilla:

In [78]:
import numpy as np

matriz = np.random.randint(0, 10, (4, 4))
matriz

array([[5, 8, 4, 1],
       [7, 2, 0, 4],
       [6, 0, 3, 8],
       [7, 7, 6, 6]], dtype=int32)

In [79]:
numpy_df = pd.DataFrame(matriz, columns=["Enero", "Febrero", "Marzo", "Abril"])
numpy_df

Unnamed: 0,Enero,Febrero,Marzo,Abril
0,5,8,4,1
1,7,2,0,4
2,6,0,3,8
3,7,7,6,6


En la primera línea importamos NumPy, debido a que hasta ahora solo habíamos importado Pandas. Luego pasamos a crear un array de enteros con valores
aleatorios entre 0 y 10, con la forma (4, 4), y lo asignamos a la variable **matriz**. En la siguiente línea creamos el DataFrame **numpy_df** utilizando
los valores almacenados en **matriz**, y utilizamos el parámetro *columns* para pasar una lista con las etiquetas de cada columna. Este último paso no es
obligatorio. Si lo omitiéramos Pandas simplemente crearía el DataFrame con el nombre de las columnas empezando en 0 y terminando en 3.

### Cambiando la forma de un DataFrame

Pandas ofrece numerosas funciones para gestionar las filas y columnas de un DataFrame, así que vamos a echar un vistazo a las más utilizadas:

#### Ordenar valor *sort_values*

Esta función se utiliza para ordenar las filas en un orden específico. Por ejemplo, utilizando del DataFrame creado previamente podríamos ordenar las filas según los valores de la columna **B**:

In [80]:
df

Unnamed: 0,A,B,C
1,4,9,5
2,2,1,7
3,6,8,4


In [81]:
df.sort_values("B", inplace=True)
# df.sort_values("B")
# df = df.sort_values("B")

In [82]:
df

Unnamed: 0,A,B,C
2,2,1,7
3,6,8,4
1,4,9,5


Como puedes ver, las filas se han ordenado de forma ascendente con respecto a los valores contenidos en la columna **B**. Nota que los índices del DataFrame
han sido afectados también, y que estos siguen conectados a sus respectivas filas.

> *NOTA*: Es importante especificar que con funciones como *sort_value* la nueva configuración del DataFrame no queda almacenada en la variable *df*. A
> fin de mantener la nueva configuración deberás llamar a la función y asignar el resultado al propio DataFrame o a un nuevo DataFrame:
>
> *df = df.sort_values("B")*
>
> También puedes utilizar el parámetro opcional *inplace=True* para especificar que se edite el DataFrame base:
>
> *df.sort_values("B", inplace=True)*

#### Renombrar

Con *rename* podemos asignar nuevos nombres a filas y columnas en el DataFrame:

In [83]:
df

Unnamed: 0,A,B,C
2,2,1,7
3,6,8,4
1,4,9,5


In [84]:
df.rename(columns={"A": "col_1", "B": "col_2", "C": "col_3"}, index={1: "fil_1", 2: "fil_2", 3: "fil_0"})

Unnamed: 0,col_1,col_2,col_3
fil_2,2,1,7
fil_0,6,8,4
fil_1,4,9,5


#### Drop

Podemos usar *drop()* para eliminar columnas y filas del DataFrame:

In [85]:
df

Unnamed: 0,A,B,C
2,2,1,7
3,6,8,4
1,4,9,5


In [86]:
df.drop(columns={"B"}, index={2})

Unnamed: 0,A,C
3,6,4
1,4,5


En ocasiones, luego de borrar una fila de un DataFrame, quizás deseemos resetear los índices de tal manera que cada fila se nombre con un número,
iniciando desde cero. Esto se debe a que, al querer borrar una fila en el medio de un DataFrame, los índices se vuelven discontinuos. Podemos solucionar
este problema llamando a la función *reset_index()*:

In [87]:
df = pd.DataFrame({"A": [2, 1, 5], "B": [3, 5, 6], "C": [3, 6, 8]})
df

Unnamed: 0,A,B,C
0,2,3,3
1,1,5,6
2,5,6,8


In [88]:
# Eliminamos la fila de índice 1
df = df.drop(1)
df

Unnamed: 0,A,B,C
0,2,3,3
2,5,6,8


In [89]:
# Reseteamos los índices
df = df.reset_index(drop=True)
df

Unnamed: 0,A,B,C
0,2,3,3
1,5,6,8


#### Concatenar

Si contamos con dos DataFrames que deseamos concatenar, podemos utilizar *concat*:

In [90]:
df1 = pd.DataFrame({"A": [4, 2], "B": [9, 1]}, index=["fila 1", "fila 2"])
df1

Unnamed: 0,A,B
fila 1,4,9
fila 2,2,1


In [91]:
df2 = pd.DataFrame({"A": [5, 3], "B": [7, 9]}, index=["fila 3", "fila 4"])
df2

Unnamed: 0,A,B
fila 3,5,7
fila 4,3,9


In [92]:
res = pd.concat([df1, df2])
res

Unnamed: 0,A,B
fila 1,4,9
fila 2,2,1
fila 3,5,7
fila 4,3,9


Por defecto, *concat* concatena DataFrames a lo largo del **eje 0**, es decir, la primera dimensión del DataFrame. Lo que produce un apilamiento vertical.
Nota que los DataFrames del ejemplo anterior tienen la misma cantidad de columnas. Si tratas de concatenar DataFrames con diferente número de elementos
en la dimensión objetivo se producirá un error.

Para concatenar horizontalmente solo debemos agregar el argumento *axis=1* en la llamada a la función *concat*. En este caso los DataFrames deben tener el mismo número de filas:

In [93]:
df2 = pd.DataFrame({"C": [5, 3], "D": [7, 9]}, index=["fila 1", "fila 2"])
df2

Unnamed: 0,C,D
fila 1,5,7
fila 2,3,9


In [94]:
res = pd.concat([df1, df2], axis=1)
res

Unnamed: 0,A,B,C,D
fila 1,4,9,5,7
fila 2,2,1,3,9


In [95]:
array_res = res.values
print(array_res)

[[4 9 5 7]
 [2 1 3 9]]


Nota que en el ejemplo anterior hemos creado los DataFrame de tal manera que los nombres de las columnas no resulten duplicados, mientras que los nombres de
las filas si se repiten, Esto ha de tomarse en cuenta con se han asignado encabezados personalizados a las columnas y filas. Pero si has utilizado los
valores por defecto en la creación del DataFrame, no habrá problema.

### Extracción de datos desde el DataFrame

Una operación común que llevamos a cabo sobre los DataFrames es el seccionado o **slicing**, algo que ya hemos aprendido a hacer antes tanto con listas de
Python como con arrays de NumPy. El concepto es el mismo para el caso de los DataFrames, solo que la sintaixs cambia levemente. Vamos a crear un DataFrame
con datos aleatorios y probemos algunas de las funcionalidades de Pandas ofrece para esta tarea:

In [96]:
df = pd.DataFrame(np.random.randint(0, 10, (3, 5)),
                  columns=["Fx", "Fy", "Mx", "My", "V"],
                  index = ["Piso 1", "Piso 2", "Piso 3"])
df

Unnamed: 0,Fx,Fy,Mx,My,V
Piso 1,3,5,0,8,2
Piso 2,2,0,5,0,7
Piso 3,4,7,2,7,5


Ahora veamos como seleccionar columnas en específico:

In [97]:
display(df[["Fx", "My"]])

Unnamed: 0,Fx,My
Piso 1,3,8
Piso 2,2,0
Piso 3,4,7


#### Métodos *loc* y *iloc*

Estos dos métodos son utilizados para generar secciones tanto en filas como en columnas. La sintaxis es similar a la seguida en NumPy:

In [98]:
display(df.loc["Piso 1":"Piso 3", "My":"V"])

Unnamed: 0,My,V
Piso 1,8,2
Piso 2,0,7
Piso 3,7,5


In [99]:
display(df.loc["Piso 1", "Mx"])
# mx = df.loc["Piso 1", "Mx"]

np.int32(0)

In [100]:
df

Unnamed: 0,Fx,Fy,Mx,My,V
Piso 1,3,5,0,8,2
Piso 2,2,0,5,0,7
Piso 3,4,7,2,7,5


In [101]:
# display(df.iloc[:2,1:4])
display(df.iloc[:,2:])

Unnamed: 0,Mx,My,V
Piso 1,0,8,2
Piso 2,5,0,7
Piso 3,2,7,5


La diferencia entre *loc* y *iloc* es que *loc* utiliza los nombres de las columnas y filas, mientras que *iloc* utiliza los índices.

### Crear un DataFrame con encabezados complejos

En algunas ocasiones es útil estructurar los datos de una forma más compacta que simplemente por líneas o columnas. En estos casos la función **MultiIndex**
toma lugar. En la siguiente celda creamos un DataFrame de forma 4x4 con un encabezado e índices anidados que usaremos en ejemplos siguientes:

In [102]:
encabezados = pd.MultiIndex.from_tuples([("A", "x"), ("A", "y"), ("B", "u"), ("B", "v")])
indices = [np.array(["M", "M", "N", "N"]), np.array(["bar", "foo", "baz", "qux"])]
datos = np.array([[9, 4, 8, 5],[4, 4, 0, 1],[5, 7, 4, 5],[6, 6, 2, 2]])
df = pd.DataFrame(data=datos, columns=encabezados, index=indices)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,A,B,B
Unnamed: 0_level_1,Unnamed: 1_level_1,x,y,u,v
M,bar,9,4,8,5
M,foo,4,4,0,1
N,baz,5,7,4,5
N,qux,6,6,2,2


Cómo puedes ver, antes de crear el DataFrame en la celda anterior, hemos creado las variables **encabezados**, **indices**  y **datos**. Hemos utilizado
la función *pd.MultiIndex.from_tuples* para construir los encabezados pasando una lista de tuplas que define la jerarquía de las columnas. El primer elemento
de las tuplas define el primer nivel y de forma similar se aplica para los siguientes niveles. En la siguiente línea creamos los índices de las filas
utilizando arrays de NumPy. El primer array de la lista define el primer nivel,
y el segundo array define el segundo nivel. En la línea 3 creamos un array de
datos, asegurándonos de que las dimensiones sean compatibles con los
encabezados e índices que ya se han definido. Finalmente construimos el DataFrame pasando cada parámetro correspondiente.

Para seleccionar un DataFrame multi-índice también podemos utilizar *loc* y *iloc*. Con *loc* podemos especificar las columnas y las sub-filas utilizando tuplas:

In [103]:
df.loc[("M", "foo"), ("A", "x")]

np.int64(4)

### Operaciones con DataFrames

Algo que surge frecuentemente cuando utilizamos DataFrames es la necesidad de realizar operaciones algebráicas entre columnas. Por ejemplo, multiplicar dos
columnas y almacenar el resultado en una nueva columnas. En la siguiente celda de código calculamos el segundo momento de inercia de un rectángulo, dados el
ancho **b** y la altura **h**:

In [104]:
b = np.array([30, 45, 40])
h = np.array([60, 50, 50])
df = pd.DataFrame({"b": b, "h": h})
df

Unnamed: 0,b,h
0,30,60
1,45,50
2,40,50


In [105]:
df["Inercia"] = (df.b * (df.h)**3 / 12 /10000)
df = df.round(2)
df

Unnamed: 0,b,h,Inercia
0,30,60,54.0
1,45,50,46.88
2,40,50,41.67


In [106]:
df["Area"] = (df.b * (df.h))
df

Unnamed: 0,b,h,Inercia,Area
0,30,60,54.0,1800
1,45,50,46.88,2250
2,40,50,41.67,2000


In [107]:
df["Limite"] = 0.007
df

Unnamed: 0,b,h,Inercia,Area,Limite
0,30,60,54.0,1800,0.007
1,45,50,46.88,2250,0.007
2,40,50,41.67,2000,0.007


En las líneas 1 y 2 creamos dos arrays que contienen las dimensiones de los rectángulos. Luego, creamos el DataFrame con estos dos arrays. Y finalmente
computamos el segundo momento de inercia utilizando la fórmula:

$\frac{b.h^{3}}{12}$

El resultado se almacena en una nueva columna llamado **I**.

### Trabajo con datos externos

A menudo los ingenieros deben llevar a cabo operaciones que involucran datos almacenados en archivos *.csv* o *.xlsx*. Pandas incluye funciones para cargar
este tipo de archivos y almacenar sus datos en DataFrames, e incluso manejar datos faltantes.

#### Cargar una tabla de Excel

>*NOTA*: En versiones recientes de Pandas será necesario instalar la biblioteca **openpyxl** antes de poder realizar lectura de archivos de Excel

Para el siguiente ejemplo utilizaremos el archivo *ejemplo_columna.xlsx*, que debe encontrarse en la misma carpeta que el presente cuaderno de Jupyter. Podremos cargar el archivo de la siguiente manera:

In [108]:
df = pd.read_excel("datos/ejemplo_columna.xlsx", header = [0,1], index_col = 0)
df

Columna,Columna,Columna,Columna,Columna,Columna,Columna
x,M neg,M pos,V neg,V pos,N neg,N pos
0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.0,0.0,2.991885,0.0,0.567877,0.0,806.822357
0.1675,0.0,2.902418,0.0,0.567877,0.0,806.822357
0.335,0.0,2.813336,0.0,0.567833,0.0,806.822359
0.5025,0.0,2.724685,0.0,0.567678,0.0,806.822362
0.67,0.0,2.636522,0.0,0.56735,0.0,806.822367
0.8375,0.0,2.548908,0.0,0.566792,0.0,806.822383
1.005,0.0,2.461914,0.0,0.566792,0.0,806.822394
1.1725,0.0,2.375617,0.0,0.565956,0.0,806.822407
1.34,0.0,2.290097,0.0,0.564799,0.0,806.822421


In [109]:
df = df.round(3)
df = df.fillna(0)
df

Columna,Columna,Columna,Columna,Columna,Columna,Columna
x,M neg,M pos,V neg,V pos,N neg,N pos
0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.0,0.0,2.992,0.0,0.568,0.0,806.822
0.1675,0.0,2.902,0.0,0.568,0.0,806.822
0.335,0.0,2.813,0.0,0.568,0.0,806.822
0.5025,0.0,2.725,0.0,0.568,0.0,806.822
0.67,0.0,2.637,0.0,0.567,0.0,806.822
0.8375,0.0,2.549,0.0,0.567,0.0,806.822
1.005,0.0,2.462,0.0,0.567,0.0,806.822
1.1725,0.0,2.376,0.0,0.566,0.0,806.822
1.34,0.0,2.29,0.0,0.565,0.0,806.822


El archivo que estamos importando contiene el momento flector, corte y fuerza axial de una columna en un pórtico de concreto. Si le echamos un vistazo al
archivo de Excel veremos que los datos tienen un encabezado que dice **Columna en la primera línea y luego otros sub-encabezados en la segunda.

Para importar los datos hemos utilizado la función *read_excel*, especificando el nombre del archivo (si el archivo se encontrara en otra carpeta acá se
deberá incluir el camino que lo precede). También pasamos el argumento **header** que especifica cuales líneas serán utilizadas como encabezamiento. Y
con el parámetro **index_col** le indicamos a Pandas cual columna será utilizada como índice. En la línea dos especificamos la cantidad de decimales
máximos que deseamos por valor numérico. Y finalmente utilizamos la función **head()** para mostrar las primeras filas del DataFrame.

Pero el DataFrame que acabamos de crear necesita algunos retoques. Por ejemplo, en realidad no necesitamos el primer nivel dle encabezamiento que dice
**Columna**. Tampoco necesitamos la primera línea de datos, debido a que solo está compuesta por ceros. Y si le damos un vistazo a la última fila veremos que
contiene datos incompletos. Para mostrar las últimas filas del DataFrame podemos utilizar la función **tail()**:

In [110]:
df.head()

Columna,Columna,Columna,Columna,Columna,Columna,Columna
x,M neg,M pos,V neg,V pos,N neg,N pos
0.0,0.0,0.0,0.0,0.0,0.0,0.0
0.0,0.0,2.992,0.0,0.568,0.0,806.822
0.1675,0.0,2.902,0.0,0.568,0.0,806.822
0.335,0.0,2.813,0.0,0.568,0.0,806.822
0.5025,0.0,2.725,0.0,0.568,0.0,806.822


In [111]:
df.tail()

Columna,Columna,Columna,Columna,Columna,Columna,Columna
x,M neg,M pos,V neg,V pos,N neg,N pos
3.35,0.0,1.36,0.0,0.514,0.0,806.823
3.35,0.0,3.087,0.0,0.603,0.0,220.709
5.025,0.0,2.15,0.0,0.603,0.0,220.709
6.7,0.0,1.318,0.0,0.603,0.0,220.709
6.7,0.0,0.0,0.0,0.0,0.0,0.0


Realizar estas modificaciones solo tomará unas pocas líneas de código:

In [112]:
df.columns = df.columns.droplevel(0)
df = df.dropna()
df = df.drop(0)
df

x,M neg,M pos,V neg,V pos,N neg,N pos
0.1675,0.0,2.902,0.0,0.568,0.0,806.822
0.335,0.0,2.813,0.0,0.568,0.0,806.822
0.5025,0.0,2.725,0.0,0.568,0.0,806.822
0.67,0.0,2.637,0.0,0.567,0.0,806.822
0.8375,0.0,2.549,0.0,0.567,0.0,806.822
1.005,0.0,2.462,0.0,0.567,0.0,806.822
1.1725,0.0,2.376,0.0,0.566,0.0,806.822
1.34,0.0,2.29,0.0,0.565,0.0,806.822
1.508,0.0,2.205,0.0,0.563,0.0,806.822
1.675,0.0,2.122,0.0,0.561,0.0,806.822


En la primera línea estamos borrando el primer nivel del encabezado haciendo uso de **droplevel**. En la línea 2 utilizamos la función **dropna** para
borrar cualquier fila que contenga valores *NaN* (*NaN Non A Value* o *no un valor*). Los valores NaN representan datos faltantes. Finalmente borramos la
primera línea de datos con la función **drop**. Este es un ejemplo muy simple de lo que se conoce como la etapa de limpieza y preprocesado de datos. Tarea
común en Ciencia de Datos.

#### Cargar un archivo *csv*

Los archivos de valores separados por coma (CSV por *Comma Separated Values*) son otro formato comúnmente utilizados para almacenar datos. Podemos abrir un
archivo csv en cualquier editor de texto instalado en nuestro computador. Para el siguiente ejemplos vamos a utilizar el archivo *ejemplo_viga.csv*. Y se
cargará de forma análoga al caso de los archivos de Excel, pero utilizando la función **read_csv**:

In [113]:
df = pd.read_csv("datos/ejemplo_viga.csv", header=1)
df

Unnamed: 0,x,M neg,M pos,T neg,T pos,N neg,N pos
0,,,,,,,
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [114]:
df = df.round(3)
df = df.dropna()
df = df.reset_index(drop=True)
df

Unnamed: 0,x,M neg,M pos,T neg,T pos,N neg,N pos
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [None]:
df.head()

Unnamed: 0,x,M neg,M pos,T neg,T pos,N neg,N pos
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [None]:
df.to_csv("output.csv", index=False)
# df.to_excel("exportado1.xlsx", index=False)