# <span style="color:gold">**Pandas**</span>
***

### **Editado por: Kevin Alexander Gómez**
#### Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)
***

### **Descripción**

En este tutorial, le daremos un vistazo a <span style="color:gold">Pandas</span>, la librería estándar para el análisis de datos tabulares con Python.

Este Notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología.

***

## **1. ¿Qué es Pandas?**
***
Pandas (abreviación de `Panel Data`) es una herramienta rápida, flexible y poderosa para el análisis y manipulación de datos, desarrollado en Python.\
Con Pandas, podemos representar información tabular (hojas de trabajo o bases de datos) a través de los objetos `Series` y `DataFrame`.

### **1.1 ¿Cuáles son las ventajas de usar Pandas?**
- Podemos explorar, limpiar y procesar nuestros datos de manera eficiente.
- Permite la integración de diversos formatos de archivo o fuentes de datos como `csv`, `excel`, `sql`, `json`, etc.
- Contiene funciones de selección y filtrado para filas y columnas específicas.
- No hay necesidad de usar bucles para procesar cada fila de una tabla, la manipulación de datos en una columna se realiza por elementos.
- Se pueden realizar cálculos estadísticos básicos (media, mediana, varianza, etc.) de manera sencilla.
- Permite agrupar y desagrupar datos por categorías de una forma rápida.
- Permite la concatenación de múltiples tablas por columna o por fila.
- Contiene herramientas para el análisis de series temporales.
- Contiene herramientas para la limpieza y extracción de datos textuales.

En este tutorial, revisaremos los objetos `Series` y `DataFrame` usando el siguiente ejemplo:

### Análisis químico de muestras
Usando la siguiente información tabular, se pide transcribir la información y almacenarla en archivos de formato CSV y Excel.

| Muestra |Au (ppm)  |Ag (ppm)  |Cu (%)   |Zn (%)  |Pb (%)  |
|:-------:|:--------:|:--------:|:-------:|:------:|:------:|
|A        |5.0       |51.2      |3.2      |4.0     |3.4     |
|B        |6.1       |62.7      |4.5      |6.1     |5.5     |
|C        |4.2       |54.8      |2.1      |3.5     |3.1     |
|D        |2.4       |47.1      |4.8      |6.4     |5.8     |
|E        |8.3       |40.3      |5.4      |8.9     |6.7     |

Empezaremos importando `pandas` y usaremos `pd` como una referencia abreviada de esta librería:

In [None]:
import pandas as pd

## **2. Series**
***
Empezaremos creando un objeto llamado `Series`, que es similar a un `array` de Numpy, pero además lleva un **índice** o `index`.\
En este caso, lo crearemos a partir de una lista que contenga los valores de la columna de `Au`:

In [None]:
au = pd.Series([5.0, 6.1, 4.2, 2.4, 8.3], index=["A", "B", "C", "D", "E"])

In [None]:
au

Los objetos de tipo `Series` representan unidades de filas y columnas.

También podemos crear una serie a partir de un diccionario. En este caso, usaremos la columna de `Ag`:

In [None]:
ag = pd.Series({"A": 51.2, "B": 62.7, "C": 54.8, "D": 47.1, "E": 40.3})

In [None]:
ag

Podemos obtener el índice a través del atributo `index`:

In [None]:
ag.index

Y los valores a través del atributo `values`:

In [None]:
ag.values

Crearemos una nueva serie para la columna de `Cu`:

In [None]:
cu = pd.Series({"A": 3.2, "B": 4.5, "C": 2.1, "D": 4.8, "E": 5.4})
cu

Podemos crear una copia usando el método `copy`:

In [None]:
copia = cu.copy()
copia

Y también podemos modificar y agregar valores dentro de una serie.\
Si modificamos una copia, el original no es alterado:

In [None]:
copia[0] = 0
copia["F"] = 10
copia

Ahora crearemos las columnas para el `Zn` y el `Pb`:

In [None]:
index = ["A", "B", "C", "D", "E"]

zn = pd.Series(dict(zip(index, [4.0, 6.1, 3.5, 6.4, 8.9])))
pb = pd.Series(dict(zip(index, [3.4, 5.5, 3.1, 5.8, 6.7])))

In [None]:
zn

In [None]:
pb

Podemos hacer slicing dentro de una serie:

In [None]:
# Segunda y tercera fila de la columna Zn
zn[1:3]

In [None]:
# De la tercera a la quinta fila de la columna Pb
pb["C": "E"]

Podemos usar el método `loc` para ubicar un elemento dentro de una serie a partir del nombre asignado en su índice:

In [None]:
# La segunda fila de la columna Zn tiene por nombre "B"
zn.loc["B"]

O también podemos usar `iloc` para ubicar el elemento de acuerdo al orden de posición en la serie:

In [None]:
# La segunda fila de la columna Zn tiene por posición 1
zn.iloc[1]

## **3. DataFrame**
***
Un `DataFrame` agrupa objetos de tipo `Series` para generar una tabla de filas y columnas.\
Cada fila y columna del DataFrame puede llevar un nombre específico.

Usaremos las columnas de `Au`, `Ag`, `Cu`, `Zn` y `Pb` que hemos creado anteriormente para generar el DataFrame:

In [None]:
data = pd.DataFrame({"Au": au, "Ag": ag, "Cu": cu, "Zn": zn, "Pb": pb})
data

Podemos usar el método `head` para observar solamente las primeras filas de una tabla:

In [None]:
data.head(2)

Y también podemos usar el método `tail` para observar solamente las últimas fila de una tabla:

In [None]:
data.tail(3)

Para crear una copia del DataFrame, podemos usar el método `copy`:

In [None]:
copia = data.copy()
copia

## **4. Manipulación de datos**
***
### **4.1. Índices y columnas**
Para renombrar índices y columnas, podemos utilizar el método `rename`:

In [None]:
data.rename(columns={"Au": "Oro"}, index={"A": "M1"})

Podemos eliminar los índices utilizando el método `reset_index`:

In [None]:
data.reset_index()

Si agregamos el parámetro `drop=True`, el índice anterior será descartado:

In [None]:
data.reset_index(drop=True)

Si queremos hacer permanente el cambio, podemos utilizar el parámetro `inplace=True`:

In [None]:
data.reset_index(drop=True, inplace=True)
data

Podemos agregar un nuevo índice usando el atributo `index`:

In [None]:
data.index = ["A", "B", "C", "D", "E"]
data

También podemos colocarle un nombre al índice:

In [None]:
data.index.name = "Muestras"
data

Podemos extraer los nombres de las columnas con el atributo `columns`:

In [None]:
data.columns

Y también podemos consultar el tipo de dato en cada columna con el atributo `dtypes`:

In [None]:
data.dtypes

Para ordenar valores de acuerdo a una columna, podemos utilizar el método `sort_values`:

In [None]:
data.sort_values(by=["Au"])

### **4.2. Selección de filas y columnas**
Podemos seleccionar columnas a partir del nombre de la columna:

In [None]:
data["Au"]

Y también podemos seleccionar varias columnas usando una lista de columnas:

In [None]:
data[["Au", "Zn", "Cu"]]

Para seleccionar filas, podemos hacer **slicing**:

In [None]:
data[1:]

In [None]:
data["B":]

Y también podemos seleccionar elementos específicos utilizando `loc`.\
Las filas y columnas se especifican usando listas separadas:

In [None]:
data.loc[["A", "C"], ["Ag", "Pb"]]

También podemos utilizar rangos:

In [None]:
data.loc["A": "D", :]

Con `iloc` el proceso es similar, pero en vez de utilizar los nombres utilizamos el orden de posición:

In [None]:
data.iloc[[0, 2], [1, 4]]

In [None]:
data.iloc[0:4, :]

Si utilizamos expresiones lógicas, obtendremos un arreglo con valores de tipo lógico:

In [None]:
data["Au"] > 5.0

Podemos usar este arreglo para filtrar los datos de acuerdo a una condición:

In [None]:
data[data["Au"] > 5.0]

### **4.3. Modificación de filas y columnas**
Podemos eliminar filas y columnas utilizando el método `drop` (para hacer el cambio permanente, agregar el parámetro `inplace=True`:

In [None]:
data.drop(columns=["Au", "Ag"], index=["A", "B"])

También podemos agregar nuevas columnas, como por ejemplo, la suma de concentraciones de `Cu`, `Zn` y `Pb`:

In [None]:
data["Cu + Zn + Pb"] = data["Cu"] + data["Zn"] + data["Pb"]
data

Si queremos ordenar los valores en una columna, podemos utilizar el método `sort_values`:

In [None]:
data.sort_values(by=["Cu + Zn + Pb"])

### **4.4. Valores vacíos en Pandas**
Crearemos una columna de datos vacíos llamada `Null`:

In [None]:
import numpy as np

In [None]:
data["Null"] = np.nan
data

Para ubicar valores de tipo `nan` en la tabla, podemos usar el método `isna`:

In [None]:
data.isna()

Si queremos reemplazar los valores `nan`, podemos utilizar el método `fillna`:

In [None]:
data.fillna("")

Por último, si queremos eliminar los valores de tipo `nan`, podemos utilizar el método `dropna`.\
El párametro `axis` elimina todas las filas (0) o columnas (1) que contengan valores `nan`.

In [None]:
data.dropna(axis=1)

Si queremos hacer el cambio permanente, agregamos el parámetro `inplace=True`:

In [None]:
data.dropna(axis=1, inplace=True)
data

### **4.5. Guardar y cargar archivos en Pandas**
Para guardar la información en `csv`, utilizaremos el método `to_csv`:
- La dirección del archivo será el de la carpeta `files/` unido al nombre del archivo `analisis_quimico.csv`.

In [None]:
data.to_csv("files/analisis_quimico.csv")

Podemos volver a cargar el `csv` usando la función `read_csv`:

In [None]:
csv = pd.read_csv("files/analisis_quimico.csv")
csv

Para establecer una columna como índice, podemos utilizar el método `set_index`:

In [None]:
csv.set_index("Muestras")

Para guardar la información en `Excel`, utilizaremos el método `to_excel`:

In [None]:
data.to_excel("files/analisis_quimico.xlsx")

Cargamos el `Excel` creado usando la función `read_excel`:

In [None]:
pd.read_excel("files/analisis_quimico.xlsx")

### **4.6. Selección de filas aleatorias**
En el siguiente ejemplo, utilizaremos el archivo `rocas.csv`:

In [None]:
rocas = pd.read_csv("files/rocas.csv")

Para obtener un resumen estadístico de la tabla podemos usar el método `describe`:

In [None]:
rocas.describe()

Para observar el conjunto de valores únicos en una columna, podemos usar el método `unique`:

In [None]:
rocas["Nombre"].unique()

Para obtener muestras aleatorias de una tabla, podemos utilizar el método `sample`:

In [None]:
rocas.sample(5)

Podemos ordernar los índices de una tabla utilizando el método `sort_index`.
> Podemos utilizar diferentes métodos de Pandas en una sola línea al agregar un punto `.` que los separe.

In [None]:
rocas.sample(5).sort_index()

Para invertir el orden, podemos agregar el parámetro `ascending=False`:

In [None]:
rocas.sample(5).sort_index(ascending=False)

### **4.7. Creación de nuevas columnas de datos**
Crearemos una nueva columna para nombrar las muestras usando el método `apply`.\
Para esto, necesitamos una función llamada `muestra` que genere un nombre para cada muestra:

In [None]:
def muestra(row):
    nombre = "M-" + str(row.name)
    return nombre

In [None]:
rocas.apply(muestra, axis=1)

Ahora, agregaremos esta columna de datos dentro de la tabla:

In [None]:
rocas["Muestra"] = rocas.apply(muestra, axis=1)

In [None]:
rocas.sample(5)

De esta forma, tenemos una columna con valores únicos que identifica cada muestra.

También podemos clasificar valores en una tabla usando la función `cut`.\
Por ejemplo, clasificaremos las filas de acuerdo a los valores de `SiO2`:

In [None]:
pd.cut(rocas["SiO2"], bins=2)

Para establecer el nombre de cada categoría, agregamos el parámetro `labels`:

In [None]:
pd.cut(rocas["SiO2"], bins=2, labels=["Ultramáfico", "Intermedio"])

### **4.8. Concatenación de tablas**
Separaremos la tabla en dos:
- La primera tabla tendrá los valores de `Muestra` y `SiO2`.
- La segunda tabla tendrá los valores de `Muestra` y `Al2O3`.

In [None]:
tabla_1 = rocas[["Muestra", "SiO2"]].copy()
tabla_2 = rocas[["Muestra", "Al2O3"]].copy()

In [None]:
tabla_1.sample(5)

In [None]:
tabla_2.sample(5)

Podemos unir ambas tablas usando la función `merge`, el parámetro `on` corresponde a la columna bajo la cual se unirán ambas tablas.\
En este caso, eligiremos la columna `Muestra` pues contiene valores únicos que identifican cada muestra:

In [None]:
pd.merge(tabla_1, tabla_2, on="Muestra")

Otra opción consiste en utilizar los parámetros `how`, `left_on` y `right_on`.\
El parámetro `how` puede ser `inner` para unir elementos en común o `outer` para unir todos los elementos en ambas tablas.\
Los parámetros `left_on` y `right_on` corresponden a las columnas de la primera y segunda tabla que serán usadas para la concatenación.

In [None]:
pd.merge(tabla_1, tabla_2, how="inner", left_on="Muestra", right_on="Muestra")

### **4.9. Agrupamiento de datos**
Para agrupar datos de acuerdo a una o varias columnas, podemos utilizar el método `groupby`.\
El uso de esta función nos permite realizar operaciones sobre cada uno de los grupos de datos de forma independiente.

In [None]:
rocas.groupby(["Nombre"])

In [None]:
# Conteo de elementos por grupo
rocas.groupby("Nombre").count()

In [None]:
# Media por grupo
rocas.groupby(["Nombre"]).mean()

In [None]:
# Media de SiO2 por grupo
rocas.groupby(["Nombre"])["SiO2"].mean()

In [None]:
# Mediana por grupo
rocas.groupby(["Nombre"]).median()

In [None]:
# Coeficiente de variación por grupo
rocas.groupby("Nombre").std() / rocas.groupby("Nombre").mean()

Por último, si queremos ejecutar una o varias funciones sobre columnas específicas podemos usar el método `agg`:

In [None]:
rocas.groupby("Nombre").agg({"SiO2": [np.max, np.min], "Al2O3": [np.max, np.min]})