# Estructuras de datos: Dataframes (_librería **pandas**_)

**pandas** es un paquete de código abierto (open-source) que permite de una forma sencilla y potente manipular estructuras de datos a través de múltiples herramientas para su análisis.

La forma más usual de importar esta librería es utilizando el alias `pd`.

In [None]:
# pip install pandas    (en la terminal)
# import pandas as pd   (en el cuaderno de Jupyter o archivo Python)

Con pandas se tiene 2 estructuras de datos fundamentales: las `series` y los `dataframes`. Se iniciará con el estudio de las `series`.

## Series
### Creación de series
Para crear una serie se utiliza la función `Series()`.

In [None]:
# Ingrese su código aquí 👻

La serie por defecto se crea con índices que empiezan en 0. Sin embargo, se puede especificar el índice de los elementos mediante el parámetro `index`. 

In [None]:
# Ingrese su código aquí 👻

Al igual que se puede modificar el nombre de la serie mediante el parámetro `name`.

In [None]:
# Ingrese su código aquí 👻

**Observación**

Un dato interesante es que pasando un diccionario como argumento para crear una serie se crea automáticamente la serie con las claves como índices y los valores como los elementos de la serie.

In [None]:
# Ingrese su código aquí 👻

#### Ejemplo
Cree una serie de pandas con valores enteros en el intervalo $[1, 26]$ y etiquetas `'ABCDEFGHIJKLMNOPQRSTUVWXYZ'`. Busque una manera programática (no manual) de hacerlo.

*Ejercicio tomado de Delgado, 2024.*

#### Solución

In [None]:
# Ingrese su código aquí 👻

### Atributos de una serie

Las series poseen atributos bastante útiles de los cuales se destacan los siguientes:
* `index`
* `values`
* `dtype`
* `name`
* `size`

In [None]:
# Ingrese su código aquí 👻

### Indexación de series
Existen diversas formas de indexar elementos de una serie.
* Indexación numérica
* Indexación mediante el atributo `iloc`
* Indexación mediante etiquetas
* Indexación mediante el atributo `loc`

Lo interesante es que las dos primeras indexaciones son bastante similares en su forma de trabajar, al igual que las dos últimas.

In [None]:
# Ingrese su código aquí 👻

Otra indexación extremadamente útil es la indexación lógica.

In [None]:
# Ingrese su código aquí 👻

### Ordenación de series
Utilizando los métodos `sort_values` y `sort_index` se puede ordenar los elementos de una serie por sus valores o por sus índices, respectivamente.

In [None]:
# Ingrese su código aquí 👻

Ambos métodos permiten el uso de los parámetros `ascending` y `inplace` los cuales permiten determinar el orden de ordenamiento (ascendente o descendente) y si el ordenamiento será en la propia serie o se creará una nueva, respectivamente.

In [1]:
# Ingrese su código aquí 👻

### Operaciones entre series

Se puede realizar distintos tipos de operaciones con series y entre ellas, de las cuales se destacan:
* Operación entre series y escalares
* Operaciones entre series

Para esta última operación se debe considerar que la operación se realiza entre valores del mismo índice.

In [None]:
# Ingrese su código aquí 👻

### Funciones estadísticas

Existen varias funciones útiles relacionadas con la estadística:
* `min()`
* `max()`
* `argmin()`
* `argmax()`
* `idxmin()`
* `idxmax()`
* `nsmallest()`
* `nlargest()`

In [None]:
# Ingrese su código aquí 👻

### Exportación de series

Para exportar una serie a otro tipo de dato o a un archivo externo se puede utilizar los siguientes métodos:
* `to_list()`
* `to_dict()`
* `to_frame()`
* `to_csv()`
* `to_excel()`

Existen muchos más métodos, pero éstos son los más usuales.

In [7]:
# Ingrese su código aquí 👻

## DataFrames
Una DataFrame es una estructura tabular la cual está conformada por varias series. Se parece bastante a las tablas que se utilizan en otros programas con Excel.

<figure style="text-align: center;">
  <div><strong>Fig. 1.</strong> Estructura de un DataFrame a partir de Series </div>
  <img src="markdown_resources/1.png" style="width: 75%; height: auto;">
  <figcaption>Tomado de <strong>Aprende Python</strong> de <em>Sergio Delgado Quintero</em>.</figcaption>
</figure>

### Creación de DataFrames
Los DataFrames se crean mediante el método `DataFrame()` a través de diccionarios, listas, Series o incluso mediante la lectura (importación) de archivos. Esta última forma se estudiará en un tema aparte.

In [None]:
# Ingrese su código aquí 👻

Los DataFrames también poseen índices que por defecto empiezan en 0, pero se puede modificarlos según la necesidad o asignar una columna del DataFrame como los valores de los índices. Para esto último se utiliza el método `set_index()` donde el argumento que se debe indicar es el nombre de la columna.

Por supuesto que también es posible asignar directamente los índices utilizando el parámetro `index` en el método `DataFrame()`.

In [None]:
# Ingrese su código aquí 👻

Para modificar el nombre de la columna de índices, si así se quisiese, se utiliza el atributo `index.name`.

In [17]:
# Ingrese su código aquí 👻

### Visualización de los datos

Una forma rápida de saber si el DataFrame que hemos creado, o importado, ha sido correcto es utilizar los métodos `head()` y `tail()` que permiten visualizar las primeras y últimas, respectivamente, 5 observaciones.

In [18]:
# Ingrese su código aquí 👻

### Información de los datos

Dos métodos bastante útiles para conocer la información de los datos con los que estamos trabajando son `info()` y `describe()`.

In [None]:
# Ingrese su código aquí 👻

### Atributos de un DataFrame

Al igual que ocurría con las Series, los DataFrames poseen atributos bastante útiles. A continuación se listan algunos de ellos:
* `shape`
* `size`
* `ndim`
* `index`
* `columns`
* `values`

In [None]:
# Ingrese su código aquí 👻

### Indexación de elementos en un DataFrame

Antes de hablar de la indexación de un DataFrame se debe conocer su estructura. La siguiente imagen la detalla bastante bien.

<figure style="text-align: center;">
  <div><strong>Fig. 2.</strong> Estructura de un DataFrame. </div>
  <img src="markdown_resources/2.png" style="width: 60%; height: auto;">
  <figcaption>Tomado de <strong>Aprende Python</strong> de <em>Sergio Delgado Quintero</em>.</figcaption>
</figure>

Entonces bien, una vez analizada y comprendida la estructura de un DataFrame se puede mencionar que la indexación es bastante similar a la indexación de Series.

In [None]:
# Ingrese su código aquí 👻

**Indexación por filas**

* Indexación mediante el atributo `iloc`
* Indexación mediante el atributo `loc`

In [None]:
# Ingrese su código aquí 👻

**Indexación por columnas**
* Se debe escribir el nombre, o nombres, de las columnas a las que se desea acceder.

In [None]:
# Ingrese su código aquí 👻

**Indexación por filas y columnas**

* Indexación mediante el atributo `iloc`
* Indexación mediante el atributo `loc`

In [19]:
# Ingrese su código aquí 👻

**Indexación lógica**

A través de operaciones relacionales y operaciones lógicas se puede obtener arreglos lógicos los cuales se puede utilizar para indexar un DataFrame.

Sin embargo, cuando se opera con DataFrames y operaciones relacionales, las operaciones lógicas tienen los siguientes operadores:

* **or** lógico: operador `|`
* **and** lógico: operador `&`
* **not** lógico: operador `~`
* **xor** lógico: operador `^`

In [None]:
# Ingrese su código aquí 👻

### Modificación de valores de un DataFrame

Basta con acceder a los elementos, indexarlos, y asignarlos al valor deseado para modificar un DataFrame.

**Observación**

Se debe considerar que la modificación se realizará sobre el propio DataFrame, por lo que si se desea tener el original y el modificado, entonces se debe utilizar el método `copy()` para crear una copia del DataFrame original y poder trabajar sobre la copia sin necesidad de alterar el DataFrame original.

In [None]:
# Ingrese su código aquí 👻

### Añadir y borrar filas de un DataFrame

Para añadir una fila a un DataFrame se utiliza el método `loc()`.

In [None]:
# Ingrese su código aquí 👻

Ahora bien, para borrar una fila del DataFrame se utiliza el método `drop()` con el parámetro `labels` donde se indica los índices de las filas que se desea eliminar.

In [None]:
# Ingrese su código aquí 👻

### Añadir y borrar columnas de un DataFrame

Añadir una columna a un DataFrame es similar a añadir un elemento a un diccionario. Es decir, se indica el nombre de la columna al DataFrame y se asignan sus valores. Las características de la columna añadida deben ser similares a las características de las columnas del DataFrame.

In [None]:
# Ingrese su código aquí 👻

Para borrar columnas se utiliza la misma forma de las filas, pero se debe añadir un parámetro extra que es `axis` e indicar que se trabajará por columnas, es decir, `axis=1`.

In [None]:
# Ingrese su código aquí 👻

----
## Material adicional
* [pandas](https://aprendepython.es/pypi/datascience/pandas/#)
* [pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html)