[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Operaciones básicas con dataframes.

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime

## *Broadcasting*.

Las series y *dataframes* de *Pandas* son compatibles con el *broadcasting* de los arreglos de *Numpy*.

**Ejemplo:**

* Se creará un *dataframe* con el nombre ```datos``` usando un arreglo de *Numpy* que contiene una secuencia numérica de ```0``` a ```19```con la forma ```(5, 4)```.  Los títulos de las columnas corresponden a  ```'primero'```, ```'segundo'```, ```'tercero'``` y ```'cuarto'```.

In [None]:
datos = pd.DataFrame(np.arange(20).reshape(5, 4), 
                     columns=('primero', 
                              'segundo', 
                              'tercero', 
                              'cuarto'))

In [None]:
datos

* La siguiente celda regresará un *datafame* correspondiente a los índices ```datos[2:]``` en el que cada uno de sus elementos será multiplicado por ```5```.

In [None]:
datos[2:]

In [None]:
datos[2:] * 5

* A continuación se realizará la misma operación, pero asignando el resultado a los elementos en ```datos[2:]```.

In [None]:
datos

In [None]:
datos[2:] = datos[2:] * 5

In [None]:
datos

## Un *dataframe* ilustrativo.

La siguiente celda creará al *dataframe* con nombre ```personal``` con las siguientes características:

   * Está conformado por las columnas: ```'nombres'```, ```'fechas'```, ```'saldo'``` y ```'al corriente'```.

   * Los índices corresponden a: ```'gerente'```, ```'supervisor'```. ```'vendedor'``` y ```'cajero'```.

In [None]:
indice = ['gerente', 'supervisor', 'vendedor', 'cajero']
personal = pd.DataFrame({'nombres':('Juan Pérez', 
                                    'María Sánchez', 
                                    'Jorge Vargas', 
                                    'Rodrigo Martínez'),
            'fechas':(datetime(1995,12,21), 
                      datetime(1989,1,13), 
                      datetime(1992,9,14), 
                      datetime(1993,7,8)),
            'saldo': (2500, 
                      5345, 
                      np.NaN, 
                      11323.2),
            'al corriente':(True, 
                            True, 
                            False, 
                            True)}, 
            index=indice)

In [None]:
personal

## Atributos y métodos sobre la estructura de los *dataframes* de *Pandas*.

Tanto los objetos de *Pandas* como los arreglos de *Numpy* son estructuras de datos distintas a los objetos de *Python*. Ambas bibliotecas fueron diseñadas para optimizar las operaciones de cálculo de algebra lineal y el uso optimizado de memoria para arreglos y *dataframes* de grandes dimensiones.

### El atributo ```pd.DataFrame.shape```.

Este atributo contiene los datos de las dimensiones de un *dataframe* de *Pandas* descritas en una tupla en la que el primer elemento corresponde al eje ```0``` (los renglones) y el segundo elemento corresponde al eje ```1``` (las columnas).

La documentación del atributo ```pd.DataFrame.shape``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html

**Ejemplo:**

* La siguiente celda regresará las dimensiones del *dataframe* ```personal```.

In [None]:
personal.shape

### El atributo ```pd.DataFrame.index```.

Este atributo es un objeto de tipo ```pd.Index```, el cual contiene al índice del *dataframe*.

La documentación del atributo ```pd.DataFrame.index``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.index.html

**Ejemplo:**

* La siguiente celda regresará el atributo ```index``` del *dataframe* ```personal```.

In [None]:
personal.index

In [None]:
type(personal.index)

### El atributo ```pd.DataFrame.columns```.

Este atributo es un objeto de tipo ```pd.Index```, el cual contiene a los encabezados de las columnas del *dataframe*.

La documentación del atributo ```pd.DataFrame.columns``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html

**Ejemplo:**

* La siguiente celda regresará el atributo ```columns``` del *dataframe* ```personal```.

In [None]:
personal.columns

In [None]:
type(personal.columns)

### El método ```pd.DataFrame.info()```.

El método ```pd.DataFrame.info()``` permite extraer la información básica de una serie o un *dataframe*, incluyendo el espacio que ocupa en memoria.

```
<objeto>.info()
```

Donde:

* ```<objeto>``` es un *dataframe* o una serie de *Pandas*.

La documentación del método ```pd.DataFrame.info()``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html

* La siguiente celda regresará la información relativa al *dataframe* ```personal``` usando el método ```info()```.

In [None]:
personal.info()

### El método ```pd.DataFrame.memory_usage()```.

El método ```pd.DataFrame.memory_usage()``` regresa una serie que describe el espacio que ocupa en memoria cada columna de un *dataframe*.

```
df.memory_usage()
```
La documentación del método ```pd.DataFrame.memory_usage()``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.memory_usage.html

In [None]:
personal.memory_usage()

### El método ```pd.Dataframe.copy()```.

El método ```pd.Dataframe.copy()``` regresa una copia idéntica de un *dataframe*.

```
df.copy()
```

**Ejemplo:**

* La siguiente celda le asignará al *dataframe* llamado ```personal``` el nombre ```otro_personal```.

In [None]:
otro_personal = personal

Tanto ```personal``` como ```otro_personal``` corresponden al mismo objeto.

In [None]:
otro_personal is personal

* La siguiente celda creará una copia del *dataframe* ```personal``` y le asignará el nombre ```nuevo_personal```.

In [None]:
nuevo_personal = personal.copy()

In [None]:
nuevo_personal

* Aún cuando los *dataframes* ```personal``` y ```nuevo_personal``` contienen elementos idénticos, son objetos distintos.

In [None]:
nuevo_personal is personal

### El método ```pd.DataFrame.reset_index()```.

Este método regresará un *dataframe* el cual sustituirá a los índices del *dataframe* original con valores numéricos y creará una nueva columna con el identificador ```index``` conteniendo a los identificadores sustituidos.

```
df.reset_index()
```

La documentación del método ```pd.DataFrame.reset_index()``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html

**Ejemplo:**

* La siguiente celda regresará un dataframe aplicando el método ```reset_index()``` a partir del *dataframe* ```personal```.

In [None]:
personal.reset_index()

### El parámetro ```inplace```.

Los métodos que modifican la estructura de un *dataframe* generalmente regresan un nuevo *dataframe* con los cambios aplicados. El parámetro ```inplace``` permite modificar este comportamiento.

```
df.<método>(<args>, inplace=<booleano>)
```

Donde:

* ```<método>``` es un objeto que manipula la estructura de un *dataframe*.
* ```<args>``` corresponde al resto de los argumentos del métodos.
* ```<booleano>``` es un valor booleano.
    * El argumento ```inplace=False```, indica que el método regresará un nuevo *dataframe* con las modificaciones realizadas. Este es el argumento por defecto.
    * El argumento ```inplace=True```, indica que los cambios realizados por el método se aplicarán al objeto que contiene al método.


**Ejemplo:**

* Se utilizará al *dataframe* ```nuevo_personal```, definido previamente.

In [None]:
nuevo_personal

* La siguiente celda aplicará los cambios del método ```personal.reset_index()``` directamente al *dataframe* ```nuevo_personal```. El método no regresará nada.

In [None]:
nuevo_personal.reset_index(inplace=True)

* El *dataframe* ```nuevo_personal``` fue modificado.

In [None]:
nuevo_personal

### El método ```pd.DataFrame.set_index()```. 

El método ```pd.DataFrame.set_index()``` regresa un *dataframe* en el que el índice del *dataframe* original es sustituido por la columna correspondiente al identificador ingresado como argumento.


```
df.set_index(<columna>)
```

Donde:

* ```<columna>``` es un objeto de tipo ```str``` correspondiente al identificador de la columna que será el nuevo índice.

**Nota:** El nuevo índice se insertará en un nivel adicional al original. Los índices múltiples se explorarán en capítulos adicionales.

La documentación del método ```pd.DataFrame.set_index()``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html

**Ejemplo:**

* Se utilizará el *dataframe* ```personal```, definido previamente.

In [None]:
personal

* La siguiente celda regresará un *dataframe* cuyo índice será la columna ```'nombres'``` del *dataframe* ```personal```.

In [None]:
personal.set_index('nombres')

In [None]:
personal.set_index('nombres').columns

In [None]:
personal.set_index('nombres').index

### El método ```pd.DataFrame.reindex()```.

El método ```reindex()``` regresa un *dataframe* conformado por los índices cuyos identificadores coincidan con los elementos de un objeto de tipo ```tuple``` ingresado como argumento.

```
df.reindex((<índice 1>, <índice 2>, ... ,<índice n>))
```

Donde:

* Cada ```<índice i>``` es un objeto de tipo ```str``` correspondiente al identificador de un índice del *dataframe*.

**Nota:** Este método permite repetir índices.

La documentación del método ```pd.DataFrame.reindex()``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reindex.html

**Ejemplo:**

La siguente celda regresará un *dataframe* creado a partir del *dataframe* ```personal``` cuyos renglones corresponderán a los indices ```"gerente"```, ```"supervisor"``` y ```"supervisor"```.

In [None]:
personal.reindex(("gerente", "supervisor", "supervisor"))

## Métodos para localizar series de elementos en un *dataframe*.

*Pandas* cuenta con los siguientes métodos para localizar elementos dentro de un *datafarame*.

**Nota:** Hasta la versión 0.20.0 de *Pandas* se podía utilizar el método ```ix```, pero este ha sido desechado y se considera obsoleto, por lo que no se documentará al respecto.

### El método ```iloc[ ]```.

El método ```iloc[ ]``` permite identificar a uno o más elemento dentro de un renglón de un *dataframe* utilizando números enteros para referenciar tanto al índice como a las columnas.

Cabe hacer notar que el método ```iloc[ ]``` no usa paréntesis, sino corchetes.

```
df.iloc[<índice>,[<col_1>, <col_2>, ... <col_n>]]
```

Donde:
 
* ```<índice>``` es el índice o un rango de índices *dataframe* expresados como números entero.
* Cada ```<col_i>``` corresponde al índice de una columna de un *dataframe* expresado como un número entero.

El resultado será un objeto de *Pandas*.

En caso de que no se definan columnas, traerá todas las columnas del renglón.

La documentación del método ```pd.DataFrame.iloc[]``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html

**Ejemplo:**

* Se definirá el *dataframe* ```datos```.

In [None]:
datos = pd.DataFrame(np.arange(20).reshape(5, 4), 
                     columns=('primero', 
                              'segundo', 
                              'tercero', 
                              'cuarto'))

In [None]:
datos

* La siguiente celda utilizará el método ```datos.iloc[]```, el cual regresará una serie que contiene al elemento localizado en el renglón de índice ```2``` y de la columna con índice ```3```.

In [None]:
datos.iloc[2,[3]]

* El resultado es una serie.

In [None]:
type(datos.iloc[2,[3]])

* La siguiente celda utilizará el método ```datos.iloc[]```, el cual regresará una serie con los elementos de las columnas con índices ```2```, ```1``` y ```3``` del renglón con índice ```2```.

In [None]:
datos.iloc[2, [2, 1, 3]]

In [None]:
type(datos.iloc[2,[2, 1, 3]])

* La siguiente celda utilizará el método ```datos.iloc[]```, el cual regresará una serie con los elementos de las columnas con índice  ```0```, ```1```, ```2``` y ```2``` del renglón con índice ```2```.

In [None]:
datos.iloc[2,[0, 1, 2, 2]]

* La siguiente celda utilizará el método ```dato.iloc[]```, el cual regresará una serie con todos los elementos de todas las columnas del renglón con índice ```2```.

In [None]:
datos.iloc[2]

* La siguiente celda utilizará el método ```dato.iloc[]```, el cual regresará un *dataframe*  todos los elementos de las columnas con índices ```2``` y  ```1```.

In [46]:
datos.iloc[: , [2, 1]]

Unnamed: 0,tercero,segundo
0,2,1
1,6,5
2,10,9
3,14,13
4,18,17


* La siguiente celda hace referencia a más de un índice, lo cual no está permitido y se generará un error de tipo ```IndexingError```.

In [None]:
datos.iloc[2, 3, [0, 1, 2]]

### El método ```pd.DataFrame.loc[ ]```.

El método ```loc[ ]``` permite identificar a uno o más elemento dentro de un renglón de un *dataframe* utilizando los identificadores para referenciar tanto al índice como a las columnas.

Cabe hacer notar que el método ```loc[ ]``` no usa paréntesis, sino corchetes.

```
df.loc[<id_índice>,[<id_col_1>, <id_col_2>, ... <id_col_n>]
```
Donde:

* ```<id_índice>```  es el índice o un rango de índices *dataframe* expresados como cadenas de caracteres.
* Cada ```<id_col_i>``` es un objeto de tipo ```str``` correspondiente al identificador de una columna dentro del *dataframe*.


El resultado será un objeto de *Pandas*.

En caso de no definir columnas, traerá todos los elementos del renglón.

La documentación del método ```pd.DataFrame.loc[]``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html

**Ejemplo:**

* En este ejemplo se usará el *dataframe* ```personal``` definido previamente.

In [None]:
personal

* La siguiente celda utilizará el método ```personal.iloc[]```, el cual regresará una serie que contiene al elemento correspondiente a la celda con índice ```'supervisor'``` y a la columna ```'fechas'```.

In [None]:
personal.loc["supervisor", ["fechas"]]

* La siguiente celda utilizará el método ```personal.iloc[]```, el cual regresará una serie que contiene el elemento correspondiente a las celdas correspondientes a las columnas ```'fechas'``` y ```'nombres'``` del renglón con índice ```'gerente'```.

In [None]:
personal.loc["gerente", ["fechas", "nombres"]]

* La siguiente celda utilizará el método ```personal.iloc[]```, el cual regresará una *dataframe* que contiene a todos los elementos de las columnas ```'fechas'``` y ```'nombres'```.

In [None]:
personal.loc[:, ["fechas", "nombres"]]

* La siguiente celda generará una excepción de tipo ```KeyError```, debido a que se ingresa un índice numérico y no un identificador.

In [None]:
personal.loc[1, ["fechas", "nombres"]]

### El método ```pd.DataFrame.loc[ ]``` con expresiones lógicas.

El métódo ```pd.DataFrame.loc[ ]``` permite realizar búsquedas de datos dentro de una columna del *dataframe* usando expresiones lógicas. El resultado será un *dataframe* con aquellos renglones en los que la expresión evaluada resulte en ```True```.

```
df.loc[<expresión lógica>] 
```

Donde:

* ```<expresión lógica>``` es una expresión en la que una columna ```df[<id_columna>]``` es evaluada mediante una expresión lógica.

**Ejemplos:**

 * Se utilizará el dataframe ```personal``` definido previamente.

In [None]:
personal

* La siguiente celda aplicará el método ```personal.loc[]``` al que se le ingresará la expresión ```personal["saldo"] > 3000```. El resutado será un *dataframe* con los renglones que cumplan con la expresión.

In [None]:
personal.loc[personal["saldo"] > 3000]

* * La siguiente celda aplicará el método ```personal.loc[]``` al que se le ingresará la expresión ```personal['al corriente']```. El resutado será un *dataframe* con los renglones en los que el valor de la columna ```'al_corriente'``` sean ```True```.

In [None]:
personal.loc[personal['al corriente']]

* La siguiente celda aplicará el método ```personal.loc[]``` al que se le ingresará la expresión ```personal["al corriente"] == False```. El resutado será un *dataframe* con los renglones que cumplan con la expresión.

In [None]:
personal.loc[personal["al corriente"] == False]

## Identificación de elementos en un *dataframe*.

### El método ```iat[ ]```.

El método ```iat[ ]``` permite identificar a un único elemento dentro de un *dataframe* mediante su posición expresada de la siguiente manera con números enteros.

```
df.iat[<índice>, <col>]
```

Donde:
 
* ```<índice>``` es el índice de un *dataframe* expresado como un número entero.
* ```<col>``` es el índice de una columna de un *dataframe* expresado como un número entero.

A diferencia de ```iloc[ ]```, sólamente acepta un índice de columna.

La documentación del método ```pd.DataFrame.iat[]``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iat.html

**Ejemplo:**

* Se utilizará el *dataframe* ```personal```, definido previamente.

In [None]:
personal

* La siguiente celda regresará al elemento localizado donde convergen el índice ```1``` y la columna con índice ```1``` del *dataframe* ```personal```.

In [None]:
personal.iat[1, 1]

### El método ```at[ ]```.


El método ```at[ ]``` permite identificar a un único elemento dentro de un *dataframe* mediante su posición expresada mediante los identificadores correspondientes.

```
df.at[<id_índice>, <id_col>]
```
Donde:

* ```<id_índice>``` es un objeto de tipo ```str``` correspondiente al identificador de un índice dentro del *dataframe*.
* ```<id_col>``` es un objeto de tipo ```str``` correspondiente al identificador de una columna dentro del *dataframe*.

La documentación del método ```pd.DataFrame.at[]``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.at.html

**Ejemplos:**

* Se utilizará el *dataframe* ```personal```, definido previamente.

In [None]:
personal

* La siguiente celda regresará al elemento contenido en ```personal``` donde convergen el índice con identificador ```"gerente"``` y la columna con identificador ```"saldo"```.

In [None]:
personal.at["gerente", "saldo" ]

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>