[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

# Operaciones básicas con dataframes.

In [None]:
import pandas as pd
import numpy as np

## Broadcasting.

Las series y dataframes de *Pandas* son compatibles con el broadcasting de los arreglos de *Numpy*.

**Ejemplo:**

* Se creará un dataframe con el nombre ```datos``` usando una secuencia numérica.

In [None]:
datos = pd.DataFrame(np.arange(20).reshape(5,4), 
                     columns=('primero', 'segundo', 'tercero', 'cuarto'))

In [None]:
datos

* Se realizará una multiplicación a todos elementos cuyos índices estén en el intervalo ```[2:]```.

In [None]:
datos[2:] * 5

* A continuación se realizará la misma opración, pero asignando el resultado a los elementos en ```datos[2:]```.

In [None]:
datos[2:] = datos[2:] * 5

In [None]:
datos

## Obtención de información con el método ```info()```.

Tanto los objetos de *Pandas* como los arreglos de *Numpy* son estructuras de datos distintas a los objetos de Python. Ambas bibliotecas fueron diseñadas para optimizar las operaciones de cálculo de algebra lineal y el uso optimizado de memoria para arreglos y dataframes de grandes dimensiones.

El método ```info()``` permite extraer la información básica de una serie o un dataframe, incluiyendo el espacio que ocupa en memoria.

**Ejemplo:**

In [None]:
indice = ['gerente', 'supervisor', 'vendedor', 'cajero']
personal = pd.DataFrame({'nombres':('Juan Pérez', 
                                    'María Sánchez', 
                                    'Jorge Vargas', 
                                    'Rodrigo Martínez'),
            'fechas':(pd.datetime(1995,12,21), 
                      pd.datetime(1989,1,13), 
                      pd.datetime(1992,9,14), 
                      pd.datetime(1993,7,8)),
            'saldo': (2500, 
                      5345, 
                      np.NaN, 
                      11323.2),
            'al corriente':(True, 
                            True, 
                            False, 
                            True)}, 
            index=indice)

In [None]:
personal

In [None]:
personal.info()

## Métodos para definir elementos en un dataframe.

Además de los corchetes, *Pandas* cuenta con los siguientes métodos para identificar elementos dentro de un datafarame.

**Nota:** Hasta la versión 0.20.0 de *Pandas* se podía utilizar el método ```ix```, pero este ha sido desechado y se considera obsoleto, por lo que no se documentará al respecto.

### El método ```iloc[ ]```.

El método ```iloc[ ]``` permite identificar a uno o más elemento dentro de un renglón de un dataframe utilizando números enteros para referenciar tanto al índice como a las columnas.

Cabe hacer notar que el método ```iloc[ ]``` no usa paréntesis, sino corchetes.

```
<dataframe>.iloc[<indice>,[<indices de encabezado 1>, <indices de encabezado 1>, ... <indices de encabezado n>]]
```

El resultado será una serie de *Pandas*.

En caso de que no se definan columnas, traerá todas las columnas del renglón.

**Ejemplo:**

* Se definirá el dataframe ```datos```.

In [None]:
datos = pd.DataFrame(np.arange(20).reshape(5, 4), 
                     columns=('primero', 'segundo', 'tercero', 'cuarto'))

In [None]:
datos

* Se seleccionará al elemento localizado en el tercer renglón (```[2]```) y la cuarta columna (```[3]```).

In [None]:
datos.iloc[2,[3]]

* El resultado es una serie.

In [None]:
type(datos.iloc[2,[3]])

* La siguiente celda utilizará el método ```iloc[]```, el cual regresará una serie con los elementos de las columnas ```2```, ```1``` y ```3```del tercer renglón (```[2]```).

In [None]:
datos.iloc[2,[2, 1, 3]]

In [None]:
type(datos.iloc[2,[2, 1, 3]])

* La siguiente celda utilizará el método ```iloc[]```, el cual regresará una serie con los elementos de las columnas ```0```, ```1```, ```2``` y ```2``` del tercer renglón (```[2]```).

In [None]:
datos.iloc[2,[0, 1, 2, 2]]

In [None]:
datos.iloc[2]

* La siguiente celda hace referencia a más de un índice, lo cual no está permitido y se generará un error de tipo ```IndexingError```.

In [None]:
datos.iloc[2, 3,[0, 1, 2]]

### El método ```loc[ ]```.

El método ```loc[ ]``` permite identificar a uno o más elemento dentro de un renglón de un dataframe utilizando los identificadores para referenciar tanto al índice como a las columnas.

Cabe hacer notar que el método ```loc[ ]``` no usa paréntesis, sino corchetes.

```
<dataframe>.loc[<identificador de indice>,[<identificador de encabezado 1>, <identificador de encabezado 2>, ... <identificador de encabezado n>]]
```

El resultado será una serie de *Pandas*.

En caso de no definir columnas, traerá todos los elementos del renglón.

**Ejemplo:**

* Se creará al dataframe ```personal```.

In [None]:
indice = ['gerente', 'supervisor', 'vendedor', 'cajero']
personal = pd.DataFrame({'nombres':('Juan Pérez', 
                                    'María Sánchez', 
                                    'Jorge Vargas', 
                                    'Rodrigo Martínez'),
            'fechas':(pd.datetime(1995,12,21), 
                      pd.datetime(1989,1,13), 
                      pd.datetime(1992,9,14), 
                      pd.datetime(1993,7,8)),
            'saldo': (2500, 
                      5345, 
                      np.NaN, 
                      11323.2),
            'al corriente':(True, 
                            True, 
                            False, 
                            True)}, 
            index=indice)

In [None]:
personal

* La sigujiente celda utilizará el método ```iloc[]```, el cual regresará una serie que contiene el elemento correspondiente a la celda con índice ```'supervisor'``` y a la columna ```'fechas'```.

In [None]:
personal.loc["supervisor", ["fechas"]]

* La sigujiente celda utilizará el método ```iloc[]```, el cual regresará una serie que contiene el elemento correspondiente a las celdas correspondientes a las columnas ```fechas``` y ```'nombres'``` del renglón con índice ```'gerente'```.

In [None]:
personal.loc["gerente", ["fechas", "nombres"]]

* La siguiente celda generará una excepción de tipo ```TypeError```.

In [None]:
personal.loc[1, ["fechas", "nombres"]]

#### Selección de elementos usando operadores lógicos con el método ```loc[ ]```.

El métódo permite realizar búsquedas de datos dentro de una columna del dataframe usando expresiones lógicas.

```
<dataframe.loc[<columna del dataframe> <operador> <valor>] 
```

In [None]:
personal

In [None]:
personal.loc[personal["saldo"] > 3000]

In [None]:
personal.loc[personal["al corriente"]]

In [None]:
personal.loc[personal["al corriente"] == False]

### El método ```iat[ ]```.

El método ```iat[ ]``` permite identificar a un único elemento dentro de un dataframe mediante su posición expresada de la siguiente manera con números enteros.

```
<dataframe>.iat[<índice del índice>, <índice de la columna>]
```

A diferencia de ```iloc[ ]```, sólamente acepta un índice de columna.

El resultado es un valor.

**Ejemplo:**

In [None]:
personal

In [None]:
personal.iat[1, 1]

### El método ```at[ ]```.


El método ```at[ ]``` permite identificar a un único elemento dentro de un dataframe mediante su posición expresada mediante los identificadores correspondientes.

```
<dataframe>.at[<identificador del índice>, <ídentificador de la columna>]
```

A diferencia de ```loc[ ]```, sólamente acepta un índice de columna.

El resultado es un valor.

**Ejemplos:**

In [None]:
personal.at["gerente", "saldo" ]

In [None]:
personal.loc["gerente", ["saldo", "nombres" ]]

In [None]:
personal.at["gerente", ["saldo", "nombres" ]]

## El atributo ```shape```.

In [None]:
personal.shape

## El atributo ```columns```.

In [None]:
personal.columns

In [None]:
nuevas_columnas = pd.core.indexes.base.Index(["NOMBRE",
                                                 "FECHA",
                                                 "SALDO",
                                                "AL CORRIENTE"])

In [None]:
personal.columns = nuevas_columnas

In [None]:
personal

## El atributo ```index```.

In [None]:
personal.index

In [None]:
nuevos_indices = pd.core.indexes.base.Index(["Admin",
                                                 "Colaborador 1",
                                                 "Colaborador 2",
                                                "Colaborador 3"])

In [None]:
personal.index = nuevos_indices

In [None]:
personal

## El método ```set_index()```.

In [None]:
poblacion = pd.DataFrame({
    'cuervo':[12, 25, 33, 10],
    'puma':[3, 5, 2, 2],
    'lechuza':[11, 9, 22, 2],
    'venado':[45, 60, 8, 13],
    'Región':['Norte', 'Sur', 'Este', 'Oeste']})

In [None]:
poblacion

In [None]:
poblacion.set_index('Región')

## El método ```reindex()```.

El método ```reindex()``` perimite realizar combinaciones de renglones utilizando los índices de un dataframe.

```
<dataframe>.reindex(<índice 1>, <índice 2>, ... ,<índice n>)
```

**Nota:** Este método permite repetir índices.

**Ejemplo:**

In [None]:
personal

In [None]:
personal.reindex(("gerente", "supervisor", "supervisor"))

## El método ```memory_usage()```.

In [None]:
personal.memory_usage()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2019.</p>