<a href="https://colab.research.google.com/github/carlosramos1/numpy-pandas-matplotlib/blob/main/10_operaciones_basicas_con_dataframes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Operaciones básicas con dataframes.

In [1]:
import pandas as pd
import numpy as np
import datetime

## Broadcasting.

Las series y dataframes de *Pandas* son compatibles con el broadcasting de los arreglos de *Numpy*.

**Ejemplo:**

In [2]:
datos = pd.DataFrame(np.arange(20).reshape(5,4),
                     columns=('primero', 'segundo', 'tercero', 'cuarto'))
datos

Unnamed: 0,primero,segundo,tercero,cuarto
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [None]:
# Multiplicar por 5 los elementos con indice 2 en adelante
datos[2:] * 5

Unnamed: 0,primero,segundo,tercero,cuarto
2,40,45,50,55
3,60,65,70,75
4,80,85,90,95


In [None]:
# Guardar el resultado en el mismo dataframe
datos[2:] = datos[2:] * 5
datos

Unnamed: 0,primero,segundo,tercero,cuarto
0,0,1,2,3
1,4,5,6,7
2,200,225,250,275
3,300,325,350,375
4,400,425,450,475


## Un dataframe ilustrativo.

La siguiente celda creará al dataframe con nombre ```personal``` con las siguientes caracteristicas:

   * Está conformado por las columnas: ```'nombres'```, ```'fechas'```, ```'saldo'``` y ```'al corriente'```.

   * Los índices corresponden a: ```'gerente'```, ```'supervisor'```. ```'vendedor'``` y ```'cajero'```.

In [4]:
indice = ['gerente', 'supervisor', 'vendedor', 'cajero']
personal = pd.DataFrame({
            'nombres':('Juan Pérez',
                       'María Sánchez',
                       'Jorge Vargas',
                       'Rodrigo Martínez'),
            'fechas':(datetime.datetime(1995,12,21),
                      datetime.datetime(1989,1,13),
                      datetime.datetime(1992,9,14),
                      datetime.datetime(1993,7,8)),
            'saldo': (2500,
                      5345,
                      np.nan,
                      11323.2),
            'al corriente':(True,
                            True,
                            False,
                            True)},
            index=indice)

In [5]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


## Atributos y métodos sobre la estructura de los dataframes de *Pandas*.

Tanto los objetos de *Pandas* como los arreglos de *Numpy* son estructuras de datos distintas a los objetos de Python. Ambas bibliotecas fueron diseñadas para optimizar las operaciones de cálculo de algebra lineal y el uso optimizado de memoria para arreglos y dataframes de grandes dimensiones.

### El atributo ```pd.DataFrame.shape```.

**Contiene un tupla** de dos elementos, donde el primer elemento especifica el **número de filas y** el segunto elemento especifíca el **número de columnas** del dataframe.



**Ejemplo:**

In [6]:
personal.shape

(4, 4)

### El atributo ```pd.DataFrame.index```.

Este atributo es un objeto de tipo ```pd.Index```, el cual **contiene los índices de fila** del dataframe.


**Ejemplo:**

In [7]:
personal.index

Index(['gerente', 'supervisor', 'vendedor', 'cajero'], dtype='object')

### El atributo ```pd.DataFrame.columns```.

Este atributo es un objeto de tipo ```pd.Index```, el cual **contiene los identificadores de columnas** del dataframe.


**Ejemplo:**

In [8]:
personal.columns

Index(['nombres', 'fechas', 'saldo', 'al corriente'], dtype='object')

### El método ```pd.DataFrame.reset_index()```.

Retorna un nuevo dataframe donde **el `index` es sustituido con valores numéricos** y los identificadores del **`index` original es añadido como una nueva columna**.
```
<df>.reset_index()
```

**Ejemplo:**

In [9]:
personal.reset_index()

Unnamed: 0,index,nombres,fechas,saldo,al corriente
0,gerente,Juan Pérez,1995-12-21,2500.0,True
1,supervisor,María Sánchez,1989-01-13,5345.0,True
2,vendedor,Jorge Vargas,1992-09-14,,False
3,cajero,Rodrigo Martínez,1993-07-08,11323.2,True


### El método ```pd.DataFrame.set_index()```.

Retorna un nuevo dataframe en el que **el índice es sustituido por una columna** del mismo dataframe.


```
<df>.set_index(<columna>)
```

Donde:

* ```<columna>``` identificador de la columna que será el nuevo índice.

**Nota:** El nuevo índice se insertará en un nivel adicional al original. Los índices múltiples se explorarán en capítulos adicionales.


**Ejemplo:**

In [10]:
personal.set_index('nombres')

Unnamed: 0_level_0,fechas,saldo,al corriente
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Juan Pérez,1995-12-21,2500.0,True
María Sánchez,1989-01-13,5345.0,True
Jorge Vargas,1992-09-14,,False
Rodrigo Martínez,1993-07-08,11323.2,True


### El método ```pd.DataFrame.reindex()```.

El método ```reindex()``` retorna un nuevo dataframe con filas o columnas específicadas.


```
<df>.reindex(index=<indice>, columns=<columna>)
```
Donde:
  - `<indice>` una lista o tupla de `str` con los **identificadores de fila** que se quiere seleccionar.
  - `<columna>` una lista o tupla de `str` con los **identificadores de columna** que se quiere seleccionar.

Los identificadores que no emparejen con los indices del dataframe, se añadirán como una nueva fila/columna con valores `NaN`.

**Ejemplo:**

In [11]:
personal.reindex( ['vendedor', 'gerente', 'contador'] )
# 'contador' no empareja, por lo que tiene valores NaN

Unnamed: 0,nombres,fechas,saldo,al corriente
vendedor,Jorge Vargas,1992-09-14,,False
gerente,Juan Pérez,1995-12-21,2500.0,True
contador,,NaT,,


In [None]:
# Reindexar columnas
personal.reindex( columns=('nombres', 'saldo', 'edad'))

Unnamed: 0,nombres,saldo,edad
gerente,Juan Pérez,2500.0,
supervisor,María Sánchez,5345.0,
vendedor,Jorge Vargas,,
cajero,Rodrigo Martínez,11323.2,


In [None]:
personal.reindex(index=('supervisor', 'vendedor'), columns=('nombre', 'saldo'))

Unnamed: 0,nombre,saldo
supervisor,,5345.0
vendedor,,


### El método ```pd.DataFrame.info()```.

El método ```pd.DataFrame.info()``` permite extraer la **información básica** de una serie o un dataframe, incluyendo el espacio que ocupa en memoria.

```
<df|serie>.info()
```


**Ejemplo**

In [12]:
personal.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, gerente to cajero
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   nombres       4 non-null      object        
 1   fechas        4 non-null      datetime64[ns]
 2   saldo         3 non-null      float64       
 3   al corriente  4 non-null      bool          
dtypes: bool(1), datetime64[ns](1), float64(1), object(1)
memory usage: 304.0+ bytes


## Selección de elementos en un dataframe.

*Pandas* cuenta con los siguientes métodos para localizar elementos dentro de un datafarame.


### El atributo ```DataFrame.iloc[ ]```.

Permite la indexación mediante **indices numéricos** `int` que van desde `0` hasta `lenght-1` del eje (columna o fila).

Dependiendo del rango seleccionado, este atributo devolverá una *Serie* o *DataFrame*


```
<df>.iloc[<índice-fila> [,<indice-columna>] ]
```

Donde:

* ```<df>``` es un databrame de *Pandas*.
* ```<índice-fila>```, `<indice-columna>` pueden ser:
  - An integer, e.g. 5.
  - A list or array of integers, e.g. [4, 3, 0].
  - A slice object with ints, e.g. 1:7.

En caso de que no se defina `<indice-columna>`, retornará todas las columnas.


**Ejemplo:**

* Se definirá el dataframe ```datos```.

In [13]:
datos = pd.DataFrame(np.arange(20).reshape(5, 4),
                     columns=('primero', 'segundo', 'tercero', 'cuarto'))

In [14]:
datos

Unnamed: 0,primero,segundo,tercero,cuarto
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


* Indexar filas

In [15]:
# Indexar con un número
datos.iloc[2]

Unnamed: 0,2
primero,8
segundo,9
tercero,10
cuarto,11


In [16]:
# Indexar con una lista
datos.iloc[[1,2]]

Unnamed: 0,primero,segundo,tercero,cuarto
1,4,5,6,7
2,8,9,10,11


In [None]:
# Indexar con rebanadas
datos.iloc[2:4]

Unnamed: 0,primero,segundo,tercero,cuarto
2,8,9,10,11
3,12,13,14,15


* Indexar columnas


In [None]:
datos.iloc[:, [1,2]]

Unnamed: 0,segundo,tercero
0,1,2
1,5,6
2,9,10
3,13,14
4,17,18


* Indexar filas y columnas

In [None]:
datos.iloc[1:4, [3, 1]]

Unnamed: 0,cuarto,segundo
1,7,5
2,11,9
3,15,13


### El atributo ```loc[ ]```.

Permite la indexación mediante identificadores `str` de columnas o filas


```
<df>.loc[<ident-fila> [,<ident-columna>] ]
```
Donde:

* ```<ident-fila>```, `<iden-columna>` puede ser:
  - un `str`
  - una lista o arreglo de `str`
  - un objeto rebanadas p.e. `'a':'f'`

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html

**Ejemplo:**

In [17]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
                  index=['alfa', 'gamma', 'beta'],
                  columns=['primero', 'segundo'])
df

Unnamed: 0,primero,segundo
alfa,1,2
gamma,4,5
beta,7,8


- Indexar filas

In [18]:
# indexar mediante un identificador
df.loc['gamma']

Unnamed: 0,gamma
primero,4
segundo,5


In [19]:
# Indexar mediante una lista
df.loc[['beta', 'alfa']]

Unnamed: 0,primero,segundo
beta,7,8
alfa,1,2


In [20]:
# Indexar mediante rebanadas
df.loc['gamma':'beta']

Unnamed: 0,primero,segundo
gamma,4,5
beta,7,8


- Indexar columnas

In [21]:
df.loc[:, 'segundo']

Unnamed: 0,segundo
alfa,2
gamma,5
beta,8


- Indexar filas y columnas

In [22]:
df.loc[ 'alfa':'gamma', ['segundo', 'primero']]

Unnamed: 0,segundo,primero
alfa,2,1
gamma,5,4


### Selección de elementos usando expresiones lógicas.

El atributo ```loc[ ]``` permite realizar búsquedas de datos usando expresiones lógicas.

El resultado será un dataframe con aquellos renglones en los que la expresión es ```True```.

```
<dataframe>.loc[<expresión lógica>]
```

Donde:

* ```<dataframe>``` es un dataframe de *Pandas*.
* ```<expresión lógica>``` es una expresión en la que una columna ```<dataframe>[<id_columna>]``` es evaluada mediante una expresión lógica.

**Ejemplos:**

In [24]:
indice = ['gerente', 'supervisor', 'vendedor', 'cajero']
personal = pd.DataFrame({
            'nombres':('Juan Pérez',
                       'María Sánchez',
                       'Jorge Vargas',
                       'Rodrigo Martínez'),
            'fechas':(datetime.datetime(1995,12,21),
                      datetime.datetime(1989,1,13),
                      datetime.datetime(1992,9,14),
                      datetime.datetime(1993,7,8)),
            'saldo': (2500,
                      5345,
                      np.nan,
                      11323.2),
            'al corriente':(True,
                            True,
                            False,
                            True)},
            index=indice)
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [25]:
# Seleccionar aquellas filas que tenga saldo>3000
personal.loc[personal["saldo"] > 3000]

Unnamed: 0,nombres,fechas,saldo,al corriente
supervisor,María Sánchez,1989-01-13,5345.0,True
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [26]:
# Seleccionar aquellas filas que tengan 'True' en la columna "al corriente"
personal.loc[personal["al corriente"]]

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


## Identificación de elementos en un arreglo.

### El atributo ```pd.DataFrames.iat[ ]```.

El método ```iat[ ]``` permite identificar a un único elemento dentro de un dataframe mediante su posición expresada de la siguiente manera:

```
<df>.iat[<índice>, <col>]
```

Donde:

* ```<índice>``` es el índice de fila expresado como un número entero.
* ```<col>``` es el índice de columna expresado como un número entero.

A diferencia de ```iloc[ ]```, sólamente acepta un índice de columna.



**Ejemplo:**

In [27]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [28]:
personal.iat[2, 1]

Timestamp('1992-09-14 00:00:00')

### El método ```at[ ]```.


El método ```pd.Dataframes.at[ ]``` permite identificar a un único elemento dentro de un dataframe mediante su posición expresada mediante identificadores `str`.

```
<df>.at[<id_índice>, <id_col>]
```
Donde:

* ```<id_índice>``` es un objeto de tipo ```str``` correspondiente al identificador de fila.
* ```<id_col>``` es un objeto de tipo ```str``` correspondiente al identificador de una columna.


**Ejemplos:**

In [29]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [30]:
# Obtener el saldo del gerente
personal.at["gerente", "saldo" ]

np.float64(2500.0)

## El método ```transpose()```.

Este método permite cambiar los ejes de un dataframe y regresará un nuevo dataframe en el que los identificadores de fila serán identificadores de columnas y viceversa.
```
<dataframe>.transpose()
```

**Ejemplo:**

In [33]:
personal_t = personal.transpose()

In [34]:
personal_t

Unnamed: 0,gerente,supervisor,vendedor,cajero
nombres,Juan Pérez,María Sánchez,Jorge Vargas,Rodrigo Martínez
fechas,1995-12-21 00:00:00,1989-01-13 00:00:00,1992-09-14 00:00:00,1993-07-08 00:00:00
saldo,2500.0,5345.0,,11323.2
al corriente,True,True,False,True
