<a href="https://colab.research.google.com/github/carlosramos1/numpy-pandas-matplotlib/blob/main/PD03_operaciones_basicas_con_dataframes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Operaciones básicas con dataframes.

In [None]:
import pandas as pd
import numpy as np
import datetime

## Un dataframe ilustrativo.

La siguiente celda creará al dataframe con nombre ```personal``` con las siguientes caracteristicas:

   * Está conformado por las columnas: ```'nombres'```, ```'fechas'```, ```'saldo'``` y ```'al corriente'```.

   * Los identificadores fila son: ```'gerente'```, ```'supervisor'```. ```'vendedor'``` y ```'cajero'```.

In [None]:
indice = ['gerente', 'supervisor', 'vendedor', 'cajero']
personal = pd.DataFrame({
            'nombres':('Juan Pérez',
                       'María Sánchez',
                       'Jorge Vargas',
                       'Rodrigo Martínez'),
            'fechas':(datetime.datetime(1995,12,21),
                      datetime.datetime(1989,1,13),
                      datetime.datetime(1992,9,14),
                      datetime.datetime(1993,7,8)),
            'saldo': (2500,
                      5345,
                      np.nan,
                      11323.2),
            'al corriente':(True,
                            True,
                            False,
                            True)},
            index=indice)

In [None]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


## Atributos y métodos sobre la estructura de los dataframes de *Pandas*.

Tanto los objetos de *Pandas* como los arreglos de *Numpy* son estructuras de datos distintas a los objetos de Python. Ambas bibliotecas fueron diseñadas para optimizar las operaciones de cálculo de algebra lineal y el uso optimizado de memoria para arreglos y dataframes de grandes dimensiones.

### El atributo ```pd.DataFrame.shape```.

**Contiene un tupla** de dos elementos, especifica el **número de filas** y el **número de columnas** del dataframe.



**Ejemplo:**

In [None]:
personal.shape

(4, 4)

### El atributo ```pd.DataFrame.index```.

Este atributo es un objeto de tipo ```pd.Index```, el cual **contiene los identificadores de fila** del dataframe.


**Ejemplo:**

In [None]:
personal.index

Index(['gerente', 'supervisor', 'vendedor', 'cajero'], dtype='object')

### El atributo ```pd.DataFrame.columns```.

Este atributo es un objeto de tipo ```pd.Index```, el cual **contiene los identificadores de columnas** del dataframe.


**Ejemplo:**

In [None]:
personal.columns

Index(['nombres', 'fechas', 'saldo', 'al corriente'], dtype='object')

### El método ```pd.DataFrame.reset_index()```.

Retorna un nuevo dataframe donde los **"identificadores fila" son sustituidos por valores numéricos** y los antiguos identificadores se **añaden como una nueva columna**.
```
<df>.reset_index()
```

**Ejemplo:**

In [None]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [None]:
personal.reset_index()

Unnamed: 0,index,nombres,fechas,saldo,al corriente
0,gerente,Juan Pérez,1995-12-21,2500.0,True
1,supervisor,María Sánchez,1989-01-13,5345.0,True
2,vendedor,Jorge Vargas,1992-09-14,,False
3,cajero,Rodrigo Martínez,1993-07-08,11323.2,True


### El método ```pd.DataFrame.set_index()```.

Retorna un nuevo dataframe en el que **los identificadores fila son sustituidos por los valores de una columna** del mismo dataframe.


```
<df>.set_index(<columna>)
```

Donde:

* ```<columna>``` identificador de la columna que sustituira a los identificadores fila.

**Nota:** El nuevo índice se insertará en un nivel adicional al original. Los índices múltiples se explorarán en capítulos adicionales.


**Ejemplo:**

In [None]:
personal.set_index('nombres')

Unnamed: 0_level_0,fechas,saldo,al corriente
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Juan Pérez,1995-12-21,2500.0,True
María Sánchez,1989-01-13,5345.0,True
Jorge Vargas,1992-09-14,,False
Rodrigo Martínez,1993-07-08,11323.2,True


¿Qué pasa si hay valores repetidos?

In [None]:
personal.set_index('al corriente')

Unnamed: 0_level_0,nombres,fechas,saldo
al corriente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
True,Juan Pérez,1995-12-21,2500.0
True,María Sánchez,1989-01-13,5345.0
False,Jorge Vargas,1992-09-14,
True,Rodrigo Martínez,1993-07-08,11323.2


### El método ```pd.DataFrame.reindex()```.

El método ```reindex()``` retorna un nuevo dataframe con filas o columnas específicadas.


```
<df>.reindex(index=<indice>, columns=<columna>)
```
Donde:
  - `<indice>` una lista o tupla de `str` con los **identificadores de fila** que se quiere seleccionar.
  - `<columna>` una lista o tupla de `str` con los **identificadores de columna** que se quiere seleccionar.

Los identificadores que no emparejen con los indices del dataframe, se añadirán como una nueva fila/columna con valores `NaN`.

**Ejemplo:**

In [None]:
personal.reindex( index=['vendedor', 'gerente', 'contador'] )
# 'contador' no empareja, por lo que tiene valores NaN

Unnamed: 0,nombres,fechas,saldo,al corriente
vendedor,Jorge Vargas,1992-09-14,,False
gerente,Juan Pérez,1995-12-21,2500.0,True
contador,,NaT,,


In [None]:
# Reindexar columnas
personal.reindex( columns=('nombres', 'saldo', 'edad'))

Unnamed: 0,nombres,saldo,edad
gerente,Juan Pérez,2500.0,
supervisor,María Sánchez,5345.0,
vendedor,Jorge Vargas,,
cajero,Rodrigo Martínez,11323.2,


In [None]:
personal.reindex(index=('supervisor', 'vendedor'), columns=('nombre', 'saldo'))

Unnamed: 0,nombre,saldo
supervisor,,5345.0
vendedor,,


### El método ```pd.DataFrame.info()```.

El método ```pd.DataFrame.info()``` permite extraer la **información básica** de una serie o un dataframe, incluyendo el espacio que ocupa en memoria.

```
<df|serie>.info()
```


**Ejemplo**

In [None]:
personal.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, gerente to cajero
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   nombres       4 non-null      object        
 1   fechas        4 non-null      datetime64[ns]
 2   saldo         3 non-null      float64       
 3   al corriente  4 non-null      bool          
dtypes: bool(1), datetime64[ns](1), float64(1), object(1)
memory usage: 304.0+ bytes


## Selección de elementos en un dataframe.

*Pandas* cuenta con los siguientes métodos para localizar elementos dentro de un datafarame.


### El atributo ```DataFrame.iloc[ ]```.

Permite la indexación (selección de elementos) mediante **indices numéricos** (`int`) que van desde `0` hasta `lenght-1` del eje (columna o fila).

Dependiendo del rango seleccionado, este atributo devolverá una *Serie* o *DataFrame*


```
<df>.iloc[<índice-fila> ,<indice-columna>]
```

Donde:

* ```<df>``` es un databrame de *Pandas*.
* ```<índice-fila>```, `<indice-columna>` pueden ser:
  - An integer, e.g. 5.
  - A list or array of integers, e.g. [4, 3, 0].
  - A slice object with ints, e.g. 1:7.

En caso de que no se defina `<indice-columna>`, retornará todas las columnas.


**Ejemplo:**

- Indexar filas

In [None]:
# Seleccionar la primera fila. (número)
personal.iloc[0]

Unnamed: 0,gerente
nombres,Juan Pérez
fechas,1995-12-21 00:00:00
saldo,2500.0
al corriente,True


In [None]:
# Seleccionar las filas 1 y 3. (lista)
personal.iloc[[0, 2]]

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
vendedor,Jorge Vargas,1992-09-14,,False


In [None]:
# Seleccionar un rango
personal.iloc[1:3]

Unnamed: 0,nombres,fechas,saldo,al corriente
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False


- Indexar columnas

In [None]:
personal.iloc[:, [1,2]]

Unnamed: 0,fechas,saldo
gerente,1995-12-21,2500.0
supervisor,1989-01-13,5345.0
vendedor,1992-09-14,
cajero,1993-07-08,11323.2


- Indexar filas y columnas

In [None]:
personal.iloc[1:3, [3, 1]]

Unnamed: 0,al corriente,fechas
supervisor,True,1989-01-13
vendedor,False,1992-09-14


### El atributo ```loc[ ]```.

Permite la indexación mediante identificadores `str` de columnas o filas


```
<df>.loc[<ident-fila> [,<ident-columna>] ]
```
Donde:

* ```<ident-fila>```, `<ident-columna>` puede ser:
  - un `str`
  - una lista o arreglo de `str`
  - un objeto rebanadas p.e. `'a':'f'`

  En caso de que no se defina `<ident-columna>`, retornará todas las columnas.


https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html

**Ejemplo:**

In [None]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


- Indexar filas

In [None]:
# indexar mediante un identificador
personal.loc['gerente']

Unnamed: 0,gerente
nombres,Juan Pérez
fechas,1995-12-21 00:00:00
saldo,2500.0
al corriente,True


In [None]:
# Indexar mediante una lista
personal.loc[['cajero', 'vendedor']]

Unnamed: 0,nombres,fechas,saldo,al corriente
cajero,Rodrigo Martínez,1993-07-08,11323.2,True
vendedor,Jorge Vargas,1992-09-14,,False


In [None]:
# Indexar mediante rebanadas
personal.loc['gerente':'supervisor']

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True


- Indexar columnas

In [None]:
personal.loc[:, 'saldo']

Unnamed: 0,saldo
gerente,2500.0
supervisor,5345.0
vendedor,
cajero,11323.2


- Indexar filas y columnas

In [None]:
personal.loc[ 'gerente':'supervisor', ['nombres', 'fechas']]

Unnamed: 0,nombres,fechas
gerente,Juan Pérez,1995-12-21
supervisor,María Sánchez,1989-01-13


### Selección de elementos usando expresiones lógicas.

El atributo ```loc[ ]``` permite realizar búsquedas de datos usando expresiones lógicas.

El resultado será un dataframe con aquellos renglones en los que la expresión es ```True```.

```
<dataframe>.loc[<expresión lógica>]
```

Donde:

* ```<dataframe>``` es un dataframe de *Pandas*.
* ```<expresión lógica>``` es una expresión que involucra una columna donde cada elemento será evaluada.

**Ejemplos:**

In [None]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [None]:
# Seleccionar aquellas filas que tenga saldo>3000
personal.loc[personal["saldo"] > 3000]

Unnamed: 0,nombres,fechas,saldo,al corriente
supervisor,María Sánchez,1989-01-13,5345.0,True
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [None]:
# Seleccionar aquellas filas que tengan 'True' en la columna "al corriente"
personal.loc[personal["al corriente"]]

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


## Selección de elementos específicos

Hay dos formas:

- Mediante indices numéricos (atributo `iat[]`).
- Mediante identificadores `str` (atributo `at[]`)

### El atributo ```pd.DataFrames.iat[ ]```.

El método ```iat[ ]``` permite identificar a un único elemento dentro de un dataframe mediante su posición expresada de la siguiente manera:

```
<df>.iat[<índice>, <col>]
```

Donde:

* ```<índice>``` es el índice de fila expresado como un número entero.
* ```<col>``` es el índice de columna expresado como un número entero.

A diferencia de ```iloc[ ]```, sólamente acepta un índice de columna.



**Ejemplo:**

In [None]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [None]:
personal.iat[2, 1]

Timestamp('1992-09-14 00:00:00')

### El método ```at[ ]```.


El método ```pd.Dataframes.at[ ]``` permite identificar a un único elemento dentro de un dataframe mediante su posición expresada mediante identificadores `str`.

```
<df>.at[<id_índice>, <id_col>]
```
Donde:

* ```<id_índice>``` es un objeto de tipo ```str``` correspondiente al identificador de fila.
* ```<id_col>``` es un objeto de tipo ```str``` correspondiente al identificador de una columna.


**Ejemplos:**

In [None]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [None]:
# Obtener el saldo del gerente
personal.at["gerente", "saldo" ]

np.float64(2500.0)

## El método ```transpose()```.

Este método permite cambiar los ejes de un dataframe y regresará un nuevo dataframe en el que los identificadores de fila serán identificadores de columnas y viceversa.
```
<dataframe>.transpose()
```

**Ejemplo:**

In [None]:
personal

Unnamed: 0,nombres,fechas,saldo,al corriente
gerente,Juan Pérez,1995-12-21,2500.0,True
supervisor,María Sánchez,1989-01-13,5345.0,True
vendedor,Jorge Vargas,1992-09-14,,False
cajero,Rodrigo Martínez,1993-07-08,11323.2,True


In [None]:
personal_t = personal.transpose()

In [None]:
personal_t

Unnamed: 0,gerente,supervisor,vendedor,cajero
nombres,Juan Pérez,María Sánchez,Jorge Vargas,Rodrigo Martínez
fechas,1995-12-21 00:00:00,1989-01-13 00:00:00,1992-09-14 00:00:00,1993-07-08 00:00:00
saldo,2500.0,5345.0,,11323.2
al corriente,True,True,False,True
