[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

# Introducción a *Pandas*.

El proyecto [*Pandas*](https://pandas.pydata.org/) es una herramienta especializada en la gestión de "series" y "dataframes", utilizándolos como materia prima para la realización de operaciones de manipulación, transformación y análisis de datos.


*Pandas* cuenta con las siguientes funcionalidades.


* Hace uso intensivo de series y dataframes.
* Realiza operaciones de lectura y escritura de datos entre estructuras en memoria y diversos formatos de archivos y bases de datos.
* Alineación de datos y manejo de datos faltantes.
* Modificación de conjuntos de datos.
* Manejo de series de tiempo.

Por convención, el paquete ```pandas``` es importado con el nombre de ```pd```. A lo largo de este curso, se utilizará dicha convención.

In [None]:
!pip install pandas

In [None]:
import pandas as pd

## Los *dataframes*.

Los dataframes representan el componente primordial tanto de *Pandas* como de *R*.

Los dataframes de *Pandas* se basan en los arreglos de *Numpy*, conformando arreglos de datos de 2 dimensiones compuesto por columnas y renglones.

### La clase ```pd.DataFrame```.

La clase ```pd.DataFrame``` se utiliza para crear los dataframes de *Pandas*. 

```
pd.DataFrame(data=<objeto>, index=<índices>, columns=<indices de columnas>)
```

Donde:

* ```<objeto>``` es un objeto con las siguientes características:
  * Un objeto de tipo ```dict```.
  * Un objeto de tipo ```tuple``` que contiene  a otros objetos tipo ```tuple```.
  * Un arreglo de tipo ```numpy.ndarray``` de 2 dimensiones.
  * Otra instancia de  ```pd.DataFrame```.
* ```<índices>``` es un objeto iterable compuesto por cadenas de caracteres que serán usadas como identificadores para cada renglón del dataframe.
* ```<columnas>``` ees un objeto iterable compuesto por cadenas de caracteres que serán usadas como identificadores para cada columna del dataframe.  

**Nota:** ```<objeto>``` puede ser ingresado como argumento del parámetro ```data``` o simplemente ingresándolo como primer argumento. 

La documentación de ```pd.DataFrame``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

**Ejemplo:**

* La siguiente celda regresará un dataframe a partir de una colección de objetos tipo ```tuple```.

In [None]:
pd.DataFrame(data=[(0, 1, 2), (1, 2, 3), (2, 3, 4), (3, 4, 5)])

* La siguiente creará al objeto de tipo ```dict``` al que se le asignará el nombre ```diccionarios```.

In [None]:
diccionarios = {'py101':[10, 5, 33 ,45, 25, 22], 
                'py111':[0, 15, 21 , 30, 31, 11], 
                'py121':[15, 5, 1 ,10, 42, 21], 
                'py301':[20, 35, 3 ,15, 0, 0], }

* La siguiente celda rgresará un dataframe  a partir del objeto ```diccionarios```.
* En este caso, la clave de cada elemento de ```diccionario``` será el identificador de cada columna del dataframe y los elementos del objeto tipo ```list``` correspondientes a cada clave serán los elementos de dicha columna.

In [None]:
pd.DataFrame(data=diccionarios)

* Se creará un dataframe a partir de un objeto creado con ```numpy.arange()```.

In [None]:
import numpy as np

* La siguiente celda creará un arreglo de *Numpy* de forma ```(3, 3)``` con nombre ```matriz```.

In [None]:
matriz = np.arange(9).reshape(3, 3)

In [None]:
matriz

* La siguiente celda regresará un dataframe a partir de el arreglo ```matriz```.

In [None]:
pd.DataFrame(matriz)

## Índices en un dataframe.

Los dataframes de *Pandas* define índices para cada renglon (eje ```0```) y a cada columna (eje ```1```) de un dataframe.

Los índices pueden ser numéros enteros positivos que inician en ```0``` se incrementan de uno en uno, pero también se les puede asignar un identificador de tipo ```str```.

* *Pandas* identifica a los índices de los renglones simplemente como "índices".
* Tanto los índices (de los renglones) como los índices de las columnas son instancias de la clase ```pd.Index```.

### Definición de identificadores de índices al crear un dataframe.

Al instanciar un objeto a partir de ```pd.DataFrame``` es posible asignarle los identificadores de los índices por medio de los siguientes parámetros:

* ```index```, al que se le asignará un objeto iterable que contiene a su vez objetos ```str``` que corresponderán al identificador cada índice (de renglón) del dataframe.
* ```columns```, al que se le asignará un objeto iterable  que contiene a su vez objetos ```str``` que corresponderán al identificador de cada índice de columna del dataframe.

**Ejemplos:**

* La siguiente celda definirá un objeto de tipo ```tuple``` con nombre ```indice```.

In [None]:
indice = ('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio')

* La siguiente celda regresará un dataframe creado a partir del objeto ```diccionarios``` definido previamente y asignando ```índice``` al parámetro ```index```.

In [None]:
pd.DataFrame(data=diccionarios, index=indice)

* La siguiente celda regresará un dataframe a partir de:
    * Los datos del objeto ```matriz```, definido previamente.
    * El objeto ```['uno','dos','tres']``` que será asignado como argumento para el parámetro ```index```.
   * El objeto ```['a', 'b', 'c']``` que será asignado como argumento para el parámetro ```columns```.

In [None]:
pd.DataFrame(matriz, index=['uno','dos','tres'], columns=['a', 'b', 'c'])

## Selección básica de elementos en un dataframe.

### Selección de columnas mediante identificadores.

Los dataframes permiten extraer los datos de una columna usando el identificador de la columna de forma similar a una clave de un objeto de tipo ```dict```.

```
<df>[<col>]
```

Donde:

* ```<df>``` es un dataframe de *Pandas*.
* ```<col>``` es un objeto de tipo ```str``` correspondiente al identificador de una columna del dataframe.

**Ejemplo:**

* Se creará el dataframe ``cursos`` a partir de un objeto de tipo ```dict```, por lo que las claves del objeto ```dict``` corresponderán los identificadores de las columnas del dataframe.

In [None]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
         'py111':[0, 15, 21 , 30, 31, 11], 
         'py121':[15, 5, 1 ,10, 42, 21], 
         'py301':[20, 35, 3 ,15, 0, 0]},
         index=('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio'))

In [None]:
cursos

* La siguiente celda regresará la columna con identificador ```'py121'```.

In [None]:
cursos['py121']

* Las columnas de un dataframe de *Pandas* son objetos instaciados de ```pd.Series``` o simplemente "series".

In [None]:
type(cursos['py121'])

### Selección de columnas mediante índices numéricos.

Si las columnas de un dataframe no tiene identifcadores asignados, es posible seleccionar una de ellas mediante su índice numérico.

```
<df>[<ncol>]
```
Donde:

* ```<df>``` es un dataframe de *Pandas*.
* ```<ncol>``` es un objeto de tipo ```int``` correspondiente a un índice del dataframe.


**Nota:** En caso de que las columnas tengan identificadores asignados, se desencadenará un error de tipo ```KeyError``` si se usa in índice numérico.

**Ejemplos:**

* El dataframe ```datos``` contiene columnas con identificadores numéricos.

In [None]:
datos = pd.DataFrame([[1, 2, 3, 4],[5, 6, 7, 8], [9, 10, 11, 12]])

In [None]:
datos

* La siguiente celda regresará la columna con índice ```2``` del dataframe ```datos```.

In [None]:
datos[2]

* El dataframe ```cursos``` define identificadores de columnas. 

In [None]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
         'py111':[0, 15, 21 , 30, 31, 11], 
         'py121':[15, 5, 1 ,10, 42, 21], 
         'py301':[20, 35, 3 ,15, 0, 0]})

In [None]:
cursos

* En este caso, el índice numérico no será aceptado y se generará un ```KeyError```.

In [None]:
cursos[3]

### Selección de índices mediante rangos numéricos.

Para seleccionar los renglones de un dataframe se usa una sintaxis de rangos por medio de dos puntos ```:```.

```
<df>[<inicio>:<fin>:<ipasos>]
```

Donde:

* ```<df>``` es un dataframe de *Pandas*.
* ```<inicio>``` es un objeto ```int``` correspondiente al índice a partir del cual se iniciará el rango.
* ```<fin>``` es un objeto ```int``` correspondiente al índice del elemento previo al final del rango. El rango nunca llegará a este índice.
* ```<pasos>``` corresponde al tamaño de incrementos/decrementos que se aplicará al rango.

En este caso, se pueden usar ya sea valores enteros o los identificadores de los índices para definir el rango.

**Ejemplos:** 

* El dataframe ```cursos``` define identificadores columnas e índices que no son numéricos. 

In [None]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
                       'py111':[0, 15, 21 , 30, 31, 11], 
                       'py121':[15, 5, 1 ,10, 42, 21], 
                       'py301':[20, 35, 3 ,15, 0, 0]},  
                      index=('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio'))

* La siguiente celda regresará el renglón correspondiente al índice ```'enero'``` usando la sintaxis ```cursos[:1]```.

In [None]:
cursos[:1]

* El objeto resultante es un dataframe de *Pandas*.

In [None]:
type(cursos[:1])

* La siguiente celda regresará los renglones del objeto ```cursos``` correspondientes a los índices ```'enero'```, ```'marzo'``` y ```'mayo'``` usando la sintaxis ```cursos[::2]```.

In [None]:
cursos[::2]

### Selección de índices mediante rangos de identificadores.

Para seleccionar los renglones de un dataframe mediante un rango de identificadores,  se usa una sintaxis de rangos por medio de dos puntos ```:```.

```
<df>[<id_inicio>:<id_fin>]
```

Donde:
* ```<id_inicio>``` es un objeto ```str``` correspondiente al identificador de renglón a partir del cual se iniciará el rango.
* ```<id_fin>``` es un objeto ```str``` correspondiente al identificador de renglón a partir del cual finalizará el rango.


En este caso, se pueden usar ya sea valores enteros o los identificadores de los índices para definir el rango.

**Ejemplos:**

* La siguiente celda regresará los renglones del objeto ```cursos``` correspondientes a los índices ```'marzo'```, ```'abril'``` y ```'mayo'``` usando la sintaxis ```cursos['marzo':'mayo']```.

In [None]:
cursos['marzo':'mayo']

* La siguiente celda no corresponde a un rango, por lo que el identificados se aplicará a las columnas y desencadenará un error ```KeyError```.

In [None]:
cursos['enero']

* El siguiente rango hace referencia a identificadores de columna, por lo que se desencadenará un error ```KeyError```.

In [None]:
cursos['py101': 'py121']

### Selección de un elemento dentro de un dataframe.

Para acceder a un elemento de un dataframe se utiliza la siguiente sintaxis:

```
<df>[<col>][<índice>]
```

**Ejemplo:**

* A partir del dataframe ```cursos``` se pueden seleccionar los siguientes elementos:

In [None]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
                       'py111':[0, 15, 21 , 30, 31, 11], 
                       'py121':[15, 5, 1 ,10, 42, 21], 
                       'py301':[20, 35, 3 ,15, 0, 0]},  
                      index=('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio'))

In [None]:
cursos

* Las siguientes celdas obtendrán el contenido de la celda correspondiente a la columna con identificador ```py101``` e índice con identificador ```marzo```.

In [None]:
cursos['py101'][2]

In [None]:
cursos['py101']['marzo']

* Las siguientes celdas obtendrán un dataframe el contenido de las celdas correspondiente a la columna con identificador ```py111``` y las celdas con los índices ```abril``` y ```mayo```.

In [None]:
cursos['py111'][3:5]

* Las columnas no aceptan rangos y la siguiente celda desencadenará un error ```ValueError```.

In [None]:
cursos['py101':'py111'][3:5]

### La clase ```pandas.Series```.

Las series son objetos instanciado de la clase ```pandas.Series``` y son de una sola dimensión y se pueden definir de cualquera de las siguientes formas.

```
pd.Series(data=<datos>, name="nombre">)
```

```
pd.Series(<datos>, name="nombre">)
```

Donde:

* ```<datos>``` puede ser un objeto de tipo:
    * ```tuple```
    * ```list```
    * ```dict``` 
    * ```numpy.ndarray```
* ```<nombre>``` es un objetop de tipo ```str```.


La documentación de las series de pandas puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

**Ejemplo:**

* La siguiente celda creará una serie.

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], name='py201')

### Índices en las series.

Al igual que con los dataframes, las series soportan el atributo ```index```.

**Ejemplo:**

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201')

## Conversión de series a dataframes. 

El método ```to_frame()```de las series permite transformar una serie en un dataframe de una columna.

```
<serie>.to_frame()
```

**Ejemplo:**

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201').to_frame()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2020.</p>