[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

# Introducción a *Pandas*.

El proyecto [*Pandas*](https://pandas.pydata.org/) es una herramienta especializada en la gestión de "series" y "dataframes", utilizándolos como materia prima para la realización de operaciones de análisis de datos.


*Pandas* cuenta con las siguientes funcionalidades.


* Los dataframes.
* Lectura y escritura de datos entre estructuras en memoria y diversos formatos de archivos y bases de datos.
* Alineación de datos y manejo de datos faltantes.
* Modificación de conjuntos de datos.
* Manejo de series de tiempo.

Por convención, el paquete ```pandas``` es importado con el nombre de ```pd```. A lo largo de este curso, se utilizará dicha convención.

In [None]:
!pip install pandas

In [None]:
import pandas as pd

## Los *dataframes*.

Los dataframes representan el componente primordial tanto de *Pandas* como de *R*.

Los dataframes de *Pandas* se basan en los arreglos de *Numpy*, conformando arreglos de datos de 2 dimensones compuesto por columnas e índices.

* Cada dato de un dataframe puede ser indexado usando su columna y su índice. 
* Si no se definen, las columnas y los índices serán identificados con números enteros que se irán incrementando en una unidad a partir del ```0```. 

### La clase ```pd.DataFrame```.

La clase ```pd.DataFrame``` se utiliza para crear los dataframes de *Pandas*. 

```
pd.DataFrame(data=<objeto con datos>, index=<índices>, columns=<indices de columnas>)
```

Donde:

* ```<objeto con datos>``` es un objeto con las siguientes características:
  * Tipo ```dict```.
  * Un objeto de tipo ```tuple``` que contiene  a otros objetos tipo ```tuple```.
  * Un arreglo de tipo ```numpy.ndarray``` de 2 dimensiones.
  * Otra instancia de  ```pandas.DataFrame```.
* <índices> es una colección ordenada de elementos que será usada para identificar a cada renglón del dataframe.
* <índices de columnas> es una colección ordenada de elementos que será usada para identificar a cada columna del dataframe.  

**Nota:** ```<objeto con datos>``` puede ser ingresado como argumento del parámetro ```data``` o simplemente ingresándolos como primer argumento. 

**Ejemplo:**

* Se creará un dataframe a partir de una colección de objetos tipo ```tuple```.

In [None]:
pd.DataFrame(data=[(0, 1, 2), (1, 2, 3), (2, 3, 4), (3, 4, 5)])

* Se creará un dataframe a partir de un objeto tipo ```dict```.

* En este caso, el identificador de cada colección de datos corresponderá al encabezado de cada columna.

In [None]:
diccionarios = data ={'py101':[10, 5, 33 ,45, 25, 22], 
                'py111':[0, 15, 21 , 30, 31, 11], 
                'py121':[15, 5, 1 ,10, 42, 21], 
                'py301':[20, 35, 3 ,15, 0, 0], }

In [None]:
pd.DataFrame(data=diccionarios)

* Se creará un dataframe a partir de un objeto creado con ```numpy.arange()```.

In [None]:
import numpy as np

In [None]:
matriz = np.arange(9).reshape(3,3)

In [None]:
matriz

In [None]:
pd.DataFrame(matriz)

### Definición de índices.

Aún cuando por defecto los índices pueden son numéricos, es posible asignarle un identificador a cada uno de ellos. El parámetro ```index```, permite asignar un índice a cada renglón.

``` python
index = <colección ordenada de elementos>
```

**Ejemplo:**

In [None]:
indice = ('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio')

In [None]:
pd.DataFrame(data=diccionarios, index=indice)

### Definición de columnas.

El parámetro ```columns``` permite nombrar a las columnas de un dataframe. 

``` python
columns = <colección ordenada de elementos>
```

In [None]:
pd.DataFrame(matriz, index=['uno','dos','tres'], columns=['a', 'b', 'c'])

## Selección básica de elementos en un dataframe.

### Selección de columnas.

Los dataframes permiten extraer los datos de una columna usando el identificador de la columna de forma similar a una clave de un objeto de tipo ```dict```.

```
<dataframe>[<columna>]
```

**Ejemplo:**

* Se creará el dataframe ``cursos`` a partir de un obvjetop de tipo ```dict```, por lo que las claves del objeto ```dict``` corresponderán los identificadores de las columnas del dataframe.

In [None]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
         'py111':[0, 15, 21 , 30, 31, 11], 
         'py121':[15, 5, 1 ,10, 42, 21], 
         'py301':[20, 35, 3 ,15, 0, 0]},
         index=('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio'))

In [None]:
cursos

* La siguiente celda regresará la columna con identificador ```'py121'```

In [None]:
cursos['py121']

### Selección de columnas mediante índices numéricos.

Es posible seleccionar una sección de un dataframe a partir de un índice numéricos mediante la siguiente sintaxis:

```
<dataframe>[<índice numérico>]
```

Esto sólo es posible si las columnas tienen identificadores numéricos. En caso de que las columnas contengan identificadores no numéricos, se desencadenará un error de tipo ```KeyError```.

**Ejemplos:**

* El dataframe ```datos``` contiene columnas con identificadores numéricos.

In [None]:
datos = pd.DataFrame([[1, 2, 3, 4],[5, 6, 7, 8], [9, 10, 11, 12]])

In [None]:
datos

* La siguiente celda regresará la columna ```2``` del dataframe ```datos``` usando la sintaxis ```datos[2]```.

In [None]:
datos[2]

* El dataframe ```cursos``` define identificadores columnas que no son numéricos. 

In [None]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
         'py111':[0, 15, 21 , 30, 31, 11], 
         'py121':[15, 5, 1 ,10, 42, 21], 
         'py301':[20, 35, 3 ,15, 0, 0]})

In [None]:
cursos

* En este caso, el índice numérico no será aceptado y se generará un ```KeyError```.

In [None]:
cursos[3]

### Selección de índices mediante rangos.

Para seleccionar las columnas de un dataframe se usa una sintaxis de rangos por medio de dos puntos ```:```.

```
<dataframe>[<inicio>:<fin>:<incremento>]
```

Donde:
* ```<inicio>``` corresponde al índice a partir del cual se iniciará el rango.
* ```<fin>``` corresponde al índice final del rango, el cual no será incluído en el resultado.
* ```<incremento>``` corresponde al tamaño incrementos/decrementos que se aplicará al rango.

En este caso, se pueden usar ya sea valores enteros o los identificadores de los índices para definir el rango.

**Ejemplos:** 

* El dataframe ```cursos``` define identificadores columnas e índices que no son numéricos. 

In [None]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
                       'py111':[0, 15, 21 , 30, 31, 11], 
                       'py121':[15, 5, 1 ,10, 42, 21], 
                       'py301':[20, 35, 3 ,15, 0, 0]},  
                      index=('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio'))

* La siguiente celda regresará el renglón correspondiente al índice ```'enero'``` usando la sintaxis ```cursos[:1]```.

In [None]:
cursos[:1]

* La siguiente celda regresará el renglón correspondiente al índice ```'enero'```, ```'marzo'``` y ```'mayo'``` usando la sintaxis ```cursos[::2]```.

In [None]:
cursos[::2]

* La siguiente celda regresará el renglón correspondiente al índice ```'marzo'```, ```'abril'``` y ```'mayo'``` usando la sintaxis ```cursos['marzo':'mayo']```.

In [None]:
cursos['marzo':'mayo']

* La siguiente celda no corresponde a un rango, por lo que el identificados se aplicará a las columnas y desencadenará un error ```KeyError```.

In [None]:
cursos['enero']

* El siguiente rango hace referencia a identificadores de columna, por lo que se desencadenará un error ```KeyError```.

In [None]:
cursos['py101': 'py121']

### Selección de un elemento del dataframe.

Para acceder a un elemento de un dataframe se utiliza la siguiente sintaxis:

```
<dataframe>[<columna>][<índice>]
```

**Ejemplo:**

* A partir del dataframe ```cursos``` se pueden seleccionar los siguientes elementos:

In [None]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
                       'py111':[0, 15, 21 , 30, 31, 11], 
                       'py121':[15, 5, 1 ,10, 42, 21], 
                       'py301':[20, 35, 3 ,15, 0, 0]},  
                      index=('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio'))

In [None]:
cursos

* Las siguientes celdas obtendrán el contenido de la celda correspondiente a la columna con identificador ```py101``` e índice con identificador ```marzo```.

In [None]:
cursos['py101'][2]

In [None]:
cursos['py101']['marzo']

* Las siguientes celdas obtendrán un dataframe el contenido de las celdas correspondiente a la columna con identificador ```py111``` y las celdas con los índices ```abril``` y ```mayo```.

In [None]:
cursos['py111'][3:5]

* Las columnas no aceptan rangos y la siguiente celda desencadenará un error ```ValueError```.

In [None]:
cursos['py101':'py111'][3:5]

### La clase ```pandas.Series```.

Los objetos instanciado de la clase ```pandas.Series``` son de una sola dimensión y pueden ser al ingresar como argumento de ```data``` objetos de tipo:

* ```tuple```
* ```list```
* ```dict``` 
* ```numpy.ndarray```

A las series se les puede asignar un nombre mediante el parametro ```name```.

**Ejemplo:**

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], name='py201')

### Índices en las series.

Al igual que con los dataframes, las series soportan el atributo ```index```.

**Ejemplo:**

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201')

## Conversión de series a dataframes. 

El método ```to_frame()```de las series permite transformar una serie en un dataframe de una columna.

```
<serie>.to_frame()
```

**Ejemplo:**

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201').to_frame()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2019.</p>