[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

El proyecto [*Pandas*](https://pandas.pydata.org/) es una herramienta especializada en la gestión de "data frames", utilizándolos como materia prima para la realización de operaciones de análisis de datos.


*Pandas* cuenta con las siguientes funcionalidades.


* Los Dataframes.
* Lectura y escritura de datos entre estructuras en memoria y diversos formatos de archivos y bases de datos.
* Alineación de datos y manejo de datos faltantes.
* Modificación de conjuntos de datos.
* Manejo de series de tiempo.

Por convención, el paquete *pandas* es importado con el nombre de *pd*. A lo largo de este curso, se utilizará dicha convención.

In [1]:
!pip install pandas

[33mYou are using pip version 19.0.1, however version 19.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [3]:
import pandas as pd

## Los *dataframes*.

Los dataframes representan el componente primordial tanto de *Pandas* como de *R*.

Los dataframes de *Pandas* se basan en los arreglos de *Numpy*, conformando arreglos de datos de 2 dimensones compuesto por columnas e índices.

* Cada dato de un dataframe puede ser indexado usando su columna y su índice. 
* Si no se definen, las columnas y los índices serán identificados con números enteros que se irán incrementando en una unidad a partir del cero. 

### La clase *pd.DataFrame*.

La clase *pd.DataFrame* permite crear dataframes a partir de datos que pueden corresponder a:
* Objetos de tipo *dict*.
* Series objetos tipo *tuple*.
* Objetos *numpy.ndarray* (arreglos que contienen sólo números).
* Otros objetos instanciado de *pandas.DataFrame*.

Dichos datos pueden ser ingresados como argumentos del parámetro *data* al instanciarlos.

**Ejemplo:**

* Se creará un dataframe a partir de una colección de objetos tipo *tuple*.

In [4]:
pd.DataFrame(data=[(0, 1, 2), (1, 2, 3), (2, 3, 4), (3, 4, 5)])

Unnamed: 0,0,1,2
0,0,1,2
1,1,2,3
2,2,3,4
3,3,4,5


* Se creará un dataframe a partir de un objeto tipo *dict*.

* En este caso, el identificador de cada colección de datos corresponderá al encabezado de cada columna.

In [5]:
diccionarios = {'py101':[10, 5, 33 ,45, 25, 22], 
                'py111':[0, 15, 21 , 30, 31, 11], 
                'py121':[15, 5, 1 ,10, 42, 21], 
                'py301':[20, 35, 3 ,15, 0, 0], }

In [6]:
pd.DataFrame(data=diccionarios)

Unnamed: 0,py101,py111,py121,py301
0,10,0,15,20
1,5,15,5,35
2,33,21,1,3
3,45,30,10,15
4,25,31,42,0
5,22,11,21,0


* Se creará un dataframe a partir de un objeto creado con *numpy.arange()*.

In [7]:
import numpy as np

In [8]:
matriz = np.arange(9).reshape(3,3)

In [9]:
matriz

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [10]:
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


### Definición de índices.

Aún cuando por defecto los índices pueden son numéricos, es posible asignarle un identificador a cada uno de ellos. El parámetro *index*, permite asignar un índice a cada renglón.

``` python
index = <colección ordenada de elementos>
```

**Ejemplo:**

In [11]:
indice = ('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio')

In [12]:
pd.DataFrame(data=diccionarios, index=indice)

Unnamed: 0,py101,py111,py121,py301
enero,10,0,15,20
febrero,5,15,5,35
marzo,33,21,1,3
abril,45,30,10,15
mayo,25,31,42,0
junio,22,11,21,0


El parámetro *columns* permite nombrar a las columnas. 

**Ejemplo:**

In [13]:
pd.DataFrame(matriz, index=['uno','dos','tres'], columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
uno,0,1,2
dos,3,4,5
tres,6,7,8


### Selección de columnas.

```
<dataframe>[<columna>]
```

**Ejemplo:**

In [14]:
cursos = pd.DataFrame({'py101':[10, 5, 33 ,45, 25, 22], 
         'py111':[0, 15, 21 , 30, 31, 11], 
         'py121':[15, 5, 1 ,10, 42, 21], 
         'py301':[20, 35, 3 ,15, 0, 0]},
         index=('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio'))

In [15]:
cursos

Unnamed: 0,py101,py111,py121,py301
enero,10,0,15,20
febrero,5,15,5,35
marzo,33,21,1,3
abril,45,30,10,15
mayo,25,31,42,0
junio,22,11,21,0


In [16]:
cursos['py121']

enero      15
febrero     5
marzo       1
abril      10
mayo       42
junio      21
Name: py121, dtype: int64

### Selección de renglones por índices.

**Ejemplos:**

In [18]:
cursos[4:]

Unnamed: 0,py101,py111,py121,py301
mayo,25,31,42,0
junio,22,11,21,0


In [21]:
cursos[:1]

Unnamed: 0,py101,py111,py121,py301
enero,10,0,15,20


In [19]:
cursos['enero':'febrero']

Unnamed: 0,py101,py111,py121,py301
enero,10,0,15,20
febrero,5,15,5,35


In [None]:
cursos['enero']

### Selección de un elemento del dataframe.

```
<dataframe>[<columna>][<índice>]
```

**Ejemplo:**

In [None]:
cursos['py101'][2]

In [None]:
cursos['py101']['marzo']

In [None]:
cursos['py111'][3:5]

### La clase *pandas.Series*.

Los objetos instanciado de la clase *pandas.Series* son de una sola dimensión y pueden ser al ingresar como argumento de *data* objetos de tipo:

* *tuple*
* *list*
* *dict* 
* *numpy.ndarray*

A las series se les puede asignar un nombre mediante el parametro *name*.

**Ejemplo:**

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], name='py201')

Al igual que con los dataframes, es posible asignarle un índice.

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201')

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201').to_frame()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2019.</p>