[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

[Pandas](http://pandas.pydata.org/) es la biblioteca de análisis de datos basada en Python más popular. 

Algunas de sus caracterísiticas mas representativas son:

* Los Dataframes.
* Lectura y escritura de datso entre estructuras en memoria y diversos formatos de archivos y bases de datos.
* Alineación de datos y manejo de datos faltantes.
* Modificación de conjuntos de datos.
* Manejo de series de tiempo.

Pandas, al igual que Numpy es un componente crucial para los analistas de datos en Python.

Por convención, Pandas es importado con el nombre *pd*.

In [1]:
!pip install pandas

Collecting pandas
[?25l  Downloading https://files.pythonhosted.org/packages/e1/d8/feeb346d41f181e83fba45224ab14a8d8af019b48af742e047f3845d8cff/pandas-0.23.4-cp36-cp36m-manylinux1_x86_64.whl (8.9MB)
[K    100% |████████████████████████████████| 8.9MB 1.7MB/s ta 0:00:011
Installing collected packages: pandas
Successfully installed pandas-0.23.4


In [2]:
import pandas as pd

  return f(*args, **kwds)
  return f(*args, **kwds)


## Series y dataframes. 

Pandas incluye dos tipos de colecciones de números similares a los arreglos de Numpy.

* Series, las cuales son una sucesion de datos en una dimesión.
* Dataframes, los cuale son similares a un aerreglo en 2 dimensiones de Numpy. Sin embargo, a diferencia de los arreglos de Numpy, no todas las columnas de estos objetos deben de ser necesariamente del mismo tipo.

### La clase *pandas.DataFrame*.

La clase *pandas.DataFrame* permite crear dataframes a partir de datos que pueden corresponder a:
* Objetos de tipo *dict*.
* Series objetos tipo *tupe*.
* Objetos *numpy.ndarray* (arreglos que contienen sólo números).
* Otros objetos instanciado de *pandas.DataFrame*.

Dichos datos pueden ser ingresados como argumentos del parámetro *data* al instanciarlos.

Los dataframes indexan por defecto las columnas y los encabrezados con valores numéricos. Sin embargo, estos pueden ser modificados por el usuario.

**Ejemplos:**

Se creará un dataframe a partir de una colección de objetos tipo *tuple*.

In [52]:
pd.DataFrame(data=[(0, 1, 2), (1, 2, 3), (2, 3, 4), (3, 4, 5)])

Unnamed: 0,0,1,2
0,0,1,2
1,1,2,3
2,2,3,4
3,3,4,5


Se creará un dataframe a partir de un objeto tipo *dict*.

En este caso, el identificador de cada colección de datos corresponderá al encabezado de cada columna.

In [54]:
diccionarios = {'py101':[10, 5, 33 ,45, 25, 22], 
                'py111':[0, 15, 21 , 30, 31, 11], 
                'py121':[15, 5, 1 ,10, 42, 21], 
                'py301':[20, 35, 3 ,15, 0, 0], }

In [55]:
pd.DataFrame(data=diccionarios)

Unnamed: 0,py101,py111,py121,py301
0,10,0,15,20
1,5,15,5,35
2,33,21,1,3
3,45,30,10,15
4,25,31,42,0
5,22,11,21,0


Se creará un dataframe a partir de un objeto creado con *numpy.arange()*.

In [56]:
import numpy as np

In [57]:
matriz = np.arange(9).reshape(3,3)

In [59]:
matriz

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [58]:
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


El parámetro *index*, permite incluir un índice a cada renglón.

**Ejemplo:**

In [38]:
indice = ('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio')

In [39]:
pd.DataFrame(data=diccionarios, index=indice)

Unnamed: 0,py101,py111,py121,py301
enero,10,0,15,20
febrero,5,15,5,35
marzo,33,21,1,3
abril,45,30,10,15
mayo,25,31,42,0
junio,22,11,21,0


El parámetro *columns* permite nombrar a las columnas. 

**Ejemplo:**

In [60]:
pd.DataFrame(matriz, index=['uno','dos','tres'], columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
uno,0,1,2
dos,3,4,5
tres,6,7,8


### La clase *pandas.Series*.

Los objetos instanciado de la clase *pandas.Series* sob de una sola dimensión y pueden ser al ingresar como argumento de *data* objetos de tipo:

* *tulpe*
* *list*
* *dict* 
* *numpy.ndarray*

A las series se les puede asignar un nombre mediante el parametro *name*.

**Ejemplo:**

In [48]:
pd.Series([12, 4, 32, 41, 33, 28], name='py201')

0    12
1     4
2    32
3    41
4    33
5    28
Name: py201, dtype: int64

Al igual que con los dataframes, es posible asignarle un índice.

In [51]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201')

enero      12
febrero     4
marzo      32
abril      41
mayo       33
junio      28
Name: py201, dtype: int64

#### Transformación de series a dataframes.

Para convertir una serie en un dataframe se utiliza el método *toframe()* 

In [96]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201').to_frame()

Unnamed: 0,py201
enero,12
febrero,4
marzo,32
abril,41
mayo,33
junio,28


## La función *pandas.concat()*.

Esta función permite pegar dos objetos a partir de un eje. Los ejes en un objeto tipo * pandas.DataFrame* pueden ser 0 (por defecto) o 1.
El atributo *sort* permite ordenar los índices y por defecto su valor es *True*.

**Ejemplos:**

Se concatenarán dos dataframes en cada eje.

In [114]:
indice = ('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio')

In [115]:
curso_py101 = pd.DataFrame([12, 4, 32, 41, 33, 28], index=indice, columns=['py101'])

In [116]:
curso_py201 = pd.DataFrame([23, 15, 26, 32, 21, 11], index=indice, columns=['py201'])

In [119]:
pd.concat([curso_py101, curso_py201])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,py101,py201
enero,12.0,
febrero,4.0,
marzo,32.0,
abril,41.0,
mayo,33.0,
junio,28.0,
enero,,23.0
febrero,,15.0
marzo,,26.0
abril,,32.0


In [120]:
pd.concat([curso_py101, curso_py201], 1)

Unnamed: 0,py101,py201
enero,12,23
febrero,4,15
marzo,32,26
abril,41,32
mayo,33,21
junio,28,11


In [124]:
curso_py111 = pd.DataFrame([23, 15], index=['marzo', 'abril'], columns=['py111'])

In [125]:
pd.concat([curso_py101, curso_py111, curso_py201],1)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,py101,py111,py201
abril,41,15.0,32
enero,12,,23
febrero,4,,15
junio,28,,11
marzo,32,23.0,26
mayo,33,,21


In [126]:
pd.concat([curso_py101, curso_py111, curso_py201],1, sort=False)

Unnamed: 0,py101,py111,py201
enero,12,,23
febrero,4,,15
marzo,32,23.0,26
abril,41,15.0,32
mayo,33,,21
junio,28,,11


<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2018.</p>