[![imagenes/pythonista.png](imagenes/pythonista.png)](https://pythonista.io)

# Introducción a *Pandas*.

[Pandas](http://pandas.pydata.org/) es la biblioteca de análisis de datos basada en Python más popular. 

Algunas de sus caracterísiticas mas representativas son:

* Los Dataframes.
* Lectura y escritura de datos entre estructuras en memoria, aprovechando diversos formatos de archivos y bases de datos.
* Alineación de datos y manejo de datos faltantes.
* Modificación de conjuntos de datos.
* Manejo de series de tiempo.

Pandas, al igual que Numpy es un componente crucial para los analistas de datos en Python.

Por convención, Pandas es importado con el nombre *pd*.

Pandas, junto con Matplotlib serán el objeto central de futuros cursos enfocados en el análisis de datos.

In [1]:
!pip install pandas

Collecting pandas
  Downloading pandas-1.1.0-cp37-cp37m-manylinux1_x86_64.whl (10.5 MB)
[K     |████████████████████████████████| 10.5 MB 401 kB/s eta 0:00:01
Collecting pytz>=2017.2
  Downloading pytz-2020.1-py2.py3-none-any.whl (510 kB)
[K     |████████████████████████████████| 510 kB 12.2 MB/s eta 0:00:01
Installing collected packages: pytz, pandas
Successfully installed pandas-1.1.0 pytz-2020.1
You should consider upgrading via the '/home/oi/pythonista/bin/python -m pip install --upgrade pip' command.[0m


In [2]:
import pandas as pd

## Series y dataframes. 

Pandas incluye dos tipos de colecciones de números similares a los arreglos de Numpy.

* Series, las cuales son una sucesion de datos en una dimesión.
* Dataframes, los cuale son similares a un aerreglo en 2 dimensiones de Numpy. Sin embargo, a diferencia de los arreglos de Numpy, no todas las columnas de estos objetos deben de ser necesariamente del mismo tipo.

### La clase *pandas.DataFrame*.

La clase *pandas.DataFrame* permite crear dataframes a partir de datos que pueden corresponder a:
* Objetos de tipo *dict*.
* Series objetos tipo *tuple*.
* Objetos *numpy.ndarray* (arreglos que contienen sólo números).
* Otros objetos instanciado de *pandas.DataFrame*.

Dichos datos pueden ser ingresados como argumentos del parámetro *data* al instanciarlos.

Los dataframes indexan por defecto las columnas y los encabrezados con valores numéricos. Sin embargo, estos pueden ser modificados por el usuario.

**Ejemplos:**

Se creará un dataframe a partir de una colección de objetos tipo *tuple*.

In [3]:
pd.DataFrame(data=[(0, 1, 2), (1, 2, 3), (2, 3, 4), (3, 4, 5)])

Unnamed: 0,0,1,2
0,0,1,2
1,1,2,3
2,2,3,4
3,3,4,5


Se creará un dataframe a partir de un objeto tipo *dict*.

En este caso, el identificador de cada colección de datos corresponderá al encabezado de cada columna.

In [4]:
diccionarios = {'py101':[10, 5, 33 ,45, 25, 22], 
                'py111':[0, 15, 21 , 30, 31, 11], 
                'py121':[15, 5, 1 ,10, 42, 21], 
                'py301':[20, 35, 3 ,15, 0, 0], }

In [5]:
pd.DataFrame(data=diccionarios)

Unnamed: 0,py101,py111,py121,py301
0,10,0,15,20
1,5,15,5,35
2,33,21,1,3
3,45,30,10,15
4,25,31,42,0
5,22,11,21,0


Se creará un dataframe a partir de un objeto creado con *numpy.arange()*.

In [6]:
import numpy as np

In [7]:
matriz = np.arange(9).reshape(3,3)

In [8]:
matriz

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [9]:
pd.DataFrame(matriz)

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


El parámetro *index*, permite incluir un índice a cada renglón.

**Ejemplo:**

In [10]:
indice = ('enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio')

In [11]:
pd.DataFrame(data=diccionarios, index=indice)

Unnamed: 0,py101,py111,py121,py301
enero,10,0,15,20
febrero,5,15,5,35
marzo,33,21,1,3
abril,45,30,10,15
mayo,25,31,42,0
junio,22,11,21,0


El parámetro *columns* permite nombrar a las columnas. 

**Ejemplo:**

In [12]:
matriz

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [13]:
pd.DataFrame(matriz, index=['uno','dos','tres'], columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
uno,0,1,2
dos,3,4,5
tres,6,7,8


### La clase *pandas.Series*.

Los objetos instanciado de la clase *pandas.Series* son de una sola dimensión y pueden ser al ingresar como argumento de *data* objetos de tipo:

* *tuple*
* *list*
* *dict* 
* *numpy.ndarray*

A las series se les puede asignar un nombre mediante el parametro *name*.

**Ejemplo:**

In [14]:
pd.Series([12, 4, 32, 41, 33, 28], name='py201')

0    12
1     4
2    32
3    41
4    33
5    28
Name: py201, dtype: int64

Al igual que con los dataframes, es posible asignarle un índice.

In [15]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201')

enero      12
febrero     4
marzo      32
abril      41
mayo       33
junio      28
Name: py201, dtype: int64

#### Transformación de series a dataframes.

Para convertir una serie en un dataframe se utiliza el método *toframe()* 

In [None]:
pd.Series([12, 4, 32, 41, 33, 28], index=indice, name='py201').to_frame()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2020.</p>