# Procesamiento y análisis de datos: Pandas

Pandas es una librería Python de código abierto especialmente diseñada para proporcionar estructuras de datos y herramientas de manipulación y análisis potentes, flexibles y sencillas de usar, que facilitan muchas de las tareas cotidianas para el científico de datos

- Leer y cargar datos de diferentes tipos de fuentes
- Manejar estructuras de datos de tipo longitudinal (series o arrays de datos) y tabular
- Operaciones de limpieza, filtrado y transformación eficiente de datos
- Operaciones de agregación y ordenación
- Operaciones de cruce y fusión de múltiples datos
- Exportar resultados con distintos tipos de formatos

A día de hoy, es probablemente la librería para procesamiento y análisis de datos más potente y utilizada en Python.

### Estructuras de datos básicas

La librería Pandas nos permite trabajar con dos estructuras de datos principales: _Series_ para datos unidimensionales, y _DataFrames_ para datos tabulares.

#### Series

La primera estructura de datos básica en Pandas son los objetos `Series`. Puedes ver las series como una especie de _array_ unidimensional (un vector) con todos los elementos de un mismo tipo. De hecho, los objetos `Series` utilizan internamente un _array_ de NumPy para almacenar los valores. Veamos la forma más simple de construir una serie con Pandas.

In [None]:
# Cargamos las librería Pandas y NumPy (también la usaremos en ejemplos)
import numpy as np
import pandas as pd
# Como Series y DataFrame se utilizan a menudo,
# podemos importarlos en el espacio de nombres directamente
from pandas import Series, DataFrame

# Creamos una serie a partir de una lista de valores
s1 = Series([3,5,7,9])
print(s1)


0    3
1    5
2    7
3    9
dtype: int64


Como ves, para construir una serie es suficiente con proporcionar la lista de datos que la componen, todos del mismo tipo. Si te fijas, al imprimir la serie aparecen dos columnas. A la derecha los valores que hemos indicado. 

Pero además, en la primera columna aparecen los índices de posición de cada elemento en la serie. Esto no es un detalle menor. Los objetos `Series` almacenan tanto la secuencia de valores como una secuencia de etiquetas asociadas a cada elemento, a la que nos referimos como el _índice_ de la serie. Por defecto, si no lo definimos de otra forma, el _índice_ tomará la secuencia de valores indicando la posición de cada elemento en la serie, empezando en cero. Como ya sabes, esto es equivalente a cómo funcionan los índices de posición en las listas o en los _arrays_ de NumPy. Pero podemos decidir etiquetar de otras maneras a los elementos de la serie.

In [None]:
# Podemos utilizar valores que representen otra cosa para los índices
# P.ej. en una serie de temperaturas medias anuales
# usamos Años como índices 
temp_anual = Series([16.6, 16.2, 15.5, 17.0, 16.6, 16.5], 
                    index = [2011, 2012, 2013, 2014, 2015, 2016])
print(temp_anual)

2011    16.6
2012    16.2
2013    15.5
2014    17.0
2015    16.6
2016    16.5
dtype: float64


In [None]:
# Los índices son etiquetas, también pueden ser texto
# P.ej. en una serie de temperaturas medias mensuales
# usamos los meses como índices
temp_mensual = Series([7.2, 7.3, 12.1, 15.7, 20.3, 24.8, 
                       28.2, 25.6, 20.8, 16.8, 12.3, 7.8],
                     index = ["Ene","Feb","Mar","Abr","May","Jun",
                              "Jul","Ago","Sep","Oct","Nov","Dic"])
print(temp_mensual)

Ene     7.2
Feb     7.3
Mar    12.1
Abr    15.7
May    20.3
Jun    24.8
Jul    28.2
Ago    25.6
Sep    20.8
Oct    16.8
Nov    12.3
Dic     7.8
dtype: float64


Que demos etiquetas distintas para los índices al crear la serie no significa que los elementos cambien su posición. Como puedes comprobar, los valores quedan en el mismo orden en el que los hayas especificado.

Podemos seleccionar elementos de una serie igual que hacíamos con los _arrays_ en NumPy.

In [None]:
s1 = Series([3,5,7,9])

In [None]:
# Seleccionamos un elemento por su posición
s1[2]

7

In [None]:
# También podemos seleccionar una "rebanada"
s1[1:3]

1    5
2    7
dtype: int64

In [None]:
# O utilizar una expresión o máscara booleana
s1[s1 < 6]

0    3
1    5
dtype: int64

Pero además, a diferencia de las listas o de los _arrays_ de NumPy, podemos utilizar las etiquetas como índices para seleccionar elementos de las series.

In [None]:
# Seleccionar un valor por índice
temp_mensual["Ene"]

7.2

In [None]:
# Seleccionar usando una lista de etiquetas o índices
temp_mensual[["Mar","Abr","May"]]

Mar    12.1
Abr    15.7
May    20.3
dtype: float64

Siguiendo con la herencia de funcionalidades de los _arrays_ de NumPy, también podemos realizar las mismas operaciones matemáticas con una serie y un valor escalar (un valor entero o en coma flotante) o bien elemento a elemento entre dos series, o aplicar las operaciones de agregación.

In [None]:
s1 = Series([3,5,7,9])

# Podemos realizar las operaciones comunes con escalares...
print(s1 * 2)

0     6
1    10
2    14
3    18
dtype: int64


In [None]:
# ... operaciones elemento a elemento entre series
s2 = Series([2,3,4,5])
print(s1 - s2)

0    1
1    2
2    3
3    4
dtype: int64


In [None]:
# ... y operaciones de agregación
# suma de elementos
s1.sum()

24

In [None]:
# producto de elementos
s2.prod()

120