**Disclaimer**: Este notebook contiene mis notas sobre Pandas, resumiendo básicamente el [capítulo 3](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html) de [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/index.html) escrito por [Jake VanderPlas](http://vanderplas.com/). Recomiendo leer la fuente original e ir ejecutando todos los ejemplos (___learn by doing!___).

## Intro

[Pandas](https://pandas.pydata.org/) (Numerical Python) es una librería construída sobre NumPy para manipular estructuras de datos heterogéneos y etiquetados (dataframes). Pandas ofrece herramientas para tratar estas estructuras de forma eficiente, pudiendo realizar análisis de datos extensivos.

Los arrays de NumPy son perfectos para trabajar con datos limpios y organizados usando operaciones numéricas, pero sus limitaciones son claras cuando necesitamos flexibilidad (etiquetar datos, trabajar con datos faltantes, operaciones que no encajen con broadcasting, datos heterogéneos, etc). Pandas introduce los objetos **Series** y **DataFrame** para poder llevar a cabo las tareas de acomodar y pulir los datos en crudo con el fin de preparar los datos para su análisis.

Para poder usar Pandas, simplemente tendremos que importar la librería :)

In [1]:
# Pandas suele importarse con el alias pd
import pandas as pd

In [2]:
# Resto de imports
import numpy as np

## Objetos de Pandas

### El objeto `Series`

Se trata de un array unidimensional de datos indexados. Los índices son explícitos, lo que diferencia un objeto Series de Pandas de un array de NumPy, y además nos permite usar índices de cualquier otro tipo que no sea entero.

Podemos ver el objeto Series también como un caso particular de un diccionario de Python, pero ordenado (permitiendo slicing) y con mejor eficiencia para casos determinados, debido a que todos los índices son del mismo tipo.

Podemos crearlo a partir de una lista, un array de NumPy o un diccionario (en este último caso los índices por defecto serán las claves del diccionario ordenadas). Podemos incluso crearlo a partir de un escalar, que se repetirá tantas veces como longitud tenga el índice.

In [3]:
# Ejemplo a partir de un array sin especificar los índices (por defecto será una secuencia de enteros)
pd.Series([0, 0.25, 0.5, 0.75, 1.0])

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [4]:
# Mismo ejemplo especificando los índices
serie = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
                index=[0, 'a', 'b', 'c', 'e'])
serie

0    0.00
a    0.25
b    0.50
c    0.75
e    1.00
dtype: float64

In [5]:
# Ejemplo a partir de un diccionario, usando index para quedarnos sólo una parte
pd.Series({1:'a', 2:'b', 3:'c'}, index=[3, 2])

3    c
2    b
dtype: object

Para obtener los valores del objeto Series usamos el atributo **values**. Devuelve un array de NumPy.

In [6]:
serie.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

Para obtener los índices usamos el atributo **index**. Devuelve una especie de array de tipo pd.Index.

In [7]:
serie.index

Index([0, 'a', 'b', 'c', 'e'], dtype='object')

Como en Numpy podemos acceder a ciertos elementos usando corchetes:

In [8]:
# Obtener el valor en un índice
serie['e']

1.0

In [9]:
# Obtener parte de la serie
serie[0:2]

0    0.00
a    0.25
dtype: float64

### El objeto `DataFrame`

Se trata de un array bidimensional de datos doblemente indexados; esto es, una matriz de filas y columnas etiquetadas. Podemos verlo también como una versión ordenada de un diccionario de objetos Series.

Creamos un ejemplo de DataFrame usando 2 diccionarios de partida:

In [10]:
provinces_population = {'Madrid': 6578079, 'Barcelona': 5609350, 'Valencia': 2547986, 
                        'Sevilla': 1939887, 'Alicante': 1838819}
provinces_community = {'Madrid': 'Comunidad de Madrid', 'Valencia': 'Comunidad Valenciana', 
                        'Sevilla': 'Andalucía', 'Alicante': 'Comunidad Valenciana', 'Bilbao': 'Euskadi'}

# Creamos un diccionario con 2 claves, una para cada diccionario:
provinces = pd.DataFrame({'population': provinces_population, 'community': provinces_community})
provinces

Unnamed: 0,population,community
Alicante,1838819.0,Comunidad Valenciana
Barcelona,5609350.0,
Bilbao,,Euskadi
Madrid,6578079.0,Comunidad de Madrid
Sevilla,1939887.0,Andalucía
Valencia,2547986.0,Comunidad Valenciana


Como podemos observar, cuando no coinciden los índices de los diccionarios se rellenarán los huecos con NaN ("Not a Number").

In [11]:
# En index tendremos los índices de las filas, que eran los índices de los dos diccionarios
provinces.index

Index(['Alicante', 'Barcelona', 'Bilbao', 'Madrid', 'Sevilla', 'Valencia'], dtype='object')

In [12]:
# En columns tendremos los índices de las columnas
provinces.columns

Index(['population', 'community'], dtype='object')

Para acceder a los datos podemos especificar un único índice, con lo que obtendremos una columna indexada (al contrario que en los arrays bidimensionales de NumPy, donde el primer índice pertenecía a una fila). La columna no es más que un objeto de tipo Series. También podemos especificar un segundo índice, con lo que obtendríamos un único valor:

In [13]:
# Obtenemos la primera serie / columna
provinces['population']

Alicante     1838819.0
Barcelona    5609350.0
Bilbao             NaN
Madrid       6578079.0
Sevilla      1939887.0
Valencia     2547986.0
Name: population, dtype: float64

In [14]:
# Indicamos un índice / fila dentro de esa misma serie 
provinces['population']['Madrid']

6578079.0

Podemos crear un DataFrame de muchas maneras. En el ejemplo hemos visto cómo crearlo a partir de un diccionario de diccionarios (que también podría haber sido un diccionario de objetos Series). A continuación más ejemplos:

In [15]:
# DataFrame creado a partir de un único objeto Series:
pd.DataFrame(serie, columns=['valor'])

Unnamed: 0,valor
0,0.0
a,0.25
b,0.5
c,0.75
e,1.0


In [16]:
# DataFrame creado a partir de una lista de diccionarios (cada elemento será una fila)
pd.DataFrame([{'a': i, 'b': i**2} for i in range(1, 4)])

Unnamed: 0,a,b
0,1,1
1,2,4
2,3,9


In [17]:
# DataFrame creado a partir de un array bidimensional de NumPy
pd.DataFrame(np.random.rand(2,3), columns=['a', 'b', 'c'], index=[1, 2])

Unnamed: 0,a,b,c
1,0.474427,0.211578,0.877327
2,0.638788,0.440792,0.421889


También podemos crear un DataFrame directamente a partir de un array estructurado de NumPy:

In [18]:
pd.DataFrame(np.ones(3, dtype=[('A', 'i8'), ('B', 'f8')]))

Unnamed: 0,A,B
0,1,1.0
1,1,1.0
2,1,1.0


### El objeto `Index`

Ya hemos podido ver esta estructura en los ejemplos de Series y DataFrame. Podemos verlo como un array **inmutable**. Que los índices no sean modificables es una medida de seguridad por si varios objetos comparten el mismo Index.

Podemos construir un objeto Index:

In [19]:
# Ejemplo
ind = pd.Index([3, 6, 9, 12, 15])
ind

Int64Index([3, 6, 9, 12, 15], dtype='int64')

Como en los arrays, podemos acceder a un elemento o hacer slicing con corchetes. Además tendremos acceso a atributos disponibles en NumPy:

In [20]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


El objeto Index puede verse también como un conjunto ordenado. ¿Por qué? porque podemos calcular la intersección (`&`), la unión (`|`), o la diferencia simétrica (`^`) de dos objetos Index.

## Indexado y selección de datos