**Disclaimer**: Este notebook contiene mis notas sobre Pandas, resumiendo básicamente el [capítulo 3](https://jakevdp.github.io/PythonDataScienceHandbook/03.00-introduction-to-pandas.html) de [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/index.html) escrito por [Jake VanderPlas](http://vanderplas.com/). Recomiendo leer la fuente original e ir ejecutando todos los ejemplos (___learn by doing!___).

## Intro

[Pandas](https://pandas.pydata.org/) (Numerical Python) es una librería construída sobre NumPy para manipular estructuras de datos heterogéneos y etiquetados (dataframes). Pandas ofrece herramientas para tratar estas estructuras de forma eficiente, pudiendo realizar análisis de datos extensivos.

Los arrays de NumPy son perfectos para trabajar con datos limpios y organizados usando operaciones numéricas, pero sus limitaciones son claras cuando necesitamos flexibilidad (etiquetar datos, trabajar con datos faltantes, operaciones que no encajen con broadcasting, datos heterogéneos, etc). Pandas introduce los objetos **Series** y **DataFrame** para poder llevar a cabo las tareas de acomodar y pulir los datos en crudo con el fin de preparar los datos para su análisis.

Para poder usar Pandas, simplemente tendremos que importar la librería :)

In [1]:
# Pandas suele importarse con el alias pd
import pandas as pd

In [2]:
# Resto de imports
import numpy as np

## Objetos de Pandas

### El objeto `Series`

Se trata de un array unidimensional de datos indexados. Los índices son explícitos, lo que diferencia un objeto Series de Pandas de un array de NumPy, y además nos permite usar índices de cualquier otro tipo que no sea entero.

Podemos ver el objeto Series también como un caso particular de un diccionario de Python, pero ordenado (permitiendo slicing) y con mejor eficiencia para casos determinados, debido a que todos los índices son del mismo tipo.

Podemos crearlo a partir de una lista, un array de NumPy o un diccionario (en este último caso los índices por defecto serán las claves del diccionario ordenadas). Podemos incluso crearlo a partir de un escalar, que se repetirá tantas veces como longitud tenga el índice.

In [3]:
# Ejemplo a partir de un array sin especificar los índices (por defecto será una secuencia de enteros)
pd.Series([0, 0.25, 0.5, 0.75, 1.0])

0    0.00
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64

In [4]:
# Mismo ejemplo especificando los índices
serie = pd.Series([0, 0.25, 0.5, 0.75, 1.0],
                index=[0, 'a', 'b', 'c', 'e'])
serie

0    0.00
a    0.25
b    0.50
c    0.75
e    1.00
dtype: float64

In [5]:
# Ejemplo a partir de un diccionario, usando index para quedarnos sólo una parte
pd.Series({1:'a', 2:'b', 3:'c'}, index=[3, 2])

3    c
2    b
dtype: object

Para obtener los valores del objeto Series usamos el atributo **values**. Devuelve un array de NumPy.

In [6]:
serie.values

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

Para obtener los índices usamos el atributo **index**. Devuelve una especie de array de tipo pd.Index.

In [7]:
serie.index

Index([0, 'a', 'b', 'c', 'e'], dtype='object')

### El objeto `DataFrame`

Se trata de un array bidimensional de datos doblemente indexados; esto es, una matriz de filas y columnas etiquetadas. Podemos verlo también como una versión ordenada de un diccionario de objetos Series.

Creamos un ejemplo de DataFrame usando 2 diccionarios de partida:

In [8]:
provinces_population = {'Madrid': 6578079, 'Barcelona': 5609350, 'Valencia': 2547986, 
                        'Sevilla': 1939887, 'Alicante': 1838819}
provinces_community = {'Madrid': 'Comunidad de Madrid', 'Valencia': 'Comunidad Valenciana', 
                        'Sevilla': 'Andalucía', 'Alicante': 'Comunidad Valenciana', 'Bilbao': 'Euskadi'}

# Creamos un diccionario con 2 claves, una para cada diccionario:
provinces = pd.DataFrame({'population': provinces_population, 'community': provinces_community})
provinces

Unnamed: 0,population,community
Alicante,1838819.0,Comunidad Valenciana
Barcelona,5609350.0,
Bilbao,,Euskadi
Madrid,6578079.0,Comunidad de Madrid
Sevilla,1939887.0,Andalucía
Valencia,2547986.0,Comunidad Valenciana


Como podemos observar, cuando no coinciden los índices de los diccionarios se rellenarán los huecos con NaN ("Not a Number").

En el atributo **index** tendremos los índices de las filas:

In [9]:
provinces.index

Index(['Alicante', 'Barcelona', 'Bilbao', 'Madrid', 'Sevilla', 'Valencia'], dtype='object')

En el atributo **columns** tendremos los índices de las columnas:

In [10]:
provinces.columns

Index(['population', 'community'], dtype='object')

En el atributo **values** estarán todos los valores:

In [11]:
provinces.values

array([[1838819.0, 'Comunidad Valenciana'],
       [5609350.0, nan],
       [nan, 'Euskadi'],
       [6578079.0, 'Comunidad de Madrid'],
       [1939887.0, 'Andalucía'],
       [2547986.0, 'Comunidad Valenciana']], dtype=object)

Podemos crear un DataFrame de muchas maneras. En el ejemplo hemos visto cómo crearlo a partir de un diccionario de diccionarios (que también podría haber sido un diccionario de objetos Series). A continuación más ejemplos:

In [12]:
# DataFrame creado a partir de un único objeto Series:
pd.DataFrame(serie, columns=['valor'])

Unnamed: 0,valor
0,0.0
a,0.25
b,0.5
c,0.75
e,1.0


In [13]:
# DataFrame creado a partir de una lista de diccionarios (cada elemento será una fila)
pd.DataFrame([{'a': i, 'b': i**2} for i in range(1, 4)])

Unnamed: 0,a,b
0,1,1
1,2,4
2,3,9


In [14]:
# DataFrame creado a partir de un array bidimensional de NumPy
pd.DataFrame(np.random.rand(2,3), columns=['a', 'b', 'c'], index=[1, 2])

Unnamed: 0,a,b,c
1,0.676657,0.575433,0.402924
2,0.444793,0.226137,0.906156


También podemos crear un DataFrame directamente a partir de un array estructurado de NumPy:

In [15]:
pd.DataFrame(np.ones(3, dtype=[('A', 'i8'), ('B', 'f8')]))

Unnamed: 0,A,B
0,1,1.0
1,1,1.0
2,1,1.0


Finalmente, podemos transponer el DataFrame como si fuera una matriz

In [16]:
provinces.T

Unnamed: 0,Alicante,Barcelona,Bilbao,Madrid,Sevilla,Valencia
population,1.83882e+06,5609350.0,,6.57808e+06,1.93989e+06,2.54799e+06
community,Comunidad Valenciana,,Euskadi,Comunidad de Madrid,Andalucía,Comunidad Valenciana


### El objeto `Index`

Ya hemos podido usar esta estructura en los ejemplos de Series y DataFrame. Podemos verlo como un array **inmutable**. Que los índices no sean modificables es una medida de seguridad por si varios objetos comparten el mismo Index.

Podemos construir un objeto Index:

In [17]:
# Ejemplo
ind = pd.Index([3, 6, 9, 12, 15])
ind

Int64Index([3, 6, 9, 12, 15], dtype='int64')

Como en los arrays, podemos acceder a un elemento o hacer slicing con corchetes. Además tendremos acceso a atributos disponibles en NumPy:

In [18]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


El objeto Index puede verse también como un conjunto ordenado. ¿Por qué? porque podemos calcular la intersección (`&`), la unión (`|`), o la diferencia simétrica (`^`) de dos objetos Index.

### `Panel` y `Panel4D`

Pandas proporciona estos 2 objetos para manejar datos con 3 y 4 dimensiones respectivamente, de forma nativa. Aunque en la práctica lo más común es hacer uso del indexado jerárquico o multi-indexado.

## Indexado y selección de datos

### Series

In [19]:
# Ejemplo
serie

0    0.00
a    0.25
b    0.50
c    0.75
e    1.00
dtype: float64

Como en Numpy podemos **indexar** sus elementos usando corchetes:

In [20]:
# Obtener el valor en un índice
serie['e']

1.0

El **slicing** tiene una particularidad; si lo hacemos con índices explícitos, el último índice está incluido en la selección. En cambio, si usamos índices implícitos, el último índice está excluido como siempre. 

In [21]:
# Slicing por índices explícitos
serie['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [22]:
# Slicing por índices implícitos
serie[0:2]

0    0.00
a    0.25
dtype: float64

In [23]:
# Masking
serie[(serie > 0.4) & (serie < 0.6)]

b    0.5
dtype: float64

In [24]:
# Indexado múltiple (fancy)
serie[[0, 'e']]

0    0.0
e    1.0
dtype: float64

Si tenemos índices numéricos explícitos, las operaciones de indexado usarán estos índices, pero las operaciones de slicing usarán los índices implícitos.

In [25]:
serie2 = pd.Series(['a', 'b', 'c'], index=[2, 3, 4])

serie2[2]

'a'

In [26]:
serie2[1:3]

3    b
4    c
dtype: object

Para evitar este tipo de confusiones, Pandas proporciona unos atributos especiales para el objeto Series:
 * `loc` : referencia a los índices explícitos
 * `iloc` : referencia a los índices implícitos
 * `ix` : *deprecated*
 
Es recomendable escribirlos siempre, y usar índices explícitos en lugar de implícitos siempre que podamos.

In [27]:
# Ejemplo
serie2.iloc[2]

'c'

In [28]:
# Ejemplo
serie2.loc[1:3]

2    a
3    b
dtype: object

### DataFrame

In [29]:
# Ejemplo
provinces

Unnamed: 0,population,community
Alicante,1838819.0,Comunidad Valenciana
Barcelona,5609350.0,
Bilbao,,Euskadi
Madrid,6578079.0,Comunidad de Madrid
Sevilla,1939887.0,Andalucía
Valencia,2547986.0,Comunidad Valenciana


Para **indexar** los datos podemos especificar un único índice (por defecto es un índice explícito), con lo que obtendremos una columna indexada. La columna no es más que un objeto de tipo Series. También podemos especificar un segundo índice, con lo que obtendríamos un único valor:

In [30]:
# Indexado. Usando corchetes o el típico acceso a un atributo (provinces.population).
# NOTA: Mejor corchetes! lo otro no funciona si la columna se llama igual que un método de DataFrame, como por ejemplo pop.
provinces['population']

Alicante     1838819.0
Barcelona    5609350.0
Bilbao             NaN
Madrid       6578079.0
Sevilla      1939887.0
Valencia     2547986.0
Name: population, dtype: float64

In [31]:
# Indicamos un índice / fila dentro de esa misma serie 
provinces['population']['Madrid']

6578079.0

In [32]:
# Podemos usar el indexado para crear una nueva columna:
provinces['population_M'] = round(provinces['population'] / 1000000, 2)
provinces

Unnamed: 0,population,community,population_M
Alicante,1838819.0,Comunidad Valenciana,1.84
Barcelona,5609350.0,,5.61
Bilbao,,Euskadi,
Madrid,6578079.0,Comunidad de Madrid,6.58
Sevilla,1939887.0,Andalucía,1.94
Valencia,2547986.0,Comunidad Valenciana,2.55


In [33]:
# Podemos seleccionar una fila concreta en lugar de una columna usando los índices implícitos
provinces.iloc[3]

population              6.57808e+06
community       Comunidad de Madrid
population_M                   6.58
Name: Madrid, dtype: object

In [34]:
# También podemos seleccionar sólo los valores de una fila con el atributo values
provinces.values[3]

array([6578079.0, 'Comunidad de Madrid', 6.58], dtype=object)

In [35]:
# Seleccionar un valor con índices explícitos como si de un array se tratase
provinces.loc['Madrid', 'population_M'] # Equivalente a provinces['population_M']['Madrid']

6.58

In [36]:
# Seleccionar un valor con índices implícitos
provinces.iloc[3, 2]

6.58

El **slicing**, al contrario que el indexado, se hace sobre filas

In [37]:
# Slicing con índices explícitos
provinces['Barcelona':'Madrid']

Unnamed: 0,population,community,population_M
Barcelona,5609350.0,,5.61
Bilbao,,Euskadi,
Madrid,6578079.0,Comunidad de Madrid,6.58


In [38]:
# Slicing con índices implícitos
provinces.iloc[:2, 1:]

Unnamed: 0,community,population_M
Alicante,Comunidad Valenciana,1.84
Barcelona,,5.61


In [39]:
# Slicing con índices explícitos
provinces.loc[:'Barcelona', 'community':]

Unnamed: 0,community,population_M
Alicante,Comunidad Valenciana,1.84
Barcelona,,5.61


In [40]:
# Podemos combinar masking con indexado múltiple
provinces.loc[provinces.population_M > 4, ['community', 'population']]

Unnamed: 0,community,population
Barcelona,,5609350.0
Madrid,Comunidad de Madrid,6578079.0


## Operaciones con datos

Pandas hereda las ufuncs de NumPy, incluyendo un par de cosas:
* ufuncs unarias: se conservan los índices de filas y columnas
* ufuncs binarias: se alinean automáticamente los índices de los dos objetos de entrada

En el caso de que los índices no casen, aparecen los valores NaN. Estos valores se pueden cambiar por otros si en lugar de usar por ejemplo el operador **A + B** usamos la función **A.add(B, fill_value=0)**

Relación entre operador y su método equivalente en Pandas:
 * `+` = add()
 * `-` = sub(), subtract()
 * `*` = mul(), multiply()
 * `/` = truediv)(, div(), divide()
 * `//` = floordiv()
 * `**` = pow()
 * `%` = mod()
 
Podemos hacer operaciones entre objetos Series y objetos DataFrame:

In [41]:
# Ejemplo
df = pd.DataFrame(np.random.rand(3, 4), columns=['a', 'b', 'c', 'd'], index=['zero', 'one', 'two'])
df

Unnamed: 0,a,b,c,d
zero,0.640208,0.823268,0.354406,0.457425
one,0.185737,0.887724,0.153241,0.437036
two,0.857957,0.273244,0.419699,0.400544


In [42]:
# Las operaciones por defecto con DataFrames se realizan por filas
df - df.loc['zero']

Unnamed: 0,a,b,c,d
zero,0.0,0.0,0.0,0.0
one,-0.454471,0.064456,-0.201165,-0.020389
two,0.21775,-0.550025,0.065293,-0.056881


In [43]:
# Si queremos operar por columna, usamos los métodos de Pandas en lugar de los operadores, para poder especificar axis
df.sub(df['a'], axis=0)

Unnamed: 0,a,b,c,d
zero,0.0,0.183061,-0.285802,-0.182783
one,0.0,0.701987,-0.032495,0.251299
two,0.0,-0.584713,-0.438258,-0.457414


In [44]:
# Ejemplo restando a un DataFrame parte del mismo. Los índices se conservan, pero aparece NaN donde no coincidían
df - df.iloc[0, ::2]

Unnamed: 0,a,b,c,d
zero,0.0,,0.0,
one,-0.454471,,-0.201165,
two,0.21775,,0.065293,


### Operaciones con valores no disponibles

NaN (Not a Number) es una de las dos representaciones usadas en Pandas (y en NumPy) para valores no disponibles o faltantes (NA); siendo la otra None (el objeto nulo de Python). La ventaja de usar NaN es que se trata de un valor especial de punto flotante, y no tendremos errores a la hora de hacer operaciones como con None. Eso sí, cualquier operación normal con un NaN tendrá como resultado NaN (NumPy define versiones especiales de las operaciones más comunes para ignorar estos valores).

En la siguiente tabla se detalla lo que ocurre cuando se detecta un valor NA en un tipo específico de Pandas (NOTA: los strings se almacenan como dtype object):

<table>
  <tr>
    <th>dtype</th>
    <th>conversión</th>
    <th>NA</th>
  </tr>
  <tr>
    <td>floating</td>
    <td>-</td>
    <td>np.nan</td>
  </tr>
  <tr>
    <td>object</td>
    <td>-</td>
    <td>None ó np.nan</td>
  </tr>
    <tr>
    <td>integer</td>
    <td>a float64</td>
    <td>np.nan</td>
  </tr>
  <tr>
    <td>boolean</td>
    <td>a object</td>
    <td>None ó np.nan</td>
  </tr>
</table>

In [45]:
# Ejemplo con serie de integers -> conversión a float64, None a NaN
pd.Series([0, None])

0    0.0
1    NaN
dtype: float64

In [46]:
# Ejemplo con serie de objects -> conversión a object, None se queda igual
pd.Series([True, None])

0    True
1    None
dtype: object

Pandas cuenta con varios métodos para detectar, filtrar o reemplazar esos valores faltantes:
 * `isnull()` : devuelve una máscara indicando los valores NA como True
 * `notnull()` : devuelve una máscara indicando los valores NA como False
 * `dropna()` : devuelve una versión filtrada de los datos sin los valores NA
 * `fillna()` : devuelve una versión de los datos con los NA reemplazados
 
En el caso de un DataFrame, `dropna()` no puede eliminar únicamente los elementos NA. Se comportará de manera distinta dependiendo de sus parámetros:
 * `dropna()` : elimina las filas con NA
 * `dropna(axis='columns')` : elimina las columnas con NA
 * `dropna(how='all')` : elimina las filas con todos sus elementos NA
 * `dropna(thresh=n)` : elimina las filas con menos de n valores distintos de NA
 
El método `fillna()` también cuenta con varias opciones:
 * `fillna(0)` : reemplaza los NA con el valor 0
 * `fillna(method='ffill')` : reemplaza los NA con el valor anterior (de la fila anterior si es un DataFrame)
 * `fillna(method='bfill')` : reemplaza los NA con el valor posterior (de la fila posterior si es un DataFrame)
 * `fillna(method='bfill', axis=1)` : reemplaza los NA con el valor de la columna posterior (DataFrame)

## Indexado jerárquico o Multi-indexado

Para utilizar más dimensiones de las establecidas para Series (1D) y DataFrame (2D) se utiliza el indexado jerárquico, que consiste en incorporar distintos niveles para los índices dentro de un objeto `MultiIndex`. 

Imaginemos que tenemos el siguiente objeto Series pero queremos incorporar información temporal:

In [47]:
provinces['population_M']

Alicante     1.84
Barcelona    5.61
Bilbao        NaN
Madrid       6.58
Sevilla      1.94
Valencia     2.55
Name: population_M, dtype: float64

Podríamos vernos tentados de hacerlo usando un nuevo Index compuesto por tuplas (Ciudad, año) pero eso es precisamente lo que queremos evitar con MultiIndex.

Para crear un objeto multi-indexado lo más sencillo es pasar al constructor un multi-index. Y lo más recomendable es crear el multi-index primero. Para ello podemos usar varias formas:

In [48]:
# Ejemplo de creación de multi-index desde arrays
index=pd.MultiIndex.from_arrays([['Madrid', 'Madrid', 'Barcelona', 'Barcelona', 'Valencia', 'Valencia'], 
                                 [2017, 2018, 2017, 2018, 2017, 2018]])
index

MultiIndex(levels=[['Barcelona', 'Madrid', 'Valencia'], [2017, 2018]],
           codes=[[1, 1, 0, 0, 2, 2], [0, 1, 0, 1, 0, 1]])

In [49]:
# Ejemplo de creación de multi-index desde tuplas
index=pd.MultiIndex.from_tuples([('Madrid', 2017), ('Madrid', 2018), ('Barcelona', 2017), 
                                 ('Barcelona', 2018), ('Valencia', 2017), ('Valencia', 2018)])
index

MultiIndex(levels=[['Barcelona', 'Madrid', 'Valencia'], [2017, 2018]],
           codes=[[1, 1, 0, 0, 2, 2], [0, 1, 0, 1, 0, 1]])

In [50]:
# Ejemplo de creación de multi-index desde un producto de arrays con índices únicos. Asignamos nombres!
index=pd.MultiIndex.from_product([['Madrid', 'Barcelona', 'Valencia'], [2017, 2018]], 
                                 names=['ciudad', 'año'])
index

MultiIndex(levels=[['Barcelona', 'Madrid', 'Valencia'], [2017, 2018]],
           codes=[[1, 1, 0, 0, 2, 2], [0, 1, 0, 1, 0, 1]],
           names=['ciudad', 'año'])

In [51]:
# Ejemplo de creación de objeto Series con multi-index
serie = pd.Series([6.4, 6.5, 5.5, 5.6, 2.5, 2.5], index=index)
serie

ciudad     año 
Madrid     2017    6.4
           2018    6.5
Barcelona  2017    5.5
           2018    5.6
Valencia   2017    2.5
           2018    2.5
dtype: float64

In [52]:
# Accedemos a la información para Madrid usando un índice normal
serie['Madrid']

año
2017    6.4
2018    6.5
dtype: float64

In [53]:
# Accedemos a la información para el año 2017 usando un índice compuesto
serie[:, 2017]

ciudad
Madrid       6.4
Barcelona    5.5
Valencia     2.5
dtype: float64

Podemos pasar fácilmente de un objeto Series a un DataFrame usando el método `unstack()`. La operación inversa se lograría con `stack()`

In [54]:
df = serie.unstack()
df

año,2017,2018
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,5.5,5.6
Madrid,6.4,6.5
Valencia,2.5,2.5


También podemos crear una columna nueva a partir de un índice de fila:

In [55]:
serie_flat = serie.reset_index(name='population')
serie_flat

Unnamed: 0,ciudad,año,population
0,Madrid,2017,6.4
1,Madrid,2018,6.5
2,Barcelona,2017,5.5
3,Barcelona,2018,5.6
4,Valencia,2017,2.5
5,Valencia,2018,2.5


El paso contrario es bastante utilizado cuando partimos de datos en crudo:

In [56]:
serie_flat.set_index(['ciudad', 'año'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
ciudad,año,Unnamed: 2_level_1
Madrid,2017,6.4
Madrid,2018,6.5
Barcelona,2017,5.5
Barcelona,2018,5.6
Valencia,2017,2.5
Valencia,2018,2.5


La gracia del multi-indexado no es pasar de 1 a 2 dimensiones, sino por ejemplo de 2 a 3:

In [57]:
# Ejemplo
df_3 = pd.DataFrame({'total': serie, 'over65': [1.4, 1.5, 1.1, 1.1, 0.5, 0.5]})
df_3

Unnamed: 0_level_0,Unnamed: 1_level_0,total,over65
ciudad,año,Unnamed: 2_level_1,Unnamed: 3_level_1
Madrid,2017,6.4,1.4
Madrid,2018,6.5,1.5
Barcelona,2017,5.5,1.1
Barcelona,2018,5.6,1.1
Valencia,2017,2.5,0.5
Valencia,2018,2.5,0.5


En un DataFrame tanto las filas como las columnas pueden tener multi-index. Vemos un ejemplo para 4 dimensiones:

In [58]:
index = pd.MultiIndex.from_product([[2017, 2018], ['Q1', 'Q2', 'Q3', 'Q4']],
                                   names=['año', 'cuatrimestre'])
columns = pd.MultiIndex.from_product([['Madrid', 'Barcelona'], ['t_med', 't_max']],
                                     names=['ciudad', 'medida'])
data = [[10, 24, 12, 22], [15, 34, 16, 29], [16, 39, 15, 35], [11, 28, 13, 27],
       [11, 26, 11, 20], [16, 38, 17, 31], [15, 39, 14, 34], [12, 31, 14, 28]]

temp_data = pd.DataFrame(data, index=index, columns=columns)
temp_data

Unnamed: 0_level_0,ciudad,Madrid,Madrid,Barcelona,Barcelona
Unnamed: 0_level_1,medida,t_med,t_max,t_med,t_max
año,cuatrimestre,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2017,Q1,10,24,12,22
2017,Q2,15,34,16,29
2017,Q3,16,39,15,35
2017,Q4,11,28,13,27
2018,Q1,11,26,11,20
2018,Q2,16,38,17,31
2018,Q3,15,39,14,34
2018,Q4,12,31,14,28


In [59]:
# Indexar una columna (indexado parcial)
temp_data['Madrid']

Unnamed: 0_level_0,medida,t_med,t_max
año,cuatrimestre,Unnamed: 2_level_1,Unnamed: 3_level_1
2017,Q1,10,24
2017,Q2,15,34
2017,Q3,16,39
2017,Q4,11,28
2018,Q1,11,26
2018,Q2,16,38
2018,Q3,15,39
2018,Q4,12,31


In [60]:
# Indexar una subcolumna
temp_data['Madrid']['t_med']

año   cuatrimestre
2017  Q1              10
      Q2              15
      Q3              16
      Q4              11
2018  Q1              11
      Q2              16
      Q3              15
      Q4              12
Name: t_med, dtype: int64

In [61]:
# Indexamos hasta un único elemento
temp_data['Madrid']['t_med'][2018]['Q1']

11

In [62]:
# Lo mismo pero empezando el indexado por las filas
temp_data.loc[2018, 'Q1']['Madrid', 't_med']
temp_data.loc[(2018, 'Q1'), ('Madrid', 't_med')] # Equivalente

11

In [63]:
# Una selección más...
temp_data.loc[2018, :]['Madrid', 't_med']

cuatrimestre
Q1    11
Q2    16
Q3    15
Q4    12
Name: (Madrid, t_med), dtype: int64

In [64]:
# Slicing! No funcionará si el índice en cuestión no está ordenado
temp_data['Madrid']['t_med'][2018]['Q1':'Q2']

cuatrimestre
Q1    11
Q2    16
Name: t_med, dtype: int64

In [65]:
# Masking
temp_data[temp_data > 15]

Unnamed: 0_level_0,ciudad,Madrid,Madrid,Barcelona,Barcelona
Unnamed: 0_level_1,medida,t_med,t_max,t_med,t_max
año,cuatrimestre,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
2017,Q1,,24,,22
2017,Q2,,34,16.0,29
2017,Q3,16.0,39,,35
2017,Q4,,28,,27
2018,Q1,,26,,20
2018,Q2,16.0,38,17.0,31
2018,Q3,,39,,34
2018,Q4,,31,,28


In [66]:
# Fancy indexing, con doble corchete
serie[['Madrid', 'Valencia']]

ciudad    año 
Madrid    2017    6.4
          2018    6.5
Valencia  2017    2.5
          2018    2.5
dtype: float64

Para que funcione el slicing los índices tendrán que están ordenados. Si no lo están, podemos usar la función `sortindex()` o `sortlevel()` sobre nuestro objeto.

Podemos hacer agregaciones para un índice concreto usando el parámetro level:

In [67]:
temp_data_max = temp_data.max(level='año')
temp_data_max

ciudad,Madrid,Madrid,Barcelona,Barcelona
medida,t_med,t_max,t_med,t_max
año,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2017,16,39,16,35
2018,16,39,17,34


In [68]:
# También con columnas haciendo uso de index
temp_data_max = temp_data.max(level='medida', axis=1)
temp_data_max

Unnamed: 0_level_0,medida,t_med,t_max
año,cuatrimestre,Unnamed: 2_level_1,Unnamed: 3_level_1
2017,Q1,12,24
2017,Q2,16,34
2017,Q3,16,39
2017,Q4,13,28
2018,Q1,11,26
2018,Q2,17,38
2018,Q3,15,39
2018,Q4,14,31
