# Pandas 2: Tratamiento de datos nulos e Indexación Jerárquica

![](https://www.kindpng.com/picc/m/574-5747046_python-pandas-logo-transparent-hd-png-download.png)

Contenidos de este notebook:

1. [Tratamiento de Datos Ausentes](#tratamiento-de-datos-nulos)
   - [Missing Data en Pandas](#missing-data-en-pandas)
     - [None: Missing Data en Python](#none-pythonic-missing-data)
     - [NaN: Missing Data Numérico](#nan-missing-datos-numéricos)
     - [Nan y None en Pandas](#nan-y-none-en-pandas)
   - [Operar con valores nulos](#operar-con-valores-nulos)
     - [Detección](#detectar-valores-null)
     - [Eliminación](#dropping-null-values)
     - [Completado de Información](#rellenar-valores-nulos)
2. [Indexación Jerárquica](#hierarchical-indexing)
   - [Series Multi-index](#una-serie-multiindexada)
   - [Creación de Multi-index](#métodos-de-creación-de-multiindices)
   - [Indexado y Slicing en Multi-index](#indexado-y-slicing-un-multiindex)
   - [Reorganización de Multi-índices](#reorganización-de-los-multiíndices)
   - [Agregaciones en Multi-indices](#agregaciones-de-datos-en-multiíndices)


# Tratamiento de datos nulos

La diferencia entre los datos que se encuentran en muchos tutoriales y los datos del mundo real es que los datos del mundo real rara vez son limpios y homogéneos.
En particular, **muchos conjuntos de datos interesantes tendrán alguna cantidad de datos faltantes**.
Para complicar aún más las cosas, diferentes fuentes de datos pueden indicar los datos que faltan de diferentes maneras.

En esta sección, discutiremos algunas consideraciones generales para los datos perdidos, discutiremos cómo Pandas elige representarlos, y demostraremos algunas herramientas incorporadas de Pandas para manejar los datos faltantes (missings) en Python.
**Nos referiremos a los datos perdidos en general como valores *nulos*, *missing*, *NaN* o *NA* .



## "Compromisos" en las convenciones de datos faltantes


Hay una serie de esquemas que se han desarrollado para indicar la presencia de datos que faltan en una tabla o DataFrame.
Generalmente, giran en torno a una de dos estrategias: **utilizar una *máscara* que indique globalmente los valores que faltan, o elegir un *valor centinela* que indique una entrada que falta**.

En el enfoque de enmascaramiento, **la máscara** puede ser una matriz booleana completamente separada, o puede implicar la apropiación de un bit en la representación de datos para indicar localmente el estado nulo de un valor.

En el enfoque de centinela, el valor centinela **puede ser alguna convención específica de los datos, como indicar un valor entero faltante con -9999** o algún patrón de bits raro, o puede ser una convención más global, como indicar un valor de punto flotante faltante con **NaN (Not a Number)**, un valor especial que forma parte de la especificación de punto flotante del IEEE.

Ninguno de estos enfoques está exento de inconvenientes: el uso de una matriz de máscaras separada requiere la asignación de una matriz booleana adicional, lo que añade una sobrecarga tanto de almacenamiento como de cálculo. Un valor centinela reduce el rango de valores válidos que pueden representarse y puede requerir una lógica adicional (a menudo no optimizada) en la aritmética de la CPU y la GPU. Los valores especiales comunes como NaN no están disponibles para todos los tipos de datos.

Como en la mayoría de los casos en los que no existe una opción universalmente óptima, diferentes lenguajes y sistemas utilizan diferentes convenciones.
**Por ejemplo, el lenguaje R utiliza patrones de bits reservados dentro de cada tipo de datos como valores centinela que indican la ausencia de datos**, mientras que el sistema SciDB utiliza un byte adicional adjunto a cada celda que indica un estado NA.

## Missing Data en Pandas

La forma en que Pandas **maneja los valores perdidos está limitada por su dependencia del paquete NumPy**, que no tiene una noción incorporada de valores NA para los tipos de datos que no son de punto flotante.

Pandas podría haber seguido el ejemplo de **R especificando patrones de bits para cada tipo de datos individual** para indicar la nulidad, pero este enfoque resulta ser bastante difícil de manejar.
Mientras que R contiene cuatro tipos de datos básicos, **NumPy soporta *mucho* más que esto**: por ejemplo, mientras que R tiene un único tipo de entero, NumPy soporta *catorce* tipos de enteros básicos una vez que se tienen en cuenta las precisiones disponibles, la significación y la codificación.
**Reservar un patrón de bits específico en todos los tipos disponibles de NumPy llevaría a una cantidad inmanejable de sobrecarga** en las operaciones especiales para varios tipos, probablemente incluso requiriendo un nuevo fork del paquete NumPy. Además, para los tipos de datos más pequeños (como los enteros de 8 bits), sacrificar un bit para usarlo como máscara reducirá significativamente el rango de valores que puede representar.

**NumPy tiene soporte para arrays enmascarados** - es decir, arrays que tienen un array de máscara booleana separado para marcar los datos como "buenos" o "malos".
Pandas podría haber derivado de esto, pero la sobrecarga en el almacenamiento, el cálculo y el mantenimiento del código hace que sea una opción poco atractiva.

Con estas limitaciones en mente, **Pandas eligió usar centinelas para los datos perdidos**, y además eligió usar dos valores nulos ya existentes en Python: el valor especial de punto flotante **``NaN``, y el objeto Python ``None``**.
Esta elección tiene algunos efectos secundarios, como veremos, pero en la práctica acaba siendo un buen compromiso en la mayoría de los casos de interés.

### ``None``: Pythonic missing data

El primer valor centinela utilizado por Pandas es **``None``**, un objeto singleton de Python que se utiliza a menudo para los datos que faltan en el código de Python.
Debido a que es un objeto de Python, ``None`` no se puede utilizar en cualquier array arbitrario de NumPy/Pandas, sino sólo en arrays con tipo de datos ``'object'`` (es decir, arrays de objetos de Python):

In [1]:
import numpy as np
import pandas as pd

In [2]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

Este ``dtype=object`` significa que la mejor representación de tipo común que NumPy puede inferir para los contenidos del array es que son objetos de Python.
Aunque este tipo de matriz de objetos es útil para algunos propósitos, cualquier operación sobre los datos se hará a nivel de Python, con mucha más sobrecarga que las operaciones típicamente rápidas vistas para las matrices con tipos nativos:

In [None]:
for dtype in ['object', 'int']:
    print("dtype =", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

El uso de objetos Python en un array también significa que si realizas agregaciones como ``sum()`` o ``min()`` en un array con un valor ``None``, generalmente obtendrás un error:

In [None]:
vals1.sum()

This reflects the fact that addition between an integer and ``None`` is undefined.

### ``NaN``: Missing datos numéricos

La otra representación de datos faltantes, ``NaN`` (acrónimo de *Not a Number*), es diferente; es un valor especial de punto flotante reconocido por todos los sistemas que utilizan la representación estándar de punto flotante IEEE:

In [6]:
vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype

dtype('float64')

Fíjate en que NumPy eligió un tipo nativo de punto flotante para este array: esto significa que **a diferencia del array de objetos de antes, este array soporta operaciones rápidas empujadas en el código compilado.**
Debes tener en cuenta que ``NaN`` es un poco como un virus de datos - infecta cualquier otro objeto que toque.
Independientemente de la operación, el resultado de la aritmética con ``NaN`` será otro ``NaN``:

In [7]:
1 + np.nan

nan

In [8]:
0 *  np.nan

nan

In [9]:
vals2

array([ 1., nan,  3.,  4.])

Tenga en cuenta que esto significa que los agregados sobre los valores están bien definidos (es decir, no dan lugar a un error) pero no siempre son útiles:

In [10]:
vals2.sum(), vals2.min(), vals2.max()

(nan, nan, nan)

NumPy proporciona algunas agregaciones especiales que ignoran estos valores perdidos:

In [11]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

In [12]:
np.nan/np.nan

nan

Tenga en cuenta que ``NaN`` es específicamente un valor de punto flotante; no hay un valor NaN equivalente para enteros, cadenas u otros tipos.

### NaN y None en Pandas

Tanto ``NaN`` como ``None`` tienen su lugar, y Pandas está construido para manejar los dos casi indistintamente, convirtiendo entre ellos cuando sea apropiado:

In [None]:
pd.Series([1, np.nan, 2, None])

Para los tipos que no tienen un valor centinela disponible, Pandas realiza automáticamente una conversión de tipo cuando hay valores NA.
Por ejemplo, **si establecemos un valor en un array de enteros a ``np.nan``, se convertirá automáticamente a un tipo de punto flotante para acomodar el NA**:

In [None]:
x = pd.Series(range(2), dtype=int)
x

In [None]:
x[0] = None
x

Observe que **además de convertir el array de enteros a punto flotante, Pandas convierte automáticamente el ``None`` a un valor ``NaN``**.
(Tenga en cuenta que hay una propuesta para añadir un entero nativo NA a Pandas en el futuro; en el momento de escribir esto, no se ha incluido).

Mientras que este tipo de magia puede parecer un poco deficiente en comparación con el enfoque más unificado de los valores NA en lenguajes específicos como R, el enfoque de centinela/casting de Pandas funciona bastante bien en la práctica y en mi experiencia sólo causa problemas en raras ocasiones.

La siguiente tabla lista las convenciones de upcasting en Pandas cuando se introducen valores NA:

|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

__Tenga en cuenta que en Pandas, los datos de cadena siempre se almacenan con un dtype ``object``.__

## Operar con valores nulos

Como hemos visto, **Pandas trata ``None`` y ``NaN`` como esencialmente intercambiables para indicar valores nulos o perdidos.**
Para facilitar esta convención, existen varios métodos útiles para detectar, eliminar y reemplazar valores nulos en las estructuras de datos de Pandas.
Estos son:

- ``isnull()``: Generar una máscara booleana que indique los valores que faltan
- ``notnull()``: El contrario de ``isnull()``
- ``dropna()``: Devuelve una versión filtrada de los datos
- ``fillna()``: Devuelve una copia de los datos con los valores perdidos rellenados o imputados

Veremos unos ejemplos de estas funciones.

In [14]:
df = pd.DataFrame([[0, 1, None], [1, np.nan, 2]]).T
df

Unnamed: 0,0,1
0,0.0,1.0
1,1.0,
2,,2.0


In [25]:
df.loc[(df[0].isnull())|(df[1].isnull())]

Unnamed: 0,0,1
1,1.0,
2,,2.0


In [18]:
df.isnull()

Unnamed: 0,0,1
0,False,False
1,False,True
2,True,False


In [26]:
df.isnull().sum()

0    1
1    1
dtype: int64

In [27]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       2 non-null      float64
 1   1       2 non-null      float64
dtypes: float64(2)
memory usage: 176.0 bytes


### Detectar valores null

Las estructuras de datos de Pandas tienen dos métodos útiles para detectar datos nulos: ``isnull()`` y ``notnull()``.
Cualquiera de ellos devolverá una máscara booleana sobre los datos. Por ejemplo:

In [28]:
data = pd.Series([1, np.nan, 'hello', None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [29]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [30]:
data.notnull()

0     True
1    False
2     True
3    False
dtype: bool

 Las máscaras booleanas se pueden utilizar directamente como índice de ``Series`` o ``DataFrame``:

In [33]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [None]:
# data[~(data==1)]

In [34]:
data[~data.isnull()]

0        1
2    hello
dtype: object

Los métodos ``isnull()`` y ``notnull()`` producen resultados booleanos similares para los ``DataFrame``.

### Dropping null values

Además del enmascaramiento utilizado anteriormente, existen los métodos de conveniencia, ``dropna()``
(que elimina los valores NA) y ``fillna()`` (que rellena los valores NA). Para una ``Serie``,
el resultado es sencillo:

In [35]:
data.dropna()
# data.dropna(inplace=True)
# data = data.dropna()

0        1
2    hello
dtype: object

In [None]:
data

Para un ``DataFrame``, hay más opciones.
Considera el siguiente ``DataFrame``:

In [36]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       2 non-null      float64
 1   1       2 non-null      float64
 2   2       3 non-null      int64  
dtypes: float64(2), int64(1)
memory usage: 200.0 bytes


No podemos eliminar valores individuales de un ``DataFrame``; sólo podemos eliminar filas o columnas completas.
Dependiendo de la aplicación, se puede querer una cosa u otra, por lo que ``dropna()`` da una serie de opciones para un ``DataFrame``.

Por defecto, ``dropna()`` eliminará todas las __filas__ en las que esté presente *cualquier* valor nulo:

In [43]:
df[3] = np.array([np.nan, np.nan, np.nan])
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [45]:
df.dropna(axis=1, how="any")

Unnamed: 0,2
0,2
1,5
2,6


Alternativamente, puede dejar los valores NA a lo largo de un eje diferente; ``axis=1`` deja todas las columnas que contienen un valor nulo:

In [None]:
df.dropna(axis=1)
# df.dropna(axis='columns')

Pero esto deja caer algunos datos buenos también; usted podría estar más interesado en dejar caer filas o columnas con *todos* los valores NA, o una mayoría de valores NA.
Esto se puede especificar a través de los parámetros ``how`` o ``thresh``, que permiten un control fino del número de nulos a permitir.

El valor por defecto es ``how='any'``, de forma que cualquier fila o columna (dependiendo de la palabra clave ``axis``) que contenga un valor nulo será descartada.
También se puede especificar ``how='all'``, que sólo eliminará las filas/columnas que sean *todos* valores nulos:

In [46]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [47]:
df.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


Para un control más preciso, el parámetro ``thresh`` permite especificar un número mínimo de valores no nulos para la fila/columna que debe conservarse:

In [7]:
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [6]:
df.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [8]:
df.dropna(axis='rows', thresh=len(df.columns)*0.75)

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [9]:
df.dropna(axis='columns', thresh=len(df)*0.75)

Unnamed: 0,2
0,2
1,5
2,6


Aquí se han eliminado la primera y la última fila, porque sólo contienen dos valores no nulos.

### Rellenar valores nulos

A veces, en lugar de eliminar los valores NA, se prefiere sustituirlos por un valor válido.
Este valor podría ser un número único como el cero, o podría ser algún tipo de imputación o interpolación de los valores buenos.
Se podría hacer esto en el lugar usando el método ``isnull()`` como máscara, pero como es una operación tan común Pandas proporciona el método ``fillna()``, que devuelve una copia del array con los valores nulos reemplazados.

Considera la siguiente ``Serie``:

In [48]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Podemos rellenar las entradas NA con un único valor, como por ejemplo el cero:

In [50]:
data.mean()

2.0

In [51]:
data.fillna(0).mean()

1.2

Podemos especificar un forward-fill para propagar el valor anterior hacia adelante:

In [52]:
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [12]:
# forward-fill
data.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

O podemos especificar un relleno para propagar los siguientes valores hacia atrás:

In [53]:
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [13]:
# back-fill
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Para los ``DataFrame``, las opciones son similares, pero también podemos especificar un ``eje`` a lo largo del cual tienen lugar los rellenos:

In [54]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [15]:
df[1]

0    NaN
1    3.0
2    4.0
Name: 1, dtype: float64

In [16]:
df.fillna(df[1].mean())

Unnamed: 0,0,1,2
0,1.0,3.5,2
1,2.0,3.0,5
2,3.5,4.0,6


In [17]:
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [18]:
df.fillna(method='bfill', axis=1)

Unnamed: 0,0,1,2
0,1.0,2.0,2.0
1,2.0,3.0,5.0
2,4.0,4.0,6.0


Observe que si un valor anterior no está disponible durante un llenado hacia adelante, el valor NA permanece.

# Hierarchical Indexing

Hasta ahora nos hemos centrado principalmente en datos unidimensionales y bidimensionales, almacenados en objetos Pandas ``Series`` y ``DataFrame``, respectivamente.
A menudo es útil ir más allá y almacenar datos de mayor dimensión, es decir, datos indexados por más de una o dos claves.
Aunque Pandas proporciona objetos ``Panel`` y ``Panel4D`` que manejan de forma nativa datos tridimensionales y cuatridimensionales, un patrón mucho más común en la práctica es hacer uso de la *indexación jerárquica* (también conocida como *multiindexación*) para incorporar múltiples *niveles de índice* dentro de un único índice.
De este modo, los datos de mayor dimensión pueden representarse de forma compacta dentro de los conocidos objetos unidimensionales ``Series`` y bidimensionales ``DataFrame``.

En esta sección, exploraremos la creación directa de los objetos ``MultiIndex``, las consideraciones a tener en cuenta a la hora de indexar, trocear y calcular las estadísticas de los datos con índices múltiples, y las rutinas útiles para convertir entre las representaciones simples y jerárquicas de los datos.



In [55]:
import pandas as pd
import numpy as np

## Una Serie multiindexada

Empecemos por considerar cómo podríamos representar datos bidimensionales dentro de una ``Serie`` unidimensional.
Para concretar, consideraremos una serie de datos donde cada punto tiene un carácter y una clave numérica.

### La forma mala

Supongamos que quieres rastrear datos sobre estados de dos años diferentes.
Usando las herramientas de Pandas que ya hemos cubierto, podrías estar tentado a usar simplemente tuplas de Python como claves:

In [57]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
               18976457, 19378102,
               20851820, 25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

Con este esquema de indexación, se puede indexar o hacer slicing directamente la serie en función de este índice múltiple:

In [59]:
pop.loc[('California', 2010):('Texas', 2000)]

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

Pero la comodidad termina ahí. Por ejemplo, si necesitas seleccionar todos los valores de 2010, tendrás que hacer un poco de munching desordenado (y potencialmente lento) para lograrlo:

In [62]:
[(x, y) for (x, y) in pop.index if y == 2010]

[('California', 2010), ('New York', 2010), ('Texas', 2010)]

In [32]:
pop[[i for i in pop.index if i[1] == 2010]]

(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

Esto produce el resultado deseado, pero no es tan limpio (o tan eficiente para los grandes conjuntos de datos) como la sintaxis de slicing que hemos llegado a amar en Pandas <3  

### La forma buena: Pandas MultiIndex

Afortunadamente, Pandas proporciona una forma mejor.
Nuestra indexación basada en tuplas es esencialmente un multiíndice rudimentario, y el tipo Pandas ``MultiIndex`` nos da el tipo de operaciones que deseamos tener.
Podemos crear un multiíndice a partir de las tuplas de la siguiente manera:

In [63]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

Observe que el ``MultiIndex`` contiene múltiples *niveles* de indexación -en este caso, los nombres de los estados y los años-, así como múltiples *etiquetas* para cada punto de datos que codifican estos niveles.

Si volvemos a indexar nuestra serie con este ``MultiIndex``, veremos la representación jerárquica de los datos:

In [64]:
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [65]:
pop.index = index
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Aquí las dos primeras columnas de la representación ``Series`` muestran los valores de los índices múltiples, mientras que la tercera columna muestra los datos.
Observe que faltan algunas entradas en la primera columna: en esta representación de índices múltiples, cualquier entrada en blanco indica el mismo valor que la línea superior.

Ahora, para acceder a todos los datos para los que el segundo índice es 2010, podemos simplemente utilizar la notación de corte de Pandas:

In [72]:
pop[:, 2000]

California    33871648
New York      18976457
Texas         20851820
dtype: int64

El resultado es un array indexado individualmente con sólo las claves que nos interesan.
Esta sintaxis es mucho más conveniente (¡y la operación es mucho más eficiente!) que la solución de indexación múltiple basada en tuplas con la que empezamos.
A continuación, discutiremos este tipo de operación de indexación en datos indexados jerárquicamente.

### MultiIndex como dimensión extra

Puedes notar algo más aquí: podríamos fácilmente haber almacenado los mismos datos usando un simple ``DataFrame`` con etiquetas de índice y columna.
De hecho, Pandas está construido con esta equivalencia en mente. El método ``unstack()`` convertirá rápidamente una ``Serie`` con índices múltiples en un ``DataFrame`` con índices convencionales:

In [74]:
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [76]:
pop_df = pop.unstack(level=1)
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


Naturalmente, el método ``stack()`` proporciona la operación contraria:

In [38]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Al ver esto, te preguntarás por qué nos molestamos en utilizar la indexación jerárquica.
La razón es sencilla: igual que hemos podido utilizar la multiindexación para representar datos bidimensionales dentro de una ``Serie`` unidimensional, también podemos utilizarla para representar datos de tres o más dimensiones en una ``Serie`` o ``DataFrame``.
Cada nivel extra en un multiíndice representa una dimensión extra de datos; aprovechar esta propiedad nos da mucha más flexibilidad en los tipos de datos que podemos representar. Concretamente, podríamos querer añadir otra columna de datos demográficos para cada estado en cada año (digamos, población menor de 18 años); con un ``MultiIndex`` esto es tan fácil como añadir otra columna al ``DataFrame``:

In [77]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


Aquí calculamos la fracción de personas menores de 18 años por año, dados los datos anteriores:

In [79]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


Esto nos permite manipular y explorar fácil y rápidamente incluso los datos de alta dimensión.

## Métodos de creación de multiindices

La forma más directa de construir una ``Serie`` o un ``DataFrame`` con índices múltiples es simplemente pasar una lista de dos o más matrices de índices al constructor. Por ejemplo:

In [58]:
np.random.seed(6)
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.89286,0.33198
a,2,0.821229,0.041697
b,1,0.107657,0.595052
b,2,0.529817,0.418807


El trabajo de crear el ``MultiIndex`` se hace en segundo plano.

Del mismo modo, si se pasa un diccionario con tuplas apropiadas como claves, Pandas lo reconocerá automáticamente y utilizará un ``MultiIndex`` por defecto:

In [59]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

Sin embargo, a veces es útil crear explícitamente un ``MultiIndex``; aquí veremos un par de estos métodos.

### Constructores explícitos de MultiIndex

Para una mayor flexibilidad en la construcción del índice, puedes utilizar los métodos constructores de la clase ``pd.MultiIndex``.
Por ejemplo, como hemos hecho antes, puedes construir el ``MultiIndex`` a partir de una simple lista de arrays con los valores del índice dentro de cada nivel:

In [60]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Se puede construir a partir de una lista de tuplas que dan los valores de los índices múltiples de cada punto:

In [61]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

You can even construct it from a Cartesian product of single indices:

In [62]:
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Del mismo modo, puedes construir el ``MultiIndex`` directamente utilizando su codificación interna pasando ``niveles`` (una lista de listas que contienen los valores de índice disponibles para cada nivel) y ``etiquetas`` (una lista de listas que hacen referencia a estas etiquetas):

In [66]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              labels=[[0, 0, 1, 1], [0, 0, 1, 1]])
TODO: REVISAR ESTO

TypeError: __new__() got an unexpected keyword argument 'labels'

Cualquiera de estos objetos puede pasarse como argumento ``index`` cuando se crea una ``Serie`` o ``Dataframe``, o pasarse al método ``reindex`` de una ``Serie`` o ``DataFrame`` existente.

### Nombres de niveles de MultiIndex

A veces es conveniente nombrar los niveles del ``MultiIndex``.
Esto se puede conseguir pasando el argumento ``names`` a cualquiera de los constructores de ``MultiIndex``, o estableciendo el atributo ``names`` del índice a posteriori:

In [80]:
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [81]:
pop.unstack(level="year")

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


Con conjuntos de datos más complicados, esta puede ser una forma útil de seguir el significado de varios valores de índice.

### MultiIndex para columnas

En un ``DataFrame``, las filas y columnas son completamente simétricas, y al igual que las filas pueden tener múltiples niveles de índices, las columnas también pueden tener múltiples niveles.
Considere lo siguiente, que es una maqueta de algunos datos médicos (algo realistas):.

In [97]:
# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,34.0,38.1,51.0,38.2,43.0,35.1
2013,2,28.0,35.2,35.0,37.4,45.0,35.8
2014,1,48.0,36.1,38.0,36.1,40.0,38.3
2014,2,32.0,35.1,37.0,37.5,27.0,35.4


Aquí vemos que la multiindexación de filas y columnas puede ser *muy* útil.
Se trata de datos fundamentalmente cuatridimensionales, donde las dimensiones son el sujeto, el tipo de medición, el año y el número de visita.
Con esto en su lugar podemos, por ejemplo, indexar la columna de nivel superior por el nombre de la persona y obtener un ``DataFrame`` completo que contenga sólo la información de esa persona:

In [85]:
health_data.loc[:, [['Guido', 'Temp']]]

Unnamed: 0_level_0,subject,Guido
Unnamed: 0_level_1,type,Temp
year,visit,Unnamed: 2_level_2
2013,1,35.7
2013,2,37.6
2014,1,38.1
2014,2,38.7


In [88]:
health_data.columns = ["_".join(x) for x in health_data.columns]

In [89]:
health_data

Unnamed: 0_level_0,Unnamed: 1_level_0,Bob_HR,Bob_Temp,Guido_HR,Guido_Temp,Sue_HR,Sue_Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2013,1,23.0,38.0,34.0,35.7,22.0,35.0
2013,2,43.0,36.1,37.0,37.6,40.0,37.9
2014,1,67.0,37.8,52.0,38.1,18.0,38.0
2014,2,35.0,37.3,42.0,38.7,22.0,38.5


Para los registros complicados que contienen múltiples mediciones etiquetadas a lo largo de múltiples tiempos para muchos sujetos (personas, países, ciudades, etc.), el uso de filas y columnas jerárquicas puede ser extremadamente conveniente.

## Indexado y Slicing un MultiIndex

La indexación y el slicing en un ``MultiIndex`` está diseñado para ser intuitivo, y ayuda si piensas en los índices como dimensiones añadidas.
Primero veremos la indexación de ``Series`` con índices múltiples, y luego la de ``DataFrame`` con índices múltiples.

### Series con multiindice

Considere la ``Serie`` de poblaciones de estados multi-indexada que vimos anteriormente:

In [74]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Podemos acceder a elementos individuales mediante la indexación con términos múltiples:

In [75]:
pop['California', 2000]

33871648

El ``MultiIndex`` también admite la *indexación parcial*, es decir, la indexación de sólo uno de los niveles del índice.
El resultado es otra ``Serie``, con los índices de nivel inferior mantenidos:

In [76]:
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

El corte parcial también está disponible, siempre que el ``MultiIndex`` esté ordenado

In [79]:
pop.loc['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

Con los índices ordenados, se puede realizar una indexación parcial en los niveles inferiores pasando un trozo vacío en el primer índice:

In [80]:
pop[:, 2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

También funcionan otros tipos de indexación y selección; por ejemplo, la selección basada en máscaras booleanas:

In [81]:
pop[pop > 22000000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

También funciona la selección basada en la indexación de fantasía:

In [82]:
pop[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

### DataFrames con multiindex

Un ``DataFrame`` de índice múltiple se comporta de manera similar.
Consideremos nuestro ``DataFrame`` médico de juguete de antes:

In [83]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,38.0,36.3,18.0,36.9,38.0,36.6
2013,2,27.0,35.9,32.0,38.4,39.0,35.4
2014,1,43.0,36.6,60.0,36.7,36.0,37.2
2014,2,40.0,37.1,38.0,36.8,31.0,36.6


Recuerda que las columnas son primarias en un ``DataFrame``, y que la sintaxis utilizada para las ``Series`` con índices múltiples se aplica a las columnas.
Por ejemplo, podemos recuperar los datos de la frecuencia cardíaca de Guido con una simple operación:

In [84]:
health_data['Guido', 'HR']

year  visit
2013  1        18.0
      2        32.0
2014  1        60.0
      2        38.0
Name: (Guido, HR), dtype: float64

Además, al igual que en el caso de un solo índice, podemos utilizar el ``loc``, ``iloc`` y ``ix``.

In [86]:
health_data.iloc[:3, :3]

Unnamed: 0_level_0,subject,Bob,Bob,Guido
Unnamed: 0_level_1,type,HR,Temp,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,38.0,36.3,18.0
2013,2,27.0,35.9,32.0
2014,1,43.0,36.6,60.0


Estos indexadores proporcionan una vista similar a un array de los datos bidimensionales subyacentes, pero a cada índice individual en ``loc`` o ``iloc`` se le puede pasar una tupla de múltiples índices. Por ejemplo:

In [87]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        38.0
      2        27.0
2014  1        43.0
      2        40.0
Name: (Bob, HR), dtype: float64

Trabajar con rodajas dentro de estas tuplas de índice no es especialmente conveniente; intentar crear una rodaja dentro de una tupla conducirá a un error de sintaxis:

In [88]:
health_data.loc[(:, 1), (:, 'HR')]

SyntaxError: invalid syntax (3311942670.py, line 1)

Se podría evitar esto construyendo la porción deseada explícitamente usando la función incorporada de Python ``slice()``, pero una mejor manera en este contexto es usar un objeto ``IndexSlice``, que Pandas proporciona precisamente para esta situación.
Por ejemplo:

In [89]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,38.0,18.0,38.0
2014,1,43.0,60.0,36.0


Hay muchas formas de interactuar con los datos en las ``Series`` y los ``DataFrame`` multi-indexados, y al igual que con muchas de las herramientas de este libro, la mejor manera de familiarizarse con ellas es probarlas.

## Reorganización de los multiíndices

Una de las claves para trabajar con datos de índice múltiple es saber cómo transformar los datos de forma efectiva.
Hay una serie de operaciones que conservarán toda la información del conjunto de datos, pero la reorganizarán con el fin de realizar diversos cálculos.
Vimos un breve ejemplo de esto en los métodos ``stack()`` y ``unstack()``, pero hay muchas más formas de controlar finamente el reordenamiento de los datos entre índices jerárquicos y columnas, y las exploraremos aquí.

### Índices ordenados y no ordenados

Antes hemos mencionado brevemente una advertencia, pero deberíamos hacer más hincapié en ella aquí.
*Muchas de las operaciones de corte de ``MultiIndex`` fallarán si el índice no está ordenado.
Echemos un vistazo a esto.

Empezaremos creando algunos datos simples de índice múltiple donde los índices no están *ordenados lexográficamente*:

In [90]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.191481
      2      0.238777
c     1      0.651545
      2      0.732816
b     1      0.630699
      2      0.853112
dtype: float64

Si intentamos tomar una porción parcial de este índice, se producirá un error:

In [94]:
data.loc["a":"b", :]

UnsortedIndexError: 'MultiIndex slicing requires the index to be lexsorted: slicing on levels [0], lexsort depth 0'

In [91]:
try:
    data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


Aunque no está del todo claro en el mensaje de error, esto es el resultado de que el MultiIndex no esté ordenado.
Por varias razones, los cortes parciales y otras operaciones similares requieren que los niveles del ``MultiIndex`` estén ordenados (es decir, lexográficos).
Pandas proporciona un número de rutinas de conveniencia para realizar este tipo de ordenación; ejemplos son los métodos ``sort_index()`` y ``sortlevel()`` del ``DataFrame``.
Aquí utilizaremos el más sencillo, ``sort_index()``:

In [92]:
data = data.sort_index()
data

char  int
a     1      0.366261
      2      0.200094
b     1      0.026402
      2      0.256064
c     1      0.766481
      2      0.934181
dtype: float64

Con el índice ordenado de esta manera, el corte parcial funcionará como se espera:

In [93]:
data['a':'b']

char  int
a     1      0.366261
      2      0.200094
b     1      0.026402
      2      0.256064
dtype: float64

### Stacking y unstacking indices

Apilar y desapilar índices

Como hemos visto brevemente antes, es posible convertir un conjunto de datos de un índice múltiple apilado a una representación bidimensional simple, especificando opcionalmente el nivel a utilizar:

In [94]:
pop.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [95]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


Lo contrario de ``unstack()`` es ``stack()``, que aquí se puede utilizar para recuperar la serie original:

In [96]:
pop.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### Fijación y restablecimiento de índices

Otra forma de reorganizar los datos jerárquicos es convertir las etiquetas de los índices en columnas; esto se puede lograr con el método ``reset_index``.
Si se llama a este método en el diccionario de población, se obtendrá un ``DataFrame`` con una columna *estado* y *año* que contiene la información que antes estaba en el índice.
Para mayor claridad, podemos especificar opcionalmente el nombre de los datos para la representación de la columna:

In [97]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


A menudo, cuando se trabaja con datos en el mundo real, los datos de entrada en bruto tienen este aspecto y es útil construir un ``MultiIndex`` a partir de los valores de las columnas.
Esto se puede hacer con el método ``set_index`` del ``DataFrame``, que devuelve un ``DataFrame`` con índice múltiple:

In [98]:
pop_flat.set_index(['state', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


En la práctica, encuentro que este tipo de reindexación es uno de los patrones más útiles cuando me encuentro con conjuntos de datos del mundo real.

## Agregaciones de datos en multiíndices

Ya hemos visto que Pandas tiene métodos de agregación de datos incorporados, como ``media()``, ``suma()`` y ``máx()``.
Para los datos indexados jerárquicamente, se les puede pasar un parámetro de ``nivel`` que controla el subconjunto de datos sobre el que se calcula el agregado.

Por ejemplo, volvamos a nuestros datos de salud:

In [99]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,38.0,36.3,18.0,36.9,38.0,36.6
2013,2,27.0,35.9,32.0,38.4,39.0,35.4
2014,1,43.0,36.6,60.0,36.7,36.0,37.2
2014,2,40.0,37.1,38.0,36.8,31.0,36.6


Quizás queramos promediar las mediciones en las dos visitas de cada año. Podemos hacerlo nombrando el nivel de índice que nos gustaría explorar, en este caso el año:

In [99]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,34.0,38.1,51.0,38.2,43.0,35.1
2013,2,28.0,35.2,35.0,37.4,45.0,35.8
2014,1,48.0,36.1,38.0,36.1,40.0,38.3
2014,2,32.0,35.1,37.0,37.5,27.0,35.4


In [98]:
data_mean = health_data.mean(level='year')
data_mean

  data_mean = health_data.mean(level='year')


subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,31.0,36.65,43.0,37.8,44.0,35.45
2014,40.0,35.6,37.5,36.8,33.5,36.85


Haciendo uso además de la palabra clave ``axis``, podemos tomar también la media entre los niveles de las columnas:

In [101]:
data_mean.mean(axis=1, level='type')

  """Entry point for launching an IPython kernel.


type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,32.0,36.583333
2014,41.333333,36.833333


Así, en dos líneas, hemos podido encontrar la media de la frecuencia cardíaca y la temperatura medida entre todos los sujetos en todas las visitas de cada año.
Esta sintaxis es en realidad un atajo a la funcionalidad ``GroupBy``, de la que hablaremos en mas adelante.
Aunque este es un ejemplo de juguete, muchos conjuntos de datos del mundo real tienen una estructura jerárquica similar.

## Panel Data

Pandas tiene otras estructuras de datos fundamentales que aún no hemos discutido, a saber, los objetos ``pd.Panel`` y ``pd.Panel4D``.
Estos pueden ser considerados, respectivamente, como generalizaciones tridimensionales y cuatridimensionales de las estructuras (unidimensionales) ``Series`` y (bidimensionales) ``DataFrame``.
Una vez que te hayas familiarizado con la indexación y manipulación de datos en una ``Serie`` y un ``DataFrame``, el ``Panel`` y el ``Panel4D`` son relativamente sencillos de utilizar.
En particular, los indexadores ``ix``, ``loc`` y ``iloc`` se extienden fácilmente a estas estructuras de mayor dimensión.

No cubriremos más estas estructuras de panel en este texto, ya que he encontrado en la mayoría de los casos que la multi-indexación es una representación más útil y conceptualmente más simple para los datos de mayor dimensión.
Además, los datos de panel son fundamentalmente una representación de datos densos, mientras que la multiindexación es fundamentalmente una representación de datos dispersos.
A medida que aumenta el número de dimensiones, la representación densa puede resultar muy ineficiente para la mayoría de los conjuntos de datos del mundo real.
Sin embargo, para las aplicaciones especializadas ocasionales, estas estructuras pueden ser útiles.
