# MultiIndex / indexación avanzada

### Indexación jerárquica (MultiIndex)

#### La indexación jerárquica/multinivel es muy emocionante, ya que abre la puerta a algunos análisis y manipulaciones de datos bastante sofisticados, especialmente para trabajar con datos de mayor dimensión. En esencia, le permite almacenar y manipular datos con un número arbitrario de dimensiones en estructuras de datos de menor dimensión como Series (1d) y DataFrame (2d).

### Creación de un objeto MultiIndex (índice jerárquico)

#### Se puede crear un MultiIndex a partir de una lista de matrices (usando MultiIndex.from_arrays()), una matriz de tuplas (usando MultiIndex.from_tuples()), un conjunto cruzado de iterables (usando MultiIndex.from_product()) o un DataFrame ( utilizando MultiIndex.from_frame()).

In [5]:
import numpy as np
import pandas as pd

In [1]:
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one", "two", "one", "two", "one", "two", "one", "two"],
]

In [2]:
tuples = list(zip(*arrays))

In [3]:
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

In [6]:
index = pd.MultiIndex.from_tuples(tuples, names=["first", "second"])

In [7]:
index

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           names=['first', 'second'])

In [8]:
s = pd.Series(np.random.randn(8), index=index)

In [9]:
s

first  second
bar    one      -0.676663
       two       0.631637
baz    one       1.062805
       two       0.911757
foo    one      -1.299598
       two      -1.634306
qux    one      -0.466882
       two      -0.356982
dtype: float64

In [10]:
# Cuando desee cada emparejamiento de los elementos en dos iterables, 
# puede ser más fácil usar el método MultiIndex.from_product():

In [11]:
iterables = [["bar", "baz", "foo", "qux"], ["one", "two"]]

In [12]:
pd.MultiIndex.from_product(iterables, names=["first", "second"])

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           names=['first', 'second'])

#### También puede construir un MultiIndex a partir de un DataFrame directamente, utilizando el método MultiIndex.from_frame(). Este es un método complementario a MultiIndex.to_frame()

In [13]:
df = pd.DataFrame(
    [["bar", "one"], ["bar", "two"], ["foo", "one"], ["foo", "two"]],
    columns=["first", "second"],
)

In [14]:
pd.MultiIndex.from_frame(df)

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('foo', 'one'),
            ('foo', 'two')],
           names=['first', 'second'])

In [15]:
# Para su comodidad, puede pasar una lista de arreglos directamente a Series o DataFrame 
# para construir un MultiIndex automáticamente:

In [16]:
arrays = [
    np.array(["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"]),
    np.array(["one", "two", "one", "two", "one", "two", "one", "two"]),
]

In [17]:
s = pd.Series(np.random.randn(8), index=arrays)

In [18]:
s

bar  one    0.349110
     two   -0.264602
baz  one   -0.335135
     two    0.897963
foo  one    0.491083
     two   -0.998812
qux  one   -0.943432
     two    0.077296
dtype: float64

In [19]:
df = pd.DataFrame(np.random.randn(8, 4), index=arrays)

In [20]:
df

Unnamed: 0,Unnamed: 1,0,1,2,3
bar,one,0.573725,1.272162,-0.206422,-1.778643
bar,two,1.252213,0.905864,-1.459112,1.144795
baz,one,0.388194,2.015252,0.435232,-0.772223
baz,two,0.233719,0.755273,0.182892,-0.346435
foo,one,0.878013,2.259608,-1.64911,-0.42179
foo,two,0.288555,0.640146,0.06397,-1.290483
qux,one,0.184051,1.001253,0.039093,0.5366
qux,two,1.510392,0.414787,0.555971,-0.761318


In [21]:
# Este índice puede respaldar cualquier eje de un objeto pandas, y la cantidad de niveles del índice depende de usted

In [22]:
df = pd.DataFrame(np.random.randn(3, 8), index=["A", "B", "C"], columns=index)

In [23]:
df

first,bar,bar,baz,baz,foo,foo,qux,qux
second,one,two,one,two,one,two,one,two
A,0.83129,0.654659,-0.006137,-0.815185,-0.777732,0.877769,0.652169,-0.396728
B,-0.646731,0.161772,0.361748,0.334776,-0.010038,-0.688894,-1.263545,1.099338
C,-0.550414,0.789943,0.134359,-1.818252,0.146799,-0.664014,-1.356574,0.809399


In [24]:
pd.DataFrame(np.random.randn(6, 6), index=index[:6], columns=index[:6])

Unnamed: 0_level_0,first,bar,bar,baz,baz,foo,foo
Unnamed: 0_level_1,second,one,two,one,two,one,two
first,second,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
bar,one,-0.366329,0.734138,-0.583663,-0.166031,-1.226358,0.122856
bar,two,-0.204341,0.945553,0.175194,0.473681,0.567681,-0.56158
baz,one,0.166545,0.422246,-0.186361,-0.802986,-1.881618,-0.977059
baz,two,-0.426893,-0.748556,-0.452083,-0.453643,-0.400139,0.684179
foo,one,0.764422,0.686404,0.139719,0.02853,1.100664,0.793206
foo,two,-0.364058,-0.56951,-0.242501,1.168229,1.62462,-0.304359


#### La razón por la que MultiIndex es importante es que puede permitirle realizar operaciones de agrupación, selección y remodelación, como describiremos a continuación y en áreas posteriores de la documentación. Como verá en secciones posteriores, puede encontrarse trabajando con datos indexados jerárquicamente sin crear un MultiIndex explícitamente usted mismo. Sin embargo, al cargar datos de un archivo, es posible que desee generar su propio índice múltiple al preparar el conjunto de datos.

### Reconstruyendo las etiquetas de nivel

#### El método get_level_values() devolverá un vector de las etiquetas para cada ubicación en un nivel particular

In [25]:
index.get_level_values(0)

Index(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], dtype='object', name='first')

In [26]:
index.get_level_values("second")

Index(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'], dtype='object', name='second')

## Indexación básica en eje con MultiIndex

#### Una de las características importantes de la indexación jerárquica es que puede seleccionar datos mediante una etiqueta "parcial" que identifica un subgrupo en los datos. La selección parcial "cae" los niveles del índice jerárquico en el resultado de una manera completamente análoga a la selección de una columna en un DataFrame regular

In [28]:
# Selecciona solo los elementos del multiindice que tienen la etiqueta "bar"
df["bar"]

second,one,two
A,0.83129,0.654659
B,-0.646731,0.161772
C,-0.550414,0.789943


In [33]:
# Selecciona el índice "bar" y el subíndice "one"
df["bar", "one"]

A    0.831290
B   -0.646731
C   -0.550414
Name: (bar, one), dtype: float64

In [34]:
df["bar"]["two"]

A    0.654659
B    0.161772
C    0.789943
Name: two, dtype: float64

In [35]:
s["qux"]

one   -0.943432
two    0.077296
dtype: float64

## Alineación de datos y uso de reindexación

#### Las operaciones entre objetos indexados de manera diferente que tienen MultiIndex en los ejes funcionarán como espera; la alineación de datos funcionará igual que un índice de tuplas

In [36]:
s + s[:-2]

bar  one    0.698220
     two   -0.529205
baz  one   -0.670270
     two    1.795925
foo  one    0.982166
     two   -1.997625
qux  one         NaN
     two         NaN
dtype: float64

In [37]:
s + s[::2]

bar  one    0.698220
     two         NaN
baz  one   -0.670270
     two         NaN
foo  one    0.982166
     two         NaN
qux  one   -1.886865
     two         NaN
dtype: float64

In [38]:
s.reindex(index[:3])

first  second
bar    one       0.349110
       two      -0.264602
baz    one      -0.335135
dtype: float64

In [39]:
s.reindex([("foo", "two"), ("bar", "one"), ("qux", "one"), ("baz", "one")])

foo  two   -0.998812
bar  one    0.349110
qux  one   -0.943432
baz  one   -0.335135
dtype: float64

## Indexación avanzada con índice jerárquico - uso de .loc y .iloc

In [40]:
# Vamos a trasponer la matriz
df = df.T

In [41]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,0.83129,-0.646731,-0.550414
bar,two,0.654659,0.161772,0.789943
baz,one,-0.006137,0.361748,0.134359
baz,two,-0.815185,0.334776,-1.818252
foo,one,-0.777732,-0.010038,0.146799
foo,two,0.877769,-0.688894,-0.664014
qux,one,0.652169,-1.263545,-1.356574
qux,two,-0.396728,1.099338,0.809399


In [42]:
df.loc[("bar", "two")]

A    0.654659
B    0.161772
C    0.789943
Name: (bar, two), dtype: float64

In [43]:
df.loc["bar"]

Unnamed: 0_level_0,A,B,C
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0.83129,-0.646731,-0.550414
two,0.654659,0.161772,0.789943


In [44]:
df.loc[("bar", "two"), "A"]

0.654659158264582

In [45]:
df.loc["baz":"foo"]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
baz,one,-0.006137,0.361748,0.134359
baz,two,-0.815185,0.334776,-1.818252
foo,one,-0.777732,-0.010038,0.146799
foo,two,0.877769,-0.688894,-0.664014


In [46]:
df.loc[("baz", "two"):("qux", "one")]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
baz,two,-0.815185,0.334776,-1.818252
foo,one,-0.777732,-0.010038,0.146799
foo,two,0.877769,-0.688894,-0.664014
qux,one,0.652169,-1.263545,-1.356574


In [47]:
df.loc[("baz", "two"):"foo"]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
baz,two,-0.815185,0.334776,-1.818252
foo,one,-0.777732,-0.010038,0.146799
foo,two,0.877769,-0.688894,-0.664014


In [48]:
df.loc[[("bar", "two"), ("qux", "one")]]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,two,0.654659,0.161772,0.789943
qux,one,0.652169,-1.263545,-1.356574


Es importante tener en cuenta que las tuplas y las listas no se tratan de manera idéntica en pandas cuando se trata de indexación. Mientras que una tupla se interpreta como una clave de varios niveles, una lista se utiliza para especificar varias claves. O en otras palabras, las tuplas van horizontalmente (niveles transversales), las listas van verticalmente (niveles de exploración).

## Utilizando slicers

#### Puede segmentar un MultiIndex proporcionando múltiples indexadores. Puede proporcionar cualquiera de los selectores como si estuviera indexando por etiqueta, consulte Selección por etiqueta, incluidos sectores, listas de etiquetas, etiquetas e indexadores booleanos. Puede usar slice(None) para seleccionar todo el contenido de ese nivel. No necesita especificar todos los niveles más profundos, estarán implícitos como segmento (None).

In [49]:
def mklbl(prefix, n):
    return ["%s%s" % (prefix, i) for i in range(n)]

In [50]:
miindex = pd.MultiIndex.from_product(
    [mklbl("A", 4), mklbl("B", 2), mklbl("C", 4), mklbl("D", 2)]
)

In [51]:
micolumns = pd.MultiIndex.from_tuples(
    [("a", "foo"), ("a", "bar"), ("b", "foo"), ("b", "bah")], names=["lvl0", "lvl1"]
)

In [52]:
dfmi = (
    pd.DataFrame(
        np.arange(len(miindex) * len(micolumns)).reshape(
            (len(miindex), len(micolumns))
        ),
        index=miindex,
        columns=micolumns,
    )
    .sort_index()
    .sort_index(axis=1)
)

In [53]:
dfmi

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,bar,foo,bah,foo
A0,B0,C0,D0,1,0,3,2
A0,B0,C0,D1,5,4,7,6
A0,B0,C1,D0,9,8,11,10
A0,B0,C1,D1,13,12,15,14
A0,B0,C2,D0,17,16,19,18
...,...,...,...,...,...,...,...
A3,B1,C1,D1,237,236,239,238
A3,B1,C2,D0,241,240,243,242
A3,B1,C2,D1,245,244,247,246
A3,B1,C3,D0,249,248,251,250


In [54]:
# El slicing basico de python puede hacerse de la forma siguiente
dfmi.loc[(slice("A1", "A3"), slice(None), ["C1", "C3"]), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,bar,foo,bah,foo
A1,B0,C1,D0,73,72,75,74
A1,B0,C1,D1,77,76,79,78
A1,B0,C3,D0,89,88,91,90
A1,B0,C3,D1,93,92,95,94
A1,B1,C1,D0,105,104,107,106
A1,B1,C1,D1,109,108,111,110
A1,B1,C3,D0,121,120,123,122
A1,B1,C3,D1,125,124,127,126
A2,B0,C1,D0,137,136,139,138
A2,B0,C1,D1,141,140,143,142


In [55]:
# Puede usar pandas.IndexSlice para facilitar una sintaxis más natural usando :, en lugar de usar slice(None)
idx = pd.IndexSlice

In [56]:
dfmi.loc[idx[:, :, ["C1", "C3"]], idx[:, "foo"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,foo,foo
A0,B0,C1,D0,8,10
A0,B0,C1,D1,12,14
A0,B0,C3,D0,24,26
A0,B0,C3,D1,28,30
A0,B1,C1,D0,40,42
A0,B1,C1,D1,44,46
A0,B1,C3,D0,56,58
A0,B1,C3,D1,60,62
A1,B0,C1,D0,72,74
A1,B0,C1,D1,76,78


In [57]:
dfmi.loc["A1", (slice(None), "foo")]

Unnamed: 0_level_0,Unnamed: 1_level_0,lvl0,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,lvl1,foo,foo
B0,C0,D0,64,66
B0,C0,D1,68,70
B0,C1,D0,72,74
B0,C1,D1,76,78
B0,C2,D0,80,82
B0,C2,D1,84,86
B0,C3,D0,88,90
B0,C3,D1,92,94
B1,C0,D0,96,98
B1,C0,D1,100,102


In [58]:
dfmi.loc[idx[:, :, ["C1", "C3"]], idx[:, "foo"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,foo,foo
A0,B0,C1,D0,8,10
A0,B0,C1,D1,12,14
A0,B0,C3,D0,24,26
A0,B0,C3,D1,28,30
A0,B1,C1,D0,40,42
A0,B1,C1,D1,44,46
A0,B1,C3,D0,56,58
A0,B1,C3,D1,60,62
A1,B0,C1,D0,72,74
A1,B0,C1,D1,76,78


In [59]:
# Usando un indexador booleano, puede proporcionar una selección relacionada con los valores.

In [60]:
mask = dfmi[("a", "foo")] > 200

In [61]:
dfmi.loc[idx[mask, :, ["C1", "C3"]], idx[:, "foo"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,foo,foo
A3,B0,C1,D1,204,206
A3,B0,C3,D0,216,218
A3,B0,C3,D1,220,222
A3,B1,C1,D0,232,234
A3,B1,C1,D1,236,238
A3,B1,C3,D0,248,250
A3,B1,C3,D1,252,254


In [62]:
# También puede especificar el argumento del eje a .loc para interpretar las segmentaciones pasadas en un solo eje.

In [63]:
dfmi.loc(axis=0)[:, :, ["C1", "C3"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,bar,foo,bah,foo
A0,B0,C1,D0,9,8,11,10
A0,B0,C1,D1,13,12,15,14
A0,B0,C3,D0,25,24,27,26
A0,B0,C3,D1,29,28,31,30
A0,B1,C1,D0,41,40,43,42
A0,B1,C1,D1,45,44,47,46
A0,B1,C3,D0,57,56,59,58
A0,B1,C3,D1,61,60,63,62
A1,B0,C1,D0,73,72,75,74
A1,B0,C1,D1,77,76,79,78


In [64]:
df2 = dfmi.copy()

In [65]:
df2.loc(axis=0)[:, :, ["C1", "C3"]] = -10

In [66]:
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,bar,foo,bah,foo
A0,B0,C0,D0,1,0,3,2
A0,B0,C0,D1,5,4,7,6
A0,B0,C1,D0,-10,-10,-10,-10
A0,B0,C1,D1,-10,-10,-10,-10
A0,B0,C2,D0,17,16,19,18
...,...,...,...,...,...,...,...
A3,B1,C1,D1,-10,-10,-10,-10
A3,B1,C2,D0,241,240,243,242
A3,B1,C2,D1,245,244,247,246
A3,B1,C3,D0,-10,-10,-10,-10


## Selección transversal

#### El método xs() de DataFrame también toma un argumento de nivel para facilitar la selección de datos en un nivel particular de un índice múltiple.

In [67]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,0.83129,-0.646731,-0.550414
bar,two,0.654659,0.161772,0.789943
baz,one,-0.006137,0.361748,0.134359
baz,two,-0.815185,0.334776,-1.818252
foo,one,-0.777732,-0.010038,0.146799
foo,two,0.877769,-0.688894,-0.664014
qux,one,0.652169,-1.263545,-1.356574
qux,two,-0.396728,1.099338,0.809399


In [68]:
df.xs("one", level="second")

Unnamed: 0_level_0,A,B,C
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,0.83129,-0.646731,-0.550414
baz,-0.006137,0.361748,0.134359
foo,-0.777732,-0.010038,0.146799
qux,0.652169,-1.263545,-1.356574


In [69]:
df.xs("foo", level="first")

Unnamed: 0_level_0,A,B,C
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,-0.777732,-0.010038,0.146799
two,0.877769,-0.688894,-0.664014


In [70]:
# Podemos hacer lo mismo utilizando slicers
df.loc[(slice(None), "one"), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,0.83129,-0.646731,-0.550414
baz,one,-0.006137,0.361748,0.134359
foo,one,-0.777732,-0.010038,0.146799
qux,one,0.652169,-1.263545,-1.356574


In [71]:
# También puede seleccionar en las columnas con xs, proporcionando el argumento del eje.
df = df.T

In [72]:
df.xs("one", level="second", axis=1)

first,bar,baz,foo,qux
A,0.83129,-0.006137,-0.777732,0.652169
B,-0.646731,0.361748,-0.010038,-1.263545
C,-0.550414,0.134359,0.146799,-1.356574


In [73]:
# La seleccion de columnas, tambien puede hacerse con slicer
df.loc[:, (slice(None), "one")]

first,bar,baz,foo,qux
second,one,one,one,one
A,0.83129,-0.006137,-0.777732,0.652169
B,-0.646731,0.361748,-0.010038,-1.263545
C,-0.550414,0.134359,0.146799,-1.356574


In [74]:
# xs, también permite realizar selecciones múltiples
df.xs(("one", "bar"), level=("second", "first"), axis=1)

first,bar
second,one
A,0.83129
B,-0.646731
C,-0.550414


In [75]:
df.loc[:, ("bar", "one")]

A    0.831290
B   -0.646731
C   -0.550414
Name: (bar, one), dtype: float64

In [76]:
# Puede pasar drop_level=False a xs para conservar el nivel que se seleccionó.
df.xs("one", level="second", axis=1, drop_level=False)

first,bar,baz,foo,qux
second,one,one,one,one
A,0.83129,-0.006137,-0.777732,0.652169
B,-0.646731,0.361748,-0.010038,-1.263545
C,-0.550414,0.134359,0.146799,-1.356574


## Intercambio de niveles con swaplevel

In [79]:
# El método swaplevel() puede cambiar el orden de dos niveles:
midx = pd.MultiIndex(
    levels=[["zero", "one"], ["x", "y"]], codes=[[1, 1, 0, 0], [1, 0, 1, 0]]
)

In [80]:
df = pd.DataFrame(np.random.randn(4, 2), index=midx)

In [81]:
df

Unnamed: 0,Unnamed: 1,0,1
one,y,-0.664132,-2.280503
one,x,-1.21325,-1.769329
zero,y,0.000804,-1.249204
zero,x,-0.532327,1.092706


In [82]:
df[:5]

Unnamed: 0,Unnamed: 1,0,1
one,y,-0.664132,-2.280503
one,x,-1.21325,-1.769329
zero,y,0.000804,-1.249204
zero,x,-0.532327,1.092706


In [83]:
df[:5].swaplevel(0, 1, axis=0)

Unnamed: 0,Unnamed: 1,0,1
y,one,-0.664132,-2.280503
x,one,-1.21325,-1.769329
y,zero,0.000804,-1.249204
x,zero,-0.532327,1.092706


## Reordenación de niveles con reorder_levels

In [84]:
# El método reorder_levels() generaliza el método swaplevel, permitiéndote permutar 
# los niveles de índice jerárquico en un solo paso
df[:5].reorder_levels([1, 0], axis=0)

Unnamed: 0,Unnamed: 1,0,1
y,one,-0.664132,-2.280503
x,one,-1.21325,-1.769329
y,zero,0.000804,-1.249204
x,zero,-0.532327,1.092706


## Renombrar nombres de un Índice o MultiÍndice

#### El método rename() se usa para cambiar el nombre de las etiquetas de un MultiIndex y, por lo general, se usa para cambiar el nombre de las columnas de un DataFrame. El argumento de las columnas de renombrar permite especificar un diccionario que incluye solo las columnas que desea renombrar

In [85]:
df.rename(columns={0: "col0", 1: "col1"})

Unnamed: 0,Unnamed: 1,col0,col1
one,y,-0.664132,-2.280503
one,x,-1.21325,-1.769329
zero,y,0.000804,-1.249204
zero,x,-0.532327,1.092706


In [86]:
# También podemos renombrar los índices mas altos de un Data Frame
df.rename(index={"one": "two", "y": "z"})

Unnamed: 0,Unnamed: 1,0,1
two,z,-0.664132,-2.280503
two,x,-1.21325,-1.769329
zero,z,0.000804,-1.249204
zero,x,-0.532327,1.092706


In [87]:
df.rename_axis(index=["abc", "def"])

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1
abc,def,Unnamed: 2_level_1,Unnamed: 3_level_1
one,y,-0.664132,-2.280503
one,x,-1.21325,-1.769329
zero,y,0.000804,-1.249204
zero,x,-0.532327,1.092706


## Ordenar un índice múltiple

#### Para que los objetos creados con MultiIndex se indexen y dividan de manera eficaz, es necesario ordenarlos. Como con cualquier índice, puede usar sort_index().

In [88]:
import random

In [89]:
random.shuffle(tuples)

In [90]:
s = pd.Series(np.random.randn(8), index=pd.MultiIndex.from_tuples(tuples))

In [91]:
s

baz  one    0.238920
bar  two    1.135527
foo  two    0.503568
qux  two    1.405864
foo  one   -1.757428
baz  two    0.054461
qux  one    0.779533
bar  one    1.527347
dtype: float64

In [92]:
s.sort_index()

bar  one    1.527347
     two    1.135527
baz  one    0.238920
     two    0.054461
foo  one   -1.757428
     two    0.503568
qux  one    0.779533
     two    1.405864
dtype: float64

In [93]:
s.sort_index(level=0)

bar  one    1.527347
     two    1.135527
baz  one    0.238920
     two    0.054461
foo  one   -1.757428
     two    0.503568
qux  one    0.779533
     two    1.405864
dtype: float64

In [94]:
s.sort_index(level=1)

bar  one    1.527347
baz  one    0.238920
foo  one   -1.757428
qux  one    0.779533
bar  two    1.135527
baz  two    0.054461
foo  two    0.503568
qux  two    1.405864
dtype: float64

In [95]:
# También puede pasar un nombre de nivel a sort_index si se nombran los niveles de MultiIndex.

In [96]:
s.index.set_names(["L1", "L2"], inplace=True)

In [97]:
s.sort_index(level="L1")

L1   L2 
bar  one    1.527347
     two    1.135527
baz  one    0.238920
     two    0.054461
foo  one   -1.757428
     two    0.503568
qux  one    0.779533
     two    1.405864
dtype: float64

In [98]:
s.sort_index(level="L2")

L1   L2 
bar  one    1.527347
baz  one    0.238920
foo  one   -1.757428
qux  one    0.779533
bar  two    1.135527
baz  two    0.054461
foo  two    0.503568
qux  two    1.405864
dtype: float64

In [99]:
df.T.sort_index(level=1, axis=1)

Unnamed: 0_level_0,one,zero,one,zero
Unnamed: 0_level_1,x,x,y,y
0,-1.21325,-0.532327,-0.664132,0.000804
1,-1.769329,1.092706,-2.280503,-1.249204


## Tipos de índice

### Índices categóricos

#### CategoricalIndex es un tipo de índice que es útil para respaldar la indexación con duplicados. Este es un contenedor alrededor de Categorical y permite la indexación y el almacenamiento eficientes de un índice con una gran cantidad de elementos duplicados.

In [109]:
from pandas.api.types import CategoricalDtype

In [116]:
df = pd.DataFrame({"A": np.arange(6), "B": list("aabbca")})

In [117]:
df

Unnamed: 0,A,B
0,0,a
1,1,a
2,2,b
3,3,b
4,4,c
5,5,a


In [118]:
df.dtypes

A     int32
B    object
dtype: object

In [119]:
# df["B"].cat.categories

In [120]:
# df2 = df.set_index("B")

In [121]:
df3 = pd.DataFrame(
    {"A": np.arange(3), "B": pd.Series(list("abc")).astype("category")}
)

In [122]:
df3 = df3.set_index("B")

In [124]:
df3

Unnamed: 0_level_0,A
B,Unnamed: 1_level_1
a,0
b,1
c,2


In [125]:
df3.reindex(["a", "e"])

Unnamed: 0_level_0,A
B,Unnamed: 1_level_1
a,0.0
e,


In [126]:
df3.reindex(["a", "e"]).index

Index(['a', 'e'], dtype='object', name='B')

In [127]:
df3.reindex(pd.Categorical(["a", "e"], categories=list("abe")))

Unnamed: 0_level_0,A
B,Unnamed: 1_level_1
a,0.0
e,
