# **Obtención y preparación de datos**

# OD15. Reindexación de Estructuras en Pandas

Creación de una copia de una estructura pandas -una serie o un dataframe- en base a un nuevo índice.

In [None]:
import numpy as np
import pandas as pd

## <font color='blue'>**Reindexación de series**</font>

El método básico para la reindexación de series es `pandas.Series.reindex`. Este método devuelve una copia de una serie basándose en el índice modificado de la serie original.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

Se trata de una serie cuyas etiquetas son letras no consecutivas. Es posible generar una copia reindexada de esta serie de la siguiente forma:



In [None]:
r = s.reindex(["g", "c", "a", "j", "f"])
r

El primer argumento siempre es el nuevo índice. En el caso anterior se trata de una versión desordenada del índice original, por lo que la serie generada es también una versión desordenada de la original.

Si el nuevo índice es un subconjunto del original, la serie generada no contendrá todos los valores de la serie de la que se patió, tan solo los incluidos en el nuevo índice. En el siguiente ejemplo, el nuevo índice no incluye la etiqueta "a" por lo que la serie generada no incluye el valor correspondiente (1):

In [None]:
r = s.reindex(["g", "c", "j", "f"])
r

Por el contrario, si en el nuevo índice se incluyen etiquetas no incluidas en el índice original, la nueva serie incluirá dicha etiqueta pero el valor asignado a ella recibe el valor por defecto `NaN`. En este próximo ejemplo incluimos la etiqueta $e$ (no presente en el índice original) en el nuevo índice:

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"])
r

Este valor de relleno (`NaN`) es personalizable usando el parámetro `fill_value`. Si repetimos las instrucciones anteriores especificando que el valor de relleno sea, por ejemplo, 0:

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], fill_value = 0)
r

Una alternativa a fijar el valor de relleno por defecto es aplicar "lógica de relleno", rellenando los valores inexistentes con otro valor que sí exista. Tenemos tres opciones:

## <font color='blue'>**Forward fill**</font>

La primera opción consiste en rellenar los valores inexistentes "hacia adelante", haciendo que los valores existentes rellenen los valores inexistentes que los sigan. O, en otras palabras, rellenar los valores inexistentes con el primer valor existente que los precedan:

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], method = "ffill")
r

En este caso, el valor correspondiente a la etiqueta $e$ se rellena con el valor de la etiqueta anterior $c$. Pero no la anterior en el nuevo índice, sino la anterior en el índice original. Veámoslos con otro ejemplo:

In [None]:
r = s.reindex(["g", "c", "m", "a", "j", "f"], method = "ffill")
r

Ahora, la etiqueta nueva es $m$, siendo precedida en el índice original por la $j$ (si se ordenan alfabéticamente), por lo que el valor que recibe `r["m"]` es el que tenía `r["j"]: 5`.

## <font color='blue'>**Backward fill**</font>

En este otro caso, los valores inexistentes se rellenan "hacia atrás", con el primer valor existente que los siga.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "c", "f", "g", "j"])
s

In [None]:
r = s.reindex(["g", "c", "e", "a", "j", "f"], method = "bfill")
r

Nuevamente, la etiqueta no existente en el índice original es $e$, y el valor que se le asigna es el correspondiente a la etiqueta que seguía a $e$ en dicho índice (si se ordenan alfabéticamente): $f$. Por lo tanto, se asigna a `r["e"]` el valor de `r["f"]: 3`.

## <font color='blue'>**Nearest (el más cercano)**</font>

La tercera opción asigna a cada valor desconocido el valor más próximo en la serie original. Para ver esta opción en funcionamiento necesitamos partir de una serie cuyo índice sea numérico (la operación "sustracción" en la que se basa esta tercera opción no está soportada entre cadenas de texto).

In [None]:
s = pd.Series([100, 200, 300, 400, 500], index = [10, 20, 30, 40, 50])
s

Una serie cuyo índice está formado por múltiplos de 10. Generemos ahora una copia del mismo con el índice [20, 40, 19] aplicando como método de relleno "nearest".

In [None]:
r = s.reindex([20, 40, 19], method = "nearest")
r

El método ha incluido el índice 19 y le ha asignado el valor del índice más próximo (20), es decir, el valor de s[20] (200).

In [None]:
r = s.reindex([20, 40, 11], method = "nearest")
r

En este caso, el índice más próximo es 10, y el valor asignado es, por lo tanto, s[10]: 100.

## <font color='blue'>**Reindexación de dataframes**</font>

El método `pandas.DataFrame.reindex` ofrece una funcionalidad semejante a la disponible para series con la particularidad de que, en este caso, podemos reindexar por filas y/o por columnas. Por defecto, este método acepta una secuencia de etiquetas que determinarán qué filas se incluyen y en qué orden (es decir, por defecto la reindexación se aplica al eje 0).

In [None]:
df = pd.DataFrame(np.arange(15).reshape([5, 3]),
                  index = ["a", "b", "c", "d", "e"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.reindex(["d", "b"])

In [None]:
# df no ha cambiado
df

En este ejemplo, partimos de un dataframe cuyo índice de filas tiene las etiquetas $a$, $b$, $c$, $d$ y $e$, y hemos indicado como nuevo índice las etiquetas $d$ y $b$ (en este orden), y son estas filas (en ese orden) las que se devuelven como resultado.

Este método permite especificar las etiquetas de filas como hemos visto, pasándoselas al método como primer argumento, o con el parámetro `index`.

In [None]:
df.reindex(index = ["d", "b"])

El parámetro `columns`, por su parte, permite especificar el nuevo índice de columnas:



In [None]:
df.reindex(columns = ["A", "C"])

Si utilizamos ambos parámetros al mismo tiempo, imponemos simultáneamente el nuevo índice para filas y columnas.

In [None]:
df.reindex(index = ["a", "c", "f"], columns = ["A", "D", "C"])

Podemos asignar a los valores inexistentes un valor concreto usando el parámetro `fill_value`, o podemos aplicar "lógica de relleno" con el parámetro `method`, permitiéndonos rellenar los valores inexistentes hacia adelante o hacia atrás.

Y, por supuesto, si los nuevos índices contienen los mismos elementos que los índices originales pero en otro orden, el resultado del método será equivalente al original ordenado según el nuevo criterio.

In [None]:
df.reindex(index = ["a", "c", "b", "e", "d"], columns = ["B", "C", "A"])

## <font color='blue'>**Método `set_index`**</font>

El método `pandas.DataFrame.set_index` fija una columna del dataframe como índice, descartando el índice existente.

In [None]:
df = pd.DataFrame({
    "año": [2016, 2017, 2018],
    "mes": ["ene", "sep", "jun"],
    "ventas": [87, 34, 112]
})
df

Vemos que se ha asignado un índice automático. Si ejecutamos el método `set_index` indicando como argumento el campo "mes".

In [None]:
df.set_index("mes")

Se fija dicha columna como índice y se elimina del conjunto de características. Aunque esta eliminación es el comportamiento por defecto, podemos controlarlo con el parámetro `drop`.

In [None]:
df.set_index("mes", drop = False)