# **Obtención y preparación de datos**

# OD11. Selección en Dataframes

Desde un punto de vista semántico, un dataframe puede ser considerado semejante a un diccionario de series, en el que las claves son los nombres de las columnas y los valores, las columnas (que son series pandas).

In [None]:
import pandas as pd
import numpy as np

In [None]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Sí", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
    index = ["Ene", "Feb", "Mar", "Abr"] 
)
ventas

Es posible utilizar la sintaxis de los diccionarios para seleccionar la columna Entradas.

In [None]:
print(type(ventas["Entradas"]))

In [None]:
ventas["Entradas"]

Esto significa que podemos realizar una selección en dicho resultado para, por ejemplo, extraer el valor correspondiente a febrero.

In [None]:
ventas["Entradas"]["Feb"]

Usar comas para separar no funciona y por lo tanto nos entrega un error.

In [None]:
try:
    # La separación por comas no funciona, nos entrega un error de llave
    ventas["Entradas", "Feb"]
except Exception as e:
    print(e.__doc__)
    print(type(e).__name__)


Si, una vez seleccionada una columna, le asignamos una lista o array (o serie) de valores de la misma longitud, estamos modificando dicha columna del dataframe.

In [None]:
ventas["Entradas"] = [33, 25, 40, 12]
ventas

Si asignamos un único valor escalar, este se propaga por toda la columna.

In [None]:
ventas["Salidas"] = 1
ventas

Si estuviésemos asignando un array cuya longitud no coincidiese con la de la columna (y no estuviésemos asignando un escalar), obtendríamos un error.

Si asignamos una serie pandas se consideran los índices del dataframe y de la serie, haciendo coincidir los valores cuyos índices sean los mismos en ambas estructuras (si dicha columna no existe, se crea). En el caso de que haya valores en la serie con índices que no se encuentren en el dataframe, se descartan. Y en el caso de que haya índices en el dataframe que no se encuentren en la serie, se asigna un valor *NaN*.

Así, en el siguiente ejemplo, estamos añadiendo una serie cuyos índices son "Ene", "Mar", "Abr" y "May". Es decir, la serie no tiene un valor para el índice "Feb" que sí se encuentra en el dataframe (se asigna un *NaN*), e incluye el índice "May" que no se encuentra en el dataframe y se descarta.

In [None]:
# Feb no existe en la serie, luego se completa con NaN
# Mar no existe en el DataFrame, luego se descarta
ventas["Perdidas"] = pd.Series([5, 4, 6, 8], index = ["Ene", "Mar", "Abr", "May"])
ventas

Los valores asignados pueden proceder del propio dataframe:

In [None]:
ventas["Ganancias"] = (ventas["Entradas"]*2) - (ventas["Valoración"]/10)
ventas

También podemos acceder a una columna con la llamada "notación punto".

In [None]:
ventas.Ganancias = 1
ventas

Deberemos tener en cuenta que con esta notación no es posible crear nuevas columnas ni eliminarlas y que solo funcionará si el nombre de la columna no incluye espacios en blanco y no coincide con ninguna palabra reservada de Python.

El uso de un rango numérico entre los corchetes realiza una selección de filas, lo que puede parecer una cierta incoherencia.

In [None]:
import numpy as np
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
df[2:5]

El equipo de pandas lo justifica diciendo que esta sintaxis resulta extremadamente conveniente al tratarse de un tipo de selección frecuentemente usada. Esto es cierto, pero el hecho de que selecciones aparentemente semejantes (`df[1,2]`, `df[[1, 2]]`, `df[1:3, 5]`, etc.) devuelvan un error no facilita su comprensión.

Se devuelven las filas entre el primer valor del rango (incluido) y el último (sin incluir). También podríamos haber usado las etiquetas del índice.

In [None]:
df["b":"d"]

In [None]:
df[:3]

In [None]:
df[:"c"]

Al situar entre los corchetes una __lista de etiquetas__, estaremos seleccionando columnas en el orden en el que aparecen en la lista y con formato dataframe:

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
# Noten los dobles corchetes. El interior representa una lista
print(type(df[["C", "A"]]))
df[["C", "A"]]

También es posible extraer de forma segura una columna de un dataframe usando el método `pandas.DataFrame.get`. Éste extrae la columna indicada devolviendo un valor alternativo (por defecto `None`) si dicha columna no existe.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.get("A")

In [None]:
df.get("D")

Al igual que ocurre con las series, el método `pandas.DataFrame.loc` permite seleccionar un conjunto de filas y columnas por etiquetas. Este método acepta diferentes argumentos.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.loc["c"]

El resultado es una serie pandas con las etiquetas de columnas del dataframe original como índice.

Es necesario mencionar que el argumento será siempre interpretado como etiqueta, aun cuando pueda estar representando un índice válido.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = [1, 3, 0, 4],
                  columns = ["A", "B", "C"])
df

In [None]:
# No es el índice cero, es la etiqueta 0
df.loc[0]

Si la etiqueta no existe, se devuelve un error (nuevamente, aun cuando la etiqueta sea un número que pueda estar representando un índice válido).

In [None]:
try:
    df.loc[5]
except Exception as e:
    print(e.__doc__)
    print(type(e).__name__)

Si pasamos a `loc` una __lista de etiquetas__, estaremos extrayendo las filas cuyas etiquetas se indican, y en el orden en el que aparezcan en la lista.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.loc[["c", "a", "e"]]

Al contrario de lo que ocurre cuando solo indicamos una etiqueta, el resultado es un dataframe. Y lo es aún cuando la lista contenga un único elemento.

In [None]:
print(type(df.loc[["c"]]))
df.loc[["c"]]

In [None]:
print(type(df.loc["c"]))
df.loc["c"]

Otra opción es utilizar rangos limitados por etiquetas.

In [None]:
df.loc["b":"d"]

Obsérvese que la selección incluye todas las filas incluyendo las dos de los extremos del rango.

En los ejemplos vistos hasta ahora estamos extrayendo una o varias filas para todas las columnas. En posible, por supuesto, especificar qué filas y qué columnas exactas queremos extraer. Así, si utilizamos una única etiqueta para indicar la fila, y una única etiqueta para indicar la columna, separadas por una coma, estaremos extrayendo un único valor.

In [None]:
df.loc["a", "C"]

Podemos sustituir una de las dos etiquetas por el símbolo de dos puntos (:), lo que supondrá seleccionar todos los elementos de ese eje.

In [None]:
df.loc[:, "A"]

Esto supone que, por ejemplo, las dos expresiones siguientes devuelven el mismo resultado:

In [None]:
df.loc["b"]

In [None]:
df.loc["b",:]

Los métodos vistos pueden combinarse. Podemos, por ejemplo, seleccionar la intersección de las filas $e$ y $c$ (en este orden) y la columna $B$.

In [None]:
df.loc[["e", "c"], "B"]

El método `pandas.DataFrame.iloc` permite realizar selecciones por posición. Tal y como cabría esperar, pueden utilizarse diferentes tipos de argumentos que determinan qué elementos se están extrayendo.

In [None]:
df = pd.DataFrame(np.random.randint(0, 10, 18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.iloc[2]

El número indicado siempre será tratado como posición, y no como etiqueta.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = [3, 2, 1, 0],
                  columns = ["A", "B", "C"])
df

In [None]:
df.iloc[3]

Si el número es negativo, hace referencia al final del dataframe.



In [None]:
df.iloc[-1]

Si utilizamos como argumento una __lista o array de números__, estamos extrayendo las filas cuyos índices son los elementos del mismo, y en el orden en el que aparecen en él.

In [None]:
df = pd.DataFrame(np.random.randint(0, 10, 18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
# Noten los dobles corchetes
df.iloc[[3, 1]]

Si utilizamos un rango de números, como en el siguiente ejemplo en el que indicamos como argumento 2:4, estamos extrayendo las filas cuyos índices van de la primera cifra del rango incluida (2 en el ejemplo) hasta la última cifra sin incluir (4 en el ejemplo).

In [None]:
df.iloc[2:4]

Como suele ser habitual, si no se especifica el primer valor, se consideran las filas desde la primera. Y si no se especifica el último valor, se consideran las filas hasta la última (incluida).

In [None]:
df.iloc[:3]

In [None]:
df.iloc[4:]

También pueden usarse valores negativos para especificar el comienzo o el final del rango.

Si añadimos un segundo argumento, estaremos haciendo referencia al índice de columna.

In [None]:
df.iloc[3, 1]

In [None]:
df.iloc[2:4, [1,2]]

En ocasiones nos encontraremos con que resultaría de utilidad poder realizar selecciones mezclando etiquetas e índices, y los métodos vistos, `loc` e `iloc`, solo permiten el uso de etiquetas o de índices, respectivamente. Para poder mezclar ambos tipos de referencias podemos recurrir a los métodos `pandas.Index.get_loc` y `pandas.Index.get_indexer`, métodos asociados a los índices de un dataframe.

El primero, `get_loc`, devuelve el índice de la etiqueta que se adjunte como parámetro. El segundo, `get_indexer`, devuelve un array con los índices de las etiquetas que se adjunten en forma de lista como parámetro.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df                                                                                                                   

Si aplicamos estos métodos al índice de columnas haciendo referencia a etiquetas de columnas, obtenemos los siguientes resultados:

In [None]:
df.columns.get_loc("B")

In [None]:
df.columns.get_indexer(["A", "C"])

En el primer caso hemos pasado la etiqueta "B" y el método ha devuelto su índice (1). En el segundo caso hemos pasado una lista de etiquetas y hemos obtenido un array con sus índices.

Si ejecutamos estos métodos en el índice de filas:

In [None]:
df.index.get_loc("d")

In [None]:
df.index.get_indexer(["c", "e"])

Ahora que sabemos cómo convertir etiquetas en sus índices equivalentes, podemos seleccionar datos de un dataframe mezclando etiquetas e índices si convertimos las etiquetas y utilizamos el método `iloc` ya visto. Por ejemplo, si quisiéramos extraer del anterior dataframe el dato que ocupa la fila $c$ y la columna de índice 2, podríamos conseguirlo del siguiente modo:

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df  

In [None]:
df.iloc[df.index.get_loc("c"), 2]

O si deseásemos obtener de las filas 5 y 3 (en este orden) los valores correspondientes a las columnas $C$ y $A$ (en este orden), podríamos hacerlo con la siguiente expresión:

In [None]:
df.iloc[[5, 3], df.columns.get_indexer(["C", "A"])]

Otro método especialmente útil para la selección es el uso de listas de booleanos. Nuevamente puede parecer un tanto incoherente aunque, en este caso, su uso sí es extremadamente conveniente.

Si partimos del mismo dataframe usado en la sección anterior, podemos crear una lista de booleanos (que, por motivos puramente pedagógicos, asignamos a una variable, *mask*) y realizar la selección con ella entre los corchetes. Vemos a continuación que este método también selecciona filas del dataframe.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
mask = [True, False, True, False, False, True]
df[mask]

El vector de booleanos deberá tener la misma longitud que el índice de filas (es decir, un booleano por fila) y la selección devolverá aquellas filas para las que el elemento correspondiente del vector tome el valor `True`.

La verdadera potencia de este estilo de selección se pone de manifiesto cuando la máscara se genera a partir de los datos del propio dataframe. Por ejemplo, si queremos seleccionar las filas para las que el valor de la columna $A$ sea mayor que 7:

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

In [None]:
df[df.A > 7]

Este tipo de filtrados resultan muy frecuentes en entornos de análisis, de ahí que la posibilidad de realizarlos sin necesidad de recurrir a métodos adicionales (`loc`, `iloc` o `get`, por ejemplo) resulte tan conveniente.

Con `loc` podemos usar directamente una expresión de comparación como la vista:

In [None]:
df.loc[df.B > 6]

Sin embargo, con `iloc` nos veremos obligados a extraer los valores del dataframe resultante de la comparación -tal y como ocurría con las series- pues, de otro modo, obtendremos un error. Recordar que no hacepta series como argumentos, solo arreglos o listas.

In [None]:
df.iloc[(df.B > 6).values]

In [None]:
df.iloc[list(df.B > 6)]

**Evitamos problemas si, tal y como sugiere pandas, utilizamos siempre el método loc.**

Al igual que ocurre con las series, también los dataframes tienen un método que permite extraer elementos del mismo de forma aleatoria: `pandas.DataFrame.sample`. Este método permite especificar el número de elementos a extraer (o el porcentaje respecto del total, parámetros `n` y `frac`, respectivamente), si la extracción se realiza con reemplazo o no (parámetro `replace`), los pesos a aplicar a los elementos para realizar una extracción aleatoria ponderada (parámetro `weights`) y una semilla para el generador de números aleatorios que asegure la reproducibilidad de la extracción (parámetro `random_state`). También es posible indicar el eje a lo largo del cual se desea realizar la extracción (por defecto se extraen filas, correspondiente al eje 0).

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.sample(3, random_state = 18)

Si especificamos como eje el valor 1, estaremos extrayendo columnas.

In [None]:
df.sample(2, random_state = 18, axis = 1)

Si hacemos uso del parámetro `frac`, podemos especificar el porcentaje de elementos a extraer.

In [None]:
df.sample(frac = 0.6, random_state = 18)

Otra forma de extraer datos es la proporcionada por el método `pandas.DataFrame.pop`, que extrae y elimina una columna de un dataframe.

In [None]:
df = pd.DataFrame(np.arange(15).reshape([3, 5]),
                  index = ["a", "b", "c"],
                  columns = ["A", "B", "C", "D", "E"])
df

In [None]:
columna = df.pop("B")
columna

In [None]:
df

## <font color='green'>Actividad 1</font>

Escribir una función que reciba un DataFrame con el formato de la siguiente tabla:

| Mes     | Ventas | Gastos |
| ------- | -----: | -----: |
| Enero   |  30500 |  22000 |
| Febrero |  35600 |  23400 |
| Marzo   |  28300 |  18100 |
| Abril   |  33900 |  20700 |
| Mayo    |  31450 |  25620 |
| Junio   |  33040 |  25500 |

y devuelva el balance (ventas - gastos) para los siguientes periodos:

1. Enero a Marzo
2. Abril a Junio
3. Todo el periodo

In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 1</font>