# **Obtención y preparación de datos**

# OD10. Selección en Series

In [None]:
import pandas as pd

Un aspecto relativamente complejo involucrado en el uso de las **series** y los **dataframes** -principalmente con esta última estructura- es la extracción o selección de datos. Esta relativa complejidad viene derivada principalmente de la abundancia de alternativas y de las excepciones a la norma que algunas de ellas aparentan ser.

## <font color='blue'>**Selección de datos en series**</font>

Una serie pandas consta de un array de datos y un array de etiquetas (el índice o index). Si al crear la serie no se ha especificado el índice, ya sabemos que se asignará uno implícito por defecto.

In [None]:
s = pd.Series([10, 20, 30, 40])
s

0    10
1    20
2    30
3    40
dtype: int64

Es posible seleccionar los valores haciendo referencia al índice asignado con la misma notación que en un diccionario (la llamada "notación corchetes" o "*square bracket notation*").

In [None]:
print(s[0])
print(s[2])

10
30


Usando esta sintaxis, si no se ha especificado un índice explícito, los índices negativos no están permitidos.

Si se asignan índices de forma explícita:

In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

Es posible seleccionar los elementos usando el índice explícito o el implícito:

In [None]:
print(s["a"], s[0])

10 10


In [None]:
print(s["d"], s[-1])

40 40


Con esta sintaxis, sí está permitido hacer uso de índices negativos para referirnos a los elementos desde el final de la estructura.

Si los índices asignados son números enteros (al igual que las etiquetas del índice implícito), el índice implícito queda desactivado.

In [None]:
s = pd.Series([10, 20, 30, 40], index = [3, 2, 1, 0])
s

3    10
2    20
1    30
0    40
dtype: int64

In [None]:
s[0]

40

en cuyo caso no es posible usar índices negativos.

In [None]:
try:
  s[-1]
except:
  print("Error")


Error


También es posible **seleccionar rangos de valores**. De esta forma, si usamos un rango numérico en una serie en la que hemos definido un índice explícito.



In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s[1:3]

b    20
c    30
dtype: int64

Se puede observar que el rango se interpreta como haciendo referencia al índice implícito, y se incluyen los valores desde el primer índice incluido, hasta el último sin incluir.

Si no se incluye alguno de los límites, el comportamiento es el estándar en Python (si no se incluye el primer valor, se consideran todos los elementos desde el principio, y si no se incluye el último valor, se consideran todos los elementos hasta el final).

In [None]:
s[1:]

b    20
c    30
d    40
dtype: int64

In [None]:
s[:3]

Para incluir los valores desde el primer índice hasta el último índice, ambos incluidos, se procede de la siguiente manera.

In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

In [None]:
s[:"c"]

a    10
b    20
c    30
dtype: int64

In [None]:
s["b":]

b    20
c    30
d    40
dtype: int64

Una posible fuente de confusión viene derivada del hecho de que, usando rangos, es posible hacer referencia tanto a las etiquetas como a los índices numéricos. Si se utilizaron etiquetas, se debe hacer referencia a las etiquetas.

In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s["b":"c"]

b    20
c    30
dtype: int64

Si utilizamos números, hacemos referencia a los índices numéricos.

In [None]:
s[1:3]

b    20
c    30
dtype: int64

¿Y qué ocurre si nuestras etiquetas son números? siempre que se usen rangos con números se estará haciendo referencia a los índices numéricos. No es posible hacer referencia a las etiquetas.

In [None]:
s = pd.Series([10, 20, 30, 40], index = [3, 2, 1, 0])
s[1:3]

2    20
1    30
dtype: int64

In [None]:
s[1]

30

En el caso anterior, se devolvió el valor cuya etiqueta es 1 (si existe), o el valor cuya posición es 1 si dicha etiqueta no existe y el índice explícito no es numérico.


In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s[1]

20

Es debido a esto que existen los métodos **loc** e **iloc**. Estos métodos hacen una referencia explícita a etiquetas o posiciones, respectivamente, eliminando cualquier duda al respecto de su interpretación.

Al igual que con los array NumPy, es posible seleccionar datos de una serie utilizando una **lista de valores**.

In [None]:
s[[3,1]]

d    40
b    20
dtype: int64

En este ejemplo, la lista contiene los números 3 y 1, y son los valores correspondientes a estos índices -y en el orden especificado- los devueltos por la instrucción.

El resultado devuelto sigue siendo una serie pandas.

In [None]:
type(s[[3,1]])

pandas.core.series.Series

Con esta notación, en el caso de que la serie tenga un índice explícito numérico, los valores de la lista se interpretan como haciendo referencia al índice explícito.

También es posible usar el método **pandas.Series.get** para extraer un valor de forma segura.

In [None]:
s.get(2)

30

In [None]:
s.get(7)

Si la clave indicada no existe, la función devuelve *None* por defecto (es posible personalizar este valor).

Las series pandas y los dataframes disponen de los versátiles métodos **loc** e **iloc**.

El método **pandas.Series.loc** permite seleccionar un grupo de elementos por etiquetas.

Como argumento de este método puede utilizarse una única etiqueta.

In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s.loc["b"]

20

In [None]:
s.loc[0]

KeyError: ignored

In [None]:
s = pd.Series([10, 20, 30, 40])
s

0    10
1    20
2    30
3    40
dtype: int64

In [None]:
s.loc[0]

10

En este caso el argumento se interpreta siempre como etiqueta del índice, nunca como posición en dicho índice aun cuando se pase un número entero que no pertenece al conjunto de etiquetas y pueda representar una posición válida.

También podemos pasar al método una lista de etiquetas, en cuyo caso se extraen los valores correspondientes a dichas etiquetas y en el orden en el que se incluyen en la lista.

In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s.loc[["d", "a"]]

d    40
a    10
dtype: int64

Otra opción es pasar al método un rango.

In [None]:
s["b":"d"]

b    20
c    30
d    40
dtype: int64

En este caso es importante recalcar que, tal y como se ve en la imagen anterior, el método va a devolver todos los elementos entre los límites indicados **ambos incluidos**.

El método **pandas.Series.iloc** permite extraer datos de la serie a partir de los índices implícitos que éstos tienen asignados.

La opción más simple es utilizar como argumento un número entero (el primer elemento de la serie recibe el índice cero).

In [None]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

In [None]:
s.iloc[1]

20

In [None]:
s.iloc[0]

10

In [None]:
s.loc["a"]

10

In [None]:
s.iloc[3]

40

Si el número es negativo, hace referencia al final de la serie (en este caso, el último elemento recibe el índice -1) -y esto tanto si se ha especificado un índice explícito como si no-.

In [None]:
s.iloc[-1]

40

In [None]:
s.iloc[-4]

10

Una segunda opción es pasar como argumento una lista o array de números, en cuyo caso se devuelven los elementos que ocupan dichas posiciones en el orden indicado en la lista o array.

In [None]:
s.iloc[[2, 0]]

c    30
a    10
dtype: int64

También podemos incluir en esta lista números negativos.

In [None]:
s.iloc[[-2, 0]]

c    30
a    10
dtype: int64

Una tercera opción es usar como argumento un rango de números.

In [None]:
s.iloc[1:3]

b    20
c    30
dtype: int64

Si el rango tiene la forma a:b, se incluyen todos los elementos desde aquel cuyo índice es a (incluido) hasta el que tiene el índice b (sin incluir).

Si no se especifica el primer valor, se consideran todos los elementos desde el principio de la serie.



In [None]:
s.iloc[:3]

a    10
b    20
c    30
dtype: int64

Y, si no se especifica el segundo valor, se consideran todos los elementos hasta el final de la serie.

In [None]:
s.iloc[2:]

c    30
d    40
dtype: int64

También pueden usarse valores negativos para indicar el comienzo y/o el final del rango.

In [None]:
s.iloc[1:-1]

b    20
c    30
dtype: int64

Otra opción para seleccionar elementos de una serie pandas es **usar arrays booleanos**.

In [None]:
s = pd.Series([5, 2, -3, 7, 8, 4])
s

0    5
1    2
2   -3
3    7
4    8
5    4
dtype: int64

Podemos seleccionar un conjunto de valores de la misma haciendo referencia al nombre de la serie y, entre los corchetes, una lista o array de booleanos.

In [None]:
s[[True, False, False, True, True, False]]

0    5
3    7
4    8
dtype: int64

En este caso hemos seleccionado los elementos cuyos índices son 0, 3 y 4, que son los índices que ocupan los booleanos True en la lista de booleanos usada (lista cuya longitud deberá ser igual a la longitud de la serie pues, de no ser así, se devuelve un error).

Esta lista o array de booleanos no tiene porqué ser especificada de forma explícita, puede ser el resultado de una expresión.

In [None]:
s = pd.Series([5, 2, -3, 7, 8, 4])
s

0    5
1    2
2   -3
3    7
4    8
5    4
dtype: int64

In [None]:
print(type(s > 2))
s > 2

<class 'pandas.core.series.Series'>


0     True
1    False
2    False
3     True
4     True
5     True
dtype: bool

Aquí, hemos usado la expresión $s > 2$ para generar una serie pandas de booleanos, serie en la que los valores toman el valor True cuando el valor con el mismo índice de $s$ toma un valor mayor estricto que 2.

Podemos entonces usar este resultado para extraer valores de la serie $s$.

In [None]:
s[s>2]

0    5
3    7
4    8
5    4
dtype: int64

Este mismo enfoque puede ser usado con los métodos pandas.Series.loc y pandas.Series.iloc ya vistos en las secciones anteriores con algún matiz adicional.

El método loc puede ser usado tanto con un array explícito de booleanos:

In [None]:
s.loc[[True, False, False, True, True, True]]

0    5
3    7
4    8
5    4
dtype: int64

o como con una expresión que genera, por ejemplo, una serie pandas de booleanos:

In [None]:
s.loc[s>2]

0    5
3    7
4    8
5    4
dtype: int64

Sin embargo, el método iloc tiene un comportamiento ligeramente diferente. Puede ser usados con arrays explícitos de booleanos:

In [None]:
s.iloc[[True, False, False, True, True, True]]

0    5
3    7
4    8
5    4
dtype: int64

Pero el uso de expresiones que generen una serie pandas de booleanos devuelve un error:

In [None]:
s.iloc[s>2]

NotImplementedError: ignored

Si el objeto que está generando la estructura de booleanos ($s$, en $s > 2$) fuese un array NumPy en lugar de tratarse de una serie pandas, sí sería posible usar el método .iloc. De esta forma, la expresión $s > 2$ genera, como hemos visto, una serie pandas, pero podemos extraer los valores con el atributo values, que genera un array numpy.

In [None]:
type((s>2).values)

numpy.ndarray

In [None]:
(s>2).values

array([ True, False, False,  True,  True,  True])

In [69]:
#s[np.all([s>2, s<8], axis = 0)]
s[(s>2) & (s<8)]


0    5
3    7
5    4
dtype: int64

Si usamos esta expresión para realizar la selección en la serie original $s$, el resultado es ahora el correcto.

In [70]:
s.iloc[(s>2).values]

0    5
3    7
4    8
5    4
dtype: int64

**Es por ello que pandas recomienda usar el método loc cuando trabajemos con selección basada en booleanos.**

También podemos realizar una selección aleatoria a partir de una serie. El método **pandas.Series.sample** permite especificar o bien el número de elementos a extraer o bien la fracción del número total de elementos a extraer (parámetros **n** y **frac**, respectivamente), pudiendo especificar si la extracción se realiza con reemplazo o no (parámetro **replace**), los pesos a aplicar a cada elemento para realizar una extracción aleatoria ponderada (parámetro **weights**), y una semilla para el generador de números aleatorios que asegure la reproducibilidad de la extracción (parámetro **random_state**).

In [71]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s

a    10
b    20
c    30
d    40
dtype: int64

In [72]:
s.sample(3, random_state = 18)

d    40
b    20
a    10
dtype: int64

In [73]:
s.sample(frac = 0.6, random_state = 18)

d    40
b    20
dtype: int64

Si no hay reemplazo, el número máximo de elementos que podemos extraer coincide con la longitud de la serie. Pero si la extracción la realizamos con reemplazo, podemos especificar cualquier número de elementos.

In [74]:
s.sample(10, random_state = 18, replace = True)

c    30
d    40
a    10
b    20
c    30
b    20
c    30
c    30
c    30
a    10
dtype: int64

El método **pandas.Series.pop** extrae y elimina un elemento de una serie cuyo índice se indica como argumento.

In [75]:
s = pd.Series([1, 2, 3, 4])
s

0    1
1    2
2    3
3    4
dtype: int64

In [76]:
s.pop(1)

2

In [77]:
s

0    1
2    3
3    4
dtype: int64

Devuelve un error en caso de que no exista.

In [78]:
s = pd.Series([1, 2, 3, 4])
try:
  s.pop(18)
except:
  print("Error")

Error


Si la serie tiene un índice explícito, el argumento de pop hará referencia a este índice.

In [79]:
s = pd.Series([10, 20, 30, 40], index = ["a", "b", "c", "d"])
s.pop("a")

10

In [80]:
s

b    20
c    30
d    40
dtype: int64

Y para el índice no explícito, devolverá un error.

In [81]:
try:
  s.pop(0)
except:
  print("Error")

Error


## <font color='green'>Actividad 1</font>

Escribir una función que reciba un diccionario con las alturas (en metros) de l@s alumn@s del grupo y devuelva una serie con las alturas mayores a 1.75 ordenadas de mayor a menor.

In [93]:
#Solución
def grupo_alturas(alturas, limite):
    grupo = pd.Series(alturas)  

    salidas = grupo[(grupo>limite).values].sort_values()
    #print(type(salidas))

    return salidas



alturas = {'A':1.7, 'B': 1.95, 'C': 1.80, 'D': 1.65, 'E': 1.68, 'F': 1.75}
print(grupo_alturas(alturas, 1.74))



F    1.75
C    1.80
B    1.95
dtype: float64


<font color='green'>Fin Actividad 1</font>