# Filtrado de Series

Veamos qué es y para qué sirve el filtrado de series. Para eso voy a crear una nueva serie en la que luego aplicaremos el filtrado.

In [1]:
import pandas as pd

serie = pd.Series([5, 10, 15, 20, 25])
serie

0     5
1    10
2    15
3    20
4    25
dtype: int64

El **filtrado** es como realizar *preguntas específicas* a nuestros datos. Por ejemplo, podríamos querer saber qué elementos son mayores que un número específico.

Supongamos que en la serie anterior queremos saber **qué números son mayores que 15**.

Para hacer esto, vamos a construir una **condición** y aplicarla a nuestra *serie*.

In [None]:
filtro = serie > 15
serie_filtrada = serie[filtro]
serie_filtrada

Si te preguntas por qué esto ha funcionado, permíteme que te muestre cómo se ve la variable **filtro** que hemos creado en el medio del proceso.

In [None]:
filtro

Como puedes ver, lo que hicimos fue crear una nueva **Serie** que contiene **valores booleanos** (*True* para elementos que cumplen la condición, y *False* para los que no).

Luego, usamos la serie **filtro** para "indexar" solo los elementos de **serie** que son *True*, y que por lo tanto son mayores que 15. De alguna manera este es el mismo proceso de indexación que aplicábamos antes, porque lo que pones en las llaves cuadradas es el valor que quieres obtener, solo que al hacerlo de esta manera **obtenemos más de un valor que cumple con el criterio de indexación**, y a ese proceso le llamamos **filtrado**.

Por si te preguntas si es posible filtrar series compuestas por valores de **texto**, la respuesta es sí.

In [None]:
serie2 = pd.Series(["banana", "pera", "melon", "manzana"])
serie2

Mi objetivo es filtrar la **serie2**, para obtener solamente los items que contienen la letra "m" en su nombre. Para lograrlo quisiera aplicar un método de los strings que se llama **contains()** que permite verificar si un determinado string contiene un determinado substring.

Por lo tanto, debería comenzar por ver qué tipos de datos estoy manipulando, para identificar si puedo utilizar **contains()** en este caso.

In [None]:
type(serie2)

In [None]:
type(serie2[0])

Interesante. Si bien mi serie2 **contiene strings**, mi serie2 **no es un string**.

Mi serie2 **es una Serie**.

Por lo tanto, en serie2 solo puedo usar métodos propios de los objetos serie, y no puedo usar métodos de string (como *contains*).

Voy a **imprimir los métodos de los objetos serie** para ver si dispongo de alguna alternativa.

In [None]:
print(dir(serie2))

La mala noticia es que los objetos serie no tienen ningún método **contains()**.

Pero observa que lo que **sí tenemos** es un **método str**.

**¿Cómo hacemos para ver qué hace str?**

In [None]:
help(serie2.str)

Según la ayuda, el **método str** sirve para asignar *"funciones vectorizadas de strings"* a la series y a sus índices.

Este método entonces nos va a permitir que podamos **usar métodos de strings que han sido adaptados para que funcionen con las series**. ¿No es genial?

In [None]:
filtro2 = serie2.str.contains("m")
filtro2

In [None]:
serie2[filtro2]

Como has visto, podríamos resumir que **filtrar datos** implica seleccionar elementos que cumplan con ciertos criterios.

Es como cuando usamos un colador en la cocina: solo queremos quedarnos con lo que es útil para nosotros.