Filtrado personalizado mediante query()

Teoría

Exploración del dataset

Trabajaremos con un conjunto de datos que contiene información histórica sobre las ventas de videojuegos de consola. Los datos originales provienen de VGChartz, pero el conjunto de datos se obtuvo de Kaggle (materiales en inglés) y se modificó para nuestros fines aquí.

Vamos a echar un vistazo a los datos:

df = pd.read_csv('/datasets/vg_sales.csv')

print(df.head())
print()
print(df.info())

                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16717 entries, 0 to 16716
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16717 non-null  object 
 1   platform         16717 non-null  object 
 2   year_of_release  16448 non-null  float64
 3   genre            16717 non-null  object 
 4   publisher        16663 non-null  object 
 5   developer        10096 non-null  object 
 6   na_sales         16717 non-null  float64
 7   eu_sales         16717 non-null  float64
 8   jp_sales         16717 non-null  float64
 9   critic_score     8137 non-null   float64
 10  user_score       7590 non-null   float64
dtypes: float64(6), object(5)
memory usage: 1.4+ MB

Hay muchas columnas en el dataset. Muchas de ellas no requieren explicación, pero vamos a analizar algunas de las que pueden requerirla:

'platform': consola en la que se lanzó el juego.

'xx_sales': ventas en Norteamérica (NA), Europa (EU) y Japón (JP), en millones de dólares.

'critic_score': puntuación del juego de 0 a 100 por los críticos del juego.

'user_score': puntuación del juego de 0 a 10 por los consumidores.

Observa también que en muchas de las columnas hay valores ausentes. Pero por ahora vamos a dejarlos.

Filtrado con strings de consulta y el método query()

Ahora que estamos familiarizados con los datos, vamos a aprender a filtrar con strings de consulta. Ya sabes cómo filtrar DataFrames utilizando operadores lógicos para crear una serie de Booleanos que llamaremos máscara booleana a partir de ahora.

También podemos realizar filtrados utilizando el método query().

Este método es llamado en un DataFrame y requiere un string como entrada. El string representa la consulta que quieres hacer en tu DataFrame, lo que básicamente significa que le dice a Python qué filas debe filtrar.

Todo lo que tenemos que hacer es utilizar el nombre de la columna en nuestro string de consulta junto con la condición que queríamos filtrar. Es realmente una cuestión de preferencia la técnica que se utilice para filtrar, pero los strings de consulta suelen ser más fáciles de leer.

Para filtrar con query() basándose en comparaciones de strings, es necesario poner comillas alrededor del string. Por ejemplo, seleccionemos solo los juegos publicados por Nintendo:

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

print(df.query("publisher == 'Nintendo'")[['name', 'publisher']].head())

                       name publisher

0                Wii Sports  Nintendo

1         Super Mario Bros.  Nintendo

2            Mario Kart Wii  Nintendo

3         Wii Sports Resort  Nintendo

4  Pokemon Red/Pokemon Blue  Nintendo

Utilizamos comillas simples para indicar 'Nintendo' porque nuestro string de consulta completo estaba entre comillas dobles.

Filtrado mediante el método isin()

El método que podemos utilizar para filtrar los datos se llama isin(). 

En lugar de utilizar los operadores lógicos conocidos, isin() comprueba si los valores de una columna coinciden con alguno de los valores de otra matriz, como una lista o un diccionario.

Podemos utilizar una lista de consolas de videojuegos portátiles para obtener solo las filas de los juegos de una de estas consolas:

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']

print(df[df['platform'].isin(handhelds)][['name', 'platform']])

                                                    name platform

4                               Pokemon Red/Pokemon Blue       GB

5                                                 Tetris       GB

6                                  New Super Mario Bros.       DS

10                                            Nintendogs       DS

11                                         Mario Kart DS       DS

...                                                  ...      ...

16702                           Mezase!! Tsuri Master DS       DS

16703  Eiyuu Densetsu: Sora no Kiseki Material Collec...      PSP

16706                                           Plushees       DS

16710                 Woody Woodpecker in Crazy Castle 5      GBA

16715                                   Spirits & Spells      GBA

[4801 rows x 2 columns]

Desglosemos el código anterior:

df['platform'].isin(handhelds) comprueba si los valores de la columna 
'platform' son iguales a algún valor de la lista handhelds.

df[df['platform'].isin(handhelds)] filtra el DataFrame, manteniendo únicamente las filas que fueron obtenidas a partir de la comprobación de igualdad que realizamos en el primer paso.

Por último, seleccionamos solamente dos columnas del DataFrame filtrado: ['name', 'platform'], descartando el resto de columnas. 

Recuerda que utilizamos corchetes dobles para seleccionar varias columnas, por eso el código anterior tiene [['name', 'platform']].

Podríamos haber realizado el mismo filtrado comprobando si 'platform' era igual a '3DS' o 'DS' o 'GB', etc. Pero usar isin() es mucho más conveniente cuando tenemos muchas condiciones que comprobar; ¡imagínate si queremos comprobar la existencia en una lista con docenas o cientos de valores!

Por cierto, ¿recuerdas el símbolo de la tilde (~), que invierte el resultado? También podemos utilizarlo aquí. Por ejemplo, podemos filtrar el DataFrame original, extrayendo solo las filas en las que los valores de la columna 'platform' no estén en la lista handhelds.

También podemos comprobar la presencia utilizando el método query() con la palabra clave in en nuestro string de consulta.

Vamos a ver cómo funciona para el mismo filtrado mencionado anteriormente:

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']
print(df.query("platform in @handhelds")[['name', 'platform']])
                                                    name platform
4                               Pokemon Red/Pokemon Blue       GB
5                                                 Tetris       GB
6                                  New Super Mario Bros.       DS
10                                            Nintendogs       DS
11                                         Mario Kart DS       DS
...                                                  ...      ...
16702                           Mezase!! Tsuri Master DS       DS
16703  Eiyuu Densetsu: Sora no Kiseki Material Collec...      PSP
16706                                           Plushees       DS
16710                 Woody Woodpecker in Crazy Castle 5      GBA
16715                                   Spirits & Spells      GBA

[4801 rows x 2 columns]

Práctica guiada

Ejercicio 1

Vamos a filtrar para que solo se seleccionen los juegos cuyas ventas en Japón fueron superiores a un millón de dólares.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

print(df.query("jp_sales > 1")[['name', 'jp_sales']])

"""Resultado
                                           name  jp_sales
0                                    Wii Sports      3.77
1                             Super Mario Bros.      6.81
2                                Mario Kart Wii      3.79
3                             Wii Sports Resort      3.28
4                      Pokemon Red/Pokemon Blue     10.22
...                                         ...       ...
1885                              Densha De Go!      1.02
1970                Tag Team Match M.U.S.C.L.E.      1.05
1971                          Derby Stallion 96      1.04
1972                           Adventure Island      1.05
2051  Oshare Majo Love and Berry: DS Collection      1.01

[239 rows x 2 columns]"""

Ejercicio 2

Filtra las filas del DataFrame donde las columnas 'publisher' y 'developer' sean iguales con el método query(). Asigna el resultado a la variable df_filtered y, finalmente, imprime las primeras 5 filas de df_filtered.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

cols = ['name', 'publisher', 'developer']

df_filtered = df.query("publisher == developer")[cols] # escribe tu código aquí
print(df_filtered.head())

"""En tu cadena de consulta, utiliza == para comprobar que las 
columnas 'publisher' y 'developer' son iguales. Utiliza [cols] después 
de query() para seleccionar solo esas columnas. 
Y no olvides imprimir df_filtered, utilizando head() para obtener solo 
las 5 primeras filas."""

"""Resultado
                    name publisher developer
0             Wii Sports  Nintendo  Nintendo
2         Mario Kart Wii  Nintendo  Nintendo
3      Wii Sports Resort  Nintendo  Nintendo
6  New Super Mario Bros.  Nintendo  Nintendo
7               Wii Play  Nintendo  Nintendo"""

Ejercicio 3

Filtra el dataframe df extrayendo solo las filas en las que los valores de la columna 'platform' no estén en la lista handhelds. Para ello deberás usar la palabra clave not in .

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']
print(df.query('platform not in @handhelds')[['name', 'platform']])
# Escribe tu código aquí

Ejercicio 1

Imprime una lista de todos los géneros únicos en el conjunto de datos llamando al método unique() en la columna 'genre'.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

print(df['genre'].unique())# escribe tu código aquí

"""Resultado
['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy']"""

Ejercicio 2

Tenemos dos variables en el precódigo:

cols, que contiene las columnas de nuestro interés: 'name' y 'genre'
s_genres que es una lista de géneros que empiezan por la letra "S".
Tu objetivo es utilizar el método isin() con la lista proporcionada s_genres para filtrar el DataFrame df de forma que solo se mantengan las filas en las que el género del juego no empiece por la letra "S".

Cuando se filtran, utiliza la variable cols para seleccionar solo las columnas 'name' y 'genre' y asigna el resultado a una variable llamada df_filtered. Después muéstralo.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

cols = ['name', 'genre']
s_genres = ['Shooter', 'Simulation', 'Sports', 'Strategy']

df_filtered = df[~df['genre'].isin(s_genres)][cols]
# escribe tu código aquí
print(df_filtered)

"""Llama a isin() en la columna 'genre' y pásale s_genres como entrada. 
Para buscar valores que no están en la lista, utiliza el símbolo ~. 
Utiliza [cols] después de filtrar para seleccionar solo las columnas 'name' 
y 'genre', y luego imprime df_filtered."""

"""Resultado
                                                   name         genre
1                                     Super Mario Bros.      Platform
2                                        Mario Kart Wii        Racing
4                              Pokemon Red/Pokemon Blue  Role-Playing
5                                                Tetris        Puzzle
6                                 New Super Mario Bros.      Platform
...                                                 ...           ...
16710                Woody Woodpecker in Crazy Castle 5      Platform
16711  SCORE International Baja 1000: The Official Game        Racing
16712                     Samurai Warriors: Sanada Maru        Action
16714                           Haitaka no Psychedelica     Adventure
16715                                  Spirits & Spells      Platform

[11489 rows x 2 columns]"""

Ejercicio 3

Vuelve a filtrar todos los géneros que no empiezan por "S", pero esta vez hazlo con el método query(). Para hacerlo, tendrás que utilizar la palabra clave not in en tu cadena de consulta. Utiliza cols para seleccionar solo las columnas 'name' y 'genre' y asigna el resultado a una variable llamada df_filtered. Después muéstralo.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

cols = ['name', 'genre']
s_genres = ['Shooter', 'Simulation', 'Sports', 'Strategy']

df_filtered = df.query("genre not in @s_genres")[cols]
print(df_filtered)# escribe tu código aquí
#print(df.query('platform not in @handhelds')[['name', 'platform']])
"""Llama al método query() de df y pásale tu cadena de consulta. 
La cadena de consulta correcta debe incluir not in y el símbolo @ delante 
de s_genres. Selecciona solo las columnas 'name' y 'genre', y luego 
imprime df_filtered."""

"""Resultado
                                                   name         genre
1                                     Super Mario Bros.      Platform
2                                        Mario Kart Wii        Racing
4                              Pokemon Red/Pokemon Blue  Role-Playing
5                                                Tetris        Puzzle
6                                 New Super Mario Bros.      Platform
...                                                 ...           ...
16710                Woody Woodpecker in Crazy Castle 5      Platform
16711  SCORE International Baja 1000: The Official Game        Racing
16712                     Samurai Warriors: Sanada Maru        Action
16714                           Haitaka no Psychedelica     Adventure
16715                                  Spirits & Spells      Platform

[11489 rows x 2 columns]"""