Filtrado por condiciones múltiples

Teoría

En este capítulo has aprendido un montón de nuevas habilidades de filtrado, pero hasta ahora solo hemos filtrado por condiciones individuales. Sin embargo, a menudo queremos realizar un filtrado más complejo basado en más de una condición lógica. En esta lección, aprenderemos algunas formas de hacerlo.

Operadores lógicos

Ya tienes experiencia combinando condiciones lógicas gracias al sprint de Python Básico. Vamos a repasar esas habilidades rápidamente.

Pregunta

¿Qué línea de código devolverá un valor booleano que comprueba si la variable x está entre 1 y 10, ambos inclusive?

x >=1, x <=10

x > 0 and x < 11

x >= 1 or x <= 10

*x <= 10 and x >= 1
¡Sí! No importa en qué orden pongamos las declaraciones lógicas en este caso.

¡Bien hecho!

¡Buen trabajo! También podemos filtrar los DataFrames de pandas a partir de múltiples condiciones, pero la sintaxis es un poco diferente. No podemos utilizar operadores lógicos como and, or o not en nuestras expresiones de filtrado. En su lugar, debemos utilizar sus equivalentes en cuanto a bits: &, | y ~, respectivamente. 

Volvamos a nuestro dataset de ventas de videojuegos.

Supongamos que queremos ver todos los juegos de Wii que no son de deportes:

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

print(df[(df['platform'] == 'Wii') & ~(df['genre'] == 'Sports')].head())

                         name platform  year_of_release     genre publisher  \
2              Mario Kart Wii      Wii           2008.0    Racing  Nintendo   
7                    Wii Play      Wii           2006.0      Misc  Nintendo   
8   New Super Mario Bros. Wii      Wii           2009.0  Platform  Nintendo   
39    Super Smash Bros. Brawl      Wii           2008.0  Fighting  Nintendo   
49         Super Mario Galaxy      Wii           2007.0  Platform  Nintendo   

    developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
2    Nintendo     15.68     12.76      3.79          82.0         8.3  
7    Nintendo     13.96      9.18      2.93          58.0         6.6  
8    Nintendo     14.44      6.94      4.70          87.0         8.4  
39  Game Arts      6.62      2.55      2.66          93.0         8.9  
49   Nintendo      6.06      3.35      1.20          97.0         8.9

Hay tres componentes importantes en nuestra condición de filtrado (df['platform'] == 'Wii') & ~(df['genre'] == 'Sports'):

Cada condición individual está separada por paréntesis.
Se utiliza el operador & en lugar de and
Se utiliza el operador ~ en lugar de not (y precede a la condición que queremos negar).

Ahora exploremos una condición “or” obteniendo todos los juegos que superaron el millón de dólares en ventas en al menos una de las tres regiones:

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

print(df[(df['na_sales'] >= 1) | (df['eu_sales'] >= 1) | (df['jp_sales'] >= 1)].head())

                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN
Hemos comprobado las ventas en las 3 regiones: na, eu y jp. Otra vez, cada condición individual está separada por paréntesis, y usamos el operador | en lugar de or.

Ahora vamos a practicar con una condición de filtrado más compleja.

Pregunta

¿Qué condición de filtrado podemos aplicar a df para mantener solo las filas en las que 'user_score' o bien 'critic_score' sea igual o superior al 90% y 'genre' sea 'Role-Playing', 'Strategy' o 'Puzzle'?

(df['critic_score'] >= 90) | (df['user_score'] >= 9) & (df['genre'].isin(['Role-Playing', 'Strategy', 'Puzzle']))

*((df['critic_score'] >= 90) | (df['user_score'] >= 9)) & (df['genre'].isin(['Role-Playing', 'Strategy', 'Puzzle']))
¡Sí!

(df['critic_score'] >= 90) or (df['user_score'] >= 9) and (df['genre'].isin(['Role-Playing', 'Strategy', 'Puzzle']))

((df['critic_score'] >= 90) or (df['user_score'] >= 9)) and (df['genre'].isin(['Role-Playing', 'Strategy', 'Puzzle']))

¡Perfecto!

Condiciones múltiples con query()
También podemos filtrar por múltiples condiciones escribiendo cadenas de consulta para el método query(). Vamos a filtrar para obtener solo los juegos de Wii que no sean deportivos, pero esta vez con una cadena de consulta:

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

print(df.query("platform == 'Wii' and genre != 'Sports'").head())

                         name platform  year_of_release     genre publisher  \
2              Mario Kart Wii      Wii           2008.0    Racing  Nintendo   
7                    Wii Play      Wii           2006.0      Misc  Nintendo   
8   New Super Mario Bros. Wii      Wii           2009.0  Platform  Nintendo   
39    Super Smash Bros. Brawl      Wii           2008.0  Fighting  Nintendo   
49         Super Mario Galaxy      Wii           2007.0  Platform  Nintendo   

    developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
2    Nintendo     15.68     12.76      3.79          82.0         8.3  
7    Nintendo     13.96      9.18      2.93          58.0         6.6  
8    Nintendo     14.44      6.94      4.70          87.0         8.4  
39  Game Arts      6.62      2.55      2.66          93.0         8.9  
49   Nintendo      6.06      3.35      1.20          97.0         8.9

Mira cómo lo conseguimos anteriormente:

print(df[(df['platform'] == 'Wii') & ~(df['genre'] == 'Sports')].head())

Y ahora, para conectar las dos condiciones, solo tenemos que incluir la palabra clave and en nuestro string de consulta. ¿Acaso esto no es más natural y sencillo que crear la máscara booleana? Tampoco necesitamos separar nuestras condiciones con paréntesis aquí, aunque está bien (y a veces es necesario) incluir paréntesis en el string de consulta para mayor claridad. 

Práctica guiada

Ejercicio 1

Sigamos trabajando el vg_sales dataset. Tu objetivo es filtrar de tal forma la información que solo te quedes con los juegos que fueron lanzados en la década de los 80. Asigna el resultado a una variable llamada df_filtered y luego imprime las primeras 5 filas.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

df_filtered = df[(df['year_of_release'] >= 1980) & (df['year_of_release'] < 1990)]
print(df_filtered.head())

"""   name platform  year_of_release     genre publisher  \
1     Super Mario Bros.      NES           1985.0  Platform  Nintendo   
5                Tetris       GB           1989.0    Puzzle  Nintendo   
9             Duck Hunt      NES           1984.0   Shooter  Nintendo   
21     Super Mario Land       GB           1989.0  Platform  Nintendo   
22  Super Mario Bros. 3      NES           1988.0  Platform  Nintendo   

   developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
1        NaN     29.08      3.58      6.81           NaN         NaN  
5        NaN     23.20      2.26      4.22           NaN         NaN  
9        NaN     26.93      0.63      0.28           NaN         NaN  
21       NaN     10.83      2.71      4.18           NaN         NaN  
22       NaN      9.54      3.44      3.84           NaN         NaN"""

Ejercicio 2

Recordemos otro tipo de filtrado que realizamos, en el que solo tomamos las filas que superaban el millón de dólares en ventas en al menos una de las tres regiones. Realiza el mismo filtrado, pero en esta ocasión utiliza query(). 

Asigna tu string de consulta a una variable llamada q_string, luego imprime las primeras 5 filas del resultado de llamar a query() en df con q_string como entrada.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

q_string = "na_sales >= 1 or eu_sales >= 1 or jp_sales >= 1"
print(df.query(q_string).head())

"""     name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN"""

Actividad práctica

Ejercicio 1

Para completar este ejercicio, tendrás que aplicar tus habilidades de filtrado. La variable developers contiene una lista de empresas. Filtra el DataFrame df para que solo incluya los juegos que cumplan las siguientes condiciones:

Se vende en las 3 regiones (América del Norte, Europa y Japón).
Las ventas en Japón fueron mayores que las ventas combinadas de Norteamérica y Europa.
El equipo de desarrollo del juego es una de las empresas de la lista developers.
Recomendamos crear una cadena de consulta y asignarla a una variable llamada q_string. A continuación, utiliza esta variable para realizar el filtrado.

Es importante señalar que no hay ninguna columna que diga explícitamente si un juego se vendió en cada región, pero se puede deducir que un juego no se vendió en una región si sus ventas son 0 para esa región.

Utiliza la variable cols para seleccionar solo las columnas 'name', 'developer', 'na_sales', 'eu_sales', y 'jp_sales' del DataFrame filtrado, y asigna el resultado a una variable llamada df_filtered. Imprime el DataFrame completo.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

developers = ['SquareSoft', 'Enix Corporation', 'Square Enix']
cols = ['name', 'developer', 'na_sales', 'eu_sales', 'jp_sales']

q_string = "jp_sales > (na_sales + eu_sales) and jp_sales > 0 and na_sales > 0 and eu_sales > 0 and developer in @developers"
df_filtered = df.query(q_string)[cols]
print(df_filtered)


"""                                                  name    developer  na_sales  \
175                                   Final Fantasy IX   SquareSoft      1.62   
633                              Final Fantasy Tactics   SquareSoft      0.93   
785                                       Parasite Eve   SquareSoft      0.94   
1296                                         Xenogears   SquareSoft      0.29   
1780                              Brave Fencer Musashi   SquareSoft      0.25   
2362              Dissidia 012: Duodecim Final Fantasy  Square Enix      0.21   
2666                                    Unlimited Saga   SquareSoft      0.10   
3029   Final Fantasy Crystal Chronicles: Ring of Fates  Square Enix      0.22   
3433                                    Romancing SaGa  Square Enix      0.06   
3757               Tactics Ogre: Let Us Cling Together  Square Enix      0.15   
4195  Final Fantasy Crystal Chronicles: Echoes of Time  Square Enix      0.12   
4523                                      Dawn of Mana  Square Enix      0.07   
5587                                  Final Fantasy XI  Square Enix      0.08   

      eu_sales  jp_sales  
175       0.77      2.78  
633       0.12      1.34  
785       0.07      1.05  
1296      0.19      0.89  
1780      0.17      0.65  
2362      0.12      0.46  
2666      0.08      0.56  
3029      0.01      0.42  
3433      0.04      0.47  
3757      0.07      0.27  
4195      0.06      0.27  
4523      0.05      0.29  
5587      0.06      0.15"""