Reemplazo de valores con where()

Teoría

Normalmente, filtramos los datos porque las preguntas a las que queremos dar respuesta solo afectan a un subconjunto de los datos. A menudo, queremos procesar los datos filtrados como parte de nuestro análisis exploratorio de datos (EDA). Cuando el procesamiento de nuestros datos implica la modificación de los valores de las columnas, podemos utilizar el método where() para filtrar y modificar al mismo tiempo, de modo que solo cambiemos los valores bajo ciertas condiciones.

Para entender where(), vamos a compararlo con el método replace() que aprendiste en el curso de Python básico. Supongamos que queremos cambiar todos los valores 'NES' de la columna 'platform' por el nombre completo, 'Nintendo Entertainment System'. Podemos hacerlo con replace():

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

df['platform'] = df['platform'].str.replace('NES', 'Nintendo Entertainment System')

# mostrando únicamente las primeras 2 columnas
print(df.iloc[:, :2].head())

                       name                       platform
0                Wii Sports                            Wii
1         Super Mario Bros.  Nintendo Entertainment System
2            Mario Kart Wii                            Wii
3         Wii Sports Resort                            Wii
4  Pokemon Red/Pokemon Blue                             GB

Llamamos a where() en la columna 'platform' y le pasamos dos argumentos de posición:

La condición lógica: df['platform'] != 'NES'. Como sabemos, comprueba todos los valores de la columna 'platform' y devuelve True para las filas en las que 'NES' NO es un valor, y False en caso contrario. La salida es una serie de booleanos.
Un nuevo valor para reemplazar los valores de 'platform' para los que la condición lógica es False.
El método where() comprueba la condición para cada valor de la columna. Si la condición es True, where() no hace nada; si es False, where() sustituye el valor actual por el nuevo.

También podemos utilizar where() para modificar más de una columna a la vez. Antes de mostrarte cómo funciona, vamos a poner a prueba tu comprensión de where() en el siguiente quiz.

Pregunta

¿Qué condición lógica pasarías a where() para cambiar los valores de las columnas solo cuando tanto 'na_sales' como 'eu_sales' son igual o menor que cero? No olvides que where() sustituye los valores solo cuando la expresión es False.

(df['na_sales'] > 0) | (df['eu_sales'] > 0)

Esto es correcto. Obtendremos False solamente cuando ambas, (df['na_sales'] > 0) y (df['eu_sales'] > 0), devuelvan False. Cuando este es el caso, toda la expresión resulta en False. Si es False, where() reemplaza el valor actual por el nuevo.

(df['na_sales'] != 0) & (df['eu_sales'] != 0)

(df['na_sales'] > 0) & (df['eu_sales'] > 0)

(df['na_sales'] == 0) | (df['eu_sales'] == 0)

¡Lo has entendido bien!

La cantidad de ventas regionales de 0 tanto en Norteamérica como en Europa probablemente signifique que el juego nunca salió a la venta fuera de Japón, por lo que queremos sustituir estos valores de 0 por el valor nulo None en esas columnas solo cuando ambas columnas son cero ('na_sales' y 'eu_sales'). 

Podemos utilizar la condición de filtrado del quiz para hacerlo con where():

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

df[['na_sales', 'eu_sales']] = df[['na_sales', 'eu_sales']].where((df['na_sales'] > 0) | (df['eu_sales'] > 0), None)
print(df[['name', 'na_sales', 'eu_sales']])

name  na_sales  eu_sales
0                         Wii Sports     41.36     28.96
1                  Super Mario Bros.     29.08      3.58
2                     Mario Kart Wii     15.68     12.76
3                  Wii Sports Resort     15.61     10.93
4           Pokemon Red/Pokemon Blue     11.27      8.89
...                              ...       ...       ...
16712  Samurai Warriors: Sanada Maru       NaN       NaN
16713               LMA Manager 2007       NaN       NaN
16714        Haitaka no Psychedelica       NaN       NaN
16715               Spirits & Spells       NaN       NaN
16716            Winning Post 8 2016       NaN       NaN

[16717 rows x 3 columns]

Para cambiar los valores de ambas columnas, tuvimos que llamar a where() en df[['na_sales', 'eu_sales']]. Ten en cuenta que where() funciona aquí solo porque el valor que queremos utilizar para el reemplazo (es decir, None) es el mismo para ambas columnas.

Ahora vamos a ver cómo funciona el método where() cuando necesitamos comprobar la inclusión. Hemos observado que algunos editores de la columna 'publishers' aparecen raramente, como 'Red Flagship', 'Max Five' y '989 Sports'. Aunque en realidad hay muchos más, en aras de la simplicidad, vamos a centrarnos en estos tres. Queremos sustituir estos editores por el valor 'other'. Así es como podemos hacerlo utilizando el método where():

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

rare_publishers = ['Red Flagship', 'Max Five', '989 Sports']
df['publisher'] = df['publisher'].where(~df['publisher'].isin(rare_publishers), 'other')

print(df[df['publisher'] == 'other'].iloc[:,1:5])

            platform  year_of_release         genre publisher
5038        PS           1999.0        Sports     other
13365       PS           2001.0  Role-Playing     other
16646      PSV           2016.0        Action     other

Ten en cuenta que pasamos ~df['publisher'].isin(rare_publishers) como condición. Es porque queremos obtener False para las filas en las que los editores están en la lista rare_publisher, para poder reemplazarlos.

Práctica guiada

Ejercicio 1

Algunos géneros del dataset no están bien representados. Queremos combinar los géneros menos representados en la categoría miscelánea, sustituyendo sus valores por 'Misc'.

Para empezar, cuenta cuántas veces aparece cada valor de la columna 'genre' llamando al método value_counts() e imprimiendo los resultados en orden ascendente.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

print(df['genre'].value_counts(ascending=True))# escribe tu código aquí

"""Resultado
Puzzle           580
Strategy         683
Fighting         849
Simulation       874
Platform         888
Racing          1249
Adventure       1303
Shooter         1323
Role-Playing    1500
Misc            1750
Sports          2348
Action          3370
Name: genre, dtype: int64"""

Ejercicio 2

Crea una variable llamada genres que contenga una lista de las dos categorías menos representadas del último ejercicio: 'Puzzle' y 'Strategy'. A continuación, utiliza where() para modificar la columna 'genre' de df para que los valores de la lista genres se sustituyan por 'Misc'. El precódigo contiene tu código del último ejercicio que permite imprimir los valores únicos y comprobar el resultado.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

genres = ['Puzzle', 'Strategy'] # escribe tu código aquí
df['genre'] =  df['genre'].where(~df['genre'].isin(genres), 'Misc')# escribe tu código aquí

print(df['genre'].value_counts(ascending=True))

"""Resultado
Fighting         849
Simulation       874
Platform         888
Racing          1249
Adventure       1303
Shooter         1323
Role-Playing    1500
Sports          2348
Misc            3013
Action          3370
Name: genre, dtype: int64"""

Actividad práctica

Ejercicio 1

La gestión del menú de un restaurante es clave para su éxito. El objetivo es categorizar los platillos menos representados en la categoría de "Otros", sustituyendo sus nombres por 'Otros'. Vamos a hacerlo en el próximo ejercicio.

Para empezar, cuenta cuántas veces aparece cada valor de la columna 'platillo' llamando al método value_counts() e imprimiendo los resultados en orden ascendente.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/menu_items.csv')

print(df["platillo"].value_counts(ascending=True))# escribe tu código aquí


"""Resultado
Ensalada    11
Postre      12
Pescado     14
Carnes      21
Sopa        47
Pasta       50
Bebida      80
Name: platillo, dtype: int64"""

Ejercicio 2

Crea una variable llamada platillos que contenga una lista de las dos categorías menos representadas del último ejercicio. A continuación, utiliza where() para modificar la columna 'platillo' de df para que los valores de la lista platillos se sustituyan por 'Otros'. El precódigo contiene tu código del último ejercicio que permite imprimir los valores únicos y comprobar el resultado.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/menu_items.csv')

platillos = ['Ensalada', 'Postre'] # escribe tu código aquí
df['platillo'] = df['platillo'].where(~df['platillo'].isin(platillos), 'Otros') # escribe tu código aquí

print(df['platillo'].value_counts(ascending=True))

"""Asigna una lista con dos elementos ('Ensalada' y 'Postre') a la variable platillos. 
Luego llama a where() en la columna 'platillo' de df. 
La condición lógica debe utilizar el método isin() para comprobar que 
los valores no están en la lista platillos, y el valor de reemplazo 
debe ser 'Otros'. No olvides asignar el resultado a df['platillo']."""

"""Resultado
Pescado    14
Carnes     21
Otros      23
Sopa       47
Pasta      50
Bebida     80
Name: platillo, dtype: int64"""