Contar valores ausentes

Teoría

En las próximas lecciones, trabajaremos con un conjunto de datos de marketing de una empresa de comercio electrónico. Los datos están en un archivo CSV llamado visit_log.csv y cada fila representa una visita al sitio web de una empresa. Hay cuatro columnas:

'user_id': identificador único para cada persona que visita el sitio web.

'source': fuente de tráfico de la visita al sitio web. Aquí nos interesan tres categorías para la fuente:

Visitas desde enlaces de marketing por correo electrónico: 'email'

Visitas de anuncios contextuales en línea: 'context'

Visitas de cualquier otra fuente: 'other'
'email': dirección de correo electrónico encriptada asociada con la persona que visita el sitio.

'purchase': indica si la persona compró algo en esa visita (1 en caso afirmativo, 0 en caso negativo).

Tu objetivo es determinar la tasa de conversión para cada fuente, que es la proporción de visitas en las que se realizó una compra con respecto al número total de visitas en general. Comparar la tasa de conversión para cada fuente te permitirá determinar cuál de ellas genera la mayor cantidad de ventas.

Pero antes de profundizar en los cálculos, necesitamos revisar el conjunto de datos para buscar valores ausentes y decidir qué hacer con ellos.

Contar los valores ausentes con value_counts()
En vez de sumar los valores obtenidos con isna(), podemos contar los valores ausentes con el método value_counts(). Al llamarlo en una sola columna (es decir, un Series), devuelve la cantidad de veces que cada valor único aparece en esa columna.

Este método tiene un parámetro llamado dropna=, que se establece por defecto en True. Esto significa que value_counts() excluirá los valores None o NaN a menos que establezcas dropna=False.

Buscar valores ausentes
Una buena manera de empezar a comprobar los valores ausentes es llamar al método info() de tu DataFrame, tal y como hicimos en el último capítulo.

El método info() imprime el número de valores que no son ausentes en cada columna. Los valores nulos son valores ausentes, mientras que los no nulos son valores no ausentes. Recuerda que info() solo reconocerá valores ausentes "verdaderos" como nulos (None o NaN), mientras que los valores ausentes representados por cualquier otra cosa no se considerarán como ausentes.

Algunos ejemplos de valores ausentes de marcador de posición son el número 0, el string vacío '' u otros strings como 'None' (distinto al tipo None de Python).

Nunca es una mala idea llamar a info() en un nuevo conjunto de datos. 

Resumen

Hay muchas formas de encontrar y contar valores ausentes en pandas. En esta lección aprendiste tres maneras:

Llamar a info() en un DataFrame.
Llamar a isna().sum() en un DataFrame o un Series.
Llamar a value_counts(dropna=False) en un Series.

Práctica guiada

Nunca es una mala idea llamar a info() en un nuevo conjunto de datos. Echemos un vistazo a nuestro DataFrame de registros de visitantes, el cual hemos asignado a una variable llamada df_logs.

In [None]:
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

print(df_logs.info())# escribe tu código aquí

"""Resultado
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   user_id   200000 non-null  int64 
 1   source    198326 non-null  object
 2   email     13953 non-null   object
 3   purchase  200000 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 6.1+ MB
None"""

Aunque info() señala que tenemos valores ausentes, si nuestro objetivo es contar valores ausentes, entonces hay una mejor opción: el método isna().

In [None]:
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs.isna().sum())# escribe tu código aquí)

"""Resultado
user_id          0
source        1674
email       186047
purchase         0
dtype: int64"""

Veamos otra forma de encontrar los valores ausentes. Usemos value_counts() pero agreguemos el parámetro dropna=False.

In [None]:
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs['source'].value_counts(dropna=False))

"""Resultado
other      133834
context     52032
email       12279
NaN          1674
undef         181
Name: source, dtype: int64"""

Actividad práctica

Ejercicio 1

Ahora aplica el método value_counts() a la columna 'email' y almacena el resultado en la variable email_values. Esta vez, no incluyas los valores ausentes en la salida. Imprime el resultado.

In [None]:
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

email_values = df_logs['email'].value_counts(dropna=True) #y escribe tu código aquí

print(email_values)# escribe tu código aquí)

"""Resultado
4526cc437a    9
410a2a3c23    9
17c4fb26f9    8
9f0e835d13    7
125073f731    7
             ..
a4b09e2a3d    1
19a83748b6    1
911179cee8    1
dcda951cad    1
a04e9e53e1    1
Name: email, Length: 6062, dtype: int64"""

Ejercicio 2

Ahora intentemos ordenar los resultados por índice en lugar de valores para ver si se añade algún significado a los valores de la columna 'email'. Vuelve a escribir la variable email_values utilizando la ordenación e imprime el resultado.

In [None]:
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

email_values = df_logs['email'].value_counts()
email_values = df_logs['email'].value_counts()# escribe tu código aquí

print(email_values.sort_index())

"""Resultado
000b6d0fb5    3
000eb3c3df    4
0017c0065d    4
001c287e32    6
002020511f    1
             ..
ff953ec581    1
ffa51139e7    2
ffcef1ce43    2
ffe64c4d89    5
fffc7f0482    1
Name: email, Length: 6062, dtype: int64"""