# **Contar Valores ausentes**

En las próximas lecciones, trabajaremos con un conjunto de datos de marketing de una empresa de comercio electrónico. Los datos están en un archivo CSV llamado visit_log.csv y cada fila representa una visita al sitio web de una empresa. Hay cuatro columnas:

- 'user_id': identificador único para cada persona que visita el sitio web.
- 'source': fuente de tráfico de la visita al sitio web. Aquí nos interesan tres categorías para la fuente:
Visitas desde enlaces de marketing por correo electrónico: 'email'

Visitas de anuncios contextuales en línea: 'context'

Visitas de cualquier otra fuente: 'other'
- 'email': dirección de correo electrónico encriptada asociada con la persona que visita el sitio.
- 'purchase': indica si la persona compró algo en esa visita (1 en caso afirmativo, 0 en caso negativo).

Tu objetivo es determinar la tasa de conversión para cada fuente, que es la proporción de visitas en las que se realizó una compra con respecto al número total de visitas en general. Comparar la tasa de conversión para cada fuente te permitirá determinar cuál de ellas genera la mayor cantidad de ventas.

Pero antes de profundizar en los cálculos, necesitamos revisar el conjunto de datos para buscar valores ausentes y decidir qué hacer con ellos.


### **BUSCAR VALORES AUSENTES**

- **USAR EL MÉTODO INFO YA QUE TE DA LA INFORMACIÓN DE LOS NO SON AUSENTES, POR LO TANTO, TENDRÁS POR DESCARTE LOS AUSENTES**

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

print(df_logs.info())

# RESULTADO =============================

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   user_id   200000 non-null  int64 
 1   source    198326 non-null  object
 2   email     13953 non-null   object
 3   purchase  200000 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 6.1+ MB
None
```

- **PERO TAMBIEN PUEDES UTILIZAR ISNULL().SUM()**

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs.isnull().sum())

#RESULTADO====================================================

user_id          0
source        1674
email       186047
purchase         0
dtype: int64
```

### **Contar los valores ausentes con value_counts()**

En vez de sumar los valores obtenidos con isna(), podemos contar los valores ausentes con el método value_counts(). Al llamarlo en una sola columna (es decir, un Series), devuelve la cantidad de veces que cada valor único aparece en esa columna.

Este método tiene un parámetro llamado dropna=, que se establece por defecto en True. Esto significa que value_counts() excluirá los valores None o NaN a menos que establezcas dropna=False.

Utilicémoslo en la columna 'source' de nuestro DataFrame, asegurándonos de incluir los valores ausentes:

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs['source'].value_counts(dropna = False))

#Resultado===================================================
other      133834
context     52032
email       12279
NaN          1674
undef         181
Name: source, dtype: int64

#Ahora tenemos un recuento de todos esos valores de NaN.
```

Como puedes ver, cuando imprimimos df_logs['source'].value_counts(dropna=False), la salida se ordena en orden descendente según el recuento de cada valor. Alternativamente, podemos ordenar la salida alfabéticamente según los nombres de los valores. Para hacerlo, podemos utilizar el método sort_index().

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs['source'].value_counts(dropna=False).sort_index())

#RESULTADO =================================
source
context     52032
email       12279
other      133834
undef         181
NaN          1674
Name: count, dtype: int64

```


## **Resumen**

Hay muchas formas de encontrar y contar valores ausentes en pandas. En esta lección aprendiste tres maneras:
- Llamar a info() en un DataFrame.
- Llamar a isna().sum() en un DataFrame o un Series.
- Llamar a value_counts(dropna=False) en un Series.

### Ejercicios

**Ejercicio 1**

Ahora aplica el método value_counts() a la columna 'email' y almacena el resultado en la variable email_values. Esta vez, no incluyas los valores ausentes en la salida. Imprime el resultado.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

email_values = df_logs['email'].value_counts()

print(email_values)

#Resultado============================

4526cc437a    9
410a2a3c23    9
17c4fb26f9    8
5a4c033120    7
33f8a3d521    7
             ..
05d06bf263    1
5e66f8634e    1
35264deaa4    1
fad76d6955    1
7516495ced    1
Name: email, Length: 6062, dtype: int64

#Ahora vemos cómo quedan los valores de la columna 'email'. ¡Hay muchos! Parece que no es el mejor enfoque para examinar los valores ausentes en esta columna. Y sin embargo, ¡no está de más saberlo!
```

**Ejercicio 2**

Ahora intentemos ordenar los resultados por índice en lugar de valores para ver si se añade algún significado a los valores de la columna 'email'. Vuelve a escribir la variable email_values utilizando la ordenación e imprime el resultado.