# **Contar Valores ausentes**

En las próximas lecciones, trabajaremos con un conjunto de datos de marketing de una empresa de comercio electrónico. Los datos están en un archivo CSV llamado visit_log.csv y cada fila representa una visita al sitio web de una empresa. Hay cuatro columnas:

- 'user_id': identificador único para cada persona que visita el sitio web.
- 'source': fuente de tráfico de la visita al sitio web. Aquí nos interesan tres categorías para la fuente:
Visitas desde enlaces de marketing por correo electrónico: 'email'

Visitas de anuncios contextuales en línea: 'context'

Visitas de cualquier otra fuente: 'other'
- 'email': dirección de correo electrónico encriptada asociada con la persona que visita el sitio.
- 'purchase': indica si la persona compró algo en esa visita (1 en caso afirmativo, 0 en caso negativo).

Tu objetivo es determinar la tasa de conversión para cada fuente, que es la proporción de visitas en las que se realizó una compra con respecto al número total de visitas en general. Comparar la tasa de conversión para cada fuente te permitirá determinar cuál de ellas genera la mayor cantidad de ventas.

Pero antes de profundizar en los cálculos, necesitamos revisar el conjunto de datos para buscar valores ausentes y decidir qué hacer con ellos.


### **BUSCAR VALORES AUSENTES**

- **USAR EL MÉTODO INFO YA QUE TE DA LA INFORMACIÓN DE LOS NO SON AUSENTES, POR LO TANTO, TENDRÁS POR DESCARTE LOS AUSENTES**

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

print(df_logs.info())

# RESULTADO =============================

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   user_id   200000 non-null  int64 
 1   source    198326 non-null  object
 2   email     13953 non-null   object
 3   purchase  200000 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 6.1+ MB
None
```

- **PERO TAMBIEN PUEDES UTILIZAR ISNULL().SUM()**

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs.isnull().sum())

#RESULTADO====================================================

user_id          0
source        1674
email       186047
purchase         0
dtype: int64
```

### **Contar los valores ausentes con value_counts()**

En vez de sumar los valores obtenidos con isna(), podemos contar los valores ausentes con el método value_counts(). Al llamarlo en una sola columna (es decir, un Series), devuelve la cantidad de veces que cada valor único aparece en esa columna.

Este método tiene un parámetro llamado dropna=, que se establece por defecto en True. Esto significa que value_counts() excluirá los valores None o NaN a menos que establezcas dropna=False.

Utilicémoslo en la columna 'source' de nuestro DataFrame, asegurándonos de incluir los valores ausentes:

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs['source'].value_counts(dropna = False))

#Resultado===================================================
other      133834
context     52032
email       12279
NaN          1674
undef         181
Name: source, dtype: int64

#Ahora tenemos un recuento de todos esos valores de NaN.
```

Como puedes ver, cuando imprimimos df_logs['source'].value_counts(dropna=False), la salida se ordena en orden descendente según el recuento de cada valor. Alternativamente, podemos ordenar la salida alfabéticamente según los nombres de los valores. Para hacerlo, podemos utilizar el método sort_index().

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs['source'].value_counts(dropna=False).sort_index())

#RESULTADO =================================
source
context     52032
email       12279
other      133834
undef         181
NaN          1674
Name: count, dtype: int64

```


## **Resumen**

Hay muchas formas de encontrar y contar valores ausentes en pandas. En esta lección aprendiste tres maneras:
- Llamar a info() en un DataFrame.
- Llamar a isna().sum() en un DataFrame o un Series.
- Llamar a value_counts(dropna=False) en un Series.

### Ejercicios

**Ejercicio 1**

Ahora aplica el método value_counts() a la columna 'email' y almacena el resultado en la variable email_values. Esta vez, no incluyas los valores ausentes en la salida. Imprime el resultado.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

email_values = df_logs['email'].value_counts()

print(email_values)

#Resultado============================

4526cc437a    9
410a2a3c23    9
17c4fb26f9    8
5a4c033120    7
33f8a3d521    7
             ..
05d06bf263    1
5e66f8634e    1
35264deaa4    1
fad76d6955    1
7516495ced    1
Name: email, Length: 6062, dtype: int64

#Ahora vemos cómo quedan los valores de la columna 'email'. ¡Hay muchos! Parece que no es el mejor enfoque para examinar los valores ausentes en esta columna. Y sin embargo, ¡no está de más saberlo!
```

**Ejercicio 2**

Ahora intentemos ordenar los resultados por índice en lugar de valores para ver si se añade algún significado a los valores de la columna 'email'. Vuelve a escribir la variable email_values utilizando la ordenación e imprime el resultado.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

email_values = df_logs['email'].value_counts()
email_values = email_values.sort_index()

print(email_values)

#Resultado====================================
000b6d0fb5    3
000eb3c3df    4
0017c0065d    4
001c287e32    6
002020511f    1
             ..
ff953ec581    1
ffa51139e7    2
ffcef1ce43    2
ffe64c4d89    5
fffc7f0482    1
Name: email, Length: 6062, dtype: int64

#Hasta ahora nada de información valiosa. Somos detectives de los datos. Es mejor intentarlo y fallar que no intentarlo del todo.

```

## **FILTRAR DATAFRAMES CON NaNs**

```python
print(df_logs[df_logs['source'].isna()]) 

#Resultado
                     user_id source       email  purchase
22      1397217221    NaN  79ac569f0b         0
49      5062457902    NaN  9ddce3a861         0
171     6724868284    NaN  c0e48c7cf8         0
258     3221384063    NaN  7fe8da1823         0
379     7515782311    NaN  462462af10         0
...            ...    ...         ...       ...
199342  3439213943    NaN  7edda4e2a4         0
199661  9473123762    NaN  3535509f51         0
199689   722485056    NaN  470ffa3800         0
199709  5950023506    NaN  0fb749d485         0
199758  3747926428    NaN  604850216f         0

[1674 rows x 4 columns]
```

Vamos a desglosar esta línea de código:

- Extraemos la columna 'source' utilizando df_logs['source']
- A continuación, le aplicamos el método isna() para obtener una serie de booleanos que indican la ausencia de valores: df_logs['source'].isna()
- Utilizamos esta serie de booleanos para filtrar el DataFrame original, extrayendo solamente las filas en las que 'source' no tiene valores ausentes.
- Por último, imprimimos la tabla resultante.

Otra opción es filtrar el DataFrame y extraer sólo las filas en las que no falte 'source'. El enfoque que utilizamos anteriormente funcionará con una única modificación menor:

### **Múltiples condiciones de filtrado**

Podemos filtrar un DataFrame a partir de múltiples condiciones. Por ejemplo, para crear un DataFrame que no tenga valores ausentes en la columna 'email' y solo el valor 'email' en la columna 'source', podemos emplear el siguiente código:


```python
 print(df_logs[(~df_logs['email'].isna()) & (df_logs['source'] == 'email')])

 #Resultado ============================================
                      user_id source       email  purchase
1       5644686960  email  c129aa540a         0
11      8623045648  email  d6d19c571c         0
18      5739438900  email  19379ee49c         0
19      7486955288  email  09c27794fa         0
33      7298923004  email  1fe184ed73         0
...            ...    ...         ...       ...
199922  4075894991  email  2c9a202435         0
199958  9794381984  email  85712b433a         0
199970  3396355438  email  4bba3fde78         0
199979  5008169696  email  e5128e15fd         0
199989  9470921783  email  3977de6aaa         0

[12279 rows x 4 columns]
```

El código de filtrado anterior consta de dos partes:

- (~df_logs['email'].isna()) devuelve una serie de booleanos donde True indica que no falta ningún valor en la columna 'email'.
- (df_logs['source'] == 'email') devuelve una serie de booleanos, donde True indica que 'source' tiene 'email' como valor, y False indica lo contrario.
- Comprobamos dos series de booleanos para ver dónde ambas condiciones devuelven True. Utilizamos el símbolo & para representar el operador lógico and. Las filas que cumplen ambas condiciones (es decir, que cumplen la primera condición y la segunda) se incluyen en el resultado final.

## **EJERCICIOS**

**Ejercicio 1**

Anteriormente determinamos que la columna 'email' tiene 13 953 valores no ausentes. ¡Eso significa que más del 90% de los datos están ausentes! Filtra el DataFrame df_logs para que solo contenga filas donde no haya valores ausentes en la columna 'email'. Asigna el resultado filtrado a una variable llamada df_emails, luego imprime las primeras 10 filas.

Para comprobar si una condición no es verdadera al filtrar un DataFrame, precede la condición con el carácter ~ (por ejemplo, df[~df.method()]).

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

df_emails = df_logs[~df_logs['email'].isna()]
print(df_emails.head(10))

#RESULTADO ======================================

       user_id source       email  purchase
1   5644686960  email  c129aa540a         0
11  8623045648  email  d6d19c571c         0
18  5739438900  email  19379ee49c         0
19  7486955288  email  09c27794fa         0
22  1397217221    NaN  79ac569f0b         0
33  7298923004  email  1fe184ed73         0
43  6034222291  email  fb58a27f03         0
49  5062457902    NaN  9ddce3a861         0
56  5690036640  email  a088a48182         0
66  9963049355  email  9cc43ebd15         0 

#Ahora solo tienes filas donde hay una dirección de correo electrónico asociada con la visita. ¡Combinar ~ con isna() es una excelente manera de filtrar las filas con valores ausentes!
```

**Ejercicio 2**

La columna 'source' muestra que muchas de estas visitas procedían de enlaces de correo electrónico de marketing. Pero también hay algunos valores NaN. Es posible que las visitas con una dirección de correo electrónico, pero sin un valor 'source', también provengan de enlaces de marketing por correo electrónico, pero que la fuente no se haya registrado.

Comprueba si hay filas con valores ausentes en las columnas 'source' y 'email'. Si no hay ninguna fila en la que ambas condiciones sean verdaderas, entonces es una buena señal de que los valores ausentes en la columna 'source' deberían ser 'email'.

Filtra df_logs en la condición donde las columnas 'email' y 'source' tienen valores ausentes. Asigna el resultado a una variable llamada df_emails y luego imprímelo.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

df_emails = df_logs[df_logs['email'].isna() & df_logs['source'].isna()]
print(df_emails)

#Resultado =======================================

Empty DataFrame
Columns: [user_id, source, email, purchase]
Index: []

#¡El DataFrame filtrado está vacío! Eso significa que no hay filas en las que 'source' y 'email' tengan valores ausentes.
```

### **Rellenar los valores categóricos ausentes**

Los valores NaN en la columna 'email' sustituyen a las direcciones de correo electrónico de los usuarios y las usuarias que no se suscribieron al boletín de la tienda. Ya que no hay forma de averiguar sus direcciones de correo electrónico, no podemos rellenar manualmente los valores ausentes con datos significativos.

Pero podemos rellenarlos con un valor por defecto para representar los correos electrónicos ausentes. Sustituyamos los valores ausentes en la columna 'email' por la cadena vacía '' como valor por defecto.

- Utiliza el método fillna() para sustituir los valores ausentes en 'email' por cadenas vacías.
- Imprime las cinco primeras filas del DataFrame.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

# Rellenar NaN en la columna 'email' con espacio en blanco
df_logs['email'].fillna(value='', inplace=True)

# Imprimir la cabecera del DataFrame después de reemplazar
print(df_logs.head())

#Resultado ========================

      user_id   source       email  purchase
0  7141786820    other                     0
1  5644686960    email  c129aa540a         0
2  1914055396  context                     0
3  4099355752    other                     0
4  6032477554  context                     1
```

## **El parámetro keep_default_na=**

Si observas los datos de texto sin procesar en el archivo visit_log.csv, encontrarás que los valores ausentes están representados por la ausencia de texto. En otras palabras, la ausencia de texto en visit_log.csv se interpreta como NaN. Consulta el archivo CSV en la pestaña de la lección.

Pero podemos hacer que read_csv() lea la ausencia de texto como cadenas vacías en lugar de NaN, configurando el parámetro keep_default_na= en False. Probémoslo en nuestro conjunto de datos:

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

print(df_logs.head())
print()
df_logs.info()

#Resultado ==========================

      user_id   source       email  purchase
0  7141786820    other                     0
1  5644686960    email  c129aa540a         0
2  1914055396  context                     0
3  4099355752    other                     0
4  6032477554  context                     1

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   user_id   200000 non-null  int64 
 1   source    200000 non-null  object
 2   email     200000 non-null  object
 3   purchase  200000 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 6.1+ MB
```

¡Genial! ¡Ahora vamos a arreglar nuestros valores ausentes!
- Utiliza replace() para reemplazar los valores ausentes en la columna 'source' por la cadena 'email'.
- Verifica tu trabajo llamando al método unique() en la columna 'source' e imprime los resultados.

```python
#ANTES EL CÓDIGO ERA ASI

#import pandas as pd

#df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

#df_sources = df_logs['source'].unique()
#print(df_sources)

#Resultado========================
#['other' 'email' 'context' '' 'undef']

```
```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

df_logs['source'] = df_logs['source'].replace('','email')

print(df_logs['source'].unique())

Resultado==============
['other' 'email' 'context' 'undef']
```

# **Ejercicios**

**Ejercicio 1**

Para calcular la tasa de conversión de cada fuente de tráfico, primero determina cuántas visitas hubo de cada fuente.

Para encontrar el número total de visitas de cada fuente de tráfico, utiliza groupby() para agrupar los datos por la columna 'source', luego cuenta el número de valores en la columna 'user_id' del DataFrame agrupado. Asigna el resultado en la variable visits y luego imprímelo.

El precódigo ya contiene el trabajo que realizaste para rellenar los valores ausentes.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)
df_logs['source'] = df_logs['source'].replace('', 'email')

visits = df_logs.groupby('source')['user_id'].count()
print(visits)

#Resultado=============
source
context     52032
email       13953
other      133834
undef         181
Name: user_id, dtype: int64

#La mayor fuente de tráfico es aparentemente "other" (otros). Misterioso…
```

**Ejercicio 2**

A continuación, determina el número de visitas en las que se realizó una compra para cada fuente, calculando la suma de la columna 'purchase' para cada grupo de fuente. Posteriormente, asigna los resultados a la variable purchases e imprímelos.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)
df_logs['source'] = df_logs['source'].replace('', 'email')

purchases = df_logs.groupby('source')['purchase'].sum()
print(purchases)

#Resultado======================
source
context    3029
email      1021
other      8041
undef        12
Name: purchase, dtype: int64

#"Otros" también se las arregló para conseguir el mayor número de compras.
```