# Contar valores ausentes

Para contar los valores ausentes se emplea el método `value_conts()`. Al llamarlo en una sola columna (es decir, un Series), devuelve la cantidad de veces que cada valor único aparece en esa columna.

Este método tiene un parámetro llamado `dropna=`, que se establece por defecto en `True`. Esto significa que `value_counts()` excluirá los valores `None` o `NaN` a menos que establezcas `dropna=False`.


```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs['source'].value_counts(dropna=False))
```



# Filtrar DataFrames con NaNs

A veces, puede ser necesario examinar las filas del dataset que contienen valores ausentes. Hay varias formas de filtrar un DataFrame para extraer filas con valores ausentes. Una forma es utilizar el método `isna()`, que genera un Series para cada fila. En este Series, `True` indica un valor ausente y `False` indica un valor no ausente.

Otra opción es filtrar el DataFrame y extraer solo las filas en las que no falte `'source'`. El enfoque que utilizamos anteriormente funcionará con una única modificación menor:

```python
print(df_logs[~df_logs['source'].isna()])

                    user_id   source       email  purchase
0       7141786820    other         NaN         0
1       5644686960    email  c129aa540a         0
2       1914055396  context         NaN         0
3       4099355752    other         NaN         0
4       6032477554  context         NaN         1
...            ...      ...         ...       ...
199995  8714621942    other         NaN         0
199996  6064948744  context         NaN         1
199997  9210683879  context         NaN         0
199998  1629959686    other         NaN         1
199999  2089329795    other         NaN         0

[198326 rows x 4 columns]
```

La única diferencia entre este caso y aquel que nos interesaba por las filas con valores ausentes es la adición del símbolo de tilde `(~)`, que invierte el resultado. Aquí está el desglose de este código:

1. Extraemos la columna `'source'` utilizando `df_logs['source']`.
2. A continuación, le aplicamos el método isna() para obtener una serie de booleanos que indican la ausencia de valores: `df_logs['source'].isna()`.
3. Invertimos la serie utilizando ~. Esto invierte todos los valores True a False y viceversa.
4. Utilizamos esta serie de booleanos para filtrar el DataFrame original, extrayendo solo las filas en las que 'source' no tiene valores ausentes.
5. Por último, imprimimos la tabla resultante.
El operador `~` invierte los valores booleanos generados por isna(). Mientras df`['columna'].isna()` devuelve `True` para valores ausentes, `~df['columna'].isna() `devuelve `True` para valores presentes. Así, puedes filtrar fácilmente filas con o sin valores nulos según lo necesites.

## Ejemplo

En esta ocasión queremos extraer filas en las que la columna 'source' tenga valores ausentes.      

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

print(df_logs[df_logs['source'].isna()])
```

# Ejercicio 1.

Ejercicio 1

Anteriormente determinamos que la columna `'email'` tiene 13 953 valores no ausentes. ¡Eso significa que más del 90% de los datos están ausentes! 

Tu tarea es:

1. Utilizar `isna()` para identificar los valores ausentes en la columna `'email'` del DataFrame `df_logs`.
2. Usar `~` para negar esa condición y obtener las filas donde `'email'` no está ausente.
3. Filtra el DataFrame y guarda el resultado en una nueva variable llamada `df_emails`.
4. Imprime las primeras 10 filas usando `print()`.

Recuerda: para negar una condición al filtrar un DataFrame, puedes anteponer el símbolo `~` a la expresión booleana. Por ejemplo: `df[~df['columna'].isna()]` selecciona las filas donde los valores no están ausentes.

```python

import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
df_emails= df_logs[~df_logs['email'].isna()]
print(df_emails.head(10))

```

# Rellenar los valores categóricos ausentes

## Variables cuantitativas vs. categóricas

Las variables cuantitativas tienen valores numéricos que podemos usar para cálculos aritméticos, por ejemplo, la altura, el peso, la edad y los ingresos. En Python, estos valores tienden a almacenarse como números enteros o flotantes.

Las variables categóricas representan un conjunto de valores posibles que puede tener una observación particular, por ejemplo, el color, la marca y el modelo de un automóvil. En Python, estos valores tienden a almacenarse como cadenas, pero también pueden ser valores booleanos o incluso números enteros.

<img src= "https://practicum-content.s3.amazonaws.com/resources/3.4_ES_1689597473.png">

Se puede emplear está línea de código para indicarle al DataFrame que todos los valores ausentes `NaN` queden como cadena de texto Vacías, se debe tener en cuenta con está instrucción todos lo valores `Nan` se cambiaran por cadenas de texto, por lo que es importante identificar en el DataFrame sean sólo cadenas de texto.

```python
import pandas as pd

df_logs=pd.read_csv('/dataset/visit_log.csv', keep_default_na = False)

print(df_logs.head())
print()
df_logs.info()
````


# Rellenar los valores ausentes cuantitativos

Es importante tener claro cuando emplear la medi ola mediana, la medìa se emplaea sino hay valores atipicos `mean()`, por lo que el resultado va a ser más aproximado a la realidad. Pero si existen valores atipicos lo mejor es usar la mediana `median()`.

Luego de definir que calculo elegir, debemos reemplazar los valores ausentes con la media o la mediana con `fillna()`

## Ejercicio 1


Recuerda que queremos comparar el tiempo promedio que pasan en el sitio web las personas que utilizan dispositivos móviles y de escritorio, luego usaremos esos tiempos promedio para rellenar los valores ausentes.

Para comenzar:

* Filtra el DataFrame original por la columna 'device_type', que indica si la visita se realizó desde un dispositivo móvil o de escritorio.
* Crea dos nuevos DataFrames:
    * Uno con solo las visitas desde dispositivos de escritorio (`'device_type' == 'desktop'`) y  * asígnalo a la variable `desktop_data`.
    * Otro con las visitas desde dispositivos móviles (`'device_type' == 'mobile'`) y asígnalo a la variable mobile_data.

El precódigo ya lee los datos y rellena los valores ausentes de `'age'`. Este también llama a `info()` por ti después de crear tus DataFrames filtrados para que puedas revisar cuántos valores ausentes quedan en `'avg_time_on_site'` para cada tipo de dispositivo.

```python

import pandas as pd

analytics_data = pd.read_csv('/datasets/web_analytics_data.csv')

age_avg = analytics_data['age'].mean()
analytics_data['age'] = analytics_data['age'].fillna(age_avg)

desktop_data = analytics_data[analytics_data['device_type'] == 'desktop']
mobile_data =  analytics_data[analytics_data['device_type'] == 'mobile']

desktop_data.info()
print()
mobile_data.info()
```

## Ejercicio 2

Ejercicio 2

Ahora que los datos de escritorio y móviles están separados, calcula el tiempo medio de visita para cada dispositivo.

Asigna la media del tiempo de visita de los usuarios de escritorio a una variable llamada `desktop_avg` y la media de los usuarios móviles a `mobile_avg`. 

El precódigo ya contiene el código para imprimir tus resultados.

```python
import pandas as pd

analytics_data = pd.read_csv('/datasets/web_analytics_data.csv')

age_avg = analytics_data['age'].mean()
analytics_data['age'] = analytics_data['age'].fillna(age_avg)

desktop_data = analytics_data[analytics_data['device_type'] == 'desktop']
mobile_data =  analytics_data[analytics_data['device_type'] == 'mobile']

desktop_avg = desktop_data['time'].mean()# completa esta línea
mobile_avg =  mobile_data['time'].mean()# completa esta línea

print(f"Tiempo de escritorio promedio: {desktop_avg:.2f} segundos")
print(f"Tiempo móvil promedio: {mobile_avg:.2f} segundos")
```

