# **Métricas de Usuario**

Hay tres métricas principales que describen el número de usuarios activos:

- DAU (usuarios activos diarios): el número de usuarios activos diarios (únicos);
- WAU (usuarios activos semanales): el número de usuarios activos semanales;
- MAU (usuarios activos mensuales): el número de usuarios activos mensuales.

## Ejercicios

**Ejercicio 1**

El archivo /datasets/users_data.csv almacena datos sobre la actividad del usuario en la aplicación. Léelo y guárdalo en la variable users_data. Calcula la métrica de MAU para todo el período y guarda el resultado como mau_total. Imprímelo como un solo número entero.

In [None]:
import pandas as pd

users_data = pd.read_csv("/datasets/users_data.csv")
users_data["session_start_ts"] = pd.to_datetime(
    users_data["session_start_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_end_ts"] = pd.to_datetime(
    users_data["session_end_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_year"] = users_data["session_start_ts"].dt.year
users_data["session_month"] = users_data["session_start_ts"].dt.month
users_data["session_week"] = users_data["session_start_ts"].dt.week
users_data["session_date"] = users_data["session_start_ts"].dt.date
mau_total = (
    users_data.groupby(["session_year", "session_month"]).agg({"id": "nunique"}).mean()
)
print(int(mau_total))

**Ejercicio 2**

Echa otro vistazo a mau_total en el precódigo y encuentra dau_total y wau_total usando el mismo enfoque.

Encuentra el sticky factor expresado como la relación entre la audiencia mensual y semanal. Guarda el resultado para la audiencia semanal como sticky_wau y el de la audiencia mensual como sticky_mau. Multiplica el resultado de tu división de sticky factor por 100 para obtener un porcentaje. Imprime los resultados (primero por semana, luego por mes) sin convertirlos a números enteros.
Al agregar columnas a tus datos originales, pasa de mayor a menor: año, mes, semana, fecha.

In [None]:
import pandas as pd

users_data = pd.read_csv("/datasets/users_data.csv")
users_data["session_start_ts"] = pd.to_datetime(
    users_data["session_start_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_end_ts"] = pd.to_datetime(
    users_data["session_end_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_year"] = users_data["session_start_ts"].dt.year
users_data["session_month"] = users_data["session_start_ts"].dt.month
users_data["session_week"] = users_data["session_start_ts"].dt.week
users_data["session_date"] = users_data["session_start_ts"].dt.date
mau_total = (
    users_data.groupby(["session_year", "session_month"]).agg({"id": "nunique"}).mean()
)
dau_total = users_data.groupby("session_date").agg({"id": "nunique"}).mean()
wau_total = (
    users_data.groupby(["session_year", "session_week"]).agg({"id": "nunique"}).mean()
)
sticky_wau = dau_total / wau_total * 100
print(sticky_wau)
sticky_mau = dau_total / mau_total * 100
print(sticky_mau)

## Sesiones de Usuario

Sabes cuántos usuarios hay en tu aplicación, pero sería genial tener datos sobre cuánto tiempo pasan en ella. Aquí el concepto de sesiones de usuario te puede ayudar. Una sesión de usuario es el conjunto de acciones del usuario que comienza cuando se abre la aplicación y finaliza cuando se cierra.

Por ejemplo, puede ser útil determinar el número de sesiones mensuales por usuario; es un buen indicador de la frecuencia de uso de la aplicación.

### Ejercicios

**Ejercicio 1**

Sigue trabajando con la aplicación de entrega por drones. Encuentra el número de sesiones por usuario para cada mes, guardando el resultado como sessions_per_user['sess_per_user']. Imprime sessions_per_user.

In [None]:
import pandas as pd

users_data = pd.read_csv("/datasets/users_data.csv")
users_data["session_start_ts"] = pd.to_datetime(
    users_data["session_start_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_end_ts"] = pd.to_datetime(
    users_data["session_end_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_year"] = users_data["session_start_ts"].dt.year
users_data["session_month"] = users_data["session_start_ts"].dt.month

sessions_per_user = users_data.groupby(["session_year", "session_month"]).agg(
    {"id": ["count", "nunique"]}
)
sessions_per_user.columns = ["n_sessions", "n_users"]
sessions_per_user["sess_per_user"] = (
    sessions_per_user["n_sessions"] / sessions_per_user["n_users"]
)
print(sessions_per_user)

**Ejercicio 2**

Encuentra la duración de las sesiones y traza un histograma con 100 contenedores. Asigna a la columna el nombre users_data['session_duration_sec'].

In [None]:
import pandas as pd

users_data = pd.read_csv("/datasets/users_data.csv")
users_data["session_start_ts"] = pd.to_datetime(
    users_data["session_start_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_end_ts"] = pd.to_datetime(
    users_data["session_end_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_duration_sec"] = (
    users_data["session_end_ts"] - users_data["session_start_ts"]
).dt.seconds
users_data["session_duration_sec"].hist(bins=100)

**Ejercicio 3**

Encuentra la métrica ASL (duración media de la sesión). Guarda el resultado como asl e imprime la variable.

In [None]:
import pandas as pd

users_data = pd.read_csv("/datasets/users_data.csv")
users_data["session_start_ts"] = pd.to_datetime(
    users_data["session_start_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_end_ts"] = pd.to_datetime(
    users_data["session_end_ts"], format="%Y-%m-%d %H:%M"
)
users_data["session_duration_sec"] = (
    users_data["session_end_ts"] - users_data["session_start_ts"]
).dt.seconds
# users_data['session_duration_sec'].hist(bins=100)
asl = users_data["session_duration_sec"].mode()
print(asl)

## Trabajar con Datos sin Procesar

**Ejercicios**

El archivo /datasets/yandex_metrika_logs.csv contiene datos sobre las visitas a la página de ayuda de Y.Metrica:

- ym:s:visitID: identificador de visita;
- ym:s:dateTime: hora de la visita;
- ym:s:isNewUser: si es la primera visita o no;
- ym:s:visitDuration: duración de la visita en segundos;
- ym:s:startURL: URL de la página de acceso;
- ym:s:clientID: identificador del usuario;
- ym:s:lastTrafficSource: fuente de tráfico:
- - ad: tráfico de anuncios;
- - organic: tráfico del motor de búsqueda;
- - direct: tráfico directo;
- - referral: tráfico de referencia;
- - internal: tráfico interno;
- - social: tráfico de redes sociales;
- - email: tráfico de correo electrónico;
- - messenger: tráfico de mensajería;
- - saved: tráfico de páginas guardadas.
  
1. Traza dos histogramas en una sola visualización:

- La distribución de la duración de la visita para el tráfico de anuncios: (ym:s:lastTrafficSource = 'ad')
- La distribución de la duración de la visita para el tráfico del motor de búsqueda:

> (ym:s:lastTrafficSource = 'organic')

Al trazar histogramas, ignora las visitas con una duración de 0 segundos.

2. Evalúa si la diferencia entre la duración promedio de las visitas provenientes de estas dos fuentes de tráfico es estadísticamente significativa. Para hacerlo, prueba la hipótesis de que los dos promedios son iguales. Al probar hipótesis, ignora las visitas con una duración de 0 segundos.



**Ejercicio1**

Carga datos del archivo /datasets/yandex_metrika_logs.csv al DataFrame logs. Imprime las primeras 10 filas de logs.

In [None]:
import pandas as pd

logs = pd.read_csv("/datasets/yandex_metrika_logs.csv")  # Cargar datos
print(logs.head(10))  # imprime las 10 primeras filas del DataFrame

**Ejercicio 2**


Crea un slice de datos logs_with_duration para almacenar todas las visitas de más de 0 segundos.

Imprime las primeras 10 filas del slice de datos logs_with_duration.

In [None]:
import pandas as pd

# Leer el archivo CSV
logs = pd.read_csv("/datasets/yandex_metrika_logs.csv")

# Crear un slice de datos con visitas de más de 0 segundos de duración
logs_with_duration = logs[logs["ym:s:visitDuration"] > 0]

# Imprimir las primeras 10 filas del slice de datos
print(logs_with_duration.head(10))

**Ejercicio 3**

Toma el DataFrame logs_with_duration y crea dos slices de datos:

- Un slice de datos ad_visits que contiene visitas que provienen del tráfico de anuncios (ym:s:lastTrafficSource == 'ad');
- Un slice de datos organic_visits que contiene visitas "orgánicas" que provienen del tráfico del motor de búsqueda (ym:s:lastTrafficSource == 'orgánico').
  
El nombre de la fuente de tráfico se almacena en la columna "ym:s:lastTrafficSource".

Imprime 10 filas de cada slice de datos.

In [None]:
import pandas as pd

logs = pd.read_csv("/datasets/yandex_metrika_logs.csv")

logs_with_duration = logs[logs["ym:s:visitDuration"] > 0]

ad_visits = logs_with_duration[logs_with_duration["ym:s:lastTrafficSource"] == "ad"]
organic_visits = logs_with_duration[
    logs_with_duration["ym:s:lastTrafficSource"] == "organic"
]

print(ad_visits.head(10))

print(organic_visits.head(10))