# Analítica Web
## Actividad: Cálculo de métricas de un sitio web
Carlos Checa Moreno

i02chmoc@uco.es

# Enlace a Google Colab

https://colab.research.google.com/drive/1IxH9VMv9gVfo1Lm1e8nFPLFxIazqB3Mm?usp=sharing

# Ejercicio
A partir del dataset anterior, calcula las siguientes métricas para el periodo de tiempo registrado

*   N.º de visitas → Número de visitas (sesiones que ha tenido el sitio web)
*   N.º de visitantes únicos → Número de usuarios diferentes que han visitado el sitio web
*   N.º medio de páginas/visitas →Para cada visita (sesión) cuántas páginas se han visitado. Media
 para todas las visitas
*   Tasa de rebote → Número de visitas (sesiones) que solo han accedido a una página
*   Tasa de salida para cada página → % de veces que cada página ha sido una página de salida
*   Tráfico directo → Número de visitas (sesiones) que provienen de escribir la url directamente
*   Tráfico de búsqueda → Número de visitas (sesiones) que provienen de pinchar en una búsqueda
*   Tráfico referido → Número de visitas (sesiones) que provienen de pinchar en un enlace de otra página


In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('LogsDataiku.csv')
df.head()

Unnamed: 0,server_ts,client_ts,client_addr,visitor_id,session_id,location,referer,user_agent,type,visitor_params,session_params,event_params,br_width,br_height,sc_width,sc_height,br_lang,tz_off
0,2014-03-01T03:39:23.099,2014-03-01T03:39:24.222,50.204.38.160,45467421ac4f218,463fe4c146ea482,http://dataiku.com/blog/2014/01/14/winning-kag...,,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1)...,page,,,,1920,986,1920,1080,en-US,300
1,2014-03-01T03:48:03.255,2014-03-01T03:48:02.658,27.32.161.160,5fcc5e41efb0fbd,bc65d2c1a81974f,http://www.dataiku.com/applications/,http://www.dataiku.com/products/shaker/,Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53...,page,,,,1680,963,1680,1050,en-GB,-660
2,2014-03-01T06:25:34.566,2014-03-01T06:25:34.524,66.250.143.150,1cad2751ed7eeaf,f6bc5851e373824,http://www.dataiku.com/,http://strataconf.com/strata2014/public/schedu...,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1)...,page,,,,1183,658,1280,800,en-US,300
3,2014-03-01T06:39:04.869,2014-03-01T06:39:06.764,207.126.92.0,aa7f46a1b81a297,958c8c612c038ba,http://dataiku.com/blog/2012/12/07/visualizing...,,Mozilla/5.0 (Windows NT 6.1; rv:27.0) Gecko/20...,page,,,,1366,664,1366,768,en-US,-480
4,2014-03-01T06:41:15.033,2014-03-01T06:41:06.496,70.72.174.130,488afab1d36e232,b2e7a6c1157aad1,http://www.dataiku.com/blog/2014/01/14/winning...,http://www.kaggle.com/c/yandex-personalized-we...,Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKi...,page,,,,1920,995,1920,1080,en-US,420


### N.º de visitas → Número de visitas (sesiones que ha tenido el sitio web)

Para esta métrica obtengo las sesiones mediante el session_id y uso nunique() para obtener el número de sesiones únicas

In [None]:
df["session_id"].nunique()

3946

### N.º de visitantes únicos → Número de usuarios diferentes que han visitado el sitio web

Mismo caso que la anterior métrica, pero usando visitor_id esta vez.

In [None]:
df["visitor_id"].nunique()

2537

### N.º medio de páginas/visitas → Para cada visita (sesión) cuántas páginas se han visitado. Media para todas las visitas


Esta vez es necesario primero agrupar las instancias por session_id y contar el número de páginas (location) posteriormente.

In [None]:
df.groupby('session_id')['location'].count()

Unnamed: 0_level_0,location
session_id,Unnamed: 1_level_1
0032636170691fd,1
0039e021117bf7e,5
003fe6c1d1b1611,3
004b1b512040302,5
00514d51973414f,1
...,...
ffb49c91151a3dd,1
ffcd1431036cfad,1
ffdafef1de19a85,1
ffe83b615395e15,3


Podemos obtener cuantas páginas únicas se han visitado con nunique() o usar count() para simplemente contar cuantas páginas se han visitado sin importar que se haya visitado la misma varias veces.

In [None]:
df.groupby('session_id')['location'].count().mean()

2.749366447034972

In [None]:
df.groupby('session_id')['location'].nunique().mean()

2.3193106943740496

### Tasa de rebote → Número de visitas (sesiones) que solo han accedido a una página

Pirmero repito el mismo proceso que anteriormente para obtener cuántas veces cada sesión accedió a una página distinta. Luego, identifico las visitas que solo accedieron a una página y calculo la tasa de rebote como la proporción de estas visitas respecto al total.

In [None]:
visitas_unicas = df.groupby('session_id')['location'].nunique()
visitas_unicas_1_pag = visitas_unicas[visitas_unicas == 1]
print(f"Número de visitas que solo han accedido a una página: {visitas_unicas_1_pag.size}")
tasa_rebote = len(visitas_unicas_1_pag) / len(visitas_unicas)

print(f"Tasa de rebote: {tasa_rebote:.2%}")

Número de visitas que solo han accedido a una página: 2261
Tasa de rebote: 57.30%


### Tasa de salida para cada página → % de veces que cada página ha sido una página de salida


Para esta métrica, agrupo las visitas por sesión para identificar la última página visitada. Luego, cuento cuántas veces cada página fue la última en una sesión y divido ese número por el total de visitas a cada página, obteniendo así el porcentaje de salidas.

In [None]:
ultima_pagina_sesion = df.groupby('session_id')['location'].last()
pagina_salida = ultima_pagina_sesion.value_counts()
tasa_salida = pagina_salida / df['location'].value_counts() * 100
print(tasa_salida)

location
http://dataiku.com/                             44.887781
http://dataiku.com/applications/                17.687075
http://dataiku.com/applications/advertising/          NaN
http://dataiku.com/applications/ecommerce/      29.166667
http://dataiku.com/applications/freemium/       15.686275
                                                  ...    
http://www.dataiku.com/products/pricing/        29.652997
http://www.dataiku.com/products/shaker/         20.198675
http://www.dataiku.com/products/sharing/         8.695652
http://www.dataiku.com/products/thankyou/       32.692308
http://www.dataiku.com/products/trynow/         16.071429
Name: count, Length: 96, dtype: float64


### Tráfico directo → Número de visitas (sesiones) que provienen de escribir la url directamente

### Tráfico de búsqueda → Número de visitas (sesiones) que provienen de pinchar en una búsqueda

### Tráfico referido → Número de visitas (sesiones) que provienen de pinchar en un enlace de otra página

Para estas métricas es necesario definir una lista de motores de búsqueda comunes. Luego, utilizo una función para clasificar cada visita como Directo, Búsqueda o Referido según el valor de la referencia (referer). Finalmente, cuento y muestro el número de visitas de cada tipo.

In [None]:
# Navegadores
search_engines = [
    "google", "bing", "yahoo", "duckduckgo", "baidu", "yandex"
]

# Clasificar el tráfico
def classify_traffic(row):
    referer = str(row["referer"]).lower()
    if pd.isna(row["referer"]):
        return "Directo"
    elif any(engine in referer for engine in search_engines):
        return "Búsqueda"
    else:
        return "Referido"


df["trafico_tipo"] = df.apply(classify_traffic, axis=1)
trafico_contado = df["trafico_tipo"].value_counts()

print("Tráfico Directo:", trafico_contado.get("Directo", 0))
print("Tráfico de Búsqueda:", trafico_contado.get("Búsqueda", 0))
print("Tráfico Referido:", trafico_contado.get("Referido", 0))

Tráfico Directo: 1226
Tráfico de Búsqueda: 1605
Tráfico Referido: 8018
