# Analítica Web
## Actividad: Generación de informes
Carlos Checa Moreno

i02chmoc@uco.es

# Enlace a Google Colab
https://colab.research.google.com/drive/1X9SVCYOLlPj80gjfzA5WqyC2TX-7Kdlb?usp=sharing

# Ejercicio
A partir de los datos del dataset anterior, generar informes para, en base a dichos datos, poder tomar las
siguientes decisiones:

*   Qué idiomas debería soportar el sitio web
*   Se quiere sacar una promoción durante un tiempo muy limitado. Qué hora sería la más
adecuada para llegar a un mayor número de usuarios
*   Podemos decidir promocionarnos en los enlaces que vienen de serie con los navegadores. En
qué navegador sería más interesante hacernos publicidad

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('LogsDataiku.csv')
df.head()

Unnamed: 0,server_ts,client_ts,client_addr,visitor_id,session_id,location,referer,user_agent,type,visitor_params,session_params,event_params,br_width,br_height,sc_width,sc_height,br_lang,tz_off
0,2014-03-01T03:39:23.099,2014-03-01T03:39:24.222,50.204.38.160,45467421ac4f218,463fe4c146ea482,http://dataiku.com/blog/2014/01/14/winning-kag...,,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1)...,page,,,,1920,986,1920,1080,en-US,300
1,2014-03-01T03:48:03.255,2014-03-01T03:48:02.658,27.32.161.160,5fcc5e41efb0fbd,bc65d2c1a81974f,http://www.dataiku.com/applications/,http://www.dataiku.com/products/shaker/,Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/53...,page,,,,1680,963,1680,1050,en-GB,-660
2,2014-03-01T06:25:34.566,2014-03-01T06:25:34.524,66.250.143.150,1cad2751ed7eeaf,f6bc5851e373824,http://www.dataiku.com/,http://strataconf.com/strata2014/public/schedu...,Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1)...,page,,,,1183,658,1280,800,en-US,300
3,2014-03-01T06:39:04.869,2014-03-01T06:39:06.764,207.126.92.0,aa7f46a1b81a297,958c8c612c038ba,http://dataiku.com/blog/2012/12/07/visualizing...,,Mozilla/5.0 (Windows NT 6.1; rv:27.0) Gecko/20...,page,,,,1366,664,1366,768,en-US,-480
4,2014-03-01T06:41:15.033,2014-03-01T06:41:06.496,70.72.174.130,488afab1d36e232,b2e7a6c1157aad1,http://www.dataiku.com/blog/2014/01/14/winning...,http://www.kaggle.com/c/yandex-personalized-we...,Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKi...,page,,,,1920,995,1920,1080,en-US,420


Con la función idiomas_soportados, obtengo los idiomas utilizados por los usuarios, extrayendo el idioma principal de la cadena de texto. Después, utilizo la función hora_promocion para calcular la cantidad de accesos por cada hora del día. Finalmente, en la función navegador_interesante, detecto el navegador utilizado por cada usuario mediante expresiones regulares.

In [14]:
from datetime import datetime

def idiomas_soportados(df):
    return df['br_lang'].value_counts()

def hora_promocion(df):
    df['hora'] = pd.to_datetime(df['client_ts']).dt.hour
    return df['hora'].value_counts()

def navegador_interesante(df):
    navegadores = []
    for agent in df['user_agent']:
        if 'Chrome' in agent and 'Safari' in agent and 'Edge' not in agent:
            navegadores.append('Chrome')
        elif 'Firefox' in agent:
            navegadores.append('Firefox')
        elif 'Safari' in agent and 'Chrome' not in agent:
            navegadores.append('Safari')
        elif 'Edge' in agent:
            navegadores.append('Edge')
        elif 'MSIE' in agent or 'Trident' in agent:
            navegadores.append('Internet Explorer')
        else:
            navegadores.append('Otros')
    df['navegador'] = navegadores
    return df['navegador'].value_counts()


In [15]:
print('Idiomas soportados:')
print(idiomas_soportados(df))
print('Hora más adecuada para promoción:')
print(hora_promocion(df))
print('Navegador más interesante para publicidad:')
print(navegador_interesante(df))

Idiomas soportados:
br_lang
fr       5033
en-US    2927
fr-fr     748
en-us     668
en-GB     360
         ... 
tr          1
el          1
hu          1
nl-be       1
fa          1
Name: count, Length: 68, dtype: int64
Hora más adecuada para promoción:
hora
14    1104
15     949
16     860
13     738
17     657
12     654
9      624
20     552
11     535
10     523
21     488
8      485
18     404
19     384
22     286
6      243
7      241
23     231
1      184
2      179
0      167
4      135
5      130
3       96
Name: count, dtype: int64
Navegador más interesante para publicidad:
navegador
Chrome               5933
Firefox              2660
Safari               1487
Internet Explorer     700
Otros                  69
Name: count, dtype: int64


He obtenido los 3 tipos de informes siguiente:

1.   **Informe de audiencia** (Idiomas soportados): Este informe ayuda a determinar qué idiomas debería soportar el sitio web, asegurando una mejor experiencia para la audiencia mayoritaria. En este caso, el francés y el inglés son los idiomas más utilizados, por lo que deben priorizarse en el sitio web. Además, variantes como fr-fr y en-GB tienen cierta relevancia, por lo que una localización más específica podría mejorar la experiencia del usuario.

2.   **Informe de comportamiento** (Hora más adecuada para promoción): Este informe es útil para decidir en qué franja horaria lanzar una promoción y alcanzar el mayor número de usuarios. En este estudio las horas con mayor tráfico son entre las 13:00 y 16:00, con un pico a las 14:00. Lanzar promociones en este horario aumentaría la visibilidad y alcance de la campaña, evitando las horas de menor actividad.

3.  **Informe de adquisición** (Navegador más interesante para publicidad): Este informe permite saber en qué navegadores convendría hacer publicidad. Para este conjunto de datos Chrome es el navegador más usado, con una diferencia significativa sobre los demás, lo que lo convierte en la mejor opción para publicidad. Firefox y Safari también tienen una presencia importante y podrían considerarse como opciones secundarias en la estrategia publicitaria.