<a href="https://colab.research.google.com/github/albertlleo/moneyball/blob/master/IKAUE_Collab_Template.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TEMPLATE EXTRACTIONS FROM GSC, GA, BQ

*Extract Google Search Console (GSC) data and upload it to BigQuery* 

*(C) 2020 IKAUE, Marketing de Optimizacion*

*Created by Albert Lleo <albert@ikhuerta.com>*

*Created by Joan Enric Garcias <joan@ikhuerta.com>* 




## How-To 




Este template está dividido en diferentes módulos: 

- **Requisitos previos**: Instalación de las librerías necesarias que no incorpora Google Colab para ejecutar el template. Este módulo es imprescindible para poder llevar a cabo las extracciones de GSC.

- **Imports**: Importación de todas las librerías necesarias para ejecutar el template. Este módulo es imprescindible para llevar a cabo cualquier extracción.

- **Definición de variables**: Definición de todos los campos necesarios para procesar la consulta de datos que se desea, ya sea de GSC, GA y/o BQ.

- **Extracciones**: Extracción de los datos que se desean, ya sean de GSC, GA, y/o BQ. El resultado de cada extracción es un dataframe.

- **Gráficos**: Agregados y gráficos.




### **Instrucciones**

Este template está estructurado en módulos que contienen celdas de texto y de código. A su vez, como los entornos de programación comunes, está enfocado a una ejecución secuencial de las celdas de código. Por tanto, todos los módulos deben ejecutarse en el orden en el que se presentan. Para ejecutar una celda del template se debe hacer click en el botón de “play” de la celda, o abriendo el módulo y una vez hecho click dentro de la celda pulsar shift+intro. Es **IMPORTANTE** destacar la necesidad de **ejecutar una celda despúes de su modificación** para que los cambios efectuados se vean reflejados en el entorno de ejecución. A continuación se presentan las acciones por cada módulo:

- **Requisitos previos**: Ejecutar la celda y esperar a que se descargue la librería (puede tardar unos segundos). 

- **Imports**: Abrir el módulo y ejecutar la primera celda, que contiene las librerías. A continuación, hay que ejecutar todas las celdas del submódulo *Añadir working paths de Google Drive*. En la primera celda nos va a indicar un enlace para iniciar sesión con la cuenta de IKAUE. Una vez iniciada la sesión, nos va a imprimir un código por pantalla que tenemos que copiar y pegar en el espacio que nos habilita la propia celda. Si el inicio de sesión ha sido correcto, al ejecutar la siguiente celda nos tiene que devolver como resultado “ALL CORRECT”. 

- **Definición de variables**: Se ha dividido este módulo en submódulos dependiendo del tipo de extracción que queramos llevar a cabo (GSC, GA y BQ). Debemos editar las variables correspondientes a la/s extracción/es que queramos llevar a cabo. Una vez definidas las variables que necesitamos, ejecutamos la/s celda/s y pasamos al siguiente módulo.

- **Extracciones**: Se ha dividido en submódulos al igual que en el apartado anterior. Simplemente tenemos que ejecutar la celda con el tipo de extracción que nos interese y esperar a que se termine dicha ejecución. Si por algún casual aparece algún error, verificar que las variables correspondientes a la extracción se han definido correctamente.

- **Gráficos**: ejecutar todas las celdas del submódulo correspondiente al tipo de extracción que hemos realizado para obtener los gráficos.

Para una lectura más cómoda del template, cada módulo y submódulo se puede ocultar y desplegar. De esta forma, se pueden ocultar todos aquellos submódulos que no correspondan a la/s extracción/es realizada/s.



## Requisitos previos

In [1]:
pip install pycountry


Collecting pycountry
[?25l  Downloading https://files.pythonhosted.org/packages/76/73/6f1a412f14f68c273feea29a6ea9b9f1e268177d32e0e69ad6790d306312/pycountry-20.7.3.tar.gz (10.1MB)
[K     |████████████████████████████████| 10.1MB 12.2MB/s 
[?25hBuilding wheels for collected packages: pycountry
  Building wheel for pycountry (setup.py) ... [?25l[?25hdone
  Created wheel for pycountry: filename=pycountry-20.7.3-py2.py3-none-any.whl size=10746863 sha256=363348ab75ad412ab50d7aadf72814b9e856205ddd16ca88d3aeb23e7c9fcb43
  Stored in directory: /root/.cache/pip/wheels/33/4e/a6/be297e6b83567e537bed9df4a93f8590ec01c1acfbcd405348
Successfully built pycountry
Installing collected packages: pycountry
Successfully installed pycountry-20.7.3


## Imports

In [2]:
import pandas as pd
from datetime import date, datetime, timedelta

import plotly.graph_objects as go
from plotly.subplots import make_subplots



### Añadir working path de Google Drive

**IMPORTANTE**: VERIFICAR EL DIRECTORIO DE GOOGLE DRIVE

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
%cd /content/drive/Shareddrives/IKAUE - DEV/colab-templates/template_collab_albert_joan/Colab


import functions_gsc_clean2 as gsc
import functions_ga_clean as ga

# check scripts
gsc.test()
ga.test()


/content/drive/Shareddrives/IKAUE - DEV/colab-templates/template_collab_albert_joan/Colab
GSC ALL CORRECT!
GA ALL CORRECT!


## Definición de variables

### GSC

**IMPORTANTE**: EJECUTAR CELDA DESPUÉS DE EDITAR

In [5]:
variables_gsc = {}

# credenciales para poder solicitar la extracción 
json_key_file = "credentials/ikaue-bb8.json"

# fecha inicial de la extracción "YYYY-MM-DD"
gsc_date_start = "2020-12-10" 
#gsc_date_start = datetime.strftime(datetime.now() - timedelta(15), "%Y-%m-%d") # 3 dias antes a hoy, ya que aun no se han registrado los datos de hoy. Porque 3 dias y no ayer?

# fecha final de la extracción "YYYY-MM-DD"
gsc_date_end = "2020-12-12"
#gsc_date_end = datetime.strftime(datetime.now() - timedelta(10), "%Y-%m-%d")

# nombre de la tabla
bq_table = "ikhuerta_blog"

# dominio de GSC
gsc_domain = "http://blog.ikhuerta.com/"

# web, image, video, news
gsc_scope = "web"

# filtros
gsc_dimension_filters = ""

# límite de filas 
gsc_row_limit = 10000


# variables para la extracción de GSC (NO MODIFICAR)
variables_gsc["json_key_file"] = json_key_file
variables_gsc["gsc_date_start"] = gsc_date_start 
variables_gsc["gsc_date_end"] = gsc_date_end
variables_gsc["bq_table"] = bq_table
variables_gsc["gsc_domain"] = gsc_domain
variables_gsc["gsc_scope"] = gsc_scope
variables_gsc["gsc_dimension_filters"] = gsc_dimension_filters
variables_gsc["gsc_row_limit"] = gsc_row_limit



### GA

**IMPORTANTE**: EJECUTAR CELDA DESPUÉS DE EDITAR

In [6]:
# credenciales solicitud extracción 
json_key_file = "credentials/ikaue-bb8.json"

# fecha inicial extracción "YYYY-MM-DD"
#ga_date_start = datetime.strftime(datetime.now() - timedelta(3), "%Y-%m-%d")
ga_date_start = "2020-12-10"

# fecha final extracción "YYYY-MM-DD"
#ga_date_end = datetime.strftime(datetime.now() - timedelta(1), "%Y-%m-%d")
ga_date_end = "2020-12-12"

# dimensiones GA
#ga_dimensions = ["landingPagePath", "date", "deviceCategory", "landingContentGroup3", "landingContentGroup5", "channelGrouping"]
ga_dimensions = ["landingPagePath", "date"]
ga_dimensions_filters = {}

# métricas GA
#ga_metrics = ["sessions", "transactions", "transactionRevenue", "revenuePerItem", "bounces", "users", "newUsers", "pageviews"]
ga_metrics = ["sessions", "transactions"]

# filtros GA
ga_metrics_filters = {}

# límite filas
ga_row_limit = 100000

# segmentos
ga_segments = []

# orden
ga_sort = []

# identificador
ga_view_id = "109200988"


# variables para la extracción de GA (NO MODIFICAR)
variables_ga = {'json_key_file':json_key_file,
                'ga_dimensions':ga_dimensions, 'ga_dimensions_filters':ga_dimensions_filters,
                'ga_date_start':ga_date_start, 'ga_date_end':ga_date_end,
                'ga_metrics':ga_metrics, 'ga_metrics_filters':ga_metrics_filters,
                'ga_row_limit':ga_row_limit, 'ga_segments':ga_segments, 'ga_sort':ga_sort, 'ga_view_id':ga_view_id}



### BQ


## Extracciones

### GSC

**IMPORTANTE**: VERIFICAR VARIABLES GSC ANTES DE EJECUTAR

In [7]:
df_gsc_summary, df_gsc_onlypages, df_gsc_detail = gsc.gsc_extraction(variables_gsc)


2021-05-12 13:52:29 -> 2020-12-12 -> 'http://blog.ikhuerta.com/' -> date device country -> sc_ikhuerta_blog_web_summary_20201212
2021-05-12 13:52:35 -> 2020-12-12 -> 'http://blog.ikhuerta.com/' -> date page -> sc_ikhuerta_blog_web_onlypages_20201212
2021-05-12 13:52:41 -> 2020-12-12 -> 'http://blog.ikhuerta.com/' -> date query page device country -> sc_ikhuerta_blog_web_detail_20201212
2021-05-12 13:52:47 -> 2020-12-11 -> 'http://blog.ikhuerta.com/' -> date device country -> sc_ikhuerta_blog_web_summary_20201211
2021-05-12 13:52:52 -> 2020-12-11 -> 'http://blog.ikhuerta.com/' -> date page -> sc_ikhuerta_blog_web_onlypages_20201211
2021-05-12 13:52:58 -> 2020-12-11 -> 'http://blog.ikhuerta.com/' -> date query page device country -> sc_ikhuerta_blog_web_detail_20201211
2021-05-12 13:53:05 -> 2020-12-10 -> 'http://blog.ikhuerta.com/' -> date device country -> sc_ikhuerta_blog_web_summary_20201210
2021-05-12 13:53:10 -> 2020-12-10 -> 'http://blog.ikhuerta.com/' -> date page -> sc_ikhuerta_

### GA

**IMPORTANTE**: VERIFICAR VARIABLES GA ANTES DE EJECUTAR

In [8]:
df_ga = ga.ga_extraction(variables_ga)

2021-05-12 13:53:22 -> 2020-12-12 d[landingPagePath,date] m[sessions,transactions]
2021-05-12 13:53:29 -> 2020-12-11 d[landingPagePath,date] m[sessions,transactions]
2021-05-12 13:53:36 -> 2020-12-10 d[landingPagePath,date] m[sessions,transactions]


### BQ


In [9]:
#df = functions.bq(variables)


## Vista previa de los datos

### GSC

#### Summary

In [10]:
# SUMMARY 
df_gsc_summary.head()

Unnamed: 0,date,device,country,countryName,impressions,clicks,position,ctr
0,2020-12-12,DESKTOP,esp,Spain,2328,57,21.123711,0.024485
1,2020-12-12,DESKTOP,mex,Mexico,917,23,16.402399,0.025082
2,2020-12-12,DESKTOP,per,Peru,633,21,10.909953,0.033175
3,2020-12-12,DESKTOP,col,Colombia,636,11,15.215409,0.017296
4,2020-12-12,MOBILE,esp,Spain,464,10,16.480603,0.021552


In [11]:
# SUMMARY
df_gsc_summary.dtypes

date            object
device          object
country         object
countryName     object
impressions      int64
clicks           int64
position       float64
ctr            float64
dtype: object

In [12]:
# SUMMARY
print('rows summary =',df_gsc_summary.shape[0])
print('columns summary =',df_gsc_summary.shape[1])

rows summary = 795
columns summary = 8


#### Onlypages

In [14]:
# ONLYPAGES
df_gsc_onlypages.head()

Unnamed: 0,date,page,impressions,clicks,position,ctr
0,2020-12-12,http://blog.ikhuerta.com/transforma-tu-web-en-...,674,36,20.715134,0.053412
1,2020-12-12,http://blog.ikhuerta.com/sincronizar-datos-ent...,1308,17,13.237003,0.012997
2,2020-12-12,http://blog.ikhuerta.com/maquetacion-seo-en-ht...,661,15,20.242057,0.022693
3,2020-12-12,http://blog.ikhuerta.com/crear-un-bot-sencillo...,143,13,19.615385,0.090909
4,2020-12-12,http://blog.ikhuerta.com/12-cosas-que-deberias...,234,9,45.452991,0.038462


In [15]:
# ONLYPAGES
df_gsc_onlypages.dtypes

date            object
page            object
impressions      int64
clicks           int64
position       float64
ctr            float64
dtype: object

In [16]:
# ONLYPAGES
print('rows onlypages =',df_gsc_onlypages.shape[0])
print('columns onlypages =',df_gsc_onlypages.shape[1])

rows onlypages = 1103
columns onlypages = 6


#### Detail

In [17]:
# DETAIL
df_gsc_detail.head()

Unnamed: 0,date,query,page,device,country,countryName,impressions,clicks,position,ctr
0,2020-12-12,$_get javascript,http://blog.ikhuerta.com/get-extraer-variables...,DESKTOP,mex,Unknown,1,1,1.0,1.0
1,2020-12-12,baneo permanente facebook,http://blog.ikhuerta.com/spam-y-baneo-de-aplic...,MOBILE,col,Unknown,1,1,3.0,1.0
2,2020-12-12,bot para twitter,http://blog.ikhuerta.com/crear-un-bot-sencillo...,DESKTOP,mex,Unknown,1,1,2.0,1.0
3,2020-12-12,codigo para hacer responsive una pagina web html,http://blog.ikhuerta.com/transforma-tu-web-en-...,DESKTOP,mex,Unknown,1,1,2.0,1.0
4,2020-12-12,como crear un bot en twitter,http://blog.ikhuerta.com/crear-un-bot-sencillo...,MOBILE,esp,Unknown,1,1,2.0,1.0


In [18]:
# DETAIL
df_gsc_detail.dtypes

date            object
query           object
page            object
device          object
country         object
countryName     object
impressions      int64
clicks           int64
position       float64
ctr            float64
dtype: object

In [19]:
# DETAIL
print('rows detail =',df_gsc_detail.shape[0])
print('columns detail =',df_gsc_detail.shape[1])

rows detail = 18440
columns detail = 10


### GA

In [20]:
df_ga.head()

Unnamed: 0,landingPagePath,date,sessions,transactions
0,(not set),2020-12-12,2513,7
1,empresas.habitissimo.cl/aire-acondicionado/ari...,2020-12-12,1,0
2,empresas.habitissimo.cl/aire-acondicionado/cautin,2020-12-12,1,0
3,empresas.habitissimo.cl/aire-acondicionado/cop...,2020-12-12,1,0
4,empresas.habitissimo.cl/aire-acondicionado/cor...,2020-12-12,1,0


In [21]:
df_ga.dtypes

landingPagePath    object
date               object
sessions            int64
transactions        int64
dtype: object

In [22]:
print('rows =',df_ga.shape[0])
print('columns =',df_ga.shape[1])

rows = 13824
columns = 4


## Gráficos

### GSC

In [23]:
# agregado clicks e impresiones por día
df_summary_agg_date_cli_imp = df_gsc_summary[["date", "clicks", "impressions"]].groupby(["date"]).sum()
df_summary_agg_date_cli_imp

Unnamed: 0_level_0,clicks,impressions
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-12-10,385,21636
2020-12-11,369,18183
2020-12-12,182,12354


In [24]:
# variables para el gráfico
dates = list(df_summary_agg_date_cli_imp.index)
clicks = list(df_summary_agg_date_cli_imp['clicks'].values)
impressions = list(df_summary_agg_date_cli_imp['impressions'].values)

# gráfico con eje-Y secundario
fig = make_subplots(specs=[[{"secondary_y": True}]])


fig.add_trace(
    go.Scatter(x=dates, y=clicks, name="clicks"),
    secondary_y=False,
)

fig.add_trace(
    go.Scatter(x=dates, y=impressions, name="impressions"),
    secondary_y=True,
)

# título del gráfico
fig.update_layout(
    title_text="Clicks and Impressions vs Date (GSC)"
)

# nombre eje-X
fig.update_xaxes(title_text="date")

# nombre ejes-Y
fig.update_yaxes(title_text="<b>clicks</b>", secondary_y=False)
fig.update_yaxes(title_text="<b>impressions</b>", secondary_y=True)

fig.show()

### GA

In [25]:
# agregado transacciones y sesiones por día
df_ga_agg_date_sess_tr = df_ga[["date", "transactions", "sessions"]].groupby(["date"]).sum()
df_ga_agg_date_sess_tr

Unnamed: 0_level_0,transactions,sessions
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-12-10,523,13714
2020-12-11,352,11595
2020-12-12,427,11657


In [26]:
# define variables for the plot
dates = list(df_ga_agg_date_sess_tr.index)
sessions = list(df_ga_agg_date_sess_tr['sessions'].values)
transactions = list(df_ga_agg_date_sess_tr['transactions'].values)

# Create figure with secondary y-axis
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Add traces
fig.add_trace(
    go.Scatter(x=dates, y=sessions, name="sessions"),
    secondary_y=False,
)

fig.add_trace(
    go.Scatter(x=dates, y=transactions, name="transactions"),
    secondary_y=True,
)

# Add figure title
fig.update_layout(
    title_text="Sessions and Transactions vs Date (GA)"
)

# Set x-axis title
fig.update_xaxes(title_text="date")

# Set y-axes titles
fig.update_yaxes(title_text="<b>sessions</b>", secondary_y=False)
fig.update_yaxes(title_text="<b>transactions</b>", secondary_y=True)

fig.show()