In [1]:
import pandas as pd
import numpy as np

## Features engineering de pageviews

### Carga de datos

In [2]:
pageviews = pd.read_pickle("../data/pageviews_total_formateado.pkl")

---

### Cargo features generados hasta el momento


In [27]:
# Trimestre 2 - 3 - 4 para los que tengo datos anteriores
CANT_TRIMESTRES = 4

In [28]:
ventanas = {}
vent_no_encontradas =[]

In [29]:
print("Cargando features")
for ventana_nro in range(1,CANT_TRIMESTRES) : #Trimestres del 1 al 3
    try:
        ventanas[ventana_nro] = pd.read_csv("../data/features/ventana_{}_pageviews.csv".format(ventana_nro),
                                            dtype = {"USER_ID":"category"},index_col=0)
        
    except FileNotFoundError:
        print("No se encontraron los features, se generarán los dataframe requeridos")
        vent_no_encontradas.append(ventana_nro)
    continue
    
for ventana_nro in vent_no_encontradas:    
    ##Recolecto los features del trimestre anterior al que quiero predecir
    condicion = pageviews["trimestre"] == (ventana_nro)
    
    ventanas[ventana_nro] = pageviews.loc[condicion]["USER_ID"] \
        .drop_duplicates().to_frame().set_index("USER_ID").copy()

Cargando features


### Set para predecir

In [30]:
ventana_predecir = {}

In [31]:
try:
    print("Cargando features para predecir")
    ventana_predecir[4] = pd.read_csv("../data/features/predecir_pageviews.csv")
except FileNotFoundError:
    print("No se encontro el feature deseado, se generara el dataframe requerido")
    ventana_predecir[4] = pd.read_csv("../data/users.csv", dtype = {"USER_ID":"category"})
    ventana_predecir[4].set_index("USER_ID",inplace = True)

Cargando features para predecir


---

### Eliminar columnas para reahacerlas

In [32]:
for x in range(1,4):
    ventanas[x].drop(columns = ['cant_paginas_vistas_en_mes_1',
       'cant_paginas_vistas_en_mes_2', 'cant_paginas_vistas_en_mes_3'], inplace = True)
    
ventana_predecir[4].drop(columns = ['cant_paginas_vistas_en_mes_1',
       'cant_paginas_vistas_en_mes_2', 'cant_paginas_vistas_en_mes_3'], inplace = True)

---

### Diccionario de features

In [33]:
features = {}

In [34]:
features_ya_generados = {}

for ventana_nro in range (1, CANT_TRIMESTRES):
    
    features_ya_generados[ventana_nro] = list(ventanas[ventana_nro].columns.values)
    
features_ya_generados[4] = list(ventana_predecir[4].columns.values)



---

### Creación de features

#### Cantidad de paginas vista por un usuario en todo el trimestre

In [35]:
def cantidad_de_paginas_vistas(dataframe):
    return dataframe.groupby("USER_ID").agg({"FEC_EVENT":"count"})\
                    .rename(columns = {"FEC_EVENT":"cantidad_paginas_vistas_trimestre"})

In [36]:
features["cantidad_paginas_vistas_trimestre"] = (cantidad_de_paginas_vistas,["cantidad_paginas_vistas_trimestre"])

#### Cantidad de paginas vista dentro de cada mes dentro del trimestre

In [37]:
def cantidad_paginas_vistas_por_mes(dataframe):
    
    vistas_por_mes = dataframe.groupby(["USER_ID","mes"]).agg({"trimestre":"count"})
    vistas_por_mes.reset_index(inplace = True)
    vistas_por_mes = vistas_por_mes.pivot(index = "USER_ID", columns = "mes", values = "trimestre")
    
    vistas_por_mes.fillna(0, inplace = True)
    vistas_por_mes.columns = ["cant_paginas_vistas_en_mes_{}".format(mes) for mes in range(1,4)]
    
    columnas = vistas_por_mes.columns.values
    vistas_por_mes[columnas] = vistas_por_mes[columnas].astype("int64")
    
    return vistas_por_mes

In [38]:
columnas_generadas = ["cant_paginas_vistas_en_mes_{}".format(mes) for mes in range(1,4)]
features["cant_paginas_vistas_por_mes"] = (cantidad_paginas_vistas_por_mes,columnas_generadas) 

In [39]:
def page_mas_vista_cada_mes(dataframe):
    
    feature = dataframe.groupby(['USER_ID','mes','PAGE']).agg({'trimestre':'count'})
    index = feature.groupby(['USER_ID','mes'])['trimestre'].transform(max) == feature['trimestre']
    feature = feature[index]
    
    #Elimino duplicados
    feature.reset_index(inplace=True)
    feature = feature.drop_duplicates(subset=['USER_ID','mes'])  
    
    #Cambio la forma del dataframe -> indice = USER_ID, columnas = 
    feature = feature.pivot(index = "USER_ID",columns = "mes", values = "PAGE")
    
    #lleno los meses vacios con -1
    feature.columns = [x for x in range(1,4)]
    for mes in range(1,4):
        try:             #si no existe el mes, lo creo
            feature[mes] = feature[mes].cat.add_categories([-1]).fillna(-1)
        except KeyError:
            feature.insert(mes,mes,-1)

            
    feature.columns = ["page_mas_vista_en_mes_{}".format(mes) for mes in range(1,4)]
    
    return feature

In [40]:
features["page_mas_vista"]=(page_mas_vista_cada_mes,["page_mas_vista_en_mes_{}".format(mes) for mes in range(1,4)])

---

## Generacion de features

In [41]:
def generar_feature_en_ventanas(dataframe, generador_feature, destino, nro_ventana):
    """ 
    Esta funcion calcula un feature para un trimestre o ventana en especifico, lo une con los ya calculados
    y lo guarda en el diccionario 'destino'.    
    dataframe: dataframe de datos de donde se calcularan los features, en este caso pageviews
    generador_feature: funcion que calculara el feature y devolvera su resultado
    destino: diccionario que contiene las ventanas de features calculados
    """
    dataframe = dataframe.loc[dataframe["trimestre"] == nro_ventana]
    feature = generador_feature(dataframe)
    destino[nro_ventana] = destino[nro_ventana].merge(feature, left_index = True, right_index= True, how = 'left')

### Genero los features


In [42]:
#Posicion dentro del diccionario de features que ocupa la lista de columnas generadas por el mismo
POS_COLUMNAS_DEL_FEATURE = 1  
#Posicion dentro del diccionario de features que ocupa la funcion que lo genera.
POS_FUNCION_DEL_FEATURE = 0

def generar_features_faltantes(dataframe,destino,nro_ventana):
    """
    Funcion para generar los features de cada trimestre, si solo si no se encuentran generados,
    evita la repeticion de calculo de features si estos ya se encuentran generados.
    
    dataframe: Dataframe a partir de cual se calcularan los features.
    destino: Diccionario de ventanas para los que calcular los features.
    nro_ventana: Numero de ventana a partir de la cual se calculan los features.
    """
    
    for nombre_feature in features:    
        #Obtengo los nombres de las columnas generadas por la funcion que calcula el feature
        #Una funcion puede devolver mas de una columna por lo que obtengo una lista de valores
        columnas_generadas = features[nombre_feature][POS_COLUMNAS_DEL_FEATURE] 
        feature_ya_generado = False
        
        for columna in columnas_generadas: 
            
            #Verifico si los features ya fueron generados o no
            if columna in features_ya_generados[nro_ventana]: 
                feature_ya_generado = True
                break
    
        if feature_ya_generado:
            continue

        #Si no fueron generados, los genero y actualizo el listado:    
        generar_feature_en_ventanas(dataframe, features[nombre_feature][POS_FUNCION_DEL_FEATURE], destino,nro_ventana)                              
        features_ya_generados[nro_ventana].extend(features[nombre_feature][POS_COLUMNAS_DEL_FEATURE])

In [43]:
for ventana_nro in range(1, CANT_TRIMESTRES ):
    generar_features_faltantes(pageviews, ventanas, ventana_nro)

generar_features_faltantes(pageviews, ventana_predecir,4)    

          1   2   3
USER_ID            
0        10  10  10
1        10   2  10
10       10  10   1
100       2  10  10
1000     -1  10   3
          1   2   3
USER_ID            
0        10  10  10
1        10  10  10
10        1   1  10
100      20  20   2
1000      2   3   3
          1  2  3
USER_ID          
0        10  2  2
1        10  2  2
10       -1  1  2
100      20  2  2
1000      3  2  2
         1  2  3
USER_ID         
0        2  2  2
1        2  2  2
10       2  2  2
100      3  2  2
1000     2  2  3


In [44]:
ventanas[1].head()

Unnamed: 0_level_0,cantidad_paginas_vistas_trimestre,cant_paginas_vistas_en_mes_1,cant_paginas_vistas_en_mes_2,cant_paginas_vistas_en_mes_3,page_mas_vista_en_mes_1,page_mas_vista_en_mes_2,page_mas_vista_en_mes_3
USER_ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
7237,862,373,290,199,2,3,202
4913,1350,582,362,406,27,27,27
9796,736,196,204,336,2,2,3
9428,1006,262,142,602,2,2,2
4719,721,197,271,253,3,3,3


### Guardado

In [18]:
for ventana_nro in range(1, CANT_TRIMESTRES ):
    ventanas[ventana_nro].to_csv("../data/features/ventana_{}_pageviews.csv".format(ventana_nro))

ventana_predecir[4].to_csv("../data/features/predecir_pageviews.csv")