In [47]:
import pandas as pd
import numpy as np
import xgboost as xgb
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

In [48]:
# Desactivo warning molesto
pd.options.mode.chained_assignment = None  # default='warn'

In [49]:
eventos = pd.read_csv('/home/lautaro/Desktop/events_up_to_01062018.csv', low_memory=False)

In [50]:
labels = pd.read_csv('/home/lautaro/Desktop/labels_training_set.csv')

In [51]:
eventos.head()

Unnamed: 0,timestamp,event,person,url,sku,model,condition,storage,color,skus,...,search_engine,channel,new_vs_returning,city,region,country,device_type,screen_resolution,operating_system_version,browser_version
0,2018-05-18 00:11:59,viewed product,4886f805,,9288.0,Samsung Galaxy J7 Prime,Excelente,32GB,Dourado,,...,,,,,,,,,,
1,2018-05-18 00:11:27,viewed product,ad93850f,,304.0,iPhone 5s,Muito Bom,32GB,Cinza espacial,,...,,,,,,,,,,
2,2018-05-18 00:11:16,viewed product,0297fc1e,,6888.0,iPhone 6S,Muito Bom,64GB,Prateado,,...,,,,,,,,,,
3,2018-05-18 00:11:14,viewed product,2d681dd8,,11890.0,iPhone 7,Bom,128GB,Vermelho,,...,,,,,,,,,,
4,2018-05-18 00:11:09,viewed product,cccea85e,,7517.0,LG G4 H818P,Excelente,32GB,Branco,,...,,,,,,,,,,


In [52]:
labels.head()

Unnamed: 0,person,label
0,0566e9c1,0
1,6ec7ee77,0
2,abe7a2fb,0
3,34728364,0
4,87ed62de,0


In [53]:
eventos["timestamp"] = pd.to_datetime(eventos["timestamp"])

El csv de labels tiene las personas y un booleano indicando si compraron. Por lo tanto mi objetivo es transformar el csv de eventos en uno que tenga información para cada persona.

In [54]:
# Como estoy evaluando a los usuarios no me interesa los eventos que no tengan una persona asociada
eventos.loc[eventos['person'].isnull() == True,:]

Unnamed: 0,timestamp,event,person,url,sku,model,condition,storage,color,skus,...,search_engine,channel,new_vs_returning,city,region,country,device_type,screen_resolution,operating_system_version,browser_version


In [55]:
eventos['marca'] = eventos['model'].str.split(' ', n = 1, expand = True)[0]

In [56]:
eventos['marca'].unique()

array(['Samsung', 'iPhone', 'LG', nan, 'Motorola', 'iPad', 'Sony',
       'Lenovo', 'Quantum', 'Asus', 'Xiaomi', 'Outros'], dtype=object)

In [57]:
eventos['Samsung'] = (eventos['marca'] == 'Samsung')
eventos['iPhone'] = (eventos['marca'] == 'iPhone')
eventos['LG'] = (eventos['marca'] == 'LG')
eventos['Motorola'] = (eventos['marca'] == 'Motorola')
eventos['iPad'] = (eventos['marca'] == 'iPad')
eventos['Sony'] = (eventos['marca'] == 'Sony')
eventos['Lenovo'] = (eventos['marca'] == 'Lenovo')
eventos['Quantum'] = (eventos['marca'] == 'Quantum')
eventos['Asus'] = (eventos['marca'] == 'Asus')
eventos['Xiaomi'] = (eventos['marca'] == 'Xiaomi')
eventos['Outros'] = (eventos['marca'] == 'Outros')

Se me ocurre que podría extraer la columa "event" y hacer una columna por cada evento con un booleano, esto me ayudaria a contar la cantidad de veces que se registraron los eventos para cada usuario.

In [58]:
eventos['viewed_product'] = (eventos['event'] == 'viewed product')
eventos['brand_listing'] = (eventos['event'] == 'brand listing')
eventos['visited_site'] = (eventos['event'] == 'visited site')
eventos['ad_campaign_hit'] = (eventos['event'] == 'ad campaign hit')
eventos['generic_listing'] = (eventos['event'] == 'generic listing')
eventos['searched_products'] = (eventos['event'] == 'searched products')
eventos['search_engine_hit'] = (eventos['event'] == 'search engine hit')
eventos['checkout'] = (eventos['event'] == 'checkout')
eventos['staticpage'] = (eventos['event'] == 'staticpage')
eventos['conversion'] = (eventos['event'] == 'conversion')
eventos['lead'] = (eventos['event'] == 'lead')

In [59]:
eventos.head()

Unnamed: 0,timestamp,event,person,url,sku,model,condition,storage,color,skus,...,viewed_product,brand_listing,visited_site,ad_campaign_hit,generic_listing,searched_products,search_engine_hit,checkout,conversion,lead
0,2018-05-18 00:11:59,viewed product,4886f805,,9288.0,Samsung Galaxy J7 Prime,Excelente,32GB,Dourado,,...,True,False,False,False,False,False,False,False,False,False
1,2018-05-18 00:11:27,viewed product,ad93850f,,304.0,iPhone 5s,Muito Bom,32GB,Cinza espacial,,...,True,False,False,False,False,False,False,False,False,False
2,2018-05-18 00:11:16,viewed product,0297fc1e,,6888.0,iPhone 6S,Muito Bom,64GB,Prateado,,...,True,False,False,False,False,False,False,False,False,False
3,2018-05-18 00:11:14,viewed product,2d681dd8,,11890.0,iPhone 7,Bom,128GB,Vermelho,,...,True,False,False,False,False,False,False,False,False,False
4,2018-05-18 00:11:09,viewed product,cccea85e,,7517.0,LG G4 H818P,Excelente,32GB,Branco,,...,True,False,False,False,False,False,False,False,False,False


La columna "timestamp" me parece muy importante pero como voy a tener que agrupar todos los eventos de una persona a una sola fila necesito hacer algo con ella. Se me ocurre que puedo agregar columnas para determinar si cada evento tuvo lugar por ejemplo una columa por mes. Esta creación de columnas va a estar muy ligada al hecho que los datos que tenemos van desde principio de este año hasta junio.

In [60]:
eventos["mes"] = eventos["timestamp"].dt.month
eventos["dia"] = eventos["timestamp"].dt.dayofyear
eventos["semana"] = eventos["timestamp"].dt.week

In [61]:
# Obtengo la ultima fecha disponible en el csv para tener un punto de partida
ultima_fecha = eventos["timestamp"].max()
ultimo_dia = ultima_fecha.dayofyear
ultimo_mes = ultima_fecha.month
ultima_semana = ultima_fecha.week

In [62]:
# Agrego columnas para los m meses más cercanos
for m in range (0, ultimo_mes):
    eventos["mes_pasado_" + str(m)] = (eventos["mes"] == (ultimo_mes - m))

In [63]:
# Agrego columnas para las s semanas más cercanas
for s in range (0, 5):
    eventos["semana_pasada_" + str(s)] = (eventos["semana"] == (ultima_semana - s))

In [64]:
# Agrego columnas para los d días más cercanos
for d in range (0, 7):
    eventos["dia_pasado_" + str(d)] = (eventos["dia"] == (ultimo_dia - d))

In [65]:
eventos.columns

Index([u'timestamp', u'event', u'person', u'url', u'sku', u'model',
       u'condition', u'storage', u'color', u'skus', u'search_term',
       u'staticpage', u'campaign_source', u'search_engine', u'channel',
       u'new_vs_returning', u'city', u'region', u'country', u'device_type',
       u'screen_resolution', u'operating_system_version', u'browser_version',
       u'marca', u'Samsung', u'iPhone', u'LG', u'Motorola', u'iPad', u'Sony',
       u'Lenovo', u'Quantum', u'Asus', u'Xiaomi', u'Outros', u'viewed_product',
       u'brand_listing', u'visited_site', u'ad_campaign_hit',
       u'generic_listing', u'searched_products', u'search_engine_hit',
       u'checkout', u'conversion', u'lead', u'mes', u'dia', u'semana',
       u'mes_pasado_0', u'mes_pasado_1', u'mes_pasado_2', u'mes_pasado_3',
       u'mes_pasado_4', u'semana_pasada_0', u'semana_pasada_1',
       u'semana_pasada_2', u'semana_pasada_3', u'semana_pasada_4',
       u'dia_pasado_0', u'dia_pasado_1', u'dia_pasado_2', u'dia_pasado

In [66]:
eventos = eventos.loc[:,['person', 'viewed_product', 'brand_listing', 'visited_site',
       'ad_campaign_hit', 'generic_listing', 'searched_products',
       'Samsung', 'iPhone', 'LG', 'Motorola', 'iPad', 'Sony',
       'Lenovo', 'Quantum', 'Asus', 'Xiaomi', 'Outros',
       'search_engine_hit', 'checkout', 'conversion', 'lead',
       'mes_pasado_0', 'mes_pasado_1', 'mes_pasado_2', 'mes_pasado_3', 'mes_pasado_4'
       'semana_pasada_0', 'semana_pasada_1', 'semana_pasada_2',
       'semana_pasada_3', 'semana_pasada_4',
       'dia_pasado_0', 'dia_pasado_1', 'dia_pasado_2', 'dia_pasado_3', 'dia_pasado_4', 
        'dia_pasado_5', 'dia_pasado_6']]

In [41]:
usuarios = eventos.groupby('person', as_index=False).sum()

In [42]:
# Incluyo solo los eventos de los usuarios que tengo labels
usuarios_con_labels = usuarios.loc[usuarios['person'].isin(labels['person'])]

In [43]:
usuarios_con_labels = usuarios_con_labels.set_index('person')

In [44]:
labels = labels.set_index('person')

In [45]:
# FIN DE LA PREPARACION DE LOS DATAFRAMES