### =======================================================================
### IMPORTACIÓN DE DATOS.
### =======================================================================

In [1]:
## IMPORTACIÓN GENERAL DE LIBRERIAS Y VISUALIZACIÓN DE DATOS (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as DT
import warnings
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
from sklearn.cross_validation import train_test_split
import xgboost as xgb

%matplotlib inline
warnings.filterwarnings('ignore')
plt.style.use('default') 
sns.set(style="whitegrid") 
plt.rcParams['figure.figsize'] = (15, 10)
pd.set_option('display.max_columns', 1000)
np.set_printoptions(threshold=np.nan)



In [57]:
## OBTENEMOS TODA LA INFORMACIÓN DE LOS DIFERENTES EVENTOS.
eventos = pd.read_csv('events_up_to_01062018.csv', encoding = 'utf-8')

In [58]:
eventos.head()

Unnamed: 0,timestamp,event,person,url,sku,model,condition,storage,color,skus,search_term,staticpage,campaign_source,search_engine,channel,new_vs_returning,city,region,country,device_type,screen_resolution,operating_system_version,browser_version
0,2018-05-18 00:11:59,viewed product,4886f805,,9288.0,Samsung Galaxy J7 Prime,Excelente,32GB,Dourado,,,,,,,,,,,,,,
1,2018-05-18 00:11:27,viewed product,ad93850f,,304.0,iPhone 5s,Muito Bom,32GB,Cinza espacial,,,,,,,,,,,,,,
2,2018-05-18 00:11:16,viewed product,0297fc1e,,6888.0,iPhone 6S,Muito Bom,64GB,Prateado,,,,,,,,,,,,,,
3,2018-05-18 00:11:14,viewed product,2d681dd8,,11890.0,iPhone 7,Bom,128GB,Vermelho,,,,,,,,,,,,,,
4,2018-05-18 00:11:09,viewed product,cccea85e,,7517.0,LG G4 H818P,Excelente,32GB,Branco,,,,,,,,,,,,,,


### =======================================================================
### ARMADO DE FEATURES.
### =======================================================================\

In [59]:
## PASAMOS LAS COLUMNAS QUE TIENEN UNA CANTIDAD DE VALORES LIMITADA A UN TIPO CATEGORY
eventos['event'] = eventos['event'].astype('category')
eventos['search_engine'] = eventos['search_engine'].astype('category')
eventos['channel'] = eventos['channel'].astype('category')
eventos['new_vs_returning'] = eventos['new_vs_returning'].astype('category')
eventos['device_type'] = eventos['device_type'].astype('category')
eventos['color'] = eventos['color'].astype('category')
eventos['region'] = eventos['region'].astype('category')
#eventos['city'] = eventos['city'].astype('category')
#eventos['browser_version'] = eventos['browser_version'].astype('category')
eventos['screen_resolution'] = eventos['screen_resolution'].astype('category')
eventos['timestamp'] = pd.to_datetime(eventos['timestamp'], infer_datetime_format=True)

In [60]:
## ORDENAMOS LOS DATOS ṔOR PERSONAS EN PRIMER LUGAR Y TIEMPO EN SEGUNDO.
#eventos.sort_values(['person', 'timestamp'], ascending=[True, True], inplace=True)

In [61]:
## DIFERENCIAMOS EN TRES COLUMNAS DIFERENTES EL DIA, MES Y AÑO.
eventos['mes'] = eventos['timestamp'].dt.month
eventos['dia'] = eventos['timestamp'].dt.day
eventos['hora'] = eventos['timestamp'].dt.hour

In [62]:
## ARMAMOS UNA COLUMNA PARA EL DÍA DE LA SEMANA COMO NOMBRE.
eventos['diasemana'] = eventos['timestamp'].dt.weekday_name
## PONEMOS LOS NOMBRES DE MANERA MÁS PROLIJA PARA LOS GRÁFICOS.
eventos.loc[eventos.diasemana.str.contains('Monday', na=False), 'diasemana'] = 'lunes'
eventos.loc[eventos.diasemana.str.contains('Tuesday', na=False), 'diasemana'] = 'martes'
eventos.loc[eventos.diasemana.str.contains('Wednesday', na=False), 'diasemana'] = 'miercoles'
eventos.loc[eventos.diasemana.str.contains('Thursday', na=False), 'diasemana'] = 'jueves'
eventos.loc[eventos.diasemana.str.contains('Friday', na=False), 'diasemana'] = 'viernes'
eventos.loc[eventos.diasemana.str.contains('Saturday', na=False), 'diasemana'] = 'sabado'
eventos.loc[eventos.diasemana.str.contains('Sunday', na=False), 'diasemana'] = 'domingo'

In [63]:
# AGREGAMOS UNA COLUMNA PARA INDICAR SI EL EVENTO OCURRIO UN FIN DE SEMANA
eventos['evento_en_finde'] = 0
eventos.loc[(eventos.diasemana.str.contains('DOM', na=False) | eventos.diasemana.str.contains('SAB', na=False)), 'evento_en_finde'] = 1

In [64]:
# DEFINIMOS EL MES COMO NOMBRE PARA FACILITAR LAS COLUMNAS
eventos['mesMayus'] = ''
eventos.loc[eventos.mes == 1, 'mesMayus'] = 'enero'
eventos.loc[eventos.mes == 2, 'mesMayus'] = 'febrero'
eventos.loc[eventos.mes == 3, 'mesMayus'] = 'marzo'
eventos.loc[eventos.mes == 4, 'mesMayus'] = 'abril'
eventos.loc[eventos.mes == 5, 'mesMayus'] = 'mayo'
eventos.loc[eventos.mes == 6, 'mesMayus'] = 'junio'
eventos.loc[eventos.mes == 7, 'mesMayus'] = 'julio'
eventos.loc[eventos.mes == 8, 'mesMayus'] = 'agosto'
eventos.loc[eventos.mes == 9, 'mesMayus'] = 'septiembre'
eventos.loc[eventos.mes == 10, 'mesMayus'] = 'octubre'
eventos.loc[eventos.mes == 11, 'mesMayus'] = 'noviembre'
eventos.loc[eventos.mes == 12, 'mesMayus'] = 'diciembre'

In [65]:
# ARMAMOS UNA LÓGICA PARA SEGMENTAR LAS FRANJAS HORARIAS.
# MADRUGADA de 00 a 06
eventos['hora_madrugada'] = 0
eventos.loc[((eventos.hora > -1) & (eventos.hora < 7)), 'hora_madrugada'] = 1
# MAÑANA de 07 a 11
eventos['hora_maniana'] = 0
eventos.loc[((eventos.hora > 6) & (eventos.hora < 12)), 'hora_maniana'] = 1
# ALMUERZO de 12 a 13
eventos['hora_almuerzo'] = 0
eventos.loc[((eventos.hora > 11) & (eventos.hora < 14)), 'hora_almuerzo'] = 1
# TARDE de 14 a 18
eventos['hora_tarde'] = 0
eventos.loc[((eventos.hora > 13) & (eventos.hora < 19)), 'hora_tarde'] = 1
# NOCHE de 19 a 23
eventos['hora_noche'] = 0
eventos.loc[((eventos.hora > 18) & (eventos.hora < 24)), 'hora_noche'] = 1
# TRANSFORMAMOS EN CATEGÓRICAS EL DÍA DE LA SEMANA Y EL MES.
eventos['diasemana'] = eventos['diasemana'].astype('category')
eventos['mesMayus'] = eventos['mesMayus'].astype('category')

In [66]:
## CREAMOS UNA COLUMNA CON CONTENIDO VACIO.
eventos['sistema'] = 'OtrosSistemas'
## SEGÚN QUE FAMILIA DE SO POSEA ACTUALIZAMOS NUESTRA NUEVA COLUMNA.
eventos.loc[eventos.operating_system_version.str.contains('Mac', na=False), 'sistema'] = 'MacOS'
eventos.loc[eventos.operating_system_version.str.contains('iOS', na=False), 'sistema'] = 'iOS'
eventos.loc[eventos.operating_system_version.str.contains('Chrome', na=False), 'sistema'] = 'ChromeOS'
eventos.loc[eventos.operating_system_version.str.contains('Tizen', na=False), 'sistema'] = 'Tizen'
eventos.loc[eventos.operating_system_version.str.contains('Android', na=False), 'sistema'] = 'Android'
eventos.loc[eventos.operating_system_version.str.contains('Windows Phone', na=False), 'sistema'] = 'Windows Phone'
eventos.loc[eventos.operating_system_version.str.contains('Ubuntu', na=False), 'sistema'] = 'Ubuntu'
eventos.loc[eventos.operating_system_version.str.contains('Linux', na=False), 'sistema'] = 'Linux'
## CASO PARTICULAR, WINDOWS Y WINDOWS PHONE COMPARTEN LA PALABRA.
eventos.loc[(eventos.operating_system_version.str.contains('Windows', na=False) & ~eventos.operating_system_version.str.contains('Phone', na=False)), 'sistema'] = 'Windows'
## AHORA SI PASAMOS LA COLUMNA DE SISTEMAS OPERATIVOS A UN ENUMERATIVO.
eventos['operating_system_version'] = eventos['operating_system_version'].astype('category')
eventos['sistema'] = eventos['sistema'].astype('category')

In [67]:
## AGREGAMOS UNA COLUMNA PARA DIFERENCIAR LAS MARCAS.
eventos['marca'] = 'OtrasMarcas'
## VAMOS OBTENIENDO LAS MARCAS SEGÚN LAS PALABRAS CLAVES QUE LAS CONFORMAN.
eventos.loc[eventos.model.str.contains('Samsung', na=False), 'marca'] = 'Samsung'
eventos.loc[eventos.model.str.contains('Motorola', na=False), 'marca'] = 'Motorola'
eventos.loc[eventos.model.str.contains('Sony', na=False), 'marca'] = 'Sony'
eventos.loc[eventos.model.str.contains('LG ', na=False), 'marca'] = 'LG'
eventos.loc[eventos.model.str.contains('iPad', na=False), 'marca'] = 'iPad'
eventos.loc[eventos.model.str.contains('Asus', na=False), 'marca'] = 'Asus'
eventos.loc[eventos.model.str.contains('iPhone', na=False), 'marca'] = 'iPhone'
eventos.loc[eventos.model.str.contains('Quantum', na=False), 'marca'] = 'Quantum'
eventos.loc[eventos.model.str.contains('Lenovo', na=False), 'marca'] = 'Lenovo'
## AHORA SI PASAMOS LA COLUMNA DE MODELOS A UN ENUMERATIVO.
eventos['model'] = eventos['model'].astype('category')
eventos['marca'] = eventos['marca'].astype('category')

In [68]:
# AGREGAMOS UNA COLUMNA PARA DIFERENCIAR BRASIL DEL RESTO.
eventos['pais'] = 'OtrosPaises'
eventos.loc[eventos.country.str.contains('Brazil', na=False), 'pais'] = 'Brasil'
## AHORA SI PASAMOS LA COLUMNA DE PAISES A UN ENUMERATIVO.
eventos['pais'] = eventos['pais'].astype('category')
eventos['country'] = eventos['country'].astype('category')
#eventos['pais'] = 'OtrosPaises'
#paisesMasPopulares = eventos['country'].value_counts().to_frame().reset_index().head()['index']
#eventos.loc[eventos['country'].isin(paisesMasPopulares), 'pais'] = eventos['country']
#eventos['pais'] = eventos['pais'].astype('category')
#eventos['pais'].value_counts()

In [69]:
## COLUMNA DE CIUDAD
eventos['ciudad'] = 'OtraCiudad'
ciudadesMasPopulares = eventos['city'].value_counts().to_frame().reset_index().head(200)['index']
eventos.loc[eventos['city'].isin(ciudadesMasPopulares), 'ciudad'] = eventos['city']
eventos['ciudad'] = eventos['ciudad'].astype('category')

In [70]:
## COLUMNA DE NAVEGADOR
# eventos['navegador'] = 'OtroNavegador'
# navegadoresMasPopulares = eventos['browser_version'].value_counts().to_frame().reset_index().head(50)['index']
# eventos.loc[eventos['browser_version'].isin(navegadoresMasPopulares), 'navegador'] = eventos['browser_version']
# eventos['navegador'] = eventos['navegador'].astype('category')
eventos['navegador'] = 'OtroNavegador'
eventos.loc[(eventos.browser_version.str.contains('Chrome', na=False) & ~eventos.browser_version.str.contains('Mobile', na=False)), 'navegador'] = 'Chrome'
eventos.loc[(eventos.browser_version.str.contains('Chrome', na=False) & eventos.browser_version.str.contains('Mobile', na=False)), 'navegador'] = 'Chrome Mobile'
eventos.loc[eventos.browser_version.str.contains('Edge', na=False), 'navegador'] = 'Edge'
eventos.loc[eventos.browser_version.str.contains('Facebook', na=False), 'navegador'] = 'Facebook'
eventos.loc[eventos.browser_version.str.contains('Firefox ', na=False), 'navegador'] = 'Firefox'
eventos.loc[eventos.browser_version.str.contains('Opera', na=False), 'navegador'] = 'Opera'
eventos.loc[(eventos.browser_version.str.contains('Safari', na=False) & ~eventos.browser_version.str.contains('Mobile', na=False)), 'navegador'] = 'Safari'
eventos.loc[(eventos.browser_version.str.contains('Safari', na=False) & eventos.browser_version.str.contains('Mobile', na=False)), 'navegador'] = 'Safari Mobile'
eventos['navegador'] = eventos['navegador'].astype('category')

In [71]:
eventos['Capacidad_en_GB'] = 0
eventos.loc[eventos.storage.str.contains('16GB', na=False), 'Capacidad_en_GB'] = 16
eventos.loc[eventos.storage.str.contains('32GB', na=False), 'Capacidad_en_GB'] = 32
eventos.loc[eventos.storage.str.contains('64GB', na=False), 'Capacidad_en_GB'] = 64
eventos.loc[eventos.storage.str.contains('128GB', na=False), 'Capacidad_en_GB'] = 128
eventos.loc[eventos.storage.str.contains('8GB', na=False), 'Capacidad_en_GB'] = 8
eventos.loc[eventos.storage.str.contains('256GB', na=False), 'Capacidad_en_GB'] = 256
eventos.loc[eventos.storage.str.contains('4GB', na=False), 'Capacidad_en_GB'] = 4
eventos.loc[eventos.storage.str.contains('512MB', na=False), 'Capacidad_en_GB'] = 0.512
eventos['storage'] = eventos['storage'].astype('category')

In [72]:
## CREAMOS UNA COLUMNA PARA DIFERENCIAR LA CONDICION.
eventos['Puntaje'] = 0
## ABSTRAEMOS SOLO AQUELLOS QUE TIENEN UNA CONDICIÓN ASOCIADA Y LO PASAMOS A NUESTRO IDIOMA.
eventos.loc[eventos.condition.str.contains('Excelente', na=False), 'Puntaje'] = 4
eventos.loc[eventos.condition.str.contains('Muito Bom', na=False), 'Puntaje'] = 3
eventos.loc[eventos.condition.str.contains('Novo', na=False), 'Puntaje'] = 5
## SOLO NOS QUEDAN DOS TIPOS DE EVENTOS QUE SON REFERENCIA A LOS 'BUENOS'
eventos.loc[eventos.Puntaje == 0, 'Puntaje'] = 2
eventos['condition'] = eventos['condition'].astype('category')

In [73]:
# COMO TENEMOS UN EVENTO CON EL MISMO NOMBRE SE GENERA CONFLICTOS, 
# ERGO LE MODIFICAMOS EL NOMBRE PARA NO TENER DOS COLUMNAS CON = NOMBRE Y DISTINTO TIPO.
eventos.rename(columns={'staticpage': 'Genstatpage'}, inplace=True)
aux = eventos


In [112]:
eventos = aux

In [113]:
# COLUMNAS DONDE POR CADA REGISTRO SABEMOS QUE TENEMOS UN VALOR (SIEMPRE PRESENTES)
##################### DIA DE SEMANA
#dummies = pd.get_dummies(eventos['diasemana'], drop_first=False)
#eventos = pd.concat([eventos, dummies], axis=1)
##################### MES
dummies = pd.get_dummies(eventos['mesMayus'], drop_first=False)
eventos = pd.concat([eventos, dummies], axis=1)
##################### TIPOS DE EVENTOS
dummies = pd.get_dummies(eventos['event'], drop_first=False)
eventos = pd.concat([eventos, dummies], axis=1)
##################### ALMACENAMIENTO
#dummies = pd.get_dummies(eventos['storage'], drop_first=False)
#eventos = pd.concat([eventos, dummies], axis=1)
##################### CONDICION DEL DISPOSITIVO
#dummies = pd.get_dummies(eventos['condition'], drop_first=False)
#eventos = pd.concat([eventos, dummies], axis=1)
##################### USUARIO NUEVO O NO
dummies = pd.get_dummies(eventos['new_vs_returning'], drop_first=False)
eventos = pd.concat([eventos, dummies], axis=1)
##################### SISTEMA OPERATIVO
dummies = pd.get_dummies(eventos['sistema'], drop_first=False)
eventos = pd.concat([eventos, dummies], axis=1)
##################### MARCA
dummies = pd.get_dummies(eventos['marca'], drop_first=False)
eventos = pd.concat([eventos, dummies], axis=1)
##################### PAIS DE EVENTO
#dummies = pd.get_dummies(eventos['pais'], drop_first=False)
#eventos = pd.concat([eventos, dummies], axis=1)
#eventos.rename(columns={'Unknown': 'Unknown_country'}, inplace=True)
##################### TIPO DE DISPOSITIVO
dummies = pd.get_dummies(eventos['device_type'], drop_first=False)
eventos = pd.concat([eventos, dummies], axis=1)
eventos.rename(columns={'Unknown': 'Unknown_device_type'}, inplace=True)
##################### CIUDAD
#dummies = pd.get_dummies(eventos['ciudad'], drop_first=False)
#eventos = pd.concat([eventos, dummies], axis=1)
#eventos.drop(['Unknown'], axis=1)
##################### NAVEGADOR
dummies = pd.get_dummies(eventos['navegador'], drop_first=False)
eventos = pd.concat([eventos, dummies], axis=1)
#####################


In [114]:
eventos.rename(columns={'generic listing': 'geneList', 'staticpage': 'statpage', 'Unknown': 'Unknown_city', 'staticpage': 'SP'}, inplace=True)

In [115]:
eventos['navegador'].value_counts()

OtroNavegador    2145472
Chrome             87918
Chrome Mobile      85915
Safari Mobile       7730
Firefox             7004
Facebook            3064
Edge                2752
Opera               1600
Safari               226
Name: navegador, dtype: int64

In [116]:
columnas_relevantes = list(eventos.select_dtypes(include=['int','float64','uint8']).columns)

columnas_relevantes.remove('sku')
columnas_relevantes.append('person')
eventos_filtrados = eventos.loc[:, eventos.columns.isin(columnas_relevantes)]
columnas_relevantes.remove('person')

eventos_por_usuario = eventos_filtrados.groupby('person')[columnas_relevantes].sum().astype(np.float16).reset_index()


In [117]:
columnas_relevantes

['Capacidad_en_GB',
 'abril',
 'enero',
 'febrero',
 'marzo',
 'mayo',
 'ad campaign hit',
 'brand listing',
 'checkout',
 'conversion',
 'geneList',
 'lead',
 'search engine hit',
 'searched products',
 'SP',
 'viewed product',
 'visited site',
 'New',
 'Returning',
 'Android',
 'ChromeOS',
 'Linux',
 'MacOS',
 'OtrosSistemas',
 'Tizen',
 'Ubuntu',
 'Windows',
 'Windows Phone',
 'iOS',
 'Asus',
 'LG',
 'Lenovo',
 'Motorola',
 'OtrasMarcas',
 'Quantum',
 'Samsung',
 'Sony',
 'iPad',
 'iPhone',
 'Computer',
 'Smartphone',
 'Tablet',
 'Unknown_device_type',
 'Chrome',
 'Chrome Mobile',
 'Edge',
 'Facebook',
 'Firefox',
 'Opera',
 'OtroNavegador',
 'Safari',
 'Safari Mobile']

In [118]:
columnas_relevantes.remove('Capacidad_en_GB')

### =======================================================================
### ENTRENAMIENTO Y PREDICCIÓN.
### =======================================================================

In [119]:
## OBTENEMOS TODA LA INFORMACIÓN DEL SET DE ENTRENAMIENTO.
y_train = pd.read_csv('labels_training_set.csv', encoding = 'utf-8')
test_users = pd.read_csv('trocafone_kaggle_test.csv', encoding = 'utf-8')

In [120]:
## Filtramos los eventos para los usuarios que se encuentran en el set de entrenamiento
train = pd.merge(eventos_por_usuario, y_train, on='person', how='inner')
test = pd.merge(eventos_por_usuario, test_users)

In [121]:
features = list(columnas_relevantes)
x = train[features]
y = train['label']

In [122]:
xtrain, xtest, ytrain, ytest = train_test_split(x, y, random_state = 1)

In [123]:
for estimators in range(190, 210, 5):
    xgboost = xgb.XGBClassifier(n_estimators=estimators, max_depth=3, learning_rate=0.05)
    xgboost.fit(xtrain, ytrain)
    y_pred_rf = xgboost.predict_proba(xtest)[:,1]
    print('estimators:' + str(estimators) + ' depth:' + str(3) + ' - ' + str(metrics.roc_auc_score(ytest, y_pred_rf)))

estimators:190 depth:3 - 0.8724618977878091
estimators:195 depth:3 - 0.8722628746966683
estimators:200 depth:3 - 0.8724984894772119
estimators:205 depth:3 - 0.8725435597287932


learning_rate=0.04
estimators:197 depth:3 - 0.8753124796402947
estimators:198 depth:3 - 0.8752196616964443
estimators:199 depth:3 - 0.8752205541766737
estimators:200 depth:3 - 0.875216091775527
estimators:201 depth:3 - 0.8752196616964443
estimators:202 depth:3 - 0.8753098021996067


In [124]:
xgboost = xgb.XGBClassifier(n_estimators=200, learning_rate=0.05)
xgboost.fit(x, y)
y_pred_rf = xgboost.predict_proba(test[features])[:,1]

In [125]:
## =================================================================================================
## ARMAMOS EN BASE A LA PREDICCIÓN QUE TENEMOS UN CSV PARA SUBIR A KAGGLE CON EL FORMATO INDICADO.
## =================================================================================================
submission = pd.DataFrame({ 'label': y_pred_rf, 'person': test['person'] })
submission.to_csv("submission_grupo17_XGB.csv", index=False)

In [126]:
## SE AGREGÓ EL FEATURE QUE ENGLOBA LOS SISTEMAS OPERATIVOS MÁS COMUNES UTILIZADOS O BUSCADOS POR LOS USUARIOS:
## PREVIAMENTE TENÍAMOS: 0.84077
## RESULTADO DEL SUBMIT: 0.85216 >> VEMOS UNA MEJORA.

In [127]:
## SE AGREGÓ EL FEATURE QUE ENGLOBA LOS MODELOS MÁS COMUNES UTILIZADOS O BUSCADOS POR LOS USUARIOS:
## PREVIAMENTE TENÍAMOS: 0.85216
## RESULTADO DEL SUBMIT:0.85294 >> VEMOS UNA MEJORA.

In [128]:
## SE AGREGÓ UN PAR DE FEATURES (pais, device_type, Capacidad_en_GB, Puntaje):
## PREVIAMENTE TENÍAMOS: 0.85294
## RESULTADO DEL SUBMIT: 0.85524 >> VEMOS UNA MEJORA.

In [129]:
## AHORA LO QUE SE BUSCA ES HACER EL PROMEDIO EN LUGAR DE LA SUMA:
## PREVIAMENTE TENÍAMOS: 0.85524
## RESULTADO DEL SUBMIT: 0.85519 >> CON LO CUAL EMPEORA.

## Tocando los hiperparametros >> 0.85546

In [130]:
## AGREGAMOS LAS CIUDADES CON MAS EVENTOS
## PREVIAMENTE TENÍAMOS: 0.85546
## RESULTADO DEL SUBMIT: 0.85438 >> CON LO CUAL EMPEORA.