# [75.06 / 95.58] Organización de Datos <br> Trabajo Práctico 2: Machine Learning
# Notebook Principal

**Grupo 30: Datatouille**

- 101055 - Bojman, Camila
- 100029 - del Mazo, Federico
- 100687 - Hortas, Cecilia
- 97649 - Souto, Rodrigo

**http://fdelmazo.github.io/7506-Datos/**

**https://www.kaggle.com/datatouille2018/competitions**

Continuando la investigación sobre la empresa Trocafone realizada en el [TP1](https://fdelmazo.github.io/7506-Datos/TP1/TP1.html), se busca determinar la probabilidad de que un usuario del sitio realice una conversión en el período determinado.

Notebooks en orden de corrida y lectura:

0. [TP1](https://fdelmazo.github.io/7506-Datos/TP1/TP1.html) --> Familiarización con el set de datos y exploración de estos.

1. [Investigación Previa](https://fdelmazo.github.io/7506-Datos/TP2/investigacion.html) --> Con ayuda de lo trabajado en el TP1, se averiguan más cosas de las datos, en busqueda de que poder reutilizar.

2. [Creación de Dataframes](https://fdelmazo.github.io/7506-Datos/TP2/new_dataframes.html) --> Como parte del feature engineering, se crean dataframes nuevos con información de los productos del sitio y de como se accede a este (marcas, sistemas operativos, etc).

3. [Feature Engineering](https://fdelmazo.github.io/7506-Datos/TP2/feature_engineering.html) --> Busqueda de atributos de los usuarios de los cuales se busca predecir la conversión.

4. [Submission Framework](https://fdelmazo.github.io/7506-Datos/TP2/submission_framework.html) --> Pequeño framework para construir las postulaciones de labels. 

5. [Parameter Tuning](https://fdelmazo.github.io/7506-Datos/TP2/parameter_tuning.html) --> Busqueda de los mejores hiper-parametros para cada algoritmo de ML.

6. [Feature Selection](https://fdelmazo.github.io/7506-Datos/TP2/feature_selection.html) --> Busqueda de la combinación de features más favorable.

7. TP2 (este notebook)--> Teniendo todo en cuenta, usando los dataframes con todos los atributos buscados y encontrados, se definen y aplican los algoritmos de clasificación, se realizan los entrenamientos y posteriores predicciones de conversiones y finalmente se arman las postulaciones de labels.

**Antes de comenzar, setear las credenciales (usuario y token)**
1. Visitar: https://www.kaggle.com/datatouille2018/account (con la cuenta que sea)
2. Tocar en Create New API Token
3. Guardar el archivo descargado en ~/.kaggle/kaggle.json

In [None]:
# !unzip -q data/events_up_to_01062018.zip -d data

# !pip install kaggle
# !pip install nbimporter
# !conda install -y -c conda-forge xgboost 
# !conda install -y -c conda-forge lightgbm 
# !conda install -y -c conda-forge catboost

In [None]:
import nbimporter # pip install nbimporter
import pandas as pd
import numpy as np
import calendar
import requests
from bs4 import BeautifulSoup
from time import sleep
from parameter_tuning import get_hiper_params
from feature_selection import get_feature_selection
import submission_framework as SF

seed = 42
hiper_params = get_hiper_params()
feature_selection = get_feature_selection()

In [None]:
df_users = pd.read_csv('data/user-features.csv',low_memory=False).set_index('person')
df_y = pd.read_csv('data/labels_training_set.csv').groupby('person').sum()

display(df_users.head(), df_y.head())

## Algoritmos de Machine Learning

In [None]:
posibilidades_algoritmos = []

---

### Decision Tree


In [None]:
from sklearn.tree import DecisionTreeClassifier, export_graphviz

model_name = 'decision_tree'
params = hiper_params[model_name]
model = DecisionTreeClassifier(**params,random_state=seed)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)

posibilidades_algoritmos.append(model_with_name)

---

### Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

model_name = 'random_forest'
params = hiper_params[model_name]
model = RandomForestClassifier(**params,random_state=seed)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)

posibilidades_algoritmos.append(model_with_name)

---

### XGBoost


In [None]:
import xgboost as xgb #conda install -c conda-forge xgboost 

model_name = 'xgboost'
params = hiper_params[model_name]
model = xgb.XGBClassifier(**params,random_state=seed)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)

posibilidades_algoritmos.append(model_with_name)

---

### KNN

In [None]:
from sklearn.neighbors import KNeighborsClassifier

model_name = 'knn'
params = hiper_params[model_name]
K = params['n_neighbors']
model_name = f'KNN{K}'

model = KNeighborsClassifier(**params)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)

posibilidades_algoritmos.append(model_with_name)

---

### Naive-Bayes

In [None]:
from sklearn.naive_bayes import GaussianNB

model_name = 'naive_bayes'
params = hiper_params[model_name]
model = GaussianNB(**params)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)

posibilidades_algoritmos.append(model_with_name)

---

### LightGBM

In [None]:
import lightgbm as lgb  #conda install -c conda-forge lightgbm 

model_name = 'lightgbm'
params = hiper_params[model_name]
model = lgb.LGBMClassifier(**params)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)

posibilidades_algoritmos.append(model_with_name)

---

### Neural Network

In [None]:
from sklearn.neural_network import MLPClassifier

model_name = 'neuralnetwork'
params = hiper_params[model_name]
model = MLPClassifier(**params)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)
posibilidades_algoritmos.append(model_with_name)

---

### Catboost

In [None]:
import catboost as cb #conda install -c conda-forge catboost

model_name = 'catboost'
params = hiper_params[model_name]

model = cb.CatBoostClassifier(**params,verbose=False)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)
posibilidades_algoritmos.append(model_with_name)

---

### Gradient Boosting

In [None]:
from sklearn.ensemble import GradientBoostingClassifier as GBC  

model_name = 'gradient_boosting'
params = hiper_params[model_name]

model = GBC(**params)
model_with_name = (model_name,model)

SF.full_framework_wrapper(df_users,df_y,model_with_name)
posibilidades_algoritmos.append(model_with_name)

---

## Encontrando el mejor submit

Corremos todos los algoritmos definidos sobre esas combinaciones, incluso ensamblados, en busqueda de su mejor combinación de hiper-parametros.

Finalmente, se corren todos los algoritmos en su mejor combinación contra todos los set de features definidos, en busqueda de la mejor fusión universal.

In [None]:
columnas_a_mano = ['total_checkouts_month_5',
                    'timestamp_last_checkout',
                    'timestamp_last_event',
                    'has_checkout_month_5',
                    'total_checkouts',
                    'days_to_last_event',
                    'total_checkouts_last_week',
                    'total_checkouts_months_1_to_4',
                    'total_conversions',
                    'total_session_conversion',
                    'total_events',
                    'total_sessions',
                    'avg_events_per_session',
                    'total_session_checkout',
                    'has_checkout'
                    ]

columnas_a_mano_2 = ['dow_last_conversion', 
                     'has_conversion_last_week', 'total_conversions_month_4', 
                     'total_session_checkout', 'doy_last_conversion', 'timestamp_last_event', 
                     'dow_last_checkout', 'total_checkouts', 'has_checkout', 'doy_last_checkout', 
                     'has_checkout_month_1', 'timestamp_last_checkout', 'total_sessions', 
                     'woy_last_event', 'has_checkout_month_5', 'avg_events_per_session']

In [None]:
posibilidades_features = {
    'Full Dataframe':[],
    'Cumulative Importance':feature_selection['best_features_progresivo'],
    'Forward Selection':feature_selection['best_features_forward'],
    'Backward Elimination':feature_selection['best_features_backward'],
    'Stepwise Regression ':feature_selection['best_features_stepwise'],
    'Selección a Mano': columnas_a_mano,
    'Selección a Mano 2': columnas_a_mano_2
}

todo_junto = [x for f in posibilidades_features.values() for x in f]
intersec = list(set([x for x in todo_junto if todo_junto.count(x)>=2]))

posibilidades_features['Feature Intersection'] = intersec

In [None]:
from itertools import combinations
                             
def ensamblar_algoritmos(n):
    result = list(combinations(posibilidades_algoritmos, n))
    result_names = [f'{x[0][0]}+{x[1][0]}' for x in result]
    return list(zip(result_names,result))

def ensamble_tres_a_mano(nombre1,nombre2,nombre3):
    result = list(combinations(posibilidades_algoritmos, 3))
    for r in result:
        names = [x[0] for x in r]
        if nombre1 in names and nombre2 in names and nombre3 in names:
            result_names = '+'.join(names)
            return (result_names,r)

In [None]:
posibilidades_algoritmos_y_ensambles = posibilidades_algoritmos + ensamblar_algoritmos(2)
posibilidades_algoritmos_y_ensambles += [ensamble_tres_a_mano('lightgbm','neuralnetwork','gradient_boosting')]

In [None]:
for forma, features in posibilidades_features.items():
    print(f'{forma}:')
    for nombre,algoritmo in posibilidades_algoritmos_y_ensambles`:
        print('\t * ',end='')
        model_with_name = (f'{nombre}',algoritmo)
        model, auc = SF.full_framework_wrapper(df_users, df_y, model_with_name, columns=features)
        resultados.append((auc, forma, (nombre, algoritmo), features))

In [None]:
resultados.sort(reverse=True)
display([(x[0],x[1],x[2][0]) for x in resultados])

In [None]:
max_auc, campeon_forma, (campeon_nombre, campeon_algoritmo), campeon_features = resultados[0]
display(f"Mejor Apuesta: {campeon_nombre} ({max_auc:.4f} AUC) - Features: {campeon_forma}")
display(f"Features: {campeon_features}")

## Corrida Final

Se corre entrenando con X (y no X_train) el submit final.

In [None]:
n_ensamble = 300

campeon_model, campeon_auc, csv_name, campeon_message = SF.full_framework_wrapper(df_users, 
                                                                                    df_y, 
                                                                                    (campeon_nombre,campeon_algoritmo),
                                                                                    columns=campeon_features,
                                                                                    n_ensamble=n_ensamble,
                                                                                    submit=True,
                                                                                    all_in=True)   

In [None]:
## Descomentar y submitear!
## Ojo, solo correr una vez!!!

#!kaggle competitions submit -f {csv_name} -m "{campeon_message}" trocafone

In [None]:
# # Quemar 9 submits de punta a punta 

# n_ensamble = 5

# for resultado in resultados[1:10]:
#     max_auc, campeon_forma, (campeon_nombre, campeon_algoritmo), campeon_features = resultado
#     campeon_model, campeon_auc, csv_name, campeon_message = SF.full_framework_wrapper(df_users, 
#                                                                                     df_y, 
#                                                                                     (campeon_nombre,campeon_algoritmo),
#                                                                                     columns=campeon_features,
#                                                                                     n_ensamble=n_ensamble,
#                                                                                     submit=True,
#                                                                                     all_in=True)   
#     !kaggle competitions submit -f {csv_name} -m "{campeon_message}" trocafone
#     sleep(10)
#     print()

In [None]:
#!kaggle competitions leaderboard -d trocafone
#!unzip -o trocafone.zip
print('Last Best Score')
!cat trocafone-publicleaderboard.csv | grep Datatouille | tail -n 1 | awk '{split($0,a,","); print "\t Fecha: " a[3] ; print "\t Porcentaje: " a[4]}'


https://www.kaggle.com/c/trocafone/submissions?sortBy=date

https://www.kaggle.com/c/trocafone/leaderboard