# Set de entrenamiento, testing y predicción

El objetivo de esta notebook es definir el set de entrenamiento y el de testing. Para ello utilizaremos el siguiente porcentaje de los datos para testear:

In [2]:
PORCENTAJE_SET_DE_TEST = 20

Se cargarán en memoria los siguentes dataframes:

 - **labels**: contiene todos los labels sobre los cuales se tiene datos. Se utilizará para entrenar el algoritmo final con el cual se predecirán los datos que se subirán a Kaggle.
 - **labels_train**: un subconjunto de *labels* con los cuales se va a entrenar.
 - **labels_test**: un subconjunto de *labels* con los cuales se va a testear lo entrenado por *labels_train* (son conjuntos disjuntos).
 - **labels_to_predict**: los usuarios sobre los cuales se debe predecir la probabilidad de que el label sea igual a uno en Kaggle.

In [3]:
import pandas as pd
import numpy as np
import os

In [4]:
if '__file__' in locals():
    current_folder = os.path.dirname(os.path.abspath(__file__))
else:
    current_folder = os.getcwd()

In [5]:
dataset_path = os.path.join(current_folder, 'fiuba-trocafone-tp2-final-set', 'labels_training_set.csv')
labels = pd.read_csv(dataset_path, low_memory=False, index_col='person')

In [6]:
labels.head()

Unnamed: 0_level_0,label
person,Unnamed: 1_level_1
0566e9c1,0
6ec7ee77,0
abe7a2fb,0
34728364,0
87ed62de,0


In [7]:
cantidad_de_muestras = int(len(labels)*PORCENTAJE_SET_DE_TEST/100)
labels_test = labels.sample(cantidad_de_muestras)

In [8]:
labels_training = labels[~labels.index.isin(labels_test.index)]

Testeamos que nuestra división sea correcta:

In [9]:
labels_test.shape[0] + labels_training.shape[0] == labels.shape[0]

True

In [10]:
labels_test.merge(labels_training, how='inner', on='person').size == 0

True

A su vez cargaremos en memoria las labels que se deberán predecir (*labels_to_predict*):

In [13]:
dataset = 'trocafone_kaggle_test.csv'
labels_to_predict = pd.read_csv(
    os.path.join(current_folder, 'fiuba-trocafone-tp2-final-set', dataset),
    low_memory=False,
    index_col='person'
)