## 1. Resultados del Análisis Exploratorio 
En esta sección se discutirán los resultados del Análisis Exploratorio para el modelo de Cantidades Vendidas (*sold_quantity*). Se considera que con el conocimiento obtenido hasta el momento es posible identificar con una precisión adecuada cuándo un producto no ha vendido unidades (*sold_quantity = 0*). Sin embargo, poder discriminar entre el resto de categorías parece ser una tarea bastante complicada, por lo menos con la información recolectada hasta el momento. 

Por lo anterior se propone probar con dos modelos. 

- **Modelo 1:** Predicción de *sold_quantity* directamente
- **Modelo 2:** Predicción de cinco categorías: 0 unidades vendidas, [1 - 4] unidades vendidas, [5 - 25], (25, 50], 50+ unidades vendidas.
    - Este último podría utilizarse para predecir grupos sobre los cuáles utilizar un modelo específico. 
    
Y se comparará directamente su desempeño con una predicción basada en la moda por años de antigüedad, corregida por:
- **Tipo de comisión:** Diferente a *gold_pro* o *gold_special* > Predicción 0
- **Condición del Producto:** Usado -> Predicción 0

### 1.1 Selección de Variables para Modelamiento

Gracias al Análisis Exploratorio, se identificaron que las variables que tenían más relación con la variable objetivo de cantidad vendida fueron: 
- **golden_categories**: Una variable indicadora que toma el valor de 1 si la comisión asociada al producto es *golden_pro* o *golden_special*. Toma el valor de 0 en caso contrario.
- **is_new**: Una variable indicadora que toma el valor de 1 si el producto es nuevo o 0 si es usado.
- **total_questions**: Cantidad de preguntas que tiene el producto.
- **product_age**: Antigüedad del producto en meses.
- **has_discount**: Variable que indica si el producto tiene un descuento (1) o no (0). 
- **updated_picture**: Variable que indica si el producto tiene una imagen actualizada (1) o no (0).

A continuación construyen estas variables y se divide la muestra en conjuntos de entrenamiento (64%), validación (16%) y prueba (20%). 

## 2. Cargue de Información

In [4]:
import os
import pandas as pd
from sklearn.metrics import f1_score
from model import plot_confusion_matrix
from sklearn.model_selection import train_test_split

### 2.1 Creación de Features

In [16]:
data_folder = '../data'
data_by_category = [pd.read_csv(os.path.join(data_folder, file), sep = ";") for file in os.listdir('../data') if file.find('.csv') != -1]
complete_df = pd.concat(data_by_category, axis = 0, ignore_index=True)

# Indicador de Categoría Dorada
complete_df['golden_categories'] = 1*(complete_df.listing_type_id.isin(['gold_pro', 'gold_special']))

# Indicador de Producto Nuevo
complete_df['is_new'] = 1*(complete_df.condition=='new')

# Antigüedad de Producto
actual_year = 2020
actual_month = 12
complete_df['product_age'] = 12*(actual_year - complete_df.year_created) + (actual_month - complete_df.month_created) + 1

# Indicador de descuento
complete_df['has_discount'] = 1*(~complete_df.original_price.isnull())

# Se crea una característica indicando si la foto fue actualizada
complete_df.loc[(complete_df.year_update == complete_df.year_created) & (complete_df.month_update == complete_df.month_created), 'updated_picture'] = False
complete_df.loc[(complete_df.year_update != complete_df.year_created) | (complete_df.month_update != complete_df.month_created), 'updated_picture'] = True

### 2.2. Creación de Variable Objetivo para Modelo 2

In [17]:
complete_df.loc[complete_df.sold_quantity == 0, 'sold_group'] = 0   # 0
complete_df.loc[complete_df.sold_quantity >= 1, 'sold_group'] = 1   # De [1, 4]
complete_df.loc[complete_df.sold_quantity == 5, 'sold_group'] = 5   # De [5, 25]
complete_df.loc[complete_df.sold_quantity >= 25, 'sold_group'] = 25 # De [26 - 50)
complete_df.loc[complete_df.sold_quantity >= 50, 'sold_group'] = 50 # De 50 +

In [20]:
features = ['golden_categories', 'is_new','total_questions', 'product_age', 'has_discount' , 'updated_picture']

target_1 = ['sold_quantity']
target_2 = ['sold_group']

## 3. Modelamiento

### 3.1 Modelo de Categoría Vendida

In [22]:
X = complete_df[features].copy()
y = complete_df[target_1].astype('int64').copy()

#X.product_age.fillna(X.product_age.median(), inplace=True)
X.total_questions.fillna(0, inplace=True)

In [24]:
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [26]:
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.2, random_state=42)

### 3.2 Modelo Grupos de Categoría

In [30]:
X = complete_df[features].copy()
y = complete_df[target_2].astype('int64').copy()

#X.product_age.fillna(X.product_age.median(), inplace=True)
X.total_questions.fillna(0, inplace=True)

In [None]:
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.2, random_state=42)