### *Librerias y modulos*

In [1]:
from pathlib import Path
import pandas as pd
import sys
import os
sys.path.insert(0, os.path.abspath('../src'))
from class_cotiz import Cotizador
from funcs_cotizador_vf import *

### *Referencias a las carpetas*

In [2]:
BASE = Path().absolute().parent
RAW = Path(BASE/'raw')
NOTEBOOKS = Path(BASE/'notebooks')
DATA = Path(BASE/'datos')
REPORTS_PGM = Path(BASE/'reports_pgm')
MODELOS = Path(BASE/'modelos')
REPORTS = Path(BASE/'reports')
PERFORMANCE = Path(BASE/'performance')
DOCS = Path(BASE/'docs')

### *Load data*

In [3]:
filename = 'df_meli2.pkl'
df = pd.read_pickle(DATA/filename)
df.shape

(3872110, 27)

# Tutorial sobre como utilizar la clase

### 1) Instanciamos la clase

Pasamos los parametros correspondientes

In [3]:
cotiz = Cotizador(name='kardur', ventana=10, moneda='dolares', grupos=[1,2,3])

Creando cotizador con el nombre kardur


Ventana de 10 dias
Modelo en dolares
Grupos de presencialidad: [1, 2, 3]


In [5]:
# sanity check
print('Observacion de atributos de la clase luego de correr el metodo "init()" \n'
    ,f'name:{cotiz.name} \n'
    ,f'ventana:{cotiz.ventana} \n'
    ,f'moneda:{cotiz.moneda} \n'
    ,f'grupos:{cotiz.grupos}'
     )

Observacion de atributos de la clase luego de correr el metodo "init()" 
 name:kardur 
 ventana:10 
 moneda:dolares 
 grupos:[1, 2, 3]


### 2) Metodo ***entrenamiento***

**Descripcion**: Este metodo solo debemos correrlo en caso de querer entrenar/re-entrenar el modelo. Una vez que el modelo ya este entrenado tenemos los metodos load y predict que se van a encargar de levantar el pickle del modelo ya entrenado y  usarlo para predecir.

* Input: dataset de desarrollo
* Output:
    * Atributos
        * self._vd_column: nombre del target en el dataset
        * self._score_column: nombre que se le asigna a la columna de las predicciones
        * self.random_state: semilla
        * self._print_results: boleano para ver si se printean o no las metricas de performance
        * self.catboost: pickle con el modelo entrenado
        * self.df_eval_desarrollo: df que contiene las metricas de performance de train y de test
        * self.columns: listado de las columnas que se usaron para el entrenamiento

### Pruebas

#### *Grupo 1*

In [6]:
# ventana 10 y grupo 1
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:06:21
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
              mae      mape    medape           mse         rmse  r2_square
train  859.741977  7.465740  5.557661  2.346693e+06  1531.891880   0.964075
test   908.059958  7.974678  5.860836  2.306818e+06  1518.821257   0.957622


In [13]:
# ventana 15 y grupo 1
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:14:48
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
              mae      mape    medape           mse         rmse  r2_square
train  816.907083  7.339143  5.445390  1.400420e+06  1183.393214   0.977426
test   828.298249  7.438401  5.645374  1.385450e+06  1177.051456   0.973148


In [17]:
# ventana 20 y grupo 1
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:20:01
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
              mae      mape    medape           mse         rmse  r2_square
train  822.030662  7.436201  5.558131  1.425074e+06  1193.764582   0.976660
test   832.628909  7.550129  5.535705  1.459107e+06  1207.935098   0.973096


***Conclusion***: Usando solo grupo 1, la ventana optima es 15

#### *Grupo 1 y 2*

In [20]:
# ventana 10 y grupo 1 y 2
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:23:17
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
               mae       mape    medape           mse         rmse  r2_square
train  1093.275427   9.849231  6.446417  2.625630e+07  5124.090606   0.707582
test   1266.197985  12.524204  6.430441  8.632080e+07  9290.898692  -0.582917


In [23]:
# ventana 15 y grupo 1 y 2
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:29:20
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
              mae      mape    medape           mse         rmse  r2_square
train  973.415188  8.359680  6.171318  4.546584e+06  2132.271931   0.941737
test   980.933893  8.689004  6.195729  3.024148e+06  1739.007686   0.945111


In [26]:
# ventana 20 y grupo 1 y 2 (best model so far)
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:31:30
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
              mae      mape    medape           mse         rmse  r2_square
train  910.960027  8.065429  5.979070  2.481503e+06  1575.278833   0.963671
test   948.308477  8.566692  6.274893  2.415869e+06  1554.306729   0.956647


In [29]:
# ventana 25 y grupo 1 y 2
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:35:47
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
              mae      mape    medape           mse        rmse  r2_square
train  937.745904  8.195242  6.091062  6.783142e+06  2604.44662   0.906783
test   932.694909  8.475446  6.305119  1.961590e+06  1400.56768   0.962970


***Conclusion:*** Usando grupo 1 y 2, el mejor modelo es con ventana de 20

#### *Grupo 1, 2 y 3*

In [32]:
# ventana 10 y grupo 1, 2 y 3
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:39:30
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
              mae      mape    medape           mse         rmse  r2_square
train  987.708509  8.550965  6.304649  3.180074e+06  1783.276283   0.957475
test   979.435832  8.571019  6.483846  2.189945e+06  1479.846156   0.960314


In [35]:
# ventana 15 y grupo 1, 2 y 3
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:45:04
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
               mae      mape    medape           mse         rmse  r2_square
train  1131.458865  9.400122  6.861604  1.652730e+07  4065.378670   0.828329
test   1105.495203  9.441466  6.919846  3.823640e+06  1955.412925   0.935597


In [38]:
# ventana 20 y grupo 1, 2 y 3
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:47:40
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
               mae      mape    medape           mse         rmse  r2_square
train  1008.324641  8.591718  6.390927  4.974644e+06  2230.391073   0.937273
test    991.007543  8.751713  6.532837  2.274066e+06  1508.000507   0.961172


In [41]:
# ventana 25 y grupo 1, 2 y 3
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:51:09
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
               mae      mape    medape           mse         rmse  r2_square
train  1067.766751  8.937320  6.600079  4.661648e+06  2159.084969   0.944610
test   1061.999999  8.982716  6.602783  5.848429e+06  2418.352631   0.902386


### Best model: Grupo 1, 2 y 3 con ventana 10

In [6]:
# ventana 10 y grupo 1, 2 y 3
cotiz.entrenamiento(df=df, vd_column='price_amount')

START --- 2022-06-21 10:54:38
  vd_column = price_amount
  keep = None
  drop = None
  score_column = cotizacion
  random_state = 0
  print_results = True


Entrenando el modelo...


El modelo fue entrenado con exito, a continuacion observaremos las metricas de performance:
              mae      mape    medape           mse         rmse  r2_square
train  987.708509  8.550965  6.304649  3.180074e+06  1783.276283   0.957475
test   979.435832  8.571019  6.483846  2.189945e+06  1479.846156   0.960314


In [7]:
# sanity check
print('Observacion de atributos de la clase luego de correr el metodo "entrenamiento()" \n'
    ,f'_vd_column:{cotiz._vd_column} \n'
    ,f'_score_column:{cotiz._score_column} \n'
    ,f'_random_state:{cotiz._random_state} \n'
    ,f'_print_results:{cotiz._print_results} \n'
    ,f'catboost:{cotiz.catboost} \n'
    ,f'df_eval_desarrollo:{cotiz.df_eval_desarrollo} \n'
    ,f'Feature importances:{cotiz.feature_importance} \n'
    ,f'columns:{cotiz.columns} \n' 
)

Observacion de atributos de la clase luego de correr el metodo "entrenamiento()" 
 _vd_column:price_amount 
 _score_column:cotizacion 
 _random_state:0 
 _print_results:True 
 catboost:<catboost.core.CatBoostRegressor object at 0x7faf808928e0> 
 df_eval_desarrollo:              mae      mape    medape           mse         rmse  r2_square
train  987.708509  8.550965  6.304649  3.180074e+06  1783.276283   0.957475
test   979.435832  8.571019  6.483846  2.189945e+06  1479.846156   0.960314 
 Feature importances:       Feature Id  Importances
0        car_year    24.058891
1        Subseg_a    20.905756
2   match_marca_a    15.818061
3  match_modelo_a    12.928492
4         car_kms    10.479531
5           Seg_a     9.925924
6      match_v1_a     5.883344 
 columns:['car_year', 'car_kms', 'match_marca_a', 'match_modelo_a', 'match_v1_a', 'Subseg_a', 'Seg_a', 'price_amount'] 



### 3) Metodo ***save***

**Descripcion**: Este metodo servira para guardar el modelo entrenado con el fin de levantarlo posteriormente para hacer predicciones sobre data nueva. Es importante tener en cuenta que si bien el objetivo principal es guardar el modelo entrenado, lo que se va a guardar es la clase completa, es decir la clase con todos atributos que se generaron hasta el momento (uno de los cuales es el modelo).

* Input:
    - Path donde queremos guardar el modelo
* Output:
    - Print con la info de donde se guardo el modelo y con que nombre

In [8]:
cotiz.save(output_route=MODELOS)

Nombre del archivo: Mod_kardur_20220621.pkl
Guardado en: /Users/santiagolean/repos/cotizador_vf/modelos


### 4) Metodo ***load***

**Descripcion**: Este metodo servira para levantar el modelo ya entrenado para luego usar otro metodo de la clase llamado predict con el fin de hacer predicciones sobre data nueva (data que no sea la de desarrollo sino una validacion out of time o simplemente data nueva para scorear/cotizar).<br>

In [4]:
cotiz = cotiz.load(input_route=MODELOS)

El archivo que cargará es: Mod_kardur_20220621.pkl .
Si se quiere cargar otro archivo, puede hacerlo introduciendo el parámetro filename



### 5) Metodo ***predict***

#### *1) Escenario de validacion out of time*

In [10]:
# load data oot
df_oot = pd.read_csv('{}/df_score_oot_mayor_2204.csv'.format(DATA),index_col=[0])

In [11]:
# chequeo
print(df_oot.shape)
print(df_oot.date.min(), df_oot.date.max())

(557511, 42)
2022-04-22 2022-04-26


In [13]:
cotiz.predict(df=df_oot, type='validacion')

START --- 2022-06-21 10:57:39
                             mae       mape    medape           mse  \
performance_metrics  1043.493297  10.203059  7.619845  2.441526e+06   

                            rmse  r2_square  
performance_metrics  1562.538189   0.953266  



END --- 2022-06-21 10:57:54


In [14]:
# Al correr el metodo predict con parametro type='validacion' se nos crea un nuevo atributo llamado self.df_eval_oot
cotiz.df_eval_oot

Unnamed: 0,mae,mape,medape,mse,rmse,r2_square
performance_metrics,1043.493297,10.203059,7.619845,2441526.0,1562.538189,0.953266


#### *2) Escenario de scoreo (produccion)*

In [5]:
# load data to score
# usaremos la misma data que el escenario anterior solo por fines ilustrativos pero vamos a suponer que esta es data nueva y por lo
## tanto no debera contener la variable target, es por eso que la eliminaremos.
df_to_score = pd.read_csv('{}/df_score_oot_mayor_2204.csv'.format(DATA),index_col=[0])

In [6]:
#del df

In [7]:
# Tratamiento para pasar el precio a dolar y desp poder hacer una evaluacion
# Target: convertimos los precios en pesos a dolar y los que estan en dolares se mantienen como estan

# Columna que nos indique dia de semana para ver cuando es finde
df_to_score['date'] = pd.to_datetime(df_to_score['date'])
df_to_score['dia_sem'] = df_to_score.date.dt.day_of_week
dic = {0:'Monday', 1:'Tuesday', 2:'Wednesday', 3:'Thursday', 4:'Friday', 5:'Saturday', 6:'Sunday'}
df_to_score['dia_sem'] = df_to_score.dia_sem.map(dic)
df_to_score.dia_sem.unique()
# Ahora crearemos una que le ponga la fecha del viernes anterior a todos los dias que sean findesemana
df_to_score['date_ok'] = np.where(df_to_score['dia_sem'].apply(lambda x: x in ('Saturday','Sunday'))
                         ,np.where(df_to_score['dia_sem']=='Saturday'
                                   ,df_to_score['date'] - timedelta(1)
                                   ,df_to_score['date'] - timedelta(2))
                         ,df_to_score['date'])
# Importar tabla de Big Query
filter_date = '2022-01-01'
query = '''
            select *
            from `data-team-k.pricing_data.dolar_values` 
            where date >= '{}'
            and source = 'Blue'
            order by date

            '''.format(filter_date)
df_dolar_values = gbq.read_gbq(query, project_id="data-team-k")
df_dolar_values.columns = [col.lower() for col in df_dolar_values]
df_dolar_values['date'] = pd.to_datetime(df_dolar_values['date'])
# Ahora si procedemos a hacer el join con el df_dolar_values
df_to_score = df_to_score.merge(df_dolar_values, how='inner', left_on='date_ok', right_on='date')
df_to_score.drop(['date_y','source','compra'],1,inplace=True)
df_to_score.rename(columns={'venta':'blue_venta'},inplace=True)
# Finalmente, creamos la columna de precio final en dolares
## Los precios en dolares se mantienen como estan y los precios en pesos se pasan a dolar mediante el blue
df_to_score['price_amount'] = np.where(df_to_score.price_symbol == '$', df_to_score.price_amount / df_to_score.blue_venta, df_to_score.price_amount) # pisamos price_amount con su version final la cual es el target

In [8]:
model_features = ['car_year','car_kms','match_marca_a','match_modelo_a','match_v1_a','Subseg_a', 'Seg_a']
extras = ['dealer']
target = ['price_amount']

In [9]:
mask1 = df_to_score.dealer != True
mask2 = df_to_score.car_kms > 90
df_to_score = df_to_score[mask1 & mask2].copy()
df_to_score.shape

(249542, 45)

In [10]:
mask1 = df_to_score.match_modelo_a == 'Amarok'
mask2 = df_to_score.match_v1_a == '3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17)'
df_to_score = df_to_score[mask1 & mask2].copy()
df_to_score.shape

(659, 45)

In [11]:
df_to_score.reset_index(drop=True,inplace=True)

In [12]:
df_to_score = df_to_score[model_features + extras + target].head(10)

In [13]:
y_true = df_to_score.price_amount

In [14]:
df_to_score.drop(labels=['price_amount'],axis=1,inplace=True)

In [15]:
df_to_score.shape

(10, 8)

In [16]:
df_to_score.head()

Unnamed: 0,car_year,car_kms,match_marca_a,match_modelo_a,match_v1_a,Subseg_a,Seg_a,dealer
0,2018,42000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,False
1,2018,138000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,False
2,2017,100000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,False
3,2018,110000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,False
4,2019,81500.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,False


In [17]:
cotizaciones = cotiz.predict(df=df_to_score, type='scoreo')

START --- 2022-06-21 11:56:08



END --- 2022-06-21 11:56:08


In [18]:
cotizaciones

Unnamed: 0,car_year,car_kms,match_marca_a,match_modelo_a,match_v1_a,Subseg_a,Seg_a,cotizacion
0,2018.0,42000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,44570.801317
1,2018.0,138000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,40027.820678
2,2017.0,100000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,39337.647797
3,2018.0,110000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,41044.645766
4,2019.0,81500.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,45059.107974
5,2018.0,98000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,41527.831949
6,2019.0,17500.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,49183.28211
7,2019.0,18900.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,49222.126269
8,2018.0,70000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,43494.939716
9,2018.0,96000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,41525.261175


In [19]:
# Evaluamos
preds = cotizaciones.cotizacion
print_evaluate(y_true, preds)

MAE: 4065.4765061887397
MAPE: 10.177289300466432
MEDAPE: 9.842794445215162
MSE: 22941744.179718293
RMSE: 4789.754083428323
R2 Square -3.7240814316050006
__________________________________


In [20]:
cotizaciones['price_amount'] = y_true

In [21]:
cotizaciones

Unnamed: 0,car_year,car_kms,match_marca_a,match_modelo_a,match_v1_a,Subseg_a,Seg_a,cotizacion,price_amount
0,2018.0,42000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,44570.801317,38423.64532
1,2018.0,138000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,40027.820678,38500.0
2,2017.0,100000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,39337.647797,38423.64532
3,2018.0,110000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,41044.645766,40394.08867
4,2019.0,81500.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,45059.107974,42000.0
5,2018.0,98000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,41527.831949,36945.812808
6,2019.0,17500.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,49183.28211,41133.004926
7,2019.0,18900.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,49222.126269,41871.921182
8,2018.0,70000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,43494.939716,37931.034483
9,2018.0,96000.0,VOLKSWAGEN,Amarok,3.0 TDI V6 (224cv) 4x4 C/Doble Extreme AT (L17),Pickups Medianas-Grandes,Livianos,41525.261175,44334.975369


***Misma prueba pero con Onix en lguar de Hilux***

In [36]:
# load data to score
# usaremos la misma data que el escenario anterior solo por fines ilustrativos pero vamos a suponer que esta es data nueva y por lo
## tanto no debera contener la variable target, es por eso que la eliminaremos.
df_to_score = pd.read_csv('{}/df_score_oot_mayor_2204.csv'.format(DATA),index_col=[0])

In [37]:
#del df

In [38]:
# Tratamiento para pasar el precio a dolar y desp poder hacer una evaluacion
# Target: convertimos los precios en pesos a dolar y los que estan en dolares se mantienen como estan

# Columna que nos indique dia de semana para ver cuando es finde
df_to_score['date'] = pd.to_datetime(df_to_score['date'])
df_to_score['dia_sem'] = df_to_score.date.dt.day_of_week
dic = {0:'Monday', 1:'Tuesday', 2:'Wednesday', 3:'Thursday', 4:'Friday', 5:'Saturday', 6:'Sunday'}
df_to_score['dia_sem'] = df_to_score.dia_sem.map(dic)
df_to_score.dia_sem.unique()
# Ahora crearemos una que le ponga la fecha del viernes anterior a todos los dias que sean findesemana
df_to_score['date_ok'] = np.where(df_to_score['dia_sem'].apply(lambda x: x in ('Saturday','Sunday'))
                         ,np.where(df_to_score['dia_sem']=='Saturday'
                                   ,df_to_score['date'] - timedelta(1)
                                   ,df_to_score['date'] - timedelta(2))
                         ,df_to_score['date'])
# Importar tabla de Big Query
filter_date = '2022-01-01'
query = '''
            select *
            from `data-team-k.pricing_data.dolar_values` 
            where date >= '{}'
            and source = 'Blue'
            order by date

            '''.format(filter_date)
df_dolar_values = gbq.read_gbq(query, project_id="data-team-k")
df_dolar_values.columns = [col.lower() for col in df_dolar_values]
df_dolar_values['date'] = pd.to_datetime(df_dolar_values['date'])
# Ahora si procedemos a hacer el join con el df_dolar_values
df_to_score = df_to_score.merge(df_dolar_values, how='inner', left_on='date_ok', right_on='date')
df_to_score.drop(['date_y','source','compra'],1,inplace=True)
df_to_score.rename(columns={'venta':'blue_venta'},inplace=True)
# Finalmente, creamos la columna de precio final en dolares
## Los precios en dolares se mantienen como estan y los precios en pesos se pasan a dolar mediante el blue
df_to_score['price_amount'] = np.where(df_to_score.price_symbol == '$', df_to_score.price_amount / df_to_score.blue_venta, df_to_score.price_amount) # pisamos price_amount con su version final la cual es el target

In [39]:
model_features = ['car_year','car_kms','match_marca_a','match_modelo_a','match_v1_a','Subseg_a', 'Seg_a']
extras = ['dealer']
target = ['price_amount']

In [40]:
mask1 = df_to_score.dealer != True
mask2 = df_to_score.car_kms > 90
df_to_score = df_to_score[mask1 & mask2].copy()
df_to_score.shape

(249542, 45)

In [41]:
mask1 = df_to_score.match_modelo_a == 'Onix'
mask2 = df_to_score.match_v1_a == '1.4 8v LTZ MT (98cv)'
df_to_score = df_to_score[mask1 & mask2].copy()
df_to_score.shape

(680, 45)

In [42]:
df_to_score.reset_index(drop=True,inplace=True)

In [43]:
df_to_score = df_to_score[model_features + extras + target].head(10)

In [44]:
y_true = df_to_score.price_amount

In [45]:
df_to_score.drop(labels=['price_amount'],axis=1,inplace=True)

In [46]:
df_to_score.shape

(10, 8)

In [47]:
df_to_score

Unnamed: 0,car_year,car_kms,match_marca_a,match_modelo_a,match_v1_a,Subseg_a,Seg_a,dealer
0,2015,104000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
1,2017,95000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
2,2017,85000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
3,2018,24248.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
4,2016,59000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
5,2018,26500.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
6,2017,50000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
7,2018,48000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
8,2018,63000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False
9,2016,69000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,False


In [48]:
cotizaciones = cotiz.predict(df=df_to_score, type='scoreo')

START --- 2022-06-21 11:59:45



END --- 2022-06-21 11:59:45


In [49]:
cotizaciones

Unnamed: 0,car_year,car_kms,match_marca_a,match_modelo_a,match_v1_a,Subseg_a,Seg_a,cotizacion
0,2015.0,104000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,9715.413971
1,2017.0,95000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11168.655471
2,2017.0,85000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11352.83012
3,2018.0,24248.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,13046.46964
4,2016.0,59000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11215.182275
5,2018.0,26500.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,12993.190657
6,2017.0,50000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11799.696822
7,2018.0,48000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,12628.288759
8,2018.0,63000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,12359.551508
9,2016.0,69000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11045.87449


In [50]:
# Evaluamos
preds = cotizaciones.cotizacion
print_evaluate(y_true, preds)

MAE: 689.2827871865513
MAPE: 6.638710387366735
MEDAPE: 3.4607669511161983
MSE: 864292.1668944086
RMSE: 929.6731505719678
R2 Square 0.5553481160355593
__________________________________


In [51]:
cotizaciones['price_amount'] = y_true

In [52]:
cotizaciones

Unnamed: 0,car_year,car_kms,match_marca_a,match_modelo_a,match_v1_a,Subseg_a,Seg_a,cotizacion,price_amount
0,2015.0,104000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,9715.413971,8866.995074
1,2017.0,95000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11168.655471,10837.438424
2,2017.0,85000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11352.83012,11330.049261
3,2018.0,24248.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,13046.46964,12807.881773
4,2016.0,59000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11215.182275,10837.438424
5,2018.0,26500.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,12993.190657,12561.576355
6,2017.0,50000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11799.696822,12068.965517
7,2018.0,48000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,12628.288759,13300.492611
8,2018.0,63000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,12359.551508,10344.827586
9,2016.0,69000.0,CHEVROLET,Onix,1.4 8v LTZ MT (98cv),Gama Pequenos Hatchback,Gama Pequenos,11045.87449,9359.605911


### 6) Metodo ***export***

In [53]:
cotiz.export(output_route=REPORTS)

START --- 2022-06-21 12:01:52
Error en el listado de marc_mod_vers
Error en la Performance_oot!
Nombre del archivo: Mod_kardur_20220621.xlsx
Guardado en: /Users/santiagolean/repos/cotizador_vf/reports

END --- 2022-06-21 12:01:52
