In [58]:
import pandas as pd

Un importante broker de compra y venta de vehiculos online se encuentra dando sus primeros pasos en la preparación de su algoritmo de pricing, es por eso que se encuentra generando algunos features iniciales para experimentar con distintos algoritmos de machine learning. Para ello cuenta con un archivo con información de todas las transacciones que tuvo en su primer año de operación en el formato (transaction_id,timestamp,vehicle_model_id,price). 
Por otro lado cuenta con información que fue extrayendo a partir de scrapping durante el último año en el formato (timestamp,source,vehicle_model_id,price). La información puede venir de múltiples fuentes (source), que pueden ser por ejemplo distintos sitios de marketplace o clasificados. Luego de un intenso trabajo previo ha podido unificar los modelos de vehículos que utiliza para sus transacciones con la información que ha podido obtener de otros competidores mediante scrapping. Muchos de los modelos disponibles en la información de scrapping no han sido aún comercializados por la empresa, pero se sabe que se cuenta con precios scrapeados de todos los modelos que se vendieron. 
Se pide generar utilizando Pandas un dataframe que tenga el siguiente formato (vehicle_model_id,ext_mean_price,ext_std_price,int_mean_price,int_std_price), 
siendo:
-  mean_price : precio promedio para ese vehículo.
-  std_price : desvío estándar del precio para ese vehículo. 

y los prefijos ext_ y int_ indicando que deben ser calculados sobre respectivamente datos externos (los obtenidos vía scraping) y datos internos (los de las transacciones).

In [59]:
scrapping = pd.read_csv('scrapping_doc.csv')
scrapping.head()

Unnamed: 0,timestamp,source,vehicle_model_id,price
0,2019-04-20 9:06:00,https://aunt.example.com/#achiever,1006,508473
1,2019-04-21 9:06:00,http://example.com/brick,1008,512725
2,2019-04-22 9:06:00,http://example.com/arch,1010,507643
3,2019-04-23 9:06:00,http://www.example.com/,1004,534994
4,2019-04-24 9:06:00,http://www.example.net/#brother,1002,511961


In [60]:
transactions = pd.read_csv('operaciones_comerciales.csv')
transactions.head()

Unnamed: 0,transaccion_id,timestamp,vehicle_model_id,price
0,8867,2019-04-20 9:06:00,1007,506514
1,4290,2019-04-21 9:06:00,1005,597694
2,5426,2019-04-22 9:06:00,1003,518506
3,4273,2019-04-23 9:06:00,1000,582080
4,7205,2019-04-24 9:06:00,1000,529994


In [67]:
info = scrapping.merge(transactions, on='vehicle_model_id', how='left')
info.head()

Unnamed: 0,timestamp_x,source,vehicle_model_id,price_x,transaccion_id,timestamp_y,price_y
0,2019-04-20 9:06:00,https://aunt.example.com/#achiever,1006,508473,5304,2019-04-26 9:06:00,565605
1,2019-04-20 9:06:00,https://aunt.example.com/#achiever,1006,508473,2808,2019-05-01 9:06:00,586748
2,2019-04-20 9:06:00,https://aunt.example.com/#achiever,1006,508473,8011,2019-05-06 9:06:00,527654
3,2019-04-20 9:06:00,https://aunt.example.com/#achiever,1006,508473,1479,2019-05-09 9:06:00,592665
4,2019-04-20 9:06:00,https://aunt.example.com/#achiever,1006,508473,4275,2019-05-21 9:06:00,519960


In [68]:
info.drop(columns=['timestamp_x','source','transaccion_id','timestamp_y'], inplace=True)

In [69]:
info.columns = ['vehicle_model_id', 'ext_price', 'int_price']
info.head()

Unnamed: 0,vehicle_model_id,ext_price,int_price
0,1006,508473,565605
1,1006,508473,586748
2,1006,508473,527654
3,1006,508473,592665
4,1006,508473,519960


In [64]:
info = info.groupby('vehicle_model_id').agg(['mean','std'])
info.columns = ['ext_mean_price', 'ext_std_price', 'int_mean_price', 'int_std_price']
info

Unnamed: 0_level_0,ext_mean_price,ext_std_price,int_mean_price,int_std_price
vehicle_model_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1000,529291.333333,27935.961559,546851.666667,26429.371365
1001,518228.25,12242.18905,532616.75,31032.396013
1002,541530.0,39516.321087,541863.333333,31856.814322
1004,535669.666667,7382.840447,540543.0,13115.764362
1005,565326.5,15206.221802,569607.833333,33628.665683
1006,535899.666667,36066.226211,558526.4,30888.560938
1007,551730.0,17746.189284,534330.75,17727.014423
1008,549842.0,39679.742064,556489.25,39255.901732
1009,563478.25,22548.355718,561288.0,0.0
1010,544546.25,35234.758394,547016.5,13797.628875


In [70]:
# otra opcion
#info['ext_mean_price'] = info.groupby('vehicle_model_id')['ext_price'].transform('mean')
#info['int_mean_price'] = info.groupby('vehicle_model_id')['int_price'].transform('mean')
#info['ext_std_price'] = info.groupby('vehicle_model_id')['ext_price'].transform('std')
#info['int_std_price'] = info.groupby('vehicle_model_id')['int_price'].transform('std')
#info

Unnamed: 0,vehicle_model_id,ext_price,int_price,ext_mean_price,int_mean_price,ext_std_price,int_std_price
0,1006,508473,565605,535899.666667,558526.400000,36066.226211,30888.560938
1,1006,508473,586748,535899.666667,558526.400000,36066.226211,30888.560938
2,1006,508473,527654,535899.666667,558526.400000,36066.226211,30888.560938
3,1006,508473,592665,535899.666667,558526.400000,36066.226211,30888.560938
4,1006,508473,519960,535899.666667,558526.400000,36066.226211,30888.560938
...,...,...,...,...,...,...,...
118,1005,584463,584172,565326.500000,569607.833333,15206.221802,33628.665683
119,1005,584463,537264,565326.500000,569607.833333,15206.221802,33628.665683
120,1005,584463,586472,565326.500000,569607.833333,15206.221802,33628.665683
121,1005,584463,599623,565326.500000,569607.833333,15206.221802,33628.665683
