# Modelo de precios en función de Peso Declarado y Distancia Real : Una exploración

Importante agregar acá las Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import googlemaps
from aux_func import * #funciones auxiliares

pd.options.display.max_rows = 500  #Máximo de filas a mostrar

Hay que agregar una llave. Para simplificar, lo haremos desde un archivo.

In [None]:
def get_file_contents(filename):
    """ 
        Dado un nombre de archivo, retorna el contenido del archivo
    """
    try:
        with open(filename, 'r') as f:
            # Se asume que contiene solo una línea,
            # Con la API KEY
            return f.read().strip()
    except FileNotFoundError:
        print("'%s' No se encontro" % filename)

Hay que agregar la API KEY

In [None]:
api_key = get_file_contents('apikey')

Leemos el histórico de las cargas

In [None]:
df = pd.read_excel('historico_cargas_enviadas.xlsx')

In [None]:
df.info()

In [None]:
df.describe()

Tengo una funcion ad hoc para eliminar los valores extremos. El ```docstring```está acá:

In [None]:
print(is_outlier.__doc__)

In [None]:
df_marcas = is_outlier(df,features=['peso','precio_cerrado'])

In [None]:
df_marcas.sample(5,random_state=1)

In [None]:
df_filtrado = df_marcas[(df_marcas.is_outlier_peso == False)&\
    ((df_marcas.is_outlier_precio_cerrado) == False)]

In [None]:
df_filtrado

Hay mucho filtrado que hacer:
- Sin precios 
- Sin pesos
- Sin Origen correcto
- Sin Destino correcto

In [None]:
sin_precio = (df_filtrado.precio_cerrado==0) | (df_filtrado.precio_cerrado.isnull())
sin_peso = (df_filtrado.peso==0) | (df_filtrado.peso.isnull())
sin_origen = (df_filtrado.coordenadas_origen.isna()) | (df_filtrado.coordenadas_origen.isnull())| (df_filtrado.coordenadas_origen.str.len()<=7)
sin_destino = (df_filtrado.coordenadas_destino.isna()) | (df_filtrado.coordenadas_destino.isnull())|(df_filtrado.coordenadas_destino.str.len()<=7)

In [None]:
df_modelo = df_filtrado[((~sin_precio)&(~sin_peso)&(~sin_origen)&(~sin_destino))]

In [None]:
df_modelo

Instancio un objeto Cliente de GMaps

In [None]:
gmaps = googlemaps.Client(key=api_key)

Algunas pruebas:

In [None]:
a = (-33.442293,-70.625701)
b = (-33.379269,-70.691431)

In [None]:
my_dist = gmaps.distance_matrix(a,b)['rows'][0]['elements'][0]

In [None]:
my_dist['distance']['value']

Tengo que crear una función de distancia que usa información de googlemaps

In [None]:
def distancia (origin, destination):
    """
    Dado un origen y un destino, retorna la distancia en metros.
    """
    try: 
        my_dist = gmaps.distance_matrix(origin,destination)
        return int(round(1.0/10000* my_dist['rows'][0]['elements'][0]['distance']['value'],0))
    except:
        return 1e12 #Censuro con un valor absurdo datos mal imputados


Y luego vectorizarla y expresar en km

In [None]:
v_distancia = np.vectorize(distancia)

In [None]:
distancias = v_distancia(df_modelo.coordenadas_origen,df_modelo.coordenadas_destino)

In [None]:
df_modelo = df_modelo.assign(distancia_km = distancias)

In [None]:
df_modelo = df_modelo[(df_modelo.distancia_km>0)&(df_modelo.distancia_km<=1e6)]
df_modelo = df_modelo[['peso','precio_cerrado','distancia_km']]
df_modelo = df_modelo[df_modelo.precio_cerrado>=10000]

In [None]:
df_modelo

In [None]:
from pycaret.regression import *

In [None]:
exp_reg101 = setup(data = df_modelo, 
                   target = 'precio_cerrado', 
                   session_id=123)

Importo algunas bibliotecas para ajustar modelos, nada muy sofisticado por el momento

In [None]:
compare_models()

In [None]:
from sklearn.linear_model import LinearRegression
from catboost import CatBoostRegressor

In [None]:
X = df_modelo.drop(['precio_cerrado'],axis=1)
y = df_modelo.precio_cerrado

In [None]:
y

In [None]:
lr = LinearRegression()
cb = CatBoostRegressor()

In [None]:
lr.fit(X,y)

In [None]:
lr.coef_

In [None]:
lr.intercept_

In [None]:
X.head()

In [None]:
cb.fit(X,y,verbose=False)

In [None]:
cb.feature_importances_

In [None]:
y_pred_lr = lr.predict(X)
y_pred_cb = cb.predict(X)

In [None]:
from sklearn.metrics import mean_absolute_error,mean_squared_error

In [None]:
mae_lineal = mean_absolute_error(y,y_pred_lr)
mse_lineal = mean_squared_error(y,y_pred_lr)
mae_cb = mean_absolute_error(y,y_pred_cb)
mse_cb = mean_squared_error(y,y_pred_cb)


print(f"El MAE del modelo lineal es {round(mae_lineal,0)}")
print(f"El MAE del modelo catboost es {round(mae_cb,0)}")


print(f"El MSE del modelo lineal es {round(mse_lineal,0)}")
print(f"El MSE del modelo catboost es {round(mse_cb,0)}")

Notar que predicciones con ```CatBoostRegressor``` son más precisas que las del modelo lineal.

In [None]:
predicciones = pd.DataFrame(zip(y,y_pred_cb,round(y-y_pred_cb,0),df_modelo.peso,df_modelo.distancia_km),
columns=['precio_cerrado','prediccion_cb','error_cb','peso_kg','distancia_km'])
predicciones.prediccion_cb = predicciones.prediccion_cb.round(0) 

In [None]:
predicciones

## Siguientes pasos

- Mejorar histórico de cargas : mucho registro con errores
- Tener más registros para separar en ```entrenamiento``` y ```prueba```
- Afinar coeficientes   


In [None]:
import matplotlib.pyplot as plt

In [None]:
plt.scatter(y.values,y_pred_cb,alpha=0.6)
plt.plot(y.values,y.values,'r','--')
plt.xlim(0,70e3)
plt.ylim(0,70e3)
plt.show()

In [None]:
y.values