## Simulador de Recorridos ciclistas

### Importamos librerias

In [None]:
import pandas as pd
import numpy as np
from sklearn.externals import joblib
from keras.models import load_model
import pickle
import time

import matplotlib.pylab as plt
%matplotlib inline
plt.style.use('fivethirtyeight')
import plotly as py
import plotly.graph_objs as go
import ipywidgets as widgets
from IPython.display import display
from IPython.core.display import HTML
import math as mt
py.offline.init_notebook_mode(connected=True)

In [None]:
#Tenemos que decidir si queremos hacer una simulación comparativa contra un resultado nuestro o contra un GPX "standar",
#ya que se encuentran en distinto fichero. Con nuestros ficheros podemos realizar comparativas exhaustivas, mientras
#que con los datos publicos esa posibilidad no existe.

#Tramos propios con datos de potencia, tiempo, etc... 
path = '../Entrenamientos/Procesado_Tramos.xlsx'

#Tramos publicos sin datos de potencia, tiempo, etc... 
#path = '../Entrenamientos/Procesado_Tramos_simulacion.xlsx'
df = pd.read_excel(path)

### Filtramos datos

In [None]:
#Listamos las pruebas que contiene el fichero
df["prueba"].unique()

In [None]:
#Eliminar las filas que no tienen datos y seleccionamos la prueba que queremos simular
df = df[df["porc"]!=np.inf]

#En caso de que el fichero de entrada contenga más de una prueba, hay que seleccionar cual queremos simular
if (len(df["prueba"].unique()) > 1):
    df = df[df["prueba"]=="20180429_LEMG_195_90_R_C.gpx"]

In [None]:
#Se revisa que no existen datos anómalos, como +-inf por ejemplo
df.describe()

In [None]:
#Se revisa que todas las columnas contienen los datos que le corresponde
df.head()

In [None]:
#Revisamos las pendientes de la prueba con el objetivo de identificar datos incoherentes

plt.figure(figsize = (15,8))
plt.hist(df['porc'],bins=100, edgecolor ='k')
plt.title('Histograma de Pendientes')
plt.xlabel('Porcentaje de pendiente')
plt.ylabel('Cuenta')
plt.show()

Vemos que la mayoría de tramos están centrados en porcentajes cercanos a 0, aunque también hay varios tramos de subidas y bajadas

## A modo de recordatorio y por su especial importancia a la hora de ejecutar la simulación, dejamos el código de la sigmoide de potencia. Más detalles de como utilizarla se pueden encontrar en la Memoria

In [None]:
def graph(pot_min, pot_max, ff_1, ff_2):
    porc = np.arange(-10,10,0.5)

    potencia = pot_min+(pot_max-pot_min)/(1+ff_1*np.e**(ff_2*porc*-1))
    potencia_min = pot_min+(pot_max-25-pot_min)/(1+ff_1*np.e**(ff_2*porc*-1))
    potencia_max = pot_min+25+(pot_max-pot_min-25)/(1+ff_1*np.e**(ff_2*porc*-1))

    trace0 = go.Scatter(        
            x=porc,
            y=potencia,
            mode='lines',
            name='Potencia_obj')

    trace1 = go.Scatter(        
            x=porc,
            y=potencia_min,
            mode='lines',
            name='Potencia_min')

    trace2 = go.Scatter(        
            x=porc,
            y=potencia_max,
            mode='lines',
            name='Potencia_max')




    layout = go.Layout(title='Sigmoide de potencia')

    data = [trace0, trace1, trace2]

    fig = dict(data=data, layout=layout)

    py.offline.iplot(fig)

pot_min_value=widgets.IntSlider(min=40,max=150,step=5, value=65)
pot_max_value=widgets.IntSlider(min=250,max=300,step=5, value=285)
ff_1_value=widgets.FloatSlider(min=0.1,max=1,step=0.1, value=0.6)
ff_2_value=widgets.FloatSlider(min=0.1,max=1,step=0.1, value=0.35)
    
widgets.interact(graph, pot_min=pot_min_value, pot_max=pot_max_value, ff_1=ff_1_value, ff_2=ff_2_value)



In [None]:
#Prueba iterando en cada tramo con intervalos aleatorios con el modelo desarrollado CON TENSORFLOW (PRIMERA PASADA)

#Almacenamos la hora de inicio para evaluar el tiempo que tarda en ejecutar
start_time = time.time()

#Cargamos los dos modelos con los que vamos a trabajar
model_TF = load_model('../RNN/TF_Tramos_2.model')
model_Scalar = pickle.load(open("../RNN/Scaler.model", "rb"))

#Inicializamos las variables de control del flujo de ejecución
resultados = []

fail = 0 #Contador de simulaciones fallidas
exito = 0 #Contador de simulaciones correctas
num_pruebas = 50 #Número de éxitos para finalizar la simulación
fi = 0 #Variable para iterar

#Las siguientes variables se rellenan a criterio del entrenador o de quien use esta simulación
potencia_objetivo = 230 #Entre 0 y 300

#Usado para validar la calidad de la simulación. Un ciclista no debe pasar a esta potencia umbral más del tiempo definido
potencia_umbral = 240 #Siempre inferior a 300 y a la potencia objetivo
tiempo_sobre_umbral = 4200
#pot_min = 65
#pot_max = 285
#ff_1 = 0.6
#ff_2 = 0.35

#Probamos a coger los valores de la selección de la sigmoide de la celda anterior
pot_min = pot_min_value.value
pot_max = pot_max_value.value
ff_1 = ff_1_value.value
ff_2 = ff_2_value.value


#Repetimos la simulación de pruebas hasta que tenemos un número de exitos concreto
while exito < num_pruebas:
    if (fi % 10) == 0:
        print('Empezamos la prueba %d, llevamos %d exitos y %d fracasos' %(fi,exito,fail))
        print("--- %s seconds ---" % (time.time() - start_time))
    
    #Reiniciamos la variables para acumular cada prueba
    potencia_acum = 0
    tiempo_acum = 0
    i= 0
    lista_tramo_potencia = []
    bins_potencias = [0] * 30
    #Simulamos cada tramo de la prueba
    while i < len(df):
        
        #Recuperamos el porcentaje de la pendiente, el viento y la distancia
        porc = df[i:i+1]["porc"].iloc[0]
        viento = df[i:i+1]["viento_aparente"].iloc[0]
        distancia = df[i:i+1]["dist"].iloc[0]
   
    
        #Asignamos la potencia inicial según la sigmoide que se puede consultar en ../Machine Learning/Warm-Start.ipynb
        #Adicionalmente introducimos un factor de variabilidad basado en el viento aparente (>0 si viento en contra y viceversa)           
        
        if viento<0:
            min_random = (viento/2)-1
            max_random = abs(viento**2)+1
        else:
            max_random = (viento/2)+1
            min_random = (-1*viento**2)-1
            
        potencia_aux = pot_min+(pot_max-pot_min)/(1+ff_1*np.e**(ff_2*porc*-1))*(np.random.randint(min_random,max_random)+100)/100
        #potencia_aux = pot_min+(pot_max-pot_min)/(1+ff_1*np.e**(ff_2*porc*-1))+np.random.randint(-100,100)
        potencia_min = pot_min+(pot_max-50-pot_min)/(1+ff_1*np.e**(ff_2*porc*-1))
        potencia_max = pot_min+50+(pot_max-pot_min-50)/(1+ff_1*np.e**(ff_2*porc*-1))
                                            
        if potencia_aux>potencia_max:
            potencia = potencia_max
        elif potencia_aux<potencia_min:
            potencia = potencia_min
        else:
            potencia = potencia_aux
        
        
        
        #Utilizamos el modelo de normalización entrenado para ajustar los datos de entrada
        input_model = model_Scalar.transform([[potencia, porc, viento]])
        
        #Utilizamos el modelo de Tensor Flow para predecir la velocidad media de ese tramo
        velocidad = model_TF.predict(input_model)[0]
        
        #Con la velocidad del paso anterior y la distancia del tramo, calculamos el tiempo necesario para recorrerlo
        nuevo_tiempo = distancia/(velocidad/3.6)
        #Almacenamos la información del paso actual
        lista_tramo_potencia.append([i, potencia,velocidad[0],distancia,nuevo_tiempo[0],porc,viento])
        
        #Acumulamos la potencia y el tiempo para evaluar el resultado final y determinar si es éxito o no, y con que tiempo total
        potencia_acum = potencia_acum + (potencia * nuevo_tiempo)
        tiempo_acum = tiempo_acum + nuevo_tiempo
        
        #acumulamos el tiempo que se pasa en cada agrupacion de potencias
        bins_potencias[int(potencia/10)] =bins_potencias[int(potencia/10)] + nuevo_tiempo[0]
        
        i += 1
    
    potencia_media = potencia_acum/tiempo_acum
    
    #Marcamos las salidas con dos digitos
    #X0  exito
    #X1 Fuera de umbral de tolerancia
    #1X Mas de 20min en zona de alta potencia (Criterio de negocio)
    
    salida = 0
    #Si la potencia queda fuera de intervalos viables, no se considera como exito
    #Nos quedamos con +/-5w sobre la potencia objetivo para luego seleccionar las mejores distribuciones de potencia
    if (potencia_media < potencia_objetivo-5) or (potencia_media > potencia_objetivo+5):
        salida = salida+1
    #Se determina en este caso, que el competidor no puede pasar más de 20min en potencias superiores a 250w    
    if sum(bins_potencias[-(int(potencia/(300-potencia_umbral))):])>tiempo_sobre_umbral:
        salida = salida+10

    
    print("Intento %d con potencia media %d, tiempo %d y salida %d" %(fi, potencia_media, tiempo_acum, salida))
        
    #Evaluamos el exito si salida==0   
    if (salida == 0):
        #print(potencia_media, tiempo_acum)
        resultados.append([fi,potencia_media[0], tiempo_acum[0], lista_tramo_potencia])
        exito +=1
    else:
        #Contamos las simulaciones consideradas sin exito
        fail +=1
        print("Tiempo por encima de de %dw: %d" %(potencia_umbral,sum(bins_potencias[-(int(potencia/(300-potencia_umbral))):])))
    
    fi +=1

print("---Total time: %s seconds ---" % (time.time() - start_time))

print('Casos descartados: %d' %fail)
print('Casos favorables: %d' %(len(resultados)))

In [None]:
#Creamos DataFrame y renombramos las columnas
ds = pd.DataFrame(resultados)
ds.columns = ['intento','pwr','secs','list']
ds.head()

In [None]:
plt.figure(figsize = (15,8))
plt.scatter(ds['pwr'],ds['secs'])
plt.title('Scatter Segundos vs. Potencia por ejecución válida')
plt.xlabel('Potencia (w)')
plt.ylabel('Tiempo (s)')
plt.show()

En el scatter ya se ve con la misma potencia media tenemos distintos tiempos de finalización y viceversa

In [None]:
plt.figure(figsize = (15,8))
plt.hist(ds['pwr'],bins=50, edgecolor ='k')
plt.title('Histograma de Potencias Válidas')
plt.xlabel('Potencias')
plt.ylabel('Cuenta')
plt.show()

Histograma de potencias validas para la simulación

In [None]:
#Pintamos el mejor resultado
a = ds.groupby(['intento'])['secs'].agg('sum').sort_values(ascending=True)
mejor_tiempo = a[:1].max()
mejor_tiempo

In [None]:
#Nos quedamos con los XX mejores resultados para ser analizdos en Tableau
ganadores = pd.DataFrame(ds[ds['secs'].isin(list(a[:25].values))][['intento','list']])

#Nos quedamos con el mejor resultado para inicializar las constantes en la segunda vuelta
mejor = pd.DataFrame(ds[ds['secs']==a[:1].max()][['intento','list']])
df_mejor = pd.DataFrame(mejor.values[0][1])
df_mejor.columns =["Tramos","Potencia","Velocidad","Distancia","Tiempo","Pendiente","Viento"]
df_mejor['Intento'] = mejor.values[0][0]

In [None]:
#Agregamos las características de cada tramo al df de ganadores y sacamos el resultado a Excel
for i in range(len(ganadores)):
    if i == 0:
        df_ganador = pd.DataFrame(ganadores.values[i][1])
        df_ganador.columns =["Tramos","Potencia","Velocidad","Distancia","Tiempo","Pendiente","Viento"]
        df_ganador['Intento'] = ganadores.values[i][0]
    else:
        df_aux = pd.DataFrame(ganadores.values[i][1])
        df_aux.columns =["Tramos","Potencia","Velocidad","Distancia","Tiempo","Pendiente","Viento"]
        df_aux['Intento'] = ganadores.values[i][0]
        df_ganador = df_ganador.append([df_aux])
        del df_aux
df_ganador.to_excel('res_sim.xlsx')
df_ganador.head()

In [None]:
df_ganador.describe()

In [None]:
plt.figure(figsize = (15,8))
plt.hist(df_ganador['Potencia'], edgecolor ='k')
plt.title('Histograma de Potencias Mejores')
plt.xlabel('Potencias')
plt.ylabel('Cuenta')
plt.show()

In [None]:
plt.figure(figsize = (15,8))
plt.hist(df_ganador['Pendiente'], edgecolor ='k')
plt.title('Histograma de Pendientes')
plt.xlabel('Pendiente')
plt.ylabel('Cuenta')
plt.show()

In [None]:
plt.figure(figsize = (15,8))
plt.scatter(df_ganador['Pendiente'],df_ganador['Potencia'])
plt.title('Scatter Pendiente vs. Potencia')
plt.xlabel('Potencia (w)')
plt.ylabel('Pendiente (%)')
plt.show()

La distribución de potencia es acorde a lo esperado. Vamos a ver como se comporta con respecto al viento

In [None]:
plt.figure(figsize = (15,8))
plt.scatter(df_ganador['Pendiente'],df_ganador['Viento'], c=df_ganador['Potencia'],s=df_ganador['Potencia'], alpha=0.5)
plt.title('Scatter Pendiente vs. Viento')
plt.xlabel('Pendiente (%)')
plt.ylabel('Viento (km/h)')
plt.show()

In [None]:
plt.figure(figsize = (15,8))
df_ganador_filtrado = df_ganador[(df_ganador['Pendiente']>-1) & (df_ganador['Pendiente']<1)]
plt.scatter(df_ganador_filtrado['Pendiente'].values,df_ganador_filtrado['Viento'].values, c=df_ganador_filtrado['Potencia'].values,
           s=df_ganador_filtrado['Potencia'].values, alpha=0.5)
plt.title('Scatter Pendiente vs. Viento en -+1% de pendiente')
plt.xlabel('Pendiente (%)')
plt.ylabel('Viento (km/h)')
plt.show()

In [None]:
plt.figure(figsize = (15,8))
plt.scatter(df_ganador_filtrado['Potencia'].values,df_ganador_filtrado['Viento'].values, c=df_ganador_filtrado['Potencia'].values,
           s=df_ganador_filtrado['Potencia'].values, alpha=0.5)
plt.title('Scatter Potencia vs. Viento')
plt.xlabel('Potencia (w)')
plt.ylabel('Viento (km/h)')
plt.show()

Como podemos ver, la potencia aumenta según tenemos más viento a favor, lo cual es lógico si recordamos que el viento suma a la velocidad y se eleva al cuadrado

In [None]:
#Juntamos el resultado de la simulación con el recorrido original a efectos de comparativa posterior en Tableau
df_input = df[['tramo','pwr','spd','dist','time_seg','porc','viento_aparente']]
df_input.columns =["Tramos","Potencia","Velocidad","Distancia","Tiempo","Pendiente","Viento"]
df_input['Intento'] = 'Original'
df_ori = df_input.append([df_ganador])
df_ori.to_excel('res_sim_ori.xlsx')
df_ori.head()

In [None]:
potencias_medias = df_mejor.groupby(['Tramos'])['Potencia'].agg('mean')

#### Posible mejora del modelo, inicializando la potencia de cada tramo con el mejor resultado de la primera simulación

In [None]:
#CON TENSORFLOW (SEGUNDA PASADA)
#Almacenamos la hora de inicio para evaluar el tiempo que tarda en ejecutar
start_time = time.time()

#Utilizamos los modelos que se emplearon en la primera pasada* es obviamente necesario ejecutar las celdas en orden
#model_TF = load_model('../RNN/TF_Tramos_2.model')
#model_Scalar = pickle.load(open("../RNN/Scaler.model", "rb"))

#Inicializamos las variables de control del flujo de ejecución
resultados = []

fail = 0 #Contador de simulaciones fallidas
exito = 0 #Contador de simulaciones correctas
num_pruebas = 15 #Número de éxitos para finalizar la simulación
fi = 0 #Variable para iterar

#Utilizamos las mismas constantes que se emplearon en la primera pasada* es obviamente necesario ejecutar las celdas en orden
#potencia_objetivo = 220
#pot_min = 60
#pot_max = 275
#ff_1 = 0.3
#ff_2 = 0.7

print("Tiempo a mejorar: %d" %mejor_tiempo)

#Repetimos la simulación de pruebas hasta que tenemos un número de exitos concreto
while exito < num_pruebas:
    if (fi % 10) == 0:
        print('Empezamos la prueba %d, llevamos %d exitos y %d fracasos' %(fi,exito,fail))
        print("--- %s seconds ---" % (time.time() - start_time))
    
    #Reiniciamos la variables para acumular cada prueba
    potencia_acum = 0
    tiempo_acum = 0
    i= 0
    lista_tramo_potencia = []
    bins_potencias = [0] * 30
    
    #Simulamos cada tramo de la prueba
    while i < len(df):
        
        #Recuperamos el porcentaje de la pendiente, el viento y la distancia
        porc = df[i:i+1]["porc"].iloc[0]
        viento = df[i:i+1]["viento_aparente"].iloc[0]
        distancia = df[i:i+1]["dist"].iloc[0]
        
        #Asignamos la potencia inicial según la sigmoide que se puede consultar en ../Machine Learning/Warm-Start.ipynb
        #Adicionalmente introducimos un factor de variabilidad basado en el viento aparente (>0 si viento en contra y viceversa)           
        
        if viento<0:
            min_random = (viento/4)-1
            max_random = abs(viento*3)+1
        else:
            max_random = (viento/4)+1
            min_random = (-1*viento*3)-1
        
        
        potencia_aux = potencias_medias[i]*(np.random.randint(min_random,max_random)+100)/100
        
        #Con el objetivo de complemplar mayor espectro, abrimos los intervalos 5w para probar
        potencia_min = pot_min+(pot_max-50-pot_min)/(1+ff_1*np.e**(ff_2*porc*-1))-5
        potencia_max = pot_min+50+(pot_max-pot_min-50)/(1+ff_1*np.e**(ff_2*porc*-1))+5

        
        if potencia_aux>potencia_max:
            potencia = potencia_max
        elif potencia_aux<potencia_min:
            potencia = potencia_min
        else:
            potencia = potencia_aux
    
        #print(pot_min+(pot_max-pot_min)/(1+ff_1*np.e**(ff_2*porc*-1)),potencias_medias[i], potencia)
        #input("sigue")

        
        
        #Utilizamos el modelo de normalización entrenado para ajustar los datos de entrada
        input_model = model_Scalar.transform([[potencia, porc, viento]])
        
        #Utilizamos el modelo de Tensor Flow para predecir la velocidad media de ese tramo
        velocidad = model_TF.predict(input_model)[0]
        
        #Con la velocidad del paso anterior y la distancia del tramo, calculamos el tiempo necesario para recorrerlo
        nuevo_tiempo = distancia/(velocidad/3.6)
        #Almacenamos la información del paso actual
        lista_tramo_potencia.append([i, potencia,velocidad[0],distancia,nuevo_tiempo[0],porc,viento])
        
        #Acumulamos la potencia y el tiempo para evaluar el resultado final y determinar si es éxito o no, y con que tiempo total
        potencia_acum = potencia_acum + (potencia * nuevo_tiempo)
        tiempo_acum = tiempo_acum + nuevo_tiempo
        
        #acumulamos el tiempo que se pasa en cada agrupacion de potencias
        bins_potencias[int(potencia/10)] =bins_potencias[int(potencia/10)] + nuevo_tiempo[0]
        
        i += 1
    
    
    
    potencia_media = potencia_acum/tiempo_acum
    
        #Marcamos las salidas con dos digitos
    #0  exito
    #XX1 Fuera de umbral de tolerancia
    #X1X Mas de 20min en zona de alta potencia (Criterio de negocio)
    #1XX No mejoramos tiempo de referencia
    
    
    salida = 0
    #Si la potencia queda fuera de intervalos viables, no se considera como exito
    #Nos quedamos con +/-5w sobre la potencia objetivo para luego seleccionar las mejores distribuciones de potencia
    if (potencia_media < potencia_objetivo-5) or (potencia_media > potencia_objetivo+5):
        salida = salida+1
    #Se determina en este caso, que el competidor no puede pasar más de 20min en potencias superiores a 250w    
    if sum(bins_potencias[-int(potencia/(300-potencia_umbral)):])>tiempo_sobre_umbral:
        salida = salida+10
    #Si el tiempo final es superior al que necesitamos mejorar, no se considera éxito
    if tiempo_acum[0]>mejor_tiempo:
        salida = salida+100

       
    print("Intento %d con potencia media %d, tiempo %d y salida %d" %(fi, potencia_media, tiempo_acum, salida))
    
    #Evaluamos el exito si salida==0
    if (salida==0):
        resultados.append([fi,potencia_media[0], tiempo_acum[0], lista_tramo_potencia])
        exito +=1
    else:
        #Contamos las simulaciones consideradas sin exito
        fail +=1
    
    fi +=1

print("---Total time: %s seconds ---" % (time.time() - start_time))

print('Casos descartados: %d' %fail)
print('Casos favorables: %d' %(len(resultados)))

In [None]:
#Creamos DataFrame y renombramos las columnas
ds = pd.DataFrame(resultados)
ds.columns = ['intento','pwr','secs','list']
ds.sort_values(by='secs' ,ascending=True)

In [None]:
plt.figure(figsize = (15,8))
plt.scatter(ds['pwr'],ds['secs'])
plt.title('Scatter Segundos vs. Potencia por ejecución válida')
plt.xlabel('Potencia (w)')
plt.ylabel('Tiempo (s)')
plt.show()

En el scatter ya se ve con la misma potencia media tenemos distintos tiempos de finalización y viceversa

In [None]:
plt.figure(figsize = (15,8))
plt.hist(ds['pwr'],bins=50, edgecolor ='k')
plt.xlabel('Potencia (w)')
plt.ylabel('Cuenta')
plt.show()

Histograma de potencias validas para la simulación

In [None]:
#Pintamos el mejor resultado
a = ds.groupby(['intento'])['secs'].agg('sum').sort_values(ascending=True)
a[:1].max()

In [None]:
#Nos quedamos con los 50 mejores resultados para ser analizdos en Tableau
ganadores = pd.DataFrame(ds[ds['secs']<=a[:15].max()][['intento','list']])
ganadores['intento']=ganadores['intento']+200000 #Añadimos 200000 para que quede constancia de que son intentos de 2ª vuelta 2xxddd
ganadores

In [None]:
#Agregamos las características de cada tramo al df de ganadores y sacamos el resultado a Excel
for i in range(len(ganadores)):
    if i == 0:
        df_ganador = pd.DataFrame(ganadores.values[i][1])
        df_ganador.columns =["Tramos","Potencia","Velocidad","Distancia","Tiempo","Pendiente","Viento"]
        df_ganador['Intento'] = ganadores.values[i][0]
    else:
        df_aux = pd.DataFrame(ganadores.values[i][1])
        df_aux.columns =["Tramos","Potencia","Velocidad","Distancia","Tiempo","Pendiente","Viento"]
        df_aux['Intento'] = ganadores.values[i][0]
        df_ganador = df_ganador.append([df_aux])
        del df_aux

df_ori2 = df_ori.append([df_ganador])       
df_ori2.to_excel('res_sim_2vuelta.xlsx')
df_ori2.head()

In [None]:
df_ganador.describe()

In [None]:
plt.figure(figsize = (15,8))
plt.hist(df_ganador['Potencia'], edgecolor ='k')
plt.title('Histograma de Potencias Mejores')
plt.xlabel('Potencias')
plt.ylabel('Cuenta')
plt.show()

In [None]:
plt.figure(figsize = (15,8))
plt.scatter(df_ganador['Pendiente'],df_ganador['Potencia'])
plt.title('Scatter de Potencias vs Pendiente')
plt.xlabel('Potencias')
plt.ylabel('Cuenta')
plt.show()