La idea central para tener los valores de T1, T2, y exportación es crear tablas con acciones homónimas a las tablas máster. Se debe elegir cuánto es envíado y en qué tipo de camiones y listo. Para exportación, usaremos la info enviada por Salvador. 

Retos:
1. Cómo definir cuántos camiones y de qué tipo para suplir demandas por ciudad por mes. Sería bueno una función interactiva
2. Asegurar que sí cruce la información 


Lo fundamental aquí es que se logre convertir todas las tablas de T1, T2, y EXP al formato de MES, FAMILIA, ID_ORIGEN, ID_DESTINO, CANTIDAD. El caso de exportación es especial, porque es una red muy simple, por lo que podemos hacer dos cosas:
1. Calcular el costo total por envío a través del ID_VIAJE
2. Crear un factor de eficiencia, para poder simular esa ineficiencia de envíos en un valor unificado medio.


Con eso en cuenta, resolveremos esto así:
1. Editar las bases de datos para que las columnas tengan los nombres que usamos en los masters
2. Editar las bases de datos para que CGNA sea reemplazado por CGNA_PLANT para nacional, y CGNA_PORT para exportación
3. Borrar filas que no tengan origen, destino, o sku. 
4. Crear columnas de año y mes por separado. Filtrar solo 2019
5. Unir el diccionario de familias a los productos en todas las tablas
6. Pasar a positivo las cantidades y dividirlas por 1000 para que estén en toneladas. Agrupar datos. Al hacer un join con un tarifario de valores únicos, se nos duplicarán los valores en cantidad. Eso es bueno porque podemos pegar una nueva columna al tarifario que sea tasa de utilizacion, inspirado en los valores hechos antes para el baseline. Luego es cuestión de multiplicar la cantidad por ese valor, y tendremos nuestra cantidad de material por tipo de camión. Finalmente, es cuestión de dividir ese valor por la capacidad de camión. Ahí tendremos nuestra variable de decisión
7. Unir tablas con el tarifario. Verificar cuáles no cruzan y por qué
8. Usar la estructura previamente usada en el baseline de porcentajes de uso por tipo de camión para el caso nacional. Para el caso de exportación, usar el más grande nada más
8. Edit: podríamos usar un factor de subutilización de camiones de 34 toneladas en Nacional. Sería fácil de implementar, pero no sé si crearía problemas más adelante. Por el momento hagamos la parte difícil.
9. Validar con el mismo procedimiento de limpieza_master para ver si hay errores de tipografía y corregirlos.
10. Cruzar con la tabla de variables_decision para obtener el costo final

In [9]:
import pandas as pd


t1_rfi = pd.read_csv('rfi/T1_RFI.csv')
t2_rfi = pd.read_csv('rfi/T2_RFI.csv')
dict_sku_fam = pd.read_excel('rfi/diccionario_sku_familia.xlsx')
tarifario = pd.read_csv('input_final/master_tarifario.csv')
## Pendiente exportacion


#### Costos T1 ####

# Mapear diccionario de SKUs a familias
t1_rfi = t1_rfi.merge(dict_sku_fam, how='left', on='sku')
t1_rfi = t1_rfi.fillna(values={'familia': 'NAN'})

# Pasar a positivo las cantidades, seleccionar solo 2019
t1_rfi['cantidad'] *= -1
t1_rfi = t1_rfi.astype({'fecha_viaje': 'datetime64'})
t1_rfi = t1_rfi[t1_rfi['fecha_viaje'].dt.year == 2019]

# Crear Col de mes
t1_rfi['mes'] = t1_rfi['fecha_viaje'].dt.month

# Reemplazar CGNA por CGNA_PLANT
t1_rfi['id_ciudad_origen'] = t1_rfi['id_ciudad_origen'].str.replace('CGNA', 'CGNA_PLANT')

# Groupby


# Crear columna transporte. Esto lo haremos a partir de una división por los tipos de transportes disponibles.
# Para ello, haremos un merge con el tarifario. 
t1_rfi = t1_rfi.merge(tarifario, how='inner', on=['id_ciudad_origen', 'id_ciudad_destino'])
t1_rfi = t1_rfi.loc[:, ['mes', 'familia', 'capacidad', 'id_ciudad_origen', 'id_ciudad_destino', 'costo']]

# Ahora solo falta agregar los valores a esto. Hay que asignarlas de acuerdo a los tipos de capacidad disponibles. Dado que en exportación hay tantas opciones,
# va a ser viable usar la de mayor capacidad y combinarla con la de menor capacidad.



KeyError: 'sku'

In [None]:
## Función para alistar los datos

def exp_clean(data):
    
    data['id_ciudad_origen'] = 'CGNA_PORT'
    
    

def remover_tildes_espacios(series):
    """
    Remueve tildes y espacios al inicio y al final de los strings en una pd.Series
    :param series: pd.Series
    :return:
    """
    series = series.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
    series = series.str.strip()
    return series


def t_decision(data, fam_dict, tarifario, year=2019, tipo: str):
    """
    Limpia datos de T1 y T2. Tambien calcula las variables de decisión
    
    :params data: datos de demanda limpios, con estructura de master demanda
    :params fam_dict: Diccionario de familias y SKUs
    :params tarifario: Tarifario de transporte
    :params tipo: indicar si es T1 o T2  # TODO: vale la pena unir t1 y t2 y poner una columna que indique cuál es.
    """
    
    # Conteo inicial de demanda para saber cuánto se descartó
    demanda_inicial = data['cantidad'].sum() / 1000
    
    # Eliminar filas con NaN en origen, destino, sku
    data = data.dropna(subset=['id_ciudad_origen', 'id_ciudad_destino', 'sku'])
    
    # Configurar columna fecha a formato fecha, crear col de año y mes. Filtrar año en cuestión
    data = data.astype({'fecha_viaje': 'datetime64'})
    data['año'] = data['fecha'].dt.year
    data['mes'] = data['fecha'].dt.month
    data = data.loc[data['año'] == year]
    
    if tipo == 't2':
        data = data.loc[data['nacional_exportacion'] == 'Nacional']
        data['cantidad'] *= (1/1000)
    elif tipo == 't1':
        data['cantidad'] *= (-1/1000)
    else:
        continue
    
    # Seleccionar solo columnas relevantes
    data = data.loc[:, ['mes', 'id_ciudad_origen', 'id_ciudad_destino', 'sku', 'cantidad']]
    
    # Unir familias a data de demanda
    data = data.merge(fam_dict, how='left', on='sku')
    
    data_omitida = data.loc[data['familia'].isna()]
    data = data.loc[~data['familia'].isna()]
    
    # Limpiar textos
    for col in ['id_ciudad_origen', 'id_ciudad_destino', 'familia']:
        data[i] = data[i].str.upper()
        data[i] = remover_tildes_espacios(data[i])
        
    
    # Agrupar datos
    data = data.groupby(['mes', 'familia', 'id_ciudad_origen', 'id_ciudad_destino', 'cantidad']).sum().reset_index()

    ## CALCULO variables decision ##
    # Lograr poner en tarifario diccionario de porcentajes de uso. La idea es que en el tarifario podamos poner estos pesos. Para ello,
    # primero hay que filtrar las tarifas que son nacionales y omitir aquellas que tienen un 999. Para ello haremos una variación en
    # el diccionario de pesos usado en el tarifario. Habían cinco casos, donde dos de ellos (que haya solo dos tarifas aunque de diferentes
    # pesos), son iguales en la cantidad de tarifas disponibles. El cambio es el siguiente. Si hay solo 1 transporte, va 100%; si hay dos, 
    # va el 95% en el más alto y 5%; si hay tres, va 90%, 5%, 5%; y si hay cuatro, van 95%, 3%, 1%, 1%
    tarifario = tarifario.loc[(tarifario['id_ciudad_origen'].isin(['MB_PLANT', 'CGNA_PLANT', 'ABOD', 'BBOD', 'CBOD', 'BUEN_PORT'])) &
                             (tarifario['capacidad'] != 999)]
    pesos_camion_dict = {1: [1], 2:[0.95, 0.05], 3: [0.9, 0.05, 0.05], 4: [0.95, 0.03, 0.01, 0.01]}
    
    # Hacer un groupby provisional para saber cuántos transportes hay por rutas. Luego lo unimos con tarifario organizado por alfabeto
    tarifario_group = tarifario.groupby(['id_ciudad_origen', 'id_ciudad_destino'])['capacidad'].count()
    tarifario_group = tarifario_group.rename(columns={'capacidad': 'conteo'})
    tarifario = tarifario.sort_values(['id_ciudad_origen', 'id_ciudad_destino', 'capacidad'], ascending=[True, True, False])
    
    # Unir conteo con tarifario. Teniendo conteo, agregar valores de pesos de camiones en tasa_util
    tarifario = tarifario.merge(tarifario_group, on=['id_ciudad_origen', 'id_ciudad_destino'])
    del(tarifario_group)
    tarifario['tasa_util'] = 0
    for i in tarifario['conteo'].unique():
        tarifario.loc[tarifario['conteo'] == i, 'tasa_util'] = pesos_camion_dict[i] * tarifario.loc[tarifario['conteo'] == i, 'conteo'].shape[0]
    
    # Cruzar demanda con tarifario, guardar omitidos
    data = data.merge(tarifario, how='left', on=['id_ciudad_origen', 'id_ciudad_destino'])
    data_omitida = pd.concat(data_omitida, data.loc[data['capacidad'].isna()], ignore_index=True)
    data = data.loc[~data['capacidad'].isna()]
        
    # Calcular variable de decisión, que equivale a (tasa_util * cantidad) / capacidad
    data['valor_decision'] = (data['tasa_util'] * data['cantidad']) / data['capacidad']
    
    # Filtrar columnas relevantes
    data = data.loc[:, ['mes', 'familia', 'capacidad', 'id_ciudad_origen', 'id_ciudad_destino', 'costo', 'valor_decision']]
    
    return data, data_omitida
    
    
    
    

In [4]:
df = pd.DataFrame([[1, 2, 3, 4], [3, 4, 5, 6]])

In [3]:
import pandas as pd

In [6]:
df['al'] = [33] * 2

In [13]:
tar = tarifario.groupby(['id_ciudad_origen', 'id_ciudad_destino'])['capacidad'].count().reset_index()
tarifario = tarifario.sort_values(['id_ciudad_origen', 'id_ciudad_destino', 'capacidad'], ascending=[True, True, False])

In [30]:
tarifario.merge(tar, on=['id_ciudad_origen', 'id_ciudad_destino'])

Unnamed: 0.1,Unnamed: 0,id_ciudad_origen,id_ciudad_destino,capacidad_x,costo,capacidad_y
0,0,ABOD,ABOD,1.0,64488.0,1
1,1,ABOD,APARTADO,1.0,64488.0,1
2,5,ABOD,ARMENIA,34.0,3600000.0,4
3,4,ABOD,ARMENIA,17.0,2000000.0,4
4,3,ABOD,ARMENIA,8.5,1270000.0,4
...,...,...,...,...,...,...
979,984,MB_PLANT,PEREIRA,1.0,176380.0,1
980,985,MB_PLANT,PGI,1.0,195000.0,1
981,986,MB_PLANT,RIONEGRO,1.0,153600.0,1
982,987,MB_PLANT,TOCANCIPA,1.0,160000.0,1


In [24]:
tarifario_del.loc[tarifario_del['capacidad'] == 1, 'costo'] = -999

0     -999.0
1     -999.0
14    -999.0
27    -999.0
40    -999.0
       ...  
979   -999.0
980   -999.0
981   -999.0
982   -999.0
983   -999.0
Name: costo, Length: 74, dtype: float64

In [31]:
tarifario_del['a'] = 0

In [34]:
tarifario_del.capacidad.shape[0]

984

In [None]:
def matriz_coef(items_df: pd.DataFrame, actividades_df: pd.DataFrame):
    """
    Contruye matriz de coeficientes con base a las actividades (columnas) e ítems (filas) ingresadas.

    Retorna un np.array de coeficientes, siendo los indices `items_df`, y las columnas `actividades_df`.

    :param items_df:
    :param actividades_df:
    :return coef_mat:
    """

    # Crear matriz de coeficientes con ceros para llenar
    coef_mat = np.zeros((items_df.shape[0], actividades_df.shape[0]))

    for idx, item in items_df.iterrows():
        for idy, actividad in actividades_df.iterrows():

            # 1. Condicion de entrada de flujo
            if (item['tiempo'] == actividad['tiempo'] and
                    item['producto'] == actividad['producto'] and
                    item['nodo'] == actividad['origen']):
                coef_mat[idx, idy] = actividad['transporte']

            # 2. Condicion de salida de flujo
            elif (item['tiempo'] == actividad['tiempo'] and
                  item['producto'] == actividad['producto'] and
                  item['nodo'] == actividad['destino']):
                coef_mat[idx, idy] = -actividad['transporte']

            # 3. Condicion de entrada de input a almacenamiento
            elif (item['tiempo'] == actividad['tiempo'] and
                    item['producto'] == actividad['producto'] and
                    'ALMACENAMIENTO' in actividad['origen'] and
                    item['nodo'] == actividad['origen'].replace('_ALMACENAMIENTO', '')):
                coef_mat[idx, idy] = 1

            # 4. Condicion de output almacenamiento
            elif ((item['tiempo'] - 1) == actividad['tiempo'] and
                  item['producto'] == actividad['producto'] and
                  'ALMACENAMIENTO' in actividad['destino'] and
                  item['nodo'] == actividad['destino'].replace('_ALMACENAMIENTO', '')):
                coef_mat[idx, idy] = -1

            # 5. Condicion de máximo almacenamiento (capacidad estática)
            elif (item['tiempo'] == actividad['tiempo'] and
                  'ALMACENAMIENTO' in actividad['origen'] and
                  item['nodo'] == actividad['origen'].replace('_ALMACENAMIENTO', '') and
                  item['tipo'] == 'capacidad_est'):
                coef_mat[idx, idy] = 1

            # 6. Condicion de máximo flujo (capacidad dinámica)
            elif (item['tiempo'] == actividad['tiempo'] and
                  item['tipo'] == 'capacidad_din' and
                  item['nodo'] == actividad['destino']):
                coef_mat[idx, idy] = actividad['transporte']
            else:
                continue
    return coef_mat

def matriz_coef_v2(items_df: pd.DataFrame, actividades_df: pd.DataFrame):
    
    coef_mat = np.zeros((items_df.shape[0], actividades_df.shape[0]))
    
    # Crar columnas de indice de items y actividades
    actividades_df['idy'] =actividades.index
    items_df['idx'] = items_df.index
    
    ## Al ser seis grupos de condiciones, serían 6 JOIN. CONDICIONES:
    
    # ENTRADA DE FLUJO. al ser INNER, no habrá valores nulos. Aunque algo más eficiente es ir acortando el número de filas
    # EDIT: no es tan fácil reusar lo que no cruzó, porque los cruces en las condiciones no son de las mismas columnas
    cond1 = pd.merge(items_df, actividades_df, left_on=['tiempo', 'producto', 'nodo'],
                     right_on=['tiempo', 'producto', 'origen'], how='inner')
    cond1['valor_mat'] = cond1['transporte'].copy()
    
    # SALIDA DE FLUJO
    cond2 = pd.merge(items_df, actividades_df, left_on=['tiempo', 'producto', 'nodo'],
                     right_on=['tiempo', 'producto', 'destino'], how='inner')
    cond2['valor_mat'] = cond2['transporte'].copy()
    
    # ENTRADA INPUT A ALMACENAMIENTO
    cond3_items = item_df.copy()
    cond3_items['nodo'] = cond3_items['nodo'] + '_ALMACENAMIENTO'
    cond3 = pd.merge(cond3_items, actividades_df, left_on=['tiempo', 'producto', 'nodo'],
                     right_on=['tiempo', 'producto', 'origen'], how='inner')
    cond3['valor_mat'] = 1
    del cond3_items
    
    # SALIDA OUTPUT ALMACENAMIENTO
    cond4_items = item_df.copy()
    cond4_items['tiempo'] -= 1
    cond4_items['nodo'] = cond4_items['nodo'] + '_ALMACENAMIENTO'
    cond4 = pd.merge(cond4_items, actividades_df, left_on=['tiempo', 'producto', 'nodo'],
                 right_on=['tiempo', 'producto', 'destino'], how='inner')
    cond4['valor_mat'] = -1
    del cond4_items
    
    # MAXIMO ALMACENAMIENTO (CAP ESTATICA)
    cond5_items = items_df.loc[items_df['tipo'] == 'capacidad_est']
    cond5_items['nodo'] = cond5_items['nodo'] + '_ALMACENAMIENTO'
    cond5 = pd.merge(cond5_items, actividades_df, left_on=['tiempo', 'nodo'], right_on=['tiempo', 'origen'], how='inner')
    cond5['valor_mat'] = 1
    del cond5_items
    
    # MAXIMO FLUJO (CAP DINAMICA)
    cond6_items = items_df.loc[items_df['tipo'] == 'capacidad_din']
    cond6 = pd.merge(cond6_items, actividades_df, left_on=['tiempo', 'nodo'], right_on=['tiempo', 'destino'], how='inner')
    cond6['valor_mat'] = cond6['transporte'].copy()
    del cond6_items
    
    condiciones = pd.concat([cond1, cond2, cond3, cond4, cond5, cond6], ignore_index=True)
    
    # Crear matriz de coeficiente a partir de tabla de condiciones
    for index, condicion in condiciones.iterrows():
        coef_mat[condicion['idx'], condicion['idy']] = condicion['valor_mat']
        
    return coef_mat
    
  