# REGIONAL REGRASJONSANALYSE AV TOTALT TILSIG/MAGASINVOLUM
## Tipper/predikerer foregående ukes verdi
Dette scriptet utfører en estimering det totale tilsiget (ukjent+kjent) i hver av regionene: NO1-NO5 og SE1-SE4. Tippingen på tilsig og/eller magasin er basert på regresjon fra en mengde kjente serier for bla. tilsig og magasinvolum. Tippingen skrives til seriene regest% (søk i tidsserier). 

Beskrivelse av metoden:
1. Leser inn kjente serier for tilsig og/eller magasinvolum fra SMG, og henter ukesverdiene. Dette gjøres i egen celle slik at man kan kun trenger å lese inn en gang siden dette tar noen minutter.
2. Leser inn fasiten, og regner så ut korrelasjonen (R2) mellom faiten og inputseriene. Et antall serier som skal tas med videre velges så utifra "ant_kandidater" med høyeste korrelasjon med fasiten.
3. Kjøre regresjon så langt tilbake som vi har data (2015.06.08), og luker ut den høyeste p-verdien. Dette kjøres om og om igjen helt til den høyeste p-verdien er laveren enn "max_p".
4. Til slutt kjøres en regresjon på en kortere periode (reg_period) med utvalget av serier som har blitt gjort i steg 2 og 3. Resultatet fra denne regresjonen blir modellen som brukes til å estimere/tippe neste ukes verdi.
5. Scriptet gjør 10 slike tippinger, 10 uker tilbake i tid, for hver kjøring. 

Tuning av regresjonen utføres ved å spesifisere ant_kandidater, max_p og reg_period, som når man er fornøyd kan oppdateres i default_input_variables. For at dette skal bli brukt i autojobben, må man ta kontakt med Sarah, slik at dette kan legges inn i PyCharm scriptet som utfører autojobben (tirsdag 06:00 og 11:00).

Scriptet er laget av Sarah Gjermo, på bestilling fra Svein Farstad. Sist endret 06.05.2019.

## INNLESNING OG KLARGJØRING
Kjøres kun en gang!

In [None]:
from shyft.api import utctime_now  # To time the reading from SMG
from regression_modules import *
start_time = utctime_now()

auto_input = {}
auto_input['tilsig'] = read_and_setup('tilsig')
auto_input['magasin'] = read_and_setup('magasin')

## KJØRING OG TUNING
Her kan du velge å kjøre regresjonen for alle regioner, og for magasin og tilsig i ett f.eks, slik:

    var = ['Magasin','Tilsig']
    reg = ['NO1','NO2','NO3','NO4','NO5','SE1','SE2','SE3','SE4']
    for variable in var:
        for region in reg:
            show_result_input = make_estimate_and_write(variable, region, auto_input[variable])
            show_result(show_result_input)
    
Eller du kan bruke cellen til å tune inn for en og en region, der du kan spesifisere input manuelt som overskriver utvalget variables og regions slik:

    var = ['tilsig']
    reg = ['NO1']
    for variable in var:
        for region in reg:
            show_result_input = make_estimate_and_write(variable, region, auto_input[variable], 65, 0.025, 0.5)
            show_result(show_result_input)
            
Her er reg_period = 65, max_p = 0.025, ant_kandidater=50.
Før man begynner å tune er det lurt å kjøre programmet en gang først for regionen, for da printes ut default variablene, slik at man kan ta utgngspunkt i det. 


In [None]:
def make_estimate_and_write(variable, region, auto_input, reg_period=False, max_p=False, ant_kandidater=False):
    fasit_key, reg_period, max_p, ant_kandidater = get_default_variables(variable, region, reg_period, max_p, ant_kandidater)
    df_week, MagKap, period, forecast_time, read_start = auto_input
    tipping_output = make_estimate(variable, region, auto_input, fasit_key, reg_period, max_p, ant_kandidater)
    [fasit, long_results, short_results, df_tot, chosen_p, chosen_r2, r2_modelled, prediction, tipping_df, reg_end, reg_period, ant_break_long, nb_weeks_tipping, read_start] = tipping_output
    # write to SMG:
    write_SMG_regresjon(variable, region, tipping_df)
    # write to SMG, virtual:
    write_V_SMG_Regresjon(df_tot, short_results, chosen_p, fasit_key, r2_modelled, MagKap)
    show_results_input = [fasit_key, ant_kandidater, max_p, fasit, long_results, short_results, df_tot, chosen_p, chosen_r2, r2_modelled, prediction, tipping_df, reg_end, reg_period, ant_break_long, nb_weeks_tipping, read_start]
    return show_results_input

In [None]:
def show_result(show_result_input):
    """This function prints out and plots the results from the regression."""
    fasit_key, ant_kandidater, max_p, fasit, long_results, short_results, df_tot, chosen_p, chosen_r2, r2_modelled, prediction, tipping_df, reg_end, reg_period, ant_break_long, nb_weeks_tipping, read_start = show_result_input
    plt.interactive(False)
    reg_start = (pd.to_datetime(time.strftime(reg_end), format="%Y.%m.%d") - Timedelta(days=reg_period * 7)).strftime('%Y.%m.%d')
    print('\n-----------------------------------------------------------------------')
    print('RESULTATER FOR %s\n' % fasit_key)
    print('Regresjonsperiode brukt til setup for siste tipping: %s til: %s.' % (read_start, reg_end))
    print('Regresjonsperiode brukt på modellen for siste tipping: %s til: %s.' % (reg_start, reg_end))
    print('Valgte %.2f kandidater til regresjonen utifra korrelasjon med fasitserien.'%(ant_kandidater))
    print('Valgte så ut de med p-value < %.5f, som var %i stk.' % (max_p, len(long_results.pvalues)))
    print('Antall stopp av loopen som luker ut for høye p pga minimum antall serier i den lange regresjonen: %i/%i'%(ant_break_long,nb_weeks_tipping))
    print('R2 for regresjonen (kort periode): %.5f' % r2_modelled)
    #start_tipping = (pd.to_datetime(time.strftime(reg_end), format="%Y.%m.%d") - Timedelta(days=7*(nb_weeks_tipping-2))).strftime('%Y.%m.%d')
    print('R2 mellom fasit og tipping: %.5f\n'%(calc_R2(fasit[fasit_key].loc[tipping_df.index[0]:],tipping_df[:fasit[fasit_key].index[-1]])))
    
    print('Fasit:\n', fasit[fasit_key][-4:])
    print('\nModdelert/Tippet:\n', tipping_df[-5:])
    
    if fasit_key[-3:] == '105':
        color_tipping = 'blue'
    elif fasit_key[-3:] == '132':
        color_tipping = 'lightblue'
    
    # Plot with regression:    
    plt.figure(figsize=(16, 10))
    if (0 <= today.weekday() <= 1) or (today.weekday() == 2 and today.hour < 14):  # True for tipping
        plt.plot(fasit[fasit_key].loc[:reg_end], color='k', linewidth=2.0, label='fasit')
    else:
        plt.plot(fasit[fasit_key].loc[:], color='k', linewidth=2.0, label='fasit')
    plt.plot(short_results.predict(df_tot[chosen_p].loc[reg_start:reg_end]), color='orange',
             label='regresjon på historie(kort periode)')
    plt.plot(long_results.predict(df_tot[chosen_p].loc[:reg_start]), color='cyan',
             label='regresjon på historie (lang periode)')
    plt.plot(short_results.predict(df_tot[chosen_p].loc[:reg_start]), color='deeppink',
             label='modell på historie (kort periode)')
    plt.plot(tipping_df, label='tipping', color=color_tipping)  # , marker='o')
    plt.title('Regresjon for: %s' % fasit_key)
    plt.legend()

    # Plot just prediction:
    plt.figure(figsize=(16, 10))
    if (0 <= today.weekday() <= 1) or (today.weekday() == 2 and today.hour < 14):  # True for tipping
        plt.plot(fasit[fasit_key].loc[tipping_df.index[0]:], color='k', linewidth=2.0, label='fasit')
    else:
        plt.plot(fasit[fasit_key].loc[tipping_df.index[0]:reg_end], color='k', linewidth=2.0, label='fasit')
    plt.plot(tipping_df, label='tipping', color=color_tipping)  # , marker='o')
    plt.title('Tipping for: %s' % fasit_key)
    plt.legend()

    # Plot input series:
    plt.figure(figsize=(16, 10))
    plt.plot(fasit[fasit_key], color='k', linewidth=3.0, label='fasit')
    for key in chosen_p:
        if fasit_key[-3:] == '105':
            sfac = df_tot[fasit_key].mean() / df_tot[key].mean()
            plt.plot(df_tot[key]* sfac)  # , marker='o')
        elif fasit_key[-3:] == '132':
            plt.plot(df_tot[key])  # , marker='o')
    plt.plot(tipping_df, label='tipping', color=color_tipping)  # , marker='o')
    plt.title('Regresjonsserier for: %s' % fasit_key)
    plt.legend()
    plt.show()

In [None]:
all_variables = ['magasin','tilsig']
all_regions = ['NO1','NO2','NO3','NO4','NO5','SE1','SE2','SE3','SE4']
#var = ['magasin']
#reg = ['SE1','SE2','SE3','SE4']
columns=['ant_kandidater', 'ant_serier', 'r2_modelled', 'r2_tippet', 'r2_samlet', 'reg_period', 'max_p']
#Initializing
max_p = 0.025
reg_period = 208 #Finn hele perioden

for variable in ['tilsig']:
    
    if variable == 'tilsig':
        print('---------------------------------------------------------------')
        print('                        TILSIG                                 ')
        print('---------------------------------------------------------------')
        max_kandidater = 196
        min_kandidater = 100
        print('variable = {} , max ant. kandidater: {}, min ant. kandidater: {}'.format(variable, max_kandidater, min_kandidater))
    elif variable == 'magasin':
        print('---------------------------------------------------------------')
        print('                        MAGASIN                                ')
        print('---------------------------------------------------------------')
        max_kandidater = 135
        min_kandidater = 100
        print('variable = {}'.format(variable))
    max_weeks = 208
    min_weeks = 90
    print('max ant. kandidater: {}, min ant. kandidater: {}'.format(max_kandidater, min_kandidater))
    print('max ant. uker: {}, min ant. uker: {}'.format(max_weeks, min_weeks))
        
        
    for region in ['SE2','SE3','SE4']:
        start_time_loop = utctime_now()
        #Første loop: Tuner antall kandidater som gir best R2 samlet
        df_ant_kandidater = pd.DataFrame(columns=columns)
        for antall in range(min_kandidater,max_kandidater,10):
        #for ant_kandidater in range(min_kandidater,max_ant_kandidater,2):
            output = make_estimate_while_looping(variable, region, auto_input[variable], reg_period, max_p, antall)
            df_ant_kandidater = df_ant_kandidater.append({columns[0]:output[0], columns[1]:output[1], columns[2]:output[2], columns[3]:output[3], columns[4]:output[4], columns[5]:output[5], columns[6]:output[6]},ignore_index=True)
        idx_max = df_ant_kandidater.r2_samlet.idxmax(skipna=True)
        ant_kandidater_beste = int(df_ant_kandidater.ant_kandidater.values[idx_max])
        print('Beste ant_kandidater loop 1: ', ant_kandidater_beste)
        
        #Andre loop: tuner lengden på den korte regresjonen som gir best R2 samlet  
        df_reg_period = pd.DataFrame(columns=columns)
        for period in range(min_weeks,max_weeks,15):
        #for reg_period in range(12,130,10):
            output = make_estimate_while_looping(variable, region, auto_input[variable], period, max_p, ant_kandidater_beste)
            df_reg_period = df_reg_period.append({columns[0]:output[0], columns[1]:output[1], columns[2]:output[2], columns[3]:output[3], columns[4]:output[4], columns[5]:output[5], columns[6]:output[6]},ignore_index=True)
        idx_max = df_reg_period.r2_samlet.idxmax(skipna=True)
        reg_period_beste = df_reg_period.reg_period.values[idx_max]
        print('Beste reg_period loop 2: ', reg_period_beste)

        #Tredje loop: tuner valget av max p-verdi som gir best R2 samlet  
        #df_max_p = pd.DataFrame(columns=columns)
        #for max_p in np.linspace(0.001,0.015,5):
        #    output = make_estimate_while_looping(variable, region, auto_input[variable], reg_period, max_p, ant_kandidater)
        #    df_max_p = df_max_p.append({columns[0]:output[0], columns[1]:output[1], columns[2]:output[2], columns[3]:output[3], columns[4]:output[4], columns[5]:output[5], columns[6]:output[6]},ignore_index=True)
        #idx_max = df_max_p.r2_samlet.idxmax(skipna=True)
        #max_p = df_max_p.max_p.values[idx_max]
        #print('Valgte max_p til å være: ', max_p)
        
        #df_all_methods = pd.concat([df_ant_kandidater,df_reg_period,df_max_p], ignore_index=True, sort=False)
        df_all_methods = pd.concat([df_ant_kandidater,df_reg_period], ignore_index=True, sort=False)
        idx_max = df_all_methods.r2_samlet.idxmax(skipna=True)
        #oppdaterer valg av beste antall_kandidater og reg_period
        ant_kandidater_beste = int(df_all_methods.ant_kandidater.values[idx_max])
        reg_period_beste = df_all_methods.reg_period.values[idx_max]
        max_p = df_all_methods.max_p.values[idx_max]
        show_result_input = make_estimate_and_write(variable, region, auto_input[variable], reg_period_beste, max_p, ant_kandidater_beste)
        show_result(show_result_input)
        print('\nRegresjonen med tuning tok %.0f minutter. \n' %((utctime_now() - start_time_loop)/60))
        
        
print('---------------------------------------------------------------')
print('                         SLUTT                                 ')
print('---------------------------------------------------------------')
print('\nScriptet brukte totalt %.0f minutter. \n' %((utctime_now() - start_time)/60))