In [1]:
## Import necessary modules
%load_ext autoreload
%autoreload 2

import os,sys
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.dates import date2num, AutoDateFormatter, AutoDateLocator, WeekdayLocator, MonthLocator, DayLocator, DateLocator, DateFormatter
from matplotlib.dates import MO, TU, WE, TH, FR, SA, SU
from matplotlib.ticker import AutoMinorLocator, AutoLocator, FormatStrFormatter, ScalarFormatter, MultipleLocator, FixedLocator, FuncFormatter
import numpy as np
import datetime, calendar
from datetime import timedelta
import matplotlib.patches as mpatches
from itertools import tee

sys.path.append(os.path.abspath('/home/keuch/gits/keuch/code_box/pyt/spreadsheetparsing/entwuerfe/pyplots/lib/'))
from ce_funclib import determine_kernzeit as dtkz, decminutes_to_mmss as dec2min
#from ce_plotlib import abs_plot

%matplotlib tk

## Deklarationen

In [None]:
arcpath='/home/keuch/gits/keuch/code_box/pyt/spreadsheetparsing/datenhalde/1458/' #Leseverzeichnis
neededcols=[0,1,2,3,5,12,21] # Liste der Spalten, die aus dem Excelfile gelesen werden sollen
new_colnames=['tstp','clls','ange','verb','tt','acw','lost'] # Namen, die spaeter auf die Spalten kommen
shitcols=('Verbindungszeit [hh:mm:ss]','Nachbearbeitungszeit [hh:mm:ss]')
converts={shitcols[0]:str,shitcols[1]:str}
ipynb_name='1458_allrounder'
global ipynb_name

## Funktionen

#### data

In [None]:
######## GET A LIST OF MATCHING .xls FILES FROM THE GIVEN DIRECTORY
def collectxlfiles(arcpath):
    xlfilelist=list()

    for xlfile in os.listdir(arcpath):
        if xlfile.startswith('1458_daily'):
            xlfileabs=os.path.join(arcpath,xlfile)
            xlfilelist.append(xlfileabs)
    return sorted(xlfilelist)

In [None]:
def turn_xls_to_df(file):

    excel_df=pd.read_excel(file,skiprows=3,skip_footer=1,usecols=neededcols,converters=converts)# die ersten 3 werden nicht benötigt, letzte auch nicht
    excel_df['Timestamp'] = pd.to_datetime(excel_df['Timestamp'], format=' %d.%m.%Y %H:%M ') # statt string soll das ein datetime werden
    excel_df.columns=new_colnames
    excel_df2=excel_df.set_index('tstp').copy() # die timestamps sollen der index sein
        
    return excel_df2

In [None]:
def add_averages(frame):

    frame['avtt']=(frame['tt']/frame['verb'])/60
    frame['avht']=(frame['ht']/frame['verb'])/60
    frame['avacw']=(frame['acw']/frame['verb'])/60
    colorder_with_abs=['clls','verb','lost','avht','avtt','avacw','ht','tt','acw']
    frame_with_abs=frame[colorder_with_abs].fillna(0)
    
    return frame_with_abs

In [None]:
def labelspucker(x_index):
    xx=x_index
    von_monat=xx.month.unique()[0]
    bis_monat=xx.month.unique()[-1]
    von_jahr=xx.year.unique()[0]
    bis_jahr=xx.year.unique()[-1]
    
    if (von_monat == bis_monat):
        labeltext=str(calendar.month_abbr[von_monat])+' '+str(von_jahr)
    else:
        labeltext=str(calendar.month_abbr[von_monat])+' '+str(von_jahr)+' bis '+str(calendar.month_abbr[bis_monat])+' '+str(bis_jahr)
    return labeltext

In [None]:
def labels_percentize(series):
    return ["{0:.1f}%".format(x) if not np.isnan(x) else '' for x in series.values]

#### plot

In [None]:
def abs_plot(frame):

    gcol,lostcol,verbcol,ncol,kcol,ncol2="#777777","#AC003A","#008EC4","#000000","#4F7DFF",'#424242'
    
    ## Index und Daten ziehen
    d_ix=frame.index.get_level_values(0).unique()   ### Grundlage für die Plots: alle Tage des Zeitraums
    g_val=frame.xs('g', level='bz')['clls']
    k_val=frame.xs('k', level='bz')['clls']
    n_val=frame.xs('n', level='bz')['clls']
    verb=frame.xs('g', level='bz')['verb']
    lost=frame.xs('g', level='bz')['lost']
    
    ## Breite des plots anhand der vorhandenen Tage einstellen
    numdays=len(plotmonth.index.get_level_values(0).unique())
    figwdth=int(np.ceil(np.sqrt(numdays)*(numdays/(numdays*1.5))+6))  # kommt ungefähr hin: je mehr Tage, desto breiter der plot
    fig = plt.figure(figsize=(figwdth,10))

    ## Locators und Formatters 
    evry_sun = WeekdayLocator(6,interval=int(np.ceil(numdays/90))) # bis 90 Tage jeden Sonntag angeben, darüber nur jeden zweiten
    weekFormatter = DateFormatter('%a,%d.%-m.%y')

    
    
    ##################################################
    ## erster subplot: Zahl der Calls und Annahmequote
    ax = fig.add_subplot(211)

    ax.xaxis.set_major_locator(evry_sun)
    ax.xaxis.set_major_formatter(weekFormatter)
    ax.yaxis.set_minor_locator(AutoMinorLocator())

    ## Hilfslinien
    ax.grid(which='major', axis='y', linestyle='-', zorder=0, alpha=0.2, color=gcol)
    ax.grid(which='minor', axis='y', linestyle='--', zorder=0, alpha=0.1)
    ax.grid(which='minor', axis='x', linestyle='--', zorder=0, alpha=0.1)
    ax.set_axisbelow(True)


    bar_g=ax.bar(d_ix,g_val,color=gcol,width=0.8, label='calls')
    bar_n=ax.bar(d_ix,n_val, color=ncol, width=0.4, align='edge',label='davon nebenzeit')
    bar_verb=ax.bar(d_ix,verb,color=verbcol,width=-0.3, label='verbunden')
    bar_lost=ax.bar(d_ix,lost,color=lostcol,width=-0.3, bottom=verb,label='verloren')

    plt.setp(ax.get_xticklabels(), rotation=30, horizontalalignment='right', fontsize=7)
    ax.set_ylabel('calls',rotation=90)

    ## Annahme % oben anzeigen, aber nur, wenn weniger als 90 Tage dargestellt werden
    annahmequote=(verb/g_val)*100
    if numdays <= 90:
        ax.xaxis.set_minor_locator(DayLocator())
        ax2=ax.twiny()
        ax2labels=labels_percentize(annahmequote);   ## muss so formatiert werden, siehe hier https://stackoverflow.com/questions/45056579/is-it-possible-to-format-the-labels-using-set-xticklabels-in-matplotlib
        ax2.set_xlim(ax.get_xlim());
        ax2.set_xticks(d_ix.values);
        ax2.set_xticklabels(ax2labels,fontsize='6.25',rotation='90',ha='left');

    ## angepasste legende
    handles, labels = ax.get_legend_handles_labels()
    labels[0],labels[1],labels[2],labels[3]=str(labels[0]+' '+str(int(g_val.sum()))),str(labels[1]+' '+str(int(n_val.sum()))),str(labels[2]+' '+str(int(verb.sum()))),str(labels[3]+' '+str(int(lost.sum())))
    ax.legend(handles, labels,loc='upper left',bbox_to_anchor=(1,1),prop={'size': 6}).get_texts()[3].set_color(lostcol)

    
    ###################################################################################
    # zweiter subplot für Bearbeitungszeiten
    
    ax_tm = fig.add_subplot(212)
    
    bar_ix=date2num(d_ix.date)   # Index für die X-Achse muß in Nummern gezählt werden, um die bars hinterher zu justieren
    
    ## Ticks und Formatierungen für die X-Achse
    ax_tm.set_xticks(d_ix.values)
    ax_tm.set_xticklabels(d_ix.date,fontsize='6.25',rotation='30',ha='left')
    ax_tm.xaxis.set_major_locator(evry_sun)
    ax_tm.xaxis.set_minor_locator(FixedLocator(bar_ix))
    ax_tm.xaxis.set_major_formatter(weekFormatter)
    
    ## Ticks und Formatierungen für die Y-Achse
    ax_tm.yaxis.set_minor_formatter(FuncFormatter(dec2min))    # Die Dezimalzahlen der Y-Achse sollen labels im MM:SS Format erhalten
    ax_tm.yaxis.set_major_formatter(FuncFormatter(dec2min))
    ax_tm.yaxis.set_minor_locator(AutoMinorLocator(4))         # Minor ticks in Unterteilungen der major ticks
    ax_tm.tick_params(axis='y',which='minor',labelsize=6)
    ax_tm.set_ylabel('minuten',rotation=90)
    
    ## Hilfslinien
    ax_tm.grid(which='major', axis='y', linestyle='-', zorder=0, alpha=0.2, color=gcol)
    ax_tm.grid(which='minor', axis='y', linestyle='--', zorder=0, alpha=0.1)
    ax_tm.grid(which='minor', axis='x', linestyle='--', zorder=0, alpha=0.1)
    ax_tm.set_axisbelow(True)

    ## Daten aus den Frames, die dann angezeigt werden
    ht_k, tt_k, aw_k = frame.xs('k', level='bz')['avht'], frame.xs('k', level='bz')['avtt'], frame.xs('k', level='bz')['avacw']
    ht_n, tt_n, aw_n = frame.xs('n', level='bz')['avht'], frame.xs('n', level='bz')['avtt'], frame.xs('n', level='bz')['avacw']
    ht_median_kernzeit = ht_k.median()
    ht_average_kernzeit = ht_k.mean()
    
    ## Grafiken erzeugen    
    avline=ax_tm.axhline(y=ht_average_kernzeit,xmax=0.01,color='#FF7B00',linewidth=5,label=str(dec2min(ht_average_kernzeit))+' mittel kern')
    mdline=ax_tm.axhline(y=ht_median_kernzeit,xmax=0.01,color='#FF0000',linewidth=5,label=str(dec2min(ht_median_kernzeit))+' median kern')
    
    zeiten_k_ht=ax_tm.bar(bar_ix-0.4,ht_k,color=gcol,width=0.4, label='ht kern',align='edge')
    zeiten_n_ht=ax_tm.bar(bar_ix,ht_n,color=ncol2,width=0.4, label='ht neben',align='edge',alpha=0.2)
    
    zeiten_k_tt=ax_tm.bar(bar_ix-0.25,tt_k,color=verbcol,width=0.1, label='tt',align='edge')
    zeiten_k_aw=ax_tm.bar(bar_ix-0.25,aw_k,color=lostcol,width=0.1, label='acw',align='edge',bottom=tt_k)
    
    zeiten_n_tt=ax_tm.bar(bar_ix+0.15,tt_n,color=verbcol,width=0.1,align='edge',alpha=0.2)
    zeiten_n_aw=ax_tm.bar(bar_ix+0.15,aw_n,color=lostcol,width=0.1,align='edge',bottom=tt_n,alpha=0.2)
    
    
    ## Legende
    ax_tm.legend(loc='upper left',bbox_to_anchor=(1,1),prop={'size': 6})
    
    ## 'watermark'
    ax_tm.text(0.85, -0.1, 'abs_plot()', horizontalalignment='left', verticalalignment='bottom', transform=ax.transAxes, color='#A3ABBD', fontsize='6')

    
    ######### Abschluss
    fig.suptitle(labelspucker(d_ix))
    plt.subplots_adjust(left=0.1,right=0.85)
    fig.show()

In [None]:
def plotby_avhour(frame,vonbis):

    gcol,lostcol,verbcol,ncol,kcol,titcol,bgcol="#777777","#AC003A","#008EC4","#000000","#4F7DFF","#0084E0","#F4F4F4"

    fig,ax1 = plt.subplots()
    ax2=ax1.twiny()
    
    ax1.set_facecolor(bgcol)
    ax1.grid(which='major', axis='y', linestyle=':', zorder=0)
    ax1.grid(which='major', axis='x', linestyle='--', zorder=0, color=titcol, alpha=0.1)
    ax1.set_axisbelow(True)
    
    ax1.set_xlabel('Uhrzeit')
    ax1.set_ylabel('Calls')

    x_x=frame.index.values
    ax1.xaxis.set_major_locator(FixedLocator(x_x))
    ax1labels=["{:}:00".format(x) for x in x_x]; 
    ax1.set_xticklabels(ax1labels,fontsize='7', rotation='45');

    clls, verb, lost = frame['clls'], frame['verb'], frame['lost']

    cbar=ax1.bar(x_x,clls,width=0.8,color=gcol,label='calls')
    vbar=ax1.bar(x_x,verb,width=0.4,color=verbcol,label='verbunden')
    lbar=ax1.bar(x_x,lost,width=0.4,color=lostcol,bottom=verb,label='verloren')

    annahmequote=(frame['verb']/frame['clls'])*100

    ax2labels=["{0:.1f}%".format(x) for x in annahmequote.values];   ## muss so formatiert werden, siehe hier https://stackoverflow.com/questions/45056579/is-it-possible-to-format-the-labels-using-set-xticklabels-in-matplotlib
    ax2.set_xlim(ax1.get_xlim());
    ax2.set_xticks(annahmequote.index.values);
    ax2.set_xticklabels(ax2labels,fontsize='6.25',rotation='45',ha='left');

    oberer_rand=ax1.get_ylim()[1]
    for i in x_x:
        txt=(int(frame.loc[i,['lost']]))
        ax1.text(i,(oberer_rand*0.9725),txt,fontsize=6,horizontalalignment='center', color=lostcol)  
    
    von,bis=vonbis[0].strftime('%d.%m.%y'),vonbis[1].strftime('%d.%m.%y')
    fig.suptitle('1458: Calls per Stunde dargestellt von '+von+' bis '+bis,fontsize=9,color=titcol)
    
    plt.subplots_adjust(top=0.825, bottom=0.125)
    handles, labels = ax1.get_legend_handles_labels()
    
    labels[0],labels[1],labels[2]=str(labels[0]+' '+str(frame['clls'].sum())),str(labels[1]+' '+str(frame['verb'].sum())),str(labels[2]+' '+str(frame['lost'].sum()))
    
    fig.legend(handles,labels,loc='center', fontsize=7, bbox_to_anchor=(0.25,0.7),ncol=1)

In [None]:
def plotby_avhour2(frameindex,framek,framen,vonbis):
    
    gcol,lostcol,verbcol,ncol,kcol,titcol,bgcol,ncol2="#777777","#AC003A","#008EC4","#000000","#4F7DFF","#0084E0","#F4F4F4",'#424242'
    fig = plt.figure(figsize=(12,6))
    
    ###############################################
    ## subplot nur für kernzeit
    
    ax1 = fig.add_subplot(121)
    
    ax1.set_facecolor(bgcol)
    ax1.grid(which='major', axis='y', linestyle=':', zorder=0)
    ax1.grid(which='major', axis='x', linestyle='--', zorder=0, color=titcol, alpha=0.1)
    ax1.set_axisbelow(True)
    
    ax1.set_xlabel('Kernzeit')
    ax1.set_ylabel('Calls')

    x_x=frameindex.values
    ax1.xaxis.set_major_locator(FixedLocator(x_x))
    ax1labels=["{:}:00".format(x) for x in x_x]; 
    ax1.set_xticklabels(ax1labels,fontsize='7', rotation='45');

    cllsk, verbk, lostk = framek['clls'], framek['verb'], framek['lost']

    cbark=ax1.bar(x_x,cllsk,width=0.8,color=gcol,label='calls')
    vbark=ax1.bar(x_x,verbk,width=0.4,color=verbcol,label='verbunden')
    lbark=ax1.bar(x_x,lostk,width=0.4,color=lostcol,bottom=verbk,label='verloren')

    annahmequotek=(framek['verb']/framek['clls'])*100
    
    ax2=ax1.twiny()
    ax2labels=labels_percentize(annahmequotek);   ## muss so formatiert werden, siehe hier https://stackoverflow.com/questions/45056579/is-it-possible-to-format-the-labels-using-set-xticklabels-in-matplotlib
    ax2.set_xlim(ax1.get_xlim());
    ax2.set_xticks(annahmequotek.index.values);
    ax2.set_xticklabels(ax2labels,fontsize='6.25',rotation='45',ha='left');

    oberer_rand=ax1.get_ylim()[1]
    for i in x_x:
        txt=(int(framek.loc[i,['lost']]))
        ax1.text(i,(oberer_rand*0.9725),txt,fontsize=6,horizontalalignment='center', color=lostcol)  
    
    
    ###############################################
    ## subplot nur für nebenzeit
    
    ax_n1 = fig.add_subplot(122)
    ax_n2=ax_n1.twiny()
    
    ax_n1.set_facecolor(bgcol)
    ax_n1.grid(which='major', axis='y', linestyle=':', zorder=0)
    ax_n1.grid(which='major', axis='x', linestyle='--', zorder=0, color=titcol, alpha=0.1)
    ax_n1.set_axisbelow(True)
    
    ax_n1.set_xlabel('Nebenzeit')
    ax_n1.set_ylabel('Calls')

    ax_n1.xaxis.set_major_locator(FixedLocator(x_x))
    ax_n1labels=["{:}:00".format(x) for x in x_x]; 
    ax_n1.set_xticklabels(ax1labels,fontsize='7', rotation='45');

    cllsn, verbn, lostn = framen['clls'], framen['verb'], framen['lost'] # gibts schon
    
    cbar_n=ax_n1.bar(x_x,cllsn,width=0.8,color=gcol,label='calls')
    vbar_n=ax_n1.bar(x_x,verbn,width=0.4,color=verbcol,label='verbunden')
    lbar_n=ax_n1.bar(x_x,lostn,width=0.4,color=lostcol,bottom=verbn,label='verloren')
    
    annahmequoten=(framen['verb']/framen['clls'])*100       
    
    ax_n2labels=labels_percentize(annahmequoten) ## muss so formatiert werden, siehe hier https://stackoverflow.com/questions/45056579/is-it-possible-to-format-the-labels-using-set-xticklabels-in-matplotlib
    ax_n2.set_xlim(ax_n1.get_xlim());
    ax_n2.set_xticks(annahmequoten.index.values);
    ax_n2.set_xticklabels(ax_n2labels,fontsize='6.25',rotation='45',ha='left');

    oberer_rand=ax_n1.get_ylim()[1]
    for i in x_x:
        txt=(int(framen.loc[i,['lost']]))
        ax_n1.text(i,(oberer_rand*0.9725),txt,fontsize=6,horizontalalignment='center', color=lostcol)  
    
    ################################################
    ## Legende
    
    von,bis=vonbis[0].strftime('%d.%m.%y'),vonbis[1].strftime('%d.%m.%y')
    fig.suptitle('1458: Calls per Stunde dargestellt von '+von+' bis '+bis,fontsize=9,color=titcol)
    
    plt.subplots_adjust(top=0.825, bottom=0.125)
    khandles, klabels = ax1.get_legend_handles_labels()
    nhandles, nlabels = ax_n1.get_legend_handles_labels()
    
    klabels[0],klabels[1],klabels[2]=str(klabels[0]+' '+str(framek['clls'].sum())),str(klabels[1]+' '+str(framek['verb'].sum())),str(klabels[2]+' '+str(framek['lost'].sum()))
    nlabels[0],nlabels[1],nlabels[2]=str(nlabels[0]+' '+str(framen['clls'].sum())),str(nlabels[1]+' '+str(framen['verb'].sum())),str(nlabels[2]+' '+str(framen['lost'].sum()))
    
    
    k_legend = ax1.legend(khandles,klabels,loc='center', fontsize=7, bbox_to_anchor=(0.2,0.7),ncol=1).get_texts()[2].set_color(lostcol)
    n_legend = ax_n1.legend(nhandles,nlabels,loc='center', fontsize=7, bbox_to_anchor=(0.7,0.7),ncol=1).get_texts()[2].set_color(lostcol)
    

    #fig.set_dpi(200)

## Datensammeln und Frame mit allen Daten herstellen

In [None]:
xlfilelist=collectxlfiles(arcpath)

In [None]:
greatframe=pd.DataFrame() # leeren df initialisieren
for i in xlfilelist:
    i_frame=turn_xls_to_df(i)
    greatframe=greatframe.append(i_frame) 
# alle files werden ordentlich in df konvertiert und an den ausserhalb der funktion kreierten df angehangen
# greatframe # hier sind alle daten vollständig enthalten, die gebraucht werden, der Ur-Frame

In [None]:
## Anrufzeiten statt datetime oder string nach timedelta (Sekunden) gewandelt
greatframe[['tt','acw']]=greatframe[['tt','acw']].apply(pd.to_timedelta).astype('timedelta64[s]')
greatframe['ht'] = (greatframe['tt']+greatframe['acw'])

In [None]:
## add kern- und nebenzeit column
greatframe['bz'] = greatframe.index.map(dtkz)

In [2]:
greatframe=pd.read_pickle('/home/keuch/gits/keuch/code_box/pyt/spreadsheetparsing/datenhalde/datapickles/Rohdaten_1458-2018-04-29.pkl')

## Zeitraum für die Plots festlegen

In [3]:
## Zeitraum für den plot wählen und filtern
von_bis=(datetime.date(2018,1,1),datetime.date(2018,1,31))
zeitraum=greatframe.loc[(greatframe.index.date >= von_bis[0]) & (greatframe.index.date <= von_bis[1])]

## Gruppierung nach Tagen (Datum)

In [4]:
daily_frame=zeitraum.groupby([pd.Grouper(freq='D'),pd.Grouper('bz')]).sum().copy() # Nebenzeit nach Tagen gruppiert
daily_frame=daily_frame.unstack('bz').fillna(0).stack('bz')

In [5]:
g = daily_frame.sum(level=['tstp']) # einen Zwischenframe erstellen, der nur die Kern- und Nebenzeit summiert
g.assign(bz='g').set_index('bz', append=True).sort_index() # die Summe dem alten Frame beigeben
daily=daily_frame.append(g.assign(bz='g').set_index('bz', append=True)).sort_index() # die Summe dem alten Frame beigeben

In [6]:
daily_av=add_averages(daily)  # mit durschnittlichen Zeiten acw/calls etc.

NameError: name 'add_averages' is not defined

#### Slicing und Plotting für Tage (Datum)

In [None]:
d_ix=daily_av.index.get_level_values(0)  # das ist der datetime-index (level 0), kann mit monat,jahr usw. bedient werden
plotmonth=daily_av.loc[(d_ix.date >= von_bis[0]) & (d_ix.date <= von_bis[1])]

In [None]:
abs_plot(plotmonth)

## Gruppierung nach Stunden

In [None]:
von_bis_real=(zeitraum.index.date.min(),zeitraum.index.date.max())
hh_gruppiert=add_averages(zeitraum.groupby(zeitraum.index.hour).sum())  # nach stunden zusammengefasst

#### ohne Trennung nach kern- und nebenzeit

In [None]:
plotby_avhour(hh_gruppiert,von_bis_real)

#### kern- und nebenzeit in 2 subplots

In [None]:
ke,ne=zeitraum.loc[zeitraum['bz'] == 'k'],zeitraum.loc[zeitraum['bz'] == 'n']
ges_grp=add_averages(zeitraum.groupby(zeitraum.index.hour).sum())
hourindex=ges_grp.index
ke_grp=add_averages(ke.groupby(ke.index.hour).sum()).reindex(hourindex,fill_value=0)
ne_grp=add_averages(ne.groupby(ne.index.hour).sum()).reindex(hourindex,fill_value=0)

In [None]:
plotby_avhour2(hourindex,ke_grp,ne_grp,von_bis_real)