In [44]:
import pandas as pd
import datetime as dt

# Primeiro passo: ler os arquivos .csv e tratar os dados

## Escala

In [45]:
escala = pd.read_csv('escala.csv')
escala

Unnamed: 0,member_id,shift_date,time_interval,original_status,change_status,resulting_status
0,a1R3j0000043oF3EAI,2022-02-11,X9h30m_10h00m__c,A,,A
1,a1R3j0000043s1iEAA,2022-02-14,X11h00m_11h30m__c,A,,A
2,a1R3j000003gHOPEA2,2022-02-17,X19h00m_19h30m__c,A,,A
3,a1R3j000003ncMhEAI,2022-02-21,X13h00m_13h30m__c,A,,A
4,a1R1L000008ddqrUAA,2022-02-28,X1h30m_2h00m__c,,FO,FO
...,...,...,...,...,...,...
239645,a1R3j000003gHJwEAM,2022-02-28,X14h30m_15h00m__c,A,FO,FO
239646,a1R3j000003gGIIEA2,2022-02-05,X12h00m_12h30m__c,,A,A
239647,a1R3j000003gGImEAM,2022-02-28,X18h00m_18h30m__c,A,FO,FO
239648,a1R3j0000043sW5EAI,2022-02-15,X16h00m_16h30m__c,A,,A


A coluna que indica os intervalos na escala está como uma string. Para gerar um valor mais entendível, é necessário tratar os dados dessa coluna.

### Tratar a coluna "time_interval" da tabela Escala

In [46]:
#essas duas linhas representarão as novas colunas da tabela escala:
#start_time_interval será o começo do período de 30 minutos
#end_time_interavl será o fim do período de 30 minutos
start_time_interval = []
end_time_interval = []

#para tratar os dados da coluna "time_interval", é iterado sobre ela
#para coletar o texto e o tratar
for texto in escala['time_interval']:
    
    #para coletar os horários, preciso dos indices de onde começa 
    #e termina cada horário no texto 
    
    #start = indice do começo do intervalo no texto
    #end1 = fim do primeiro intervalo, e começo do segundo intervalo
    #end2 = fim do segundo intervalo 
    start = texto.index('X')
    end1 = texto.index('m_', start)
    end2 = texto.index('m__', end1)

    #crio uma string, onde cada uma é o começo e o fim do período de
    #30 minutos na tabela de escala
    start_interval = texto[start+1:end1]
    end_interval = texto[end1+2: end2]

    #após gerar a string com os horários, eu os converto para 
    #datetime.time, para realizar operações no resto do código
    hora_start = dt.datetime.strptime(start_interval, "%Hh%M").time()
    hora_end = dt.datetime.strptime(end_interval, "%Hh%M").time()

    #os horários de inicio e fim dos períodos é inserido na respectiva
    #lista 
    start_time_interval.append(hora_start)
    end_time_interval.append(hora_end)

#após isso, a lista é inserida na Escala
escala.insert(3, 'start_time_interval', start_time_interval)
escala.insert(4, 'end_time_interval', end_time_interval)

In [47]:
#a antiga coluna "time_interval" já não é mais útil, logo, será removida
escala.drop(columns = 'time_interval', inplace=True)
escala

Unnamed: 0,member_id,shift_date,start_time_interval,end_time_interval,original_status,change_status,resulting_status
0,a1R3j0000043oF3EAI,2022-02-11,09:30:00,10:00:00,A,,A
1,a1R3j0000043s1iEAA,2022-02-14,11:00:00,11:30:00,A,,A
2,a1R3j000003gHOPEA2,2022-02-17,19:00:00,19:30:00,A,,A
3,a1R3j000003ncMhEAI,2022-02-21,13:00:00,13:30:00,A,,A
4,a1R1L000008ddqrUAA,2022-02-28,01:30:00,02:00:00,,FO,FO
...,...,...,...,...,...,...,...
239645,a1R3j000003gHJwEAM,2022-02-28,14:30:00,15:00:00,A,FO,FO
239646,a1R3j000003gGIIEA2,2022-02-05,12:00:00,12:30:00,,A,A
239647,a1R3j000003gGImEAM,2022-02-28,18:00:00,18:30:00,A,FO,FO
239648,a1R3j0000043sW5EAI,2022-02-15,16:00:00,16:30:00,A,,A


## Membros

In [48]:
membros = pd.read_csv('membros.csv')
membros

Unnamed: 0,member_id,Agente,Email,Data,Status,Time,Canal,Contrato
0,a1R1L000008eTNNUA2,Warwick Steiger,warwick.steiger@casestone.ra-fa.br,2022-02-02,Férias,Time2,Chat,CLT
1,a1R3j0000043rzdEAA,Hathcock Bias,hathcock.bias@casestone.ra-fa.br,2022-02-01,Ativo,Time1,Chat,CLT
2,a1R3j000002b8bGEAQ,Callender Bradshaw,callender.bradshaw@casestone.ra-fa.br,2022-02-24,Ativo,Time2,Chat,CLT
3,a1R3j000002bBodEAE,Duran Holland,duran.holland@casestone.ra-fa.br,2022-02-25,Ativo,Time3,Chat,CLT
4,a1R3j000002b8arEAA,Pape Stock,pape.stock@casestone.ra-fa.br,2022-02-05,Ativo,Time2,Chat,CLT
...,...,...,...,...,...,...,...,...
17151,a1R3j000003gEClEAM,Towery Smalley,towery.smalley@casestone.ra-fa.br,2022-02-18,Ativo,Time2,Chat,CLT
17152,a1R3j000003ncMeEAI,Keyser Durst,keyser.durst@casestone.ra-fa.br,2022-02-03,Ativo,Time1,Chat,CLT
17153,a1R3j0000043rzQEAQ,Starling Fike,starling.fike@casestone.ra-fa.br,2022-02-09,Ativo,Time1,Chat,CLT
17154,a1R3j000003gHJnEAM,Melancon Feldman,melancon.feldman@casestone.ra-fa.br,2022-02-18,Ativo,Time1,Chat,CLT


Como na Escala, a coluna "Data" precisa estar em um formato específico para operações no resto do código. Nesse caso, a coluna "Data" terá seus dados convertidos de string para datetime.date.

### Tratar a coluna "Data" 

In [49]:
#itero sobre os índices de cada data em Membros
for index in membros['Data'].index:

    #transformo a string naquele índice em um datetime.date 
    data_dt = dt.datetime.strptime(membros.loc[index]['Data'], "%Y-%m-%d").date()

    #substituo a data (string) daquele índice pela data (datetime.date)
    membros.loc[index]['Data'] = data_dt

In [50]:
membros

Unnamed: 0,member_id,Agente,Email,Data,Status,Time,Canal,Contrato
0,a1R1L000008eTNNUA2,Warwick Steiger,warwick.steiger@casestone.ra-fa.br,2022-02-02,Férias,Time2,Chat,CLT
1,a1R3j0000043rzdEAA,Hathcock Bias,hathcock.bias@casestone.ra-fa.br,2022-02-01,Ativo,Time1,Chat,CLT
2,a1R3j000002b8bGEAQ,Callender Bradshaw,callender.bradshaw@casestone.ra-fa.br,2022-02-24,Ativo,Time2,Chat,CLT
3,a1R3j000002bBodEAE,Duran Holland,duran.holland@casestone.ra-fa.br,2022-02-25,Ativo,Time3,Chat,CLT
4,a1R3j000002b8arEAA,Pape Stock,pape.stock@casestone.ra-fa.br,2022-02-05,Ativo,Time2,Chat,CLT
...,...,...,...,...,...,...,...,...
17151,a1R3j000003gEClEAM,Towery Smalley,towery.smalley@casestone.ra-fa.br,2022-02-18,Ativo,Time2,Chat,CLT
17152,a1R3j000003ncMeEAI,Keyser Durst,keyser.durst@casestone.ra-fa.br,2022-02-03,Ativo,Time1,Chat,CLT
17153,a1R3j0000043rzQEAQ,Starling Fike,starling.fike@casestone.ra-fa.br,2022-02-09,Ativo,Time1,Chat,CLT
17154,a1R3j000003gHJnEAM,Melancon Feldman,melancon.feldman@casestone.ra-fa.br,2022-02-18,Ativo,Time1,Chat,CLT


## Relatório log-in e out

In [51]:
relatorio = pd.read_csv('relatorio_log_in_e_out.csv')
relatorio

Unnamed: 0,member_id,agent_status,created_at
0,a1R1L000008dhvDUAQ,Disponível,2022-02-07 14:04:44.823000+00:00
1,a1R3j000003gEBxEAM,Offline,2022-02-07 20:05:06.295000+00:00
2,a1R3j000003nb4EEAQ,Pausado,2022-02-12 18:37:39.667000+00:00
3,a1R1L000007POQyUAO,Offline,2022-02-25 13:28:04.128000+00:00
4,a1R3j0000043sVqEAI,Disponível,2022-02-10 18:02:06.933000+00:00
...,...,...,...
260207,a1R3j000003gDxlEAE,Offline,2022-02-25 10:44:20.245000+00:00
260208,a1R3j0000043rzmEAA,Ausente,2022-02-02 20:31:12.061000+00:00
260209,a1R3j0000043sWhEAI,Disponível,2022-02-17 01:00:45.036000+00:00
260210,a1R3j000003gGIBEA2,Offline,2022-02-16 14:21:57.705000+00:00


A coluna "created_at" contém ambas data e hora que o status do agente foi alterado. Essa coluna pode ser tratada e separada em duas novas colunas.

### tratar a coluna "created_at"

In [52]:
#crio uma lista que serirá para armazenar as datas em formato datetime.date
dates = []

#itero sobre as datas na coluna "created_at" no relatório
for date in relatorio['created_at']:

    #nesse caso, as datas e horas são separadas por um espaço
    #então, para pegar a data, pega-se a primeira parte da
    #data coletada na coluna a partir de um split (função que
    #separa, por padrão, duas strings a partir de espaços)
    aux_date = date.split()[0]

    #é, então, adicionado à lista de datas a data separada em formato
    #datetime.date
    dates.append(dt.datetime.strptime(aux_date, '%Y-%m-%d').date())

#como anteriormente, crio uma lista que serirá para armazenar as 
#horas em formato datetime.time
times = []

#itero sobre as horas na coluna "created_at" no relatório
for time in relatorio['created_at']:

    #diferentemente da última iteração, a hora tem que passar por três
    #splits: o primeiro coleta a hora como string;
    #o segundo coleta a hora sem os milissegundos;
    #o terceiro remove tudo que vem após o "+"
    time_aux_space = time.split()[1]
    time_aux_dot = time_aux_space.split('.', 1)[0]
    time_aux_plus = time_aux_dot.split('+', 1)[0]

    #é adicionado à lista de horas a hora em formato datetime.time
    times.append(dt.datetime.strptime(time_aux_plus, "%H:%M:%S").time())

In [53]:
#as duas listas são adicionadas ao relatório 
relatorio.insert(2, 'created_date', dates)
relatorio.insert(3, 'created_time', times)

#a coluna "created_at" não é mais útil, logo, será removida
relatorio.drop(columns = 'created_at', inplace = True)

relatorio

Unnamed: 0,member_id,agent_status,created_date,created_time
0,a1R1L000008dhvDUAQ,Disponível,2022-02-07,14:04:44
1,a1R3j000003gEBxEAM,Offline,2022-02-07,20:05:06
2,a1R3j000003nb4EEAQ,Pausado,2022-02-12,18:37:39
3,a1R1L000007POQyUAO,Offline,2022-02-25,13:28:04
4,a1R3j0000043sVqEAI,Disponível,2022-02-10,18:02:06
...,...,...,...,...
260207,a1R3j000003gDxlEAE,Offline,2022-02-25,10:44:20
260208,a1R3j0000043rzmEAA,Ausente,2022-02-02,20:31:12
260209,a1R3j0000043sWhEAI,Disponível,2022-02-17,01:00:45
260210,a1R3j000003gGIBEA2,Offline,2022-02-16,14:21:57


# Criação de informações solicitadas

Criando a tabela principal, onde estarão todos os dados gerados.

In [54]:
tabela_principal = pd.DataFrame()

## Informação A

a) Quantidade de tempo (minutos) que o encantador foi escalado para atender, a partir da escala líquida.

In [55]:
#celula gera a informação A

#1 - crio um dataframe auxiliar com todos os membros escalados como 'A' (atendimento)

#2 - checo membro um por um, e quantos minutos ele estava escalado para atender em cada dia
    #protip: período de escalamento é equivalente a meia hora, então, para obter os
    #minutos escalados é só multiplicar quantidade de períodos do dia por 30 (minutos)

#3 - armazeno essa informação em um dataframe

#etapa 1 - dataframe auxiliar
attending_member = escala.loc[escala['resulting_status'] == 'A']

#etapa 1.1 - crio um dataframe que será o que armazenará as informações de escala
#de cada membro em cada dia 
df_atendimento = pd.DataFrame(columns = ['member_id', 'Data', 'escala_atendimento'])

#etapa 2 - itero sobre cada membro único do dataframe auxiliar de escala
for member in attending_member['member_id'].unique():

    #etapa 2.1 - crio um dataframe auxiliar que representa toda escalação como 'A'
    #por membro
    df_attending_member = attending_member.loc[attending_member['member_id'] == member]
    
    #etapa 2.2 - itero sobre cada data do dataframe auxiliar de membro escalado
    for date in df_attending_member['shift_date'].unique():

        #2.2.1 - crio um dataframe que será concatenado no final, criando o dataframe com 
        # informação de cada membro com sua escalação em minutos
        concatenado = pd.DataFrame(columns = ['member_id', 'Data', 'escala_atendimento'])

        #2.2.2 - crio o dataframe de uma data específica em que o membro foi escalado como 'A'
        aux = df_attending_member.loc[df_attending_member['shift_date'] == date]

        #2.2.3 - adiciono essa informação ao dataframe que será concatenado para gerar o
        # dataframe com informação
        concatenado['member_id'] = aux['member_id']
        concatenado['Data'] = aux['shift_date']
        
        #2.2.4 - a escala é equivalente à quantidade de escalas naquele dia * 30
        concatenado['escala_atendimento'] = len(aux) * 30

        #2.2.5 - removo qualquer duplicata que pode aparecer
        concatenado.drop_duplicates(inplace = True)

        #2.2.6 - no final, eu concateno a informação obtida ao dataframe que armazenará a
        #informação de atendimento em minutos
        df_atendimento = pd.concat([df_atendimento, concatenado])

In [56]:
df_atendimento

Unnamed: 0,member_id,Data,escala_atendimento
0,a1R3j0000043oF3EAI,2022-02-11,450
3222,a1R3j0000043oF3EAI,2022-02-03,60
3588,a1R3j0000043oF3EAI,2022-02-22,450
4381,a1R3j0000043oF3EAI,2022-02-08,450
5049,a1R3j0000043oF3EAI,2022-02-07,450
...,...,...,...
58160,a1R3j0000043rzPEAQ,2022-02-27,450
14863,a1R3j000003gGI1EAM,2022-02-26,420
20376,a1R1L000007YXRBUA4,2022-02-19,480
25576,a1R1L000007YXRBUA4,2022-02-13,480


### Adicionando à tabela principal a escala de atendimento de cada membro

In [None]:
tabela_principal['member_id'] = df_atendimento['member_id']
tabela_principal['Data'] = df_atendimento['Data']
tabela_principal['Escala Atendimento'] = df_atendimento['escala_atendimento']

## Informação B

b) Quantidade de tempo (minutos) que o encantador esteve em Projetos (sigla P, na tabela de escala), a partir da escala líquida.

In [58]:
#o processo de criação dessa informação é extremamente similar ao da criação
#da informação A, a diferença é somente na linha 6

#gero um dataframe com a escala de todos os membros que foram escalados para 
#projetos 
project_member = escala.loc[escala['resulting_status'] == 'P']

#a partir daqui, o algoritmo é o mesmo que o da informação A
df_projeto = pd.DataFrame(columns = ['member_id', 'Data', 'escala_projeto'])

for member in project_member['member_id'].unique():

    df_project_member = project_member.loc[project_member['member_id'] == member]
    
    for date in df_project_member['shift_date'].unique():

        concatenado = pd.DataFrame(columns = ['member_id', 'Data', 'escala_projeto'])

        aux = df_project_member.loc[df_project_member['shift_date'] == date]

        concatenado['member_id'] = aux['member_id']
        concatenado['Data'] = aux['shift_date']
        concatenado['escala_projeto'] = len(aux) * 30

        concatenado.drop_duplicates(inplace = True)

        df_projeto = pd.concat([df_projeto, concatenado])

In [59]:
df_projeto

Unnamed: 0,member_id,Data,escala_projeto
7,a1R3j000003gH1dEAE,2022-02-25,420
2058,a1R3j000003gH1dEAE,2022-02-07,240
6791,a1R3j000003gH1dEAE,2022-02-24,360
7308,a1R3j000003gH1dEAE,2022-02-15,240
8376,a1R3j000003gH1dEAE,2022-02-01,120
...,...,...,...
229328,a1R3j000003gHOlEAM,2022-02-11,30
230765,a1R3j0000043oEyEAI,2022-02-14,60
234924,a1R3j000002bAbKEAU,2022-02-10,60
237491,a1R3j000002b8auEAA,2022-02-04,30


### Adicionando a escala de projeto à tabela principal

In [60]:
#itero sobre cada membro único no dataframe de disponibilidade
for member in tabela_principal['member_id'].unique():

    #dataframe auxiliar onde só contém as informações de cada membro específico
    #do dataframe de disponibilidade
    df_aux_disp = tabela_principal.loc[tabela_principal['member_id'] == member]

    #dataframe auxiliar onde contem informação e cada membro do dataframe da
    #escalação de projeto
    df_aux_proj = df_projeto.loc[df_projeto['member_id'] == member]

    #itero sobre cada data no dataframe de disponibilidade de cada membro
    for data in df_aux_disp['Data']:

        #mesmo processo para os minutos em projeto, se o membro está escalado
        if(data in list(df_aux_proj['Data'])):

            df_aux_data_proj = df_aux_proj.loc[df_aux_proj['Data'] == data]

            tempo_proj = list(df_aux_data_proj['escala_projeto'])[0]

            #a quantidade de minutos escalados é adicionado ao dataframe
            index = df_aux_disp.loc[df_aux_disp['Data'] == data].index
            tabela_principal.loc[index, 'Escala Projeto'] = tempo_proj 

        else:
            #senão, é anexado 0 minutos
            index = df_aux_disp.loc[df_aux_disp['Data'] == data].index
            tabela_principal.loc[index, 'Escala Projeto'] = 0

In [None]:
tabela_principal

## Informação C

c) Quantidade de tempo (minutos) que o encantador ficou logado por dia (status disponível)

A próxima célula calcula a disponibilidade em minutos do encantador em cada dia.

In [61]:
#calculo a disponibilidade por dia de cada encantador
#lista_disp = []

df_logado = pd.DataFrame(columns = ['member_id', 'Data', 'Logado por dia (minutos)'])

df_logado['member_id'] = relatorio['member_id']

df_logado['Data'] = relatorio['created_date']

df_logado.drop_duplicates(inplace = True)

df_logado.reset_index(inplace = True)

#itero sobre cada membro único no df_disponibilidade
for member in df_logado['member_id'].unique():

    #crio um dataframe auxiliar do relatório de cada membro
    df_relatorio = relatorio.loc[relatorio['member_id'] == member]
    df_relatorio.reset_index(inplace = True)

    df_logado_aux = df_logado.loc[df_logado['member_id'] == member]

    #itero sobre a o dataframe em cada data no dataframe de membros 
    for data in df_logado_aux['Data']:

        #crio um dataframe auxiliar do relatório de log de cada membro naquela data
        df_aux_relatorio = df_relatorio.loc[df_relatorio['created_date'] == data]

        #ordeno o dataframe de log pela hora de cada log
        df_aux_relatorio = df_aux_relatorio.sort_values(by = 'created_time')
        
        #reseto os indices do dataframe de relatório
        df_aux_relatorio = df_aux_relatorio.reset_index()

        #crio uma lista de indices onde o membro estava disponível no log
        index_disponivel = df_aux_relatorio.loc[df_aux_relatorio['agent_status'] == 'Disponível'].index
        
        tempo_disponivel = dt.timedelta(0)

        #itero sobre cada log do dia do membro
        for index in index_disponivel:

            #se o último log for 'Disponível' (ou, se o próximo indice da lista de logs for fora da
            #da lista)
            if(index + 1 >= len(df_aux_relatorio)):

                t1 = df_aux_relatorio.loc[index]['created_time']

                t1 = dt.timedelta(hours = t1.hour, minutes = t1.minute, seconds = t1.second)

                #é calculado a duração de tempo que o membro ficou como 'Disponível' até o fim
                #do dia (ou, meia-noite)
                tempo_disponivel += dt.timedelta(hours  = 0, minutes = 0) - t1

            #se o último log não for 'Disponível'
            else:

                t1 = df_aux_relatorio.loc[index]['created_time']

                t1 = dt.timedelta(hours = t1.hour, minutes = t1.minute, seconds = t1.second)

                t2 = df_aux_relatorio.loc[index + 1]['created_time']

                t2 = dt.timedelta(hours = t2.hour, minutes = t2.minute, seconds = t2.second)
                
                #calculo a diferença de tempo entre o próximo log que não é 'Disponível' e o
                #log atual (que é 'Disponível')
                tempo_disponivel += t2 - t1

        i = df_logado_aux.loc[df_logado_aux['Data'] == data].index
        df_logado.loc[i, 'Logado por dia (minutos)'] = int(tempo_disponivel.seconds / 60)

In [62]:
df_logado

Unnamed: 0,index,member_id,Data,Logado por dia (minutos)
0,0,a1R1L000008dhvDUAQ,2022-02-07,250
1,1,a1R3j000003gEBxEAM,2022-02-07,234
2,2,a1R3j000003nb4EEAQ,2022-02-12,259
3,3,a1R1L000007POQyUAO,2022-02-25,74
4,4,a1R3j0000043sVqEAI,2022-02-10,439
...,...,...,...,...
11441,256755,a1R3j000003ndCFEAY,2022-02-08,0
11442,258210,a1R3j0000043rzDEAQ,2022-02-20,0
11443,258668,a1R3j0000043rzkEAA,2022-02-27,0
11444,258897,a1R3j000003na7uEAA,2022-02-15,0


### Adicionando o tempo logado por dia de cada membro

In [63]:
#itero sobre cada membro único no dataframe de disponibilidade
for member in tabela_principal['member_id'].unique():

    #dataframe auxiliar onde só contém as informações de cada membro específico
    #do dataframe de disponibilidade
    df_aux_disp = tabela_principal.loc[tabela_principal['member_id'] == member]

    df_aux_logado = df_logado.loc[df_logado['member_id'] == member]

    #itero sobre cada data no dataframe de disponibilidade de cada membro
    for data in df_aux_disp['Data']:

        dt_data = dt.datetime.strptime(data, "%Y-%m-%d").date()
        
        #adiciono os minutos logados à tabela principal
        #mesmo processo feito anteriormente
        #caso a data esteja na lista de datas em que o membro logou
        if(dt_data in list(df_aux_logado['Data'])):

            df_aux_data_logado = df_aux_logado.loc[df_aux_logado['Data'] == dt_data]
    
            tempo_logado = list(df_aux_data_logado['Logado por dia (minutos)'])[0]
            
            #é adicionado os minutos logados do membro naquele dia no dataframe
            index = df_aux_disp.loc[df_aux_disp['Data'] == data].index
            tabela_principal.loc[index, 'Logado por dia (minutos)'] = tempo_logado 

        #se o membro não estiver logado naquela data
        else:
            
            #0 minutos são adicionados como logado naquela data
            index = df_aux_disp.loc[df_aux_disp['Data'] == data].index
            tabela_principal.loc[index, 'Logado por dia (minutos)'] = 0 


In [64]:
tabela_principal

Unnamed: 0,member_id,Data,Escala Atendimento,Escala Projeto,Logado por dia (minutos)
0,a1R3j0000043oF3EAI,2022-02-11,450,0.0,283.0
3222,a1R3j0000043oF3EAI,2022-02-03,60,390.0,159.0
3588,a1R3j0000043oF3EAI,2022-02-22,450,0.0,365.0
4381,a1R3j0000043oF3EAI,2022-02-08,450,0.0,406.0
5049,a1R3j0000043oF3EAI,2022-02-07,450,0.0,278.0
...,...,...,...,...,...
58160,a1R3j0000043rzPEAQ,2022-02-27,450,0.0,145.0
14863,a1R3j000003gGI1EAM,2022-02-26,420,60.0,345.0
20376,a1R1L000007YXRBUA4,2022-02-19,480,0.0,373.0
25576,a1R1L000007YXRBUA4,2022-02-13,480,0.0,265.0


## Informação D

d) Inclua uma coluna que mostre qual foi a disponibilidade dos encantadores por dia.

O indicador de disponibilidade é calculado a partir da quantidade de tempo que o encantador ficou logado quando estava escalado para atender dividido pela quantidade de tempo que o encantador foi escalado para atender.

A disponibilidade, no entanto, deve ser calculada apenas para os dias que o encantador estiver com o status ‘Ativo’ na tabela Membros. Em dias de qualquer outro status a disponibilidade não deve ser apurada.

A célula a seguir calcula quanto tempo em minutos está escalado para o encantador a cada dia em que o mesmo estava ativo.

In [20]:
#pego todos os membros que estão como ativos
membros_ativos = membros.loc[membros['Status'] == 'Ativo']

#pego todo membro escalado como 'A'
escala_att = escala.loc[escala['resulting_status'] == 'A']

member_att_ativo = []

#seleciono cada membro ativo que está escalado como 'A'
for member in membros_ativos['member_id'].unique():

    if(member in list(escala_att['member_id'].unique())):

        member_att_ativo.append(member)

df_disponibilidade = pd.DataFrame(columns = ['member_id', 'Data', 'Disponibilidade'])

#itero sobre cada membro único dos membros ativos escalados
for member in member_att_ativo:

    #crio um dataframe que será concatenado com o df_disponibilidade no final 
    concatenado = pd.DataFrame(columns = ['member_id', 'Data'])
    
    #crio um dataframe da escala de um membro específico por vez
    aux_escala = escala_att.loc[escala_att['member_id'] == member]

    aux_escala.reset_index(inplace = True)

    #crio uma lista que armazenará a disponibilidade de cada membro por dia
    lista_disp = []

    #itero sobre cada data de cada membro na escala geral
    for data in aux_escala['shift_date'].unique():

        #crio um dataframe a cada data de um membro específico
        aux_escala_data = aux_escala.loc[aux_escala['shift_date'] == data]

        #adiciono à lista a escala geral daquele dia do membro
        lista_disp.append(len(aux_escala_data) * 30)  

    #adicionando as informações obtidas ao dataframe que será concatenado
    concatenado['Data'] = aux_escala['shift_date'].unique()

    concatenado['Escala'] = lista_disp

    #para os membros, é necessário um tratamento dos dados 
    lista_member = []

    #itero sobre o indice de cada data única na escala de cada membro
    for index in range(len(aux_escala['shift_date'].unique())):

        #adiciono à lista de membros o código daquele membro
        lista_member.append(aux_escala.loc[index]['member_id'])

    #adiciono ao dataframe que será concatenado a lista de membros
    concatenado['member_id'] = lista_member    

    #removo qualquer duplicata que pode ter no dataframe
    concatenado.drop_duplicates()

    #o concateno com o dataframe de disponibilidade
    df_disponibilidade = pd.concat([df_disponibilidade, concatenado])

df_disponibilidade = df_disponibilidade.reset_index(drop = True)

Na próxima célula, temos o DataFrame com a disponibilidade dos membros ativos que estão escalados como 'A'. 

In [21]:
df_disponibilidade

Unnamed: 0,member_id,Data,Disponibilidade,Escala
0,a1R3j0000043rzdEAA,2022-02-15,,450.0
1,a1R3j0000043rzdEAA,2022-02-07,,450.0
2,a1R3j0000043rzdEAA,2022-02-21,,450.0
3,a1R3j0000043rzdEAA,2022-02-03,,480.0
4,a1R3j0000043rzdEAA,2022-02-16,,450.0
...,...,...,...,...
11709,a1R3j0000043rzpEAA,2022-02-14,,270.0
11710,a1R3j0000043rzpEAA,2022-02-16,,120.0
11711,a1R3j0000043rzpEAA,2022-02-09,,120.0
11712,a1R3j0000043rzpEAA,2022-02-23,,120.0


O DataFrame tem o mesmo tamanho que o DataFrame gerado na informação A. Para checar se são as mesmas informações, é checado se os membros são os mesmos e as escalas calculadas de cada membro é a mesma.

Para checar isso, é subtraido um set de outro com as informações. Qualquer valor que seja diferente em uma das duas colunas é exibido. Se nenhum valor for exibido, as colunas são idênticas.

In [22]:
print(set(tabela_principal['member_id'].unique()) - set(df_disponibilidade['member_id'].unique()))

print(set(tabela_principal['Escala Atendimento']) - set(df_disponibilidade['Escala']))

set()
set()


Como as colunas são idênticas, continua-se o processo de calcular a disponibilidade, que é a quantidade em minutos da escala de Atendimento no dia dividido pelo tempo logado por dia do membro.

In [23]:
#é dividido o tempo logado pelo tempo logado por dia e adicionado essa informação ao dataframe
tabela_principal['Disponibilidade'] = [float("{:.2f}".format(i / j)) if j > 0 else 0 for i, j in zip(tabela_principal['Logado por dia (minutos)'], tabela_principal['Escala Atendimento'])]
tabela_principal

Unnamed: 0,member_id,Data,Escala Atendimento,Escala Projeto,Logado por dia (minutos),Disponibilidade
0,a1R3j0000043oF3EAI,2022-02-11,450,0,283,0.63
3222,a1R3j0000043oF3EAI,2022-02-03,60,390,159,2.65
3588,a1R3j0000043oF3EAI,2022-02-22,450,0,365,0.81
4381,a1R3j0000043oF3EAI,2022-02-08,450,0,406,0.90
5049,a1R3j0000043oF3EAI,2022-02-07,450,0,278,0.62
...,...,...,...,...,...,...
58160,a1R3j0000043rzPEAQ,2022-02-27,450,0,145,0.32
14863,a1R3j000003gGI1EAM,2022-02-26,420,60,345,0.82
20376,a1R1L000007YXRBUA4,2022-02-19,480,0,373,0.78
25576,a1R1L000007YXRBUA4,2022-02-13,480,0,265,0.55


## Informação E

e) A meta de disponibilidade é de 80%, indique na base os dias que o encantador bateu a meta de disponibilidade.

In [24]:
#se a porcentagem de disponibilidade for maior ou igual à 0.8 (ou 80%):
#True, ou, cumpriu a meta;
#senão, False, ou, não cumpriu a meta.
tabela_principal['Cumpriu Meta'] = [True if porcentagem >= 0.8 else False for porcentagem in tabela_principal['Disponibilidade']]

tabela_principal

Unnamed: 0,member_id,Data,Escala Atendimento,Escala Projeto,Logado por dia (minutos),Disponibilidade,Cumpriu Meta
0,a1R3j0000043oF3EAI,2022-02-11,450,0,283,0.63,False
3222,a1R3j0000043oF3EAI,2022-02-03,60,390,159,2.65,True
3588,a1R3j0000043oF3EAI,2022-02-22,450,0,365,0.81,True
4381,a1R3j0000043oF3EAI,2022-02-08,450,0,406,0.90,True
5049,a1R3j0000043oF3EAI,2022-02-07,450,0,278,0.62,False
...,...,...,...,...,...,...,...
58160,a1R3j0000043rzPEAQ,2022-02-27,450,0,145,0.32,False
14863,a1R3j000003gGI1EAM,2022-02-26,420,60,345,0.82,True
20376,a1R1L000007YXRBUA4,2022-02-19,480,0,373,0.78,False
25576,a1R1L000007YXRBUA4,2022-02-13,480,0,265,0.55,False


## Informação F

f) No mês de Fevereiro, fizemos uma campanha na operação para incentivar a disponibilidade. Para cada dia que o encantador batesse a meta de disponibilidade, ele ganhava 1 ponto e quando sua disponibilidade ficava abaixo de 50%, ele perdia um ponto. Inclua na tabela a quantidade de pontos que cada encantador fez no mês.

Na célula a seguir, é gerado uma tabela com cada membro único e sua pontuação no mês.

In [25]:
df_pontos = pd.DataFrame(columns = ['member_id', 'Pontos'])

df_pontos['member_id'] = tabela_principal['member_id'].unique()

#itero sobre cada membro único em df_pontos
for member in df_pontos['member_id'].unique():
    
    #crio um dataframe auxiliar do dataframe de disponibilidade
    df_aux_pontos = tabela_principal.loc[tabela_principal['member_id'] == member]

    #a meta é: disponibilidade >= 0.8 (ou 80%), ganha um ponto
    #assim, anexo em uma lista cada caso do membro no mês em que ele cumpriu a meta
    #o tamanho da lista corresponde a quantidade de casos (ou dias) em que o membro cumpriu 
    #a meta
    sum_meta = len([element for element in df_aux_pontos['Cumpriu Meta'] if element == True])

    #perde-se pontos quando a disponibilidade é menor que 0.5 (ou 50%). no código, é chamado
    #de 'descontos'
    sum_desconto = len([element for element in df_aux_pontos['Disponibilidade'] if element < 0.5])

    #encontro o índice do membro analisado em df_pontos
    index = df_pontos.loc[df_pontos['member_id'] == member].index

    #atribuo a pontuação para o mesmo, representado pela quantidade de dias em que a 
    #meta é batida menos os pontos descontados quando a disponibilidade é < 0.5 (ou 50%)
    df_pontos.loc[index, 'Pontos'] = sum_meta - sum_desconto

In [26]:
df_pontos

Unnamed: 0,member_id,Pontos
0,a1R3j0000043oF3EAI,4
1,a1R3j0000043s1iEAA,3
2,a1R3j000003gHOPEA2,4
3,a1R3j000003ncMhEAI,5
4,a1R3j000003na81EAA,5
...,...,...
595,a1R3j000002b5j9EAA,6
596,a1R3j000003gFUyEAM,4
597,a1R3j0000043rzPEAQ,-3
598,a1R3j000003gGI1EAM,1


Na célula a seguir, os pontos são adicionados à tabela principal.

In [27]:
#os pontos são atribuidos aos membros no dataframe df_disponibilidade

#itero sobre cada membro único
for member in tabela_principal['member_id'].unique():

    aux_df_disponibilidade = tabela_principal.loc[tabela_principal['member_id'] == member]

    aux_df_pontos = df_pontos.loc[df_pontos['member_id'] == member]
    
    #coleto o ponto daquele membro específico
    ponto = list(aux_df_pontos['Pontos'])[0]

    #itero sobre cada data
    for data in aux_df_disponibilidade['Data']:

        #gero o índice do membro na data específica
        index = aux_df_disponibilidade.loc[aux_df_disponibilidade['Data'] == data].index

        #atribuo a pontuação do membro em todas as aparições dele na tabela
        tabela_principal.loc[index, 'Pontos (mês)'] = ponto

In [28]:
tabela_principal

Unnamed: 0,member_id,Data,Escala Atendimento,Escala Projeto,Logado por dia (minutos),Disponibilidade,Cumpriu Meta,Pontos (mês)
0,a1R3j0000043oF3EAI,2022-02-11,450,0,283,0.63,False,4.0
3222,a1R3j0000043oF3EAI,2022-02-03,60,390,159,2.65,True,4.0
3588,a1R3j0000043oF3EAI,2022-02-22,450,0,365,0.81,True,4.0
4381,a1R3j0000043oF3EAI,2022-02-08,450,0,406,0.90,True,4.0
5049,a1R3j0000043oF3EAI,2022-02-07,450,0,278,0.62,False,4.0
...,...,...,...,...,...,...,...,...
58160,a1R3j0000043rzPEAQ,2022-02-27,450,0,145,0.32,False,-3.0
14863,a1R3j000003gGI1EAM,2022-02-26,420,60,345,0.82,True,1.0
20376,a1R1L000007YXRBUA4,2022-02-19,480,0,373,0.78,False,-1.0
25576,a1R1L000007YXRBUA4,2022-02-13,480,0,265,0.55,False,-1.0


## Informação G

g) Considerando ‘Atraso’ como todos os dias que o encantador logou 15 minutos depois do 1° período que ele foi escalado, indique os dias que o encantador se atrasou.

Na célula a seguir, o primeiro horário do dia do encantador é adicionado à tabela principal, a fim de ajudar a consulta do atraso.

In [29]:
#utilizo a tabela escala, mas só com os membros que estão como atendimento
#para coletar o primeiro horário real, é preciso ordenar a tabela escala
#pela hora
escala = escala.sort_values(by = 'start_time_interval')

#iterando sobre membros únicos em df_disponibilidade
for member in tabela_principal['member_id'].unique():

    df_escala = escala.loc[escala['member_id'] == member]

    df_aux_disponibilidade = tabela_principal.loc[tabela_principal['member_id'] == member]

    #iterando sobre cada data disponível de cada membro
    for data in df_aux_disponibilidade['Data']:

        df_escala_data = df_escala.loc[df_escala['shift_date'] == data]

        #pego a lista de horas em que o membro foi escalado naquela data
        lista_horarios = list(df_escala_data['start_time_interval'])
        
        #da lista, que está ordenada, o primeiro valor é o primeiro horário 
        #em que o membro foi escalado naquela data
        primeiro_horario = lista_horarios[0]

        #gero o índice do membro naquela data
        index = df_aux_disponibilidade[df_aux_disponibilidade['Data'] == data].index
        
        #crio uma coluna onde será salvo o primeiro horário da escala daquele membro
        #naquele dia
        tabela_principal.loc[index, 'Primeiro Horário'] = primeiro_horario

In [30]:
tabela_principal

Unnamed: 0,member_id,Data,Escala Atendimento,Escala Projeto,Logado por dia (minutos),Disponibilidade,Cumpriu Meta,Pontos (mês),Primeiro Horário
0,a1R3j0000043oF3EAI,2022-02-11,450,0,283,0.63,False,4.0,07:00:00
3222,a1R3j0000043oF3EAI,2022-02-03,60,390,159,2.65,True,4.0,07:00:00
3588,a1R3j0000043oF3EAI,2022-02-22,450,0,365,0.81,True,4.0,07:00:00
4381,a1R3j0000043oF3EAI,2022-02-08,450,0,406,0.90,True,4.0,07:00:00
5049,a1R3j0000043oF3EAI,2022-02-07,450,0,278,0.62,False,4.0,07:00:00
...,...,...,...,...,...,...,...,...,...
58160,a1R3j0000043rzPEAQ,2022-02-27,450,0,145,0.32,False,-3.0,15:30:00
14863,a1R3j000003gGI1EAM,2022-02-26,420,60,345,0.82,True,1.0,10:00:00
20376,a1R1L000007YXRBUA4,2022-02-19,480,0,373,0.78,False,-1.0,13:00:00
25576,a1R1L000007YXRBUA4,2022-02-13,480,0,265,0.55,False,-1.0,13:30:00


Na próxima célula, o atraso é calculado e adicionado à tabela principal.

In [31]:
lista_resultado_atraso = []

#antes de utilizar o relatório, os logs são ordenados por hora de criação
relatorio = relatorio.sort_values(by = 'created_time')

#iterando sobre membros únicos em df_disponibilidade
for member in tabela_principal['member_id'].unique():

    aux_relatorio = relatorio.loc[relatorio['member_id'] == member]

    aux_df_disponibilidade = tabela_principal.loc[tabela_principal['member_id'] == member]

    #iterando sobre cada data disponível de cada membro
    for data in aux_df_disponibilidade['Data']:

        dt_data = dt.datetime.strptime(data,'%Y-%m-%d').date()

        relatorio_data = aux_relatorio.loc[aux_relatorio['created_date'] == dt_data]

        #crio uma lista de cada log de status 'Disponível' do membro naquela data
        lista_entrada_log = list(relatorio_data.loc[relatorio_data['agent_status'] == 'Disponível']['created_time'])

        #gero um índice para localizar o membro na data específica em df_disponibilidade
        index = aux_df_disponibilidade.loc[aux_df_disponibilidade['Data'] == data].index

        #se a lista de logs não está vazia (ou seja, se o membro ficou com o status 'Disponível' naquele dia)
        if(not len(lista_entrada_log) == 0):
            
            #pego o primeiro log de 'Disponível'
            entrada_log = lista_entrada_log[0]
            entrada_log = dt.timedelta(hours = entrada_log.hour, minutes = entrada_log.minute, seconds = entrada_log.second)

            #pego o primeiro horário escalado para o membro na data específica
            lista_horario_escala = list(aux_df_disponibilidade.loc[aux_df_disponibilidade['Data'] == data]['Primeiro Horário'])
            entrada_escala = lista_horario_escala[0]
            entrada_escala = dt.timedelta(hours = entrada_escala.hour, minutes = entrada_escala.minute, seconds = entrada_escala.second)

            #calculo o atraso (primeiro status 'Disponível' do membro no dia MENOS a hora esperada do primeiro
            #horário escalado do membro naquele dia)
            atraso = entrada_log - entrada_escala

            #se o atraso for maior ou igual a 15 minutos
            if(atraso >= dt.timedelta(minutes = 15)):
                
                #o membro terá o status 'Atraso' no dia
                tabela_principal.loc[index, 'Atraso'] = 'Atraso' 
            
            #senão, o membro terá o status 'Dentro do horário' naquele dia
            else: 

                tabela_principal.loc[index, 'Atraso'] = 'Dentro do horário'

        #se a lista de logs está vazia, o membro não logou naquele dia
        else:
            
            #e o mesmo terá o status 'Falta' no dia

            tabela_principal.loc[index, 'Atraso'] = 'Falta'

In [32]:
tabela_principal

Unnamed: 0,member_id,Data,Escala Atendimento,Escala Projeto,Logado por dia (minutos),Disponibilidade,Cumpriu Meta,Pontos (mês),Primeiro Horário,Atraso
0,a1R3j0000043oF3EAI,2022-02-11,450,0,283,0.63,False,4.0,07:00:00,Atraso
3222,a1R3j0000043oF3EAI,2022-02-03,60,390,159,2.65,True,4.0,07:00:00,Atraso
3588,a1R3j0000043oF3EAI,2022-02-22,450,0,365,0.81,True,4.0,07:00:00,Atraso
4381,a1R3j0000043oF3EAI,2022-02-08,450,0,406,0.90,True,4.0,07:00:00,Atraso
5049,a1R3j0000043oF3EAI,2022-02-07,450,0,278,0.62,False,4.0,07:00:00,Atraso
...,...,...,...,...,...,...,...,...,...,...
58160,a1R3j0000043rzPEAQ,2022-02-27,450,0,145,0.32,False,-3.0,15:30:00,Atraso
14863,a1R3j000003gGI1EAM,2022-02-26,420,60,345,0.82,True,1.0,10:00:00,Atraso
20376,a1R1L000007YXRBUA4,2022-02-19,480,0,373,0.78,False,-1.0,13:00:00,Atraso
25576,a1R1L000007YXRBUA4,2022-02-13,480,0,265,0.55,False,-1.0,13:30:00,Atraso


# Tratando a coluna 'Disponibilidade'

Os valores da coluna 'Disponibilidade' estão no formato decimal, mas para o resultado final, é necessário estar como porcentagem.

In [34]:
tabela_principal['Disponibilidade'] = [str(elemento * 100) + '%' if elemento != 0 else '0%' for elemento in tabela_principal['Disponibilidade']]  

In [35]:
tabela_principal

Unnamed: 0,member_id,Data,Escala Atendimento,Escala Projeto,Logado por dia (minutos),Disponibilidade,Cumpriu Meta,Pontos (mês),Primeiro Horário,Atraso
0,a1R3j0000043oF3EAI,2022-02-11,450,0,283,63.0%,False,4.0,07:00:00,Atraso
3222,a1R3j0000043oF3EAI,2022-02-03,60,390,159,265.0%,True,4.0,07:00:00,Atraso
3588,a1R3j0000043oF3EAI,2022-02-22,450,0,365,81.0%,True,4.0,07:00:00,Atraso
4381,a1R3j0000043oF3EAI,2022-02-08,450,0,406,90.0%,True,4.0,07:00:00,Atraso
5049,a1R3j0000043oF3EAI,2022-02-07,450,0,278,62.0%,False,4.0,07:00:00,Atraso
...,...,...,...,...,...,...,...,...,...,...
58160,a1R3j0000043rzPEAQ,2022-02-27,450,0,145,32.0%,False,-3.0,15:30:00,Atraso
14863,a1R3j000003gGI1EAM,2022-02-26,420,60,345,82.0%,True,1.0,10:00:00,Atraso
20376,a1R1L000007YXRBUA4,2022-02-19,480,0,373,78.0%,False,-1.0,13:00:00,Atraso
25576,a1R1L000007YXRBUA4,2022-02-13,480,0,265,55.00000000000001%,False,-1.0,13:30:00,Atraso


# Removendo colunas desnecessárias

In [37]:
tabela_principal.drop(columns = 'Primeiro Horário', inplace = True)

# Ordenando a tabela por data

In [40]:
tabela_principal = tabela_principal.sort_values(by = 'Data')

tabela_principal.reset_index(drop = True, inplace = True)

# Resultado final da tabela

In [41]:
tabela_principal

Unnamed: 0,member_id,Data,Escala Atendimento,Escala Projeto,Logado por dia (minutos),Disponibilidade,Cumpriu Meta,Pontos (mês),Atraso
0,a1R3j0000043rzIEAQ,2022-02-01,480,0,317,66.0%,False,-3.0,Atraso
1,a1R3j000002b8bZEAQ,2022-02-01,390,60,359,92.0%,True,17.0,Atraso
2,a1R3j000003gHIhEAM,2022-02-01,420,0,293,70.0%,False,-10.0,Atraso
3,a1R3j000003gHOrEAM,2022-02-01,330,0,372,112.99999999999999%,True,12.0,Atraso
4,a1R3j000002bCpBEAU,2022-02-01,450,0,350,78.0%,False,3.0,Atraso
...,...,...,...,...,...,...,...,...,...
11709,a1R3j000003gHOPEA2,2022-02-28,180,0,0,0%,False,4.0,Falta
11710,a1R3j0000043sVnEAI,2022-02-28,480,0,0,0%,False,14.0,Falta
11711,a1R3j000003gHJvEAM,2022-02-28,480,0,0,0%,False,8.0,Falta
11712,a1R3j0000043s1iEAA,2022-02-28,420,0,0,0%,False,3.0,Falta


# Gerando um arquivo em Excel da tabela

In [43]:
tabela_principal.to_excel('Dados Gerados.xlsx')