In [None]:
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import datetime as dt

%matplotlib inline

In [None]:
full = pd.read_csv('../../data/raw/full_database.csv')

In [None]:
recursos = pd.read_csv('../../data/raw/CSVs_Processados/recursos.csv')
recursos.drop('Unnamed: 0', axis = 1, inplace = True)

In [None]:
execs = pd.read_csv('../../data/raw/CSVs_Processados/execucoes.csv', parse_dates=['Data_Execucao',
                                                                                   'Data_FechamentoCenario',
                                                                                   'TimeStamp_Execucao'])
execs.drop('Unnamed: 0', axis = 1, inplace = True)

In [None]:
execs.shape

In [None]:
execs = execs[pd.notnull(execs['Data_Execucao'])]

In [None]:
#Filtrando testes executados a partir de 2018-12-01'
start_date = '2018-12-01'
execs = execs[execs['Data_Execucao'] >= start_date]

In [None]:
execs.head()

---

Criando Base com informações **testers x testes totais**

In [None]:
pivot_testes_por_tester = pd.pivot_table(execs, 
                                         values='ID_Execucao',
                                         columns=['Data_Execucao'],
                                         index = 'Testador_Real',
                                         aggfunc = 'count')

In [None]:
pivot_testes_por_tester.shape

In [None]:
pivot_testes_por_tester.head()

In [None]:
pivot_testes_por_tester.reset_index(inplace = True)

In [None]:
#criar coluna com contagem de dias trabalhados
pivot_testes_por_tester['contagem_testes_total'] = pivot_testes_por_tester.iloc[:,1:].count(axis=1)

In [None]:
#criar coluna com contagem de testes totais
pivot_testes_por_tester['soma_testes_total'] = pivot_testes_por_tester.iloc[:,1:-1].sum(axis=1) 

In [None]:
#criar coluna média de testes por dia
pivot_testes_por_tester['media_testes_total'] =  pivot_testes_por_tester['soma_testes_total']/pivot_testes_por_tester['contagem_testes_total']

In [None]:
#Base com informações totais acerca do teste na base total
base_testers = pivot_testes_por_tester[['Testador_Real',
                                        'contagem_testes_total',
                                        'soma_testes_total',
                                        'media_testes_total']].copy()

In [None]:
base_testers.rename({'Testador_Real':'testador_real'}, inplace = True, axis = 1)

In [None]:
base_testers.head()

In [None]:
#pivot apenas com testes billable
pivot_testes_por_tester_bill = pd.pivot_table(execs[execs['Target']==1], 
                                         values='ID_Execucao',
                                         columns=['Data_Execucao'],
                                         index = 'Testador_Real',
                                         aggfunc = 'count')
pivot_testes_por_tester_bill.reset_index(inplace = True)

In [None]:
pivot_testes_por_tester_bill['soma_testes_total_bill'] = pivot_testes_por_tester_bill.iloc[:,1:].sum(axis=1) 

In [None]:
adicionando colunas com número total de testes billable
base_testers = pd.merge(left=base_testers,
                        right=pivot_testes_por_tester_bill[['Testador_Real','soma_testes_total_bill']],
                        left_on='testador_real',
                        right_on='Testador_Real',
                        how='left')

In [None]:
base_testers.drop('Testador_Real', axis=1, inplace = True)

In [None]:
base_testers.head()

In [None]:
base_testers['%_testes_billable'] = base_testers['soma_testes_total_bill']/base_testers['soma_testes_total']

In [None]:
print('Média de testes billables: ' + str(base_testers['%_testes_billable'].mean()))
print('Desvpad de testes billables: ' + str(base_testers['%_testes_billable'].std()))
base_testers['%_testes_billable'].hist()

In [None]:
base_testers.head()

---

Criando Base com informações testers x testes **por mês**

In [None]:
execs['data_execuca_ano'] = pd.DatetimeIndex(execs['Data_Execucao']).year
execs['data_execuca_mes'] = pd.DatetimeIndex(execs['Data_Execucao']).month
execs['data_execuca_dia'] = pd.DatetimeIndex(execs['Data_Execucao']).day

In [None]:
execs = execs.astype({'data_execuca_ano': str,
                      'data_execuca_mes': str,
                      'data_execuca_dia': str})
execs.info()

In [None]:
execs['data_execuca_anomes'] = execs['data_execuca_ano'] + execs['data_execuca_mes']

In [None]:
execs['data_execuca_anomesdia'] = execs['data_execuca_ano'] + execs['data_execuca_mes'] + execs['data_execuca_dia'] 

In [None]:
#Testes por mês
pivot_testes_por_tester_mes = pd.pivot_table(execs, 
                                         values='ID_Execucao',
                                         columns=['data_execuca_anomes'],
                                         index='Testador_Real',
                                         aggfunc='count')
pivot_testes_por_tester_mes.reset_index(inplace = True)

In [None]:
pivot_testes_por_tester_mes.head()

In [None]:
#dias_trabalhados por mês por tester
pivot_testes_por_tester_mes_dias = pd.pivot_table(execs, 
                                         values='data_execuca_anomesdia',
                                         columns=['data_execuca_anomes'],
                                         index='Testador_Real',
                                         aggfunc=pd.Series.nunique)
pivot_testes_por_tester_mes_dias.reset_index(inplace = True)

In [None]:
pivot_testes_por_tester_mes_dias.rename({'201812': '201812_dia',
                                    '20191': '20191_dia',
                                    '20192': '20192_dia',
                                    '20193': '20193_dia',
                                    '20194': '20194_dia'}, axis=1, inplace = True)
pivot_testes_por_tester_mes_dias.head()

In [None]:
pivot_testes_por_tester_mes = pd.merge(pivot_testes_por_tester_mes,
                                       pivot_testes_por_tester_mes_dias,
                                       on='Testador_Real')

In [None]:
pivot_testes_por_tester_mes['201812%'] = pivot_testes_por_tester_mes['201812']/pivot_testes_por_tester_mes['201812_dia']
pivot_testes_por_tester_mes['20191%'] = pivot_testes_por_tester_mes['20191']/pivot_testes_por_tester_mes['20191_dia']
pivot_testes_por_tester_mes['20192%'] = pivot_testes_por_tester_mes['20192']/pivot_testes_por_tester_mes['20192_dia']
pivot_testes_por_tester_mes['20193%'] = pivot_testes_por_tester_mes['20193']/pivot_testes_por_tester_mes['20193_dia']
pivot_testes_por_tester_mes['20194%'] = pivot_testes_por_tester_mes['20194']/pivot_testes_por_tester_mes['20194_dia']

In [None]:
pivot_testes_por_tester_mes.head()

In [None]:
#Testes por mês
pivot_testes_por_tester_mes_bill = pd.pivot_table(execs[execs['Target']==1], 
                                         values='ID_Execucao',
                                         columns=['data_execuca_anomes'],
                                         index='Testador_Real',
                                         aggfunc='count')
pivot_testes_por_tester_mes_bill.reset_index(inplace = True)

In [None]:
pivot_testes_por_tester_mes_bill.rename({'201812': '201812_bill',
                                    '20191': '20191_bill',
                                    '20192': '20192_bill',
                                    '20193': '20193_bill',
                                    '20194': '20194_bill'}, axis=1, inplace = True)

In [None]:
pivot_testes_por_tester_mes = pd.merge(pivot_testes_por_tester_mes,
                                       pivot_testes_por_tester_mes_bill,
                                       on='Testador_Real')

In [None]:
pivot_testes_por_tester_mes.head()

In [None]:
pivot_testes_por_tester_mes['201812%_bill'] =pivot_testes_por_tester_mes['201812_bill']/pivot_testes_por_tester_mes['201812']
pivot_testes_por_tester_mes['20191%_bill'] = pivot_testes_por_tester_mes['20191_bill']/pivot_testes_por_tester_mes['20191']
pivot_testes_por_tester_mes['20192%_bill'] = pivot_testes_por_tester_mes['20192_bill']/pivot_testes_por_tester_mes['20192']
pivot_testes_por_tester_mes['20193%_bill'] = pivot_testes_por_tester_mes['20193_bill']/pivot_testes_por_tester_mes['20193']
pivot_testes_por_tester_mes['20194%_bill'] = pivot_testes_por_tester_mes['20194_bill']/pivot_testes_por_tester_mes['20194']

In [None]:
pivot_testes_por_tester_mes.head()

Dicionário de pivot_testes_por_tester_mes    
- **YYYYMM** = Testes realizados naquele mês por empregado    
- **YYYYMM_dia** = Dias trabalhados naquele mês por empregado   
- **YYYYMM%** = Média de testes realizados por mês por empregado   
- **YYYYMM_bill** = Testes faturados realizados por mês por empregado   
- **YYYYMM%_bill** = Testes faturados / Testes totais por mês por empregada

---

Checking Clusters

In [None]:
# clusters = pd.read_csv('../../data/raw/CSVs_Processados/cluster.csv')

In [None]:
# clusters.head()

In [None]:
# base_testers = pd.merge(left=base_testers,
#                         right=clusters[['ALM USER','cluster']],
#                         left_on='testador_real',
#                         right_on='ALM USER',
#                         how='left')

---