# Desafio Análise de Horas

## Desafio
O objetivo é tratar os dados de um banco de horas, gerado a partir dos dados de um registro pessoal de um amigo, facilitando a extração de informações e insights que promovam a sua produtividade. Para isso será fornecido o arquivo excel em que ele faz o preenchimento diário das suas horas produtivas e de estudo.

## Entendendo a estrutura do arquivo
O arquivo é composto por 56 linhas e 15 colunas de informação, sendo que existem duas colunas para cada dia da semana, uma para medir a produtividade total do dia e a seguinte para medir, dentre as horas produtivas, qual foi o tempo de estudo no mesmo dia. Existem células em branco separando tanto as semanas quanto os dias da semana. As primeiras 15 linhas são reservadas para o registro parcial, assim, ao decorrer do dia, esse amigo anota aos poucos suas horas produtivas e de estudo nas linhas das colunas do dia em questão e na linha 16 é feito um somatório para obter os valores totais do dia. Ao término da semana, ele cria três linhas acima da linha 19, uma linha em branco, como separadora, e outras duas, uma para por os nomes dos dias da semana e outra para os somatórios das horas dos dias da semana que se encerrou.

## Transformação, limpeza e identificação dos dados
#### Importando os dados e visualizando parte do dataframe

In [1]:
import pandas as pd

# Importando os dados
df = pd.read_excel('Controle Horas Amigo.xlsx')

# Visualizando as 5 primeiras linhas da tabela de dados. Estamos na semana 31 de 2022.
df.head(5)

Unnamed: 0,Semana 31,segunda,segunda.1,Unnamed: 3,terça,terça.1,Unnamed: 6,quarta,quarta.1,Unnamed: 9,...,quinta.1,Unnamed: 12,sexta,sexta.1,Unnamed: 15,sábado,sábado.1,Unnamed: 18,domingo,domingo.1
0,,1.0,,,1.25,,,1.0,,,...,,,,,,,,,,
1,,2.0,2.0,,5.5,5.5,,1.75,,,...,2.0,,,,,,,,,
2,,0.75,,,1.5,,,1.25,1.25,,...,,,,,,,,,,
3,,2.0,2.0,,2.0,2.0,,3.0,3.0,,...,,,,,,,,,,
4,,0.25,,,3.5,,,2.0,,,...,,,,,,,,,,


#### Remoção de conteúdo desnecessário
Serão removidas as células em branco que separavam colunas e linhas.
Serão removidas também as primeiras linhas onde são realizados os registros parciais das horas.

In [2]:
# Removendo linhas em branco
df = df[df.segunda.notnull()]

# Removendo colunas em branco
df = df.dropna(axis = 'columns', how = 'all')

# Removendo as linhas dos registros parciais. Deixaremos o somatório para não perdermos os registros da semana corrente.
df = df.iloc[10:]

In [3]:
# Visualizar mudanças
df.head(5)

Unnamed: 0,Semana 31,segunda,segunda.1,terça,terça.1,quarta,quarta.1,quinta,quinta.1,sexta,sexta.1,sábado,sábado.1,domingo,domingo.1
14,,12.5,6.5,13.75,7.5,12,5.75,8.25,4,0,0,0,0,0,0
17,30.0,segunda,segunda,terça,terça,quarta,quarta,quinta,quinta,sexta,sexta,sábado,sábado,domingo,domingo
18,,13.25,6,7.75,3,7.25,3,12.5,9,7.5,4,9.5,3,1,0
20,29.0,segunda,segunda,terça,terça,quarta,quarta,quinta,quinta,sexta,sexta,sábado,sábado,domingo,domingo
21,,12,7,13.5,5.5,8.25,1,13.5,10,13.5,7.5,12.5,5,6,0.5


#### Preenchimento da tabela e remoção dos valores string
Vamos usar a função preenchimento "fillna" para preenchimento dos valores da coluna Semana que estão em branco.
Depois, removeremos os nomes dos dias da semana do dataframe, uma vez que os dias já estão identificados no cabeçalho.
Por fim, será feito o preenchimento da primeira célula da coluna Semana.

In [4]:
# Preenchendo o número da semana em todas as linhas
df = df.fillna(method = 'ffill')

# Removendo valores string da coluna, renomeando coluna das semanas e preenchendo campo vazio
df = df[df.segunda != 'segunda']
df = df.rename(columns = {'Semana 31': 'Semana'})
df =  df.fillna('31')

In [7]:
# Visualizando mudanças
df.head(5)

Unnamed: 0,Semana,segunda,segunda.1,terça,terça.1,quarta,quarta.1,quinta,quinta.1,sexta,sexta.1,sábado,sábado.1,domingo,domingo.1
14,31.0,12.5,6.5,13.75,7.5,12.0,5.75,8.25,4.0,0.0,0.0,0.0,0.0,0.0,0.0
18,30.0,13.25,6.0,7.75,3.0,7.25,3.0,12.5,9.0,7.5,4.0,9.5,3.0,1.0,0.0
21,29.0,12.0,7.0,13.5,5.5,8.25,1.0,13.5,10.0,13.5,7.5,12.5,5.0,6.0,0.5
24,28.0,11.0,6.0,11.75,6.75,13.0,7.0,11.75,6.0,14.0,8.5,11.5,5.5,4.0,2.25
27,27.0,12.25,3.0,5.75,2.25,15.25,7.75,10.25,7.25,13.0,6.25,11.5,3.5,5.5,2.0


#### Preenchendo dados faltantes

Conforme mencionado, o preenchimento das horas só foi feito até a quinta feira da semana 31 e depois o arquivo não foi mais atualizado. Porém, é interessante considerarmos a semana 31, visto que a maior parte dos seus dias foram preenchidos.

Dessa forma, uma solução viável é fazer o preenchimento dos dados faltantes. A metodologia utilizada será o preenchimento levando em conta a média do histórico de cada dia faltante.

In [12]:
# Preenchendo dados faltantes com a média do histórico de cada dia faltante
med = df['sexta'].mean()
df['sexta'][14]= int(med)

med = df['sexta.1'].mean()
df['sexta.1'][14] = int(med)

med = df['sábado'].mean()
df['sábado'][14] = int(med)

med = df['sábado.1'].mean()
df['sábado.1'][14] = int(med)

med = df['domingo'].mean()
df['domingo'][14] = int(med)

med = df['domingo.1'].mean()
df['domingo.1'][14] = int(med)

# Visualizando mudanças
df.head()

Unnamed: 0,Semana,segunda,segunda.1,terça,terça.1,quarta,quarta.1,quinta,quinta.1,sexta,sexta.1,sábado,sábado.1,domingo,domingo.1
14,31.0,12.5,6.5,13.75,7.5,12.0,5.75,8.25,4.0,11.0,4.0,10.0,1.0,2.0,0.0
18,30.0,13.25,6.0,7.75,3.0,7.25,3.0,12.5,9.0,7.5,4.0,9.5,3.0,1.0,0.0
21,29.0,12.0,7.0,13.5,5.5,8.25,1.0,13.5,10.0,13.5,7.5,12.5,5.0,6.0,0.5
24,28.0,11.0,6.0,11.75,6.75,13.0,7.0,11.75,6.0,14.0,8.5,11.5,5.5,4.0,2.25
27,27.0,12.25,3.0,5.75,2.25,15.25,7.75,10.25,7.25,13.0,6.25,11.5,3.5,5.5,2.0


#### Agora vamos salvar o arquivo no formato csv
A partir desse tratamento, estamos prontos para salvar o arquivo e importar os dados no Power Query, o editor de consultas do Power BI. 

In [11]:
df.to_csv('Análise Horas.csv')

## Etapa de tratamento no Power Query

Importei o arquivo csv no Power BI, abri o Power Query, fiz formatações básicas, como remover coluna de índice e promover cabeçalho. Fiz o pivô para simplificar as colunas da tabela e adicionei duas colunas de exemplo, uma para substituir a coluna com o nome da semana e outra para definir a categoria da hora. Também adicionei uma coluna para auxiliar na ordenação dos dias da semana, já que não estão no modelo de data. 