# Projeto Individual - análise de dados - módulo 4

## Auto referências
Veja a descrição e relatório detalhado deste projeto no [**repositório do projeto**](https://github.com/henrique-esilva/projeto_individual_M4)

## Importação de bibliotecas e inserção dos dados

In [None]:
import pandas as pd
import numpy as np
from pandas import DataFrame as df
from matplotlib import pyplot as plt

In [None]:
# foi optado por criar a visualização dos dados manualmente
registros_da_semana = df({
    'horas trabalhadas':  [6, 7, 8, 6, 7, 5, 4],
    'tarefas concluídas': [3, 2, 1, 4, 3, 2, 1],
    'bugs corrigidos':    [5, 4, 6, 4, 5, 3, 2],
    }, index=('segunda-feira', 'terça-feira', 'quarta-feira', 'quinta-feira',\
    'sexta-feira', 'sábado', 'domingo')
)

registros_da_semana

Unnamed: 0,horas trabalhadas,tarefas concluídas,bugs corrigidos
segunda-feira,6,3,5
terça-feira,7,2,4
quarta-feira,8,1,6
quinta-feira,6,4,4
sexta-feira,7,3,5
sábado,5,2,3
domingo,4,1,2


## Análise exploratória

In [None]:
# adiciona linha 'total'
registros_da_semana = pd.concat([registros_da_semana, df(registros_da_semana.sum(axis=0), columns=['total']).T])

In [None]:
# adiciona coluna 'produtividade'
registros_da_semana['produtividade'] = registros_da_semana['tarefas concluídas'] / registros_da_semana['horas trabalhadas']

In [None]:
# adiciona linha 'média'
completo = pd.concat([registros_da_semana, df(registros_da_semana[:7].mean(axis=0), columns=['média']).T])

In [None]:
# adiciona linha 'mediana'
completo = pd.concat([completo, df(completo[:7].median(axis=0), columns=['mediana']).T])

In [None]:
completo

Unnamed: 0,horas trabalhadas,tarefas concluídas,bugs corrigidos,produtividade
segunda-feira,6.0,3.0,5.0,0.5
terça-feira,7.0,2.0,4.0,0.285714
quarta-feira,8.0,1.0,6.0,0.125
quinta-feira,6.0,4.0,4.0,0.666667
sexta-feira,7.0,3.0,5.0,0.428571
sábado,5.0,2.0,3.0,0.4
domingo,4.0,1.0,2.0,0.25
total,43.0,16.0,29.0,0.372093
média,6.142857,2.285714,4.142857,0.379422
mediana,6.0,2.0,4.0,0.4


In [None]:
def exibe_acima_media(frame, campo):
  '''retorna as linhas dentre as 7 primeiras do DataFrame fornecido em que o
  valor da coluna `campo` for superior ao da linha `média`'''
  return frame[:7][campo][frame[campo] > frame[campo]['média']]

In [None]:
exibe_acima_media(completo, 'horas trabalhadas')

terça-feira     7.0
quarta-feira    8.0
sexta-feira     7.0
Name: horas trabalhadas, dtype: float64

In [None]:
exibe_acima_media(completo, 'tarefas concluídas')

segunda-feira    3.0
quinta-feira     4.0
sexta-feira      3.0
Name: tarefas concluídas, dtype: float64

In [None]:
exibe_acima_media(completo, 'bugs corrigidos')

segunda-feira    5.0
quarta-feira     6.0
sexta-feira      5.0
Name: bugs corrigidos, dtype: float64

In [None]:
exibe_acima_media(completo, 'produtividade')

segunda-feira    0.500000
quinta-feira     0.666667
sexta-feira      0.428571
sábado           0.400000
Name: produtividade, dtype: float64

## Relatório

### Horas trabalhadas

A média de horas trabalhadas foi de 6.14 horas/dia  
Ficou acima da média nos dias:
* terça-feira
* quarta-feira
* sexta-feira

Menor quantidade foi observada em: **domingo**  
Maior quantidade foi observada em: **quarta-feira**

### Tarefas concluídas:

A média de tarefas concluídas foi de 2.28 tarefas/dia  
Ficou acima da média nos dias:
* segunda-feira
* quinta-feira
* sexta-feira

Menor quantidade foi observada em: **quarta-feira** e **domingo**  
Maior quantidade foi observada em: **quinta-feira**

### Bugs corrigidos

A média de bugs corrigidos foi de 4.14 bugs/dia  
Ficou acima da média nos dias:
* segunda-feira
* quarta-feira
* sexta-feira

Menor quantidade foi observada em: **domingo**  
Maior quantidade foi observada em: **quarta-feira**

### Produtividade

A produtividade média foi de 0.37 tarefas/hora  
Ficou acima da média nos dias:
* segunda-feira
* quinta-feira
* sexta-feira
* sábado

Menor produtividade foi observada em: **quarta-feira**  
Maior produtividade foi observada em: **quinta-feira**

## Notas

Na quinta-feira a quantidade de horas trabalhadas foi igual ou inferior à média da semana. No mesmo dia houve o registro da maior quantidade de tarefas concluídas da semana.

Na quarta-feira foram observadas as menores métricas tanto de bugs corrigidos como de horas trabalhadas.  
O mesmo se repete para os maiores registros dos dois campos, o que leva a crer que existe uma relação direta entre a quantidade de horas trabalhadas e a quantidade de bugs corrigidos.

Na quarta-feira houve a maior quantidade de horas trabalhadas e ao mesmo tempo a menor produtividade da semana. A segunda menor produtividade foi observada no domingo, dia em que houve a menor quantidade de horas de trabalho. Porém foi calculada a correlação entre as duas métricas e obteve-se uma correlação negativa e fraca nas ocorrências.

In [None]:
np.corrcoef(np.array(completo[:7]['horas trabalhadas']), np.array(completo[:7]['produtividade']))[0, 1]

-0.21932736352233467