# Requisições em um Sistema de Computação

Anotações importantes:

## Códigos

Seu notebook deve ser executável novamente se for preciso. Então, deixe todos os códigos explícitos. O código poderá ser inspecionado para resolver dúvidas quanto à resolução do exercício, então nomeie todas as suas variáveis de forma que seja possível saber seu conteúdo.

## Testes de hipótese

Várias das questões pedem testes de hipótese. Lembre-se que, num teste de hipótese, precisamos definir:

1. Qual é a distribuição envolvida
1. Qual é a hipótese nula
1. Qual é a hipótese alternativa
1. Qual é o nível se significância escolhido.

Sempre que fizer um teste de hipótese, explicite esses parâmetros, bem como o *p-valor* encontrado, e as decisões que forem tomadas com base nesses resultados.

## Figuras e argumentações

Sempre que forem pedidas figuras e argumentações, elas devem ser completas, coesas e baseadas em dados. Esperamos figuras com rótulos em todos os eixos, títulos explicativos, e tipos de figuras adequados ao conteúdo. Em textos, esperamos frases que evidenciam quais são os argumentos usados e levam a conclusões (exemplo: "observamos que 9 das 18 maçãs são vermelhas, portanto a probabilidade de uma maçã escolhida aleatoriamente ser vermelha é 1/2"). Evite usar adjetivos, especialmente se forem superlativos ("este elemento é essencial/crucial/etc para a conclusão").

In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as st

df = pd.read_csv('requisicoes.zip')
df.head()

Unnamed: 0,Hora,Minuto,Segundo,IP,Tamanho
0,3,56,14,54.36.149.41,30577
1,3,56,16,31.56.96.51,5667
2,3,56,16,31.56.96.51,5379
3,3,56,17,40.77.167.129,1696
4,3,56,17,91.99.72.15,41483


# Exercício 1

O arquivo `requisicoes.zip` contém registros de todas as requisições feitas a um servidor de e-commerce durante as últimas 24h. Encontre:

1. O número de requições feitas ao servidor a cada hora cheia, isto é, o número de requições feitas entre 3:00:00 e 3:59:59, entre 4:00:00 e 4:59:59 e assim por diante.
1. Os usuários que fazem requições ao servir são identificados pelo seu IP. Para cada hora cheia, encontre o número de usuários diferentes (clientes únicos) que fazem requisições ao servidor.
1. Para cada hora cheia, encontre o número de requisições que é feita pelo usuário mais ativo de cada hora.

# Exercício 2

Gostaríamos de realizar predições sobre o número provável de clientes por hora nesse servidor, de forma que possamos dimesionar servidores corretamente e nos antecipar a possíveis flutuações. O sistema de predição que é usado atualmente assume apenas um parâmetro, que é igual à média de clientes únicos por hora.

1. Qual distribuição deveria ser usada para modelar o número de usuário diferentes por hora no servidor? Por que? Como podemos estimar seus parâmetros?
1. Assumindo que o parâmetro usado atualmente é real, qual é a probabilidade de haver uma hora cheia com 2000 ou mais usuários únicos?
1. Assumindo que o parâmetro usado atualmente é real, qual é a probabilidade de haver uma hora cheia com mais de 2000 e menos de 3000 usuários únicos, sabendo que houve mais de 1000 usuários únicos naquela hora.
1. Assumindo que o parâmetro usado atualmente é real, qual é a probabilidade de haver uma hora cheia com um número de clientes igual ou menor que a hora cheia com menos clientes do banco de dados?
1. Usando um teste de hipótese, verifique se o parâmetro usado atualmente é adequado para modelar o número de clientes entre 4:00:00 e 4:59:59. Explicite qual é a hipótese nula, o teste realizado, o nível de significância escolhido e a qual conclusão foi possível chegar.


# Exercício 3

Um analista justificou o uso da média geral como parâmetro de predição da seguinte forma. Ele modelou o número de clientes como uma variável aleatória $x$. O parâmetro de predição foi chamado de $\mu_0$ e o número de clientes no pior caso é $n$. O analista observou que $P(x \leq n | \mu_0)=1$. A conclusão mostrada pelo analista é que esse resultado confirma a hipótese nula e, portanto, $\mu_0$ é adequado para modelar a variável $x$.

1. Aponte todos os erros do analista.
1. Refaça esse teste de hipótese, corrigindo os erros apontados.

# Exercício 4

Um problema que existe em sistemas de computação é que muitas requisições são feitas por um único usuário. Isso torna mais difícil prever a carga sobre o servidor, porque o comportamento de uma única pessoa é mais imprevisível que a média do comportamento de várias pessoas.

1. Que distribuição pode ser usada para modelar o número de requisições feitas pelo usuário mais ativo dentre todas as requisições feitas durante cada hora cheia? Por que? Como podemos estimar seus parâmetros?
1. Vamos definir $p_h$ como a probabilidade de uma requisição aleatória dentro da hora cheia $h$ ter sido feita pelo usuário mais ativo daquela hora. Usando um teste de hipótese, verifique se $p_h$ é o mesmo para a hora mais movimentada e para a hora menos movimentada do dia.

# Exercício 5

Servidores precisam de um tempo de resposta relativamente rápido.

1. Qual distribuição deve ser usada para modelar o tempo esperado entre duas requisições do servidor? Por que? Como podemos estimar seus parâmetros?
1. No pior caso (ou: na "hora cheia" mais difícil), qual é o parâmetro dessa distribuição?
1. Para o pior caso, usando a distribuição definida no ítem 1, encontre um tempo acima do qual estão 99% dos intervalos entre requisições.

# Exercício 6

Um gestor levantou o seguinte pensamento. Talvez a média de tamanho dos arquivos acessados na hora menos movimentada do dia seja diferente da média de tamanho dos arquivos acessados na hora mais movimentada do dia. Se esse for o caso, seria necessário dimensionar buffers diferentes para cada uma dessas situações.

1. Verifique o pensamento do gestor usando uma ferramenta de visualização à sua escolha (histograma, boxplot, etc.). Escreva um texto explicando como interpretar o que essa ferramenta mostra, e o que ela diz sobre o pensamento do gestor.
1. Verifique o pensamento do gestor usando um teste de hipótese. Explique qual distribuição é usada no teste, qual é a hipótese nula, qual é a hipótese alternativa, o nível de significância escolhido e como o p-valor encontrado deve ser interpretado.
1. Usando tanto o resultado da ferramenta de visualização como o teste de hipótese, argumente favoravelmente ou desfavoravelmente ao pensamento do gestor.