# Calculando Estatísticas Simples com Python

(Aplicação Prática inspirada no problema descrito em http://dojopuzzles.com/problemas/exibe/calculando-estatisticas-simples/).

![fundo](imgs/stats.jpg "fundo")

## Introdução

Quando trabalhamos com dados, utilizamos técnicas estatísticas para nos ajudar a interpretar e extrair conhecimento. Uma ferramenta comum de sumarização de dados é calcular a **média aritmética**, **máximo valor** e **mínimo valor**.

Dada uma série $A = a_0, a_1, \ldots, a_n$, a média aritmética é definida como: $${média(A)={\frac {1}{n}}\sum _{i=0}^{n-1}a_{i}={\frac {a_{0}+a_{1}+\cdots +a_{n-1}}{n}}}$$.

Os valores máximo e mínimo podem ser definidos como:

$$máx(A) = a_j\ |\ a_j\ \geq a_i\ \forall i$$

$$mín(A) = a_j\ |\ a_j\ \leq a_i\ \forall i$$

onde $i, j \in 0,1,\ldots,n-1$.

## Implementação

Dado as definições de **média**, **máximo** e **mínimo**, iremos implementá-las em Python.

A entrada do nosso sistema é a sequência de dados $A$. Uma representação natural em Python seria uma `list`:

In [1]:
A = [1, 5, 8]

Da mesma forma, podemos representar as funções matemáticas através de funções em Python:

In [3]:
def media(l): 
    """Retorna a média aritmética de uma lista de números l."""
    pass

def max_val(l): 
    """Retorna o máximo valor de uma lista de números l."""
    pass

def min_val(l): 
    """Retorna o mínimo valor de uma lista de números l."""
    pass

Observação: a palavra-chave `pass` não tem efeito algum e é usada para fechar um bloco. Na prática, as funções acima não fazem nada.

### Testes

Antes de implementar as funções, vamos definir o que desejamos obter como resultado. Principalmente para códigos mais complexos, é considerado boa-prática criar testes antes mesmo de começar a implementação.

#### Tarefa: remova o comentário das linhas de código abaixo e preencha  corretamente os trechos marcados com **???**.

In [59]:
def testar_funcao(nome_teste, teste_passou):
    print('> {:30}: [{}]'.format(nome_teste, 'OK' if teste_passou else 'Erro'))

def testar_funcoes():
    # Testes de média
    #testar_funcao('Teste média 1 item',        media([1]) == ???)
    #testar_funcao('Teste média 3 itens',       media([1, 4, 4]) == ???)
    #testar_funcao('Teste média valor decimal', media([2, 3]) == ???)
    
    # testes de valor máximo
    #testar_funcao('Teste máx 1 item',          max_val([???]) == 1)
    #testar_funcao('Teste máx primeiro item',   max_val([9, 5, 7]) == ???)
    #testar_funcao('Teste máx último item',     max_val([8, 1, 2, ???]) == 9)
        
    # testes de valor mínimo
    #testar_funcao('Teste mín 1 item',          min_val([???]) == 1)
    #testar_funcao('Teste mín primeiro item',   max_val([???, 9, 7]) == 5)
    #testar_funcao('Teste mín último item',     min_val([8, 2, 2, ???]) == ???)
    pass

Se rodarmos os testes agora, veremos uma série de mensagens de erro. Isso é o esperado, já que não implementamos nada ainda.

In [60]:
testar_funcoes()

### Máximo e Mínimo

Quando estamos diante de um problema de implementação, precisamos definir uma estratégia de trabalho. Vamos começar primeiro pelos problemas mais simples: `min_val` e `max_val`.

Considere uma sequência simples composta de dois itens, como:

In [6]:
a_0 = 4
a_1 = 3
A = [a_0, a_1]

O máximo ou o mínimo neste caso específico são `a_0` (4) e `a_1` (3), respectivamente.

Mas como faríamos para caracterizar `a_0` e `a_1` independentemente do valor atribuído? Neste caso, precisamos fazer um teste usando o comando `if`. Sendo assim:

In [36]:
val_max = a_0 if a_0 > a_1 else a_1
val_min = a_0 if a_0 < a_1 else a_1

print('O máximo valor é', val_max, 'e o mínimo é', val_min)

O máximo valor é 4 e o mínimo é 3


Porém, o nosso problema original é composto de uma sequência de tamanho variável. O que acontece quando $A$ tem 3 itens? Vamos analisar apenas o caso do valor máximo.

In [35]:
a_0 = 4
a_1 = 3
a_2 = 5
A = [a_0, a_1, a_2]

max_temp = a_0 if a_0 > a_1 else a_1
val_max = max_temp if max_temp > a_2 else a_2

print('O máximo valor é', val_max)

O máximo valor é 5


Nesta solução, dividimos o problema em duas partes. Primeiro, definimos quais dos itens (`a_0` ou `a_1`) é o máximo apenas entre eles e atribuímos o resultado a `max_temp`. Em seguida, utilizamos este resultado parcial para determinar `val_max` com o item restante, `a_2`.

Vamos continuar, utilizando uma sequência de 4 itens:

In [43]:
a_0 = 4
a_1 = 3
a_2 = 5
a_3 = 9
A = [a_0, a_1, a_2, a_3]

max_temp_1 = a_0 if a_0 > a_1 else a_1
max_temp_2 = max_temp_1 if max_temp_1 > a_2 else a_2
val_max = max_temp_2 if max_temp_2 > a_3 else a_3

print('O máximo valor é', val_max)

O máximo valor é 9


Desta vez criamos duas variáveis de apoio: `max_temp_1` e `max_temp_2`. Será que é possível melhorar o algoritmo acima? O valor de `max_temp_1` é apenas lido para a criação de `max_temp_2` e a partir daí a variável não é mais necessária. O próprio valor de `val_max` passa por uma situação similar. Podemos simplificar utilizando apenas uma variável, `val_max`:

In [33]:
val_max = a_0 if a_0 > a_1 else a_1
val_max = val_max if val_max > a_2 else a_2
val_max = val_max if val_max > a_3 else a_3

print('O máximo valor é', val_max)

O máximo valor é 9


Lembre-se que, na verdade, $A$ pode ter 2, 3, 5, 10 ou até mesmo 1000 itens. Precisamos implementar um algoritmo acima independente do tamanho da lista.

Sendo assim, precisamos visitar cada item para determinar se ele é o máximo ou o mínimo da sequência. Uma forma de fazer essa visita é através de loops `for`.

In [42]:
for a in [0, 1, 2, 3, 4]:
    print('visitando item:', a)

visitando item: 0
visitando item: 1
visitando item: 2
visitando item: 3
visitando item: 4


Vamos voltar a olhar o nosso algorimo. Três valores são testados em sequência: `a_1`, `a_2` e `a_3`. Na verdade, o algoritmo pode ser reescrito para mostrar mais claramente estes testes.

In [39]:
val_max = a_0
val_max = val_max if val_max > a_1 else a_1
val_max = val_max if val_max > a_2 else a_2
val_max = val_max if val_max > a_3 else a_3

print('O máximo valor é', val_max)

O máximo valor é 9


Vamos nos aproveitar do fato que os testes envolvendo `val_max` se repetem e utilizá-los dentro de um loop `for`:

In [44]:
val_max = a_0
for a in A:
    print('visitando item:', a)
    val_max = val_max if val_max > a else a
    print('val_max =', val_max)
    
print('O máximo valor é', val_max)    

visitando item: 4
val_max = 4
visitando item: 3
val_max = 4
visitando item: 5
val_max = 5
visitando item: 9
val_max = 9
O máximo valor é 9


Pronto! Parece que temos um algoritmo para `max_val`! 


#### Tarefa: preencha o código abaixo com o algoritmo que desenhamos até então.

In [61]:
def max_val(l):
    # coloque o algoritmo construído aqui
    # note que a lista aqui se chama l e não A!
    
    val_max = l[0]  # primeiro item da lista (a_0)
        
    # [IMPLEMENTE AQUI]
    
    return val_max

#### Tarefa: Aproveite e implemente também `min_val`.

In [62]:
def min_val(l):
    # [IMPLEMENTE AQUI]
    pass

Vamos testar o que fizemos? Execute a linha abaixo:

In [58]:
testar_funcoes()

> Teste máx 1 item              : [OK]
> Teste máx primeiro item       : [OK]
> Teste máx último item         : [Erro]


### Média

A definição da média pode ser dividido em duas partes a soma dos valores e a divisão pelo número de itens.

I) $a_{0}+a_{1}+\cdots +a_{n-1}$

II) $\div\ n$

Lembre-se que o número de itens de uma lista pode ser obtido através da função `len`.

In [65]:
len([1,2,3])

3

A soma dos itens pode ser obtida através de um acumulador. Isto é, uma variável guarda o resultado de uma série de operações. Veja um exemplo:

In [67]:
acumulador = 0
acumulador = acumulador + 1
acumulador = acumulador + 2
acumulador = acumulador + 3
    
print(acumulador)

6


Neste caso, o acumulador guarda o resultado da soma dos valores 1, 2 e 3. Isso pode ser integrado facilmente a um loop `for`.

In [68]:
acumulador = 0
for i in range(1, 4):
    acumulador += i
    
print(acumulador)    

6


#### Utilizando estas duas dicas: o conceito de *acumulador* e a função `len`, implemente `media`

In [69]:
def media(l):
    # [IMPLEMENTE AQUI]
    pass

In [70]:
testar_funcoes()

### Desafio

Uma outra forma de implementar os algoritmos propostos é utilizando o conceito de recursividade. 


#### Tarefa: você consegue re-implementar `min_val`, `max_val` e `media` sem utilizar um loop `for` e através de chamadas recursivas?

Comece pensando no caso base de recursão: quando o algoritmo não deve chamar a si mesmo e apenas retornar um valor possível?

In [64]:
# Coloque o seu código recursivo aqui:

# [IMPLEMENTE AQUI]

In [None]:
testar_funcoes()