# Prova
## Nome:

OBS: DEIXE AS CÉLULAS CONTENDO O COMANDO `assert` COMO AS ÚLTIMAS CÉLULAS DE CADA RESPOSTA.


In [1]:
import numpy as np
from math import pi, e, sqrt

### Questão 1: Funções

Os babilônicos tinham um jeito muito esperto de calcular a raiz de um número.  
Pega, por exemplo, o número 49. Os babilônicos calculariam a raiz deste número assim...
1. Chuta uma raiz. Sei lá, 5.
2. Quanto é 49 sobre 5? É 9.8...
3. 9.8 não é 5. Isso significa que a raiz de 49 tem que estar entre 9.8 e 5. Tira a média, então:
4. A média entre 9.8 e 5 é 7.4. Voltamos ao passo 1, mas agora o nosso chute vai ser 7.4.

Repetimos esses passos até que a diferença entre a nossa estimativa atual e a última for menor do que um determinado valor a ser especificado.

**Construa uma função que calcule a raiz quadrada pelo método babilônico**
Essa função deve seguir a descrição da seguinte documentação:

```python

'''
Calcula a raiz quadrada pelo método babilônico

Parameters:
-----------
x: float
    Número cuja raiz quadrada se deseja calcular
ci: float
    Chute inicial.
    O valor default desse chute deve ser 1
tol: float
    Tolerância. 
    A função termina quando a diferença (em valor absoluto) entre a estimativa atual e a última for menor do que esse valor.

Returns:
--------
float
    Raiz quadrada de Q, estimada pelo método babilônico
    
Exemplo:
--------
>>> raiz(100, 20)
10.000000464611475
>>> raiz(49)
7.000000141269659

'''

```


In [7]:
## == Gabarito == ##
def raiz(x, ci = 1, tol=1e-6):
    
    r = ci
    while abs(x/r - r) > tol:
        r = (x/r + r)/2
    return(r)

#### Explicação

O enunciado diz que a função deve se chamar `raiz`. Daí, o código começa com

```python
def raiz():
```

A função deve receber:
* $x$, um float
* $ci$, um float cujo default é 1
* $tol$, um float que representa a tolerância. Quão pequena tem que ser a diferença entre a raiz estimada e a raiz real para que a gente páre de buscar a raiz exata. Vamos escolher um valor pequeno como default desse parâmetro. Digamos, 1e-6, ou seja, 0,000001. Isso significa que nossa estimativa deve extar correta pelo menos até a sexta casa decimal.
Isso faz com que o cabeçalho da função vire:

```python
def raiz(x, ci=1, tol=1e-6):
```

Vamos criar uma variável que é a nossa estimativa da raiz. Vamos chamar essa variável de `r`.

Nossa primeira estimativa da raiz é o próprio chute initial. Portanto:

```python
def raiz(x, ci=1, tol=1e-6):
    r = ci
```

Com esse chute inicial, calculamos o valode  de $x/r$. Se $r = \sqrt{x}$, então $x/r = r$. Mas se $r \neq \sqrt{x}$, precisaos continuar procurando. Mas o que significa dizer que $x/r = r$? Pode demorar muito tempo até esses dois valores sejam _exatamente_ iguais, e isso talvez nunca aconteça. Mas basta que a diferença entre $x/r$ e $r$ seja muito pequenininha, que já teremos uma ótima aproximação para a raiz de $x$ e poderemos parar. Ou seja, paramos quando $|x/r - r|$ for muito pequeno. O que significa "pequeno"? Significa menor do que um valor pequenininho: a tolerância. Assim, nosso código fica:

```python
def raiz(x, ci=1, tol=1e-6):
    r = ci
    while abs(x/r - r) > tol:
        #continua buscando a raiz quadrada
```

Continuar buscando a raiz quadrada significa tomar como valor de $r$ a média entre $x/r$ e $r$. Isso porque a raiz de $x$ certamente estará em algum lugar entre esses dois valores, então a média parece ser um chute razoável. Portanto:

```python
def raiz(x, ci=1, tol=1e-6):
    r = ci
    while abs(x/r - r) > tol:
        r = (x/r + r)/2
```

Quando $x/r$ e $r$ já estiverem bem pertinho, teremos chegado ao valor da raiz que buscamos. O valor dessa raiz é $r$. Portanto, pedimos para a função retornar $r$:

```python
def raiz(x, ci=1, tol=1e-6):
    r = ci
    while abs(x/r - r) > tol:
        r = (x/r + r)/2
    return(r)
```

Agora, basta testar com alguns valores e ver se a resposta é a correta.

### Curiosidade:
(Pode pular se estiver com o tempo apertado)

Você sabia que esse método, feito pelos babilônicos, é muito eficiente até mesmo para os padrões de hoje? Ele é um caso particular do Método de Newton, que você deve ter aprendido (ou vai aprender) em Cálculo.  

Mesmo assim, essa função (com todo o respeito) é muito mais lenta do que a função já implementada no próprio Python. Isso porque a função implementada em Python não está escrita em Python, mas em uma linguagem muito mais rápida (e difícil!): C.

Observe quanto tempo cada uma demora calculando $\sqrt{100}$:

In [8]:
from math import sqrt
%timeit raiz(100) # --- sua função
%timeit sqrt(100) # --- função do Python

4.2 µs ± 313 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
192 ns ± 53.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Quase 20 vezes mais rápido! Esse é um dos motivos pelos quais, sempre que possível, devemos usar funções prontas em pacotes, ao invés de criarmos essas funções nós mesmos.

In [4]:
assert np.isclose(raiz(25), 5)
assert np.isclose(raiz(15241578750190521),123456789)
assert raiz(100,1) != raiz(100,2)

## Questão 2: Listas

Construa uma lista em que os termos sejam

$$
\left[1, -\frac{1}{3}, \frac{1}{5}, -\frac{1}{7}, \frac{1}{9}, -\frac{1}{11}, ...  \right]
$$

isso é, o inverso de todos os números ímpares de 1 até 1-milhão-e-1 (inclusive), com sinais alternados. 

1. Use _list comprehension_ para gerar essa lista. Em seguida, salve-a como a variável `lista_Q2`

Agora, some tudo e  multiplique por 4. 

2. Salve esse resultado em uma variável chamada `soma_Q2`.

Agora, olhe o resultado. Você já viu esse número antes?

**Dica:** O $i$-ésimo número ímpar é $2i + 1$, começando-se a contar de $i=0$. Veja, por exemplo, a tabela abaixo:

| $i$ | $2i + 1$ |
|-----|----------|
|0    | 1        |
|1    | 3        |
|2    | 5        |
|3    | 7        |
|4    | 9        |
| etc.| etc ìmpar|




In [11]:
## == Gabarito == ##
lista_Q2 = [(-1)**i * 1/(2*i + 1) for i in range(500000+1)]
soma_Q2 = 4 * sum(lista_Q2)
soma_Q2

3.1415946535856922

#### Explicação

Cada elemento da lista tem a forma

$$
(-1)^i \cdot \frac{1}{2i+1}
$$

com $i$ indo de 0 até 500.000.

Em Python, é possível definir uma lista com base em uma regra matemática (chama-se _list comprehension_):

```python
lista_Q2 = [(-1)**i * 1/(2*i + 1) for i in range(500000+1)]
```

Nesse comando, estamos mandando o Python calcular `(-1)**i * 1/(2*i + 1)` para todos os valores de `i` no `range(500000+1)`, ou seja, 0, 1, 2, 3,... até 500000. Note que 500000+1 não é incluído.

Para somar os elementos da lista, basta fazer

```python
sum(lista_Q2)
```

e, para multiplicar por 4,

```python
4 * sum(lista_Q2)
```

O resultado é aproximadamente $\pi$. Quanto mais termos colocamos na lista, mais o resultado se aproxima do valor exato de $\pi$. Louco né?


In [15]:
assert len(lista_Q2) == 500001
assert np.isclose(soma_Q2, pi)

## Questão 3: Dicionários

Considere o seguinte dicionário, com resultados de um modelo de Data Science:

In [17]:
resultados = {'modelo_1': {'acuracia': 0.98, 'precisao': 0.96, 'recall': 0.95},
              'modelo_2': {'acuracia': 0.85, 'precisao': 0.86, 'recall': 0.82},
              'modelo_3': {'acuracia': 0.90, 'precisao': 0.87, 'recall': 0.91},
              'modelo_4': {'acuracia': 0.95, 'precisao': 0.97, 'recall': 0.92}
             }

Calcule o score F para cada um dos modelos e coloque no dicionario do respectivo modelo. O score F se calcula assim:

$$
F = 2\times\frac{precisao \times recall}{precisao + recall}
$$

Agora, mostre o dicionario contendo o score F em cada modelo.

In [18]:
## == Gabarito == ##
for modelo in resultados.keys():
    p = resultados[modelo]['precisao']
    r = resultados[modelo]['recall']
    F = 2 * p * r / (p + r)
    resultados[modelo]['F'] = F 
resultados

{'modelo_1': {'acuracia': 0.98,
  'precisao': 0.96,
  'recall': 0.95,
  'F': 0.9549738219895287},
 'modelo_2': {'acuracia': 0.85,
  'precisao': 0.86,
  'recall': 0.82,
  'F': 0.8395238095238095},
 'modelo_3': {'acuracia': 0.9,
  'precisao': 0.87,
  'recall': 0.91,
  'F': 0.8895505617977528},
 'modelo_4': {'acuracia': 0.95,
  'precisao': 0.97,
  'recall': 0.92,
  'F': 0.9443386243386243}}

#### Explicação

`resultados` é um dicionário. Ele é composto de pares chave:valor.
Cada chave é o nome de um modelo. Cada valor é um novo dicionário, com dados sobre a acurácia, a precisão e o recall do modelo.

Suponha que a gente tenha um modelo chamado `modelo`.
Esse modelo é uma chave do dicionário `resultados.`
Assim, para acessar o dicionário desse modelo, basta fazermos

```python
resultados[modelo]
```

Mas isso é, de novo, um dicionário. Uma das chaves desse dicionário é precisão. Assim, para obtermos a precisão, podemos fazer

```python
resultados[modelo][precisao]
```

e analogamente para obtermos o recall. Com isso, podemos calcular o $F$ da seguinte forma:

```python
p = resultados[modelo]['precisao']
r = resultados[modelo]['recall']
F = 2 * p * r / (p + r)
```
Para colocar isso dentro do dicionário de cada modelo como um valor associado à chave `F`, podemos fazer

```python
resultados[modelo]['F'] = F
```

Vamos juntar tudo:

```python
p = resultados[modelo]['precisao']
r = resultados[modelo]['recall']
F = 2 * p * r / (p + r)
resultados[modelo]['F'] = F
```

Queremos fazer isso para todos os modelos. Para isso, precisamos de uma lista com o nome dos modelos. Como os nomes dos modelos são as chaves do dicionário `resultados`, podemos obter essa lista fazendo ``` resultados.keys()```. Queremos rodas o código acima para cada modelo listado nessa lista. Portanto:

```python
for modelo in resultados.keys():
    p = resultados[modelo]['precisao']
    r = resultados[modelo]['recall']
    F = 2 * p * r / (p + r)
    resultados[modelo]['F'] = F 
```

In [19]:
assert list(map(lambda x: x['F'], resultados.values())) == [0.9549738219895287,
                                                            0.8395238095238095,
                                                            0.8895505617977528,
                                                            0.9443386243386243]

## Questão 5: Funções

A sequência de Collatz é muito bonitinha. Ela recebe um número $n$ inteiro e devolve outro, calculado da seguinte maneira:

* se $n$ for par, ela devolve $\frac{n}{2}$
* se $n$ for impar, ela devolve $3n + 1$

Aparentemente, se você ficar repetindo esses passos várias vezes, você sempre chega a 1, independente do número do qual você começou. Sim, isso é estranho. E ninguém sabe o porquê.

1. Faça uma função, chamada  `collatz`, recebe um número `n` e devolve o próximo termo da sequência de Collatz.

2. Faça uma função chamada `seq_collatz` que, a partir de um número $n$, devolva uma lista com todos os termos da sequência de Collatz até que o número 1 seja atingido. O número 1 deve ser incluído na lista.

3. Faça uma função chamada `max_collatz` que recebe um número $n$ e retorne o maior número da Collatz de $n$. Por exemplo, para $n = 12$, a sequência de Collatz é $[12, 6, 3, 10, 5, 16, 8, 4, 2, 1]$, então `max_collatz` deveria retornar $16$.

In [22]:
## == Gabarito e explicação== #
def collatz(n):
    if n%2 == 0: #se n for par...
        return(n/2) #... me retorna n/2
    else: #caso contrário (ou seja, se n for ímpar)...
        return(3*n + 1) #... me retorne 3*n+1

def seq_collatz(n):
    seq = [n] #crie uma lista com o elemento n
    while n != 1: #enquanto n for diferente de 1...
        n = collatz(n) #calcule o próximo termo da sequência
        seq.append(int(n)) #transforme o elemento em um inteiro e coloque ele na lista
    return(seq)

def max_collatz(n):
    return(max(seq_collatz(n))) #retorne o maior número da sequencia de collatz

In [23]:
assert max_collatz(12) == 16
assert max_collatz(1000) ==9232

## Questão 6: Séries e DataFrames

Este [link](https://raw.githubusercontent.com/cliburn/bios-823-2020/master/quiz/wnv_human_cases.csv) tem dados sobre a incidência de casos do Vírus do Nilo Ocidental, um vírus da família da dengue, da zika e da febre amarela. 

1. Importe os dados como um DataFrame chamado `df`. Em seguida, mostre 5 linhas aleatórias do DataFrame.

In [25]:
#== Gabarito e explicação ==#
import pandas as pd

#leia o csv da internet
df = pd.read_csv('https://raw.githubusercontent.com/cliburn/bios-823-2020/master/quiz/wnv_human_cases.csv')

#me mostre as 5 primeiras linhas
df.head(5)

Unnamed: 0,Year,Week Reported,County,Positive Cases
0,2006,35,Alameda,1
1,2006,33,Butte,4
2,2006,34,Butte,1
3,2006,35,Butte,10
4,2006,36,Butte,2


2. Troque o nome das colunas para o portugues. Os nomes das colunas devem ser:
    * ano
    * semana
    * distrito
    * casos

Note as letras minúsculas e a ausência de acentos.

In [26]:
#== Gabarito e explicação ==#

#Chame as colunas de 'ano', 'semana', 'distrito' e 'casos'.
#Os nomes dessas colunas são passadas na forma de uma lista
df.columns = ['ano','semana','distrito','casos']

#Mostre as 5 primeiras linhas
df.head()

Unnamed: 0,ano,semana,distrito,casos
0,2006,35,Alameda,1
1,2006,33,Butte,4
2,2006,34,Butte,1
3,2006,35,Butte,10
4,2006,36,Butte,2


3. Crie uma série com o número total de casos por ano no distrito de Butte. Essa série deve se chamar `butte` e deve ter o `ano` como índice.

In [27]:
#== Gabarito ==#
butte = df.loc[df.distrito == 'Butte',['ano','casos']].groupby('ano').sum()
butte

Unnamed: 0_level_0,casos
ano,Unnamed: 1_level_1
2006,31
2007,16
2008,6
2009,2
2010,1
2011,3
2012,10
2013,24
2014,24
2015,53


#### Explicação

Vamos explicar esse código:

```python
butte = df.loc[df.distrito == 'Butte',['ano','casos']].groupby('ano').sum()
```

Como diria meu amigo, Jack O Estripador, vamos por partes....

```python
df.loc[df.distrito == 'Butte',['ano','casos']]
```

`df.loc` recebe dois elementos dentro de seus colchetes. O primeiro (`df.distrito == 'Butte'`) vai filtrar linhas do dataframe. O segundo (`['ano', 'casos']`) vai filtrar colunas.


`df.distrito == Butte` me diz: "vai no dataframe df e olha a coluna distrito. Se o valor da coluna distrito for igual a Butte, pega essa linha". Em suma, ele me filtra as linhas referentes ao distrito de Butte.

Esse foi o primeiro elemento dentro dos colchetes do `.loc`. O segundo elemento filtra as colunas. Esse elemento é uma lista: `['ano', 'casos']`. Ou seja, queremos filtrar as colunas `ano` e `casos`. As demais colunas, pode jogar fora.

Vamos ver o código de novo:

```python
butte = df.loc[df.distrito == 'Butte' ['ano','casos']].groupby('ano').sum()
```
Explicamos o `.loc`. Note que agora nosso dataframe tem duas colunas: o ano e número de casos naquele ano. Mas como a base original tinha uma linha por semana, existem várias linhas correspondentes ao mesmo ano (uma para cada semana). Queremos somar o número total de casos para cada ano. Por isso, agrupamos por ano (`groupby('ano')`) e somamos (`sum()`) o número de casos.

In [18]:
assert list(butte.index) == list(range(2006,2020))
assert butte.iloc[6][0] == 10
assert butte.iloc[9][0] == 53

## Questão 8: Arrays

Rode o código abaixo.

In [38]:
np.random.seed(0)

Para responder as próximas perguntas, crie um array com 1000 linhas e 5 colunas de números aleatórios. Chame o seu array de `A`.

In [39]:
#==Gabarito== #
A = np.random.random((1000,5))
A

#Explicação
# No pacote numpy (np) tem um módulo chamado random, dentro do qual tem uma função chamada random, 
# que gera um array de números aleatórios. As dimensões desse array são dadas por uma tupla.
# No caso, queremos um array com 1000 linhas e 5 colunas. Portanto, passamos para essa função o argumento (1000,5)
# No código acima, np é o pacote (numpy), o primeiro random é o módulo, e o segundo random é a função.
# (1000, 5) é o argumento dessa função, que é o tamanho do array de números aleatórios que se quer gerar.

array([[0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ],
       [0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152],
       [0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606],
       ...,
       [0.69804658, 0.48635362, 0.9408649 , 0.06837524, 0.1557967 ],
       [0.19456826, 0.22100051, 0.23542762, 0.1528502 , 0.69291755],
       [0.21815575, 0.23545348, 0.19738826, 0.39868722, 0.9585931 ]])

1. Calcule a soma dos termos de cada linha desse array. Salve como o array `A1`

In [40]:
#==Gabarito ==#
A1 = A.sum(axis=1)

#Explicação
# A.sum() soma os elementos do array.
# axis = 1 faz com que a soma se dê em cada linha. (axis = 0 faria com que a soma se desse em cada coluna)

2. Calcule a média dos termos de cada coluna desse array. Salve como o array `A2`.

In [41]:
A2 = A.mean(axis=0)

#Explicação
# A.sum() soma os elementos do array.
# axis = 0 faz com que a soma se dê em cada coluna. (axis = 1 faria com que a soma se desse em cada linha)

3. Pegue a primeira coluna desse array e salve como um array `v`. Em seguida, aplique a função `f` definida a seguir a cada um dos seus elementos. Salve o resultado como o array `A3`.

In [42]:
def f(x):
    return(1/(1+np.exp(-x)))

In [43]:
#== Gabarito ==#
v = A[:,0]
A3 = f(v)

#Explicação
# A[:,0]. O elemento antes da virgula filtra linhas. O depois da vírgula filtra colunas.
# Quando escrevemos A[:,0], o : indica que estamos selecionando todas as linhas. 
# Já o 0 indica que estamos selecionando a coluna de índice 0,
# ou seja, a primeira coluna, já que em Python contamos 0, 1, 2, 3,... a primeira coluna fica na posição 0.


4. Construa um dicionário chamado `dicionario` com 3 chaves chamadas `A1`, `A2` e `A3` contendo os arrays `A1`, `A2` e `A3 respectivamente.`

In [44]:
#== Gabarito ==#
dicionario = {'A1': A1,
              'A2': A2,
              'A3': A3}

#Expliação:
# Essa é simplesmente a forma de construir um dicionário.
# {} indica que estamos criando um dicionário. (se fosse uma lista, usaríamos [], por exemplo.)
# 'A1', 'A2' e 'A3' são as chaves do dicionário.
# Após cada chave, temos dois pontos (:) e seus valores correspondentes.
# No caso, os valores são os próprios arrays, A1, A2 e A3.
# Note que as chaves são strings e, por isso, aparecem entre aspas simples. Não são os objetos designados por A1, A2 e A3.
# Já os valores são os próprios arrays A1, A2 e A3.

In [45]:
assert A1.shape == (1000,)
assert np.isclose(A1[100], 2.292488620835086)

In [46]:
assert A2.shape == (5,)
assert np.isclose(A2.std(), 0.008099197912765557)

In [47]:
assert A3.shape == (1000,)
assert np.isclose(A3[300], 0.6098765471994557)

In [48]:
assert np.prod(dicionario['A1'] == A1)
assert np.prod(dicionario['A2'] == A2)
assert np.prod(dicionario['A3'] == A3)