In [None]:
# Inicialize o Otter
import otter
grader = otter.Notebook("lab05.ipynb")

# Laboratório 5: Simulações

Bem-vindo ao Laboratório 5!

Vamos revisar [iteração](https://www.inferentialthinking.com/chapters/09/2/Iteration.html) e [simulações](https://www.inferentialthinking.com/chapters/09/3/Simulation.html), além de introduzir o conceito de [aleatoriedade](https://www.inferentialthinking.com/chapters/09/Randomness.html).

Os dados usados neste laboratório conterão dados de salário e outras estatísticas para jogadores de basquete da temporada 2014-2015 da NBA. Esses dados foram coletados nos seguintes sites de análise esportiva: [Basketball Reference](http://www.basketball-reference.com) e [Spotrac](http://www.spotrac.com).

**Submissão**: Quando terminar, execute todas as células, exceto a última, selecione Arquivo > Salvar Notebook e, em seguida, execute a célula final. Em seguida, envie o arquivo zip baixado, que inclui seu notebook, de acordo com as instruções do seu instrutor.

Primeiro, configure o notebook executando a célula abaixo.

In [None]:
# Execute esta célula, mas por favor não a altere.

# Essas linhas importam os módulos Numpy e Datascience.
import numpy as np
from datascience import *

# Essas linhas fazem alguma mágica de plotagem sofisticada
import matplotlib
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')

import d8error

## 1. Nachos e Condicionais

Em Python, o tipo de dados booleano contém apenas dois valores únicos: `True` e `False`. Expressões contendo operadores de comparação como `<` (menor que), `>` (maior que) e `==` (igual a) avaliam para valores Booleanos. Uma lista de operadores de comparação comuns pode ser encontrada abaixo!

<img src="comparisons.png">

Execute a célula abaixo para ver um exemplo de um operador de comparação em ação.

In [None]:
3 > (1 + 1)

Podemos até atribuir o resultado de uma operação de comparação a uma variável.

In [None]:
result = 10 / 2 == 5
result

Arrays são compatíveis com operadores de comparação. A saída é um array de valores booleanos.

In [None]:
make_array(1, 5, 7, 8, 3, -1) > 3

Um dia, quando você chega em casa após uma longa semana, você vê uma tigela quente de nachos esperando na mesa de jantar! Vamos dizer que sempre que você pega um nacho da tigela, ele terá apenas **queijo**, apenas **salsa**, **ambos** queijo e salsa, ou **nem** queijo nem salsa (um triste nacho de tortilla, de fato).

Vamos tentar simular pegar nachos da tigela aleatoriamente usando a função, `np.random.choice(...)`.

### `np.random.choice`

`np.random.choice` escolhe um item aleatoriamente do array fornecido. É igualmente provável escolher qualquer um dos itens. Execute a célula abaixo várias vezes e observe como os resultados mudam.

In [None]:
nachos = make_array('cheese', 'salsa', 'both', 'neither')
np.random.choice(nachos)

Para repetir este processo várias vezes, passe um inteiro `n` como o segundo argumento para retornar `n` escolhas aleatórias diferentes. Por padrão, `np.random.choice` amostra **com reposição** e retorna um *array* de itens. Amostragem **com reposição** significa que se amostrarmos `n` vezes, cada vez, cada elemento tem uma chance igual de ser selecionado.

Execute a próxima célula para ver um exemplo de amostragem com reposição 10 vezes a partir do array `nachos`.

In [None]:
np.random.choice(nachos, 10)

Para contar o número de vezes que um certo tipo de nacho é escolhido aleatoriamente, podemos usar `np.count_nonzero`.

### `np.count_nonzero`

`np.count_nonzero` conta o número de valores não zero que aparecem em um array. Quando um array de valores booleanos é passado pela função, ele contará o número de valores `True` (lembre-se de que em Python, `True` é codificado como 1 e `False` é codificado como 0.)

Execute a próxima célula para ver um exemplo que usa `np.count_nonzero`.

In [None]:
np.count_nonzero(make_array(True, False, False, True, True))

**Questão 1.1** Suponha que pegamos dez nachos aleatoriamente e armazenamos os resultados em um array chamado `ten_nachos`, conforme feito abaixo. Encontre o número de nachos com apenas queijo usando código (não codifique a resposta diretamente).

*Dica:* Nossa solução envolve um operador de comparação (por exemplo, `==`, `<`, ...) e o método `np.count_nonzero`.


In [None]:
ten_nachos = make_array('neither', 'cheese', 'both', 'both', 'cheese', 'salsa', 'both', 'neither', 'cheese', 'both')
number_cheese = ...
number_cheese

In [None]:
grader.check("q11")

**Declarações Condicionais**

Uma declaração condicional é uma declaração de várias linhas que permite ao Python escolher entre diferentes alternativas com base no valor verdade de uma expressão.

Aqui está um exemplo básico.

```
def sign(x):
    if x > 0:
        return 'Positivo'
    else:
        return 'Negativo'
```

Se a entrada `x` for maior que `0`, retornamos a string `'Positivo'`. Caso contrário, retornamos `'Negativo'`.

Se quisermos testar várias condições de uma vez, usamos o seguinte formato geral.

```
if <expressão if>:
    <corpo if>
elif <expressão elif 0>:
    <corpo elif 0>
elif <expressão elif 1>:
    <corpo elif 1>
...
else:
    <corpo else>
```

Apenas o corpo da primeira expressão condicional que é verdadeira será avaliada. Cada expressão `if` e `elif` é avaliada e considerada em ordem, começando do topo. `elif` só pode ser usado se uma cláusula `if` a preceder. Assim que um valor verdadeiro é encontrado, o corpo correspondente é executado, e o resto da declaração condicional é ignorado. Se nenhuma das expressões `if` ou `elif` for verdadeira, então o `corpo else` é executado.

Para mais exemplos e explicações, consulte a seção sobre declarações condicionais [aqui](https://inferentialthinking.com/chapters/09/1/Conditional_Statements.html).

**Questão 1.2** Complete a seguinte declaração condicional para que a string `'More please'` seja atribuída à variável `say_please` se o número de nachos com queijo em `ten_nachos` for menor que `5`. Use a declaração if para fazer isso (não reatribua diretamente a variável `say_please`).

*Dica*: Você deve usar `number_cheese` da Questão 1.


In [None]:
say_please = '?'

if ...:
    say_please = 'More please'
say_please

In [None]:
grader.check("q12")

**Questão 1.3** Escreva uma função chamada `nacho_reaction` que retorna uma reação (como uma string) com base no tipo de nacho passado como argumento. Use a tabela abaixo para combinar o tipo de nacho com a reação apropriada.

<img src="nacho_reactions.png">

*Dica:* Se você está falhando no teste, verifique novamente a ortografia de suas reações.


In [None]:
def nacho_reaction(nacho):
    if nacho == "cheese":
        return ...
    ... :
        ...
    ... :
        ...
    ... :
        ...

spicy_nacho = nacho_reaction('salsa')
spicy_nacho

In [None]:
grader.check("q13")

**Questão 1.4** Crie uma tabela `ten_nachos_reactions` que consiste nos nachos em `ten_nachos` bem como as reações para cada um desses nachos. As colunas devem ser chamadas `Nachos` e `Reactions`.

*Dica:* Use o método `apply`.


In [None]:
ten_nachos_tbl = Table().with_column('Nachos', ten_nachos)
ten_nachos_reactions = ...
ten_nachos_reactions

In [None]:
grader.check("q14")

**Questão 1.5** Usando código, encontre o número de reações 'Wow!' para os nachos em `ten_nachos_reactions`.

In [None]:
number_wow_reactions = ...
number_wow_reactions

In [None]:
grader.check("q15")

## 2. Simulações e Laços For
Usando uma instrução `for`, podemos realizar uma tarefa várias vezes. Isso é conhecido como iteração. A estrutura geral de um laço for é:

`for <placeholder> in <array>:` seguido por linhas de código indentadas que são repetidas para cada elemento do `array` sendo iterado. Você pode ler mais sobre laços for [aqui](https://www.inferentialthinking.com/chapters/09/2/Iteration.html).

**NOTA:** Muitas vezes usamos `i` como o `placeholder` em nossos exemplos de classe, mas você pode nomeá-lo como quiser! Alguns exemplos podem ser encontrados abaixo.

Um uso da iteração é percorrer um conjunto de valores. Por exemplo, podemos imprimir todas as cores do arco-íris.

In [None]:
rainbow = make_array("red", "orange", "yellow", "green", "blue", "indigo", "violet")

for color in rainbow:
    print(color)

Podemos ver que a parte indentada do loop `for`, conhecida como corpo, é executada uma vez para cada item em `rainbow`. O nome `color` é atribuído ao próximo valor em `rainbow` no início de cada iteração. Note que o nome `color` é arbitrário; poderíamos facilmente ter nomeado algo diferente. O importante é que sejamos consistentes em todo o loop `for`.

In [None]:
for another_name in rainbow:
    print(another_name)

Em geral, no entanto, gostaríamos que o nome da variável fosse um pouco informativo.

**Questão 2.1** Na célula a seguir, carregamos o texto de _Orgulho e Preconceito_ de Jane Austen, dividimos em palavras individuais e armazenamos essas palavras em um array `p_and_p_words`. Usando um loop `for`, atribua a `longer_than_five` o número de palavras no romance que têm mais de 5 letras.

*Dica*: Você pode encontrar o número de letras em uma palavra com a função `len`.

*Dica*: Como você pode usar `longer_than_five` para acompanhar o número de palavras que têm mais de cinco letras?

In [None]:
austen_string = open('Austen_PrideAndPrejudice.txt', encoding='utf-8').read()
p_and_p_words = np.array(austen_string.split())

longer_than_five = ...

for ... in ...:
    ...
longer_than_five

In [None]:
grader.check("q21")

Outra maneira de usarmos loops `for` é repetir linhas de código muitas vezes. Lembre-se da estrutura de um loop `for`:

`for <placeholder> in <array>:` seguido por linhas de código indentadas que são repetidas para cada elemento do array sendo iterado.

Às vezes, não nos importamos com o valor do placeholder. Em vez disso, aproveitamos o fato de que o loop `for` se repetirá tantas vezes quanto o comprimento do nosso array. Na célula a seguir, iteramos através de um array de comprimento 5 e imprimimos "Hello, world!" em cada iteração.

In [None]:
for i in np.arange(5):
    print("Hello, world!")

**Questão 2.2** Usando uma simulação com 10.000 testes, atribua `num_different` ao número de vezes, em 10.000 testes, que duas palavras escolhidas uniformemente ao acaso (com reposição) de Orgulho e Preconceito têm comprimentos diferentes.

*Dica 1*: Que função usamos na seção 1 para amostrar aleatoriamente com reposição de um array?

*Dica 2*: Lembre-se de que `!=` verifica a não igualdade entre dois itens.

In [None]:
trials = 10000
num_different = ...

for ... in ...:
    ...
num_different

In [None]:
grader.check("q22")

## 3. Amostragem de Dados de Basquete

Agora vamos introduzir o tópico de amostragem, que discutiremos com mais profundidade nas palestras desta semana. Vamos orientá-lo através deste código, mas se você deseja ler mais sobre diferentes tipos de amostras antes de tentar esta questão, você pode conferir [a seção 10 do livro didático](https://www.inferentialthinking.com/chapters/10/Sampling_and_Empirical_Distributions.html).

Execute a célula abaixo para carregar os dados do jogador e do salário que usaremos para nossa amostragem.

In [None]:
player_data = Table().read_table("player_data.csv")
salary_data = Table().read_table("salary_data.csv")
full_data = salary_data.join("PlayerName", player_data, "Name")

# O método show exibe imediatamente o conteúdo de uma tabela.
# Desta forma, podemos exibir o topo de duas tabelas usando uma única célula.
player_data.show(3)
salary_data.show(3)
full_data.show(3)

Em vez de obter dados sobre todos os jogadores (como nas tabelas carregadas acima), imagine que tivéssemos obtido dados apenas de um subconjunto menor de jogadores. Para 492 jogadores, não é tão irracional esperar ver todos os dados, mas geralmente não temos tanta sorte.

Se quisermos fazer estimativas sobre uma certa propriedade numérica da população, podemos ter que elaborar essas estimativas com base apenas em uma amostra menor. A propriedade numérica da população é conhecida como um parâmetro, e a estimativa é conhecida como uma estatística (por exemplo, a média ou mediana). Se essas estimativas são úteis ou não, muitas vezes depende de como a amostra foi coletada. Preparamos alguns conjuntos de dados de amostra de exemplo para ver como eles se comparam ao conjunto de dados completo da NBA. Mais tarde, pediremos que você crie suas próprias amostras para ver como elas se comportam.

Para economizar digitação e aumentar a clareza do seu código, vamos empacotar o código de análise em algumas funções. Isso será útil no restante do laboratório, pois precisaremos repetidamente criar histogramas e coletar estatísticas resumidas a partir desses dados.

Definimos a função `histograms` abaixo, que recebe uma tabela com colunas `Age` e `Salary` e desenha um histograma para cada uma. Ela usa larguras de bin de 1 ano para `Age` e $1.000.000 para `Salary`.

In [None]:
def histograms(t):
    ages = t.column('Age')
    salaries = t.column('Salary')/1000000
    t1 = t.drop('Salary').with_column('Salary', salaries)
    age_bins = np.arange(min(ages), max(ages) + 2, 1) 
    salary_bins = np.arange(min(salaries), max(salaries) + 1, 1)
    t1.hist('Age', bins=age_bins, unit='year')
    plt.title('Age distribution')
    t1.hist('Salary', bins=salary_bins, unit='million dollars')
    plt.title('Salary distribution') 
    
histograms(full_data)
print('Two histograms should be displayed below')

**Questão 3.1**. Crie uma função chamada `compute_statistics` que recebe uma tabela contendo uma coluna "Age" e uma coluna "Salary" e:
- Desenha um histograma de idades
- Desenha um histograma de salários
- Retorna um array de dois elementos contendo a idade média e o salário médio (nessa ordem)

Você pode chamar a função `histograms` para desenhar os histogramas!

*Nota:* Mais gráficos serão exibidos ao executar a célula de teste. Sinta-se à vontade para ignorar os gráficos.

In [None]:
def compute_statistics(age_and_salary_data):
    ...
    age = ...
    salary = ...
    ...
    

full_stats = compute_statistics(full_data)
full_stats

In [None]:
grader.check("q31")

### Amostragem aleatória simples
Uma abordagem mais justificável é amostrar uniformemente ao acaso dos jogadores. Em uma **amostra aleatória simples (SRS) sem reposição**, garantimos que cada jogador seja selecionado no máximo uma vez. Imagine escrever o nome de cada jogador em um cartão, colocar os cartões em uma caixa e embaralhar a caixa. Em seguida, retire os cartões um a um e reserve-os, parando quando o tamanho da amostra especificado for atingido.

### Produzindo amostras aleatórias simples
Às vezes, é útil tirar amostras aleatórias mesmo quando temos os dados de toda a população. Isso nos ajuda a entender a precisão da amostragem.

### `sample`

O método de tabela `sample` produz uma amostra aleatória da tabela. Por padrão, ele seleciona aleatoriamente **com reposição** das linhas de uma tabela. A amostragem com reposição significa que para qualquer linha selecionada aleatoriamente, há uma chance de que ela possa ser selecionada novamente se amostrarmos várias vezes. `Sample` recebe o tamanho da amostra como argumento e retorna uma **tabela** apenas com as linhas que foram selecionadas.

Execute a célula abaixo para ver um exemplo de chamada para `sample()` com um tamanho de amostra de 5, com reposição.

In [None]:
# Apenas execute esta célula

salary_data.sample(5)

O argumento opcional `with_replacement=False` pode ser passado para `sample()` para especificar que a amostra deve ser retirada sem reposição.

Execute a célula abaixo para ver um exemplo de chamada para `sample()` com um tamanho de amostra de 5, sem reposição.

In [None]:
# Apenas execute esta célula

salary_data.sample(5, with_replacement=False)

**Questão 3.2** Produza uma amostra aleatória simples **sem** reposição de tamanho **44** a partir de `full_data`. Em seguida, execute novamente sua análise usando a função `compute_statistics`. Execute a célula algumas vezes para ver como os histogramas e as estatísticas mudam entre diferentes amostras.

- Quanto a idade média muda entre as amostras?
- E quanto ao salário médio?

(FYI: srs = amostra aleatória simples, wor = sem reposição)

_Digite sua resposta aqui, substituindo este texto._

<!-- BEGIN QUESTION -->



In [None]:
my_small_srswor_data = ...
my_small_stats = ...
my_small_stats

<!-- END QUESTION -->

## 4. Mais prática de amostragem aleatória

Mais prática para amostragem aleatória usando `np.random.choice`.

### Simulações e Laços For (continuação)

**Questão 4.1** Podemos usar `np.random.choice` para simular vários testes.

Após terminar o projeto de Data 8, Stephanie decide passar o resto da noite jogando um dado padrão de seis lados. Ela quer saber qual seria sua pontuação total se jogasse o dado 1000 vezes. Escreva um código que simule sua pontuação total após 1000 jogadas.

*Dica:* Primeiro decida os possíveis valores que você pode obter no experimento (valores de pontos neste caso). Em seguida, use `np.random.choice` para simular as jogadas de Stephanie. Finalmente, some as jogadas para obter a pontuação total de Stephanie.

In [None]:
possible_point_values = ...
num_tosses = 1000
simulated_tosses = ...
total_score = ...
total_score

In [None]:
grader.check("q41")

### Amostragem aleatória simples (continuação)

**Questão 4.2** Como na questão anterior, analise várias amostras aleatórias simples de tamanho 100 de `full_data` usando a função `compute_statistics`.
- As formas do histograma parecem mudar mais ou menos entre amostras de 100 do que entre amostras de tamanho 44?
- As médias da amostra e os histogramas estão mais próximos de seus valores/forma verdadeiros para idade ou para salário? O que você esperava ver?

_Digite sua resposta aqui, substituindo este texto._

<!-- BEGIN QUESTION -->



In [None]:
my_large_srswor_data = ...
my_large_stats = ...
my_large_stats

## 5. Submissão
<img src="luke_leia.jpg" alt="drawing" width="300"/>

Luke & Leia querem parabenizá-lo por terminar o laboratório 5!

<img src="luke.jpg" alt="drawing" width="300"/>

**Passos importantes para a submissão:** 
1. Execute os testes e verifique se todos passaram.
2. Escolha **Salvar Notebook** no menu **Arquivo**, então **execute a última célula**. 
3. Clique no link para baixar o arquivo zip.
4. Em seguida, envie o arquivo zip para a tarefa correspondente de acordo com as instruções do seu professor. 

**É sua responsabilidade garantir que seu trabalho esteja salvo antes de executar a última célula.**

## Submissão

Certifique-se de ter executado todas as células em seu notebook em ordem antes de executar a célula abaixo, para que todas as imagens/gráficos apareçam na saída. A célula abaixo irá gerar um arquivo zip para você enviar. **Por favor, salve antes de exportar!**

In [None]:
# Primeiro salve seu notebook, depois execute esta célula para exportar sua submissão.
grader.export(pdf=False, run_tests=True)