In [1]:
from datascience import *
path_data = '../../../assets/data/'
import numpy as np

import matplotlib
matplotlib.use('Agg')
%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')

# Aleatoriedade

Nos capítulos anteriores, desenvolvemos habilidades necessárias para fazer descrições perspicazes de dados. Cientistas de dados também precisam ser capazes de entender a aleatoriedade. Por exemplo, eles precisam ser capazes de atribuir indivíduos a grupos de tratamento e controle aleatoriamente e, em seguida, tentar dizer se quaisquer diferenças observadas nos resultados dos dois grupos são simplesmente devido à atribuição aleatória ou genuinamente devido ao tratamento.

Neste capítulo, começamos nossa análise da aleatoriedade. Para começar, usaremos Python para fazer escolhas aleatórias. No `numpy`, há um sub-módulo chamado `random` que contém muitas funções que envolvem seleção aleatória. Uma dessas funções é chamada `choice`. Ela escolhe um item aleatoriamente de um array, e é igualmente provável escolher qualquer um dos itens. A chamada da função é `np.random.choice(array_name)`, onde `array_name` é o nome do array de onde se fará a escolha.

Assim, o código a seguir avalia `treatment` com 50% de chance e `control` com 50% de chance.

In [2]:
two_groups = make_array('treatment', 'control')
np.random.choice(two_groups)

'treatment'

A grande diferença entre o código acima e todo o outro código que executamos até agora é que o código acima não sempre retorna o mesmo valor. Ele pode retornar `treatment` ou `control`, e não sabemos de antemão qual ele escolherá. Podemos repetir o processo fornecendo um segundo argumento, o número de vezes para repetir o processo.

In [3]:
np.random.choice(two_groups, 10)

array(['control', 'control', 'treatment', 'treatment', 'control',
       'control', 'control', 'control', 'control', 'control'], dtype='<U9')

Uma questão fundamental sobre eventos aleatórios é se eles ocorrem ou não. Por exemplo:

- Um indivíduo foi designado para o grupo de tratamento ou não?
- Um jogador vai ganhar dinheiro ou não?
- Uma pesquisa fez uma previsão precisa ou não?

Uma vez que o evento ocorreu, você pode responder "sim" ou "não" a todas essas perguntas. Em programação, é convencional fazer isso rotulando declarações como True ou False. Por exemplo, se um indivíduo foi designado para o grupo de tratamento, então a declaração "O indivíduo foi designado para o grupo de tratamento" seria `True`. Caso contrário, seria `False`.

<h2>Booleans e Comparação</h2>

Em Python, valores Booleanos, nomeados em homenagem ao lógico [George Boole](https://en.wikipedia.org/wiki/George_Boole), representam a verdade e assumem apenas dois valores possíveis: `True` e `False`. Quer os problemas envolvam aleatoriedade ou não, os valores Booleanos surgem mais frequentemente de operadores de comparação. Python inclui uma variedade de operadores que comparam valores. Por exemplo, `3` é maior que `1 + 1`.

In [4]:
3 > 1 + 1

True

O valor `True` indica que a comparação é válida; Python confirmou esse simples fato sobre a relação entre `3` e `1+1`. O conjunto completo de operadores de comparação comuns está listado abaixo.

| Comparação           | Operador | Exemplo True | Exemplo False |
|----------------------|----------|--------------|---------------|
| Menor que            | <        | 2 < 3        | 2 < 2         |
| Maior que            | >        | 3 > 2        | 3 > 3         |
| Menor ou igual       | <=       | 2 <= 2       | 3 <= 2        |
| Maior ou igual       | >=       | 3 >= 3       | 2 >= 3        |
| Igual                | ==       | 3 == 3       | 3 == 2        |
| Diferente            | !=       | 3 != 2       | 2 != 2        |

Note os dois sinais de igual `==` na comparação para determinar a igualdade. Isso é necessário porque Python já usa `=` para significar atribuição a um nome, como vimos. Não pode usar o mesmo símbolo para um propósito diferente. Portanto, se você quiser verificar se 5 é igual a 10/2, precisa ser cuidadoso: `5 = 10/2` retorna uma mensagem de erro porque Python assume que você está tentando atribuir o valor da expressão 10/2 a um nome que é o numeral 5. Em vez disso, você deve usar `5 == 10/2`, que avalia para `True`.

In [5]:
5 = 10/2

SyntaxError: can't assign to literal (<ipython-input-5-e8c755f5e450>, line 1)

In [6]:
5 == 10/2

True

Uma expressão pode conter várias comparações, e todas elas devem ser verdadeiras para que a expressão inteira seja `True`. Por exemplo, podemos expressar que `1+1` está entre `1` e `3` usando a seguinte expressão.

In [7]:
1 < 1 + 1 < 3

True

A média de dois números está sempre entre o número menor e o número maior. Expressamos essa relação para os números `x` e `y` abaixo. Você pode tentar valores diferentes de `x` e `y` para confirmar esta relação .

In [8]:
x = 12
y = 5
min(x, y) <= (x+y)/2 <= max(x, y)

True

<h2>Comparando Strings</h2>

Strings também podem ser comparadas, e sua ordem é alfabética. Uma string mais curta é menor que uma string mais longa que começa com a string mais curta.

In [9]:
'Dog' > 'Catastrophe' > 'Cat'

True

Vamos voltar à seleção aleatória. Lembre-se do array `two_groups` que consiste em apenas dois elementos, `treatment` e `control`. Para ver se um indivíduo designado aleatoriamente foi para o grupo de tratamento, você pode usar uma comparação:

In [10]:
np.random.choice(two_groups) == 'treatment'

True

Como antes, a escolha aleatória não será sempre a mesma, então o resultado da comparação também não será sempre o mesmo. Dependerá se `treatment` ou `control` foi escolhido. Com qualquer célula que envolva seleção aleatória, é uma boa ideia executar a célula várias vezes para ter uma ideia da variabilidade no resultado.

<h2>Comparando uma Array e um Valor</h2>

Lembre-se de que podemos realizar operações aritméticas em muitos números em uma array de uma vez. Por exemplo, `make_array(0, 5, 2)*2` é equivalente a `make_array(0, 10, 4)`. De maneira semelhante, se compararmos uma array e um valor, cada elemento da array será comparado a esse valor, e a comparação resultará em uma array de Booleanos.

In [11]:
tosses = make_array('Tails', 'Heads', 'Tails', 'Heads', 'Heads')
tosses == 'Heads'

array([False,  True, False,  True,  True])

O método `numpy` `count_nonzero` avalia o número de elementos diferentes de zero (ou seja, `True`) da matriz.

In [12]:
np.count_nonzero(tosses == 'Heads')

3