# Geração de dados aleatórios

Na área de ciência de dados é comum a geração de valores aleatórios, isso ocorre por que nem sempre temos acesso aos dados produtivos
na maioria das vezes por questões de segurança ou simplesmente por que esses dados ainda não existem. Por conta disso criamos um conjunto
de valores para testar um modelo de machine learning, realizar testes de hipótese, análise de robustez, simulações e etc. 

Existe um módulo dentro do NumPy que visa lidar com a criação de dados neste sentido:

https://numpy.org/doc/stable/reference/random/generator.html

In [2]:
import numpy as np

In [3]:
rng = np.random.default_rng()
rng

Generator(PCG64) at 0x7FB85A5AE6C0

Com o código acima temos a classe `Generator` instanciada, por padrão ela gera números no formato PCG64 que é basicamente um "protocolo" de geração de números para fins de estatisticas, os números gerados apesar de aleatórios seguem um padrão que vai nos ajudar no cenário da computação ciêntifica.

In [8]:
rng.random() # Por padrão o método range gera números entre 0 e 1

0.305271108045549

Se quisermos gerar um array com números aleatórios, basta passar o total de elementos que desejamos obter como argumento para a função:

In [11]:
array_with_one_element = rng.random(1)
array_with_two_elements = rng.random(2)
array_with_three_elements = rng.random(3)


print(array_with_one_element)
print(array_with_two_elements)
print(array_with_three_elements)

[0.22322289]
[0.14000801 0.73071249]
[0.83487529 0.58380033 0.50799283]


# Geração de números inteiros

In [42]:
rng.integers(low=1954, high=1977, size=10)

array([1973, 1955, 1970, 1958, 1956, 1966, 1976, 1970, 1971, 1970])

Onde:

`low` =  Determina que os números devem ser gerados a partir do valor passado (o valo é incluído) <br/>
`high` = Determina que os números devem ser gerados até o valor passado (o valo não é incluído)  <br/>
`size` = Total de números a serem gerados

# Persistindo números gerados com o seed

Na documentação do NumPy nós podemos ver que é possível gerar resultados reproduzíveis mesmo falando de aleatoriedade, isso é útil para um trabalho em equipe onde desejamos obter sempre o mesmo conjunto de dados. 

https://numpy.org/doc/stable/reference/random/generator.html

In [60]:
rng = np.random.default_rng(seed=42) # fuxando o resultado com o uso do seed

random_data = rng.integers(low=1910, high=2012, size=30)
random_data

array([1919, 1988, 1976, 1954, 1954, 1997, 1918, 1981, 1930, 1919, 1963,
       2009, 1985, 1987, 1983, 1990, 1962, 1923, 1995, 1955, 1961, 1947,
       1928, 2004, 1989, 1975, 1951, 1993, 1965, 1955])