# Guia de Introdução ao NumPy

NumPy, que significa Numerical Python, é uma biblioteca fundamental para a computação científica em Python. Ela fornece suporte para arrays e matrizes, além de funções matemáticas para operações com esses objetos. É, também, a base da biblioteca Pandas.



## Números aleatórios e estatística básica  

In [None]:
!pip3 install numpy

In [4]:
import numpy as np

# criando um gerador de números aleatórios

# rng -> random generator | default -> padrão
rng = np.random.default_rng()

In [8]:
numero_aleatorio = rng.random()

# o número gerado através do random
# sempre será entre 0 e 1, ou seja, um número float
print(numero_aleatorio)

0.4224699082452287


In [13]:
# para que o valor random por exemplo seja entre 0 e 10,
# basta multiplicar o rng.random() por 10

numero_aleatorio = rng.random() * 10

print(numero_aleatorio)

2.684555441191571


In [24]:
# gerando um array de números aleatorios

array_aleatorio = rng.random(3) * 100

print(array_aleatorio)

[91.50839862 97.8732482  36.21181447]


 Vamos criar um cenário onde esses dados aleatórios podem ser úteis para uma análise de vendas.

Suponha que você seja um analista de vendas em uma empresa e queira entender melhor o desempenho das vendas de um produto específico. No entanto, você não tem acesso aos dados reais de vendas, então você decide gerar alguns dados de vendas aleatórios para realizar sua análise.

In [38]:
import numpy as np

# Gere dados de vendas falsos para 30 dias
# Vamos supor que as vendas de um produto podem variar de 50 a 200 por dia

# criando novamente o objeto gerador
# parametro seed -> é usado para inicializar o gerador de números pseudoaleatórios
rng = np.random.default_rng(seed=42)
dados_vendas = rng.integers(low=50, high=200, size=30)
print(dados_vendas)

[ 63 166 148 115 114 178  62 154  80  64 128 196 160 164 157 167 126  69
 175 117 125 105  77 189 167 146 110 173 131 116]


Agora, você pode usar esses dados para realizar várias análises. Por exemplo, você pode querer saber qual foi o dia com as vendas mais altas, as vendas mais baixas, ou a média de vendas durante o mês. Aqui está como você pode fazer isso:



In [42]:
print(f'Valor máximo de vendas: {np.max(dados_vendas)}')
print(f'Valor mínimo de vendas: {np.min(dados_vendas)}')

Valor máximo de vendas: 196
Valor mínimo de vendas: 62


In [47]:
valor_max = np.max(dados_vendas)
valor_min = np.min(dados_vendas)

# dia com mais vendas
print(f'O maior valor de vendas foi de {valor_max} e ocorreu no dia {np.argmax(dados_vendas) + 1}')
# dia com menos vendas
print(f'O menor valor de vendas foi de {valor_min} e ocorreu no dia {np.argmin(dados_vendas) + 1}')

O maior valor de vendas foi de 196 e ocorreu no dia 12
O menor valor de vendas foi de 62 e ocorreu no dia 7


In [44]:
# média de vendas durante o mês
media_vendas = np.mean(dados_vendas)

print(f'A média de vendas durante o mês foi de {media_vendas} vendas por dia')

A média de vendas durante o mês foi de 131.4 vendas por dia


In [None]:
# calculando a mediana
mediana_vendas = np.median(dados_vendas)
print(f'Mediana: {mediana_vendas}')

# calculando percentil: é uma medida estatística que indica a posição relativa de um dado dentro de um conjunto de dados.
percentil_vendas = np.percentile(dados_vendas, 55)
print(f'Percentil de vendas: {percentil_vendas:.2f}')

# desvio padrão(std - standard desviation)
# std -> é uma medida que indica o quão dispersos os valores de um conjunto de dados estão em relação à média
# quanto maior este valor, mais ele estará disperso da média
std = np.std(dados_vendas)
print(f'Desvio padrão das vendas: {std}')

# variância -> é outra medida que indica quão distantes os valores de um conjunto de dados estão da média
# calculada como a média dos quadrados das diferenças entre cada valor e média.
# variancia, basicamente é o quadrado do desvio padrão.
variancia_dados = np.var(dados_vendas)
print(f'Variância das vendas: {variancia_dados}')


Mediana: 129.5
Percentil de vendas: 145.25
Desvio padrão das vendas: 39.305300745149715
Variância das vendas: 1544.9066666666665


Breve resumo e conceitos simplificados das funções estatísticas citadas:

1. Mediana:
A mediana é um valor que divide um conjunto de dados em duas partes iguais. Para encontrá-la, você deve organizar os dados em ordem crescente ou decrescente e escolher o valor do meio. Se houver um número ímpar de dados, a mediana será exatamente o valor central. Se houver um número par de dados, a mediana será a média dos dois valores do meio.

2. Percentil:
O percentil é uma medida estatística que indica a posição relativa de um dado dentro de um conjunto de dados. Ele informa a porcentagem de valores que estão abaixo desse dado. Por exemplo, o percentil 50 (também conhecido como mediana) divide os dados em duas partes iguais, com 50% dos valores abaixo dele e 50% acima.

3. Desvio padrão:
O desvio padrão é uma medida que indica o quão dispersos os valores de um conjunto de dados estão em relação à média. Ele mostra a variabilidade dos dados em relação ao valor médio. Um desvio padrão maior indica que os dados estão mais espalhados, enquanto um desvio padrão menor indica que os dados estão mais próximos da média.

4. Variância:
A variância é outra medida de dispersão que indica o quão distantes os valores de um conjunto de dados estão da média. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média. A variância fornece uma medida da dispersão total dos dados, independentemente de serem maiores ou menores que a média.

Essas medidas são amplamente utilizadas na estatística para resumir e analisar conjuntos de dados. Elas fornecem informações valiosas sobre a distribuição, a variabilidade e a posição dos dados, permitindo uma compreensão mais completa dos mesmos.