# Guia de Introdução ao NumPy

NumPy, que significa Numerical Python, é uma biblioteca fundamental para a computação científica em Python. Ela fornece suporte para arrays e matrizes, além de funções matemáticas para operações com esses objetos. É, também, a base da biblioteca Pandas.



## Números aleatórios e estatística básica  

In [15]:
import numpy as np
rng = np.random.default_rng()
# Número aleatório
numero = rng.random()
print(numero)
# Vetor aleatório
array = rng.random(size=5)
print(array)
# Matriz aleatória
matrix = rng.random(size=(2, 3))
print(matrix)

0.5806552425814302
[0.04334531 0.2919317  0.2947985  0.42076252 0.35081947]
[[0.78655704 0.2217838  0.57359093]
 [0.07354879 0.88515748 0.09205908]]


 Vamos criar um cenário onde esses dados aleatórios podem ser úteis para uma análise de vendas.

Suponha que você seja um analista de vendas em uma empresa e queira entender melhor o desempenho das vendas de um produto específico. No entanto, você não tem acesso aos dados reais de vendas, então você decide gerar alguns dados de vendas aleatórios para realizar sua análise.

In [27]:
# Gere dados de vendas falsos para 30 dias
# Vamos supor que as vendas de um produto podem variar de 50 a 200 por dia
rng = np.random.default_rng(seed=291279)
vendas_mes = rng.integers(size=30, low=50, high=200)
print(vendas_mes)

[185 125 101  84  50  94  56 101 122 146 140 142  90 110 106 140 154  84
 106  90 175  72 156  78 181  55 156 196  57 159]


Agora, você pode usar esses dados para realizar várias análises. Por exemplo, você pode querer saber qual foi o dia com as vendas mais altas, as vendas mais baixas, ou a média de vendas durante o mês. Aqui está como você pode fazer isso:



In [30]:
maior_venda = np.max(vendas_mes)
dia_maior_venda = np.argmax(vendas_mes)
print(f'A maior venda foi de R${maior_venda:.2f} e foi realizada no dia {dia_maior_venda + 1} do mês')
menor_venda = np.min(vendas_mes)
dia_menor_venda = np.argmin(vendas_mes)
print(f'A menor venda foi de R${menor_venda:.2f} e foi realizada no dia {dia_menor_venda + 1} do mês')

A maior venda foi de R$196.00 e foi realizada no dia 28 do mês
A menor venda foi de R$50.00 e foi realizada no dia 5 do mês


In [33]:
media = np.mean(vendas_mes)
print(f'A media de vendas foi de R${media:.2f}')

mediana = np.median(vendas_mes)
print(f'MEDIANA: {mediana}')

percentil_70 = np.percentile(vendas_mes, 70)
print(f'PERCENTIL 70%: {percentil_70}')

desvio_padrao = np.std(vendas_mes)
print(f'DESVIO PADRAO: {desvio_padrao:.2f}')

variancia = np.var(vendas_mes)
print(f'VARIANCIA: {variancia:.2f}')

A media de vendas foi de R$117.03
MEDIANA: 108.0
PERCENTIL 70%: 143.2
DESVIO PADRAO: 41.34
VARIANCIA: 1709.37


Breve resumo e conceitos simplificados das funções estatísticas citadas:

1. Mediana:
A mediana é um valor que divide um conjunto de dados em duas partes iguais. Para encontrá-la, você deve organizar os dados em ordem crescente ou decrescente e escolher o valor do meio. Se houver um número ímpar de dados, a mediana será exatamente o valor central. Se houver um número par de dados, a mediana será a média dos dois valores do meio.

2. Percentil:
O percentil é uma medida estatística que indica a posição relativa de um dado dentro de um conjunto de dados. Ele informa a porcentagem de valores que estão abaixo desse dado. Por exemplo, o percentil 50 (também conhecido como mediana) divide os dados em duas partes iguais, com 50% dos valores abaixo dele e 50% acima.

3. Desvio padrão:
O desvio padrão é uma medida que indica o quão dispersos os valores de um conjunto de dados estão em relação à média. Ele mostra a variabilidade dos dados em relação ao valor médio. Um desvio padrão maior indica que os dados estão mais espalhados, enquanto um desvio padrão menor indica que os dados estão mais próximos da média.

4. Variância:
A variância é outra medida de dispersão que indica o quão distantes os valores de um conjunto de dados estão da média. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média. A variância fornece uma medida da dispersão total dos dados, independentemente de serem maiores ou menores que a média.

Essas medidas são amplamente utilizadas na estatística para resumir e analisar conjuntos de dados. Elas fornecem informações valiosas sobre a distribuição, a variabilidade e a posição dos dados, permitindo uma compreensão mais completa dos mesmos.