# Guia de Introdução ao NumPy

NumPy, que significa Numerical Python, é uma biblioteca fundamental para a computação científica em Python. Mas suas capacidades vão muito além disso, como veremos nos nestes vídeos. E ele serve como uma boa base para o Pandas, que é uma das bibliotecas mais populares para análise de dados em Python.

## Arrays NumPy

Um array é uma estrutura de dados que armazena valores de um mesmo tipo. Em Python, isso é uma grande vantagem porque economiza espaço e permite operações mais eficientes.

In [2]:
import numpy as np

array = np.array([1,2,3,4,5])

print(array)

[1 2 3 4 5]


É relevante entender a diferença entre uma lista e um array.

Uma **lista** é uma das estruturas de dados mais básicas em Python. Ela pode conter qualquer tipo de elementos, como números, strings, outras listas, e todos eles podem ser de tipos diferentes. Por exemplo:


In [3]:
lista = [1, "dois", 3.0]
print(lista)

[1, 'dois', 3.0]


In [4]:
print(type(lista))

<class 'list'>


In [5]:
for elemento in lista:
    print(type(elemento))

<class 'int'>
<class 'str'>
<class 'float'>


Um **array**, por outro lado, é uma estrutura de dados que também armazena elementos, mas todos os elementos devem ser do mesmo tipo. Se você tentar criar um array com elementos de tipos diferentes, o NumPy irá convertê-los todos para o tipo mais geral. Por exemplo:

In [6]:
array = np.array(lista)
print(array)

['1' 'dois' '3.0']


In [7]:
print(type(array))

<class 'numpy.ndarray'>


In [9]:
for elemento in array:
    print(type(elemento))

<class 'numpy.str_'>
<class 'numpy.str_'>
<class 'numpy.str_'>


In [10]:
print(array.dtype)

<U32



## Operações Matemáticas

Se você tentar adicionar um número a todos os elementos de uma lista, você receberá um erro.

In [11]:
lista = [1, 2, 3, 4, 5]
nova_lista = lista + 1  # Isso causará um erro
print(nova_lista)

TypeError: can only concatenate list (not "int") to list

In [12]:
nova_lista = []

for numero in lista:
    nova_lista.append(numero + 1)

print(nova_lista)

[2, 3, 4, 5, 6]


Com um array NumPy, você pode adicionar (ou subtrair, multiplicar, dividir) um número a todos os elementos de uma vez.

In [None]:
import numpy as np

array = np.array([1,2,3,4,5])
novo_array = array + 1 # isso adicionará 1 a todos os elementos
print(novo_array)

[2 3 4 5 6]


## Desempenho

Para grandes quantidades de dados, os arrays NumPy são significativamente mais eficientes em termos de memória e desempenho do que as listas Python. Aqui está um exemplo que demonstra isso:



In [16]:
import numpy as np
import time

# Crie uma lista e um array com 10 milhões de números
lista = list(range(1, 10_000_001))
array = np.array(range(1, 10_000_001))

# Calcule a soma de todos os números na lista
inicio = time.time()
soma_lista = sum(lista)
fim = time.time()
print(f"Tempo para somar todos os números na lista: {fim - inicio} segundos")

# Calcule a soma de todos os números no array
inicio = time.time()
soma_array = np.sum(array)
fim = time.time()
print(f"Tempo para somar todos os números no array: {fim - inicio} segundos")

Tempo para somar todos os números na lista: 0.2668616771697998 segundos
Tempo para somar todos os números no array: 0.00498509407043457 segundos


## Resumindo

Aqui estão algumas diferenças chave entre listas e arrays:

1. **Tipo de dados**: As listas podem armazenar elementos de tipos diferentes ao mesmo tempo, enquanto os arrays armazenam elementos do mesmo tipo.

2. **Operações matemáticas**: Você pode realizar operações matemáticas em todos os elementos de um array de uma vez, o que não é possível com listas.

3. **Desempenho**: Arrays são mais eficientes em termos de memória e desempenho do que listas quando se trabalha com grandes quantidades de dados numéricos.

4. **Funcionalidades**: NumPy arrays vêm com várias funções integradas para operações matemáticas e científicas, como média, soma, multiplicação de matrizes, etc., que não estão disponíveis com listas.


In [7]:
import numpy as np

array = np.array(["a","b","c","d","e"])
print(array)

['a' 'b' 'c' 'd' 'e']


### Indexação e Slicing

In [8]:
print(array[0])

a


In [9]:
print(array[1:4])

['b' 'c' 'd']


In [10]:
print(array[0:-1])

['a' 'b' 'c' 'd']


In [11]:
print(array[0:-1:2])

['a' 'c']


In [12]:
print(array[0::2])

['a' 'c' 'e']


In [16]:
print(array[::])

['a' 'b' 'c' 'd' 'e']


In [14]:
print(array[::-1])

['e' 'd' 'c' 'b' 'a']


### Aplicações do dia a dia

In [1]:
import numpy as np

# Preço dos produtos
precos = np.array([20,25,30,35,40])

# Aumentar o preço em 10%
novos_precos = precos * 1.1

print(novos_precos)

[22.  27.5 33.  38.5 44. ]


### np.sum()

In [3]:
import numpy as np

vendas = np.array([200,250,300,350,280,270,450])

total_vendas = np.sum(vendas)
print(total_vendas)

2100


### np.mean()

In [4]:
import numpy as np

vendas = np.array([200,250,300,350,280,270,450])

media_vendas = np.mean(vendas)
print(media_vendas)

300.0


### np.max() e np.min()

In [5]:
import numpy as np

vendas = np.array([200,250,300,350,280,270,450])

max_vendas = np.max(vendas)
min_vendas = np.min(vendas)

print(max_vendas)
print(min_vendas)

450
200


### np.sort()

In [6]:
import numpy as np

vendas = np.array([200,250,300,350,280,270,450])

ordenado_vendas = np.sort(vendas)

print(ordenado_vendas)

[200 250 270 280 300 350 450]


### np.dot()

In [7]:
import numpy as np

quantidade = np.array([10, 20, 30, 40])

preco_unit = np.array([5, 10, 15, 20])

In [8]:
print(quantidade * preco_unit)

[ 50 200 450 800]


In [9]:
print(np.sum(quantidade * preco_unit))

1500


In [10]:
print(np.dot(quantidade,preco_unit))

1500


## Exercício 1

Você é um gerente de vendas e tem os dados de vendas de um produto para os últimos 7 dias em uma lista: `[127, 90, 201, 150, 210, 220, 115]`. Calcule a média de vendas durante a semana.

In [3]:
import numpy as np

dados = [127, 90, 201, 150, 210, 220, 115]

vendas = np.array(dados)

media_vendas = np.mean(vendas)

print(media_vendas)

159.0


## Exercício 2

Você é um analista financeiro e tem os preços de fechamento diário de uma ação para a última semana em um array NumPy: `precos = np.array([31.40, 31.25, 30.95, 31.20, 31.60, 31.50])`. Calcule o preço máximo, mínimo e a variação de preço durante a semana.

In [6]:
import numpy as np

precos = np.array([31.40, 31.25, 30.95, 31.20, 31.60, 31.50])

max_preco = np.max(precos)
min_preco = np.min(precos)
variacao = max_preco - min_preco

print(f'O máximo {max_preco}\nO mínimo {min_preco}\nA variação de {variacao:.2f}')

O máximo 31.6
O mínimo 30.95
A variação de 0.65


## Exercício 3

Sua loja vendeu em um dia 5 unidades do *Produto A*, 3 unidades do *Produto B* e 2 unidades do *Produto C*. Os preços dos produtos são, respectivamente, 100, 200 e 50 reais. Calcule o total de vendas do dia.

In [9]:
import numpy as np

quantidades = np.array([5, 3, 2])
precos = np.array([100, 200, 50])

total = np.dot(quantidades,precos)
print(f'Valor total de R$ {total:.2f}')

Valor total de R$ 1200.00


# Guia de Introdução ao NumPy

NumPy, que significa Numerical Python, é uma biblioteca fundamental para a computação científica em Python. Ela fornece suporte para arrays e matrizes, além de funções matemáticas para operações com esses objetos. É, também, a base da biblioteca Pandas.


## Números aleatórios e estatística básica  

In [11]:
import numpy as np

rng = np.random.default_rng()
print(rng)

Generator(PCG64)


In [18]:
numero_aleatorio = rng.random() * 10
print(numero_aleatorio)

2.005818309437024


In [19]:
array_aleatorio = rng.random(3)
print(array_aleatorio)

[0.88496947 0.52065092 0.43035876]


 Vamos criar um cenário onde esses dados aleatórios podem ser úteis para uma análise de vendas.

Suponha que você seja um analista de vendas em uma empresa e queira entender melhor o desempenho das vendas de um produto específico. No entanto, você não tem acesso aos dados reais de vendas, então você decide gerar alguns dados de vendas aleatórios para realizar sua análise.

In [58]:
# Gere dados de vendas falsos para 30 dias
# Vamos supor que as vendas de um produto podem variar de 50 a 200 por dia
import numpy as np

rng = np.random.default_rng(seed=42)
dados_vendas = rng.integers(low=50, high=200, size=30)
print(dados_vendas)

[ 63 166 148 115 114 178  62 154  80  64 128 196 160 164 157 167 126  69
 175 117 125 105  77 189 167 146 110 173 131 116]


Agora, você pode usar esses dados para realizar várias análises. Por exemplo, você pode querer saber qual foi o dia com as vendas mais altas, as vendas mais baixas, ou a média de vendas durante o mês. Aqui está como você pode fazer isso:

In [63]:
print(np.max(dados_vendas))
print(np.min(dados_vendas))


196
62


In [65]:
# Posição do item max
print(np.argmax(dados_vendas) + 1)
# Posição do item min
print(np.argmin(dados_vendas) + 1)

12
7


In [None]:
media_vendas = np.mean(dados_vendas)

print(f'A média de vendas foi de {media_vendas}')

A média de vendas foi de 131.4


In [67]:
mediana_vendas = np.median(dados_vendas)

print(f'A mediana foi de {mediana_vendas}')

A mediana foi de 129.5


In [69]:
percentil_vendas = np.percentile(dados_vendas,50)

print(f'O percentil foi de {percentil_vendas}')

O percentil foi de 129.5


In [70]:
desviopadrao_vendas = np.std(dados_vendas)

print(f'O desvio padrão foi de {desviopadrao_vendas}')

O desvio padrão foi de 39.305300745149715


In [71]:
variancia_vendas = np.var(dados_vendas)

print(f'A variancia foi de {variancia_vendas}')

A variancia foi de 1544.9066666666665


Breve resumo e conceitos simplificados das funções estatísticas citadas:

1. Mediana:
A mediana é um valor que divide um conjunto de dados em duas partes iguais. Para encontrá-la, você deve organizar os dados em ordem crescente ou decrescente e escolher o valor do meio. Se houver um número ímpar de dados, a mediana será exatamente o valor central. Se houver um número par de dados, a mediana será a média dos dois valores do meio.

2. Percentil:
O percentil é uma medida estatística que indica a posição relativa de um dado dentro de um conjunto de dados. Ele informa a porcentagem de valores que estão abaixo desse dado. Por exemplo, o percentil 50 (também conhecido como mediana) divide os dados em duas partes iguais, com 50% dos valores abaixo dele e 50% acima.

3. Desvio padrão:
O desvio padrão é uma medida que indica o quão dispersos os valores de um conjunto de dados estão em relação à média. Ele mostra a variabilidade dos dados em relação ao valor médio. Um desvio padrão maior indica que os dados estão mais espalhados, enquanto um desvio padrão menor indica que os dados estão mais próximos da média.

4. Variância:
A variância é outra medida de dispersão que indica o quão distantes os valores de um conjunto de dados estão da média. Ela é calculada como a média dos quadrados das diferenças entre cada valor e a média. A variância fornece uma medida da dispersão total dos dados, independentemente de serem maiores ou menores que a média.

Essas medidas são amplamente utilizadas na estatística para resumir e analisar conjuntos de dados. Elas fornecem informações valiosas sobre a distribuição, a variabilidade e a posição dos dados, permitindo uma compreensão mais completa dos mesmos.

## Filtros e np.where()

A função `np.where()` é muito útil para fazer uma seleção condicional de elementos de um array. Por exemplo, em uma empresa, você pode querer identificar quais funcionários têm salários acima da média.

In [72]:
import numpy as np

# Salários dos funcionários
salarios = np.array([3000, 3500, 4000, 2000, 4500, 4000, 5000])

# Calcular a média salarial
media_salarial = np.mean(salarios)

print(media_salarial)

3714.285714285714


In [75]:
# Identificar funcionários com salários acima da média
funcionarios_acima_media = np.where(salarios > media_salarial)
print(funcionarios_acima_media)
print(salarios[funcionarios_acima_media])

# Fazendo direto para achar os valores
print(salarios[salarios > media_salarial])

(array([2, 4, 5, 6], dtype=int64),)
[4000 4500 4000 5000]
[4000 4500 4000 5000]


In [76]:
print(np.where(salarios > media_salarial,"acima da média","abaixo da média"))

['abaixo da média' 'abaixo da média' 'acima da média' 'abaixo da média'
 'acima da média' 'acima da média' 'acima da média']


In [82]:
# dar bônus de 10% para os funcionários com salários abaixo da média
salario_bonus = np.where(salarios < media_salarial,salarios * 1.1, salarios)
print(salarios)
print(salario_bonus)

[3000 3500 4000 2000 4500 4000 5000]
[3300. 3850. 4000. 2200. 4500. 4000. 5000.]


In [89]:
# filtrar os salários entre 3000 e 4500 com where
salarios_entre = np.where((salarios <= 4500) & (salarios >= 3000), salarios * 1.05, salarios)
print(salarios)
print(salarios_entre)

[3000 3500 4000 2000 4500 4000 5000]
[3150. 3675. 4200. 2000. 4725. 4200. 5000.]


In [94]:
# filtrar os salários abaixo de 3000 ou acima de 4500 com where
salarios_ajustados = np.where((salarios_entre < 3000) | (salarios_entre > 4500))
print(salarios_ajustados)

(array([3, 4, 6], dtype=int64),)


In [93]:
salarios_ajustados = np.where((salarios_entre < 3000) | (salarios_entre > 4500), salarios_entre* 1.1, salarios_entre)
print(salarios_ajustados)

[3150.  3675.  4200.  2200.  5197.5 4200.  5500. ]


## Exercício

Você é um analista de RH e tem os salários de todos os funcionários da sua empresa em um array NumPy. Seu trabalho é identificar quantos funcionários ganham acima da média. Use o seguinte array para sua análise: `salarios = np.array([3000, 2500, 3500, 4000, 2000, 4500, 3000, 3800, 4800])`.

In [None]:
import numpy as np

salarios = np.array([3000, 2500, 3500, 4000, 2000, 4500, 3000, 3800, 4800])

media_salarial = np.mean(salarios)
print(media_salarial)

acima_media = np.where(salarios > media_salarial)
print(acima_media)

print(salarios[salarios > media_salarial])

print(salarios > media_salarial)
print(np.sum(salarios > media_salarial))

print(len(salarios[salarios > media_salarial]))

3455.5555555555557
(array([2, 3, 5, 7, 8], dtype=int64),)
[3500 4000 4500 3800 4800]
[False False  True  True False  True False  True  True]
5
5


In [8]:
print(np.count_nonzero(salarios > media_salarial))

5


In [9]:
print(np.unique(salarios > media_salarial))

[False  True]


In [10]:
print(np.unique(salarios > media_salarial, return_counts=True))

(array([False,  True]), array([4, 5], dtype=int64))


In [11]:
valores_unicos, contagem = np.unique(salarios > media_salarial, return_counts=True)
print(valores_unicos)
print(contagem)

[False  True]
[4 5]


In [12]:
rng = np.random.default_rng(seed=42)

salarios_gerados = rng.integers(low=np.min(salarios), high=np.max(salarios),size=20)
print(salarios_gerados)

[2249 4167 3832 3228 3212 4404 2240 3952 2564 2263 3474 4731 4060 4131
 4008 4200 3437 2358 4351 3261]


In [13]:
# considerando o high, precisa colocar o endpoint=True
rng = np.random.default_rng(seed=42)

salarios_gerados = rng.integers(low=np.min(salarios), high=np.max(salarios),size=20, endpoint=True)
print(salarios_gerados)

[2249 4167 3833 3229 3212 4404 2240 3953 2564 2263 3474 4732 4060 4131
 4009 4201 3437 2358 4352 3261]


In [14]:
print(np.mean(salarios_gerados))

3506.45


In [15]:
print(salarios_gerados.min())
print(salarios_gerados.max())
print(salarios_gerados.mean())

2240
4732
3506.45


## Exercício

Você é um engenheiro de produção e tem os tempos de ciclo (em minutos) de uma linha de produção em um array NumPy. Seu trabalho é identificar quaisquer tempos de ciclo que estão dois desvios padrão acima ou abaixo da média. Use o seguinte array para sua análise: `tempos_ciclo = np.array([5.5, 5.7, 5.9, 6.0, 5.8, 5.6, 5.7, 7.2, 4.8])`. 

In [1]:
import numpy as np

tempos_ciclo = np.array([5.5, 5.7, 5.9, 6.0, 5.8, 5.6, 5.7, 7.2, 4.8])
media = np.mean(tempos_ciclo) 
print(media)

5.8


In [2]:
desvio_padrao = np.std(tempos_ciclo)
print(desvio_padrao)

0.592546294487706


In [4]:
condicao = tempos_ciclo > 5
print(np.where(condicao))

(array([0, 1, 2, 3, 4, 5, 6, 7], dtype=int64),)


In [5]:
condicao = (tempos_ciclo > media + 2* desvio_padrao) | (tempos_ciclo < media - 2 * desvio_padrao)
anomalias = np.where(condicao)
print(anomalias)

(array([7], dtype=int64),)


In [6]:
print(tempos_ciclo[anomalias])

[7.2]


In [7]:
print(tempos_ciclo[condicao])

[7.2]
