# Aula 02 - Numpy

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/2560px-NumPy_logo_2020.svg.png" alt="Alternative text" />

____

## **Contextualização:**

Imagina que você precisa estudar dados de preço plano de saúde de diferentes grupos etários ao longo de um período de tempo.

Você recebeu a tarefa de analisar os valores médios das faixas etárias (infância, adolescência, juventude, terceira idade) com os seguintes dados:

* Valores das médias anuais para a infância na última década (2013-2022): [80.29, 136.34, 222.57, 232.36, 223.91, 221.31, 165.1, 165.61, 82.17, 158.27]
* Valores das médias anuais para a adolescência na última década: [211.82, 349.92, 304.53, 208.8, 262.62, 250.55, 363.44, 138.23, 173.94, 138.16]
* Valores das médias anuais para a juventude na última década: [417.59, 565.65, 189.64, 279.04, 572.94, 199.32, 579.69, 568.64, 399.83, 511.09]
* Valores das médias anuais para a terceira idade: [686.64, 499.16, 848.05, 390.63, 879.84, 520.33, 796.55, 500.86, 416.4, 784.88]




In [0]:
#Lista da infância:
lista_inf = [80.29, 136.34, 222.57, 232.36, 223.91, 221.31, 165.1, 165.61, 82.17, 158.27]
#Lista da adolescência
lista_ado = [211.82, 349.92, 304.53, 208.8, 262.62, 250.55, 363.44, 138.23, 173.94, 138.16]
#Lista da juventude
lista_juv = [417.59, 565.65, 189.64, 279.04, 572.94, 199.32, 579.69, 568.64, 399.83, 511.09]
#Lista da terceira idade
lista_ter = [686.64, 499.16, 848.05, 390.63, 879.84, 520.33, 796.55, 500.86, 416.4, 784.88]

In [0]:
#Calculando a média anual para cada grupo
media_inf = sum(lista_inf)/len(lista_inf)
print(f'A média do plano de saúde para a infância na última década é: {round(media_inf,2)}.')
media_ado = sum(lista_ado)/len(lista_ado)
print(f'A média do plano de saúde para a adolescência na última década é: {round(media_ado,2)}.')
media_juv = sum(lista_juv)/len(lista_juv)
print(f'A média do plano de saúde para a juventude na última década é: {round(media_juv,2)}.')
media_ter = sum(lista_ter)/len(lista_ter)
print(f'A média do plano de saúde para a terceira idade na última década é: {round(media_ter,2)}.')

## O que é numpy?

A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e análise de dados.

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

[Guia rápido de uso da biblioteca](https://numpy.org/devdocs/user/quickstart.html)

[Guia para iniciantes](https://numpy.org/devdocs/user/absolute_beginners.html)

____

### **Qual a diferença entre um numpy array e uma lista?**

**numpy array:** armazena somente um tipo de dado (homogêneo), ocupando menos memória. É pensado para maior eficiência de cálculo.

**lista:** permite armazenar dados de vários tipos.

Vamos relembrar como definimos uma lista:

In [0]:
lista = ['Unimed', 1108, 3.14, True, [2,4], (1,5), {'Turma Unimed':1108}]

In [0]:
lista

In [0]:
#Como adicionamos valores à lista
lista.append({'Professores':['Allan','Romero']})

In [0]:
lista

Como então criamos um objeto **numpy array?**

Primeiro, precisamos importar a biblioteca numpy.

In [0]:
#Importando a biblioteca numpy
import numpy as np

#### **Método np.array():**

Podemos criar um array a partir de uma lista, usando o método **np.array()**.

In [0]:
#Criando uma lista
lista = [1,2,3,4,5]
array = np.array(lista)

In [0]:
lista

In [0]:
array

In [0]:
print(lista)

In [0]:
print(array)

In [0]:
type(lista)

In [0]:
type(array)

Um array não precisa ser necessariamente 1 vetor (de uma dimensão). Podemos criar arrays de mais de uma dimensão. Por exemplo, uma matriz 3x2.

In [0]:
lista = [[1,2],[3,4],[5,6]]
array = np.array(lista)

In [0]:
lista

In [0]:
array

Ou ainda, usando o **método reshape:**

In [0]:
lista = [1,2,3,4,5,6]
matriz = np.array(lista).reshape(3,2)

In [0]:
matriz

**Obs.:** Veremos esse método com mais detalhes na próxima aula.

### **Outras formas de iniciar arrays:**

**Array de zeros:**

In [0]:
#Criando um array de números zeros
np.zeros(10)

**Arrays de uns:**

In [0]:
#Criando um array de números um
np.ones(10)

**Arrays a partir do range:**

In [0]:
np.array(list(range(0,21,2)))

### **Método np.arange:**

Conseguimos fazer o que fizemos anteriormente com o range.

In [0]:
#Criando um array de números sequenciais
np.arange(5)

In [0]:
#Criando um array de 1 a 19 de 2 em 2
np.arange(0,21,2)

O **padrão** é como no **range:**
* (início, fim, passo);
* Sem início: começa no zero;
* Sem passo: passo será um.

## **Método np.linspace:**

É um método usado para criar um array com valores igualmente espaçados dentro de um intervalo especificado.

**Utilidade:** Desejamos gerar uma sequência de números com uma quantidade específica de elementos entre um valor inicial e final:

**Sintaxe:**

```(python)
np.linspace(start,stop,num=50,endpint=True,retstep=False,dtype=None)
```


* start: Valor inicial da sequência.
* stop: Valor final da sequência.
* num: Número de elementos a serem gerados. Por padrão, é igual a 50.
* endpoint: Se True, o valor final (stop) é incluído no array resultante. Por padrão, é True.
* retstep: Se True, retorna o espaçamento entre os valores gerados.
* dtype: Tipo de dados dos elementos no array.

Geralmente usamos: start, stop e num.

In [0]:
#Gerar uma sequência de 20 números igualmente espaçados entre 30 e 100
start = 30
stop = 100
num = 20
np.linspace(start=start,stop=stop,num=num)

### **Método random:**

<img src = "https://numpy.org/devdocs/_images/np_ones_zeros_random.png" />

Ele oferece várias funções para geração de números aleatórios e é bastante útil para aplicações, desde simulações estatísticas até a criação de conjuntos de dados fictícios para testes.

In [0]:
#Gerar dados com distribuição uniforme entre 0 e 1:
np.random.rand(5)

In [0]:
import seaborn as sns

Plotando o gráfico da distribuição uniforme:

<img src = "https://www.uv.es/ceaces/base/modelos%20de%20probabilidad/Image12.gif" />

In [0]:
x = np.random.rand(1000000)
sns.histplot(x)

In [0]:
#Gerar uma matriz 3x3
np.random.rand(3,3)

In [0]:
#Gerar um número inteiro aleatório dentro de um intervalo especificado
np.random.randint(1,11)

Dentro deste módulo, há vários geradores de número aleatórios para fins mais especificos. No exemplo abaixo, trabalhamos com a função *randint*, que gera somente números inteiros no intervalo especificado.

In [0]:
#Gerar um vetor aleatório de tamanho 10, de 0 até 100
np.random.randint(0,101,10)

Também conseguimos trabalhar com **distribuições estatísticas de probabilidade**. Vejamos, por exemplo, como é possível gerar números aleatórios que obedeçam a uma distribuição normal.

<img src = "https://www.allaboutcircuits.com/uploads/articles/an-introduction-to-the-normal-distribution-in-electrical-engineerin-rk-aac-image1.jpg" />

In [0]:
#Gerar um array de valores aleatórios de distribuição normal
np.random.randn(10)

In [0]:
#Gerar uma matriz 2x2 de valores aleatórios de distribuição normal
np.random.randn(2,2)

Podemos plotar o gráfico de uma distribuição normal, usando a biblioteca seaborn:

In [0]:
# plotando distribuição normal com o seaborn
x = np.random.randn(1000000)
sns.histplot(x)

Podemos ainda gerar uma amostra aleatória a partir de uma matriz ou sequência usando o **random.choice()**:

In [0]:
#Gerar uma amostra aleatória a partir de um objeto aleatório
lista_inf = [80.29, 136.34, 222.57, 232.36, 223.91, 221.31, 165.1, 165.61, 82.17, 158.27]
random_sample = np.random.choice(lista_inf,size=3,replace=False)
random_sample

Podemos também definir uma **semente (seed)** para gerar números pseudoaleatórios.

**Utilidade:** Permite reproduzir a mesma sequência de números aleatórios em diferentes execuções do código, desde que a mesma semente seja usada.

In [0]:
#Definir a semente para garantir a mesma sequência
np.random.seed(42)
#Gerar uma sequência aleatória
random_sample = np.random.choice(lista_inf,size=3,replace=False)
random_sample

**Obs.:** Se eu rodar de novo sem o seed?

In [0]:
random_sample = np.random.choice(lista_inf,size=3,replace=False)
random_sample

É definido apenas para aquela célula.

## **Indexação de Arrays:**

É possível acessar elementos individuais dos arrays pelos **índices**, da mesma forma que fazemos com listas.

In [0]:
#Criando um array sequencial de 1 a 20
array = np.arange(1,21)
array

In [0]:
#Acessando elementos individuais
array[0]

In [0]:
#Acessando índices negativos
array[-1]

In [0]:
#Fazendo slicing
array[1:3]

In [0]:
#Slicing sem início
array[:3]

In [0]:
#Slicing sem fim
array[-3:]

<img src = "https://numpy.org/devdocs/_images/np_indexing.png" />

**E como funciona para matrizes?**

In [0]:
# Criar uma matriz de exemplo
matriz = np.array(list(range(1,10))).reshape(3,3)
matriz

**Slicing por linhas e colunas:** Para selecionar uma parte específica da matriz, você pode usar a notação:

```[linha_inicio:linha_fim, coluna_inicio:coluna_fim]```

In [0]:
# Selecionar todas as linhas até a segunda e todas as colunas até a segunda
matriz[:2,:2]

**Selecionando uma linha ou coluna específica:** Para selecionar uma linha ou coluna específica, use apenas um índice.

In [0]:
# Selecionar a segunda coluna
matriz[:,1]

In [0]:
# Selecionar a segunda linha
matriz[1,:]

**Slicing com passo:** Você pode especificar um passo para avançar de maneira diferente pelos elementos da matriz:

In [0]:
# Selecionar cada segundo elemento da primeira linha
matriz[0,::2]

**Indexação usando arrays de índices:** Você pode indexar matrizes NumPy usando arrays de índices para selecionar elementos específicos:

In [0]:
#Pegar as 2 primeiras linhas
matriz[np.array([0,2]),:]

Temos aqui uma submatriz contendo as linhas 0 e 2 da matriz original

## **Operações simples:**


As operações com arrays no NumPy oferecem uma forma eficiente de realizar operações matemáticas e manipulações de dados em arrays multidimensionais. Essas operações são vetorizadas, o que significa que são aplicadas a todos os elementos do array sem a necessidade de loops explícitos, tornando o código mais conciso e rápido.

### **Operações matemáticas:**

____
Vamos relembrar primeiro com uma lista:

In [0]:
import numpy as np

In [0]:
#Criando duas listas:
lista_1 = [1,2,3]
lista_2 = [4,5,6]

In [0]:
print(lista_1)
print(lista_2)

In [0]:
#Multiplicando uma lista por um número
lista_1*3

In [0]:
#Somando uma lista com um número
lista_1+2

São 2 objetos diferentes e só conseguimos somar listas com listas

In [0]:
#Acrescentando um número a uma lista (ou soma)
lista_1+[2]

In [0]:
#somando a lista_1 e lista_2
lista_1+lista_2

E se eu quiser fazer as operações (+, -, *, /, **) entre os elementos das listas?

In [0]:
#Criar uma lista que é o quadrado da lista_1
lista_quadrado = []
for elemento in lista_1:
    lista_quadrado.append(elemento**2)
lista_quadrado

In [0]:
#Podemos ainda fazer com o list comprehension
lista_quadrado = [elemento**2 for elemento in lista_1]
lista_quadrado

Agora veremos o poder do numpy:

In [0]:
#Vamos criar um array com a lista_1
array_1 = np.array(lista_1)

In [0]:
array_1

In [0]:
#Somando o array com o número 2
array_1+2

In [0]:
#Somando o array_1 com o array_2
array_2 = np.array(lista_2)
array_1+array_2

In [0]:
#Multiplicando um array por um número
array_1*2

In [0]:
#Multiplicando um array pelo outro
array_1*array_2

In [0]:
#Elevando um array ao quadrado
array_1**2

Podemos fazer isso usando as funções apresentadas anteriormente também:

In [0]:
#Criando um array de 5 com a função ones
np.ones(10)*5

In [0]:
#Criando um array de 5 com a função zeros
np.zeros(10)+5

In [0]:
#Dividir um array por um número
array_1/2

In [0]:
#Dividir um array pelo outro
array_1/array_2

**Obs.1:** As operações elementos a elementos tem que respeitar a dimensão dos arrays:

In [0]:
#Criar array 3 (2 elementos)
array_3 = np.array([1,2])
#Somar array_1 com array_3
array_1+array_3

### **Operações de comparação e lógica:**

O NumPy permite realizar operações de comparação (<, <=, >, >=, ==, !=) e operações lógicas (&, |, ~) entre arrays, criando arrays booleanos como resultado.

In [0]:
array_1

In [0]:
#Operação de comparação
array_1>2

In [0]:
array_2>2

In [0]:
#Operações de lógica
resultado_logico =(array_1>2) | (array_2>2)
resultado_logico

## Funções matemáticas universais

O NumPy fornece funções matemáticas universais (np.sin(), np.cos(), np.exp(), np.sqrt(), etc.) que podem ser aplicadas a arrays NumPy, realizando a operação especificada em cada elemento do array.

Muitos destes serão herdados pelo pandas, então os usaremos bastante no futuro próximo!

In [0]:
#ver o array_1
array_1

In [0]:
# Aplicar a função de exponenciação a todos os elementos
np.exp(array_1)

In [0]:
# Aplicar a função de seno a todos os elementos
np.sin(array_1)

In [0]:
# Aplicar a função de cosseno a todos os elementos
np.cos(array_1)

In [0]:
# Aplicar a função da raiz quadrada a todos os elementos
np.sqrt(array_1)

### **Operações de redução:**

O NumPy oferece operações de redução, como soma (np.sum()), média (np.mean()), máximo (np.max()), mínimo (np.min()), entre outras. Essas operações agregam os valores do array em um único resultado.

In [0]:
# fixando a seed: números aleatórios reproduzíveis, com np.random.seed()
np.random.seed(42)
rand = np.random.randint(0,100,10)
rand


In [0]:
# maior valor
rand.max()

In [0]:
# indice do elemento máximo
rand.argmax()

In [0]:
# menor valor
rand.min()

In [0]:
# indice do elemento minimo
rand.argmin()

In [0]:
# soma de todos os items
rand.sum()

In [0]:
# media dos elementos
rand.mean()

### Outros métodos úteis

O numpy é uma ferramenta poderosa para lidar com cálculos numéricos e é base para o pandas, de modo que conseguimos manipular os dados de forma eficiente e concisa em arrays multidimensionais.

In [0]:
# desvio padrão
rand.std()

In [0]:
# ordenar a lista
# por padrão, essa operação ocorre "inplace"
# ou seja, ela ordena o objeto original, e não retorna nada
rand.sort()

In [0]:
rand

In [0]:
# Trocando o tipo dos dados nas lista com o .astype()
rand.astype(float)

## Para praticar (Hora boa)!!

Vamos dividi-los em grupo para resolução dos seguintes exercícios, usando numpy.

**1.** Escreva uma função que receba dois argumentos: um número qualquer de arrays (de mesmo tamanho) em numpy; e o número de elementos de cada array. A função deve retornar um escalar que representa a soma total de todos estes arrays. Inclua na função uma condição de verificação em que, caso haja um array de tamanho distinto dos demais, um erro seja retornado.

In [0]:
import numpy as np

In [0]:
def soma_total(*arrays,num):
    # Verifica se todos os arrays têm o mesmo tamanho
    tamanho = num
    for arr in arrays:
        if len(arr) != tamanho:
            raise ValueError("Os arrays não têm o mesmo tamanho!")

    # Soma total dos elementos dos arrays
    soma = np.sum(np.array(arrays))

    return soma

# Exemplo de uso da função
array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])
array3 = np.array([7, 8, 9])

resultado = soma_total(array1, array2, array3,num=3)
print(resultado)

**2.** Em estatística, a normalização de uma distribuição de dados pode ser feita subtraindo o valor médio da distribuição de cada valor do conjunto de dados, dividindo o resultado pelo desvio-padrão da distribuição.

Escreva uma função que normalize os dados recebidos por um array numpy qualquer, conforme descrito anteriormente.

In [0]:
def func_norm(array):
    media = array.mean()
    dvp = array.std()
    return (array - media)/dvp
#Criando um array
rand = np.random.rand(20)
print(rand)
resultado = func_norm(rand)
print(resultado)

**3.** Escreva uma função em numpy que receba um array contendo notas de uma turma de 100 estudantes. Considere que a nota de aprovação da turma é 5.0. A função deve retornar, em um array numpy, nesta ordem:
- a média e o desvio-padrão das notas da turma;
- o número de notas maiores que 7.0;
- o número de reprovações da turma;
- a menor nota da turma;
- a maior nota da turma.

In [0]:
def info_turma(notas):
    media = notas.mean()
    dvp = notas.std()
    maior_que_sete = (notas > 7).sum()
    num_repro = (notas < 5).sum()
    menor_nota = notas.min()
    maior_nota = notas.max()
    return np.array([media,dvp,maior_que_sete,
                     num_repro,menor_nota,maior_nota])
#Gerar um array com notas entre 0 a 10 de 100 alunos
np.random.seed(42)
notas_turma = np.round(np.random.uniform(0,10,100),2)
info_turma(notas_turma)

**4.** Em Geometria Analítica, um **vetor** é uma quantidade que pode ser definida por um énuplo (uma sequência ordenada de *n* elementos) em que cada elemento representa a intensidade do vetor na direção especificada pela i-ésima componente desta sequência.

Quando pensamos em duas dimensões, por exemplo, o vetor $R = (b,a)$ define, geometricamente, a entidade representada na figura abaixo, com componentes nos eixos x e y usuais.

<img src = "https://static.todamateria.com.br/upload/im/ag/image-721.jpg?auto_optimize=low" />

O **módulo** deste vetor, também chamado de intensidade, está geometricamente relacionado ao seu comprimento, e pode ser calculado diretamente pelas suas componentes, por meio de uma operação conhecida como **produto escalar** do vetor com ele mesmo. O módulo quadrático é expresso, desta forma, por:

$|A|^2 = \vec{A} \cdot \vec{A}$

Por outro lado, o produto escalar entre dois vetores $A = (a_{x}, a_{y})$ e $B = (b_{x}, b_{y})$ é dado por:

$\vec{A} \cdot \vec{B} = a_{x} \times b_{x} + a_{y} \times b_{y}$ (e esta definição vale para qualquer que seja a dimensão do vetor).

O módulo quadrático de um vetor é, portanto:

$|A|² = a_{x}^2 + b_{x}^2$.

In [0]:
def modulo_array(array):
    #Calcular o módulo desse array
    modulo = np.sqrt(np.sum(array**2))
    return modulo
#Exemplo de uso da função
array = np.array([[1,2,3],[4,5,6]])
modulo_array(array)