# Aula 02 - Numpy

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/2560px-NumPy_logo_2020.svg.png" alt="Alternative text" />

____

## **Contextualização:**

Imagina que você precisa estudar dados de preço plano de saúde de diferentes grupos etários ao longo de um período de tempo.

Você recebeu a tarefa de analisar os valores médios das faixas etárias (infância, adolescência, juventude, terceira idade) com os seguintes dados:

* Valores das médias anuais para a infância na última década (2013-2022): [80.29, 136.34, 222.57, 232.36, 223.91, 221.31, 165.1, 165.61, 82.17, 158.27]
* Valores das médias anuais para a adolescência na última década: [211.82, 349.92, 304.53, 208.8, 262.62, 250.55, 363.44, 138.23, 173.94, 138.16]
* Valores das médias anuais para a juventude na última década: [417.59, 565.65, 189.64, 279.04, 572.94, 199.32, 579.69, 568.64, 399.83, 511.09]
* Valores das médias anuais para a terceira idade: [686.64, 499.16, 848.05, 390.63, 879.84, 520.33, 796.55, 500.86, 416.4, 784.88]




In [None]:
#Lista da infância:
lista_inf = [80.29, 136.34, 222.57, 232.36, 223.91, 221.31, 165.1, 165.61, 82.17, 158.27]
#Lista da adolescência
lista_ado = [211.82, 349.92, 304.53, 208.8, 262.62, 250.55, 363.44, 138.23, 173.94, 138.16]
#Lista da juventude
lista_juv = [417.59, 565.65, 189.64, 279.04, 572.94, 199.32, 579.69, 568.64, 399.83, 511.09]
#Lista da terceira idade
lista_ter = [686.64, 499.16, 848.05, 390.63, 879.84, 520.33, 796.55, 500.86, 416.4, 784.88]

In [None]:
#Calculando a média anual para cada grupo


## O que é numpy?

A biblioteca **NumPy** _(Numerical Python)_ proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e análise de dados.

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

[Guia rápido de uso da biblioteca](https://numpy.org/devdocs/user/quickstart.html)

[Guia para iniciantes](https://numpy.org/devdocs/user/absolute_beginners.html)

____

### **Qual a diferença entre um numpy array e uma lista?**

**numpy array:** armazena somente um tipo de dado (homogêneo), ocupando menos memória. É pensado para maior eficiência de cálculo.

**lista:** permite armazenar dados de vários tipos.

Vamos relembrar como definimos uma lista:

In [None]:
#Como adicionamos valores à lista


Como então criamos um objeto **numpy array?**

Primeiro, precisamos importar a biblioteca numpy.

In [None]:
#Importando a biblioteca numpy
import numpy as np

#### **Método np.array():**

Podemos criar um array a partir de uma lista, usando o método **np.array()**.

In [None]:
#Criando uma lista


Um array não precisa ser necessariamente 1 vetor (de uma dimensão). Podemos criar arrays de mais de uma dimensão. Por exemplo, uma matriz 3x2.

Ou ainda, usando o **método reshape:**

**Obs.:** Veremos esse método com mais detalhes na próxima aula.

### **Outras formas de iniciar arrays:**

**Array de zeros:**

**Arrays de uns:**

In [None]:
np.ones(10)

**Arrays a partir do range:**

### **Método np.arange:**

Conseguimos fazer o que fizemos anteriormente com o range.

In [None]:
#Criando um array de números sequenciais


In [None]:
#Criando um array de 1 a 19 de 2 em 2


O **padrão** é como no **range:**
* (início, fim, passo);
* Sem início: começa no zero;
* Sem passo: passo será um.

## **Método np.linspace:**

É um método usado para criar um array com valores igualmente espaçados dentro de um intervalo especificado.

**Utilidade:** Desejamos gerar uma sequência de números com uma quantidade específica de elementos entre um valor inicial e final:

**Sintaxe:**

```(python)
np.linspace(start,stop,num=50,endpint=True,retstep=False,dtype=None)
```


* start: Valor inicial da sequência.
* stop: Valor final da sequência.
* num: Número de elementos a serem gerados. Por padrão, é igual a 50.
* endpoint: Se True, o valor final (stop) é incluído no array resultante. Por padrão, é True.
* retstep: Se True, retorna o espaçamento entre os valores gerados.
* dtype: Tipo de dados dos elementos no array.

Geralmente usamos: start, stop e num.

In [None]:
#Gerar uma sequência de 20 números igualmente espaçados entre 30 e 100


### **Método random:**

<img src = "https://numpy.org/devdocs/_images/np_ones_zeros_random.png" />

Ele oferece várias funções para geração de números aleatórios e é bastante útil para aplicações, desde simulações estatísticas até a criação de conjuntos de dados fictícios para testes.

In [None]:
#Gerar dados com distribuição uniforme entre 0 e 1:


In [None]:
import seaborn as sns

Plotando o gráfico da distribuição uniforme:

<img src = "https://www.uv.es/ceaces/base/modelos%20de%20probabilidad/Image12.gif" />

In [None]:
#Gerar uma matriz 3x3


In [None]:
#Gerar um número inteiro aleatório dentro de um intervalo especificado


Dentro deste módulo, há vários geradores de número aleatórios para fins mais especificos. No exemplo abaixo, trabalhamos com a função *randint*, que gera somente números inteiros no intervalo especificado.

In [None]:
#Gerar um vetor aleatório de tamanho 10, de 0 até 100


Também conseguimos trabalhar com **distribuições estatísticas de probabilidade**. Vejamos, por exemplo, como é possível gerar números aleatórios que obedeçam a uma distribuição normal.

<img src = "https://www.allaboutcircuits.com/uploads/articles/an-introduction-to-the-normal-distribution-in-electrical-engineerin-rk-aac-image1.jpg" />

In [None]:
#Gerar um array de valores aleatórios de distribuição normal


In [None]:
#Gerar uma matriz 2x2 de valores aleatórios de distribuição normal


Podemos plotar o gráfico de uma distribuição normal, usando a biblioteca seaborn:

In [None]:
# plotando distribuição normal com o seaborn


Podemos ainda gerar uma amostra aleatória a partir de uma matriz ou sequência usando o **random.choice()**:

In [None]:
#Gerar uma amostra aleatória a partir de um objeto aleatório


Podemos também definir uma **semente (seed)** para gerar números pseudoaleatórios.

**Utilidade:** Permite reproduzir a mesma sequência de números aleatórios em diferentes execuções do código, desde que a mesma semente seja usada.

In [None]:
#Definir a semente para garantir a mesma sequência

#Gerar uma sequência aleatória


**Obs.:** Se eu rodar de novo sem o seed?

É definido apenas para aquela célula.

## **Indexação de Arrays:**

É possível acessar elementos individuais dos arrays pelos **índices**, da mesma forma que fazemos com listas.

In [None]:
#Criando um array sequencial de 1 a 20


In [None]:
#Acessando elementos individuais


In [None]:
#Acessando índices negativos


In [None]:
#Fazendo slicing


In [None]:
#Slicing sem início


In [None]:
#Slicing sem fim


<img src = "https://numpy.org/devdocs/_images/np_indexing.png" />

**E como funciona para matrizes?**

In [None]:
# Criar uma matriz de exemplo


**Slicing por linhas e colunas:** Para selecionar uma parte específica da matriz, você pode usar a notação:

```[linha_inicio:linha_fim, coluna_inicio:coluna_fim]```

In [None]:
# Selecionar todas as linhas até a segunda e todas as colunas até a segunda


**Selecionando uma linha ou coluna específica:** Para selecionar uma linha ou coluna específica, use apenas um índice.

In [None]:
# Selecionar a segunda coluna


In [None]:
# Selecionar a segunda linha


**Slicing com passo:** Você pode especificar um passo para avançar de maneira diferente pelos elementos da matriz:

In [None]:
# Selecionar cada segundo elemento da primeira linha


**Indexação usando arrays de índices:** Você pode indexar matrizes NumPy usando arrays de índices para selecionar elementos específicos:

Temos aqui uma submatriz contendo as linhas 0 e 2 da matriz original

## **Operações simples:**


As operações com arrays no NumPy oferecem uma forma eficiente de realizar operações matemáticas e manipulações de dados em arrays multidimensionais. Essas operações são vetorizadas, o que significa que são aplicadas a todos os elementos do array sem a necessidade de loops explícitos, tornando o código mais conciso e rápido.

### **Operações matemáticas:**

____
Vamos relembrar primeiro com uma lista:

In [None]:
#Criando duas listas:


In [None]:
#Multiplicando uma lista por um número


In [None]:
#Somando uma lista com um número


São 2 objetos diferentes e só conseguimos somar listas com listas

In [None]:
#Acrescentando um número a uma lista (ou soma)


In [None]:
#somando a lista_1 e lista_2


E se eu quiser fazer as operações (+, -, *, /, **) entre os elementos das listas?

In [None]:
#Criar uma lista que é o quadrado da lista_1


In [None]:
#Podemos ainda fazer com o list comprehension


Agora veremos o poder do numpy:

In [None]:
#Vamos criar um array com a lista_1


In [None]:
#Somando o array com o número 2


In [None]:
#Somando o array_1 com o array_2


In [None]:
#Multiplicando um array por um número


In [None]:
#Multiplicando um array pelo outro


In [None]:
#Elevando um array ao quadrado


Podemos fazer isso usando as funções apresentadas anteriormente também:

In [None]:
#Criando um array de 5 com a função ones


In [None]:
#Criando um array de 5 com a função zeros


In [None]:
#Dividir um array por um número


In [None]:
#Dividir um array pelo outro


**Obs.1:** As operações elementos a elementos tem que respeitar a dimensão dos arrays:

In [None]:
#Criar array 3 (2 elementos)

#Somar array_1 com array_3


### **Operações de comparação e lógica:**

O NumPy permite realizar operações de comparação (<, <=, >, >=, ==, !=) e operações lógicas (&, |, ~) entre arrays, criando arrays booleanos como resultado.

In [None]:
#Operação de comparação


In [None]:
#Operações de lógica


## Funções matemáticas universais

O NumPy fornece funções matemáticas universais (np.sin(), np.cos(), np.exp(), np.sqrt(), etc.) que podem ser aplicadas a arrays NumPy, realizando a operação especificada em cada elemento do array.

Muitos destes serão herdados pelo pandas, então os usaremos bastante no futuro próximo!

In [None]:
#ver o array_1


In [None]:
# Aplicar a função de exponenciação a todos os elementos


In [None]:
# Aplicar a função de seno a todos os elementos


In [None]:
# Aplicar a função de cosseno a todos os elementos


In [None]:
# Aplicar a função da raiz quadrada a todos os elementos


### **Operações de redução:**

O NumPy oferece operações de redução, como soma (np.sum()), média (np.mean()), máximo (np.max()), mínimo (np.min()), entre outras. Essas operações agregam os valores do array em um único resultado.

In [None]:
# fixando a seed: números aleatórios reproduzíveis, com np.random.seed()


In [None]:
# maior valor


In [None]:
# indice do elemento máximo


In [None]:
# menor valor


In [None]:
# indice do elemento minimo


In [None]:
# soma de todos os items


In [None]:
# media dos elementos


### Outros métodos úteis

O numpy é uma ferramenta poderosa para lidar com cálculos numéricos e é base para o pandas, de modo que conseguimos manipular os dados de forma eficiente e concisa em arrays multidimensionais.

In [None]:
# desvio padrão


In [None]:
# ordenar a lista
# por padrão, essa operação ocorre "inplace"
# ou seja, ela ordena o objeto original, e não retorna nada


In [None]:
# Trocando o tipo dos dados nas lista com o .astype()


## Para praticar (Hora boa)!!

Vamos dividi-los em grupo para resolução dos seguintes exercícios, usando numpy.

**1.** Escreva uma função que receba dois argumentos: um número qualquer de arrays (de mesmo tamanho) em numpy; e o número de elementos de cada array. A função deve retornar um escalar que representa a soma total de todos estes arrays. Inclua na função uma condição de verificação em que, caso haja um array de tamanho distinto dos demais, um erro seja retornado.

**2.** Em estatística, a normalização de uma distribuição de dados pode ser feita subtraindo o valor médio da distribuição de cada valor do conjunto de dados, dividindo o resultado pelo desvio-padrão da distribuição.

Escreva uma função que normalize os dados recebidos por um array numpy qualquer, conforme descrito anteriormente.

**3.** Escreva uma função em numpy que receba um array contendo notas de uma turma de 100 estudantes. Considere que a nota de aprovação da turma é 5.0. A função deve retornar, em um array numpy, nesta ordem:
- a média e o desvio-padrão das notas da turma;
- o número de notas maiores que 7.0;
- o número de reprovações da turma;
- a menor nota da turma;
- a maior nota da turma.

**4.** Em Geometria Analítica, um **vetor** é uma quantidade que pode ser definida por um énuplo (uma sequência ordenada de *n* elementos) em que cada elemento representa a intensidade do vetor na direção especificada pela i-ésima componente desta sequência.

Quando pensamos em duas dimensões, por exemplo, o vetor $R = (b,a)$ define, geometricamente, a entidade representada na figura abaixo, com componentes nos eixos x e y usuais.

<img src = "https://static.todamateria.com.br/upload/im/ag/image-721.jpg?auto_optimize=low" />

O **módulo** deste vetor, também chamado de intensidade, está geometricamente relacionado ao seu comprimento, e pode ser calculado diretamente pelas suas componentes, por meio de uma operação conhecida como **produto escalar** do vetor com ele mesmo. O módulo quadrático é expresso, desta forma, por:

$|A|^2 = \vec{A} \cdot \vec{A}$

Por outro lado, o produto escalar entre dois vetores $A = (a_{x}, a_{y})$ e $B = (b_{x}, b_{y})$ é dado por:

$\vec{A} \cdot \vec{B} = a_{x} \times b_{x} + a_{y} \times b_{y}$ (e esta definição vale para qualquer que seja a dimensão do vetor).

O módulo quadrático de um vetor é, portanto:

$|A|² = a_{x}^2 + b_{x}^2$.