# Aula 03 - NumPy (Parte II)

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/2560px-NumPy_logo_2020.svg.png" alt="Alternative text" />

[Guia rápido de uso da biblioteca](https://numpy.org/devdocs/user/quickstart.html)

[Guia para iniciantes](https://numpy.org/devdocs/user/absolute_beginners.html)

Na aula passada, vimos que:

- um **array** é o elemento básico por meio do qual a biblioteca *numpy* opera;
- este elemento **difere de uma lista**, por ser homogêneo e possibilitar cálculos de uma maneira altamente eficiente;
- a **indexação** de arrays é muito similar àquela de listas;
- a biblioteca *numpy* fornece ferramentas para gerar arrays baseados em distribuições estatísticas (como uniforme e normal) de maneira aleatória;
- existem diversos métodos que sumarizam alguamas propriedades dos vetores, como *.mean()*, *.std()*, entre outros.

Na aula de hoje, vamos explorar os conceitos de **filtros** e de **matrizes** com numpy.

___

#### Filtros (máscaras)

Uma das funções mais importantes do numpy é a possibilidade de construção de **filtros**, que também são chamados de **máscaras**

O objetivo dos filtros é **selecionar apenas os elementos de um array que satisfaçam determinada condição**

In [None]:
# definindo um array aleatoriamente
import numpy as np
arr = np.random.rand(20)
arr

array([0.80871259, 0.16134652, 0.55347553, 0.26900137, 0.90197188,
       0.06355048, 0.02206885, 0.82342372, 0.13533295, 0.25639517,
       0.94369673, 0.59299958, 0.91276365, 0.15018847, 0.42505178,
       0.58308974, 0.95497367, 0.98718327, 0.55111349, 0.12027837])

Ao usar um **operador lógico** juntamente com um array, o numpy **aplica a operação lógica a cada um dos elementos do array**, retornando um **array de bools** com o resultado de cada uma das operações lógicas:

In [None]:
# quais elementos do array são menores que 0.5?
arr < 0.5

array([False,  True, False,  True, False,  True,  True, False,  True,
        True, False, False, False,  True,  True, False, False, False,
       False,  True])

In [None]:
# Quantos elementos são maiores que 0.5?
(arr > 0.5)

array([ True, False,  True, False,  True, False, False,  True, False,
       False,  True,  True,  True, False, False,  True,  True,  True,
        True, False])

In [None]:
(arr > 0.5).size

20

In [None]:
(arr > 0.5).sum()

11

Uma vez criado o filtro, é possível **utilizá-lo como indexador do array**, para selecionar **apenas os elementos com indice correspondente a True no filtro**

In [None]:
arr

array([0.80871259, 0.16134652, 0.55347553, 0.26900137, 0.90197188,
       0.06355048, 0.02206885, 0.82342372, 0.13533295, 0.25639517,
       0.94369673, 0.59299958, 0.91276365, 0.15018847, 0.42505178,
       0.58308974, 0.95497367, 0.98718327, 0.55111349, 0.12027837])

In [None]:
# quero elementos do "arr" que satisfaçam uma dada condição (ser menor que 0.5)
arr[arr < 0.5]

array([0.16134652, 0.26900137, 0.06355048, 0.02206885, 0.13533295,
       0.25639517, 0.15018847, 0.42505178, 0.12027837])

In [None]:
# quero elementos do "arr" que satisfaçam uma dada condição (ser maior que 0.5)
arr[arr > 0.5]

array([0.80871259, 0.55347553, 0.90197188, 0.82342372, 0.94369673,
       0.59299958, 0.91276365, 0.58308974, 0.95497367, 0.98718327,
       0.55111349])

In [None]:
# quero elementos do "arr" que satisfaçam uma dada condição (ser igual a 0.5)
arr[arr == 0.5]

array([], dtype=float64)

Mais um exemplo...

In [None]:
# definindo um novo array aleatório de inteiros

ints = np.random.randint(0, 100, 20)
ints

array([52, 97, 72, 88, 44, 46, 90, 64, 18, 80, 15, 64, 15, 68, 81,  0, 63,
       31, 66, 85])

In [None]:
# filtrando apenas os pares
ints[ints % 2 == 0]

array([52, 72, 88, 44, 46, 90, 64, 18, 80, 64, 68,  0, 66])

In [None]:
# filtrando apenas os ímpares
ints[ints % 2 != 0]

array([97, 15, 15, 81, 63, 31, 85])

In [None]:
# filtrando apenas os ímpares
ints[~(ints % 2 == 0)]

array([97, 15, 15, 81, 63, 31, 85])

In [None]:
# quantidade de ímpáres
ints[~(ints % 2 == 0)].size

7

In [None]:
# soma dos ímpáres
ints[~(ints % 2 == 0)].sum()

387

[np.where](https://numpy.org/doc/stable/reference/generated/numpy.where.html)

In [None]:
ints

array([52, 97, 72, 88, 44, 46, 90, 64, 18, 80, 15, 64, 15, 68, 81,  0, 63,
       31, 66, 85])

In [None]:
# Filtro para ser par
np.where(ints % 2 == 0, ints, np.nan)

array([52., nan, 72., 88., 44., 46., 90., 64., 18., 80., nan, 64., nan,
       68., nan,  0., nan, nan, 66., nan])

In [None]:
a = 10
~ a > 1

False

Também é possível aplicar **filtros compostos**!

Pra fazer isso, nós fazems uma **composição lógica** entre os filtros (análogo ao "and" e ao "or")

No caso de arrays, usamos:

- "&" para "and"
- "|" para "or"
- "~" para "not"

In [None]:
# filtrar divisíveis por 2 e maiores que 50
(ints % 2 == 0) & (ints > 50)

array([ True, False,  True,  True, False, False,  True,  True, False,
        True, False,  True, False,  True, False, False, False, False,
        True, False])

In [None]:
# filtrar divisíveis por 2 e maiores que 50
ints[(ints % 2 == 0) & (ints > 50)]

array([52, 72, 88, 90, 64, 80, 64, 68, 66])

In [None]:
# filtrar divisíveis por 2 OU maiores que 50
ints[(ints % 2 == 0) | (ints > 50)]

array([52, 97, 72, 88, 44, 46, 90, 64, 18, 80, 64, 68, 81,  0, 63, 66, 85])

In [None]:
# filtrar ímpares OU maiores que 50
ints[~ (ints % 2 == 0) | (ints > 50)]

array([52, 97, 72, 88, 90, 64, 80, 15, 64, 15, 68, 81, 63, 31, 66, 85])

___

### Matrizes

Costumamos nos referir às **matrizes** como arrays multidimensionais (i.e., mais de uma dimensão).

<img src = "https://numpy.org/devdocs/_images/np_create_matrix.png" />

In [None]:
data = np.array([[1,2],[3,4],[5,6]])
data

array([[1, 2],
       [3, 4],
       [5, 6]])

[numpy.shape](https://numpy.org/doc/stable/reference/generated/numpy.shape.html)

In [None]:
data.size

6

In [None]:
# Retorna o formato da matriz como numero_de_linhas x numero_de_colunas
data.shape

(3, 2)

#### Indexação de matrizes

A idexação com matrizes segue a mesma lógica dos arrays. Há algumas formas de indexar o mesmo elemento, conforme ilustrado abaixo.

Suponhamos que queiramos o elemento da segunda linha da matriz, e da segunda coluna.

In [None]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
# ordem: linha, coluna
data[1,1]

4

Alternativamente, podemos indexar o mesmo elemento escrevendo:

In [None]:
data[1][1]

4

<img src = "https://numpy.org/devdocs/_images/np_matrix_indexing.png" />

#### Agregações

Similarmente a como fizemos com **arrays**, também podemos aplicar **funções de agregação** às matrizes:

In [None]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
data.max()

6

In [None]:
data.min()

1

In [None]:
data.sum()

21

<img src = "https://numpy.org/devdocs/_images/np_matrix_aggregation.png" />

Também podemos ter situações em que gostaríamos de **agregar por linhas e/ou colunas**, o que também é possível, especificando o parâmetro *axis*, conforme abaixo.

In [None]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
# "axis = 0" opera na direção das colunas, avaliando entre linhas
data.max(axis = 0)

array([5, 6])

In [None]:
# "axis = 1" opera na direação das linhas, avaliando entre colunas
data.max(axis = 1)

array([2, 4, 6])

<img src = "https://numpy.org/devdocs/_images/np_matrix_aggregation_row.png" />

[numpy.reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html)

Em algumas situações, pode ser útil **reformatar** nosso conjunto de dados. Para isso, utilizamos a função *.reshape()*.

In [None]:
# Vamos supor um vetor de 10 elementos
dados_originais = np.arange(0,10)
dados_originais

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# Vamos transformá-lo em uma matriz de duas linhas
dados_reformatados = np.reshape(dados_originais, [2,5])
dados_reformatados

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [None]:
dados_reformatados.shape

(2, 5)

In [None]:
# Vamos transformá-lo em uma matriz de duas colunas
dados_reformatados = np.reshape(dados_originais, [5,2])
dados_reformatados

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [None]:
dados_reformatados.shape

(5, 2)

**Atenção:** ao utilizar o reshape, o número de elementos total nunca pode ser alterado!

In [None]:
np.reshape(dados_originais, [3,3])

ValueError: cannot reshape array of size 10 into shape (3,3)

<img src = "https://numpy.org/devdocs/_images/np_reshape.png" />

#### Operações com matrizes

In [None]:
matriz1 = np.array([[1,2], [3,4]])
matriz2 = np.array([[5,4], [-2,0]])
matriz1+matriz2

array([[6, 6],
       [1, 4]])

In [None]:
print(matriz1)
print(matriz2)

[[1 2]
 [3 4]]
[[ 5  4]
 [-2  0]]


<img src="https://numpy.org/devdocs/_images/np_matrix_arithmetic.png" />

Diferentemente com arrays unidimensionais, conseguimos operar com matriz de tamanhos diferentes, **desde que sejam essencialmente um vetor-linha ou um vetor-coluna**.

In [None]:
array1 = [1,1]
matriz1 + array1

array([[2, 3],
       [4, 5]])

<img src = "https://numpy.org/devdocs/_images/np_matrix_broadcasting.png" />

In [None]:
print(matriz1)
print(matriz2)

[[1 2]
 [3 4]]
[[ 5  4]
 [-2  0]]


In [None]:
# multiplicação elemento a elemento
matriz1 * matriz2

array([[ 5,  8],
       [-6,  0]])

In [None]:
# multiplicação de matrizes "tradicional"
matriz1.dot(matriz2)

array([[ 1,  4],
       [ 7, 12]])

Transpor a matriz equivale a "trocar" as linhas pelas colunas.

In [None]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
data.transpose()

array([[1, 3, 5],
       [2, 4, 6]])

<img src = "https://numpy.org/devdocs/_images/np_transposing_reshaping.png" />

#### Filtrando matrizes 

Seguimos a mesma lógica de filtros em arrays unidimensionais, com a particularidade de que estamos lidando, agora, com mais de uma dimensão - e podemos levar isso em consideração.

In [None]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
# filtrando a matriz como um todo
data > 2

array([[False, False],
       [ True,  True],
       [ True,  True]])

In [None]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
# filtrando o primeiro elemento de cada coluna
data[0,:] > 1

array([False,  True])

In [None]:
# filtrando o segundo elemento de cada linha
data[:,1] > 4

array([False, False,  True])

Assim como fizemos anteriromente, podemos utilizar esse array booleano para indexar a matriz original.

In [None]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
data[data[:,1] > 4]

array([[5, 6]])

Um outro exemplo

In [None]:
# Vamos gerar uma matriz 4 x 4 aleatoriamente
matriz = np.random.randn(4,4)
matriz

array([[-1.76876493,  1.47004434, -0.70053502,  0.1838811 ],
       [ 0.29015436, -1.34799717, -1.0216732 ,  0.14929889],
       [ 2.87004739,  1.31593476,  0.01570878,  0.28678643],
       [ 1.44978685,  0.86969622, -0.44805814, -1.32398849]])

In [None]:
matriz[:,1]

array([ 1.47004434, -1.34799717,  1.31593476,  0.86969622])

In [None]:
# Filtremos todas as linhas cuja segunda coluna seja positiva
matriz[:,1] > 0

array([ True, False,  True,  True])

In [None]:
matriz[:,matriz[:,1] > 0]

array([[-1.76876493, -0.70053502,  0.1838811 ],
       [ 0.29015436, -1.0216732 ,  0.14929889],
       [ 2.87004739,  0.01570878,  0.28678643],
       [ 1.44978685, -0.44805814, -1.32398849]])

In [None]:
# Agora, indexemos a matriz
matriz[matriz[:,1] > 0, :]

array([[-1.76876493,  1.47004434, -0.70053502,  0.1838811 ],
       [ 2.87004739,  1.31593476,  0.01570878,  0.28678643],
       [ 1.44978685,  0.86969622, -0.44805814, -1.32398849]])

__________
___________

## Vamos praticar?

Em grupos, resolvam os exercícios a seguir.

**1.** Em uma **análise de regressão**, usualmente estamos interessados em descrever relações entre variáveis de um dado conjunto de dados por meio de uma **função** que descreva, o tanto quanto possível, estas relações.

Por exemplo, no gráfico abaixo, os pontos vermelhos relacionam as medidas das duas variáveis sendo avaliadas (nos eixos x e y); e a linha azul aproxima a relação entre elas por uma função linear.

![Normdist_regression.png](attachment:Normdist_regression.png)

É possível ver que nem todos os pontos obedecem exatamente à relação ditada pela reta (isto é, há pontos que não estão exatamente "sobre a reta"; mas, sim, ligeraimente acima, ou abaixo, dela). Isto, contudo, é esperado em um modelo de regressão, por inúmeras fontes de incerteza associadas às medições.

Uma das métricas que utilizamos para avaliar a qualidade de uma regressão é o **erro quadrático médio (EQM)**, que mensura a diferença total entre cada predição da regressão ($y_{prediction}$; que no nosso caso seriam os valores de y para a reta azul) com o valor real de cada i-ésima medida ($y_{i}$; que no nosso caso seriam as coordenadas y para cada ponto vermelho do gráfico). O EQM pode ser definido como:

$EQM = \frac{1}{n}\sum_{i=1}^{n}(y_{prediction} - y_{i})^2$.

Isto posto, escreva uma função que calcule o EQM recebendo, como entrada, os vetores $y_{prediction}$ e $y_{i}$. Por exemplo, digamos que sua função se chame *calculate_eqm*, ela deve operar da seguinte forma:

In [None]:
# dados dois arrays quaisquer de mesmo tamanho, a função deve retornar o EQM
import numpy as np

y_prediction = np.array([1,2,3])
y_i = np.array([0,0,3])
calculate_eqm(y_prediction,y_i)

array([-1, -2,  0])

In [None]:
# Solução
import numpy as np
def calculate_eqm(y_prediction,y_i):
  diferenca = (y_prediction - y_i)**2
  n = diferenca.size
  diferenca = diferenca.sum()
  EQM = 1/n*(diferenca)
  return EQM


In [None]:
calculate_eqm(np.array([1,2]),np.array([3,4]))

4.0

**2.** A eletroencefalografia (EEG) é uma técnica que mensura potenciais elétricos cerebrais em diversas regiões do escalpo do paciente. Suponha que você recebeu um conjunto de dados na forma de uma matriz de 64 x 512 elementos, em que cada linha contém o sinal gravado em um dos **eletrodos** espalhados pelo escalpo em um exame de EEG, e cada coluna contém um valor de potencial elétrico, em microvolts. 

Como o sinal de EEG é muito suscetível a ruídos externos (interferências na qualidade do sinal), uma operação comum para atenuar a interferência no sinal consiste em tirar a média do potencial elétrico de todos os eletrodos, e subtrair este valor de cada um deles. Isto atenua fontes de ruído ao sinal comuns a todos os eletrodos. Em termos matemáticos, o sinal processado por esta operação, $X_{e,i}$ para cada eletrodo (e) e amostra (i), é dado por:

$X_{e,i} = \hat{X_{e,i}} - \frac{1}{N}\sum_{e=1}^{N}\hat{X_{e,i}}$,

em que $\hat{X_{e,i}}$ representa o sinal original (ou seja, é a matriz de entrada de 64 x 512 elementos), e $N$ indica o total de eletrodos.

Com o exposto acima, escreva uma função que retorne uma matriz com os sinais de EEG processados conforme a operação mencionada. Sua função deve operar conforme o exemplo abaixo.

In [None]:
# vamos supor uma matriz de entrada gerada por dados aleatórios
X = np.random.randn(64,512)
X.shape # apenas para verificar as dimensões

(64, 512)

In [None]:
# a função deve executar a operação equacionada anteriormente, retornando uma nova matriz
X_processado = process_EEG_signal(X)
X_processado.shape

(64, 512)

In [None]:
# Somando as diferenças entre cada elemento das duas matrizes, apenas para ilustrar que elas não são iguais
(X_processado - X).sum()

-53.08727366483029

In [None]:
# Visualizando as matrizes, para verificar uma vez mais que, de fato, os elementos são diferentes
X

array([[ 0.29305925,  0.89663038, -0.61032202, ..., -0.88086364,
        -0.8818789 ,  0.51260497],
       [-0.01274415,  1.05439522,  0.47958092, ..., -2.15387924,
         0.70721168,  0.97029889],
       [ 1.09478371, -0.16120847,  1.58400361, ...,  0.20981813,
         2.17373837,  0.94032162],
       ...,
       [-0.45294842, -2.28939505,  1.10111998, ...,  1.63581703,
        -0.39394924, -1.13400723],
       [-0.22669886,  0.25413429, -1.17870637, ..., -0.09509442,
         0.90733806,  0.37999411],
       [ 0.15476933, -0.03654717, -1.09982762, ...,  0.67600047,
        -0.84533328, -0.56433144]])

In [None]:
# Matriz após o processamento descrito no enunciado
X_processado

array([[ 0.36713022,  0.85772513, -0.54902169, ..., -0.85626087,
        -0.97611435,  0.51718998],
       [ 0.06132682,  1.01548997,  0.54088126, ..., -2.12927647,
         0.61297623,  0.97488389],
       [ 1.16885469, -0.20011372,  1.64530394, ...,  0.23442091,
         2.07950292,  0.94490663],
       ...,
       [-0.37887744, -2.3283003 ,  1.16242031, ...,  1.6604198 ,
        -0.4881847 , -1.12942223],
       [-0.15262788,  0.21522904, -1.11740604, ..., -0.07049164,
         0.81310261,  0.38457911],
       [ 0.22884031, -0.07545242, -1.03852729, ...,  0.70060324,
        -0.93956874, -0.55974643]])

In [None]:
# Solução
import numpy as np

def process_EEG_signal(X):
  n = X.size
  soma = X.sum()
  media = 1/n*soma
  X_processado = X - media
  return X_processado


In [None]:
X = np.random.randn(64,512)
process_EEG_signal(X)

array([[ 0.33428814, -0.35214913, -2.30715088, ...,  0.63177549,
         0.9715355 , -1.3123182 ],
       [-0.08789858, -0.80393698, -0.76035602, ..., -0.05380364,
         0.36266301,  2.04554072],
       [ 2.36958738, -0.86859052, -0.6346777 , ..., -0.97703451,
        -0.38748801,  1.12816359],
       ...,
       [-0.78770559, -1.29062318, -0.55452622, ...,  0.25389346,
        -0.46072786, -0.72586965],
       [ 1.30335694, -1.05405477, -1.76817954, ...,  0.42677405,
        -0.0524331 ,  0.30595581],
       [ 0.66612518,  0.16268057, -0.35827111, ...,  1.65025918,
        -0.9011505 , -0.92674818]])

**3.** Em estatística, um **outlier** é um valor que destoa consideravelmente da distribuição à qual está associado. Um dos critérios para idenficar outliers consiste em encontrar a **distância interquantil** (IQR), ou seja, a diferença entre o terceiro (Q3) e o primeiro quartis (Q1) da distribuição, e tomar como outliers todos os pontos abaixo de 1.5*IQR - Q1, ou acima de 1.5*IQR + Q3.

<img src = "https://blog.curso-r.com/images/posts/banner/outlier.webp" />

Escreva uma função que, dada uma matriz de dados de entrada de dimensões $N_{observações} \times N_{features}$ retorne três requisitos: 
- uma matriz booleana indicando a existência de outliers nos dados de entrada;
- a quantidade de outliers
- quem são os outliers (os valores).

**Algumas definições:**
- um *quantil* divide a distribuição, após ordenados os pontos, segundo algum ponto de corte;
- o **primeiro quartil** é o ponto para o qual 25 % dos valores da distribuição estão abaixo dele;
- o **terceiro quartil** é o ponto para o qual 75 % dos valores da distribuição estão abaixo dele.

Pode ser útil consultar a função **numpy.quantile**.

Exemplo de operação da função:

In [None]:
# Geremos um conjunto de dados qualquer
X = np.random.randn(300,15)
X

array([[-2.02108952,  0.57945921, -2.23074965, ..., -0.60349514,
         0.92180452, -0.15625722],
       [ 0.24904397,  0.03493447,  0.3515052 , ..., -0.46950081,
         0.20361331,  0.02715956],
       [ 0.55902525, -0.48435434,  0.90413414, ..., -0.54425743,
        -0.80769134, -0.07912549],
       ...,
       [-1.04069388, -0.24245725, -2.00308877, ...,  0.4084777 ,
        -1.81516131,  0.39063118],
       [-1.39275097,  0.3989636 ,  0.2926223 , ...,  1.2620666 ,
         0.72262949,  1.50737559],
       [ 0.15922011, -0.79810788, -1.60939896, ..., -0.08214499,
        -0.13167475,  0.15990558]])

In [None]:
# identificamos os requisitos com nossa com nossa função "locate_outliers"
is_outlier, outliers_count, outliers = locate_outliers(X)

In [None]:
is_outlier

array([[False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       ...,
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False]])

In [None]:
outliers_count

44

In [None]:
outliers

array([-2.67240384,  3.00270904,  3.62317101,  3.18867865,  2.55581522,
       -2.82091429,  2.8757892 ,  2.70666036,  3.19514999, -3.40550318,
       -3.39825827,  2.6727295 ,  2.54498296, -2.69447104,  3.19521603,
        2.66372172, -2.77444948,  2.77421152,  2.69992869, -2.84831109,
       -2.83695779, -2.45908227,  3.07802106,  2.89314015, -2.68574682,
       -2.85019494,  2.43399574,  2.44291266, -2.92595937, -2.95911074,
       -3.03966003,  2.77543068, -2.67368414, -2.79965402, -3.0501958 ,
       -2.5437387 ,  3.08550649, -3.17666255, -3.05795476, -3.09826467,
        3.1399469 ,  3.18141942,  2.90564257, -2.89505054])

In [None]:
# Solução

In [None]:
import numpy as np

def locate_outliers(X):
  Q1 = np.quantile(X, 0.25)
  Q3 = np.quantile(X, 0.75)
  IQR = Q3 - Q1
  limite1 = (1.5*IQR) - Q1
  limite2= (1.5*IQR) + Q3
  is_outlier = ((X < limite1) | (X > limite2))
  outlier = X[(X < limite1) | (X > limite2)]
  outlier.size
  return [is_outlier,
          outlier.size,
          outlier
          ]

In [None]:
X = np.random.randint(0,30,15)
locate_outliers(X)


[array([ True,  True,  True, False, False, False,  True, False, False,
        False, False,  True, False,  True, False]),
 6,
 array([9, 3, 1, 8, 5, 9])]