<a href="https://colab.research.google.com/github/gabiluz15/ada-atividade/blob/main/38e89cf3_8e9a_48ce_8ee5_077b777a0dd3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 03 - NumPy (Parte II)

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/2560px-NumPy_logo_2020.svg.png" alt="Alternative text" />

[Guia rápido de uso da biblioteca](https://numpy.org/devdocs/user/quickstart.html)

[Guia para iniciantes](https://numpy.org/devdocs/user/absolute_beginners.html)

Na aula passada, vimos que:

- um **array** é o elemento básico por meio do qual a biblioteca *numpy* opera;
- este elemento **difere de uma lista**, por ser homogêneo e possibilitar cálculos de uma maneira altamente eficiente;
- a **indexação** de arrays é muito similar àquela de listas;
- a biblioteca *numpy* fornece ferramentas para gerar arrays baseados em distribuições estatísticas (como uniforme e normal) de maneira aleatória;
- existem diversos métodos que sumarizam alguamas propriedades dos vetores, como *.mean()*, *.std()*, entre outros.

Na aula de hoje, vamos explorar os conceitos de **filtros** e de **matrizes** com numpy.

___

#### Filtros (máscaras)

Uma das funções mais importantes do numpy é a possibilidade de construção de **filtros**, que também são chamados de **máscaras**

O objetivo dos filtros é **selecionar apenas os elementos de um array que satisfaçam determinada condição**

In [1]:
# definindo um array aleatoriamente
import numpy as np
arr = np.random.rand(20)
arr

array([0.45139503, 0.04884556, 0.2925095 , 0.11079782, 0.97771322,
       0.95667897, 0.33109037, 0.39373334, 0.65288658, 0.1883866 ,
       0.54785999, 0.86598969, 0.25531242, 0.96881588, 0.65974444,
       0.64067446, 0.94467893, 0.18828332, 0.04984037, 0.47574935])

Ao usar um **operador lógico** juntamente com um array, o numpy **aplica a operação lógica a cada um dos elementos do array**, retornando um **array de bools** com o resultado de cada uma das operações lógicas:

In [2]:
# quais elementos do array são menores que 0.5?
arr < 0.5

array([ True,  True,  True,  True, False, False,  True,  True, False,
        True, False, False,  True, False, False, False, False,  True,
        True,  True])

In [3]:
# Quantos elementos são maiores que 0.5?
(arr > 0.5)

array([False, False, False, False,  True,  True, False, False,  True,
       False,  True,  True, False,  True,  True,  True,  True, False,
       False, False])

In [4]:
(arr > 0.5).size

20

In [5]:
(arr > 0.5).sum()

9

Uma vez criado o filtro, é possível **utilizá-lo como indexador do array**, para selecionar **apenas os elementos com indice correspondente a True no filtro**

In [6]:
arr

array([0.45139503, 0.04884556, 0.2925095 , 0.11079782, 0.97771322,
       0.95667897, 0.33109037, 0.39373334, 0.65288658, 0.1883866 ,
       0.54785999, 0.86598969, 0.25531242, 0.96881588, 0.65974444,
       0.64067446, 0.94467893, 0.18828332, 0.04984037, 0.47574935])

In [7]:
# quero elementos do "arr" que satisfaçam uma dada condição (ser menor que 0.5)
arr[arr < 0.5]

array([0.45139503, 0.04884556, 0.2925095 , 0.11079782, 0.33109037,
       0.39373334, 0.1883866 , 0.25531242, 0.18828332, 0.04984037,
       0.47574935])

In [8]:
# quero elementos do "arr" que satisfaçam uma dada condição (ser maior que 0.5)
arr[arr > 0.5]

array([0.97771322, 0.95667897, 0.65288658, 0.54785999, 0.86598969,
       0.96881588, 0.65974444, 0.64067446, 0.94467893])

In [9]:
# quero elementos do "arr" que satisfaçam uma dada condição (ser igual a 0.5)
arr[arr == 0.5]

array([], dtype=float64)

Mais um exemplo...

In [10]:
# definindo um novo array aleatório de inteiros

ints = np.random.randint(0, 100, 20)
ints

array([66, 41, 10, 75, 29, 95, 27, 31, 41, 70,  1, 42, 76, 64, 31, 50, 30,
       20, 42, 64])

In [11]:
# filtrando apenas os pares
ints[ints % 2 == 0]

array([66, 10, 70, 42, 76, 64, 50, 30, 20, 42, 64])

In [12]:
# filtrando apenas os ímpares
ints[ints % 2 != 0]

array([41, 75, 29, 95, 27, 31, 41,  1, 31])

In [13]:
# filtrando apenas os ímpares
ints[~(ints % 2 == 0)]

array([41, 75, 29, 95, 27, 31, 41,  1, 31])

In [14]:
# quantidade de ímpáres
ints[~(ints % 2 == 0)].size

9

In [15]:
# soma dos ímpáres
ints[~(ints % 2 == 0)].sum()

371

[np.where](https://numpy.org/doc/stable/reference/generated/numpy.where.html)

In [16]:
ints

array([66, 41, 10, 75, 29, 95, 27, 31, 41, 70,  1, 42, 76, 64, 31, 50, 30,
       20, 42, 64])

In [17]:
# Filtro para ser par
np.where(ints % 2 == 0, ints, np.nan)

array([66., nan, 10., nan, nan, nan, nan, nan, nan, 70., nan, 42., 76.,
       64., nan, 50., 30., 20., 42., 64.])

In [18]:
a = 10
~ a > 1

False

Também é possível aplicar **filtros compostos**!

Pra fazer isso, nós fazems uma **composição lógica** entre os filtros (análogo ao "and" e ao "or")

No caso de arrays, usamos:

- "&" para "and"
- "|" para "or"
- "~" para "not"

In [19]:
# filtrar divisíveis por 2 e maiores que 50
(ints % 2 == 0) & (ints > 50)

array([ True, False, False, False, False, False, False, False, False,
        True, False, False,  True,  True, False, False, False, False,
       False,  True])

In [20]:
# filtrar divisíveis por 2 e maiores que 50
ints[(ints % 2 == 0) & (ints > 50)]

array([66, 70, 76, 64, 64])

In [21]:
# filtrar divisíveis por 2 OU maiores que 50
ints[(ints % 2 == 0) | (ints > 50)]

array([66, 10, 75, 95, 70, 42, 76, 64, 50, 30, 20, 42, 64])

In [22]:
# filtrar ímpares OU maiores que 50
ints[~ (ints % 2 == 0) | (ints > 50)]

array([66, 41, 75, 29, 95, 27, 31, 41, 70,  1, 76, 64, 31, 64])

___

### Matrizes

Costumamos nos referir às **matrizes** como arrays multidimensionais (i.e., mais de uma dimensão).

<img src = "https://numpy.org/devdocs/_images/np_create_matrix.png" />

In [23]:
data = np.array([[1,2],[3,4],[5,6]])
data

array([[1, 2],
       [3, 4],
       [5, 6]])

[numpy.shape](https://numpy.org/doc/stable/reference/generated/numpy.shape.html)

In [24]:
data.size

6

In [25]:
# Retorna o formato da matriz como numero_de_linhas x numero_de_colunas
data.shape

(3, 2)

#### Indexação de matrizes

A idexação com matrizes segue a mesma lógica dos arrays. Há algumas formas de indexar o mesmo elemento, conforme ilustrado abaixo.

Suponhamos que queiramos o elemento da segunda linha da matriz, e da segunda coluna.

In [26]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [27]:
# ordem: linha, coluna
data[1,1]

4

Alternativamente, podemos indexar o mesmo elemento escrevendo:

In [28]:
data[1][1]

4

<img src = "https://numpy.org/devdocs/_images/np_matrix_indexing.png" />

#### Agregações

Similarmente a como fizemos com **arrays**, também podemos aplicar **funções de agregação** às matrizes:

In [29]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [30]:
data.max()

6

In [31]:
data.min()

1

In [32]:
data.sum()

21

<img src = "https://numpy.org/devdocs/_images/np_matrix_aggregation.png" />

Também podemos ter situações em que gostaríamos de **agregar por linhas e/ou colunas**, o que também é possível, especificando o parâmetro *axis*, conforme abaixo.

In [33]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [34]:
# "axis = 0" opera na direção das colunas, avaliando entre linhas
data.max(axis = 0)

array([5, 6])

In [35]:
# "axis = 1" opera na direação das linhas, avaliando entre colunas
data.max(axis = 1)

array([2, 4, 6])

<img src = "https://numpy.org/devdocs/_images/np_matrix_aggregation_row.png" />

[numpy.reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html)

Em algumas situações, pode ser útil **reformatar** nosso conjunto de dados. Para isso, utilizamos a função *.reshape()*.

In [36]:
# Vamos supor um vetor de 10 elementos
dados_originais = np.arange(0,10)
dados_originais

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [37]:
# Vamos transformá-lo em uma matriz de duas linhas
dados_reformatados = np.reshape(dados_originais, [2,5])
dados_reformatados

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [38]:
dados_reformatados.shape

(2, 5)

In [39]:
# Vamos transformá-lo em uma matriz de duas colunas
dados_reformatados = np.reshape(dados_originais, [5,2])
dados_reformatados

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [40]:
dados_reformatados.shape

(5, 2)

**Atenção:** ao utilizar o reshape, o número de elementos total nunca pode ser alterado!

In [41]:
np.reshape(dados_originais, [3,3])

ValueError: ignored

<img src = "https://numpy.org/devdocs/_images/np_reshape.png" />

#### Operações com matrizes

In [42]:
matriz1 = np.array([[1,2], [3,4]])
matriz2 = np.array([[5,4], [-2,0]])
matriz1+matriz2

array([[6, 6],
       [1, 4]])

In [43]:
print(matriz1)
print(matriz2)

[[1 2]
 [3 4]]
[[ 5  4]
 [-2  0]]


<img src="https://numpy.org/devdocs/_images/np_matrix_arithmetic.png" />

Diferentemente com arrays unidimensionais, conseguimos operar com matriz de tamanhos diferentes, **desde que sejam essencialmente um vetor-linha ou um vetor-coluna**.

In [44]:
array1 = [1,1]
matriz1 + array1

array([[2, 3],
       [4, 5]])

<img src = "https://numpy.org/devdocs/_images/np_matrix_broadcasting.png" />

In [45]:
print(matriz1)
print(matriz2)

[[1 2]
 [3 4]]
[[ 5  4]
 [-2  0]]


In [46]:
# multiplicação elemento a elemento
matriz1 * matriz2

array([[ 5,  8],
       [-6,  0]])

In [47]:
# multiplicação de matrizes "tradicional"
matriz1.dot(matriz2)

array([[ 1,  4],
       [ 7, 12]])

Transpor a matriz equivale a "trocar" as linhas pelas colunas.

In [48]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [49]:
data.transpose()

array([[1, 3, 5],
       [2, 4, 6]])

<img src = "https://numpy.org/devdocs/_images/np_transposing_reshaping.png" />

#### Filtrando matrizes 

Seguimos a mesma lógica de filtros em arrays unidimensionais, com a particularidade de que estamos lidando, agora, com mais de uma dimensão - e podemos levar isso em consideração.

In [50]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [51]:
# filtrando a matriz como um todo
data > 2

array([[False, False],
       [ True,  True],
       [ True,  True]])

In [52]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [53]:
# filtrando o primeiro elemento de cada coluna
data[0,:] > 1

array([False,  True])

In [54]:
# filtrando o segundo elemento de cada linha
data[:,1] > 4

array([False, False,  True])

Assim como fizemos anteriromente, podemos utilizar esse array booleano para indexar a matriz original.

In [55]:
data

array([[1, 2],
       [3, 4],
       [5, 6]])

In [56]:
data[data[:,1] > 4]

array([[5, 6]])

Um outro exemplo

In [57]:
# Vamos gerar uma matriz 4 x 4 aleatoriamente
matriz = np.random.randn(4,4)
matriz

array([[ 0.74917292,  0.19084514,  0.17418088,  1.83460046],
       [ 0.07628419, -1.1133477 ,  1.2587135 ,  0.22974506],
       [ 0.21752094,  0.95421371,  0.67387528, -1.71477576],
       [-0.46785633, -0.05300505, -0.92683454, -0.07874151]])

In [58]:
matriz[:,1]

array([ 0.19084514, -1.1133477 ,  0.95421371, -0.05300505])

In [59]:
# Filtremos todas as linhas cuja segunda coluna seja positiva
matriz[:,1] > 0

array([ True, False,  True, False])

In [60]:
matriz[:,matriz[:,1] > 0]

array([[ 0.74917292,  0.17418088],
       [ 0.07628419,  1.2587135 ],
       [ 0.21752094,  0.67387528],
       [-0.46785633, -0.92683454]])

In [61]:
# Agora, indexemos a matriz
matriz[matriz[:,1] > 0, :]

array([[ 0.74917292,  0.19084514,  0.17418088,  1.83460046],
       [ 0.21752094,  0.95421371,  0.67387528, -1.71477576]])

__________
___________

## Vamos praticar?

Em grupos, resolvam os exercícios a seguir.

**1.** Em uma **análise de regressão**, usualmente estamos interessados em descrever relações entre variáveis de um dado conjunto de dados por meio de uma **função** que descreva, o tanto quanto possível, estas relações.

Por exemplo, no gráfico abaixo, os pontos vermelhos relacionam as medidas das duas variáveis sendo avaliadas (nos eixos x e y); e a linha azul aproxima a relação entre elas por uma função linear.

![Normdist_regression.png](attachment:Normdist_regression.png)

É possível ver que nem todos os pontos obedecem exatamente à relação ditada pela reta (isto é, há pontos que não estão exatamente "sobre a reta"; mas, sim, ligeraimente acima, ou abaixo, dela). Isto, contudo, é esperado em um modelo de regressão, por inúmeras fontes de incerteza associadas às medições.

Uma das métricas que utilizamos para avaliar a qualidade de uma regressão é o **erro quadrático médio (EQM)**, que mensura a diferença total entre cada predição da regressão ($y_{prediction}$; que no nosso caso seriam os valores de y para a reta azul) com o valor real de cada i-ésima medida ($y_{i}$; que no nosso caso seriam as coordenadas y para cada ponto vermelho do gráfico). O EQM pode ser definido como:

$EQM = \frac{1}{n}\sum_{i=1}^{n}(y_{prediction} - y_{i})^2$.

Isto posto, escreva uma função que calcule o EQM recebendo, como entrada, os vetores $y_{prediction}$ e $y_{i}$. Por exemplo, digamos que sua função se chame *calculate_eqm*, ela deve operar da seguinte forma:

In [70]:
# Solução
def calculate_eqm(y_prediction,y_i):
    return (1/len(y_prediction)) *sum((y_prediction - y_i)**2)

In [71]:
# dados dois arrays quaisquer de mesmo tamanho, a função deve retornar o EQM
y_prediction = np.array([1,2,3])
y_i = np.array([0,0,3])
calculate_eqm(y_prediction,y_i)

1.6666666666666665

**2.** A eletroencefalografia (EEG) é uma técnica que mensura potenciais elétricos cerebrais em diversas regiões do escalpo do paciente. Suponha que você recebeu um conjunto de dados na forma de uma matriz de 64 x 512 elementos, em que cada linha contém o sinal gravado em um dos **eletrodos** espalhados pelo escalpo em um exame de EEG, e cada coluna contém um valor de potencial elétrico, em microvolts. 

Como o sinal de EEG é muito suscetível a ruídos externos (interferências na qualidade do sinal), uma operação comum para atenuar a interferência no sinal consiste em tirar a média do potencial elétrico de todos os eletrodos, e subtrair este valor de cada um deles. Isto atenua fontes de ruído ao sinal comuns a todos os eletrodos. Em termos matemáticos, o sinal processado por esta operação, $X_{e,i}$ para cada eletrodo (e) e amostra (i), é dado por:

$X_{e,i} = \hat{X_{e,i}} - \frac{1}{N}\sum_{e=1}^{N}\hat{X_{e,i}}$,

em que $\hat{X_{e,i}}$ representa o sinal original (ou seja, é a matriz de entrada de 64 x 512 elementos), e $N$ indica o total de eletrodos.

Com o exposto acima, escreva uma função que retorne uma matriz com os sinais de EEG processados conforme a operação mencionada. Sua função deve operar conforme o exemplo abaixo.

In [65]:
# vamos supor uma matriz de entrada gerada por dados aleatórios
X = np.random.randn(64,512)
X.shape # apenas para verificar as dimensões

(64, 512)

In [68]:
def process_EEG_signal(X):
  return (1/len(y_prediction)) *sum((y_prediction - y_i)**2)


In [69]:
# a função deve executar a operação equacionada anteriormente, retornando uma nova matriz
X_processado = process_EEG_signal(X)
X_processado.shape

()

In [67]:
# Somando as diferenças entre cada elemento das duas matrizes, apenas para ilustrar que elas não são iguais
(X_processado - X).sum()

NameError: ignored

In [None]:
# Visualizando as matrizes, para verificar uma vez mais que, de fato, os elementos são diferentes
X

In [None]:
# Matriz após o processamento descrito no enunciado
X_processado

In [None]:
# Solução

**3.** Em estatística, um **outlier** é um valor que destoa consideravelmente da distribuição à qual está associado. Um dos critérios para idenficar outliers consiste em encontrar a **distância interquantil** (IQR), ou seja, a diferença entre o terceiro (Q3) e o primeiro quartis (Q1) da distribuição, e tomar como outliers todos os pontos abaixo de 1.5*IQR - Q1, ou acima de 1.5*IQR + Q3.

<img src = "https://blog.curso-r.com/images/posts/banner/outlier.webp" />

Escreva uma função que, dada uma matriz de dados de entrada de dimensões $N_{observações} \times N_{features}$ retorne três requisitos: 
- uma matriz booleana indicando a existência de outliers nos dados de entrada;
- a quantidade de outliers
- quem são os outliers (os valores).

**Algumas definições:**
- um *quantil* divide a distribuição, após ordenados os pontos, segundo algum ponto de corte;
- o **primeiro quartil** é o ponto para o qual 25 % dos valores da distribuição estão abaixo dele;
- o **terceiro quartil** é o ponto para o qual 75 % dos valores da distribuição estão abaixo dele.

Pode ser útil consultar a função **numpy.quantile**.

Exemplo de operação da função:

In [None]:
# Geremos um conjunto de dados qualquer
X = np.random.randn(300,15)
X

In [None]:
# identificamos os requisitos com nossa com nossa função "locate_outliers"
is_outlier, outliers_count, outliers = locate_outliers(X)

In [None]:
is_outlier

In [None]:
outliers_count

In [None]:
outliers

In [None]:
# Solução