# Aula 03 - NumPy (Parte II)

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/31/NumPy_logo_2020.svg/2560px-NumPy_logo_2020.svg.png" alt="Alternative text" />

____
[Guia rápido de uso da biblioteca](https://numpy.org/devdocs/user/quickstart.html)

[Guia para iniciantes](https://numpy.org/devdocs/user/absolute_beginners.html)

____

Na aula passada, vimos que:

- um **array** é o elemento básico por meio do qual a biblioteca *numpy* opera;
- este elemento **difere de uma lista**, por ser homogêneo e possibilitar cálculos de uma maneira altamente eficiente;
- a **indexação** de arrays é muito similar àquela de listas;
- a biblioteca *numpy* fornece ferramentas para gerar arrays baseados em distribuições estatísticas (como uniforme e normal) de maneira aleatória;
- existem diversos métodos que sumarizam alguamas propriedades dos vetores, como *.mean()*, *.std()*, entre outros.

Hoje, nós vamos explorar os conceitos de **filtros** e de **matrizes** com o numpy.

____

## 1. Filtros (máscaras)

Uma das funções mais importantes do numpy é a possibilidade de construção de **filtros**, que também são chamados de **máscaras**.

O objetivo dos filtros é **selecionar apenas os elementos de um array que satisfaçam determinada condição**:

Primeiro, vamos importar o numpy:

In [None]:
import numpy as np

In [None]:
#Definindo um array aleatório com a semente pseudoaleatória


Vimos anteriormente que, se usarmos um **operador lógico** juntamente com um array, o numpy **aplica a operação lógica a cada um dos elementos do array**, retornando um **array de bools** com o resultado de cada uma das operações lógicas:

In [None]:
# pergunta: quais os elementos são menores que 0.5?


In [None]:
# QUANTOS elementos satisfazem a condição? (são menores que 0.5)


Uma vez criado o filtro, é possível **utilizá-lo como indexador do array**, para selecionar **apenas os elementos com indice correspondente a True no filtro**:

In [None]:
# quero elementos do "arr" tais que os elementos do array são menos que 0.5


In [None]:
# a operação abaixo FILTRA apenas os números do array "aleat" que sejam MAIORES do que 0.5


In [None]:
# a operação abaixo FILTRA apenas os números do array "aleat" que sejam IGUAIS a 0.5


Mais um exemplo...

In [None]:
# definindo um array aleatório com np.random.randint(0, 100, 20), com seed 42


In [None]:
# filtrando apenas os pares


In [None]:
# filtrando apenas os ímpares


In [None]:
#Outra forma de filtrar os ímpares


Podemos filtrar também com o método **np.where():**

In [None]:
#Onde tem os ímpares, ele coloca nan


Também é possível aplicar **filtros compostos**!

Pra fazer isso, nós fazems uma **composição lógica** entre os filtros (análogo ao "and" e ao "or")

No caso de arrays, usamos:

- "&" para "and"
- "|" para "or"
- "~" para "not"

In [None]:
# condição correspondente a números pares E maiores que 50


In [None]:
# numeros que são pares OU maiores que 50


In [None]:
# filtrando numeros impares (não pares) E maiores que 50


___

## 2. Matrizes

Como **matrizes** vamos nos referir aos arrays multidimensionais (i.e., mais de uma dimensão).

<img src = "https://numpy.org/devdocs/_images/np_create_matrix.png" />

In [None]:
#Criando uma matriz 3x2


**Método shape:**

É utilizado para retornar a forma ou as dimensões de um array.

Ele retorna uma tupla que indica o tamanho do array em cada dimensão.

**Notação:** (numero_de_linhas, numero_de_colunas)

### Agregações

Similarmente a como fizemos com **arrays**, também podemos aplicar **funções de agregação** às matrizes:

<img src = "https://numpy.org/devdocs/_images/np_matrix_aggregation.png" />

E se eu quiser por linhas ou colunas?

In [None]:
# "axis = 0" opera na direção das colunas, retornando um vetor-linha
# com os máximos de cada coluna


In [None]:
# "axis = 1" opera na direção daslinhas, retornando um vetor-coluna
# com os máximos de cada linha


<img src = "https://numpy.org/devdocs/_images/np_matrix_aggregation_row.png" />

### **np. reshape():**

Em algumas situações, pode ser útil **reformatar** nosso conjunto de dados. Para isso, utilizamos a função *.reshape()*.

In [None]:
# Vamos supor um vetor originalmente de 10 elementos


In [None]:
# Vamos transformá-lo em uma matriz de duas linhas e cinco colunas


In [None]:
# Alternativamente, também poderíamos ter optado por cinco linhas e duas colunas


**Atenção:** ao utilizar o reshape, o número de elementos total nunca pode ser alterado!

<img src = "https://numpy.org/devdocs/_images/np_reshape.png" />

### **Operações com matrizes:**

<img src="https://numpy.org/devdocs/_images/np_matrix_arithmetic.png" />

Diferentemente com arrays unidimensionais, conseguimos operar com matriz de tamanhos diferentes, **desde que sejam essencialmente um vetor-linha ou um vetor-coluna**.

<img src = "https://numpy.org/devdocs/_images/np_matrix_broadcasting.png" />

### Transpondo arrays

Transpor a matriz equivale a "trocar" as linhas pelas colunas.

<img src = "https://numpy.org/devdocs/_images/np_transposing_reshaping.png" />

### Filtrando matrizes

Seguimos a mesma lógica de filtros em arrays unidimensionais, com a particularidade de que estamos lidando, agora, com mais de uma dimensão - e podemos levar isso em consideração.

In [None]:
# filtrando a matriz como um todo


In [None]:
# Filtrando o primeiro elemento de cada coluna da matriz


In [None]:
# Filtrando o segundo elemento de cada linha da matriz


Assim como fizemos anteriromente, podemos utilizar esse array booleano para indexar a matriz original.

Um outro exemplo

In [None]:
# Vamos gerar uma matriz 4x4 aleatoriamente


In [None]:
# Filtremos todas as linhas cuja segunda coluna seja positiva


In [None]:
# Agora, indexemos a matriz


___
___
___

## 3. **Exercícios:**

___

**1.** Em uma **análise de regressão**, usualmente estamos interessados em descrever o comportamento em um conjunto de dados por meio de uma **função** que descreva, o tanto quanto possível, nosson conjunto de dados.

Por exemplo, no gráfico abaixo, os pontos vermelhos relacionam as medidas das duas variáveis sendo avaliadas (nos eixos x e y); e a linha azul aproxima a relação entre elas por uma função linear.

![Normdist_regression.png](https://miro.medium.com/v2/resize:fit:1280/1*eeIvlwkMNG1wSmj3FR6M2g.gif)

É possível ver que nem todos os pontos obedecem exatamente à relação ditada pela reta (isto é, há pontos que não estão exatamente "sobre a reta"; mas, sim, ligeraimente acima, ou abaixo, dela).

Isto, contudo, é esperado em um modelo de regressão, por inúmeras fontes de incerteza associadas às medições.

Uma das métricas que utilizamos para avaliar a qualidade de uma regressão é o **root mean squared error (RMSE)**, que mensura a diferença total entre cada predição da regressão ($y_{prediction}$) com o valor real de cada i-ésima medida ($y_{i}$). O RMSE pode ser definido como:

$RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{prediction} - y_{i})^2} $.

Escreva uma função que calcule o RMSE recebendo, como entrada, os vetores $y_{prediction}$ e $y_{i}$. Por exemplo, digamos que sua função se chame *calculate_rmse*, ela deve operar da seguinte forma:

In [None]:
# dados dois arrays quaisquer de mesmo tamanho, a função deve retornar o RMSE
y_prediction = np.array([1,2,3])
y_i = np.array([0,0,3])
calculate_rmse(y_prediction,y_i)

**2.** Em estatística, um **outlier** é um valor que destoa consideravelmente da distribuição à qual está associado. Um dos critérios para idenficar outliers consiste em encontrar a **distância interquantil** (IQR), ou seja, a diferença entre o terceiro e o primeiro quantil da distribuição, e tomar como outliers todos os pontos abaixo, ou acima, de 1.5*IQR.

<img src = "https://blog.curso-r.com/images/posts/banner/outlier.webp" />

Escreva uma função que, dada uma matriz de dados de entrada de dimensões $N_{observações} \times N_{features}$ retorne três requisitos:
- uma matriz booleana indicando a existência de outliers nos dados de entrada;
- a quantidade de outliers
- quem são os outliers (os valores).

**Algumas definições:**
- um *quantil* divide a distribuição, após ordenados os pontos, segundo algum ponto de corte;
- o **primeiro quantil** é o ponto para o qual 25 % dos valores da distribuição estão abaixo dele;
- o **terceiro quantil** é o ponto para o qual 75 % dos valores da distribuição estão abaixo dele.

Pode ser útil consultar a função **numpy.quantile**.