## Aula 03 - Exercícios

__________
___________

## Vamos praticar?

Em grupos, resolvam os exercícios a seguir.

**1.** Em uma **análise de regressão**, usualmente estamos interessados em descrever relações entre variáveis de um dado conjunto de dados por meio de uma **função** que descreva, o tanto quanto possível, estas relações.

Por exemplo, no gráfico abaixo, os pontos vermelhos relacionam as medidas das duas variáveis sendo avaliadas (nos eixos x e y); e a linha azul aproxima a relação entre elas por uma função linear.

![Normdist_regression.png][def]

[def]: attachment:Normdist_regression.png

É possível ver que nem todos os pontos obedecem exatamente à relação ditada pela reta (isto é, há pontos que não estão exatamente "sobre a reta"; mas, sim, ligeraimente acima, ou abaixo, dela). Isto, contudo, é esperado em um modelo de regressão, por inúmeras fontes de incerteza associadas às medições.

Uma das métricas que utilizamos para avaliar a qualidade de uma regressão é o **erro quadrático médio (EQM)**, que mensura a diferença total entre cada predição da regressão ($y_{prediction}$; que no nosso caso seriam os valores de y para a reta azul) com o valor real de cada i-ésima medida ($y_{i}$; que no nosso caso seriam as coordenadas y para cada ponto vermelho do gráfico). O EQM pode ser definido como:

$EQM = \frac{1}{n}\sum_{i=1}^{n}(y_{prediction} - y_{i})^2$.

Isto posto, escreva uma função que calcule o EQM recebendo, como entrada, os vetores $y_{prediction}$ e $y_{i}$. Por exemplo, digamos que sua função se chame *calculate_eqm*, ela deve operar da seguinte forma:

In [13]:
# dados dois arrays quaisquer de mesmo tamanho, a função deve retornar o EQM
import numpy as np

y_prediction = np.array([1,2,3])
y_i = np.array([0,0,3])
#calculate_eqm(y_prediction,y_i)

In [15]:
# Solução

def calculate_eqm(y_previsto,y_observado):
    return (np.square(y_previsto-y_observado).sum())/y_previsto.size
    
print(calculate_eqm(y_prediction,y_i))

1.6666666666666667


**2.** A eletroencefalografia (EEG) é uma técnica que mensura potenciais elétricos cerebrais em diversas regiões do escalpo do paciente. Suponha que você recebeu um conjunto de dados na forma de uma matriz de 64 x 512 elementos, em que cada linha contém o sinal gravado em um dos **eletrodos** espalhados pelo escalpo em um exame de EEG, e cada coluna contém um valor de potencial elétrico, em microvolts. 

Como o sinal de EEG é muito suscetível a ruídos externos (interferências na qualidade do sinal), uma operação comum para atenuar a interferência no sinal consiste em tirar a média do potencial elétrico de todos os eletrodos, e subtrair este valor de cada um deles. Isto atenua fontes de ruído ao sinal comuns a todos os eletrodos. Em termos matemáticos, o sinal processado por esta operação, $X_{e,i}$ para cada eletrodo (e) e amostra (i), é dado por:

$X_{e,i} = \hat{X_{e,i}} - \frac{1}{N}\sum_{e=1}^{N}\hat{X_{e,i}}$,

em que $\hat{X_{e,i}}$ representa o sinal original (ou seja, é a matriz de entrada de 64 x 512 elementos), e $N$ indica o total de eletrodos.

Com o exposto acima, escreva uma função que retorne uma matriz com os sinais de EEG processados conforme a operação mencionada. Sua função deve operar conforme o exemplo abaixo.

In [16]:
# vamos supor uma matriz de entrada gerada por dados aleatórios
X = np.random.randn(64,512)
X.shape # apenas para verificar as dimensões

(64, 512)

In [92]:
# a função deve executar a operação equacionada anteriormente, retornando uma nova matriz
X_processado = process_EEG_signal(X)
X_processado.shape

(64, 512)

In [93]:
# Somando as diferenças entre cada elemento das duas matrizes, apenas para ilustrar que elas não são iguais
(X_processado - X).sum()

-53.08727366483029

In [94]:
# Visualizando as matrizes, para verificar uma vez mais que, de fato, os elementos são diferentes
X

array([[ 0.29305925,  0.89663038, -0.61032202, ..., -0.88086364,
        -0.8818789 ,  0.51260497],
       [-0.01274415,  1.05439522,  0.47958092, ..., -2.15387924,
         0.70721168,  0.97029889],
       [ 1.09478371, -0.16120847,  1.58400361, ...,  0.20981813,
         2.17373837,  0.94032162],
       ...,
       [-0.45294842, -2.28939505,  1.10111998, ...,  1.63581703,
        -0.39394924, -1.13400723],
       [-0.22669886,  0.25413429, -1.17870637, ..., -0.09509442,
         0.90733806,  0.37999411],
       [ 0.15476933, -0.03654717, -1.09982762, ...,  0.67600047,
        -0.84533328, -0.56433144]])

In [95]:
# Matriz após o processamento descrito no enunciado
X_processado



array([[ 0.36713022,  0.85772513, -0.54902169, ..., -0.85626087,
        -0.97611435,  0.51718998],
       [ 0.06132682,  1.01548997,  0.54088126, ..., -2.12927647,
         0.61297623,  0.97488389],
       [ 1.16885469, -0.20011372,  1.64530394, ...,  0.23442091,
         2.07950292,  0.94490663],
       ...,
       [-0.37887744, -2.3283003 ,  1.16242031, ...,  1.6604198 ,
        -0.4881847 , -1.12942223],
       [-0.15262788,  0.21522904, -1.11740604, ..., -0.07049164,
         0.81310261,  0.38457911],
       [ 0.22884031, -0.07545242, -1.03852729, ...,  0.70060324,
        -0.93956874, -0.55974643]])

In [17]:
# Solução
def process_EEG_signal(X):
    return(X - np.mean(X))

**3.** Em estatística, um **outlier** é um valor que destoa consideravelmente da distribuição à qual está associado. Um dos critérios para idenficar outliers consiste em encontrar a **distância interquantil** (IQR), ou seja, a diferença entre o terceiro (Q3) e o primeiro quartis (Q1) da distribuição, e tomar como outliers todos os pontos abaixo de 1.5*IQR - Q1, ou acima de 1.5*IQR + Q3.

<img src = "https://blog.curso-r.com/images/posts/banner/outlier.webp" />

Escreva uma função que, dada uma matriz de dados de entrada de dimensões $N_{observações} \times N_{features}$ retorne três requisitos: 
- uma matriz booleana indicando a existência de outliers nos dados de entrada;
- a quantidade de outliers
- quem são os outliers (os valores).

**Algumas definições:**
- um *quantil* divide a distribuição, após ordenados os pontos, segundo algum ponto de corte;
- o **primeiro quartil** é o ponto para o qual 25 % dos valores da distribuição estão abaixo dele;
- o **terceiro quartil** é o ponto para o qual 75 % dos valores da distribuição estão abaixo dele.

Pode ser útil consultar a função **numpy.quantile**.

Exemplo de operação da função:

In [43]:
# Geremos um conjunto de dados qualquer
import numpy as np
X = np.random.randn(300,15)
np.quantile(X, q = 0.25)

-0.6814420872832861

In [71]:
# identificamos os requisitos com nossa com nossa função "locate_outliers"
is_outlier, outliers_count, outliers = locate_outliers(X)

In [13]:
(X > 0.2) or   (X < 0.1)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [72]:
print(is_outlier)
print(outliers_count)
print(outliers)

[[False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]
 ...
 [False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]]
22
[-2.85159314 -2.84403778 -3.10966935 -2.88100925 -3.13008592 -2.97711732
  2.86918492 -3.01457685  3.30011415  3.0813314  -2.94625226 -2.75619396
  2.93581601 -2.70665446  2.93506703 -2.99292848 -3.05254233  3.04557873
 -3.16393174 -3.24245897  2.6989846   2.69913543]


In [70]:
# Solução
#is_outlier, outliers_count, outliers = locate_outliers(X)

def locate_outliers(X):
    iqr = np.quantile(X, q = 0.75) - np.quantile(X, q = 0.25)

    is_outlier = (X > (1.5*iqr + np.quantile(X, q = 0.75))) | (X < (-1.5 * iqr + np.quantile(X, q = 0.25)))

    outliers_count = is_outlier.sum()

    outliers = X[is_outlier]
    return(is_outlier, outliers_count, outliers  )
    