#Exercícios

**1.** Em uma **análise de regressão**, usualmente estamos interessados em descrever relações entre variáveis de um dado conjunto de dados por meio de uma **função** que descreva, o tanto quanto possível, estas relações.

Por exemplo, no gráfico abaixo, os pontos vermelhos relacionam as medidas das duas variáveis sendo avaliadas (nos eixos x e y); e a linha azul aproxima a relação entre elas por uma função linear.

![Normdist_regression.png](attachment:Normdist_regression.png)

É possível ver que nem todos os pontos obedecem exatamente à relação ditada pela reta (isto é, há pontos que não estão exatamente "sobre a reta"; mas, sim, ligeraimente acima, ou abaixo, dela). Isto, contudo, é esperado em um modelo de regressão, por inúmeras fontes de incerteza associadas às medições.

Uma das métricas que utilizamos para avaliar a qualidade de uma regressão é o **erro quadrático médio (EQM)**, que mensura a diferença total entre cada predição da regressão ($y_{prediction}$; que no nosso caso seriam os valores de y para a reta azul) com o valor real de cada i-ésima medida ($y_{i}$; que no nosso caso seriam as coordenadas y para cada ponto vermelho do gráfico). O EQM pode ser definido como:

$EQM = \frac{1}{n}\sum_{i=1}^{n}(y_{prediction} - y_{i})^2$.

In [None]:
import numpy as np

In [None]:
# Solução
def calculate_eqm(y_prediction, y_i):
  return ((y_prediction - y_i)**2).sum()/(len(y_prediction)) 

In [None]:
# dados dois arrays quaisquer de mesmo tamanho, a função deve retornar o EQM
y_prediction = np.array([1,2,3])
y_i = np.array([0,0,3])
calculate_eqm(y_prediction,y_i)

1.6666666666666667

Isto posto, escreva uma função que calcule o EQM recebendo, como entrada, os vetores $y_{prediction}$ e $y_{i}$. Por exemplo, digamos que sua função se chame *calculate_eqm*, ela deve operar da seguinte forma:

**2.** A eletroencefalografia (EEG) é uma técnica que mensura potenciais elétricos cerebrais em diversas regiões do escalpo do paciente. Suponha que você recebeu um conjunto de dados na forma de uma matriz de 64 x 512 elementos, em que cada linha contém o sinal gravado em um dos **eletrodos** espalhados pelo escalpo em um exame de EEG, e cada coluna contém um valor de potencial elétrico, em microvolts. 

Como o sinal de EEG é muito suscetível a ruídos externos (interferências na qualidade do sinal), uma operação comum para atenuar a interferência no sinal consiste em tirar a média do potencial elétrico de todos os eletrodos, e subtrair este valor de cada um deles. Isto atenua fontes de ruído ao sinal comuns a todos os eletrodos. Em termos matemáticos, o sinal processado por esta operação, $X_{e,i}$ para cada eletrodo (e) e amostra (i), é dado por:

$X_{e,i} = \hat{X_{e,i}} - \frac{1}{N}\sum_{e=1}^{N}\hat{X_{e,i}}$,

em que $\hat{X_{e,i}}$ representa o sinal original (ou seja, é a matriz de entrada de 64 x 512 elementos), e $N$ indica o total de eletrodos.

Com o exposto acima, escreva uma função que retorne uma matriz com os sinais de EEG processados conforme a operação mencionada. Sua função deve operar conforme o exemplo abaixo.

In [None]:
def process_EEG_signal(X):
  return np.array(X - np.mean(X))

In [None]:
# vamos supor uma matriz de entrada gerada por dados aleatórios
X = np.random.randn(64,512)
X.shape # apenas para verificar as dimensões

(64, 512)

In [None]:
X

array([[-0.34340667,  1.70159326, -1.18396214, ...,  0.03782556,
        -0.1374089 , -0.80664202],
       [ 0.12302128,  0.27381743, -1.07436573, ..., -0.78211741,
         0.55897694, -0.28474213],
       [ 1.70677281,  1.26918669,  0.04587282, ...,  0.33520974,
         0.89856022,  1.06705665],
       ...,
       [ 0.54898826, -0.88995348,  1.67628333, ..., -1.22027518,
        -1.60648204, -0.03189539],
       [-0.43866139,  0.06701396, -0.1484072 , ...,  0.06511421,
        -0.31428265,  0.79731154],
       [ 1.68678545,  1.11025891,  1.65690923, ...,  0.90236112,
         0.450053  , -0.47115322]])

In [None]:
# a função deve executar a operação equacionada anteriormente, retornando uma nova matriz
X_processado = process_EEG_signal(X)
X_processado

array([[-0.34056229,  1.70443765, -1.18111776, ...,  0.04066995,
        -0.13456451, -0.80379764],
       [ 0.12586567,  0.27666182, -1.07152135, ..., -0.77927303,
         0.56182133, -0.28189774],
       [ 1.70961719,  1.27203107,  0.04871721, ...,  0.33805412,
         0.90140461,  1.06990104],
       ...,
       [ 0.55183264, -0.8871091 ,  1.67912772, ..., -1.2174308 ,
        -1.60363765, -0.029051  ],
       [-0.435817  ,  0.06985835, -0.14556281, ...,  0.0679586 ,
        -0.31143826,  0.80015592],
       [ 1.68962983,  1.1131033 ,  1.65975361, ...,  0.90520551,
         0.45289738, -0.46830883]])

In [None]:
X_processado.shape

(64, 512)

In [None]:
# Somando as diferenças entre cada elemento das duas matrizes, apenas para ilustrar que elas não são iguais
(X_processado - X).sum()

93.20483816707565

In [None]:
# Visualizando as matrizes, para verificar uma vez mais que, de fato, os elementos são diferentes
X

array([[-0.34340667,  1.70159326, -1.18396214, ...,  0.03782556,
        -0.1374089 , -0.80664202],
       [ 0.12302128,  0.27381743, -1.07436573, ..., -0.78211741,
         0.55897694, -0.28474213],
       [ 1.70677281,  1.26918669,  0.04587282, ...,  0.33520974,
         0.89856022,  1.06705665],
       ...,
       [ 0.54898826, -0.88995348,  1.67628333, ..., -1.22027518,
        -1.60648204, -0.03189539],
       [-0.43866139,  0.06701396, -0.1484072 , ...,  0.06511421,
        -0.31428265,  0.79731154],
       [ 1.68678545,  1.11025891,  1.65690923, ...,  0.90236112,
         0.450053  , -0.47115322]])

In [None]:
# Matriz após o processamento descrito no enunciado
X_processado

array([[-0.34056229,  1.70443765, -1.18111776, ...,  0.04066995,
        -0.13456451, -0.80379764],
       [ 0.12586567,  0.27666182, -1.07152135, ..., -0.77927303,
         0.56182133, -0.28189774],
       [ 1.70961719,  1.27203107,  0.04871721, ...,  0.33805412,
         0.90140461,  1.06990104],
       ...,
       [ 0.55183264, -0.8871091 ,  1.67912772, ..., -1.2174308 ,
        -1.60363765, -0.029051  ],
       [-0.435817  ,  0.06985835, -0.14556281, ...,  0.0679586 ,
        -0.31143826,  0.80015592],
       [ 1.68962983,  1.1131033 ,  1.65975361, ...,  0.90520551,
         0.45289738, -0.46830883]])

**3.** Em estatística, um **outlier** é um valor que destoa consideravelmente da distribuição à qual está associado. Um dos critérios para idenficar outliers consiste em encontrar a **distância interquantil** (IQR), ou seja, a diferença entre o terceiro (Q3) e o primeiro quartis (Q1) da distribuição, e tomar como outliers todos os pontos abaixo de 1.5*IQR - Q1, ou acima de 1.5*IQR + Q3.

<img src = "https://blog.curso-r.com/images/posts/banner/outlier.webp" />

Escreva uma função que, dada uma matriz de dados de entrada de dimensões $N_{observações} \times N_{features}$ retorne três requisitos: 
- uma matriz booleana indicando a existência de outliers nos dados de entrada;
- a quantidade de outliers
- quem são os outliers (os valores).

**Algumas definições:**
- um *quantil* divide a distribuição, após ordenados os pontos, segundo algum ponto de corte;
- o **primeiro quartil** é o ponto para o qual 25 % dos valores da distribuição estão abaixo dele;
- o **terceiro quartil** é o ponto para o qual 75 % dos valores da distribuição estão abaixo dele.

Pode ser útil consultar a função **numpy.quantile**.

Exemplo de operação da função:

In [88]:
# Geremos um conjunto de dados qualquer
X = np.random.randn(300,15)
X

array([[ 0.20141787, -0.69407966,  0.22043301, ..., -0.75403091,
         0.2827192 ,  0.64998112],
       [-1.43741868,  0.11964739, -0.42762249, ..., -0.7562655 ,
        -1.19170576,  1.71820134],
       [-0.95674341, -0.98971398,  0.52113542, ..., -1.22918926,
        -1.51956699,  0.41115414],
       ...,
       [-0.14598578,  1.17622023,  0.48422146, ..., -1.03914779,
         0.38738659, -1.23787045],
       [ 0.75439196, -2.15088394,  0.11704892, ..., -0.62802926,
         0.79499458, -1.80147433],
       [-0.52495946,  1.48778581, -0.83356323, ...,  2.03116274,
        -0.69658041, -0.22087872]])

In [123]:
def is_outlier(X):
  q1 = np.quantile(X, .25)
  q3 = np.quantile(X, .75)
  qr = q3 - q1
  out1 = q1 - qr*1.5
  out3 = q3 + qr*1.5
  outx = ((X > out3) | (X < out1))
  return outx

In [124]:
is_outlier(X)

array([[False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       ...,
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False]])

In [127]:
def outliers_count(X):
  q1 = np.quantile(X, .25)
  q3 = np.quantile(X, .75)
  qr = q3 - q1
  out1 = q1 - qr*1.5
  out3 = q3 + qr*1.5
  outx = ((X > out3) | (X < out1))
  return X[outx].size

In [129]:
outliers_count(X)

23

In [125]:
def outliers(X):
  q1 = np.quantile(X, .25)
  q3 = np.quantile(X, .75)
  qr = q3 - q1
  out1 = q1 - qr*1.5
  out3 = q3 + qr*1.5
  outx = ((X > out3) | (X < out1))
  return X[outx]

In [126]:
outliers(X)

array([-3.33864718, -3.05163787,  2.76260975, -3.32459185, -2.73487784,
        2.87653509, -2.93475813, -3.33298393,  4.00286729, -2.99937681,
       -2.97288104,  3.33989247,  2.78659606,  3.24429867, -3.09683765,
        2.75486293, -2.74152242,  2.93107669, -2.81681976,  2.83293134,
       -3.34324718, -3.0102005 ,  3.02935423])

In [130]:
def locate_outliers(X):
  print(is_outlier(X))
  print(outliers_count(X))
  print(outliers(X))

In [132]:
locate_outliers(X)

[[False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]
 ...
 [False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]]
23
[-3.33864718 -3.05163787  2.76260975 -3.32459185 -2.73487784  2.87653509
 -2.93475813 -3.33298393  4.00286729 -2.99937681 -2.97288104  3.33989247
  2.78659606  3.24429867 -3.09683765  2.75486293 -2.74152242  2.93107669
 -2.81681976  2.83293134 -3.34324718 -3.0102005   3.02935423]
