## Vamos praticar?

Em grupos, resolvam os exercícios a seguir.

**1.** Em uma **análise de regressão**, usualmente estamos interessados em descrever relações entre variáveis de um dado conjunto de dados por meio de uma **função** que descreva, o tanto quanto possível, estas relações.

Por exemplo, no gráfico abaixo, os pontos vermelhos relacionam as medidas das duas variáveis sendo avaliadas (nos eixos x e y); e a linha azul aproxima a relação entre elas por uma função linear.

![Normdist_regression.png](attachment:Normdist_regression.png)

É possível ver que nem todos os pontos obedecem exatamente à relação ditada pela reta (isto é, há pontos que não estão exatamente "sobre a reta"; mas, sim, ligeraimente acima, ou abaixo, dela). Isto, contudo, é esperado em um modelo de regressão, por inúmeras fontes de incerteza associadas às medições.

Uma das métricas que utilizamos para avaliar a qualidade de uma regressão é o **erro quadrático médio (EQM)**, que mensura a diferença total entre cada predição da regressão ($y_{prediction}$; que no nosso caso seriam os valores de y para a reta azul) com o valor real de cada i-ésima medida ($y_{i}$; que no nosso caso seriam as coordenadas y para cada ponto vermelho do gráfico). O EQM pode ser definido como:

$EQM = \frac{1}{n}\sum_{i=1}^{n}(y_{prediction} - y_{i})^2$.

Isto posto, escreva uma função que calcule o EQM recebendo, como entrada, os vetores $y_{prediction}$ e $y_{i}$. Por exemplo, digamos que sua função se chame *calculate_eqm*, ela deve operar da seguinte forma:

In [4]:
# dados dois arrays quaisquer de mesmo tamanho, a função deve retornar o EQM
y_prediction = np.array([1,2,3])
y_i = np.array([0,0,3])
calculate_eqm(y_prediction,y_i)

1.6666666666666667

In [None]:
# Solução

In [3]:
import numpy as np
def calculate_eqm(y_prediction,y_i):
  return (((y_prediction - y_i)**2).sum())/y_prediction.size

In [7]:
calculate_eqm(np.array([1,2,3]),np.array([0,0,3]))

1.6666666666666667

**2.** A eletroencefalografia (EEG) é uma técnica que mensura potenciais elétricos cerebrais em diversas regiões do escalpo do paciente. Suponha que você recebeu um conjunto de dados na forma de uma matriz de 64 x 512 elementos, em que cada linha contém o sinal gravado em um dos **eletrodos** espalhados pelo escalpo em um exame de EEG, e cada coluna contém um valor de potencial elétrico, em microvolts. 

Como o sinal de EEG é muito suscetível a ruídos externos (interferências na qualidade do sinal), uma operação comum para atenuar a interferência no sinal consiste em tirar a média do potencial elétrico de todos os eletrodos, e subtrair este valor de cada um deles. Isto atenua fontes de ruído ao sinal comuns a todos os eletrodos. Em termos matemáticos, o sinal processado por esta operação, $X_{e,i}$ para cada eletrodo (e) e amostra (i), é dado por:

$X_{e,i} = \hat{X_{e,i}} - \frac{1}{N}\sum_{e=1}^{N}\hat{X_{e,i}}$,

em que $\hat{X_{e,i}}$ representa o sinal original (ou seja, é a matriz de entrada de 64 x 512 elementos), e $N$ indica o total de eletrodos.

Com o exposto acima, escreva uma função que retorne uma matriz com os sinais de EEG processados conforme a operação mencionada. Sua função deve operar conforme o exemplo abaixo.

In [11]:
# vamos supor uma matriz de entrada gerada por dados aleatórios
X = np.random.randn(64,512)
X.shape # apenas para verificar as dimensões

(64, 512)

In [14]:
# a função deve executar a operação equacionada anteriormente, retornando uma nova matriz
X_processado = process_EEG_signal(X)
X_processado.shape

(64, 512)

In [15]:
# Somando as diferenças entre cada elemento das duas matrizes, apenas para ilustrar que elas não são iguais
(X_processado - X).sum()

206.14095288134456

In [16]:
# Visualizando as matrizes, para verificar uma vez mais que, de fato, os elementos são diferentes
X

array([[ 0.57430346,  0.08936506, -1.46032163, ..., -0.75434204,
         0.18995094,  0.54583611],
       [ 1.45379076, -0.94533348, -0.63880554, ..., -0.46497218,
         0.70758156,  0.13872607],
       [ 0.66311823, -0.85944194,  0.68644643, ..., -0.55910956,
        -0.31861367, -0.25926174],
       ...,
       [ 0.05082036, -1.09153442, -0.01908577, ..., -0.60208308,
        -0.20733395,  1.9125424 ],
       [-1.33291363,  0.58527041, -0.21514636, ...,  0.44830688,
        -1.46717407, -0.84984173],
       [ 0.81093158, -0.33094225,  0.12651271, ..., -1.95473653,
        -0.18237973, -1.2810279 ]])

In [17]:
# Matriz após o processamento descrito no enunciado
X_processado

array([[ 0.58059438,  0.09565598, -1.4540307 , ..., -0.74805112,
         0.19624186,  0.55212704],
       [ 1.46008168, -0.93904256, -0.63251462, ..., -0.45868126,
         0.71387248,  0.14501699],
       [ 0.66940915, -0.85315101,  0.69273735, ..., -0.55281864,
        -0.31232275, -0.25297082],
       ...,
       [ 0.05711128, -1.0852435 , -0.01279485, ..., -0.59579216,
        -0.20104303,  1.91883332],
       [-1.3266227 ,  0.59156133, -0.20885544, ...,  0.4545978 ,
        -1.46088314, -0.84355081],
       [ 0.8172225 , -0.32465132,  0.13280363, ..., -1.94844561,
        -0.17608881, -1.27473698]])

In [None]:
# Solução

In [13]:
import numpy as np
def process_EEG_signal(X):
  return X - X.mean()

**3.** Em estatística, um **outlier** é um valor que destoa consideravelmente da distribuição à qual está associado. Um dos critérios para idenficar outliers consiste em encontrar a **distância interquantil** (IQR), ou seja, a diferença entre o terceiro (Q3) e o primeiro quartis (Q1) da distribuição, e tomar como outliers todos os pontos abaixo de 1.5*IQR - Q1, ou acima de 1.5*IQR + Q3.

<img src = "https://blog.curso-r.com/images/posts/banner/outlier.webp" />

Escreva uma função que, dada uma matriz de dados de entrada de dimensões $N_{observações} \times N_{features}$ retorne três requisitos: 
- uma matriz booleana indicando a existência de outliers nos dados de entrada;
- a quantidade de outliers
- quem são os outliers (os valores).

**Algumas definições:**
- um *quantil* divide a distribuição, após ordenados os pontos, segundo algum ponto de corte;
- o **primeiro quartil** é o ponto para o qual 25 % dos valores da distribuição estão abaixo dele;
- o **terceiro quartil** é o ponto para o qual 75 % dos valores da distribuição estão abaixo dele.

Pode ser útil consultar a função **numpy.quantile**.

Exemplo de operação da função:

In [None]:
# Geremos um conjunto de dados qualquer
X = np.random.randn(300,15)
X

array([[-2.02108952,  0.57945921, -2.23074965, ..., -0.60349514,
         0.92180452, -0.15625722],
       [ 0.24904397,  0.03493447,  0.3515052 , ..., -0.46950081,
         0.20361331,  0.02715956],
       [ 0.55902525, -0.48435434,  0.90413414, ..., -0.54425743,
        -0.80769134, -0.07912549],
       ...,
       [-1.04069388, -0.24245725, -2.00308877, ...,  0.4084777 ,
        -1.81516131,  0.39063118],
       [-1.39275097,  0.3989636 ,  0.2926223 , ...,  1.2620666 ,
         0.72262949,  1.50737559],
       [ 0.15922011, -0.79810788, -1.60939896, ..., -0.08214499,
        -0.13167475,  0.15990558]])

In [None]:
# identificamos os requisitos com nossa com nossa função "locate_outliers"
is_outlier, outliers_count, outliers = locate_outliers(X)

In [None]:
is_outlier

array([[False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       ...,
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False]])

In [None]:
outliers_count

44

In [None]:
outliers

array([-2.67240384,  3.00270904,  3.62317101,  3.18867865,  2.55581522,
       -2.82091429,  2.8757892 ,  2.70666036,  3.19514999, -3.40550318,
       -3.39825827,  2.6727295 ,  2.54498296, -2.69447104,  3.19521603,
        2.66372172, -2.77444948,  2.77421152,  2.69992869, -2.84831109,
       -2.83695779, -2.45908227,  3.07802106,  2.89314015, -2.68574682,
       -2.85019494,  2.43399574,  2.44291266, -2.92595937, -2.95911074,
       -3.03966003,  2.77543068, -2.67368414, -2.79965402, -3.0501958 ,
       -2.5437387 ,  3.08550649, -3.17666255, -3.05795476, -3.09826467,
        3.1399469 ,  3.18141942,  2.90564257, -2.89505054])

In [None]:
# Solução

In [76]:
def locate_outliers (X):
  is_outlier = [(X < (1.5*(np.quantile(X, 0.75) - np.quantile(X, 0.25))) - (np.quantile(X,0.25))) & (X > (1.5*(np.quantile(X, 0.75) - np.quantile(X, 0.25))) + (np.quantile(X,0.75)))]
  outliers = X[(X < (1.5*(np.quantile(X, 0.75) - np.quantile(X, 0.25))) - (np.quantile(X,0.25))) & (X > (1.5*(np.quantile(X, 0.75) - np.quantile(X, 0.25))) + (np.quantile(X,0.75)))]
  outliers_count = outliers.size
  return print(f"is_outlier:\n{is_outlier} \n \noutliers_count:\n{outliers_count} \n \noutliers:\n{outliers}")

X = np.random.randn(300,15)
locate_outliers(X)


is_outlier:
[array([[False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       ...,
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False]])] 
 
outliers_count:
4 
 
outliers:
[2.68872949 2.67964166 2.66123224 2.6887699 ]
