<a href="https://colab.research.google.com/github/rafaelzucchi/exercicio_30_01/blob/branch_1/exercicios_30_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**1.** Em uma **análise de regressão**, usualmente estamos interessados em descrever relações entre variáveis de um dado conjunto de dados por meio de uma **função** que descreva, o tanto quanto possível, estas relações.

Por exemplo, no gráfico abaixo, os pontos vermelhos relacionam as medidas das duas variáveis sendo avaliadas (nos eixos x e y); e a linha azul aproxima a relação entre elas por uma função linear.

É possível ver que nem todos os pontos obedecem exatamente à relação ditada pela reta (isto é, há pontos que não estão exatamente "sobre a reta"; mas, sim, ligeraimente acima, ou abaixo, dela). Isto, contudo, é esperado em um modelo de regressão, por inúmeras fontes de incerteza associadas às medições.

Uma das métricas que utilizamos para avaliar a qualidade de uma regressão é o **erro quadrático médio (EQM)**, que mensura a diferença total entre cada predição da regressão ($y_{prediction}$; que no nosso caso seriam os valores de y para a reta azul) com o valor real de cada i-ésima medida ($y_{i}$; que no nosso caso seriam as coordenadas y para cada ponto vermelho do gráfico). O EQM pode ser definido como:

$EQM = \frac{1}{n}\sum_{i=1}^{n}(y_{prediction} - y_{i})^2$.

Isto posto, escreva uma função que calcule o EQM recebendo, como entrada, os vetores $y_{prediction}$ e $y_{i}$. Por exemplo, digamos que sua função se chame *calculate_eqm*, ela deve operar da seguinte forma:

In [1]:
import numpy as np

In [3]:
# dados dois arrays quaisquer de mesmo tamanho, a função deve retornar o EQM
y_prediction = np.array([1,2,3])
y_i = np.array([0,0,3])
calculate_eqm(y_prediction,y_i)

1.6666666666666665

In [2]:
#solução:

def calculate_eqm(y_prediction,y_i):
    return (1/len(y_prediction)) * sum((y_prediction - y_i)**2)

**2.** A eletroencefalografia (EEG) é uma técnica que mensura potenciais elétricos cerebrais em diversas regiões do escalpo do paciente. Suponha que você recebeu um conjunto de dados na forma de uma matriz de 64 x 512 elementos, em que cada linha contém o sinal gravado em um dos **eletrodos** espalhados pelo escalpo em um exame de EEG, e cada coluna contém um valor de potencial elétrico, em microvolts. 

Como o sinal de EEG é muito suscetível a ruídos externos (interferências na qualidade do sinal), uma operação comum para atenuar a interferência no sinal consiste em tirar a média do potencial elétrico de todos os eletrodos, e subtrair este valor de cada um deles. Isto atenua fontes de ruído ao sinal comuns a todos os eletrodos. Em termos matemáticos, o sinal processado por esta operação, $X_{e,i}$ para cada eletrodo (e) e amostra (i), é dado por:

$X_{e,i} = \hat{X_{e,i}} - \frac{1}{N}\sum_{e=1}^{N}\hat{X_{e,i}}$,

em que $\hat{X_{e,i}}$ representa o sinal original (ou seja, é a matriz de entrada de 64 x 512 elementos), e $N$ indica o total de eletrodos.

Com o exposto acima, escreva uma função que retorne uma matriz com os sinais de EEG processados conforme a operação mencionada. Sua função deve operar conforme o exemplo abaixo.

In [4]:
# vamos supor uma matriz de entrada gerada por dados aleatórios
X = np.random.randn(20,30)
X.shape # apenas para verificar as dimensões
#return_matriz(X)

(20, 30)

In [8]:
# a função deve executar a operação equacionada anteriormente, retornando uma nova matriz
X_processado = return_ECG(X)
X_processado.shape

(20, 30)

In [7]:
# Solução

def return_ECG(matriz):
    return (matriz - np.mean(matriz))

In [9]:
#Matriz X, sem tratamento
X

array([[-3.28170696e-01,  4.75860537e-01, -3.79012492e-01,
         3.86402354e-01,  1.44639535e+00, -4.98586685e-01,
         1.74793591e+00, -9.42888438e-01,  3.88098460e-01,
         5.81783236e-02,  1.04202160e+00, -1.48894398e+00,
         5.39759079e-01,  4.53699795e-01,  3.51549691e-01,
         4.81988394e-01, -1.00914394e+00,  2.03344255e+00,
        -6.35630434e-01,  7.31144673e-01,  3.61369037e-01,
         4.22812092e-01, -3.55297604e-01, -4.07325315e-01,
        -6.83338417e-01, -1.52794016e+00,  4.10506110e-01,
         2.01728007e+00, -7.26992362e-01,  2.02022081e+00],
       [ 2.51144400e-01,  4.52910285e-01, -4.21142883e-01,
        -9.75977760e-01,  1.04066082e+00, -9.41532079e-01,
        -1.95509915e+00,  1.11109966e+00, -5.09353639e-01,
         4.17576104e-01,  1.41037487e+00, -3.87558278e-02,
         7.18868975e-01, -1.69649622e+00,  9.94994541e-02,
        -7.79277855e-01,  2.68092724e-01, -1.59451727e+00,
        -7.19915617e-01, -8.50036022e-02,  1.79165832e+

In [10]:
X_processado

array([[-0.30228908,  0.50174216, -0.35313087,  0.41228397,  1.47227697,
        -0.47270507,  1.77381753, -0.91700682,  0.41398008,  0.08405994,
         1.06790322, -1.46306236,  0.5656407 ,  0.47958141,  0.37743131,
         0.50787001, -0.98326232,  2.05932417, -0.60974882,  0.75702629,
         0.38725066,  0.44869371, -0.32941599, -0.3814437 , -0.6574568 ,
        -1.50205854,  0.43638773,  2.04316169, -0.70111074,  2.04610243],
       [ 0.27702602,  0.4787919 , -0.39526126, -0.95009614,  1.06654244,
        -0.91565046, -1.92921753,  1.13698128, -0.48347202,  0.44345772,
         1.43625649, -0.01287421,  0.74475059, -1.6706146 ,  0.12538107,
        -0.75339624,  0.29397434, -1.56863565, -0.694034  , -0.05912198,
         1.81753994,  0.82338308, -0.12114762,  0.61099785,  0.97651697,
        -1.61552263,  1.72889791,  0.44052753, -0.60987101,  0.13257349],
       [-0.60864571, -1.34115566, -0.97030085,  1.17921458, -0.71975269,
         0.44604484,  1.41533229, -0.25212044,  0

**3.** Em estatística, um **outlier** é um valor que destoa consideravelmente da distribuição à qual está associado. Um dos critérios para idenficar outliers consiste em encontrar a **distância interquantil** (IQR), ou seja, a diferença entre o terceiro (Q3) e o primeiro quartis (Q1) da distribuição, e tomar como outliers todos os pontos abaixo de 1.5*IQR - Q1, ou acima de 1.5*IQR + Q3.

<img src = "https://blog.curso-r.com/images/posts/banner/outlier.webp" />

Escreva uma função que, dada uma matriz de dados de entrada de dimensões $N_{observações} \times N_{features}$ retorne três requisitos: 
- uma matriz booleana indicando a existência de outliers nos dados de entrada;
- a quantidade de outliers
- quem são os outliers (os valores).

**Algumas definições:**
- um *quantil* divide a distribuição, após ordenados os pontos, segundo algum ponto de corte;
- o **primeiro quartil** é o ponto para o qual 25 % dos valores da distribuição estão abaixo dele;
- o **terceiro quartil** é o ponto para o qual 75 % dos valores da distribuição estão abaixo dele.

Pode ser útil consultar a função **numpy.quantile**.

In [22]:
# Geremos um conjunto de dados qualquer
X = np.random.randn(10,15)
X

array([[ 1.31153254, -0.46826985, -0.17436581,  0.08211221, -0.54431631,
        -0.79543799,  0.0298998 ,  1.33696267,  1.99402574,  0.12269706,
         1.1437279 ,  1.25562005, -0.65382527, -0.35991917,  0.76539115],
       [ 1.60968801,  1.49249775,  0.45585169,  0.67697857, -0.17677541,
        -0.00815001,  0.13470515,  0.43832077, -0.54458645, -0.52527633,
        -1.38929793, -0.49555096, -1.31952618,  0.17954388, -1.11419725],
       [-0.83734119,  0.11831274, -0.24731186,  0.20809167,  1.47008795,
        -1.13578867, -0.54260673, -0.9557304 ,  0.1485362 , -1.9599328 ,
         0.6031699 ,  0.30778568,  0.27558417,  0.540708  ,  0.94382196],
       [ 0.01963121, -0.06368439,  2.82479849,  1.29000403,  0.2981944 ,
         0.04668475, -1.41986594, -0.26295239, -0.05186775,  0.78971597,
         1.95145884,  0.13450273, -0.83570273, -0.46591154,  0.01669429],
       [ 1.44416022, -0.29856362, -0.29510299, -0.54057062, -0.99165604,
         0.29726865, -1.06578024,  0.09624342, 

In [23]:
IQR = np.quantile(X,.75) - np.quantile(X,.25)
IQR

1.1482957523595638

In [24]:
#abaixo de 1.5*IQR - Q1, ou acima de 1.5*IQR + Q3.
(X < (1.5*IQR) - (np.quantile(X,.25))) & (X > (1.5*IQR) - (np.quantile(X,.75)))

array([[ True, False, False, False, False, False, False,  True,  True,
        False,  True,  True, False, False, False],
       [ True,  True, False, False, False, False, False, False, False,
        False, False, False, False, False, False],
       [False, False, False, False,  True, False, False, False, False,
        False, False, False, False, False, False],
       [False, False, False,  True, False, False, False, False, False,
        False,  True, False, False, False, False],
       [ True, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False],
       [ True, False, False, False, False, False,  True,  True, False,
        False,  True, False, False,  True, False],
       [False,  True, False, False, False, False, False, False, False,
        False, False, False, False, False, False],
       [ True, False, False, False, False, False, False,  True, False,
         True, False, False,  True, False, False],
       [False, False, Fa

In [25]:
np.where((X < (1.5*IQR) - (np.quantile(X,.25))) & (X > (1.5*IQR) - (np.quantile(X,.75))),X,np.nan)

array([[1.31153254,        nan,        nan,        nan,        nan,
               nan,        nan, 1.33696267, 1.99402574,        nan,
        1.1437279 , 1.25562005,        nan,        nan,        nan],
       [1.60968801, 1.49249775,        nan,        nan,        nan,
               nan,        nan,        nan,        nan,        nan,
               nan,        nan,        nan,        nan,        nan],
       [       nan,        nan,        nan,        nan, 1.47008795,
               nan,        nan,        nan,        nan,        nan,
               nan,        nan,        nan,        nan,        nan],
       [       nan,        nan,        nan, 1.29000403,        nan,
               nan,        nan,        nan,        nan,        nan,
        1.95145884,        nan,        nan,        nan,        nan],
       [1.44416022,        nan,        nan,        nan,        nan,
               nan,        nan,        nan,        nan,        nan,
               nan,        nan,        nan, 

In [26]:
((X < (1.5*IQR) - (np.quantile(X,.25))) & (X > (1.5*IQR) - (np.quantile(X,.75)))).sum()

23

In [29]:
teste = X[(X < (1.5*IQR) - (np.quantile(X,.25))) & (X > (1.5*IQR) - (np.quantile(X,.75)))]
teste

array([1.31153254, 1.33696267, 1.99402574, 1.1437279 , 1.25562005,
       1.60968801, 1.49249775, 1.47008795, 1.29000403, 1.95145884,
       1.44416022, 1.68564843, 1.35285467, 1.73102285, 2.02488881,
       1.70500879, 1.24465874, 1.585902  , 2.07276029, 1.7697053 ,
       1.48896309, 1.86152179, 1.85424194])

In [34]:
#solucao
def descomplica_outlier(arr):
  IQR = np.quantile(arr,.75) - np.quantile(arr,.25)
  is_outliers = (arr < (1.5*IQR) - (np.quantile(arr,.25))) & (arr > (1.5*IQR) - (np.quantile(arr,.75)))
  outliers_count = ((arr < (1.5*IQR) - (np.quantile(arr,.25))) & (arr > (1.5*IQR) - (np.quantile(arr,.75)))).sum()
  outliers = arr[(arr < (1.5*IQR) - (np.quantile(arr,.25))) & (arr > (1.5*IQR) - (np.quantile(arr,.75)))]
  print(is_outliers)
  print(outliers_count)
  print(outliers)
  return("funcionou")



In [35]:
descomplica_outlier(X)

[[ True False False False False False False  True  True False  True  True
  False False False]
 [ True  True False False False False False False False False False False
  False False False]
 [False False False False  True False False False False False False False
  False False False]
 [False False False  True False False False False False False  True False
  False False False]
 [ True False False False False False False False False False False False
  False False False]
 [ True False False False False False  True  True False False  True False
  False  True False]
 [False  True False False False False False False False False False False
  False False False]
 [ True False False False False False False  True False  True False False
   True False False]
 [False False False False  True False False False False False False False
  False False False]
 [False False False False False False False False False False False False
  False False  True]]
23
[1.31153254 1.33696267 1.99402574 1.1437279  1

'funcionou'