<font  size="5" color="green"><strong>DETECTOR AUTOMATIZADO DE OUTLIERS - ciência dos dados</strong></font>

Tutorial for improve skills: 'DETECTOR AUTOMATIZADO DE OUTLIERS' (from ciência dos dados) by Marcus Mariano

**For more information about Marcus Mariano: [Web site](https://marcusmariano.github.io/mmariano/)**  

**DETECTOR AUTOMATIZADO DE OUTLIERS: ciência dos dados [YouTube](https://www.youtube.com/watch?v=WH6_pWe2_r0&t=52s)** 


![alt text](https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcTK4gQ9nhwHHaSXMHpeggWg7twwMCgb877smkRmtkmDeDoGF9Z6&usqp=CAU)
# <font color='Green'>Dicas e Truques de Ciência de Dados</font>

# <font color='BLUE'> Detecção de Outliers</font>

![](http://justoutsidetheboxcartoon.com/wp-content/uploads/2017/10/The-outlier-6001.gif)

![](https://media.giphy.com/media/Q8DKTx3CIBMQ0WBaog/giphy.gif)

# Um outlier é uma terminologia comumente usada por analistas e cientistas de dados porque requer atenção especial, caso contrário, pode levar a estimativas totalmente erradas.

#A  detecção de valores discrepantes é uma observação que parece muito distante e diverge de um padrão geral em uma amostra.

![](https://www.itl.nist.gov/div898/handbook/prc/section1/prc16_r01.gif)

# Um outlier é uma observação numericamente distante do resto dos dados ou, em poucas palavras, é o valor que está fora do intervalo.

![](http://playfairdata.com/wp-content/uploads/2021/08/How-and-Why-to-Make-Box-Plots-in-Tableau.gif)

![](https://cienciadosdados.com/images/2021/Thumbs/Outliers.png)

Como você pode ver, o conjunto de dados com valores discrepantes tem uma média e um desvio padrão significativamente diferentes. No primeiro cenário, diremos que a média é 3,14. Mas com o outlier, a média sobe para 59,71. Isso mudaria completamente a estimativa.

Vamos dar um exemplo concreto de um outlier. Em uma empresa de 50 funcionários, 45 pessoas com um salário mensal de Rs. 6.000, 5 idosos com um salário mensal de Rs. 100000 cada. Se você calcular o salário médio mensal dos funcionários da empresa é de 14.500 rúpias, o que vai te dar uma má conclusão.


Mas se você pegar o salário médio, é Rs.6000, que é mais sensível do que a média. Por esse motivo, a mediana é uma medida apropriada para a média. Aqui você pode ver o efeito de um outlier.

![](https://miro.medium.com/max/602/1*E1YMlWSYsNvWsm5JLkH1Ag.jpeg)


Agora, vamos dar uma olhada rápida nas principais causas de valores discrepantes antes de começar a tarefa de detecção de valores discrepantes:

Erros de entrada de dados: 

* erros humanos, como erros causados ​​durante a coleta, registro ou entrada de dados, podem causar discrepâncias nos dados.

* Erros de medição: é a fonte mais comum de outliers. Isso ocorre quando o instrumento de medição usado apresenta defeito.

* Outliers naturais: quando um outlier não é artificial (devido a erro), é um outlier natural. A maioria dos dados do mundo real pertence a esta categoria.

## Detecção de outlier em aprendizado de máquina usando teste de hipóteses
![](https://lh3.googleusercontent.com/proxy/AJ7OJEHOufzWGs8Aixt3axJRImJBx6gNyl2adYkS9lMF_1SwKFZOk8ZZiiv6b1OB1xalb8TRI7c7kHfk4F1PXHjPYrq2hQr3WcnKJZ0tFzdHvAqgpAxG-4DW_5eYM3ezvEna8WakRMzdAp7DYxw3VyooryOz3oLlePrFUTMhkDZu7d0)

Um outlier pode ser de dois tipos: univariado e multivariado. Acima, discutimos o exemplo de um outlier univariado. Esses outliers podem ser encontrados quando olhamos para a distribuição de uma única variável. Outliers multivariados são outliers em um espaço n-dimensional.

O **teste de hipóteses** é uma técnica comum para detectar outliers no aprendizado de máquina. O teste de hipótese é um método de testar uma afirmação ou hipótese sobre um parâmetro em uma população, usando dados medidos em uma amostra. 

Nesse método, testamos uma hipótese determinando a probabilidade de que uma estatística amostral pudesse ter sido selecionada, se a hipótese sobre o parâmetro populacional fosse verdadeira.

O objetivo do teste de hipótese é determinar a probabilidade de que um parâmetro populacional, como a média, seja verdadeiro. Existem quatro etapas no teste de hipótese:

1. Declare as suposições.
2. Defina os critérios para uma decisão.
3. Calcule a estatística de teste.
4. Tomar uma decisão.

# Pilares da Ciência Moderna
![](https://techcrunch.com/wp-content/uploads/2019/11/spacex-starlink-lift-off.gif?w=680) 

![](https://thumbs.gfycat.com/DisloyalFaintAmericanmarten-max-1mb.gif)

## Um dos principais problemas do aprendizado de máquina é um outlier. Se você negligenciar os valores discrepantes nos dados, isso resultará no baixo desempenho do seu modelo de aprendizado de máquina, da sua Máquina Preditiva. 



![](https://cienciadosdados.com/images/2021/Thumbs/Grubbs.png)

### 1. Importação dos Pacotes

In [1]:
import numpy as np
import scipy.stats as stats

### 2. Criando 2 variáveis (x e y) só para testar

In [9]:
x = np.array([12,13,14,19,21,23,405])

In [10]:
y = np.array([12,13,14,19,21,23,405])

### 3. Criando um Detector de Outliers

In [11]:
def outliers_test(x):

    ################################################
    n = len(x)

    mean_x = np.mean(x)

    sd_x = np.std(x)

    numerator = max(abs(x-mean_x))

    g_calculated = numerator/sd_x


    ### Valor Calculado
    print("Grubbs Valor Calculado:", g_calculated)

    ################################################

    # Teste "T"
    t_value = stats.t.ppf(1 - 0.05 / (2 * n), n - 2)


    # Fórmula de Grubbs
    g_critical = ((n - 1) * np.sqrt(np.square(t_value))) / (np.sqrt(n) * np.sqrt(n - 2 + np.square(t_value)))


    ### Valor Crítico
    print("Grubbs Valor Crítico:", g_critical)
    
    
    
    ################################################

    # Avaliando o Resultado do Teste de Grubbs para confirmar se pode existir Outliers
    if g_critical > g_calculated:
       print("Para a Variável X , observamos que o valor calculado é menor que o valor Crítico. Aceitamos a Hipótese de que NÃO há outliers\n")
    else:
       print("Para a Variável Y , observamos que o valor calculado é MAIOR que o valor Crítico. Confirmamos a Hipótese de que HÁ outliers\n")




outliers_test(x)
outliers_test(y)

Grubbs Valor Calculado: 2.4484842768384905
Grubbs Valor Crítico: 2.019968507680656
Para a Variável Y , observamos que o valor calculado é MAIOR que o valor Crítico. Confirmamos a Hipótese de que HÁ outliers

Grubbs Valor Calculado: 2.4484842768384905
Grubbs Valor Crítico: 2.019968507680656
Para a Variável Y , observamos que o valor calculado é MAIOR que o valor Crítico. Confirmamos a Hipótese de que HÁ outliers



#Fim

## Valeu!

### # Onde me Encontrar - Ciência dos Dados <a href="https://linktr.ee/cienciadosdados">https://linktr.ee/cienciadosdados</a>

In [None]:
from IPython.core.display import HTML
HTML('<iframe width="600" height="380" src="https://www.youtube.com/embed/npOQwX2QCbw" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')