# Tutorial Outliers

In [4]:
import pandas as pd
import numpy as np

#Bibliotecas para exibição de gráficos
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objs as go
import plotly.figure_factory as ff

In [9]:
#df = pd.read_csv('data/creditcard.csv') #Caso você tenha realizado o download do dataset completo em sua máquina
df = pd.read_csv('data/creditcard_amostra.csv')
df.shape

(1000, 6)

In [10]:
df = df[0:1000][['V1', 'V2', 'V3', 'V4', 'V5', 'Class']]
df.head()

Unnamed: 0,V1,V2,V3,V4,V5,Class
0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0
1,1.191857,0.266151,0.16648,0.448154,0.060018,0
2,-1.358354,-1.340163,1.773209,0.37978,-0.503198,0
3,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,0
4,-1.158233,0.877737,1.548718,0.403034,-0.407193,0


In [7]:
df.to_csv('data/creditcard_amostra.csv', index=False) #Salvando somente uma pequena amostra do dataset na máquina local.

# Detecção de Outliers utilizando técnicas de análises univariadas e multivariadas

A detecção de outliers é o processo de encontrar objetos de dados com comportamento muito diferente do esperado. Podemos entender um outlier como um objeto que se desvia consideravelmente dos demais em um determinado conjunto de dados, e ocasiona grande influência na análise dos dados. 

Essa influência pode induzir uma análise equívoca dos dados. Se tratando de análise estatística, os dados outliers precisam ser removidos. Para outras aplicações, no entanto, o outlier pode representar alguma informação valiosa, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalias em redes de computadores, falhas mecânicas, condição clínia crítica, dentre outros eventos. Para todo caso, os outliers precisam ser identificados, independente do seu tratamento.

Há diversas técnicas que podemos aplicar para realizar a detecção dos outliers. As técnicas podem ser consideradas univariadas, isto é, a detecção é realizada considerando apenas uma única variável. Ou podem ser consideradas multivariadas, onde o algoritmo responsável considerada um grupo de variáveis para realizar a análise.

> As análises podem ser consideradas qualitativas ou quantitativas. As análises qualitativas são feitas a partir de gráficos e diagramas, de maneira visual e em alguns casos, cabe ao analista estabelecer todos os critérios para decidir se o dado é ou não um outlier. Já na análise quantitativa, a detecção dos outliers é realizada por meio de algoritmos matemáticos e estatísticos, como é o caso da amplitude interquartil ou da pontuação z-score, por exemplo.

Nesta postagem irei abordar as principais técnicas utilizadas para análises univariadas e multivariadas. São elas:
* Univariada: Boxplot;
* Univariada: Scatterplot para uma única variável;
* Univariada: Scatterplot para relação entre variáveis;
* Univariada: Método do Desvio Padrão;
* Univariada: Pontuação Z-Score;
* Univariada: IQR -Amplitude Interquartil;
* Univariada: Redução de Dimensionalidade;
* Multivariada: ABOD - Angle-Based Outlier Detection ;
* Multivariada: CBLOF - Cluster-based Local Outlier Factor;
* Multivariada: Isolation Forest;
* Multivariada: LoOP - Local Outlier Probabilities;

**Sobre os Dados**

Irei utilizar um dataset público obtido a partir do Kaggle. O dataset contempla dados sobre a detecção de fraude em cartões de crédito de uma instituição bancária. Os atributos do conjunto de dados são valores provenientes de um processo de redução de dimensionalidade, todos os dados são numéricos, para que possamos nos concentrar inteiramente no foco deste artigo. 

 no site aqui: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud

Vamos utilizar uma pequena amostra do dataset e apenas algumas colunas, para que a compreensão das técnicas utilizadas fiquem mais fáceis e simples.


## Métodos Univariados

**Métodos Qualitativos**

**Boxplot**

O Boxplot ou box plot é um diagrama de caixa construído utilizando as referências de valores mínimos e máximos, primeiro e terceiro quartil, mediana e outliers da base de dados. Seu objetivo é estudar as medidas estatística do conjunto de dados, como propriedades de variabilidade, média, outliers, valores mínimos e máximo e distribuição de quartis.

Sem mais delongas, vamos ao gráfico. Vamos analisar o atributo 'V2' do conjunto de dados:

In [8]:
px.box(y=df['V2'])

Talvez você esteja se perguntando, o que raios significa cada uma dessas linhas e pontinhos nesse diagrama. Bom, os pontinhos são os outliers desse dataset considerando esse atributo. Mas vamos com calma, irei explicar como interpretar todas as informações do diagrama.

Os limites **min** e **max** são os valores mínimo e máximo do conjunto. 

**Median (mediana)** é o valor que está exatamente no meio dos dados. Por exemplo: Se tivermos um conjunto com os valores 1, 2, 3, 4 e 5 temos que o valor 3 está exatamente no meio, portanto é a mediana do conjunto. <br/>
E se tivermos uma quantidade par de valores no conjunto? Nesse caso, a mediana seria a média aritmética entre os dois valores do centro.

Agora os quartis. Os Quartis são valores que dividem uma amostra de dados em quatro partes iguais. Com eles você pode rapidamente avaliar a dispersão e a tendência central de um conjunto de dados, que são etapas importantes na compreensão dos seus dados. Dessa forma, o **Q1 (1° quartil)** significa que 25% dos dados são menores que ou iguais a este valor e o **Q3 (3° quartil)** significa que 75% dos dados são menores que ou iguais a este valor. O **Q2 (2° quartil)** é a própria mediana.

**Lower fence** e **Upper fence** se trata dos limites inferior e superior respectivamente. Se dá pelo cálculo da distância interquartil. Irei detalhar mais adiante neste tutorial. Por ora, saiba que tudo que estiver além desses limites são considerados dados fora da normalidade, portanto, é nessa medida que devemos nos atentar quando nosso objetivo é detectar outliers por meio do diagrama de boxplot.


---

**Scatterplot (gráfico de dispersão)**

O gráfico de dispersão é normalmente utilizado quando temos dados numéricos emparelhados ou quando a variável dependente tem vários valores para cada variável independente e queremos determinar a relação entre duas variáveis. No entanto, podemos utilizar o gráfico de dispersão para auxiliar na detecção de valores outliers. Vejamos: 

In [9]:
px.scatter(x=df['V2'], y=df['V2'])

Note que temos valores com uma distância considerável dos demais. Isso pode indicar que os valores mais distantes são uma anormalidade no conjunto de dados, se tratando de valores outliers.

Agora um detalhe muito importante que quero ressaltar. Veja que não temos nenhum indicador para nos dizer qual dado se trata de um outlier. Você precisa ter em mente que ao tentar identificar outliers utilizando apenas o gráfico de dispersão, a análise se torna subjetiva e todas as inferências realizadas ficam por conta do analista.

Podemos ainda utilizar o gráfico de dispersão para analisar mais de uma variável por vez, veja o exemplo:

In [10]:
px.scatter(x=df['V1'], y=df['V2'])

De novo, a partir de onde que os dados podem ser considerados outliers? Agora estamos visualizando a relação de duas variáveis. Há valores que claramente estão longe dos demais, mas é difícil traçar uma linha exata de onde o valor é considerado um dado anormal. 

Agora vamos partir para os métodos quantitativos. Iremos calcular os valores que definem se o dado é ou não um outlier.

## Métodos Quantitativos

**Método de desvio padrão**

O desvio padrão é usado para medir a variância de um conjunto de dados, quanto menor o desvio padrão, mais homogêneos são os dados. Isso basicamente significa que quanto maior o desvio padrão, mais os dados estão "espalhados".

Outro conceito que devemos ter em mente é sobre o teorema da probabilidade que afirma que quanto maior a amostra mais próxima a distribuição amostral de sua média se aproxima de uma distribuição normal.

Se consideramos os valores distribuídos de acordo com a curva gaussiana, podemos tirar algumas conclusões importantes para o tratamento dos dados. Uma dessas conclusões é que 99,7 % dos dados estão dentro de 3 desvios padrão, e qualquer coisa fora desse intervalo de confiança é considerada um valor atípico.

<img src="resources/img01.png"/>

Vejamos o gráfico considerando os valores que estão mais e menos de três desvios padrão de distância da média.

In [11]:
# Obtendo a média do atributo V2 no conjunto
mean = np.mean(df['V2'])
# Otendo o desvio padrão do atributo V2 
std = np.std(df['V2']) 

# Limite inferior: Diferença entre a média e três vezes o valor do desvio padrão
lower = mean - (3 * std) 
# Limite superior: Soma entre a média e três vezes o valor do desvio padrão
upper = mean + (3 * std) 

# Vamos criar uma coluna no dataset chamada de outlier e atribuir 1 para os valores outliers
# e 0 para os valores inliers
df.loc[(df['V2'] < lower) | (df['V2'] > upper), 'outlier']  = '1' 
df.loc[(df['V2'] >= lower) & (df['V2'] <= upper), 'outlier'] = '0' 


In [12]:
print(f'Média: {round(mean, 2)}')
print(f'Desvio Padrão: {round(std, 2)}')

px.scatter(x=df['V2'], y=df['V2'], color=df['outlier'])

Média: 0.22
Desvio Padrão: 1.15


**Pontuação Z Score**

O Z-Score também é chamado de pontuação padrão. Este valor nos ajuda a entender a que distância o ponto de dados está da média. E depois de definir um valor limite, pode-se utilizar os valores de pontuação z dos pontos de dados para definir os valores outliers. É semelhante ao que fizemos anteriormente, mas aqui vamos definir um valor de threshold.

In [13]:
from scipy import stats

# Nosso Threshold será de 3 desvio-padrão de distância
threshold = 3 

df['outlier'] = '0'

# Cálculo do Z-score
z = np.abs(stats.zscore(df['V2'])) 

# Selecionando somente os valores acima do threshold
indices = list(np.array(np.where(z > threshold)).reshape(-1)) 

# Visualizando os outliers
df.iloc[indices, df.columns.get_loc('outlier')] = '1' 

px.scatter(x=df['V2'], y=df['V2'], color=df['outlier'])

**Método do desvio absoluto mediano**

O desvio absoluto mediano de um conjunto de dados é a distância entre cada dado em relação a mediana. Aqui, ao invés de utilizarmos a média, estaremos utilizando a mediana do conjunto. 

<img src="resources/img02.png"/>

Você deve estar se perguntando, qual a diferença de utilizar um ou outro?

Vamos lá, imagine que você tenha um conjunto de dados com os seguintes valores: 1, 2, 3, 4 e 100. A média aqui será 22, enquanto que a mediana é igual a 3. A questão é, a média desse conjunto representa a realidade dos dados? E a mediana? 

A resposta é que a mediana consegue descrever bem melhor este conjunto de dados, pois o valor considerado é o que está no centro do conjunto.


In [14]:
# Método do desvio absoluto mediano

output = (df['V2'] - np.median(df['V2']))/ (np.median(np.abs(np.std(df['V2']))))

#Queremos considerar os valores abaixo e acima do threshold
output = np.abs(output)

threshold = 3
df['outlier'] = '0'

#Selecionando somente os valores acima do threshold
indices = list(np.array(np.where(output > threshold)).reshape(-1))

#Visualizando os outliers
df.iloc[indices, df.columns.get_loc('outlier')] = '1'

px.scatter(x=df['V2'], y=df['V2'], color=df['outlier'])

**Amplitude Interquartil (IQR)**

A abordagem de amplitude interquartil (IQR) para encontrar valores discrepantes é a abordagem mais comumente usada. O método consiste em definir os limites inferior e superior a partir do interquartil IQR e dos primeiros Q1 e terceiros Q3 quartis.

IQR = Quartil3 - Quartil1

In [15]:
Q1 = np.percentile(df['V2'], 25, interpolation='midpoint')
Q3 = np.percentile(df['V2'], 75, interpolation='midpoint')

IQR = Q3 - Q1

Para definir o valor de base atípico é definido acima e abaixo do intervalo normal dos conjuntos de dados, ou seja, limites superior e inferior, defina o limite superior e inferior (1.5 * o valor IQR é considerado):

superior = Q3 + 1.5 * IQR

inferior = Q1 - 1.5 * IQR

Lembra que falamos dos limites inferiores e superiores na análise por boxplot? Qualquer semelhança não é coincidência. O diagrama boxplot é construído a partir da análise por amplitude interquartil.

Na fórmula acima, de acordo com as estatísticas, o aumento de 0.5 de IQR (new_IQR = IQR + 0.5 * IQR) é considerado, para considerar todos os dados entre 2,69 desvios padrão na Distribuição Gaussiana. No entanto, mesmo sendo raro acontecer na prática, esse valor de 1.5 pode ser ajustado para mais ou para menos, de acordo com o tipo de problema e do conhecimento do Analista.

In [16]:
df['outlier'] = '0'

lowerFence = Q1 - 1.5 * IQR
upperFence = Q3 + 1.5 * IQR

df.loc[df['V2'] > upperFence, 'outlier'] = 1
df.loc[df['V2'] < lowerFence, 'outlier'] = 1


px.scatter(x=df['V2'], y=df['V2'], color=df['outlier'])

**Redução de Dimensionalidade**

É possível aplicar a redução de dimensionalidade para ajudar a detectar outliers aplicando algum tipo de relacionamento entre os atributos. Redução de Dimensionalidade é o processo de reduzir o conjunto de atributos aplicando algoritmos que selecionam as características mais relevantes e descarta as irrelevantes. Em seguida, aplica métodos de transformações e combinações para reduzir um dataset que possivelmente contenha vários atributos para um novo com poucos atributos, perdendo a menor quantidade de informação possível.

Há diversos algoritmos que realizam a redução da dimensionalidade, aplicando diferentes conceitos. Nesta postagem, irei utilizar o PCA (Principal Component Analysis), um dos mais utilizados.

Para detectar os outliers, primeiro nós vamos reduzir o nosso dataset para apenas um atributo. A partir disso, podemos aplicar qualquer uma das técnicas vistas anteriormente para o atributo que foi gerado.


In [17]:
from sklearn.decomposition import PCA

X = df.values

# Instanciando o objeto PCA passando o número de componentes que desejamos obter como saída.
pca = PCA(n_components=1)
# Realiza o treino e já transforma os dados. 
pca_column = pca.fit_transform(X)

# Vamos adicionar a coluna gerada no nosso dataset original
df['PCA'] = pca_column.reshape(-1)

Agora irei aplicar a técnica pontuação Z-Score novamente

In [18]:
from scipy import stats

#Nosso Threshold será de 3 desvio-padrão de distância
threshold = 3

df['outlier'] = '0'

#Cálculo do Z-score
z = np.abs(stats.zscore(df['PCA']))

#Selecionando somente os valores acima do threshold
indices = list(np.array(np.where(z > threshold)).reshape(-1))

#Visualizando os outliers
df.iloc[indices, df.columns.get_loc('outlier')] = '1'

# Exibindo no atributo V2 os dados que foram considerados outliers
px.scatter(x=df['V2'], y=df['V2'], color=df['outlier'])

Este método pode também ser aplicado quando o assunto for análises multivariadas. Neste caso, basta definir o número de componentes do PCA maior que 1 e aplicar alguma das técnicas que vou apresentar a partir de agora.

## MÉTODOS DE DETECÇÃO DE OUTLIERS MULTIVARIADOS

**Angle-Based Outlier Detection (ABOD)**

A detecção de outliers baseada em ângulos (ABOD) é uma das técnicas populares para detectar anomalias ou outliers em um determinado conjunto de dados e é frequentemente usada na prática ao trabalhar com dados multivariados.

Este método calcula a variância obtida entre três ou mais ângulos. De maneira gelal, a variância é maior para os dados inliers do que para os dados outliers, portanto, o cálculo ajuda a agrupar dados normais e dados outliers de maneira diferente.

Não é o foco deste artigo explicar todos os detalhes envolvidos, mas caso você se interesse, clique [aqui](https://www.dbs.ifi.lmu.de/~zimek/publications/KDD2008/KDD08-ABOD.pdf) para ir até o artigo original do algoritmo.

Particularmente, esta técnica funciona muito bem em um espaço multivariado de altas dimensões.

In [19]:
from pyod.models.abod import ABOD

# Instanciando a Classe ABOD
abod_clf = ABOD(contamination=0.05)

# Realizando o treinamento com os atributos escolhidos
# Eu vou selecionar apenas dois atributos para facilitar a nossa visualização no gráfico, 
# mas você pode utilizar quantos atributos forem necessários.
abod_clf.fit(df[['V2', 'V3']])

ABOD(contamination=0.05, method='fast', n_neighbors=5)

In [20]:
# Obtendo os resultados, 1 para outlier e 0 para inlier
df['ABOD_outliers'] = abod_clf.labels_
# Convertendo para string para exibir os dados de maneira categórica
df['ABOD_outliers'] = df['ABOD_outliers'].astype(str)

# Vamos visualizar apenas os dois atributos que foram analisados 
px.scatter(x=df['V2'], y=df['V3'], color=df['ABOD_outliers'])

**CBLOF - Cluster-based Local Outlier Factor (Fator Outlier Local Baseado em Cluster)**

O CBLOF é um método de detecção de anomalia não supervisionado que calcula o desvio de densidade local de um dado ponto de dados em relação aos seus vizinhos. Considera como outliers as amostras que possuem uma densidade substancialmente menor do que suas vizinhas. Uma pontuação de anomalia é calculada pela distância de cada instância ao seu centro de cluster multiplicada pelas instâncias pertencentes ao seu cluster. 

A biblioteca PyOD inclui a implementação CBLOF.

In [21]:
from pyod.models.cblof import CBLOF

#Istanciando a classe
cblof_clf = CBLOF(contamination=0.05, check_estimator=False)

# Realizando o treinamento com os atributos escolhidos. 
# Novamente eu irei selecionar somente dois atributos, 
# mas você pode utilizar quantos atributos forem necessários. 
cblof_clf.fit(df[['V2', 'V3']])

# Obtendo os resultados, 1 para outlier e 0 para inlier
df['CBLOF_outliers'] = cblof_clf.labels_
# Convertendo para string para exibir os dados de maneira categórica
df['CBLOF_outliers'] = df['CBLOF_outliers'].astype(str)

# Vamos visualizar apenas os dois atributos que foram analisados 
px.scatter(x=df['V2'], y=df['V3'], color=df['CBLOF_outliers'])

**Alibi-Detect**

O pacote python alibi-detect é um pacote de código aberto que se concentra na detecção de outliers, adversarials e desvios. Este pacote pode ser usado para dados tabulares e não estruturados, como imagens ou texto. Neste artigo, eu me concentrarei nos dados tabulares.

O pacote álibi-detect oferece 10 métodos para detecção de valores discrepantes, que você pode ler todos [aqui](https://docs.seldon.io/projects/alibi-detect/en/latest/overview/algorithms.html). 


Para este exemplo, eu usarei o método Isolation Forest.

**Isolation Forest**

O Isolation Forest consiste em uma floresta aleatória onde cada árvore de decisão é criada aleatoriamente. As árvores irão dividir e subdividir os dados baseado em um valor aleatório de corte até que todos os dados eventualmente estejam todos cortados e separados. Os dados mais discrepantes serão isolados mais rapidamente do que os demais, podendo assim ser identificados como outliers.

In [22]:
#Comando para a instalação do pacote
#!pip install alibi_detect

from alibi_detect.od import IForest
od = IForest(threshold=0., n_estimators=100)

Definimos o limite. Se você quiser definir o limite automaticamente, existe um método para inferir o limite. Em seguida, treinamos o modelo para nosso conjunto de dados.

In [23]:
od.fit(df[['V2', 'V3']])

predictions = od.predict(df[['V2', 'V3']], return_instance_score=True)

O objeto predictions possui um atributo chamado 'is_outlier' que como o próprio nome sugere, indica se o registro foi classificado como outlier ou não.
* 1 Para outlier;
* 0 Para inlier; 

In [24]:
#Chaves do objeto predictions
predictions['data'].keys()

dict_keys(['instance_score', 'feature_score', 'is_outlier'])

Vejamos o gráfico de dispersão para visualizar as classificações.

In [25]:
df['IF_outliers'] = predictions['data']['is_outlier'].astype(str)

px.scatter(x=df['V2'], y=df['V3'], color=df['IF_outliers'])

Maneiro, por uma análise visual vemos que há vários registros classificados como outliers que realmente aparentam ser outliers.

--- 

**PyNomaly**

PyNomaly é um pacote python para detectar outliers com base no LoOP (Local Outlier Probabilities). O LoOP é baseado no Local Outlier Factor (LOF), mas as pontuações são normalizadas para o intervalo [0–1]. O LOF também é a base para o algoritmo apresentado anteriormente,  o CBLOF.

A aplicação do PyNomaly é simples e intuitiva, semelhante ao pacote anterior. Vamos usar o exemplo do conjunto de dados para experimentar a detecção de valores discrepantes.

In [26]:
#!pip install PyNomaly
from PyNomaly import loop

m = loop.LocalOutlierProbability(df[['V2', 'V3']], use_numba=True, progress_bar=True).fit()
scores = m.local_outlier_probabilities



In [27]:
scores[0:10]

array([0.021135122615876824, 0.0, 0.0339251672410201, 0.08534328366001388,
       0.0, 0.0, 0.10341816444718395, 0.0, 0.0, 0.048605220685536854],
      dtype=object)

Todos os dados contêm probabilidade como um valor atípico. Podemos inferir utilizando nossos próprios critérios para qual conjunto de dados é um outlier, por exemplo, o ponto de dados com probabilidade superior a 0.5, e é o que faremos a seguir.

In [28]:
df['LoOP_score'] = scores
df['LoOP_outliers'] = df['LoOP_score'].apply(lambda x: 1 if x >= 0.5 else 0)
df['LoOP_outliers'] = df['LoOP_outliers'].astype(str)

px.scatter(x=df['V2'], y=df['V3'], color=df['LoOP_outliers'])

**Considerações Finais**

A detecção de outliers é uma atividade básica que está presente no dia-a-dia do cientistas de dados. Os Outliers são pedras no sapato que afetam toda nossa análise e modelagem de várias maneiras. É por isso que queremos detectar outliers, para que possamos tratá-los e realizar uma análise mais precisa dos dados.

Neste post eu tentei explicar da maneira mais didática e prática possível todos os métodos utilizados, espero que tenha ajudado a compreender este tópico tão importante dentro de um projeto de ciência de dados.

Vale dizer que não existe técnica melhor ou pior. Você pode utilizar apenas uma nos seus projetos, combinar mais de uma técnica, usar uma para um grupo de atributos e outra para outros, vai depender do problema de negócio que se está tentando resolver. 

O próximo passo agora é tratar os outliers que foram detectados, mas isso é assunto para outro artigo.

Você pode me encontrar nas diversas redes sociais.

Qualquer dúvida, estou à disposição.

**Referências**

[1] Dataset. Credit Card Fraud Detection. Disponível em: <https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud>

[2] Freitas, Igor. Um estudo comparativo de técnicas de detecção de outliers no contexto de classificação de dados, 2019. Disponível em: <https://repositorio.ufersa.edu.br/bitstream/prefix/1093/1/IgorWSF_DISSERT.pdf>

[3] Kriegel et al. Angle-Based Outlier Detection in High-dimensional Data. Disponível em: <https://www.dbs.ifi.lmu.de/Publikationen/Papers/KDD2008.pdf>

[4] Liu et al. Isolation Forest. Disponível em: <https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf?q=isolation-forest>

[5] Mishra, Prakhar. Detecting Outliers with Angle-based Techniques in Python, 2022. Disponível em: <https://blog.paperspace.com/outlier-detection-with-abod/>

[6] Zengyou et al. Discovering Cluster Based Local Outliers. Disponível em: <https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.20.4242&rep=rep1&type=pdf>

### Fim