# Usando a Biblioteca pyOD para Identificar Outliers
### Aprenda a visualizar outliers com a linguagem de programação python.

A importância da biblioteca **pyOD** para identificação de outliers é que ela considera todos os campos de dados de todos os registros em suas operações. Com isso, podemos ter detecções mais precisas. Abaixo, veja como o código funciona.

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

In [2]:
# importando os dados no 'dataframe'
dataframe = pd.read_csv('Dados de Credito.csv', encoding = 'utf-8', sep = ',')

In [3]:
# removendo valores faltantes dos dados
dataframe = dataframe.dropna()

In [8]:
# visualizando o 'dataframe'
dataframe

Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


In [5]:
# importando a biblioteca pyOD do python
from pyod.models.knn import KNN

In [6]:
# criando o objeto 'detector'
detector = KNN()

In [7]:
# treinando o algoritmo para identificação de outliers com base na distância entre os elementos (KNN)
detector.fit(dataframe.iloc[:, 1:4])

KNN(algorithm='auto', contamination=0.1, leaf_size=30, method='largest',
  metric='minkowski', metric_params=None, n_jobs=1, n_neighbors=5, p=2,
  radius=1.0)

In [10]:
# recebendo uma lista booleana de 'outliers' para cada um dos registros
previsoes = detector.labels_
print(previsoes)

[0 0 0 ... 0 0 1]


Foi feito uma lista de valores booleanos para cada um dos registros, indicando se eles são outliers ou não.

In [11]:
# criando uma tupla para armazenar os 'outliers'
outliers = []

In [12]:
# iterando os dados para receber os outliers
for i in range(len(previsoes)):
    if previsoes[i] == 1:
        outliers.append(i)

In [13]:
# visualizando os registros que são 'outliers'
print(outliers)

[4, 24, 28, 31, 35, 75, 87, 92, 101, 102, 108, 112, 125, 154, 157, 160, 162, 183, 215, 217, 231, 234, 272, 279, 289, 294, 301, 321, 322, 332, 339, 343, 347, 357, 358, 372, 391, 399, 401, 402, 411, 418, 419, 424, 446, 447, 449, 451, 477, 485, 486, 502, 505, 520, 528, 530, 532, 545, 570, 596, 630, 643, 660, 694, 707, 713, 734, 745, 762, 764, 839, 848, 875, 877, 882, 898, 924, 927, 930, 937, 942, 943, 949, 972, 974, 987, 989, 993, 996, 999, 1003, 1015, 1022, 1025, 1031, 1033, 1037, 1038, 1047, 1054, 1062, 1080, 1085, 1088, 1089, 1091, 1098, 1099, 1125, 1136, 1137, 1181, 1194, 1197, 1199, 1205, 1207, 1209, 1216, 1219, 1232, 1233, 1236, 1288, 1289, 1300, 1335, 1347, 1348, 1367, 1374, 1375, 1376, 1379, 1382, 1385, 1386, 1393, 1411, 1412, 1414, 1425, 1426, 1432, 1440, 1445, 1451, 1467, 1478, 1489, 1503, 1511, 1513, 1517, 1563, 1579, 1581, 1605, 1607, 1613, 1615, 1623, 1627, 1632, 1645, 1657, 1665, 1669, 1672, 1676, 1678, 1685, 1691, 1702, 1713, 1717, 1724, 1730, 1736, 1749, 1752, 1784, 1798, 

Agora que sabemos quais registros são outliers, podemos separá-los dos demais dados. Em uma situação profissional, é possível enviar esses dados para análise e detecção de inconsistências.

In [14]:
# separando os registros outliers
lista_outliers = dataframe.iloc[outliers, :]
print(lista_outliers)

      clientid        income        age          loan  default
4            5  66952.688845  18.584336   8770.099235        1
24          25  65301.984029  48.840922   5465.267886        0
29          30  58842.891308  54.510948  10871.186790        0
34          35  57584.973790  36.672021   1728.423755        0
38          39  60921.063104  18.840526    968.836383        0
...        ...           ...        ...           ...      ...
1943      1944  59792.508585  24.187499    660.241453        0
1944      1945  35879.519994  41.072935   5335.403499        0
1957      1958  50458.958203  52.314565   9852.889427        0
1996      1997  69516.127573  23.162104   3503.176156        0
1999      2000  69436.579552  56.152617   7378.833599        0

[200 rows x 5 columns]


In [15]:
# visualizando a dimensão dos registros que são outliers
lista_outliers.shape

(200, 5)

200 registros foram caracterizados como outliers.

### Alguma Dúvida? Entre em Contato Comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);