<a href="https://colab.research.google.com/github/Rivianee/data-science/blob/master/OUTLIERS_EM_GRANDE_QUANTIDADE.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### DETECÇÃO DE OUTILIERS

fonte: https://www.sciencedirect.com/science/article/pii/S0031320321000613#fig0001

Nas formas mais tradicionais para encontrar outilier tentam encontrar esses pontos criando um modelo dos dados e marcando o que está longe desse modelo como outlier.



Mas, quando tem muitos outliers, eles podem distorcer o modelo, tornando-o menos preciso.



Isso faz com que os métodos tradicionais sejam menos confiáveis em situações com muitos outliers.



Para resolver isso, propomos um novo método chamado detector de outliers de deslocamento médio. Aqui está como funciona:

In [1]:
import numpy as np
from sklearn.neighbors import NearestNeighbors

def mean_shift_outlier_detection(X, k=5, max_iterations=10):
    """
    Função para detecção de outliers usando deslocamento médio (Mean Shift).

    Parâmetros:
    - X: Conjunto de dados numpy array de shape (n_samples, n_features).
    - k: Número de vizinhos mais próximos a considerar para calcular a média.
    - max_iterations: Número máximo de iterações para o processo de deslocamento médio.

    Retorna:
    - X_modificado: Conjunto de dados modificado após o processo de deslocamento médio.
    """

    X_modificado = np.copy(X)

    for _ in range(max_iterations):
        for i in range(len(X)):
            # Encontrar os k vizinhos mais próximos de X[i]
            neigh = NearestNeighbors(n_neighbors=k)
            neigh.fit(X_modificado)
            neighbors_idx = neigh.kneighbors([X_modificado[i]], return_distance=False)[0]

            # Calcular a média dos vizinhos mais próximos
            neighbors_mean = np.mean(X_modificado[neighbors_idx], axis=0)

            # Substituir Xi pela média dos vizinhos
            X_modificado[i] = neighbors_mean

    return X_modificado

Além disso, ao comparar essa função com métodos com onze detectores de outliers de última geração, incluindo LOF, NC, KNN, ODIN, MCD, IFOREST, OCSVM, PCAD e ABOD. Suas descobertas mostraram que as abordagens propostas (DOD e DOD) superam todos esses métodos em termos de eficácia na detecção de outliers em diferentes tipos de conjuntos de dados.

Isso significa, essa função se mostrou mais robust e precis em identificar outliers, oferecendo uma solução melhor do que os métodos tradicionais e de última geração atualmente disponíveis.

Deslocamento Médio: Em vez de criar um modelo diretamente nos dados originais, o método primeiro ajusta cada ponto substituindo-o pela média de seus k pontos mais próximos. Isso ajuda a "cancelar" o efeito dos outliers, tornando os dados menos sensíveis a eles.

Detecção de Outliers: Depois de ajustar os dados pelo deslocamento médio, o método então identifica outliers com base na distância dos pontos ajustados. Isso significa que ele olha para quão longe cada ponto ajustado está dos outros, identificando assim pontos que são significativamente diferentes.

Eficiência e Resultados: Testamos esse método em diferentes conjuntos de dados, tanto numéricos quanto de texto, e descobrimos que ele funciona bem em várias situações, mesmo quando há muitos outliers presentes. Na verdade, ele supera os métodos mais avançados que testamos, mostrando sua eficácia robusta.

Em resumo, o detector de outliers de deslocamento médio é uma maneira mais eficaz de lidar com dados que têm muitos pontos anômalos. Ele ajusta os dados antes de analisá-los, o que o torna mais confiável e preciso em comparação com os métodos tradicionais.



