### This jupyter notebook contains contents of the lesson "Outliers in the datasets"

**Author : Umidjon Sattorov. Machine Learning engineer**

![image.png](attachment:image.png)

Выбросы (Outliers) – это аномальные или крайне редкие наблюдения в наборе данных, которые значительно отличаются от остальных значений. Они могут возникать из-за ошибок ввода, нестандартных условий измерений или действительно редких событий. Выбросы могут искажать статистические показатели (например, среднее значение или дисперсию) и влиять на качество моделей машинного обучения, поэтому их часто требуется обрабатывать (удалять, заменять или анализировать отдельно).

Существует несколько методов для обнаружения и обработки выбросов в наборах данных. Если классифицировать их по группам, одним из известных методов обнаружения выбросов являются **статистические методы.**

In this lesson, we are going to discuss some of them :

### Three sigmal rule

In [2]:
import pandas as pd 
import numpy as np

In [3]:
# Creation of sample data
sample_data = [1, 2, 3, 2, 1, 5, 4, 3, 2, 6, 7, 1000]
s_data = np.array(sample_data)
series_data = pd.Series(sample_data)
s_data

array([   1,    2,    3,    2,    1,    5,    4,    3,    2,    6,    7,
       1000])

In [4]:
data = [1, 2, 3, 2, 1, 5, 4, 3, 2, 6, 7, 1000]
sorted_data = np.sort(data)
sorted_data

array([   1,    1,    2,    2,    2,    3,    3,    4,    5,    6,    7,
       1000])

In [5]:
series_data

0        1
1        2
2        3
3        2
4        1
5        5
6        4
7        3
8        2
9        6
10       7
11    1000
dtype: int64

![image.png](attachment:image.png)

In [7]:
std_data = series_data.std()
mean_data = series_data.mean()

In [8]:
min_max = [mean_data - 3 * std_data, mean_data + 3 * std_data]
min_max

[np.float64(-776.8768485933039), np.float64(949.5435152599706)]

**Task :**

Create function which calculates minimum number and maximum number which our series get based on the three sigma rule.

In [None]:
# Function to calculate max and min of range based on three sigma rule
def three_sigma(series_data) :
    # Your code goes here

___

### IQR - Interquantile Range

![image.png](attachment:image.png)

In [9]:
# Calculating required quantile values
q75 = series_data.quantile(0.75)
q25 = series_data.quantile(0.25)
iqr = q75 - q25

boundaries = (q25 - 1.5 * iqr, q75 + 1.5 * iqr)
boundaries

(np.float64(-2.875), np.float64(10.125))