<h2>Анализ выбросов</h2> 

In [1]:
import pandas as pd
import numpy as np
from scipy import stats


In [4]:
data = pd.read_csv('data_big.csv')
necessary_columns = ['SBP.1', 'DBP.1', 'SV.1', 'CO.1', 'SI.1', 'CI.1', 'TPR.1']
data = data[necessary_columns]
data.fillna(data.mean(), inplace=True)
data

Unnamed: 0,SBP.1,DBP.1,SV.1,CO.1,SI.1,CI.1,TPR.1
0,116,80,74.0,5.3,40.0,2.9,1387.0
1,144,70,168.0,11.4,83.0,5.6,663.0
2,140,92,55.0,5.4,28.0,2.8,1598.0
3,136,98,69.0,3.9,33.0,1.8,2292.0
4,144,90,39.0,3.3,19.0,1.7,2592.0
5,168,98,60.0,6.8,29.0,3.3,1426.0
6,124,88,47.0,5.1,21.0,2.3,1567.0
7,128,80,63.0,4.9,28.0,2.2,1566.0
8,180,95,101.0,10.2,52.0,5.3,966.0
9,120,78,40.0,4.4,24.0,2.8,1679.0


In [7]:
#Значения статистики Фишера для каждого столбца позволяют оценить относительную изменчивость данных. 
#Если значение статистики Фишера для какого-либо столбца сильно отличается от остальных значений, 
#это может указывать на наличие выбросов в этом столбце.

def fisher_statistic(data):
    mean = np.mean(data)
    std = np.std(data)
    return (std / mean) * 100

# Применение статистики Фишера к данным
for column_name, column_data in data.items():
    column_fisher_stat = fisher_statistic(column_data)
    print(f"Статистика Фишера для столбца {column_name}:")
    print(column_fisher_stat)
    print("\n")

Статистика Фишера для столбца SBP.1:
11.904633134331506


Статистика Фишера для столбца DBP.1:
11.028932573602997


Статистика Фишера для столбца SV.1:
41.732034318318654


Статистика Фишера для столбца CO.1:
34.76622866029399


Статистика Фишера для столбца SI.1:
41.47495079456519


Статистика Фишера для столбца CI.1:
33.51360213665184


Статистика Фишера для столбца TPR.1:
36.79280835238135




In [6]:
# Функция для обнаружения выбросов
#Используется межквартильный размах для определения выбросов.
def detect_outliers(data, threshold=1.5):
    q1 = np.percentile(data, 25)
    q3 = np.percentile(data, 75)
    iqr = q3 - q1
    lower_bound = q1 - threshold * iqr
    upper_bound = q3 + threshold * iqr
    outliers = data[(data < lower_bound) | (data > upper_bound)]
    return outliers

# Проходимся по каждому столбцу и обнаруживаем выбросы
for column in df.columns:
    outliers = detect_outliers(df[column])
    if len(outliers) > 0:
        print("Столбец '{}':".format(column))
        print(outliers)
        print()



Столбец 'SV.1':
1    168.0
Name: SV.1, dtype: float64

Столбец 'CO.1':
1    11.4
8    10.2
Name: CO.1, dtype: float64

Столбец 'SI.1':
1    83.0
Name: SI.1, dtype: float64

Столбец 'CI.1':
1    5.6
8    5.3
Name: CI.1, dtype: float64

Столбец 'TPR.1':
1      663.0
4     2592.0
10    3158.0
11     832.0
12     783.0
13    2707.0
17    2612.0
25    3482.0
Name: TPR.1, dtype: float64

