In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
diabetes = pd.read_csv('data/diabetes_data.csv')
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Gender
0,6,98,58,33,190,34.0,0.43,43,0,Female
1,2,112,75,32,0,35.7,0.148,21,0,Female
2,2,108,64,0,0,30.8,0.158,21,0,Female
3,8,107,80,0,0,24.6,0.856,34,0,Female
4,7,136,90,0,0,29.9,0.21,50,0,Female


* Pregnancies — количество беременностей.

* Glucose — концентрация глюкозы в плазме через два часа при пероральном тесте на толерантность к глюкозе.

* BloodPressure — диастолическое артериальное давление (мм рт. ст.).

* SkinThickness — толщина кожной складки трицепса (мм).

* Insulin — двухчасовой сывороточный инсулин (ме Ед/мл).

* BMI — индекс массы тела (\(\frac{вес\ в\ кг}{(рост\ в\ м)^2}\)).

* DiabetesPedigreeFunction — функция родословной диабета (чем она выше, тем выше шанс наследственной заболеваемости).

* Age — возраст.

* Outcome — наличие диабета (0 — нет, 1 — да).

In [3]:
cols_null_percent = diabetes.isnull().mean() * 100
cols_with_null = cols_null_percent[cols_null_percent>0].sort_values(ascending=False)
display(cols_with_null)

Series([], dtype: float64)

In [4]:
dupl_columns = list(diabetes.columns)
# dupl_columns.remove('id')

mask = diabetes.duplicated(subset=dupl_columns)
diabetes_duplicates = diabetes[mask]
print(f'Число найденных дубликатов: {diabetes_duplicates.shape[0]}')

Число найденных дубликатов: 10


In [5]:
diabetes = diabetes.drop_duplicates(subset=dupl_columns)
print(f'Результирующее число записей: {diabetes.shape[0]}')

Результирующее число записей: 768


In [6]:
#список неинформативных признаков
low_information_cols = [] 

#цикл по всем столбцам
for col in diabetes.columns:
    #наибольшая относительная частота в признаке
    top_freq = diabetes[col].value_counts(normalize=True).max()
    #доля уникальных значений от размера признака
    nunique_ratio = diabetes[col].nunique() / diabetes[col].count()
    # сравниваем наибольшую частоту с порогом
    if top_freq > 0.99:
        low_information_cols.append(col)
        print(f'{col}: {round(top_freq*100, 2)}% одинаковых значений')
    # сравниваем долю уникальных значений с порогом
    if nunique_ratio > 0.99:
        low_information_cols.append(col)
        print(f'{col}: {round(nunique_ratio*100, 2)}% уникальных значений')

Gender: 100.0% одинаковых значений


In [7]:
diabetes = diabetes.drop(low_information_cols, axis=1)
print(f'Результирующее число признаков: {diabetes.shape[1]}')
diabetes

Результирующее число признаков: 9


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,98,58,33,190,34.0,0.430,43,0
1,2,112,75,32,0,35.7,0.148,21,0
2,2,108,64,0,0,30.8,0.158,21,0
3,8,107,80,0,0,24.6,0.856,34,0
4,7,136,90,0,0,29.9,0.210,50,0
...,...,...,...,...,...,...,...,...,...
763,5,139,64,35,140,28.6,0.411,26,0
764,1,96,122,0,0,22.4,0.207,27,0
765,10,101,86,37,0,45.6,1.136,38,1
766,0,141,0,0,0,42.4,0.205,29,1


In [8]:
# В таблице пропуски в столбцах Glucose, BloodPressure, SkinThickness, Insulin и BMI обозначены нулём, 
# поэтому традиционные методы поиска пропусков ничего вам не покажут. Давайте это исправим!
# Замените все записи, равные 0, в столбцах Glucose, BloodPressure, SkinThickness, Insulin и BMI на символ пропуска. 
# Его вы можете взять из библиотеки numpy: np.nan.

# cols = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
# information_diabetes[cols] = information_diabetes[cols].replace(['0', 0], np.nan)
# information_diabetes

def nan_function(x):
    return np.nan if x == 0 else x

diabetes["Glucose"] = diabetes["Glucose"].apply(nan_function)
diabetes["BloodPressure"] = diabetes["BloodPressure"].apply(nan_function)
diabetes["SkinThickness"] = diabetes["SkinThickness"].apply(nan_function)
diabetes["Insulin"] = diabetes["Insulin"].apply(nan_function)
diabetes["BMI"] = diabetes["BMI"].apply(nan_function)
diabetes.isnull().mean().round(2).sort_values(ascending=False)

Insulin                     0.49
SkinThickness               0.30
BloodPressure               0.05
Glucose                     0.01
BMI                         0.01
Pregnancies                 0.00
DiabetesPedigreeFunction    0.00
Age                         0.00
Outcome                     0.00
dtype: float64

In [9]:
cols_null_percent = diabetes.isnull().mean()
cols_with_null = round(cols_null_percent[cols_null_percent>0].sort_values(ascending=False),2)
display(cols_with_null)

Insulin          0.49
SkinThickness    0.30
BloodPressure    0.05
BMI              0.01
Glucose          0.01
dtype: float64

In [12]:
# создаем копию исходной таблицы
drop_diabetes = diabetes.copy()
# задаем минимальный порог: вычисляем 70% от числа строк
thresh = drop_diabetes.shape[0]*0.7
# удаляем столбцы, в которых более 30% (100-70) пропусков
drop_diabetes = drop_diabetes.dropna(thresh=thresh, axis=1)
# удаляем записи, в которых есть хотя бы 1 пропуск
# drop_diabetes = drop_diabetes.dropna(how='any', axis=0)
# отображаем результирующую долю пропусков

# отбрасываем строки с числом пропусков более 2 в строке
m = drop_diabetes.shape[1]  # число признаков после удаления столбцов
drop_diabetes = drop_diabetes.dropna(thresh=m-2, axis=0)
print(drop_diabetes.shape[0])
# drop_diabetes

761


In [18]:
#создаём словарь 'имя_столбца': число (признак), на который надо заменить пропуски 
values = {
    'Pregnancies': drop_diabetes['Pregnancies'].median(),
    'Glucose': drop_diabetes['Glucose'].median(),
    'BloodPressure': drop_diabetes['BloodPressure'].median(),
    'SkinThickness': drop_diabetes['SkinThickness'].median(),
    'BMI': drop_diabetes['BMI'].median(),
    'DiabetesPedigreeFunction': drop_diabetes['DiabetesPedigreeFunction'].median(),
    'Age': drop_diabetes['Age'].median(),
    'Outcome': drop_diabetes['Outcome'].median()
}
#заполняем оставшиеся записи константами в соответствии со словарем values
diabetes = drop_diabetes.fillna(values)
#выводим результирующую долю пропусков
display(round(diabetes.mean(),1))

Pregnancies                   3.8
Glucose                     121.9
BloodPressure                72.4
SkinThickness                29.1
BMI                          32.5
DiabetesPedigreeFunction      0.5
Age                          33.3
Outcome                       0.4
dtype: float64

In [32]:
def outliers_iqr(data, feature):
    x = data[feature]
    quartile_1, quartile_3 = x.quantile(0.25), x.quantile(0.75),
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr * 1.5)
    upper_bound = quartile_3 + (iqr * 1.5)
    outliers = data[(x<lower_bound) | (x > upper_bound)]
    cleaned = data[(x>lower_bound) & (x < upper_bound)]
    return outliers, cleaned

In [33]:
outliers, cleaned = outliers_iqr(diabetes, 'DiabetesPedigreeFunction')
print(f'Число выбросов по методу Тьюки: {outliers.shape[0]}')
print(f'Результирующее число записей: {cleaned.shape[0]}')

Число выбросов по методу Тьюки: 29
Результирующее число записей: 732


In [34]:
def outliers_z_score_mod(data, feature, log_scale=False, left=3, right=3):
    """
    Давайте расширим правило 3ех сигм, чтобы иметь возможность учитывать особенности данных.
    Добавьте в функцию outliers_z_score() параметры left и right, которые будут задавать число сигм (стандартных отклонений) 
    влево и вправо соответственно, которые определяют границы метода z-отклонения. 
    По умолчанию оба параметры равны 3
    """
    if log_scale:
        x = np.log(data[feature]+1)
    else:
        x = data[feature]
    mu = x.mean()
    sigma = x.std()
    lower_bound = mu - left * sigma
    upper_bound = mu + right * sigma
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[(x > lower_bound) & (x < upper_bound)]
    return outliers, cleaned

In [35]:
outliers, cleaned = outliers_z_score_mod(diabetes, 'SkinThickness', log_scale=False, left=3.0, right=3.0)
print(f'Число выбросов по методу z-отклонения: {outliers.shape[0]}')

Число выбросов по методу z-отклонения: 4


In [43]:
def outliers_iqr_mod_2(data, feature, log_scale=False, left=1.5, right=1.5):
    """
    Давайте немного модифицируем нашу функцию outliers_iqr(). 
    Добавьте в нее параметры left и right, 
    которые задают число IQR влево и вправо от границ ящика (пусть по умолчанию они равны 1.5).
    Функция, как и раньше должна возвращать потенциальные выбросы и очищенный DataFrame.
    """
    if log_scale:
        # x = np.log(data[feature]+1)
        x = np.log(data[feature])
    else:
        x = data[feature]
    quartile_1, quartile_3 = x.quantile(0.25), x.quantile(0.75),
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr * left)
    upper_bound = quartile_3 + (iqr * right)
    outliers_2 = data[(x<lower_bound) | (x > upper_bound)]
    cleaned_2 = data[(x>lower_bound) & (x < upper_bound)]
    return outliers_2, cleaned_2

In [46]:
outliers_2, cleaned_2 = outliers_iqr_mod_2(diabetes, 'DiabetesPedigreeFunction', log_scale=True, left=1.5, right=1.5)
print(f'Число выбросов по методу межквартильного размаха: {outliers_2.shape[0]}')
print(f'Результирующее число записей: {cleaned_2.shape[0]}')

Число выбросов по методу межквартильного размаха: 0
Результирующее число записей: 761
