In [72]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

diabetes = pd.read_csv('data/diabetes_data.csv')
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 778 entries, 0 to 777
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               778 non-null    int64  
 1   Glucose                   778 non-null    int64  
 2   BloodPressure             778 non-null    int64  
 3   SkinThickness             778 non-null    int64  
 4   Insulin                   778 non-null    int64  
 5   BMI                       778 non-null    float64
 6   DiabetesPedigreeFunction  778 non-null    float64
 7   Age                       778 non-null    int64  
 8   Outcome                   778 non-null    int64  
 9   Gender                    778 non-null    object 
dtypes: float64(2), int64(7), object(1)
memory usage: 60.9+ KB


In [73]:
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Gender
0,6,98,58,33,190,34.0,0.43,43,0,Female
1,2,112,75,32,0,35.7,0.148,21,0,Female
2,2,108,64,0,0,30.8,0.158,21,0,Female
3,8,107,80,0,0,24.6,0.856,34,0,Female
4,7,136,90,0,0,29.9,0.21,50,0,Female


In [74]:
diabetes = diabetes.drop_duplicates()
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 768 entries, 0 to 767
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
 9   Gender                    768 non-null    object 
dtypes: float64(2), int64(7), object(1)
memory usage: 66.0+ KB


In [75]:
def low_information_columns(data, thresh=0.95):
    """
    Функция принимает на вход DataFrame и порог, по которым ищутся неинформативные признаки (в которых все значения уникальны или одинаковы).
    Результат - список неинформативных колонок
    """
    #список неинформативных признаков
    low_information_cols = []

    #цикл по всем столбцам
    for col in data.columns:
        #наибольшая относительная частота в признаке
        top_freq = data[col].value_counts(normalize=True).max()
        #доля уникальных значений от размера признака
        nunique_ratio = data[col].nunique() / data[col].count()
        # сравниваем наибольшую частоту с порогом
        if top_freq > thresh:
            low_information_cols.append(col)
            #print(f'{col}: {round(top_freq*100, 2)}% одинаковых значений')
        # сравниваем долю уникальных значений с порогом
        if nunique_ratio > thresh:
            low_information_cols.append(col)
            #print(f'{col}: {round(nunique_ratio*100, 2)}% уникальных значений')
    return low_information_cols

In [76]:
low_information_columns(diabetes)

['Gender']

In [77]:
diabetes = diabetes.drop('Gender', axis=1)
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 60.0 KB


In [78]:
diabetes.isnull().mean() * 100

Pregnancies                 0.0
Glucose                     0.0
BloodPressure               0.0
SkinThickness               0.0
Insulin                     0.0
BMI                         0.0
DiabetesPedigreeFunction    0.0
Age                         0.0
Outcome                     0.0
dtype: float64

In [79]:
func = lambda x: np.nan if x == 0 else x

diabetes['Glucose'] = diabetes['Glucose'].apply(func)
diabetes['BloodPressure'] = diabetes['BloodPressure'].apply(func)
diabetes['SkinThickness'] = diabetes['SkinThickness'].apply(func)
diabetes['Insulin'] = diabetes['Insulin'].apply(func)
diabetes['BMI'] = diabetes['BMI'].apply(func)

In [80]:
diabetes.isnull().mean()

Pregnancies                 0.000000
Glucose                     0.006510
BloodPressure               0.045573
SkinThickness               0.295573
Insulin                     0.486979
BMI                         0.014323
DiabetesPedigreeFunction    0.000000
Age                         0.000000
Outcome                     0.000000
dtype: float64

In [81]:
thresh = diabetes.shape[0]*0.7
#удаляем столбцы, в которых более 30% (100-70) пропусков
diabetes = diabetes.dropna(how='any', thresh=thresh, axis=1)
diabetes.shape[1]

8

In [82]:
thresh = diabetes.shape[1]-2
diabetes = diabetes.dropna(how='any', thresh=thresh, axis=0)
diabetes.shape[0]

761

In [86]:
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 761 entries, 0 to 767
Data columns (total 8 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               761 non-null    int64  
 1   Glucose                   761 non-null    float64
 2   BloodPressure             761 non-null    float64
 3   SkinThickness             761 non-null    float64
 4   BMI                       761 non-null    float64
 5   DiabetesPedigreeFunction  761 non-null    float64
 6   Age                       761 non-null    int64  
 7   Outcome                   761 non-null    int64  
dtypes: float64(5), int64(3)
memory usage: 53.5 KB


In [87]:
values = {
    'Pregnancies': diabetes['Pregnancies'].median(),
    'Glucose': diabetes['Glucose'].median(),
    'BloodPressure': diabetes['BloodPressure'].median(),
    'SkinThickness': diabetes['SkinThickness'].median(),
    'BMI': diabetes['BMI'].median(),
    'DiabetesPedigreeFunction': diabetes['DiabetesPedigreeFunction'].median(),
    'Age': diabetes['Age'].median(),
    'Outcome': diabetes['Outcome'].median(),
}
diabetes = diabetes.fillna(values)
diabetes['SkinThickness'].mean()

29.109067017082786

In [88]:
def outliers_iqr(data, feature, log_scale=False, left=1.5, right=1.5, log_add=1):
    """
    Функция принимает на вход DataFrame и признак, по которому ищутся выбросы, а затем возвращает потенциальные выбросы,
    найденные с помощью метода Тьюки (межквартильного размаха), и очищенный от них датасет.
    
    Параметры left и right, которые задают число IQR влево и вправо от границ ящика (пусть по умолчанию они равны 1.5).
    В дополнение добавим в функцию возможность работы в логарифмическом масштабе: для этого введём аргумент log_scale.
    Если он равен True, то будем логарифмировать рассматриваемый признак, иначе — оставляем его в исходном виде.
    Метод по умолчанию работает для нормального распределения признака, если распределение другое, параметры left и right могут помочь.
    
    Для использования функции нужна библиотека numpy.
    """
    if log_scale:
        x = np.log(data[feature] + log_add)
    else:
        x = data[feature]
    quartile_1, quartile_3 = x.quantile(0.25), x.quantile(0.75),
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr * left)
    upper_bound = quartile_3 + (iqr * right)
    outliers = data[(x<lower_bound) | (x> upper_bound)]
    cleaned = data[(x>lower_bound) & (x < upper_bound)]
    return outliers, cleaned

In [90]:
outliers, cleaned = outliers_iqr(diabetes, 'SkinThickness')
outliers.shape[0]

87

In [91]:
def outliers_z_score(data, feature, log_scale=False, left=3, right=3, log_add=1):
    """
    Функция на вход она принимает DataFrame и признак, по которому ищутся выбросы. Метод Z-отклонений (метод сигм).
    В дополнение добавим в функцию возможность работы в логарифмическом масштабе: для этого введём аргумент log_scale.
    Если он равен True, то будем логарифмировать рассматриваемый признак, иначе — оставляем его в исходном виде.
    
    Параметры left и right, которые будут задавать число сигм (стандартных отклонений) влево и вправо соответственно, которые определяют границы метода z-отклонения.
    Метод по умолчанию работает для нормального распределения признака, если распределение другое, параметры left и right могут помочь.

    Для использования функции нужна библиотека numpy.
    """
    if log_scale:
        x = np.log(data[feature] + log_add)
    else:
        x = data[feature]
    mu = x.mean()
    sigma = x.std()
    lower_bound = mu - left * sigma
    upper_bound = mu + right * sigma
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[(x > lower_bound) & (x < upper_bound)]
    return outliers, cleaned

In [92]:
outliers, cleaned = outliers_z_score(diabetes, 'SkinThickness')
outliers.shape[0]

4

In [93]:
outliers, cleaned = outliers_iqr(diabetes, 'DiabetesPedigreeFunction')
outliers.shape[0]

29

In [94]:
outliers, cleaned = outliers_iqr(diabetes, 'DiabetesPedigreeFunction', log_scale=True, log_add=0)
outliers.shape[0]

0