<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> ✍️ Настало время потренироваться в очистке данных! В этот раз тема особенно важная — поговорим о диабете.</div>

Вам предоставлен набор данных, первоначально полученный в Национальном институте диабета, болезней органов пищеварения и почек. 

Этот набор данных создан для того, чтобы на основе определённых диагностических измерений предсказать, есть ли у пациента диабет. 

На выбор этих экземпляров из более крупной базы данных было наложено несколько ограничений. В частности, все пациенты здесь — женщины не моложе 21 года индейского происхождения Пима.

Прочитаем наши данные и выведем первые пять строк таблицы:

In [2]:
import pandas as pd

In [15]:
init_df = pd.read_csv('./data/diabetes_data.csv')
diabetes = init_df.copy()
diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome,Gender
0,6,98,58,33,190,34.0,0.43,43,0,Female
1,2,112,75,32,0,35.7,0.148,21,0,Female
2,2,108,64,0,0,30.8,0.158,21,0,Female
3,8,107,80,0,0,24.6,0.856,34,0,Female
4,7,136,90,0,0,29.9,0.21,50,0,Female


### Признаки в данных:

- Pregnancies — количество беременностей.

- Glucose — концентрация глюкозы в плазме через два часа при пероральном тесте на толерантность к глюкозе.

- BloodPressure — диастолическое артериальное давление (мм рт. ст.).

- SkinThickness — толщина кожной складки трицепса (мм).

- Insulin — двухчасовой сывороточный инсулин (ме Ед/мл).

- BMI — индекс массы тела (весвкг / роствм).

- DiabetesPedigreeFunction — функция родословной диабета (чем она выше, тем выше шанс наследственной заболеваемости).

- Age — возраст.

- Outcome — наличие диабета (0 — нет, 1 — да).

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">Предварительно вы можете провести небольшой разведывательный анализ: посмотреть на распределения признаков и оценить их взаимосвязь с признаком наличия диабета.</div>

### Задание 8.1

Начнём с поиска дубликатов в данных. Найдите все повторяющиеся строки в данных и удалите их. Для поиска используйте все признаки в данных. Сколько записей осталось в данных?

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
768
</code>
</details>

In [16]:
diabetes.drop_duplicates(inplace=True)
diabetes.shape

(768, 10)

###  Задание 8.2

Далее найдите все неинформативные признаки в данных и избавьтесь от них. В качестве порога информативности возьмите 0.95: удалите все признаки, для которых 95 % значений повторяются или 95 % записей уникальны. В ответ запишите имена признаков, которые вы нашли (без кавычек).
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
Gender
</code>
</details>

In [17]:
for col in diabetes.columns:
    unique_ratio = diabetes[col].nunique(col) / diabetes[col].shape[0]
    dupl_ratio = diabetes[col].value_counts(normalize=True).max()
    if unique_ratio > 0.95 or dupl_ratio > 0.95:
        diabetes.drop(col, axis=1, inplace=True)
        print(col)

Gender


###   Задание 8.3

Попробуйте найти пропуски в данных с помощью метода isnull().
<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;"> 
Спойлер: ничего не найдёте. А они есть! Просто они скрыты от наших глаз. В таблице пропуски в столбцах Glucose, BloodPressure, SkinThickness, Insulin и BMI обозначены нулём, поэтому традиционные методы поиска пропусков ничего вам не покажут. Давайте это исправим!
</div>
Замените все записи, равные 0, в столбцах Glucose, BloodPressure, SkinThickness, Insulin и BMI на символ пропуска. Его вы можете взять из библиотеки numpy: np.nan.

Какая доля пропусков содержится в столбце Insulin? Ответ округлите до сотых.<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
0.49
</code>
</details>

In [18]:
diabetes.isna().mean()

Pregnancies                 0.0
Glucose                     0.0
BloodPressure               0.0
SkinThickness               0.0
Insulin                     0.0
BMI                         0.0
DiabetesPedigreeFunction    0.0
Age                         0.0
Outcome                     0.0
dtype: float64

In [20]:
import numpy as np 

columns_with_zero = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI']
for col in columns_with_zero:
    diabetes.loc[diabetes[col] == 0, col] = np.nan
diabetes['Insulin'].isna().mean()

0.4869791666666667

###    Задание 8.4

Удалите из данных признаки, где число пропусков составляет более 30 %. Сколько признаков осталось в ваших данных (с учетом удаленных неинформативных признаков в задании 8.2)?<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
8
</code>
</details>

In [22]:
for col in diabetes.columns:
    print(diabetes[col].isna().mean())
    if diabetes[col].isna().mean() > 0.3:
        diabetes.drop([col], axis=1, inplace=True)
diabetes.shape

0.0
0.006510416666666667
0.045572916666666664
0.2955729166666667
0.4869791666666667
0.014322916666666666
0.0
0.0
0.0


(768, 8)

###    Задание 8.5

Удалите из данных только те строки, в которых содержится более двух пропусков одновременно. Чему равно результирующее число записей в таблице?<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
8
</code>
</details>

In [29]:
n = diabetes.shape[1]
diabetes = diabetes.dropna(thresh=n-2, axis=0)
diabetes.shape

(761, 8)

###     Задание 8.6

В оставшихся записях замените пропуски на медиану. Чему равно среднее значение в столбце SkinThickness? Ответ округлите до десятых. <details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
29.1
</code>
</details>

In [30]:
for col in diabetes.columns:
    if diabetes[col].isna().sum() > 0:
        diabetes.loc[diabetes[col].isna(), col] = diabetes[col].median()
diabetes['SkinThickness'].mean()

29.109067017082786

###      Задание 8.7

Сколько выбросов найдёт классический метод межквартильного размаха в признаке SkinThickness?<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
87
</code>
</details>

In [31]:
def outliers_iqr_mod(data, feature, left=1.5, right=1.5):
    x = data[feature]
    quartile_1, quartile_3 = x.quantile(0.25), x.quantile(0.75)
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr*left)
    upper_bound = quartile_3 + (iqr*right)
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[(x >= lower_bound) & (x <= upper_bound)]
    return outliers, cleaned

In [32]:
outliers, cleaned = outliers_iqr_mod(diabetes, 'SkinThickness')
print(f'Число выбросов по методу Тьюки: {outliers.shape[0]}')

Число выбросов по методу Тьюки: 87


###     Задание 8.8

Сколько выбросов найдёт классический метод z-отклонения в признаке SkinThickness?

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
4
</code>
</details>

In [39]:
def outliers_z_score_mod(data, feature, log_scale=False, left=3, right=3):
    if log_scale:
        x = np.log(data[feature])
    else:
        x = data[feature]
    mu = x.mean()
    sigma = x.std()
    lower_bound = mu - left * sigma
    upper_bound = mu + right * sigma
    outliers = data[(x < lower_bound) | (x > upper_bound)]
    cleaned = data[(x >= lower_bound) & (x <= upper_bound)]
    return outliers, cleaned

In [35]:
outliers, cleaned = outliers_z_score_mod(diabetes, 'SkinThickness')
print(f'Число выбросов по методу z-отклонения: {outliers.shape[0]}')
print(f'Результирующее число записей: {cleaned.shape[0]}')

Число выбросов по методу z-отклонения: 4
Результирующее число записей: 757


###     Задание 8.9

На приведённой гистограмме показано распределение признака DiabetesPedigreeFunction. Такой вид распределения очень похож на логнормальный, и он заставляет задуматься о логарифмировании признака. Найдите сначала число выбросов в признаке DiabetesPedigreeFunction с помощью классического метода межквартильного размаха.
<img src='../static/img/data_cleaning_12.png' style='width: 400px;'><br>
Затем найдите число выбросов в этом же признаке в логарифмическом масштабе (при логарифмировании единицу прибавлять не нужно!). Какова разница между двумя этими числами (вычтите из первого второе)?
<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
29
</code>
</details>

In [38]:
outliers, cleaned = outliers_iqr_mod(diabetes, 'DiabetesPedigreeFunction')
print(f'Число выбросов по методу Тьюки: {outliers.shape[0]}')
print(f'Результирующее число записей: {cleaned.shape[0]}')

Число выбросов по методу Тьюки: 29
Результирующее число записей: 732


In [40]:
outliers, cleaned = outliers_z_score_mod(diabetes, 'DiabetesPedigreeFunction', log_scale=True)
print(f'Число выбросов по методу z-отклонения: {outliers.shape[0]}')
print(f'Результирующее число записей: {cleaned.shape[0]}')

Число выбросов по методу z-отклонения: 0
Результирующее число записей: 761
