# <center>1. Разведочный анализ данных (EDA)</center>

**Задача**

По данным о пациентах из файла *chronic.csv* научиться предсказывать наличие у пациента заболевания почек.

In [120]:
# Импорт библиотеки для работы с табличными данными
import pandas as pd

In [121]:
# Открываем данные
kidney_df = pd.read_csv('data/chronic.csv')
kidney_df

Unnamed: 0,age,bp,sg,al,su,rbc,pc,pcc,ba,bgr,...,pcv,wc,rc,htn,dm,cad,appet,pe,ane,class
0,48,80,1.020,1,0,?,normal,notpresent,notpresent,121,...,44,7800,5.2,yes,yes,no,good,no,no,ckd
1,7,50,1.020,4,0,?,normal,notpresent,notpresent,?,...,38,6000,?,no,no,no,good,no,no,ckd
2,62,80,1.010,2,3,normal,normal,notpresent,notpresent,423,...,31,7500,?,no,yes,no,poor,no,yes,ckd
3,48,70,1.005,4,0,normal,abnormal,present,notpresent,117,...,32,6700,3.9,yes,no,no,poor,yes,yes,ckd
4,51,80,1.010,2,0,normal,normal,notpresent,notpresent,106,...,35,7300,4.6,no,no,no,good,no,no,ckd
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,55,80,1.020,0,0,normal,normal,notpresent,notpresent,140,...,47,6700,4.9,no,no,no,good,no,no,notckd
396,42,70,1.025,0,0,normal,normal,notpresent,notpresent,75,...,54,7800,6.2,no,no,no,good,no,no,notckd
397,12,80,1.020,0,0,normal,normal,notpresent,notpresent,100,...,49,6600,5.4,no,no,no,good,no,no,notckd
398,17,60,1.025,0,0,normal,normal,notpresent,notpresent,114,...,51,7200,5.9,no,no,no,good,no,no,notckd


In [122]:
# Выведем названия всех признаков в датасете
kidney_df.columns

Index(['age', 'bp', 'sg', 'al', 'su', 'rbc', 'pc', 'pcc', 'ba', 'bgr', 'bu',
       'sc', 'sod', 'pot', 'hemo', 'pcv', 'wc', 'rc', 'htn', 'dm', 'cad',
       'appet', 'pe', 'ane', 'class'],
      dtype='object')

Датасет представляет собой *csv* файл, содержащий следующие столбцы:

* `age`: возраст пациента в годах.
* `bp`: артериальное давление, представляемое как систолическое над диастолическим (например, 120/80 мм рт.ст.).
* `sg`: относительная плотность мочи, мера концентрации растворенных веществ в моче.
* `al`: уровень альбумина в моче, который может указывать на функции или повреждение почек.
* `su`: уровень сахара в моче, который может быть важен для диагностики диабета или проблем с почками.
* `rbc`: число эритроцитов в моче, что может указывать на кровотечение или повреждение почек.
* `pc`: клетки гноя в моче, указывающие на инфекцию или воспаление в мочевыводящих путях.
* `pcc`: количество клеток гноя, более специфическая мера числа клеток гноя.
* `ba`: бактерии в моче, указывающие на инфекцию мочевых путей.
* `bgr`: уровень глюкозы в крови, важный для диагностики диабета.
* `bu`: азот мочевины в крови, мера функции почек и метаболизма белков.
* `sc`: сывороточный креатинин, важный показатель функции почек.
* `sod`: уровень натрия в сыворотке, который может указывать на баланс жидкости и электролитов.
* `pot`: уровень калия в сыворотке, критически важный для функций сердца и мышц.
* `hemo`: уровень гемоглобина, который может указывать на анемию.
* `pcv`: объем клеток или гематокрит, представляющий долю объема крови, занимаемую эритроцитами.
* `wc`: общее количество лейкоцитов, которое может указывать на инфекцию или воспаление.
* `rc`: количество эритроцитов, мера анемии или состояния крови.
* `htn`: статус гипертензии, закодированный как да (1) или нет (0).
* `dm`: статус сахарного диабета, кодируется как да (1) или нет (0).
* `cad`: статус коронарной болезни сердца, кодируется как да (1) или нет (0).
* `appet`: статус аппетита, кодируется как нормальный, плохой или отсутствующий.
* `pe`: периферические отеки, указывающие на задержку жидкости, кодируются как присутствуют (1) или отсутствуют (0).
* `ane`: статус анемии, кодируется как да (1) или нет (0).
* `class`: классификация статуса хронической болезни почек (ХБП) (болеет или нет).

In [123]:
# Посмотрим информацию о признаках
kidney_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 25 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   age     400 non-null    object
 1   bp      400 non-null    object
 2   sg      400 non-null    object
 3   al      400 non-null    object
 4   su      400 non-null    object
 5   rbc     400 non-null    object
 6   pc      400 non-null    object
 7   pcc     400 non-null    object
 8   ba      400 non-null    object
 9   bgr     400 non-null    object
 10  bu      400 non-null    object
 11  sc      400 non-null    object
 12  sod     400 non-null    object
 13  pot     400 non-null    object
 14  hemo    400 non-null    object
 15  pcv     400 non-null    object
 16  wc      400 non-null    object
 17  rc      400 non-null    object
 18  htn     400 non-null    object
 19  dm      400 non-null    object
 20  cad     400 non-null    object
 21  appet   400 non-null    object
 22  pe      400 non-null    ob

Несмотря на то, что в датасете представлены числовые значения, они закодированы как класс *object*. Следовательно признаки `'age'`, `'bp'`, `'sg'`, `'al'`, `'su'`, `'bgr'`, `'bu'`, `'sc'`, `'sod'`, `'pot'`, `'hemo'`, `'pcv'`, `'wc'`, `'rc'` нам необходимо перевести в класс *int* или *float* в зависимости от значений.

Также сразу бросается, что пропусков будто бы нет, хотя пропущенные значения видно ещё на этапе визуализации датасета (обозначены символом `?`). 

In [124]:
# Импорт библиотеки для работы с массивами и числовыми операциями
import numpy as np

In [None]:
# Создадим функцию для изменения значений в числовых столбцах
def replace_value(value: object) -> float:
    """Функция для преобразования значений в столбце
    
    Args: 
        значения типа object

    Returns:
       значения типа float64
    """
    
    if value == '?':
        return np.NaN
    else:
        return float(value)

In [126]:
# Создадим переменную с именами числовых столбцов, которые нам надо преобразовать
num_cols = 'age', 'bp', 'sg', 'al', 'su', 'bgr', 'bu', 'sc', 'sod', 'pot', 'hemo', 'pcv', 'wc', 'rc'

In [127]:
for i in num_cols:
    kidney_df[i] = kidney_df[i].apply(replace_value)

In [None]:
# Заменим символ '?', на NaN, в оставшихся категориальных столбцах
kidney_df = kidney_df.replace('?', np.NaN)

In [None]:
# Посмотрим, что получилось
kidney_df

Unnamed: 0,age,bp,sg,al,su,rbc,pc,pcc,ba,bgr,...,pcv,wc,rc,htn,dm,cad,appet,pe,ane,class
0,48.0,80.0,1.020,1.0,0.0,,normal,notpresent,notpresent,121.0,...,44.0,7800.0,5.2,yes,yes,no,good,no,no,ckd
1,7.0,50.0,1.020,4.0,0.0,,normal,notpresent,notpresent,,...,38.0,6000.0,,no,no,no,good,no,no,ckd
2,62.0,80.0,1.010,2.0,3.0,normal,normal,notpresent,notpresent,423.0,...,31.0,7500.0,,no,yes,no,poor,no,yes,ckd
3,48.0,70.0,1.005,4.0,0.0,normal,abnormal,present,notpresent,117.0,...,32.0,6700.0,3.9,yes,no,no,poor,yes,yes,ckd
4,51.0,80.0,1.010,2.0,0.0,normal,normal,notpresent,notpresent,106.0,...,35.0,7300.0,4.6,no,no,no,good,no,no,ckd
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,55.0,80.0,1.020,0.0,0.0,normal,normal,notpresent,notpresent,140.0,...,47.0,6700.0,4.9,no,no,no,good,no,no,notckd
396,42.0,70.0,1.025,0.0,0.0,normal,normal,notpresent,notpresent,75.0,...,54.0,7800.0,6.2,no,no,no,good,no,no,notckd
397,12.0,80.0,1.020,0.0,0.0,normal,normal,notpresent,notpresent,100.0,...,49.0,6600.0,5.4,no,no,no,good,no,no,notckd
398,17.0,60.0,1.025,0.0,0.0,normal,normal,notpresent,notpresent,114.0,...,51.0,7200.0,5.9,no,no,no,good,no,no,notckd


In [132]:
# Посмотрим информацию о признаках
kidney_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 25 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   age     391 non-null    float64
 1   bp      388 non-null    float64
 2   sg      353 non-null    float64
 3   al      354 non-null    float64
 4   su      351 non-null    float64
 5   rbc     248 non-null    object 
 6   pc      335 non-null    object 
 7   pcc     396 non-null    object 
 8   ba      396 non-null    object 
 9   bgr     356 non-null    float64
 10  bu      381 non-null    float64
 11  sc      383 non-null    float64
 12  sod     313 non-null    float64
 13  pot     312 non-null    float64
 14  hemo    348 non-null    float64
 15  pcv     329 non-null    float64
 16  wc      294 non-null    float64
 17  rc      269 non-null    float64
 18  htn     398 non-null    object 
 19  dm      398 non-null    object 
 20  cad     398 non-null    object 
 21  appet   399 non-null    object 
 22  pe

In [130]:
# # Посмотрим статистики категорийных признаков
# kidney_df.describe(include='object').T

1. Разведочный анализ данных (EDA)

    * Подсчет пропусков и выявление аномалий.
    * Визуализация распределения признаков (гистограммы, боксплоты и так далее).
    * Анализ корреляции между признаками.
    * Сделайте выводы из анализа, выберите целевую переменную, сформулируйте гипотезу.

2. Предобработка данных

    * Очистите данные: обработайте пропуски, выбросы и категориальные переменные.
    * Нормализуйте и/или стандартизируйте данные, если это необходимо.

3. Построение моделей машинного обучения

    * Выберите как минимум три различных алгоритма машинного обучения (например, логистическую регрессию, решающие деревья, случайный лес, градиентный бустинг и так далее).
    * Обучите модели на тренировочных данных, используя кросс-валидацию для оценки их производительности.

4. Оценка моделей

    * Оцените качество построенных моделей с помощью метрик, которые были рассмотрены на занятиях (точность, полнота, F1-мера и ROC-AUC и так далее).
    * Сравните результаты моделей и выберите наилучшую по производительности.

5. Подбор гиперпараметров

    * Оптимизируйте производительность моделей путем подбора гиперпараметров.

6. Оценка важности признаков

    * Проанализируйте важность признаков для одной выбранной модели.

7. Заключение

    * Сформулируйте выводы на основе полученных результатов и дайте рекомендации по дальнейшим шагам в исследовании или практике.