## Задача

Распознавание результатов общего анализа крови

## Цель

Разработать сервис, который на основе данных общего анализа крови проводит диагностику и выдает рекомендацию обратится к определенному врачу (или нет) с указанием срочности.

<u>Примеры рекомендаций:</u>

* Пример 1. 

    Выявление сильно пониженное 80 состояние HGB — hemoglobin — Гемоглобин - подозрение на анемию, возраст 14 лет, девочка - рекомендация:

    “Срочно обратитесь к педиатру для консультации в связи с пониженным гемоглобином”

* Пример 2. 

    Выявлено пониженное содержание лейкоцитов 2,7 - вероятно диагноз “Лейкопения” возраст 32 года, женщина -рекомендация:

    “Срочно обратитесь к терапевту для консультации в связи с пониженными лейкоцитами с дальнейшей возможной консультацией у гематолога или другого профильного врача”

* Пример 3. 

    Все показатели в пределах нормы, возраст 30 лет, мужчина вес 110 при росте 180 см - рекомендация:

    “Рекомендуем планово обследоваться у врача и снизить свой вес с помощью питания и физических нагрузок для улучшения состояния здоровья”.

# <center>Разведочный анализ данных (EDA)</center>

In [1]:
# Импорт библиотеки pandas для работы с табличными данными.
import pandas as pd

In [7]:
# Открываем данные.
project_df = pd.read_csv('data/undefind.csv', sep=';')
project_df

Unnamed: 0,ID истории болезни,Осн. диаг. при выписке МКБ10 (текст),Заголовок документа,Кол. лаб. показатель,Значение кол. показателя,Ед. изм. кол. показателя,Норма кол. показателя,Флаг нормы кол. показателя,Кач. лаб. показатель,Значение кач. показателя,Норма кач. показателя,Пол,Дата рождения пациента
0,2e1d0b3f-488a-11ed-ab5a-0050568844e6,Плазмоклеточный лейкоз,Общий анализ крови,Лейкоциты (WBC),1.80,10*9/л,4:11,Пониж,,,,Ж,1962-09-22 00:00:00
1,2e1d0b3f-488a-11ed-ab5a-0050568844e6,Плазмоклеточный лейкоз,Общий анализ крови,Эритроциты (RBC),4.18,10*12/л,"3,8:5,7",Норм,,,,Ж,1962-09-22 00:00:00
2,2e1d0b3f-488a-11ed-ab5a-0050568844e6,Плазмоклеточный лейкоз,Общий анализ крови,Гемоглобин (HGB),120.00,г/л,117:160,Норм,,,,Ж,1962-09-22 00:00:00
3,2e1d0b3f-488a-11ed-ab5a-0050568844e6,Плазмоклеточный лейкоз,Общий анализ крови,Гематокрит (HCT),35.10,%,35:47,Норм,,,,Ж,1962-09-22 00:00:00
4,2e1d0b3f-488a-11ed-ab5a-0050568844e6,Плазмоклеточный лейкоз,Общий анализ крови,Средний объем эритроцита (MCV),84.00,фл,80:99,Норм,,,,Ж,1962-09-22 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
36292,516f652e-8bb8-11eb-bb95-2cea7fe73f75,Острый лейкоз неуточненного клеточного типа,Общий анализ крови,Базофилы,1.00,%,0:2,Норм,Комментарий,Тромбоциты проверены. Рекомендована консультац...,_,М,2014-10-17 00:00:00
36293,516f652e-8bb8-11eb-bb95-2cea7fe73f75,Острый лейкоз неуточненного клеточного типа,Общий анализ крови,Эозинофилы,0.00,%,0:5,Норм,Комментарий,Тромбоциты проверены. Рекомендована консультац...,_,М,2014-10-17 00:00:00
36294,516f652e-8bb8-11eb-bb95-2cea7fe73f75,Острый лейкоз неуточненного клеточного типа,Общий анализ крови,Пролимфоциты,0.00,%,0:0,Норм,Комментарий,Тромбоциты проверены. Рекомендована консультац...,_,М,2014-10-17 00:00:00
36295,516f652e-8bb8-11eb-bb95-2cea7fe73f75,Острый лейкоз неуточненного клеточного типа,Общий анализ крови,Лимфоциты,65.00,%,18:44,Повыш,Комментарий,Тромбоциты проверены. Рекомендована консультац...,_,М,2014-10-17 00:00:00


In [8]:
# Выведем названия всех признаков в таблице.
project_df.columns

Index(['ID истории болезни', 'Осн. диаг. при выписке МКБ10 (текст)',
       'Заголовок документа', 'Кол. лаб. показатель',
       'Значение кол. показателя', 'Ед. изм. кол. показателя',
       'Норма кол. показателя', 'Флаг нормы кол. показателя',
       'Кач. лаб. показатель', 'Значение кач. показателя',
       'Норма кач. показателя', 'Пол', 'Дата рождения пациента'],
      dtype='object')

In [9]:
# Проверяем на дубликаты.
project_df.duplicated().sum()

4091

In [10]:
# Посмотрим информацию о признаках.
project_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36297 entries, 0 to 36296
Data columns (total 13 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   ID истории болезни                    36297 non-null  object 
 1   Осн. диаг. при выписке МКБ10 (текст)  36297 non-null  object 
 2   Заголовок документа                   36297 non-null  object 
 3   Кол. лаб. показатель                  36236 non-null  object 
 4   Значение кол. показателя              36236 non-null  float64
 5   Ед. изм. кол. показателя              36236 non-null  object 
 6   Норма кол. показателя                 36236 non-null  object 
 7   Флаг нормы кол. показателя            36236 non-null  object 
 8   Кач. лаб. показатель                  7005 non-null   object 
 9   Значение кач. показателя              7005 non-null   object 
 10  Норма кач. показателя                 7005 non-null   object 
 11  Пол            

In [11]:
# Посмотрим статистики числовых признаков.
project_df.describe().round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Значение кол. показателя,36236.0,41.7,99.31,0.0,2.0,11.3,38.9,2958.0


In [12]:
# Посмотрим статистики категорийных признаков.
project_df.describe(include='object').T

Unnamed: 0,count,unique,top,freq
ID истории болезни,36297,243,c1f452ff-d091-11ee-8606-005056880ecb,662
Осн. диаг. при выписке МКБ10 (текст),36297,11,Другой уточненный лейкоз,24424
Заголовок документа,36297,1,Общий анализ крови,36297
Кол. лаб. показатель,36236,131,Гемоглобин (HGB),1114
Ед. изм. кол. показателя,36236,11,%,15116
Норма кол. показателя,36236,123,18:44,2135
Флаг нормы кол. показателя,36236,4,Норм,21218
Кач. лаб. показатель,7005,7,Комментарий,4563
Значение кач. показателя,7005,155,+,1250
Норма кач. показателя,7005,5,_,4563


In [13]:
# Подсчитаем кол-во уникальных значений внутри каждого признака.
for col in project_df.columns:
    print(f'Признак: {project_df[col].value_counts(dropna=False)}')
    print('-' * 40)

Признак: ID истории болезни
c1f452ff-d091-11ee-8606-005056880ecb    662
ffa72572-f065-11ec-ab56-0050568844e6    638
70076ff2-f7da-11ee-ab6f-0050568844e6    628
d13aae4f-a605-11ed-ab61-0050568844e6    593
51c51145-0c57-11ef-8607-005056880ecb    514
                                       ... 
b86cafe6-6a6c-11ea-80cd-901b0e633689     26
4dd6bc50-2fe4-11ec-bb98-2cea7fe73f75     25
d13f240e-4d5b-11ea-80c8-901b0e63368a     24
5bcdbef9-efcf-11ed-8604-005056880ecb     23
70f64d47-d5c1-11e9-80bb-901b0e633689      1
Name: count, Length: 243, dtype: int64
----------------------------------------
Признак: Осн. диаг. при выписке МКБ10 (текст)
Другой уточненный лейкоз                       24424
Острый миелоидный лейкоз                        6823
Другой миелоидный лейкоз                        1819
Хронический лимфоцитарный лейкоз                1097
Плазмоклеточный лейкоз                           592
Острый лимфобластный лейкоз                      484
Хронический миелоидный лейкоз               