## Контекст
Сокращение детской смертности отражено в нескольких Целях устойчивого развития ООН и является ключевым индикатором человеческого прогресса.
ООН ожидает, что к 2030 году страны покончат с предотвратимой смертностью новорожденных и детей в возрасте до 5 лет, при этом все страны стремятся снизить смертность детей в возрасте до 5 лет как минимум до 25 на 1000 живорождений.

Параллельно понятию детской смертности, конечно же, существует материнская смертность, на долю которой приходится 295 000 смертей во время и после беременности и родов (по состоянию на 2017 год). Подавляющее большинство этих смертей (94%) произошло в странах с ограниченными ресурсами, и большинство из них можно было предотвратить .

В свете вышеизложенного кардиотокограммы (КТГ) представляют собой простой и доступный по цене вариант оценки здоровья плода, позволяющий медицинским работникам принять меры по предотвращению детской и материнской смертности. Само оборудование работает, посылая ультразвуковые импульсы и считывая их реакцию, тем самым проливая свет на частоту сердечных сокращений плода (ЧСС), движения плода, сокращения матки и многое другое.

## Данные
Этот набор данных содержит 2126 записей особенностей, извлеченных из исследований кардиотокографии, которые затем были классифицированы тремя экспертами-акушерами на 3 класса :
- Нормальный
- Подозревать
- Патологический

<u>FHR — fetal heart rate.</u>

In [1]:
import pandas as pd

In [5]:
try:
    df_raw = pd.read_csv('../raw_data/fetal_health.csv')
except:
    raise Exception('Something is wrong. Check the file')

## Знакомство и предобработка данных

In [2]:
def get_dataset_info(df: pd.DataFrame) -> None:
    '''
    Функция принимает датафрейм Pandas
    и одной ячейкой выводит самую базовую инфу по нему
    Аргументы:
    df -- pd.DataFrame (датафрейм Pandas)
    '''
    print(f'{"НАЧАЛО СВОДКИ":^160}') 
    
    print('+'*50)
    print('ПЕРВЫЕ ПЯТЬ СТРОК:')
    print('+'*50)
    display(df.head())
    print('\n')
    
    print('+'*50)
    print('ОБЩЕЕ ИНФО:')
    print('+'*50)
    print(df.info())
    print('\n')
    
    print('+'*50)
    print('ПРОПУСКИ:')
    print('+'*50)
    print(df.isna().sum())
    print('\n')

    print('+'*50)
    print(f'ОБЩЕЕ КОЛИЧЕСТВО ПРОПУСКОВ: {df.isna().sum().sum()}')
    print('+'*50)
    print('\n')
    
    print('+'*50)
    print(f'КОЛИЧЕСТВО ДУБЛИКАТОВ: {df.duplicated().sum()}')
    print('+'*50)
    print('\n')
    
    print(f'{"КОНЕЦ СВОДКИ":^160}') 

In [4]:
get_dataset_info(df_raw)

                                                                         НАЧАЛО СВОДКИ                                                                          
++++++++++++++++++++++++++++++++++++++++++++++++++
ПЕРВЫЕ ПЯТЬ СТРОК:
++++++++++++++++++++++++++++++++++++++++++++++++++


Unnamed: 0,baseline value,accelerations,fetal_movement,uterine_contractions,light_decelerations,severe_decelerations,prolongued_decelerations,abnormal_short_term_variability,mean_value_of_short_term_variability,percentage_of_time_with_abnormal_long_term_variability,...,histogram_min,histogram_max,histogram_number_of_peaks,histogram_number_of_zeroes,histogram_mode,histogram_mean,histogram_median,histogram_variance,histogram_tendency,fetal_health
0,120.0,0.0,0.0,0.0,0.0,0.0,0.0,73.0,0.5,43.0,...,62.0,126.0,2.0,0.0,120.0,137.0,121.0,73.0,1.0,2.0
1,132.0,0.006,0.0,0.006,0.003,0.0,0.0,17.0,2.1,0.0,...,68.0,198.0,6.0,1.0,141.0,136.0,140.0,12.0,0.0,1.0
2,133.0,0.003,0.0,0.008,0.003,0.0,0.0,16.0,2.1,0.0,...,68.0,198.0,5.0,1.0,141.0,135.0,138.0,13.0,0.0,1.0
3,134.0,0.003,0.0,0.008,0.003,0.0,0.0,16.0,2.4,0.0,...,53.0,170.0,11.0,0.0,137.0,134.0,137.0,13.0,1.0,1.0
4,132.0,0.007,0.0,0.008,0.0,0.0,0.0,16.0,2.4,0.0,...,53.0,170.0,9.0,0.0,137.0,136.0,138.0,11.0,1.0,1.0




++++++++++++++++++++++++++++++++++++++++++++++++++
ОБЩЕЕ ИНФО:
++++++++++++++++++++++++++++++++++++++++++++++++++
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2126 entries, 0 to 2125
Data columns (total 22 columns):
 #   Column                                                  Non-Null Count  Dtype  
---  ------                                                  --------------  -----  
 0   baseline value                                          2126 non-null   float64
 1   accelerations                                           2126 non-null   float64
 2   fetal_movement                                          2126 non-null   float64
 3   uterine_contractions                                    2126 non-null   float64
 4   light_decelerations                                     2126 non-null   float64
 5   severe_decelerations                                    2126 non-null   float64
 6   prolongued_decelerations                                2126 non-null   float64
 7   abnorma

Первоначальный анализ показывает, что датасет действительно содержит 2126 объектов медицинского анализа здоровья плода. Пропуски отсутствуют, однако, есть 13 полных дубликата, от которых избавимся. Тип данных подходящий. 

#### Описания признаков
- **baseline value** - базовый уровень ЧСС (ударов в минуту)
- **accelerations** - количество ускорений в секунду
- **fetal_movement** - количество движений плода в секунду
- **uterine_contractions** - количество сокращений матки в секунду
- **light_decelerations** - количество замедлений света в секунду
- **severe_decelerations** - количество серьезных замедлений в секунду
- **prolongued_decelerations** - количество длительных замедлений в секунду
- **abnormal_short_term_variability** - процент времени с аномальной краткосрочной изменчивостью
- **mean_value_of_short_term_variability** - среднее значение краткосрочной изменчивости
- **percentage_of_time_with_abnormal_long_term_variability** - процент времени с аномальной долгосрочной изменчивостью
- **mean_value_of_long_term_variability** - среднее значение долгосрочной изменчивости
- **histogram_width** - ширина гистограммы FHR
- **histogram_min** - минимум (низкая частота) гистограммы FHR
- **histogram_max** - максимум (высокая частота) гистограммы FHR
- **histogram_number_of_peaks** -количество пиков гистограммы
- **histogram_number_of_zeroes** - количество нулей гистограммы
- **histogram_mode** -  режим гистограммы
- **histogram_mean** - среднее значение гистограммы
- **histogram_median** - медиана гистограммы
- **histogram_variance** - отклонение гистограммы
- **histogram_tendency** - тенденция гистограммы

#### Целевой признак:
- **fetal_health** -
    - 1 (норма)
    - 2 (подозрение на патологию)
    - 3 (патология)


In [6]:
# создадим копию исходного датасета для предобработки
df = df_raw.copy()

In [8]:
# избавимся от дубликатов и пересчитаем индексы
df = df.drop_duplicates().reset_index(drop=True)
df.duplicated().sum()

0