In [28]:
import pandas as pd
import openpyxl

In [29]:
# get DataFrame from xlsx
# Получение данных из xlsx файла

#
table_avanesyan_df = pd.read_excel('Data/table_avanesyan.xlsx', sheet_name=0, engine="openpyxl")
df_avanesyan = pd.DataFrame(table_avanesyan_df)

#
table_blood_vessels_df = pd.read_excel('Data/table_blood_vessels.xlsx', sheet_name=0, engine="openpyxl")
df_blood_ves = pd.DataFrame(table_blood_vessels_df)

#
table_infants_digital_df = pd.read_excel('Data/database_infants_digital.xlsx', sheet_name=0, engine="openpyxl")
df_infants_digital = pd.DataFrame(table_infants_digital_df)


In [30]:
# info
# общая информация по данным из таблицы
df_avanesyan.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119 entries, 0 to 118
Data columns (total 15 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Номер                           119 non-null    int64  
 1   Пол (1 - мужской, 0 - женский)  117 non-null    float64
 2   Возраст                         117 non-null    float64
 3   P                               117 non-null    float64
 4   Диагноз                         117 non-null    object 
 5   Время года (БП)                 117 non-null    object 
 6   Масса мозга (БП)                117 non-null    object 
 7   Масса при рождении (БП)         117 non-null    float64
 8   Вскармливание (БП)              117 non-null    object 
 9   Роды (БП)                       117 non-null    object 
 10  Особенности ГМ (БП)             22 non-null     object 
 11  Особенности легких (БП)         34 non-null     object 
 12  Unnamed: 12                     0 no

In [50]:
# Удаление неизвестной колонки №12
# Removal of unknown column #12
df_avanesyan_1 = df_avanesyan.drop('Unnamed: 12', axis=1)
df_avanesyan_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119 entries, 0 to 118
Data columns (total 14 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Номер                           119 non-null    int64  
 1   Пол (1 - мужской, 0 - женский)  117 non-null    float64
 2   Возраст                         117 non-null    float64
 3   P                               117 non-null    float64
 4   Диагноз                         117 non-null    object 
 5   Время года (БП)                 117 non-null    object 
 6   Масса мозга (БП)                117 non-null    object 
 7   Масса при рождении (БП)         117 non-null    float64
 8   Вскармливание (БП)              117 non-null    object 
 9   Роды (БП)                       117 non-null    object 
 10  Особенности ГМ (БП)             22 non-null     object 
 11  Особенности легких (БП)         34 non-null     object 
 12  Особенности сердца (БП)         28 n

In [40]:
# Исправляем названия месяцев на правильный формат
# Функция для преобразования строки
def capitalize_season(season):
    # Список месяцев
    months = ['Январь', 'Февраль', 'Март', 'Апрель',
              'Май', 'Июнь', 'Июль', 'Август',
              'Сентябрь', 'Октябрь', 'Ноябрь', 'Декабрь']
    # Словосочетания с заглавной буквы
    half_years = ['Первое полугодие', 'Второе полугодие']

    # Проверка на словосочетание "Первое полугодие" или "Второе полугодие"
    if isinstance(season, str) and season in half_years:
        season = season.title()
    # Если строка не является словосочетанием, то изменяем первую букву на верхний регистр, а остальные - на нижний
    elif isinstance(season, str):
        season = season.title().rstrip('0123456789').rstrip()
        if season in months:
            season = season.title()
    return season

# Применение функции capitalize_season к столбцу "Время года (БП)"
df_avanesyan_1['Время года (БП)'] = df_avanesyan_1['Время года (БП)'].apply(capitalize_season)

#### Модуль `sklearn.preprocessing.LabelEncoder` из библиотеки scikit-learn позволяет преобразовывать категориальные (например, строковые) значения в числовые. Это может быть нужно, например, для передачи в алгоритмы машинного обучения, которые принимают на вход только числовые данные, или для уменьшения объема данных.

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
# Обучим `LabelEncoder` на столбце датафрейма, содержащем категориальные значения.


### Поле в датафрейме можно представить как числовое значение (1 и 0) или строковое значение ('М' и 'Ж', 'male' и 'female' и т.д.), выбор зависит от предметной области, методов анализа. Если значения будут использоваться для статистических вычислений, лучше использовать числовые значения, так как многие методы работают только с числами. Если выбираете строковые значения, убедитесь, что все значения написаны правильно, чтобы избежать ошибок в анализе. Правильный выбор зависит от задачи и предпочтений аналитика."

### Отсутствующие данные в медицинских датасетах достаточно распространены и могут быть вызваны различными причинами, как неполное заполнение форм, ошибки ввода, несоответствия между базами данных и др. Работа с отсутствующими данными называется обработкой пропущенных значений (missing data processing)

### Например, одним из популярных методов является алгоритм к-ближайших соседей (KNN), который используется для замены пропущенных значений на основе соседних записей с похожими параметрами.

In [46]:
from sklearn.impute import KNNImputer

In [47]:
# Создание экземпляра датафрейма
df_avanesyan_2 = df_avanesyan_1
# Создание экземпляра KNN импьютера
imputer = KNNImputer(n_neighbors=5)

# Замена пропущенных значений в датафрейме
df_avanesyan_2_filled = imputer.fit_transform(df_avanesyan_2)

# Преобразование массива данных обратно в датафрейм
df_avanesyan_2 = pd.DataFrame(df_avanesyan_2_filled, columns=df_avanesyan_2.columns)

ValueError: could not convert string to float: 'СВДС'

In [24]:
# описание min-max значений
df_avanesyan.describe()

AttributeError: 'NoneType' object has no attribute 'describe'

In [25]:
df_corr_matrix = df_avanesyan.corr(method='spearman') #Это метод корреляции Пирсона

AttributeError: 'NoneType' object has no attribute 'corr'

In [26]:
# Это таблица коэффициентов корреляции Пирсона между различными переменными. Она показывает, насколько сильно или слабо связаны между собой различные переменные. Коэффициент корреляции Пирсона может принимать значения от -1 до 1. Если коэффициент равен 1, это означает положительную корреляцию, то есть две переменные движутся в одном направлении. Если коэффициент равен -1, это означает отрицательную корреляцию, то есть две переменные движутся в противоположных направлениях. Если коэффициент равен 0, это означает отсутствие корреляции между переменными.

# В данной таблице можно увидеть, что возраст, номер и P сильно коррелируют между собой с коэффициентом 0.923331. Пол и Масса при рождении (БП) также коррелируют между собой, но связь в этом случае не такая сильная. Можно использовать эту таблицу, чтобы определить, какие переменные следует использовать для предсказания целевой переменной.

df_corr_matrix

NameError: name 'df_corr_matrix' is not defined

In [27]:
# info
# общая информация по данным из таблицы
df_infants_digital.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119 entries, 0 to 118
Data columns (total 15 columns):
 #   Column                                                                                                                                                                                                                                                                                                    Non-Null Count  Dtype  
---  ------                                                                                                                                                                                                                                                                                                    --------------  -----  
 0   Номер                                                                                                                                                                                                                                       

In [None]:
df_infants_digital

In [None]:
# merge dataframes
# слияние данных из таблиц df_avanesyan, df_infants_digital
df_work_table = pd.merge(df_avanesyan, df_infants_digital, how='inner')
# drop unnamed columns

# list of factors
# листинг факторов
list(df_work_table)

In [None]:
# drop fully unfilled rows
# Удаление незаполненных строк
df_work_table = df_work_table.dropna(thresh=3)

In [None]:
is_null = df_work_table.isnull()
is_null