In [60]:
#Импорт необходимых инструментов для проекта
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

In [61]:
# Функция переименования столбцов в датафрейме
def data_columns_rename(df, columns_dict):
    df.rename(columns=columns_dict, inplace=True)

# Функция объеднения датасетов и удаление ненужных столбцов
def concat_and_drop(data1, data2, list_columns):
    df = pd.concat([data1, data2], ignore_index=True)
    df.drop(columns=list_columns, inplace=True)
    return df

# Функция очистки данных от пустых значений
def clean_nan(data):
    cols_null_percent = data.isnull().mean() * 100
    cols_with_null = cols_null_percent[cols_null_percent>0].sort_values(ascending=False)
    
    for index, values in cols_with_null.items():
        if values >= 30:
            data.drop(columns=[index], inplace = True
    data = data.dropna(how='any', axis=0)
    return data

In [None]:
# Импортируем все необходимые датасеты в проект
diabets_data = pd.read_csv('datasets/diabetes.csv')
test_data = pd.read_csv('datasets/test.csv')
health_indicators_data = pd.read_csv('datasets/diabetes_012_health_indicators_BRFSS2015.csv')

display(diabets_data.info())
display(diabets_data.head(10))
display(test_data.head(10))
display(health_indicators_data.head(10))

# Анализ датасета 1

In [None]:
diabets_data_sort = diabets_data[diabets_data['Outcome'] == 1]

list_columns = ['Age', 'Pregnancies', 'BMI']

fig, ax = plt.subplots()
sns.boxplot(
        data=diabets_data_sort,
        x='Age',
        ax=ax
    );
ax.set_title(f'Histogram show age of patients in dataset')

fig, axes = plt.subplots(1, len(list_columns), figsize=(20,5))
for index, name in enumerate(list_columns):
    sns.histplot(
        data=diabets_data_sort,
        x=name,
        ax=axes[index]
    );
    axes[index].set_title(f'Histogram show count patient with diabets of {name}')

sns.lmplot(
    data=diabets_data_sort,
    x='BMI',
    y='Glucose',
    aspect=3,
    height=5
);

# Вывод:
По первому датасету можно обратить внимание, что основной возраст развития диабета среди женщин попадает в диапазон 28 - 44 лет. При этом в данном датасете особо не наблюдается развитие диабета с количеством беременности и показателем функции развития диабета. Стоит также отметить, что у пациентов с диабетом индекс массы тела варьирует в пределах 20 - 55, что соответствует избыточной массе тела. Из данного дата сета можно сделать вывод, что диабет развивается с избыточным весом.

# 2. Объединение датасета 1 и датасета 2

In [None]:
# Добавим колонку sex в датасет 1
diabets_data['Sex'] = 'F'
# Переименуем столбец Outcome в Diabets
data_columns_rename(diabets_data, {'Outcome': 'Diabetes'})


# Переименуем столбцы в датасете 2, чтоб они бились с датасет 1
# Словарь содержит список переименованных столбцов
columns_dict = {
        'sex': 'Sex', 
        'diabetes': 'Diabetes', 
        'diaBP': 'BloodPressure', 
        'glucose': 'Glucose',
        'age': 'Age'
    }
# Вызывается функция переименования столбца
data_columns_rename(test_data, columns_dict)

# Объединяем датасет 1 с датасет 2 и удаляем ненужные столбцы
# Получаем списки неповторяющихся колонок в обоих DataFrame
list_cols_drop = list(set(diabets_data.columns) ^ set(test_data.columns))

# Объединяем датасет1 и датасет2, а также удаляем неповторяющиеся колонки
df_concat = concat_and_drop(diabets_data, test_data, list_cols_drop)
df_concat

# Комментарий:
Перед анализом полученных данных очистим их от пустых значений.
В ходе анализа были обнаружены

In [None]:
# Определяем критичность количества пустых значений
df_clean = clean_nan(df_concat)
df_clean