<h1 align='center'>Коллективный проект команды №4-1-1<h1>
<h2 align='center'>Анализ данных<h2>

**График №1**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('diabetes_prediction_dataset.csv')

# Преобразование столбца age в нужный тип данных
df['age'] = pd.to_numeric(df['age'], errors='coerce')

# Разделение на возрастные группы
bins = [0, 18, 34, 69, 74, 150]
labels = ['Молодой', 'Зрелый', 'Средний', 'Пожилой', 'Старческий']
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels, right=False)

# Создание круговых диаграмм
fig, axes = plt.subplots(1, 5, figsize=(20, 4))

# Значения для параметра explode
explode = (0.1, 0.1, 0.1, 0.1)

# Цвета для категорий из Set3
colors = plt.cm.Set3.colors

for i, group in enumerate(labels):
    subset = df[df['age_group'] == group]
    data = [
        subset['diabetes'].sum(),
        subset['hypertension'].sum(),
        subset['heart_disease'].sum(),
        len(subset) - subset['diabetes'].sum() - subset['hypertension'].sum() - subset['heart_disease'].sum()
    ]
    labels = [''] * 4  # пустые строки
    autopct = ''

    if i >= 2:  # задаем подписи и проценты только для трех последних диаграмм
        labels = ['Diabetes', 'Hypertension', 'Heart disease', 'Healthy']
        autopct = '%1.1f%%'

    axes[i].pie(data, labels=labels, autopct=autopct, startangle=140, wedgeprops={'edgecolor': 'white'}, explode=explode, colors=colors)
    axes[i].set_title(f'{group}')

plt.suptitle('Заболеваемость с возрастом', fontsize=16)
plt.tight_layout()
plt.show()

**График №2**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
# Загрузка данных
df = pd.read_csv('diabetes_prediction_dataset.csv')

# Создание поднаборов данных для мужчин и женщин
male_subset = df[df['gender'] == 'Male']
female_subset = df[df['gender'] == 'Female']

# Создание круговых диаграмм для мужчин
fig, axes = plt.subplots(1, 2, figsize=(14, 7))

# Мужчины
male_labels = ['Diabetes', 'Hypertension', 'Heart Disease', 'Healthy']
male_data = [
    male_subset['diabetes'].sum(),
    male_subset['hypertension'].sum(),
    male_subset['heart_disease'].sum(),
    len(male_subset) - male_subset['diabetes'].sum() - male_subset['hypertension'].sum() - male_subset['heart_disease'].sum()
]
colors = plt.cm.Set3.colors
explode = (0.4, 0.4, 0.4, 0)  # добавляем отступ к первому сектору
axes[0].pie(male_data, labels=male_labels, autopct='%1.1f%%', startangle=140, colors=colors, explode=explode)

axes[0].set_title('Состояние здоровья мужчин')

# Женщины
female_labels = ['Diabetes', 'Hypertension', 'Heart Disease', 'Healthy']
female_data = [
    female_subset['diabetes'].sum(),
    female_subset['hypertension'].sum(),
    female_subset['heart_disease'].sum(),
    len(female_subset) - female_subset['diabetes'].sum() - female_subset['hypertension'].sum() - female_subset['heart_disease'].sum()
]
axes[1].pie(female_data, labels=female_labels, autopct='%1.1f%%', startangle=140, colors=colors)
axes[1].set_title('Состояние здоровья женщин')
percent_male = len(male_subset) / (len(male_subset) + len(female_subset)) * 100
percent_female = len(female_subset) / (len(male_subset) + len(female_subset)) * 100

# Добавление текст с процентом мужчин и женщин
fig.text(0.28, 0.1, 'Процент мужчин: %.2f%%' % percent_male, ha='center', fontsize=12)
fig.text(0.74, 0.1, 'Процент женщин: %.2f%%' % percent_female, ha='center', fontsize=12)
plt.show()

**График №3**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv('diabetes_prediction_dataset.csv')

plt.figure(figsize=(10, 6))
plt.scatter(data['age'], data['bmi'], c=data['diabetes'].map({0: 'lightgreen', 1: 'Red'}), s=15)

plt.xlabel('Age')
plt.ylabel('BMI')
plt.title('Диаграмма рассеивания - зависимость: возраст от BMI')

plt.show()

**График №4**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import plotly.express as px

# Загрузка данных
df = pd.read_csv('diabetes_prediction_dataset.csv')

# Выбор переменных для визуализации
# В данном примере мы выбрали возраст, ИМТ и уровень глюкозы в крови
x, y, z = 'age', 'bmi', 'blood_glucose_level'

# Перекодирование столбца diabetes для визуализации: 0 для здоровых, 1 для больных диабетом
df["diabetes_color"] = df["diabetes"].apply(lambda x: 'Pink' if x == 1 else 'Green')

# Построение трехмерной диаграммы рассеивания
fig = px.scatter_3d(df, x=x, y=y, z=z, color='diabetes_color', color_discrete_map={'Pink': 'pink', 'Green': 'green'},
                    title="Трехмерная точечная диаграмма для прогнозирования диабета", template="plotly_dark")

# Установка размера маркеров
fig.update_traces(marker=dict(size=3))
fig.update_layout(scene=dict(
                    xaxis_title='Возраст',
                    yaxis_title='Индекс массы тела',
                    zaxis_title='Уровень глюкозы в крови'
                ))

fig.show()

**График №5**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import plotly.express as px

# Загрузка данных
df = pd.read_csv('diabetes_prediction_dataset.csv')

# Выберем количественные переменные
numeric_columns = ['age', 'bmi', 'HbA1c_level', 'blood_glucose_level', 'diabetes']

binary_columns = ['hypertension', 'heart_disease']
selected_columns = numeric_columns + binary_columns

# Очистим данные от возможных пропущенных значений
df_selected = df[selected_columns].dropna()

# Вычислим корреляционную матрицу
corr_matrix = df_selected.corr(method='pearson')

# Построим тепловую карту
fig = px.imshow(corr_matrix,
                text_auto=True, # Автоматически добавит значения на тепловую карту
                labels=dict(x="Feature", y="Feature", color="Correlation"),
                x=corr_matrix.columns,
                y=corr_matrix.columns,
                template="plotly_dark")

# Назначим заголовок графика
fig.update_layout(title='Корреляционная тепловая карта для прогнозирования диабета', width=1920, height=1080)

fig.show()

**График №6**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import plotly.express as px

# Загрузка данных из CSV
df = pd.read_csv('diabetes_prediction_dataset.csv')

# Заменяем 0 и 1 на более понятные обозначения
df['diabetes'] = df['diabetes'].map({0: 'No Diabetes', 1: 'Diabetes'})
df['heart_disease'] = df['heart_disease'].map({0: 'No Heart Disease', 1: 'Heart Disease'})
df['hypertension'] = df['hypertension'].map({0: 'No Hypertension', 1: 'Hypertension'})

# Агрегация всех данных для визуализации
grouped_data = df.groupby(['gender', 'age', 'diabetes', 'heart_disease', 'hypertension']).size().reset_index(name='counts')

# Создание мозаичной диаграммы с дополнительными условиями
fig = px.treemap(grouped_data, path=['gender', 'age', 'diabetes', 'heart_disease', 'hypertension'], values='counts',
                 color='counts',
                 color_continuous_scale='RdBu',
                 title='Распределение диабета, сердечных заболеваний и гипертонии в зависимости от пола и возраста',
                 template="plotly_dark")

# Показываем фигуру
fig.show()

**График №7**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import plotly.express as px

# Загрузка данных из CSV
df = pd.read_csv('diabetes_prediction_dataset.csv')

# Данные для визуализации
grouped_data = df.groupby(['gender', 'age', 'diabetes']).size().reset_index(name='counts')

# Создание мозаичной диаграммы
fig = px.treemap(grouped_data, path=['gender', 'age', 'diabetes'], values='counts',
                 color='diabetes',
                 color_continuous_scale='RdBu',
                 title='Распределение диабета в зависимости от пола и возраста',
                 template="plotly_dark")
fig.show()

**График №8**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import plotly.express as px
df = pd.read_csv('diabetes_prediction_dataset.csv')
fig = px.box(df,
             x='smoking_history',
             y='bmi',
             color='smoking_history',
             title='Распределение BMI по истории курения',
             template="plotly_dark")
fig.show()

**График №9**. Возрастная круговая диаграмма.

In [None]:
import pandas as pd
import plotly.express as px

df = pd.read_csv('diabetes_prediction_dataset.csv')

# smoking_history в числа
def convert_smoking(smoking):
    if smoking == 'current':
        return 2
    elif smoking == 'former' or smoking == 'not current' or smoking == 'ever':
        return 1
    elif smoking == 'never':
        return -1
    elif smoking == 'no info':
        return 0
    else:
        return None

# Применение функции выше к smoking_history и создание нового столбца
df['smoking_status'] = df['smoking_history'].apply(convert_smoking)

# Построение Parallel Coordinates Plot
fig = px.parallel_coordinates(df,
                              color="diabetes",
                              dimensions=['gender', 'age', 'hypertension', 'heart_disease',
                                          'smoking_status', 'bmi', 'HbA1c_level', 'blood_glucose_level'],
                              labels={'smoking_status': 'Smoking Status', 'gender': 'Gender', 'age': 'Age',
                                      'hypertension': 'Hypertension', 'heart_disease': 'Heart Disease',
                                      'bmi': 'BMI', 'HbA1c_level': 'HbA1c Level', 'blood_glucose_level': 'Blood Glucose Level'},
                              color_continuous_scale=px.colors.diverging.Tealrose,
                              color_continuous_midpoint=0.5,
                              template="plotly_dark")
fig.show()

<h2 align='center'>Заключение<h2>

...