# Визуализация.

Датасет представляет собой коллекцию медицинских и демографических данных пациентов, а также их статус диабета (положительный или отрицательный). Данные включают такие характеристики, как возраст, пол, индекс массы тела (ИМТ), гипертония, сердечно-сосудистые заболевания, история курения, уровень HbA1c и уровень глюкозы в крови. 

В будущем этот датасет может быть использован для построения моделей машинного обучения для прогнозирования диабета у пациентов на основе их истории болезни и демографической информации. Это может быть полезно для медицинских работников при выявлении пациентов, которые могут быть подвержены риску развития диабета, и при разработке персонализированных планов лечения.

Описание столбцов:

|Название| Описание |
|--|--|
|`gender`| Пол пациента |
|`age`| Возраст |
|`hypertension`| Гипертония —  это состояние, при котором кровяное давление в артериях постоянно повышено. Он принимает значения 0 или 1, где 0 означает отсутствие гипертонии, а 1 —  наличие гипертонии. |
|`heart_disease`| Болезни сердца —  это еще одно состояние, которое связано с повышенным риском развития диабета. Он также принимает значения 0 или 1, где 0 означает отсутствие сердечных заболеваний, а 1 —  наличие сердечных заболеваний. |
|`smoking_history`| Опыт курения —  также считается фактором риска развития диабета и может усугубить осложнения, связанные с диабетом. | 
|`bmi`| Это показатель количества жира в организме, основанный на весе и росте. Более высокие значения ИМТ связаны с повышенным риском развития диабета. Диапазон ИМТ в наборе данных составляет от 10,16 до 71,55. ИМТ менее 18,5 —  это недостаточный вес, 18,5-24,9 —  нормальный, 25-29,9 —  избыточный вес, а 30 и более —  ожирение. |
|`HbA1c_level`| Уровень HbA1c (гемоглобин A1c) —  это показатель среднего уровня сахара в крови человека за последние 2-3 месяца. Более высокий уровень указывает на больший риск развития диабета. В основном более 6,5% уровня HbA1c указывает на диабет. | 
|`blood_glucose_level`| Уровень глюкозы в крови —  это количество глюкозы в крови в определенный момент времени. Высокий уровень глюкозы в крови является основным признаком диабета. |
|`diabetes`| Диабет является целевой переменной (таргетом), при этом значение 1 указывает на наличие диабета, а 0 —  на его отсутствие. |

## Задание

Проведите визуализацию данных и попробуйте выяснить причины, от чего и с чем связаны основные причины наличия диабета у людей.

Ваша цель —  визуально с помощью графиков определить и доказать, что при наличии какого-либо фактора возможен риск развития диабета.

Этапы выполнения задания (наш pipeline):

1. Загрузка и предобработка данных (при необходимости)
2. Описательный анализ данных, просмотр данных
3. Построение гистограмм числовых переменных
4. Построение диаграмм размаха для определения наличия выбросов (ящики с усами) числовых переменных
5. Построение столбчатых диаграмм для категориальных переменных
6. Построение матрицы корреляции признаков (Phik или Пирсона)
7. Сравнение двух выборок
8. Общий вывод

## Загрузка данных

In [None]:
### импортируем нужные библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import phik
from scipy import stats
import seaborn as sns
sns.set_theme()

In [None]:
# ваш код здесь
df = pd.read_csv("C:/Users/Z/PycharmProjects/data_science_1t/task_1.5/diabetes_prediction_dataset.csv")

## Описательный анализ данных

Рассмотрите данные —  изучите медианы, средние, дисперсии и т.д. 

Что можете сказать о данных? Сделайте вывод.

In [None]:
df.describe().T

In [None]:
df.info()

In [None]:
df.isna().sum()

In [None]:
df.duplicated().sum()

In [None]:
## К'2-тест Д'Агостино
test = [df.age, df.hypertension, df.heart_disease, df.bmi, df.HbA1c_level, df.blood_glucose_level, df.diabetes]
for data in test:
    _, pvalue = stats.normaltest(data)
    alpha = 0.05
    print(data.name + ": ")
    if pvalue < alpha:
        print(f'P-value:{pvalue:.5f}. выборка не имеет распределение по Гауссу.')
    else:
        print(f'P-value:{pvalue:.5f}. выборка имеет распределения по Гауссу.')

**Вывод:**
1. Данные не содержат пропусков.
2. В данных содержится 3854 явных дубликата.
3. В колонке smoking_history имеются значения former и not current, которые по сути являются дубликатами.
4. Выборки age, hypertension, heart_disease, bmi, HbA1c_level, blood_glucose_level, diabetes не имеют нормальное распределение (распределение по Гауссу).
5. Данные имеют верный формат.
6. Средний возраст исследуемых - 42-43 года.

## Предобработка данных

### Дубликаты

Предобработайте датасет —  проверьте на наличие дубликатов и удалите, если они есть.

In [None]:
# ваш код здесь
print(df.duplicated().sum())
df.drop_duplicates(inplace=True)

In [None]:
#Испралвяем дублирование former и not current
df.loc[df['smoking_history'] == 'not current', 'smoking_history'] = 'former'
df.smoking_history.value_counts()

In [None]:
#Избавляемся от "Европейских ценностей"
df.gender.value_counts() #18
df = df.loc[df.gender != 'Other']
df.gender.value_counts()

### Отсутствующие значения

Предобработайте датасет — проверьте на наличие NaN и удалите или заполните значения.

In [None]:
# ваш код здесь
#Пропуски данных отсутствуют.
df.info()

### Изменение типа данных

Рассмотрев все данные, замените типы на нужные (при необходимости):

- Если есть числа — на `int` или `float`
- Если категории — можно оставить `object`

In [None]:
# ваш код здесь
#Изменение типов данных не требуется
#Приводим индексы в порядок
df.reset_index(drop=True, inplace=True)
df

**Вывод:**
Данные исправлены и подготовлены к дальнейшей работе

## Визуализация

Построим графики:

1. Построение гистограмм числовых переменных
2. Построение диаграмм размаха для определения наличия выбросов (ящики с усами) числовых переменных
3. Построение столбчатых диаграмм для категориальных переменных
4. Построение матрицы корреляции признаков (Phik или Пирсона)

После построения опишите выборку. Что она из себя представляет? Есть ли зависимости?

In [None]:
# ваш код здесь
#1. Построение гистограмм числовых переменных
fig = px.histogram(df, x="age")
fig.update_layout(bargap=0.01) #bargap позволяет разъеденить столбцы друг от друга
fig.show()

Из полученной гистограммы отчетливо видно значительное количество пациентов (4932), возраст которых находится в пределах от 79,75 до 80,24. Очевидно, что это выброс и его необходимо исправить.

In [None]:
df = df.loc[df.age <= 79.24]
fig = px.histogram(df, x="age")
fig.update_layout(bargap=0.01) #bargap позволяет разъеденить столбцы друг от друга
fig.show()

In [None]:
df.hist(figsize=(10,10));

In [None]:
#2. Построение диаграмм размаха для определения наличия выбросов (ящики с усами) числовых переменных
df.boxplot(figsize=(10,10));

После изучения полученных графиков следует удалить из датафрейма выявленные выбросы: bmi > 50


In [None]:
df = df.loc[df.bmi <= 50]

In [None]:
#3. Построение столбчатых диаграмм для категориальных переменных
tmp = df['smoking_history'].value_counts()
plt.figure(figsize=(5,5))
plt.title('Smoking history')
plt.bar(tmp.index, height=tmp.values)
plt.xticks(tmp.index)
plt.show()

In [None]:
#4. Построение матрицы корреляции признаков (Phik или Пирсона)
df.phik_matrix()

**Вывод:**
Из полученной матрицы корреляции признаков можно увидеть, что целевая переменная diabetes зависит от возраста пациента, наличия у пациента гипертонии и сердечных заболеваний, уровеня гемоглобина, уровня сахара в крови, а так же прослеживается некоторая зависимость от наличия у пациента ожирения и вредных привычек.

## Сравнение выборок

После построения всех типов графиков, необходимо провести анализ:

Отобразите на одном графике две выборки — люди с диабетом и без и сравните их.

1. Для числовых признаков — гистограммы и ящики с усами.
2. Для категориальных — столбчатые диаграммы.

После напишите вывод, есть ли какая-то зависимость?

In [None]:
# ваш код здесь
tmp_d = df['diabetes'].value_counts()
plt.figure(figsize=(5,5))
plt.title('Diabetes')
plt.bar(tmp_d.index, height=tmp_d.values)
plt.xticks(tmp_d.index)
plt.show()

In [None]:
sns.countplot(x="diabetes", data=df, hue='smoking_history')

In [None]:
pd.plotting.scatter_matrix(df, figsize=(25,20));

**Вывод:**
Различные графики позволяют представить данные в более наглядном виде и выявить различные зависимости.


## ЗАДАЧИ PRO

Мы провели базовый анализ выше и сделали выводы.

Но даёт ли этот результат полную картину? Наша цель — узнать, каков риск возникновения диабета у пациента.

Ваша задача — воспользоваться ранее приобретенными навыками и дополнить общий вывод. 

**Этапы:**

1) Разделите выборки и постройте дополнительные графики. Может стоит разделить на несколько выборок и сравнить графики там?
2) Постройте `pairplot` с параметром `hue=='diabetes'`. Может там тоже где-то кроется истина?
3) Постройте тепловую карту корреляции `Phik` и сделайте дополнительный вывод.
4) Дополните общий вывод. 

**Примечание:** задание не ограничено только этими этапами. Можно их дополнить — может стоит сделать фильтр данных, рассмотреть данные под другим углом и провести дополнительную аналитику? Средствами и методами не ограничены.

In [None]:
# Постройте `pairplot` с параметром `hue=='diabetes'`. Может там тоже где-то кроется истина?
sns.pairplot(df, corner=True, hue='diabetes');

<b>Из полученных графиков видно, что:</b>
1. Количество больных увеличивается с возрастом.
2. Вершины графиков гипертонии, сердечных заболеваний и ожирения совпадают с вершинами графиков больных диабетом.
3. Высокий уровень глюкозы в крови не всегда приводит к диабету.

In [None]:
#Постройте тепловую карту корреляции `Phik` и сделайте дополнительный вывод.
tmp = df.sample(1000).phik_matrix()
plt.figure(figsize=(7,7))
sns.heatmap(tmp, annot=True, cmap='Greens')
plt.imshow(tmp)
plt.show()

Тепловая карта корреляции позволяет более наглядно представить данные и выявить <b>новые</b> зависимости, такие как:
1. Возраст и ожирение.
2. Возраст и курение.
3. Возраст и гипертония.
4. Ожирение и курение.

In [None]:
df.info()

In [None]:
numeric_df = df[['age','hypertension','heart_disease','bmi','HbA1c_level', 'blood_glucose_level', 'diabetes']] # Выберем только числовые столбцы
sns.heatmap(numeric_df.corr(),annot=True) # 

# Общий вывод

В группе риска заболеть сахарным диабетом находятся люди в возрасте, с ожирением, курящие и имеющие сердечные заболевания. 
Наличие высокого уровня сахара в крови является уже следствием самого заболевания.

Графическое представление данных упрощает изучение данных и выявление различных зависимостей.