Будем работать с датасетом Pima Indian Diabetes - это набор данных из Национального института диабета, болезней органов пищеварения и почек. Целью набора данных является диагностическое прогнозирование наличия диабета у пациента. Несколько ограничений были наложены на выбор этих экземпляров из большой базы данных. В частности, все пациенты здесь - женщины в возрасте от 21 года, индийского происхождения.

Описание данных:Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, Age

- __Pregnancies__ - данная единица отображает количество беременностей, единицы измерения - целые числа от 0 до N. Тип переменной - количественная, дискретная.
- __Glucose__ - данная единица отображает уровень глюкозы в крови, единицы измерения - целые числа. Тип переменной - количественная, дискретная.
- __BloodPressure__ - данная единица отображает артериальное давление, единицы измерения - миллиметры р/с, целые числа. Тип переменной - количественная, дискретная.
- __SkinThickness__ - данная единица отображает обхват трицепса в миллиметрах, целые числа. Тип переменной - количественная, дискретная.
- __Insulin__ - данная единица отображает уровень инсулина в крови, целые числа. Тип переменной - количественная, дискретная.
- __BMI__ - данная единица отображает индекс массы тела. Тип переменной - количественная, непрерывная.
- __DiabetesPedigreeFunction__ - данная единица отображает риск наследственного диабета в зависимости наличия диабета у родственников. Выражается десятичной дробью от 0 до 1. Тип переменной - количественная, непрерывная.
- __Age__ - данная единица отражает возраст в целых числах. Тип переменной - количественная, дискретная.
- __Class__ - данная единица отражает наличие диабета у субъекта, выражена 0(здоров) или 1(болен). Тип переменной - категориальная, бинарная.

In [1]:
# Подключение библиотек
import pandas as pd
import numpy as np

**Задание 1.** Загрузите и ознакомьтесь с полученным набором данных.

In [3]:
# Ваш код здесь
df = pd.read_csv('diabet.csv')
print(df.head())

   pregnancies  glucose  bloodpressure  skinthickness  insulin   bmi  \
0            6    148.0           72.0           35.0    125.0  33.6   
1            1     85.0           66.0           29.0    125.0  26.6   
2            8    183.0           64.0           29.0    125.0  23.3   
3            1     89.0           66.0           23.0     94.0  28.1   
4            0    137.0           40.0           35.0    168.0  43.1   

   diabetespedigreefunction  age  class  
0                     0.627   50      1  
1                     0.351   31      0  
2                     0.672   32      1  
3                     0.167   21      0  
4                     2.288   33      1  


**Задание 2.** Вычислите основные статистики (минимум, максимум, среднее, дисперсию) для всех столбцов.

In [4]:
# Задание 2: Вычисление основных статистик
print(df.describe())

       pregnancies     glucose  bloodpressure  skinthickness     insulin  \
count   768.000000  768.000000     768.000000     768.000000  768.000000   
mean      3.845052  121.656250      72.386719      29.108073  140.671875   
std       3.369578   30.438286      12.096642       8.791221   86.383060   
min       0.000000   44.000000      24.000000       7.000000   14.000000   
25%       1.000000   99.750000      64.000000      25.000000  121.500000   
50%       3.000000  117.000000      72.000000      29.000000  125.000000   
75%       6.000000  140.250000      80.000000      32.000000  127.250000   
max      17.000000  199.000000     122.000000      99.000000  846.000000   

              bmi  diabetespedigreefunction         age       class  
count  768.000000                768.000000  768.000000  768.000000  
mean    32.457464                  0.471876   33.240885    0.348958  
std      6.875151                  0.331329   11.760232    0.476951  
min     18.200000                  

**Задание 3.** У скольких женщин старше 50 лет обнаружен диабет?

In [5]:
# Задание 3: У скольких женщин старше 50 лет обнаружен диабет?
older_than_50_with_diabetes = df[(df['age'] > 50) & (df['class'] == 1)]
print(f"Женщин старше 50 лет с диабетом: {len(older_than_50_with_diabetes)}")

Женщин старше 50 лет с диабетом: 38


**Задание 4.** Найдите трех женщин с наибольшим числом беременностей.

In [6]:
# Задание 4: Найдите трех женщин с наибольшим числом беременностей.
top_pregnancies = df.nlargest(3, 'pregnancies')
print("Три женщины с наибольшим числом беременностей:")
print(top_pregnancies[['pregnancies', 'age']])

Три женщины с наибольшим числом беременностей:
     pregnancies  age
159           17   47
88            15   43
298           14   46


**Задание 5.** Сколько женщин возраста между 30 и 40 успело родить 3 или более детей?

In [7]:
# Задание 5: Сколько женщин возраста между 30 и 40 успело родить 3 или более детей?
women_30_40_with_3_kids = df[(df['age'] >= 30) & (df['age'] <= 40) & (df['pregnancies'] >= 3)]
print(f"Женщин возраста между 30 и 40 с 3 или более детьми: {len(women_30_40_with_3_kids)}")

Женщин возраста между 30 и 40 с 3 или более детьми: 142


**Задание 6.** Нормальным кровяным давлением будем считать давление в диапазоне [80-89]. У какого процента женщин давление нормальное?

In [8]:
# Задание 6: У какого процента женщин давление нормальное?
normal_bp = df[(df['bloodpressure'] >= 80) & (df['bloodpressure'] <= 89)]
percentage_normal_bp = (len(normal_bp) / len(df)) * 100
print(f"Процент женщин с нормальным давлением: {percentage_normal_bp:.2f}%")

Процент женщин с нормальным давлением: 18.88%


**Задание 7.** Считается, что BMI >= 30 - это признак ожирения.
У скольких женщин с признаками ожирения кровяное давление выше среднего?

In [9]:
# Задание 7: У скольких женщин с признаками ожирения кровяное давление выше среднего?
obese_women = df[df['bmi'] >= 30]
average_bp = df['bloodpressure'].mean()
obese_with_high_bp = obese_women[obese_women['bloodpressure'] > average_bp]
print(f"Женщин с ожирением и давлением выше среднего: {len(obese_with_high_bp)}")

Женщин с ожирением и давлением выше среднего: 251


**Задание 8.** Сравните средние значения для признаков __Glucose,	BloodPressure,	Insulin__ среди тех, у кого обнаружен диабет, и тех, у кого его нет.

In [10]:
# Задание 8: Сравните средние значения для признаков Glucose, BloodPressure, Insulin среди тех, у кого обнаружен диабет, и тех, у кого его нет.
diabetic_mean = df[df['class'] == 1][['glucose', 'bloodpressure', 'insulin']].mean()
non_diabetic_mean = df[df['class'] == 0][['glucose', 'bloodpressure', 'insulin']].mean()
print("Средние значения для диабетиков:")
print(diabetic_mean)
print("Средние значения для не диабетиков:")
print(non_diabetic_mean)

Средние значения для диабетиков:
glucose          142.130597
bloodpressure     75.123134
insulin          164.701493
dtype: float64
Средние значения для не диабетиков:
glucose          110.682
bloodpressure     70.920
insulin          127.792
dtype: float64


**Задание 9.** Добавьте новый бинарный признак:

__wasPregnant__ $\in$ {0,1} - была женщина беременна (1) или нет (0)

In [17]:
# Задание 9: Добавьте новый бинарный признак wasPregnant
df['wasPregnant'] = df['pregnancies'].apply(lambda x: 1 if x > 0 else 0)

# Отображение обновленного датасета
print(df.head())

   pregnancies  glucose  bloodpressure  skinthickness  insulin   bmi  \
0            6    148.0           72.0           35.0    125.0  33.6   
1            1     85.0           66.0           29.0    125.0  26.6   
2            8    183.0           64.0           29.0    125.0  23.3   
3            1     89.0           66.0           23.0     94.0  28.1   
4            0    137.0           40.0           35.0    168.0  43.1   

   diabetespedigreefunction  age  class  wasPregnant       bodyType  
0                     0.627   50      1            1        Obesity  
1                     0.351   31      0            1     Overweight  
2                     0.672   32      1            1  Normal weight  
3                     0.167   21      0            1     Overweight  
4                     2.288   33      1            0        Obesity  


**Задание 10.** Сравните процент больных диабетом среди женщин, которые были беременны и не были.

In [13]:
# Задание 10: Сравните процент больных диабетом среди женщин, которые были беременны и не были.
pregnant_diabetic_percentage = df[df['wasPregnant'] == 1]['class'].mean() * 100
non_pregnant_diabetic_percentage = df[df['wasPregnant'] == 0]['class'].mean() * 100
print(f"Процент диабетиков среди бывших беременных: {pregnant_diabetic_percentage:.2f}%")
print(f"Процент диабетиков среди не бывших беременных: {non_pregnant_diabetic_percentage:.2f}%")

Процент диабетиков среди бывших беременных: 35.01%
Процент диабетиков среди не бывших беременных: 34.23%


**Задание 11.** Добавьте новый категориальный признак __bodyType__ на основе столбца BMI:

__BMI Categories:__

Underweight = <18.5

Normal weight = 18.5–24.9

Overweight = 25–29.9

Obesity = BMI of 30 or greater

Признак должен принимать значения Underweight, Normal weight, Overweight и Obesity.

In [16]:
# Задание 11: Добавьте новый категориальный признак bodyType на основе столбца BMI
def categorize_bmi(bmi):
    if bmi < 18.5:
        return 'Underweight'
    elif 18.5 <= bmi < 25:
        return 'Normal weight'
    elif 25 <= bmi < 30:
        return 'Overweight'
    else:
        return 'Obesity'

df['bodyType'] = df['bmi'].apply(categorize_bmi)

# Отображение обновленного датасета
print(df.head())

   pregnancies  glucose  bloodpressure  skinthickness  insulin   bmi  \
0            6    148.0           72.0           35.0    125.0  33.6   
1            1     85.0           66.0           29.0    125.0  26.6   
2            8    183.0           64.0           29.0    125.0  23.3   
3            1     89.0           66.0           23.0     94.0  28.1   
4            0    137.0           40.0           35.0    168.0  43.1   

   diabetespedigreefunction  age  class  wasPregnant       bodyType  
0                     0.627   50      1            1        Obesity  
1                     0.351   31      0            1     Overweight  
2                     0.672   32      1            1  Normal weight  
3                     0.167   21      0            1     Overweight  
4                     2.288   33      1            0        Obesity  


**Задание 12.** Будем считать "здоровыми" тех, у кого нормальный вес и кровяное давление. Какой процент "здоровых" женщин больны диабетом?

In [15]:
# Задание 12: Какой процент "здоровых" женщин больны диабетом?
healthy_women = df[(df['bodyType'] == 'Normal weight') & (df['bloodpressure'] >= 80) & (df['bloodpressure'] <= 89)]
healthy_diabetic_percentage = healthy_women['class'].mean() * 100
print(f"Процент 'здоровых' женщин с диабетом: {healthy_diabetic_percentage:.2f}%")

Процент 'здоровых' женщин с диабетом: 10.00%
