# Описание проекта
## Исследование заболеваний сердца

В этом проекте мы изучим некоторые данные из выборки пациентов, который были обследованы на предмет заболеваний сердца. Данные были загружены и затем очищены для анализа.

../files/heart_disease.csv

In [1]:
import pandas as pd
import numpy as np

# загрузим данные в переменную heart
heart = pd.read_csv('../files/heart_disease.csv')

# выведем несколько строк данных
print(heart.head())

    age     sex  trestbps   chol                cp  exang  fbs  thalach  \
0  63.0    male     145.0  233.0    typical angina    0.0  1.0    150.0   
1  67.0    male     160.0  286.0      asymptomatic    1.0  0.0    108.0   
2  67.0    male     120.0  229.0      asymptomatic    1.0  0.0    129.0   
3  37.0    male     130.0  250.0  non-anginal pain    0.0  0.0    187.0   
4  41.0  female     130.0  204.0   atypical angina    0.0  0.0    172.0   

  heart_disease  
0       absence  
1      presence  
2      presence  
3       absence  
4       absence  


In [2]:
# разделите данные на две подгруппы
# yes_hd и no_hd по колонке heart_disease
yes_hd = heart[heart.heart_disease == 'presence']
no_hd = heart[heart.heart_disease == 'absence']

Немного информации о наборе данных
- chol - сывороточный холестерин в мг/дл
- fbs - индикатор того, превышает ли уровень сахара в крови натощак 120 мг/дл (1 = правда, 0 = ложь)

In [None]:
# для начала исследуйте уровень холестерина у пациентов с сердечными заболеваниями. Используйте набор данных, yes_hd чтобы сохранить уровень холестерина у пациентов с сердечными заболеваниями в качестве переменной с именем chol_hd

chol_hd = yes_hd.chol

# рассчитайте средний уровень холестерина у пациентов с сердечными заболеваниями и выведите значение на экран
print(np.mean(chol_hd))

251.4748201438849


Высоки уровень холестерина в крови считается от уровня 240 мг/дл

Судя по полученному результату среднее значение холестерина в крови у пациентов с сердечными заболеваниями больше порогового

In [7]:
# ответте на вопрос: имеют ли люди с сердечными заболеваниями в среднем высокий уровень холестерина (больше или равный 240 мг/дл)?
# для того чтобы ответить на вопрос воспользуйтесь библиотекой scipy
import scipy.stats as stats

# Null: У людей с сердечными заболеваниями средний уровень холестерина составляет 240 мг/дл
# Alter: у людей с заболеваниями сердца средний уровень холестерина превышает 240 мг/дл

p_value = stats.ttest_1samp(chol_hd, 240, alternative='greater')
p_value

TtestResult(statistic=np.float64(2.7337803003099808), pvalue=np.float64(0.0035411033905155707), df=np.int64(138))

In [8]:
# рассчитайте тот же показатель для выборки данных из пациентов которые не имеют сердечных заболеваний
p_value = stats.ttest_1samp(no_hd.chol, 240, alternative='greater')

print(p_value)

TtestResult(statistic=np.float64(0.6325062182479374), pvalue=np.float64(0.26397120232220506), df=np.int64(163))


In [9]:
# вернемся к полному набору данных heart
# сколько пациентов в данном наборе сохраните значение в переменную num_patients и выведите на экран
num_patients = len(heart)

print(num_patients)

303


In [10]:
# Помните что колонка fbs показывает превышаел ли уровень сахара в крови пациента натощак 120 мг/дг.
# 1 означает что сахар в крови на тощак был выше 120 мг/дл
# 0 означает что сахар в крови на тощак был ниже 120 мг/дл

# Посчитайте кол-во пациентов у которых уровень сахара в крови на тощак был больше 120 сохраните данное значение в переменной num_highfbs_patients
num_highfbs_patients = np.sum(heart.fbs == 1)

print(num_highfbs_patients)

45


In [None]:
# если верить анализу на 1988 год то около 8% населения страны страдало диабетом
# рассчитайте ожидаемое значение согласно анализу 1988 года и нашим данным выведите данное числоа на экран
print(len(heart) * .08)

24.240000000000002


Получается что ожидаемое значение согласно анализу 1988 года равно 24 людям из 303.

In [12]:
# проведите биноминальное тестирование
stats.binomtest(num_highfbs_patients, num_patients, .08, alternative='greater')

BinomTestResult(k=45, n=303, alternative='greater', statistic=0.1485148514851485, pvalue=4.689471951448875e-05)