##### Задания не несут смысловой нагрузки для реальной жизни, они сделаны лишь для того, чтоб научить использовать Pandas

This database contains 76 attributes, but all published experiments refer to using a subset of 14 of them. In particular, the Cleveland database is the only one that has been used by ML researchers to this date. The "goal" field refers to the presence of heart disease in the patient. It is integer valued from 0 (no presence) to 1.

https://www.kaggle.com/ronitf/heart-disease-uci

___

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv("heart_pandas.csv")

In [3]:
# Хочу посмотреть первые пять строк - что в файле
data.head()

Unnamed: 0,age,sex,chest_pain_type,resting_blood_pressure,cholesterol,fasting_blood_sugar,rest_ecg,max_heart_rate_achieved,exercise_induced_angina,st_depression,st_slope,num_major_vessels,thalassemia,target
0,63,male,non-anginal pain,145,233,greater than 120mg/ml,normal,150,no,2.3,upsloping,0,normal,1
1,37,male,atypical angina,130,250,lower than 120mg/ml,ST-T wave abnormality,187,no,3.5,upsloping,0,fixed defect,1
2,41,female,typical angina,130,204,lower than 120mg/ml,normal,172,no,1.4,flat,0,fixed defect,1
3,56,male,typical angina,120,236,lower than 120mg/ml,ST-T wave abnormality,178,no,0.8,flat,0,fixed defect,1
4,57,female,typical angina,120,354,lower than 120mg/ml,ST-T wave abnormality,163,yes,0.6,flat,0,fixed defect,1


In [4]:
# Хочу посмотреть типы данных в колонках
data.dtypes

age                          int64
sex                         object
chest_pain_type             object
resting_blood_pressure       int64
cholesterol                  int64
fasting_blood_sugar         object
rest_ecg                    object
max_heart_rate_achieved      int64
exercise_induced_angina     object
st_depression              float64
st_slope                    object
num_major_vessels            int64
thalassemia                 object
target                       int64
dtype: object

#### Описание признаков

**age**: The person's age in years

**sex**: The person's sex (1 = male, 0 = female)

**cp**: The chest pain experienced (Value 1: typical angina, Value 2: atypical angina, Value 3: non-anginal pain, Value 4: asymptomatic)

**restbps**: The person's resting blood pressure (mm Hg on admission to the hospital)

**chol**: The person's cholesterol measurement in mg/dl

**fbs**: The person's fasting blood sugar (> 120 mg/dl, 1 = true; 0 = false)

**restecg**: Resting electrocardiographic measurement (0 = normal, 1 = having ST-T wave abnormality, 2 = showing probable or definite left ventricular hypertrophy by Estes' criteria)

**thalach**: The person's maximum heart rate achieved

**exang**: Exercise induced angina (1 = yes; 0 = no)

**oldpeak**: ST depression induced by exercise relative to rest ('ST' relates to positions on the ECG plot. See more here)

**slope**: the slope of the peak exercise ST segment (Value 1: upsloping, Value 2: flat, Value 3: downsloping)

**ca**: The number of major vessels (0-3)

**thal**: A blood disorder called thalassemia (3 = normal; 6 = fixed defect; 7 = reversable defect)

**target**: Heart disease (0 = no, 1 = yes)

> 1. age 
> 2. sex 
> 3. chest pain type (4 values) 
> 4. resting blood pressure 
> 5. serum cholestoral in mg/dl 
> 6. fasting blood sugar > 120 mg/dl
> 7. resting electrocardiographic results (values 0,1,2)
> 8. maximum heart rate achieved 
> 9. exercise induced angina 
> 10. oldpeak = ST depression induced by exercise relative to rest 
> 11. the slope of the peak exercise ST segment 
> 12. number of major vessels (0-3) colored by flourosopy 
> 13. thal: 3 = normal; 6 = fixed defect; 7 = reversable defect

___

#### 1. Сколько мужчин в датасете? Сколько женщен? (sex)

In [5]:
data.sex.value_counts()

male      207
female     96
Name: sex, dtype: int64

#### 2. Какой процент мужчин в датасете? (решите в одну строчку, не используя предыдущий результат. Не забудте знак процента) 

In [6]:
data.sex.value_counts(normalize=True).mul(100).round(2).loc[['male']].astype(str) + ' %'

male    68.32 %
Name: sex, dtype: object

#### 3. Сколько мужчин имеют заболевание сердца? Сколько женщин имеют заболевание сердца?

In [7]:
crosstab = pd.crosstab(data.sex, data.target)
print(crosstab)
pd.DataFrame(crosstab, columns=[1]).loc[['male', 'female']]

target    0   1
sex            
female   24  72
male    114  93


Unnamed: 0_level_0,1
sex,Unnamed: 1_level_1
male,93
female,72


In [8]:
# Сортировка по-другому:
pd.DataFrame(crosstab, columns=[1]).sort_values(1, ascending = False)

Unnamed: 0_level_0,1
sex,Unnamed: 1_level_1
male,93
female,72


**4. Какую долю, от общего числа пациентов, занимают мужчины не имеющие болезнь сердца?**

In [9]:
crosstab.iloc[1, [0]].div(crosstab.sum().sum()).mul(100).round(2).astype(str) + ' %'

target
0    37.62 %
Name: male, dtype: object

**5. Сколько лет самому молодому пациенту, страдающему болезнью сердца?**

In [10]:
x = data[data["target"] == 1]
x["age"].min()

29

**6. Сколько лет самому возастному пациенту, у которого нет проблем с сердцем?**

In [11]:
y = data[data["target"] == 0]
y["age"].max()

77

**7. Сколько лет самой молодой женщине, которая страдает болезнью сердца?**

In [12]:
z = data[(data["target"]==1) & (data["sex"] == "female")]
z["age"].min()

34

**8. Какой средний возраст женщин?**

In [13]:
# Проверю, нет ли NaN в столбце возраст, прежде чем считать среднее значение
data["age"].isnull().value_counts()

False    303
Name: age, dtype: int64

In [14]:
n = data[data["sex"] == "female"]
round(n["age"].mean(), 2)

55.68

**9. Каковы средние значения и среднеквадратичные отклонения возраста тех, кто страдает болезнью сердца?**

In [15]:
m = data[data["target"]==1]
m["age"].describe().loc[['mean', 'std']]

mean    52.496970
std      9.550651
Name: age, dtype: float64

#### 10. Правда ли, что люди не болеющие болезнью сердца имеют уровень холестерина меньше среднего? (chol) 

In [16]:
k = data[data["target"] == 0]
l = k["cholesterol"] < data["cholesterol"].mean()
print("Люди, не болеющие болезнью сердца, имеют уровня холестерина меньше среднего:", "\n")
print(l.value_counts())

Люди, не болеющие болезнью сердца, имеют уровня холестерина меньше среднего: 

False    73
True     65
Name: cholesterol, dtype: int64


Ответ: нет, не правда.

**11. Выведите статистику rest_ecg для всех числовых признаков, их максимальное и среднее значение (используйте groupby(), решите в одну строчку)**

In [17]:
pd.concat([data.groupby(["rest_ecg"]).max().select_dtypes(include=['int64', 'float64']).T, 
           data.groupby(["rest_ecg"]).mean().T], 
          axis=1, keys=['max', 'mean'])

Unnamed: 0_level_0,max,max,max,mean,mean,mean
rest_ecg,ST-T wave abnormality,left ventricular hypertrophy,normal,ST-T wave abnormality,left ventricular hypertrophy,normal
age,71.0,76.0,77.0,52.914474,61.0,55.687075
resting_blood_pressure,180.0,180.0,200.0,129.065789,140.5,134.027211
cholesterol,354.0,327.0,564.0,237.269737,261.75,255.142857
max_heart_rate_achieved,194.0,140.0,202.0,151.960526,125.75,147.904762
st_depression,5.6,4.4,6.2,0.879605,2.725,1.159184
num_major_vessels,4.0,3.0,4.0,0.638158,1.0,0.816327
target,1.0,1.0,1.0,0.631579,0.25,0.462585


In [18]:
# Второе решение: просто вытаскиваю всю статистику по "rest_ecd" для числовых признаков, в том числе max и mean
data.groupby(["rest_ecg"]).describe().T

Unnamed: 0,rest_ecg,ST-T wave abnormality,left ventricular hypertrophy,normal
age,count,152.0,4.0,147.0
age,mean,52.914474,61.0,55.687075
age,std,9.229196,10.099505,8.675902
age,min,34.0,55.0,29.0
age,25%,44.75,55.0,50.5
age,50%,53.5,56.5,57.0
age,75%,60.0,62.5,62.0
age,max,71.0,76.0,77.0
resting_blood_pressure,count,152.0,4.0,147.0
resting_blood_pressure,mean,129.065789,140.5,134.027211


**12. Посчитайте у кого уровень депрессии при физический нагрузке выше (в среднем), среди мужчин страдающих болезнью сердца или среди женщин не страдающих болезнью сердца (st_depression)**

In [19]:
male_hd = data[(data["target"]==1) & (data["sex"]=="male")]
female_no_hd = data[(data["target"]==0) & (data["sex"]=="female")]
s = pd.Series([male_hd["st_depression"].mean(), 
             female_no_hd["st_depression"].mean()],
            index=["male_hd", "female_no_hd"])
print(s, "\n")
if s['male_hd'] > s['female_no_hd']:
    print("Уровень депрессии при физической нагрузке в среднем выше у мужчин, страдающих болезнью сердца.")
else:
    print("Уровень депрессии при физической нагрузке в среднем выше у женщин, не страдающих болезнью сердца.")

male_hd         0.605376
female_no_hd    1.841667
dtype: float64 

Уровень депрессии при физической нагрузке в среднем выше у женщин, не страдающих болезнью сердца.


**13. Посчтитайте максимальный и минимальный уровень холестерина для каждого типа chest_pain_type, rest_ecg, thalassemia. Пишите код оптимально, можно использовать циклы**

In [20]:
a = ["chest_pain_type", "rest_ecg", "thalassemia"]
for element in a:
    chol_max = pd.DataFrame([data.groupby(element)["cholesterol"].max()], index = ["chol_max"]).T
    chol_min = pd.DataFrame([data.groupby(element)["cholesterol"].min()], index = ["chol_min"]).T
    print(pd.concat([chol_max, chol_min], axis=1))

                  chol_max  chol_min
chest_pain_type                     
atypical angina        564       126
non-anginal pain       298       182
typical angina         409       131
                              chol_max  chol_min
rest_ecg                                        
ST-T wave abnormality              354       126
left ventricular hypertrophy       327       197
normal                             564       149
                   chol_max  chol_min
thalassemia                          
fixed defect            417       141
normal                  318       169
reversable defect       564       126


In [21]:
# Без цикла, но с красивым объединением данных:
a = pd.DataFrame([data.groupby("chest_pain_type")["cholesterol"].max()], index = ["chol_max"])
b = pd.DataFrame([data.groupby("chest_pain_type")["cholesterol"].min()], index = ["chol_min"])
df1 = pd.concat([a, b])
c = pd.DataFrame([data.groupby("rest_ecg")["cholesterol"].max()], index = ["chol_max"])
d = pd.DataFrame([data.groupby("rest_ecg")["cholesterol"].min()], index = ["chol_min"])
df2 = pd.concat([c, d])
e = pd.DataFrame([data.groupby("thalassemia")["cholesterol"].max()], index = ["chol_max"])
f = pd.DataFrame([data.groupby("thalassemia")["cholesterol"].min()], index = ["chol_min"])
df3 = pd.concat([e, f])
pd.concat([df1, df2, df3], axis=1, keys=['chest_pain_type', 'rest_ecg', 'thalassemia']).T

Unnamed: 0,Unnamed: 1,chol_max,chol_min
chest_pain_type,atypical angina,564,126
chest_pain_type,non-anginal pain,298,182
chest_pain_type,typical angina,409,131
rest_ecg,ST-T wave abnormality,354,126
rest_ecg,left ventricular hypertrophy,327,197
rest_ecg,normal,564,149
thalassemia,fixed defect,417,141
thalassemia,normal,318,169
thalassemia,reversable defect,564,126


**14. Сколько значений может принимать каждый из категориальных признаков?**

In [22]:
data.select_dtypes(include='object').nunique()

sex                        2
chest_pain_type            3
fasting_blood_sugar        2
rest_ecg                   3
exercise_induced_angina    2
st_slope                   2
thalassemia                3
dtype: int64

**15. У какого категориального признака наблюдается самый сильный дисбаланс классов?**

In [23]:
# Оценка дисбаланса классов по дисперсии значений классов:
a = ["sex", "chest_pain_type", "fasting_blood_sugar", "rest_ecg", "exercise_induced_angina", "st_slope", "thalassemia"]
b = []
for i in a:
    b.append(pd.Series(data[i].value_counts().values).var())
d_var = pd.Series(b, index = a).sort_values(ascending = False)
print(d_var, "\n")
print("Самый сильный дисбаланс классов наблюдается у", d_var.index[0], 
      "со значением дисперсии", d_var[0])

fasting_blood_sugar        22684.5
chest_pain_type             7372.0
rest_ecg                    7063.0
sex                         6160.5
thalassemia                 5521.0
exercise_induced_angina     5512.5
st_slope                     180.5
dtype: float64 

Самый сильный дисбаланс классов наблюдается у fasting_blood_sugar со значением дисперсии 22684.5


In [24]:
# Оценка дисбаланса классов по стандартному отклонению значений классов (аналогично оценки по дисперсии):
a = ["sex", "chest_pain_type", "fasting_blood_sugar", "rest_ecg", "exercise_induced_angina", "st_slope", "thalassemia"]
b = []
for i in a:
    c = data[i].value_counts().values
    b.append(pd.Series(c).std())
d_std = pd.Series(b, index = a).sort_values(ascending = False)
print(d_std, "\n")
print("Самый сильный дисбаланс классов наблюдается у", d_std.index[0], 
      "со значением стандартного отклонения", round(d_std[0], 2))

fasting_blood_sugar        150.613744
chest_pain_type             85.860352
rest_ecg                    84.041656
sex                         78.488853
thalassemia                 74.303432
exercise_induced_angina     74.246212
st_slope                    13.435029
dtype: float64 

Самый сильный дисбаланс классов наблюдается у fasting_blood_sugar со значением стандартного отклонения 150.61


In [25]:
# Оценка по значению самого часто встречающегося класса:
data.select_dtypes(include='object').describe().T

Unnamed: 0,count,unique,top,freq
sex,303,2,male,207
chest_pain_type,303,3,typical angina,193
fasting_blood_sugar,303,2,lower than 120mg/ml,258
rest_ecg,303,3,ST-T wave abnormality,152
exercise_induced_angina,303,2,no,204
st_slope,303,2,upsloping,161
thalassemia,303,3,fixed defect,166


In [26]:
x = pd.DataFrame(data.select_dtypes(include='object').describe().T)
y = x["freq"] / x["count"] * 100
z = y.sort_values(ascending = False)
print(z)
print('\n', "Самое высокое процентное содержание наиболее частов встречающегося класса - у признака", 
      z.index[0], "cо значением", round(z[0], 2), "%")

fasting_blood_sugar        85.148515
sex                        68.316832
exercise_induced_angina    67.326733
chest_pain_type             63.69637
thalassemia                54.785479
st_slope                   53.135314
rest_ecg                   50.165017
dtype: object

 Самое высокое процентное содержание наиболее частов встречающегося класса - у признака fasting_blood_sugar cо значением 85.15 %


#### Обсуждение
Отсутсвие дисбаланса классов наблюдается в том случае, если количество значений во всех классах признака равны, то есть нет отличия значений классов от среднего значения. Обсудим, каким образом можно оценить дисбаланс классов.


Процентное содержание наиболее часто встречающегося класса у признака (то есть freq/count * 100%) является показателем дисбаланса классов только в случае, если количество классов категориального признака равно 2.

Однако, в нашем примере встречаются признаки, у которых количество классов более двух (по три класса). Значение freq/count * 100% дает нам представление только о содержании наиболее часто встречающегося класса признака, и не дает представление о распределении значений в остальных классах, в которых отличие от среднего значения может быть очень бОльшим, что приведет к бОльшему дисбалансу.

В качестве наглядного примера можно сравнить признак не с максимальным дисбалансом классов (fasting_blood_sugar), а второй по величине. При определении дисперсии и среднеквадратичного отклонения это признак "chest_pain_type". При расчете содержания наиболее часто встречающегося класса это признак "sex".

Проанализируем данные два признака по-другому: просто рассчитаем отличие значений каждого класса данных признаков от среднего.

In [27]:
# Количество значений для классов признака chest_pain_type:
data.chest_pain_type.value_counts()

typical angina      193
atypical angina      87
non-anginal pain     23
Name: chest_pain_type, dtype: int64

In [28]:
# Среднее значение:
data.chest_pain_type.value_counts().mean()

101.0

In [29]:
# Посчитаем, во сколько раз значение каждого класса отличаются от среднего (просто разделим значение на среднее или наоборот):
a = round((data.chest_pain_type.value_counts()[0] / data.chest_pain_type.value_counts().mean()), 1)
b = round((data.chest_pain_type.value_counts().mean() / data.chest_pain_type.value_counts()[1]), 1)
c = round((data.chest_pain_type.value_counts().mean() / data.chest_pain_type.value_counts()[2]), 1)
pd.Series([a, b, c], index = [data.chest_pain_type.value_counts().index[0], 
         data.chest_pain_type.value_counts().index[1], data.chest_pain_type.value_counts().index[2]])

typical angina      1.9
atypical angina     1.2
non-anginal pain    4.4
dtype: float64

In [30]:
# То же сделаем для признака "sex"
# Количество значений классов признака chest_pain_type:
data.sex.value_counts()

male      207
female     96
Name: sex, dtype: int64

In [31]:
# Среднее значение:
data.sex.value_counts().mean()

151.5

In [32]:
# Посчитаем, во сколько раз значение каждого класса отличаются от среднего
a = round((data.sex.value_counts().mean() / data.sex.value_counts()[0]), 1)
a = round((data.sex.value_counts().mean() / data.sex.value_counts()[1]), 1)
pd.Series([a, b], index = [data.sex.value_counts().index[0], 
        data.sex.value_counts().index[1]])

male      1.6
female    1.2
dtype: float64

Анализируем полученные значения:

Для признака "chest_pain_type" максимальное отличие значения одного из классов от среднего - в 4.4 раза.  
Для признака "sex" максимальное отличие значения одного из классов от среднего - всего лишь в 1.6 раз.

Вывод: дисбаланс признака "chest_pain_type" выше дисбаланса признака "sex", о чем говорят ранее рассчитанные показатели дисперсии и стандартного отклонения, но не частоты содержания класса.

#### Вывод
Дисбаланс классов можно определить с помощью показателей дисперии и стандартного отклонения и нельзя определить с помощью показателя процентного содержания наиболее часто встречающегося класса, если количество хотя бы одного из классов превышает 2.