# Предобработка данных

Импортируем библиотеку pandas для работы с набором данных

In [None]:
import pandas as pd

Используя метод read_csv, загружаем набор данных из файла. В качестве параметров метода передаём путь к файлу, "encoding"(кодировка),в данном случае используется кодировка utf-8, и "sep"(разделительный символ), в предоставленном наборе применяется запятая. После загрузки при помощи метода head выводим первые 20 записей.

In [None]:
url = "/content/drive/MyDrive/3heart.csv"
df = pd.read_csv(url,encoding = "utf-8",sep=",")
df.head(20)

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140.0,289.0,0,Normal,172.0,N,0.0,Up,0
1,49,F,NAP,160.0,180.0,0,Normal,156.0,N,1.0,Flat,1
2,37,M,ATA,130.0,283.0,0,ST,98.0,N,0.0,Up,0
3,48,F,ASY,138.0,214.0,0,Normal,108.0,Y,1.5,Flat,1
4,54,M,NAP,150.0,195.0,0,Normal,122.0,N,0.0,Up,0
5,39,M,NAP,120.0,339.0,0,Normal,170.0,N,0.0,Up,0
6,45,F,ATA,130.0,237.0,0,Normal,170.0,N,0.0,Up,0
7,54,M,ATA,110.0,208.0,0,Normal,142.0,N,0.0,Up,0
8,37,M,ASY,140.0,207.0,0,Normal,130.0,Y,1.5,Flat,1
9,48,F,ATA,120.0,284.0,0,Normal,120.0,N,0.0,Up,0


По таблице видно, что в наборе представлены данные о наличие сердечных заболеваний у людей и параметры, связанные с этим.
- В столбце **Age (Возраст)** указан возраст человека (int64)
- в **Sex (Пол)** его пол (M - мужчина, F - женщина; object)
- в **ChestPainType (Тип боли в груди)** тип болей в груди (TA - типичная стенокардия, ATA - атипичная стенокардия, NAP - неангинальная боль, ASY - бессимптомная; object)
- в **RestingBP (Артериальное давление)** артериальное давление в покое (int64)
- в **Cholesterol (Хорлестерин)** холестерин в мг/дл (int64)
- в **FastingBS (Уровень сахара)** уровень сахара в крови натощак (1 - если >120 мг.\дл., 0 - в остальных случаях; int64)
- в **RestingECG (Результат ЭКГ)** результаты электрокардиограммы(ЭКГ) в покое (Normal - в нормальная, ST - аномальная ST-T, LVH - гипертрофия; object)
- в **MaxHR (Максимальный пульс)** максимальная достигнутая частота сердечных сокращений (числовое значение от 60 до 202; int64)
- в **ExerciseAngina (Стенокардия)** стенокардия вызванная физической нагрузкой (Y - присутствует, N - отсутствует; object)
- в **Oldpeak (депресия ST)**  депрессия ST, вызванная физической нагрузкой, по сравнению с состоянием покоя (float64)
- в **ST_Slope (Наклон ST)** наклон пикового сегмента ST при нагрузке (Up - восходящий, Flat - плоский, Down - нисходящий; object)
- в **HeartDisease (Наличие болезни)** выходной класс, показывающий наличие болезни сердца (1 - болезнь сердца присутствует, 0 - отсутствует; int64).

При помощи метода info выводится информация о наборе данных.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 925 entries, 0 to 924
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Age             925 non-null    int64  
 1   Sex             925 non-null    object 
 2   ChestPainType   925 non-null    object 
 3   RestingBP       923 non-null    float64
 4   Cholesterol     924 non-null    object 
 5   FastingBS       925 non-null    int64  
 6   RestingECG      924 non-null    object 
 7   MaxHR           924 non-null    float64
 8   ExerciseAngina  925 non-null    object 
 9   Oldpeak         925 non-null    float64
 10  ST_Slope        925 non-null    object 
 11  HeartDisease    925 non-null    int64  
dtypes: float64(3), int64(3), object(6)
memory usage: 86.8+ KB


Из выведенной информации видно, что всего в наборе 925 объектов. В некоторых столбцах есть несколько пустых объектов, эти строки потребуется удалить или заполнить нулями. Для столбцов RestingBP, Cholesterol, MaxHR несоответствует тип данных. Во всех трех случаях должен быть int64, так как по таблице, выведенной выше, и названию столбцов видно, что данные должны быть представлены целыми числами. Для этих столбцов потребуется изменить тип данных.

Используя метод columns выводим названия столбцов.

In [None]:
df.columns

Index(['Age', 'Sex', 'ChestPainType', 'RestingBP', 'Cholesterol', 'FastingBS',
       'RestingECG', 'MaxHR', 'ExerciseAngina', 'Oldpeak', 'ST_Slope',
       'HeartDisease'],
      dtype='object')

Из выведенного можно отметить, что в названиях столбцов CheastPainType, ExerciseAngina, HeartDesease отсутствует разделитель между словами. Для переименования столбцов и исправления ошибок в их названии используется метод rename, которому в качестве параметра передается словарь, содержащий в качестве ключей - названия столбца, а в качестве значения - название, на которое нужно переименовать столбец.

In [None]:
df = df.rename(columns = {"ChestPainType": "Chest_Pain_Type","ExerciseAngina": "Exercise_Angina", "HeartDesease": "Heart_Desease"})
df.columns

Index(['Age', 'Sex', 'Chest_Pain_Type', 'RestingBP', 'Cholesterol',
       'FastingBS', 'RestingECG', 'MaxHR', 'Exercise_Angina', 'Oldpeak',
       'ST_Slope', 'HeartDisease'],
      dtype='object')

При помощи метода isna получаем пустые объекты в столбцах и подсчитываем их количество с помощью метода sum.

In [None]:
print(df.isna().sum())

Age                0
Sex                0
Chest_Pain_Type    0
RestingBP          2
Cholesterol        1
FastingBS          0
RestingECG         1
MaxHR              1
Exercise_Angina    0
Oldpeak            0
ST_Slope           0
HeartDisease       0
dtype: int64


В колонках RestingBP, Cholesterol, RestingECG, MaxHR присутствует пустые объекты, так как эти данные могут повлиять на анализ, эти строки будут удалены при помощи метода dropna c переданным параметром "subset"(подмножество), содержащий список с названиями, содержащих пустые объекты, столбцов, которые надо удалить.

In [None]:
df = df.dropna(subset = ["RestingBP", "Cholesterol", "RestingECG", "MaxHR"])

Проверяем, что набор данных больше не содержит пустых объектов, с помощью методов isna и sum.

In [None]:
print(df.isna().sum())

Age                0
Sex                0
Chest_Pain_Type    0
RestingBP          0
Cholesterol        0
FastingBS          0
RestingECG         0
MaxHR              0
Exercise_Angina    0
Oldpeak            0
ST_Slope           0
HeartDisease       0
dtype: int64


Выведем количество дубликатов в наборе данных при помощи методов duplicated и sum.

В наборе данных имеется три дубликата, удалим их при помощи помощи метода drop_duplicates, а также уберем пустые строки применив метод reset_index.

In [None]:
print(df.duplicated().sum())

3


In [None]:
df = df.drop_duplicates().reset_index()

При помощи метода unique ищем скрытые дубликаты в столбцах: Sex, Chest_Pain_Type, RestingECG, Exercise_Angina, ST_Slope. Проверяем именно эти столбцы, так как в них используется тип object и некоторые значения могут иметь различные названия, но отражать одинаковую информацию.

In [None]:
print(df["Sex"].unique())
print(df["Chest_Pain_Type"].unique())
print(df["RestingECG"].unique())
print(df["Exercise_Angina"].unique())
print(df["ST_Slope"].unique())

['M' 'F' 'Ma']
['ATA' 'NAP' 'ASY' 'TA']
['Normal' 'ST' 'LVH']
['N' 'Y']
['Up' 'Flat' 'Down' 'UP']


В столбце Sex продублировано значение "мужчина": "M" и "Мa", а в столбце ST_Slope продублировано значение "восходящая": "Up" и "UP". Удалим неявные дубликаты переименовав альтернативные название при помощи метода replace с первым аргуметном - нежелательное значение, вторым аргументом - желаемое значение.

In [None]:
df["Sex"] = df["Sex"].replace("Ma", "M")
df["ST_Slope"] = df["ST_Slope"].replace("UP", "Up")

При анализе типов столбцов набора данных были найдены несколько несоответствий, исправим их при помощи метода astype с параметром int. Для столбца "Cholesterol" предварительно выполним метод to_numeric модуля pd с переданным значением "coerce" параметра "errors", чтобы заменить некоректные значения на NaN и удалим их при помощи метода dropna.

In [None]:
df["Cholesterol"] = pd.to_numeric(df["Cholesterol"], errors="coerce")
df = df.dropna(subset = ["Cholesterol"])
df[["RestingBP", "MaxHR", "Cholesterol"]] = df[["RestingBP", "MaxHR", "Cholesterol"]].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 917 entries, 0 to 917
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   index            917 non-null    int64  
 1   Age              917 non-null    int64  
 2   Sex              917 non-null    object 
 3   Chest_Pain_Type  917 non-null    object 
 4   RestingBP        917 non-null    int64  
 5   Cholesterol      917 non-null    int64  
 6   FastingBS        917 non-null    int64  
 7   RestingECG       917 non-null    object 
 8   MaxHR            917 non-null    int64  
 9   Exercise_Angina  917 non-null    object 
 10  Oldpeak          917 non-null    float64
 11  ST_Slope         917 non-null    object 
 12  HeartDisease     917 non-null    int64  
dtypes: float64(1), int64(7), object(5)
memory usage: 100.3+ KB


При помощи метода pivot_table создаем сводную таблицу среднего артериального давления в покое и средней максимальной достигнутой частоты сердечных сокращений для каждого пола, передав в качестве параметра "index" название столбца, по которому группируются значения, и параметра "values" список названий столбцов, по которым ведется подсчет среднего значения.

In [None]:
data_pivot = df.pivot_table(index= ["Sex"], values= ["RestingBP", "MaxHR"])
data_pivot

Unnamed: 0_level_0,MaxHR,RestingBP
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
F,146.041667,132.276042
M,134.36,132.445517


Из получившейся таблицы видно, что среднее артериальное давление для обоих полов примерно равно, а значит этот параметр не зависит от пола. Среднее значение максимальной частоты сердечных сокращений больше у женщин на 12, чем у мужчин, что может указывать на большее повышение пульса под нагрузкой у женщин.

Также при помощи метода pivot_table создаем сводную таблицу среднего холестерина для каждого типа боли и отсортируем его по возрастанию при помощи метода sort_values, в который передаем в качестве параметра "by" названии столбца, по которому требуется отсортировать таблицу.

In [None]:
data_pivot = df.pivot_table(index= ["Chest_Pain_Type"], values= ["Cholesterol"])
data_pivot = data_pivot.sort_values(by="Cholesterol")
data_pivot

Unnamed: 0_level_0,Cholesterol
Chest_Pain_Type,Unnamed: 1_level_1
ASY,186.645161
NAP,197.351485
TA,207.065217
ATA,233.16185


Значения в получившейся таблице указывают на возможную связь типов боли в груди у больного и содержание холестерина в его крови.

При помощи методов groupby, get_group и sort_values создадим таблицу для аномальной ST-T по результатам ЭКГ, отсортированную по депрессии ST по убыванию. Для сортировки по убыванию в методе sotr_values передается параметр "ascending" со значением False.

In [None]:
data_group = df.groupby("RestingECG")
data_group = data_group.get_group("ST")
data_group = data_group.sort_values(by="Oldpeak", ascending=False)
data_group

Unnamed: 0,index,Age,Sex,Chest_Pain_Type,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,Exercise_Angina,Oldpeak,ST_Slope,HeartDisease
164,166,50,M,ASY,140,231,0,ST,140,Y,5.0,Flat,1
898,900,58,M,ASY,114,318,0,ST,140,N,4.4,Down,1
535,537,74,M,ASY,150,258,1,ST,130,Y,4.0,Down,1
519,521,61,M,ASY,120,282,0,ST,135,Y,4.0,Down,1
66,68,52,M,ASY,160,246,0,ST,82,Y,4.0,Flat,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
510,512,35,M,NAP,123,161,0,ST,153,N,-0.1,Up,0
419,421,66,M,NAP,120,0,0,ST,120,N,-0.5,Up,0
350,352,56,M,ASY,120,0,0,ST,100,Y,-1.0,Down,1
329,331,56,M,ASY,115,0,1,ST,82,N,-1.0,Up,1


Получившаяся таблица не дает наглядных закономерностей, но может быть использована для дальнешего анализа, например, выделение связи между результатом ЭКГ и типом боли или показателем холестерина.

В процессе выполнения работы была осуществлена предобработка набора данных о наличие сердечных заболеваний у людей и параметрах, связанных с этим. В ходе предобработки средствами библиотеки pandas для языка программирования Python в наборе данных были исправлены ошибки в названии столбцов методом rename, найдены нулевые значения методом isna и убраны методом dropna, также были найдены и убраны дубликаты методами duplicated и drop_duplicates, затем в столбцах с строковыми значениями были найдены скрытые дубликаты с помощью метода unique и исправлены методом replace, после методами to_numeric и astype данные в нескольких столбцах были приведены к нужному типу. В завершении работы были составлены три таблицы при помощи методов pivot_table, sort_values, groupby и get_group: сводная таблица среднего артериального давления в покое и средней максимальной достигнутой частоты сердечных сокращений для каждого пола, , показавшая отсутствие различия в среднем пульсе у мужчин и женщин, сводная таблица среднего холестерина для каждого типа боли, демонстрирующая возможную связь типа боли у больного и значения холестерина, сгруппированная таблица аномальной ST-T по результатам ЭКГ, которая не дала наглядных результатов, но может быть использована для дальнейшего анализа набора данных.