# Подключение библиотек

In [1]:
# подключение библиотеки pandas
import pandas as pd
import numpy as np
# подключение библиотеки matplotlib.pyplot
import matplotlib.pyplot as plt
# подключение библиотеки seaborn
import seaborn as sns
# подключение модулей из библиотеки sklearn
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error

# Читанием исходный DataFrame (df) из файла

In [2]:
df = pd.read_csv("data/unclean_smartwatch_health_data.csv")

# Подготовка данных, группировка и избавление от пропусков

## Проводим группировку в столбце Activity Level

### Функция для нормализации значений в столбце Activity Level

In [3]:
def activity_level_group(x):
  if x in ['Highly_Active', 'Highly Active']:    # исправляем опечатки
    return 'Highly Active'                       # и
  if x in ['Seddentary', 'Sedentary']:           # приводим  к общему 
    return 'Sedentary'                           # виду значения в столбце
  if x in ['Actve', 'Active']:
    return 'Active'
  return x

### Вызываем функцию для нормализации значений и выводим новые уникальные значения

In [4]:
df['Activity Level'] = df['Activity Level'].apply(activity_level_group)  # вызов функции
df['Activity Level'].value_counts(dropna=False)

Activity Level
Sedentary        3333
Active           3265
Highly Active    3202
NaN               200
Name: count, dtype: int64

## Просмотр типов данных по каждому столбцу

In [5]:
df.dtypes

User ID                   float64
Heart Rate (BPM)          float64
Blood Oxygen Level (%)    float64
Step Count                float64
Sleep Duration (hours)     object
Activity Level             object
Stress Level               object
dtype: object

## Просмотр сводной статистики всех числовых столбцов

In [6]:
df.describe()

Unnamed: 0,User ID,Heart Rate (BPM),Blood Oxygen Level (%),Step Count
count,9799.0,9600.0,9700.0,9900.0
mean,3007.480253,76.035462,97.841581,6985.685885
std,1150.581542,19.412483,1.732863,6885.80968
min,1001.0,40.0,90.791208,0.910138
25%,1997.5,64.890152,96.662683,2021.039657
50%,2998.0,75.220601,98.010642,4962.534599
75%,4004.0,85.198249,99.376179,9724.90288
max,4999.0,296.59397,100.0,62486.690753


## Убираем отсутствующих значения

### Просмотр количества отсутсвующих значений по всем столбцам

In [7]:
df.isnull().sum()

User ID                   201
Heart Rate (BPM)          400
Blood Oxygen Level (%)    300
Step Count                100
Sleep Duration (hours)    150
Activity Level            200
Stress Level              200
dtype: int64

### Заменяем все пропуски в столбце User ID случайными числами

In [8]:
df["User ID"] = df['User ID'].transform(lambda x: np.random.rand())
df.isnull().sum() # просмотр количества отсутствующих значений по столбцам

User ID                     0
Heart Rate (BPM)          400
Blood Oxygen Level (%)    300
Step Count                100
Sleep Duration (hours)    150
Activity Level            200
Stress Level              200
dtype: int64

### Заменяем пропущенные значения в остальных столбцах средними значениями, рассчитанными для соответствующих групп

#### Столбец Heart Rate (BPM)

In [9]:
# разделяем DataFrame на группы на основе значений в столбцах 'Activity Level', 'Stress Level'
# и 'Sleep Duration (hours)'
df['Heart Rate (BPM)'] = df.groupby(['Activity Level','Stress Level'],
                                     # заменяем пропуски средним значением для каждой группы
                                          dropna=False)['Heart Rate (BPM)'].transform(lambda x: x.fillna(x.mean()))
df.isnull().sum()  # просмотр количества отсуктствующих значений по столбцам

User ID                     0
Heart Rate (BPM)            0
Blood Oxygen Level (%)    300
Step Count                100
Sleep Duration (hours)    150
Activity Level            200
Stress Level              200
dtype: int64

#### Столбец Blood Oxygen Level (%)

In [10]:
# разделяем DataFrame на группы на основе значений в столбце 'Activity Level'
df['Blood Oxygen Level (%)'] = df.groupby(['Activity Level'],
                                     # заменяем пропуски средним значением для каждой группы
                                          dropna=False)['Blood Oxygen Level (%)'].transform(lambda x: x.fillna(x.mean()))
df.isnull().sum()  # просмотр количества отсуктствующих значений по столбцам

User ID                     0
Heart Rate (BPM)            0
Blood Oxygen Level (%)      0
Step Count                100
Sleep Duration (hours)    150
Activity Level            200
Stress Level              200
dtype: int64

#### Столбец Step Count

In [None]:
# разделяем DataFrame на группы на основе значений в столбце 'Activity Level'
df['Step Count'] = df.groupby(['Activity Level'],
                                     # заменяем пропуски средним значением для каждой группы
                                          dropna=False)['Step Count'].transform(lambda x: x.fillna(x.mean()))
df.isnull().sum()  # просмотр количества отсуктствующих значений по столбцам

User ID                     0
Heart Rate (BPM)            0
Blood Oxygen Level (%)      0
Step Count                  0
Sleep Duration (hours)    150
Activity Level            200
Stress Level              200
dtype: int64