Лабораторная работа  -  на основе датасета Smartwatch Health Data,

Цель:
- Изучить методы анализа и визуализации данных с использованием Pandas,
Matplotlib и Seaborn
- Провести анализ датасета Smartwatch Health Data, связанный со сбором данных здоровья с пользователей смарт часов
- Построить графики
- Проанализировать, как показатели здоровья влияют на уровень стресса

Основные признаки:
*   User ID                 идентификационный номер пользователя
*   Heart Rate (BPM)        частота сердечных сокращений пользователя
*   Blood Oxygen Level (%)  уровень кислорода в крови
*   Step Count              кол-во шагов
*   Sleep Duration (hours)  продолжительность сна 
*   Activity Level          уровень активности
*   Stress Level            уровень стресса

In [2]:
#импорт библиотек и настройка отображения 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns

%matplotlib inline 
sns.set_theme()

pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

Загрузка датасета и первичный анализ 
Загружаем датасет и узнаем его размер и структуру

In [3]:
df = pd.read_csv('clock.csv')
print(df.shape)
display(df.head())

(10000, 7)


Unnamed: 0,User ID,Heart Rate (BPM),Blood Oxygen Level (%),Step Count,Sleep Duration (hours),Activity Level,Stress Level
0,4174.0,58.939776,98.80965,5450.390578,7.167235622316564,Highly Active,1
1,,,98.532195,727.60161,6.538239375570314,Highly_Active,5
2,1860.0,247.803052,97.052954,2826.521994,ERROR,Highly Active,5
3,2294.0,40.0,96.894213,13797.338044,7.367789630207228,Actve,3
4,2130.0,61.950165,98.583797,15679.067648,,Highly_Active,6


In [9]:
df.info() 
display(df.describe(include='all').T) 
display(df.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 7 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   User ID                 9799 non-null   float64
 1   Heart Rate (BPM)        9600 non-null   float64
 2   Blood Oxygen Level (%)  9700 non-null   float64
 3   Step Count              9900 non-null   float64
 4   Sleep Duration (hours)  9603 non-null   object 
 5   Activity Level          9800 non-null   object 
 6   Stress Level            9800 non-null   float64
dtypes: float64(5), object(2)
memory usage: 547.0+ KB


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
User ID,9799.0,,,,3007.480253,1150.581542,1001.0,1997.5,2998.0,4004.0,4999.0
Heart Rate (BPM),9600.0,,,,76.035462,19.412483,40.0,64.890152,75.220601,85.198249,296.59397
Blood Oxygen Level (%),9700.0,,,,97.841581,1.732863,90.791208,96.662683,98.010642,99.376179,100.0
Step Count,9900.0,,,,6985.685885,6885.80968,0.910138,2021.039657,4962.534599,9724.90288,62486.690753
Sleep Duration (hours),9603.0,9603.0,5.691001,1.0,,,,,,,
Activity Level,9800.0,6.0,Seddentary,1676.0,,,,,,,
Stress Level,9800.0,,,,5.486735,2.882186,1.0,3.0,6.0,8.0,10.0


User ID                   201
Heart Rate (BPM)          400
Blood Oxygen Level (%)    300
Step Count                100
Sleep Duration (hours)    397
Activity Level            200
Stress Level              200
dtype: int64

Предобработка данных
В столбцах  Sleep Duration, Stress Level необходимо произвести очистку данных для дальнейшей корректной работы

In [10]:
df.iloc[0:25, 4:7]

Unnamed: 0,Sleep Duration (hours),Activity Level,Stress Level
0,7.167236,Highly Active,1.0
1,6.538239,Highly_Active,5.0
2,,Highly Active,5.0
3,7.36779,Actve,3.0
4,,Highly_Active,6.0
5,8.378343,Highly_Active,10.0
6,7.871146,Seddentary,2.0
7,5.224139,Sedentary,1.0
8,5.468414,Seddentary,1.0
9,7.954499,Seddentary,8.0


In [11]:
df.loc[df['Sleep Duration (hours)'] == "ERROR", 'Sleep Duration (hours)'] = "NaN" #Замена ERROR на NaN
df.loc[df['Stress Level'] == "Very High", 'Stress Level'] = 10                    #Замена Very High на 10

df.iloc[0:25, 4:7]

Unnamed: 0,Sleep Duration (hours),Activity Level,Stress Level
0,7.167236,Highly Active,1.0
1,6.538239,Highly_Active,5.0
2,,Highly Active,5.0
3,7.36779,Actve,3.0
4,,Highly_Active,6.0
5,8.378343,Highly_Active,10.0
6,7.871146,Seddentary,2.0
7,5.224139,Sedentary,1.0
8,5.468414,Seddentary,1.0
9,7.954499,Seddentary,8.0


In [22]:
cols = ['Sleep Duration (hours)','Stress Level']

df[cols] = df[cols].astype(float)

print(df.dtypes)

User ID                   float64
Heart Rate (BPM)          float64
Blood Oxygen Level (%)    float64
Step Count                float64
Sleep Duration (hours)    float64
Activity Level             object
Stress Level              float64
dtype: object


В представленных блоках кода выше производилась обработка данных для дальнейшей работы:
* Замена ERROR на NaN в стоблце Sleep Duration (hours)
* Замена Very High на 10 в столбце Stress Level
* Изменение типов данных

In [24]:
columns_to_fill = ['Sleep Duration (hours)', 'Stress Level']


for col in columns_to_fill:
    mean_value = df[col].mean()  # Вычисление среднего значения по столбцу
    df[col] = df[col].fillna(mean_value)  # Заполнение NaN средним значением
df['Stress Level'] = df['Stress Level'].astype(int)

df.iloc[0:25, 4:7]

Unnamed: 0,Sleep Duration (hours),Activity Level,Stress Level
0,7.167236,Highly Active,1
1,6.538239,Highly_Active,5
2,6.505463,Highly Active,5
3,7.36779,Actve,3
4,6.505463,Highly_Active,6
5,8.378343,Highly_Active,10
6,7.871146,Seddentary,2
7,5.224139,Sedentary,1
8,5.468414,Seddentary,1
9,7.954499,Seddentary,8


В данном блоке произвели замену неизвестных значений в столбцах, на среднее значение по всему столбцу

In [25]:
df_stress = (df[df['Stress Level']>7]
            .loc[:,['User ID', 'Heart Rate (BPM)', 'Blood Oxygen Level (%)', 'Step Count', 'Sleep Duration (hours)', 'Activity Level', 'Stress Level']])
display(df_stress.head())
#print(df_stress)

Unnamed: 0,User ID,Heart Rate (BPM),Blood Oxygen Level (%),Step Count,Sleep Duration (hours),Activity Level,Stress Level
5,2095.0,96.285938,94.20291,10205.992256,8.378343,Highly_Active,10
9,3169.0,51.409967,97.272787,7940.021452,7.954499,Seddentary,8
10,1466.0,101.914938,,2987.56864,7.541956,Sedentary,9
12,1330.0,95.37229,99.152652,6155.837342,5.814348,Highly_Active,10
16,4171.0,58.277963,97.789726,5643.511358,7.848859,Seddentary,10
