#Loading dataset

In [3]:
!pip install statsmodels



In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from statsmodels.graphics.mosaicplot import mosaic

In [5]:
df = pd.read_csv('/content/Stress Level Detection.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/content/Stress Level Detection.csv'

#Exploratory Data Analysis

In [None]:
def dataInfo(X):
    print('='*10, 'DATA & FEATURE INFORMATION', '='*10)
    print(f'Data Rows: {X.shape[0]}')
    print(f'Data Columns: {X.shape[1]}')
    print(f'Duplicated Values: {X.duplicated().sum()}')
    missing_val = X.isnull().sum()
    missing_val_percentage = missing_val/len(X)*100
    data_type = X.dtypes
    unique_val = X.nunique()
    return pd.DataFrame({
        'Missing_val' : missing_val,
        'Missing_percentage' : missing_val_percentage,
        'Data_type' : data_type,
        'Unique_values' : unique_val
    }).sort_values('Missing_percentage',ascending=False)

In [None]:
import scipy.stats as stats
def dataOutlier(X, col):
    q1 = X[col].quantile(0.25) # Finding the first quartile
    q3 = X[col].quantile(0.75) # Finding the third quartile
    iqr_val = stats.iqr(X[col]) # Finding the interquartile range
    lower = q1 - (1.5*iqr_val) # Lower limit for detecting outliers in the data
    upper = q3 + (1.5*iqr_val) # Upper limit for detecting outliers in the data

    outlier_list = X[col].apply(lambda x: 'outlier' if x < lower or x > upper else 'not-outlier')
    print(f'{col}:\n\noutlier lower limit: {lower}\noutlier upper limit: {upper}')
    return outlier_list

In [None]:
def dataUnique(X):
    for x in X.columns:
        print(f'========== {x} ==========')
        print(f'{X[x].unique()}\n') # Printing all the unique values in the columns

In [None]:
dataInfo(df)

In [None]:
dataUnique(df)

In [None]:
binary_cols = {'Gender', 'Sleep Disorder'}

for col in df.select_dtypes('int64').columns:
    if col not in binary_cols:
        print(dataOutlier(df, col).value_counts(), "\n")

In [None]:
#Display the first 5 rows of the dataset
df.head()

In [None]:
#Display number of columns and rows
df.shape

In [None]:
#Display the data types, non - null counts and memory usage
df.info()

- Divide the "Blood pressure" column into two columns: Systolic and Diastolic.
- Drop the "Person ID" column.
- Encoding the columns “BMI Category”, “Occupation”, "Gender", "Sleep disorder".
- Fill in the missing values ​​in the "Sleep disorders" column.

In [None]:
#Statistic summary
df.describe()

# Test Biểu Đồ -1


In [None]:
plt.figure(figsize=(10, 6))
hist = sns.histplot(df['Stress Level'], kde=True, bins=20, color='blue')

# Hiển thị giá trị tần suất trên từng cột
for p in hist.patches:
    plt.text(p.get_x() + p.get_width() / 2,
             p.get_height(),
             int(p.get_height()),
             ha='center', va='bottom', fontsize=10)

plt.title('Stress Level distribution', fontsize=16)
plt.xlabel('Stress Level')
plt.ylabel('frequency')
plt.show()

In [None]:
bins = [0, 18, 35, 60, 100]
labels = ['Trẻ', 'Trưởng thành', 'Trung niên', 'Rất lớn tuổi']
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)
df['Age_Group'].value_counts()



In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Age_Group', y='Stress Level', data=df, palette='Set2')
plt.title('Stress Level theo nhóm tuổi', fontsize=16)
plt.xlabel('Nhóm tuổi')
plt.ylabel('Stress Level')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Age', y='Stress Level', data=df, color='purple')
plt.title('Tương quan giữa Stress Level và Age', fontsize=16)
plt.xlabel('Age')
plt.ylabel('Stress Level')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Gender', y='Stress Level', data=df, palette='pastel')
plt.title('Stress Level theo giới tính', fontsize=16)
plt.xlabel('Giới tính')
plt.ylabel('Stress Level')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Sleep Duration', y='Stress Level', data=df, color='green')
plt.title('Tương quan giữa Sleep Duration và Stress Level', fontsize=16)
plt.xlabel('Sleep Duration (giờ)')
plt.ylabel('Stress Level')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Quality of Sleep', y='Stress Level', data=df, palette='coolwarm')
plt.title('Stress Level theo Quality of Sleep', fontsize=16)
plt.xlabel('Quality of Sleep')
plt.ylabel('Stress Level')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Physical Activity Level', y='Stress Level', data=df, palette='muted')
plt.title('Stress Level theo mức Physical Activity', fontsize=16)
plt.xlabel('Mức Physical Activity')
plt.ylabel('Stress Level')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(x='BMI Category', y='Stress Level', data=df, palette='Blues_d', ci=None)
plt.title('Stress Level theo BMI Category', fontsize=16)
plt.xlabel('BMI Category')
plt.ylabel('Stress Level')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Blood Pressure', y='Stress Level', data=df, color='red', label='Blood Pressure')
plt.xticks(ticks=np.arange(120, 180, 10), rotation=45)
sns.scatterplot(x='Heart Rate', y='Stress Level', data=df, color='orange', label='Heart Rate')
plt.title('Tương quan giữa Stress Level với Blood Pressure và Heart Rate', fontsize=16)
plt.xlabel('Blood Pressure / Heart Rate')
plt.ylabel('Stress Level')
plt.legend()
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Daily Steps', y='Stress Level', data=df, color='brown')
plt.title('Tương quan giữa số bước hàng ngày và Stress Level', fontsize=16)
plt.xlabel('Daily Steps')
plt.ylabel('Stress Level')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Sleep Disorder', y='Stress Level', data=df, palette='Accent')
plt.title('Stress Level giữa người có và không có rối loạn giấc ngủ', fontsize=16)
plt.xlabel('Sleep Disorder')
plt.ylabel('Stress Level')
plt.show()
#HỒI SINH CỘT

#Test Biểu Đồ - 2

In [None]:
df['Age_Group'].value_counts()

In [None]:
# Tách dữ liệu nam và nữ
df_male = df[df['Gender'] == 'Male']
df_female = df[df['Gender'] == 'Female']

# Tạo biểu đồ cho nam
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_male,
    x='Sleep Duration',
    y='Physical Activity Level',
    size='Stress Level',
    sizes=(50, 300),
    alpha=0.7,
    color='blue',
    # Removed the 'label' argument from here
)
plt.title('The Relationship Between Sleep, Physical Activity, and Stress Levels (Male)', fontsize=14)
plt.xlabel('Sleep Duration (Hours)', fontsize=12)
plt.ylabel('Physical Activity Level (Score)', fontsize=12)
plt.legend(title='Stress Level', loc='center right', fontsize=7, labels=['Male'])
plt.grid(True, alpha=0.3)
plt.show()

# Tạo biểu đồ cho nữ
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=df_female,
    x='Sleep Duration',
    y='Physical Activity Level',
    size='Stress Level',
    sizes=(50, 300),
    alpha=0.7,
    color='red',

)
plt.title('The Relationship Between Sleep, Physical Activity, and Stress Levels (Female)', fontsize=14)
plt.xlabel('Sleep Duration (Hours)', fontsize=12)
plt.ylabel('Physical Activity Level (Score)', fontsize=12)

plt.legend(title='Stress Level', loc='center right', fontsize=7, labels=['Female'])
plt.grid(True, alpha=0.3)
plt.show()

- Mức độ căng thẳng có xu hướng giảm khi thời gian ngủ tăng, đặc biệt rõ khi ngủ trên 7 giờ.
- Hoạt động thể chất cải thiện khi thời gian ngủ đủ (6.5 - 7.5 giờ) và đạt cao nhất khi ngủ nhiều hơn 7.5 giờ.
- Nam giới có mức độ căng thẳng cao hơn nữ giới ở các khoảng thời gian ngủ ngắn.

In [None]:
facet = sns.catplot(
    data = df,
    x = 'Age_Group',
    y = 'Stress Level',
    kind = 'box',
    col = 'BMI Category',
    palette = 'Set1',
    col_wrap=3,
    height = 4, aspect = 1.2
)
plt.figure(figsize=(20, 8))
plt.tight_layout(pad=10.0)
facet.set_titles("BMI: {col_name}")
facet.set_axis_labels("Age Group", "Stress Level")
facet.fig.suptitle("Stress Levels by Age Group and BMI Category", y = 1.02, fontsize = 16)
facet.tight_layout()
plt.show()

- BMI cao hơn (Overweight, Obese) có xu hướng liên quan đến mức độ căng thẳng cao hơn
- BMI bình thường (Normal Weight) thường gắn với mức căng thẳng thấp hơn so với thừa cân hoặc béo phì, đặc biệt ở nhóm lớn tuổi.

In [None]:
# Bin Heart Rate
df['Heart Rate (Binned)'] = pd.cut(df['Heart Rate'], bins=[50, 60, 70, 80, 90], labels=['0', '1', '2', '3'])
df['Heart Rate (Binned)'] = df['Heart Rate (Binned)'].astype(int)

0 - Low

1 - Moderate

2 - Elavated

3 - High

In [None]:
# Pivot table for Heatmap
heatmap_data = df.pivot_table(
    index = 'Heart Rate (Binned)',
    columns = 'Stress Level',
    values = 'Daily Steps',
    aggfunc = 'mean'
)

plt.figure(figsize=(8, 6))
sns.heatmap(
    heatmap_data,
    annot = True,
    fmt = ".1f",
    cmap = 'coolwarm',
    cbar_kws={'label': 'Average Daily Steps'}
)

plt.title('Relationship Between Stress Level, Heart Rate, and Daily Steps', fontsize=14)
plt.xlabel('Stress Level (Binned)', fontsize=12)
plt.ylabel('Heart Rate (Binned)', fontsize=12)
plt.show()

plt.figure(figsize=(15, 8))
sns.violinplot(
    data=df,
    x='Occupation',
    y='Daily Steps',
    palette='Set2',
    inner='quartile'
)

# Thiết lập tiêu đề và nhãn
plt.title('Distribution of Daily Steps by Occupation', fontsize=14)
plt.xlabel('Occupation', fontsize=12)
plt.ylabel('Daily Steps', fontsize=12)
plt.xticks(rotation=0)
plt.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
avg_daily_steps = df.groupby('Occupation')['Daily Steps'].mean().sort_values()

plt.figure(figsize=(12, 6))
avg_daily_steps.plot(kind='barh', color = 'green', edgecolor='black')

plt.title('Average Daily Steps by Occupation', fontsize=14)
plt.xlabel('Average Daily Steps', fontsize=12)
plt.ylabel('Occupation', fontsize=12)
plt.grid(axis='x', alpha=0.3)

# Hiển thị biểu đồ
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(15, 8))
sns.violinplot(
    data=df,
    x='Occupation',
    y='Stress Level',
    palette='Set2',
    inner='quartile'
)

# Thiết lập tiêu đề và nhãn
plt.title('Distribution of Occupation by Stress', fontsize=14)
plt.xlabel('Occupation', fontsize=12)
plt.ylabel('Stress Level', fontsize=12)
plt.xticks(rotation=0)
plt.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
!pip install adjustText

In [None]:
# Crosstab for BMI Category vs. Stress Level
crosstab = pd.crosstab(df['BMI Category'], df['Stress Level'])

# Mapping stress levels
stress_level_mapping = {
    3: 'Low',
    4: 'Low',
    5: 'Medium',
    6: 'Medium',
    7: 'High',
    8: 'High'
}

crosstab.columns = crosstab.columns.map(stress_level_mapping)

plt.figure(figsize=(30, 15))  # Tăng kích thước hình
mosaic(crosstab.stack(), title='Stress Levels Across BMI Categories', gap=0.2)

plt.xlabel('BMI Category', fontsize=12)
plt.ylabel('Proportion', fontsize=12)
plt.xticks(fontsize=10, rotation=90, ha='center')  # Xoay 90 độ
plt.yticks(fontsize=10)
plt.tight_layout()

plt.show()

Người có BMI Bình Thường:

- Nhóm người có BMI bình thường (Normal) chủ yếu tập trung ở mức độ căng thẳng Medium và Low, điều này cho thấy họ ít bị căng thẳng hơn so với các nhóm BMI khác.

Người có BMI Cao (Thừa Cân và Béo Phì):

- Người thừa cân và béo phì (Overweight và Obese) có tỷ lệ Stress High (Căng thẳng cao) cao hơn, đặc biệt là ở nhóm béo phì. Điều này có thể cho thấy mối liên hệ giữa sức khỏe thể chất kém và mức độ căng thẳng cao, có thể là kết quả của các vấn đề về sức khỏe, tâm lý hoặc xã hội.
- Khi stress thì họ sẽ ăn mà khi ăn thì thừa cân -> stress.

#Data Visualization

In [None]:
# Plot a count of 'Stress Level' from the dataset for visualizing stress distribution among people.
palette = sns.color_palette("Set1")

plt.figure(figsize = (12, 8))

ax = sns.countplot(x = 'Stress Level', data = df, palette = palette)

plt.xlabel('Stress Level')
plt.ylabel('Number of people')
plt.title('Stress Level Distribution by Number of People')

plt.show()

- Mức độ căng thẳng từ 3 đến 5 có tần suất cao hơn: Các mức này có khoảng 350 đến 400 người.

- Mức căng thẳng 6 và 7 ít phổ biến hơn: Số lượng quan sát ở mức căng thẳng 6 và 7 thấp hơn đáng kể, khoảng 220 - 240 người.

- Mức căng thẳng 8 lại có số lượng cao hơn: Số lượng quan sát ở mức căng thẳng 8 khá cao khoảng 350 người.

In [None]:
#Plot relationship between 'Quality of Sleep' and 'Stress Level'.
palette = sns.color_palette("Set1")

sns.lmplot(x = 'Quality of Sleep', y = 'Stress Level', data = df, scatter_kws = {"s": 40, "alpha": 0.5})

plt.xlabel('Quality of Sleep (1-10)')
plt.ylabel('Stress Level (1-10)')
plt.title('Impact of Sleep Quality on Stress Level')

plt.show()

- Biểu đồ thể hiện mối quan hệ tiêu cực rõ ràng giữa chất lượng giấc ngủ và mức độ căng thẳng. Khi chất lượng giấc ngủ tăng từ 4 đến 9, mức độ căng thẳng có xu hướng giảm từ khoảng 8 xuống còn 3. Điều này có nghĩa là giấc ngủ chất lượng hơn có thể giúp giảm căng thẳng.

- Các điểm dữ liệu rải rác xung quanh đường xu hướng cho thấy rằng dù có một xu hướng chung, không phải lúc nào giấc ngủ tốt hơn cũng dẫn đến mức độ căng thẳng thấp hơn. Điều này cho thấy có thể có những yếu tố khác ảnh hưởng đến căng thẳng ngoài chất lượng giấc ngủ, như thói quen sinh hoạt, tình trạng sức khỏe hoặc các yếu tố bên ngoài.

- Đường xu hướng dốc xuống khá mạnh, cho thấy tác động của chất lượng giấc ngủ lên căng thẳng là đáng kể. Nói cách khác, cải thiện giấc ngủ từ mức trung bình (khoảng 5-6) lên mức cao hơn (7-9) có thể dẫn đến sự giảm đáng kể trong mức độ căng thẳng.

In [None]:
# Scatter plot showing the relationship between 'Physical Activity Level' and 'Stress Level' by 'Gender'.
plt.figure(figsize = (12, 8))

sns.scatterplot(x='Stress Level', y = 'Physical Activity Level', hue = 'Gender', data = df, alpha = 0.7)

plt.ylabel('Physical Activity Level (minutes per day)')
plt.xlabel('Stress Level (1-10)')
plt.title('Impact of Physical Activity Level on Stress Level by Gender')

plt.show()

#Đổi lại
#Bar plot his

- Có xu hướng giảm mức độ căng thẳng khi mức độ hoạt động thể chất tăng lên, đặc biệt là từ 60 phút trở lên. Điều này cho thấy hoạt động thể chất có thể có tác động tích cực trong việc giảm căng thẳng.
Sự khác biệt theo giới tính:

- Nam giới có mức độ căng thẳng thấp hơn ở những mức độ hoạt động thể chất cao hơn (từ 60 phút trở lên) so với nữ giới, cho thấy có thể có sự khác biệt trong cách hoạt động thể chất ảnh hưởng đến căng thẳng giữa hai giới.
Ở mức độ hoạt động thể chất thấp hơn (dưới 50 phút), nữ giới dường như có mức độ căng thẳng cao hơn nam giới.
Tính phân tán:

- Các điểm dữ liệu phân tán, cho thấy không phải lúc nào hoạt động thể chất cao cũng đồng nghĩa với căng thẳng thấp. Một số cá nhân vẫn trải nghiệm căng thẳng cao dù có hoạt động thể chất nhiều.

>Kết luận: Biểu đồ gợi ý rằng tăng cường hoạt động thể chất có thể giúp giảm mức độ căng thẳng, đặc biệt là ở nam giới. Tuy nhiên, có sự khác biệt giữa hai giới và mức độ hoạt động cần thiết để cảm nhận hiệu quả giảm căng thẳng có thể thay đổi tùy vào từng cá nhân.

In [None]:
# Create a boxplot to visualize the relationship between 'Physical Activity Level Category' and 'Stress Level'.
palette = sns.color_palette("Set1")

df['Activity Level Category'] = pd.cut(df['Physical Activity Level'], bins = [0, 30, 60, 90], labels = ['Low', 'Medium', 'High'])

plt.figure(figsize = (12, 8))

sns.boxplot(x = 'Activity Level Category', y = 'Stress Level', data = df, palette = palette)

plt.xlabel('Physical Activity Level Category')
plt.ylabel('Stress Level (1-10)')
plt.title('Stress Level by Physical Activity Level Category')

plt.show()

Hoạt động thể chất thấp:

- Trung vị: 6, cho thấy phần lớn người trong nhóm này có mức căng thẳng cao.
Khoảng tứ phân vị (IQR): Từ 5 đến 8, với 50% dữ liệu tập trung ở mức căng thẳng cao.
- Tổng phạm vi: Từ 3 đến 8, cho thấy sự biến đổi lớn, với một số người có căng thẳng thấp nhưng đa số có căng thẳng cao.
- Kết luận: Những người có mức độ hoạt động thể chất thấp thường có mức căng thẳng cao và biến động lớn.

Hoạt động thể chất trung bình:

- Trung vị: 5, thấp hơn nhóm hoạt động thấp, cho thấy mức căng thẳng giảm.
IQR: Từ 4 đến 6, cho thấy mức căng thẳng trung bình và ổn định.
- Tổng phạm vi: Từ 3 đến 7, có sự khác biệt nhưng ít biến động hơn nhóm hoạt động thấp.
- Kết luận: Mức độ hoạt động thể chất trung bình liên quan đến mức căng thẳng giảm và ổn định hơn.

Hoạt động thể chất cao:

- Trung vị: 5, tương tự nhóm trung bình nhưng thấp hơn nhóm hoạt động thấp.
IQR: Từ 4 đến 6, cho thấy mức căng thẳng ổn định và thấp hơn.
- Tổng phạm vi: Từ 3 đến 7, với biến đổi nhỏ trong mức độ căng thẳng.
- Kết luận: Những người có hoạt động thể chất cao có xu hướng ít căng thẳng hơn, với mức căng thẳng tập trung ở mức thấp và ít thay đổi.

So sánh tổng quan:

- Nhóm hoạt động thể chất thấp có mức căng thẳng cao nhất và biến động lớn nhất.
- Nhóm hoạt động thể chất trung bình và cao có mức căng thẳng thấp hơn và ổn định hơn.

Kết luận tổng quát: Mức độ hoạt động thể chất càng cao có mối quan hệ nghịch với mức độ căng thẳng; càng hoạt động thể chất nhiều, mức độ căng thẳng có xu hướng giảm. Duy trì hoạt động thể chất thường xuyên có thể giúp kiểm soát và giảm căng thẳng.

In [None]:
# Scatter plot of 'Sleep Duration' vs. 'Stress Level' by 'Gender'.
plt.figure(figsize = (12, 8))

sns.scatterplot(x='Sleep Duration', y = 'Stress Level', hue = 'Gender', data = df, alpha = 0.7)

plt.xlabel('Sleep Duration (hours per day)')
plt.ylabel('Stress Level (1-10)')
plt.title('Impact of Sleep Duration on Stress Level by Gender')

plt.show()

- Những người ngủ 6.0 đến 6.5 giờ thường có mức độ căng thẳng cao hơn (từ 6 đến 8).

- Khi thời lượng ngủ tăng lên (đến khoảng 7.0–8.0 giờ), mức độ căng thẳng có xu hướng giảm, tập trung quanh các giá trị thấp hơn (từ 3 đến 5).

- Cả hai giới đều có xu hướng giảm mức độ căng thẳng khi thời lượng ngủ tăng, tuy nhiên có sự khác biệt nhỏ:

>> Ở nam giới, có vẻ như mức căng thẳng giảm rõ rệt ở mức 7.5–8.0 giờ ngủ.
Ở nữ giới, mức căng thẳng có vẻ giảm mạnh hơn ở khoảng 7.0–7.5 giờ, với ít dữ liệu hơn ở mức 8.0 giờ.

>Tóm lại, biểu đồ cho thấy thời gian ngủ có mối quan hệ ngược chiều với mức độ căng thẳng, tức là ngủ nhiều hơn có xu hướng liên quan đến mức độ căng thẳng thấp hơn, dù vẫn có sự khác biệt giữa các cá nhân (ví dụ như giới tính).


In [None]:
sns.pairplot(df[['Heart Rate', 'Physical Activity Level']], kind='scatter')

plt.gcf().set_size_inches(16, 10)

plt.suptitle('Pair Plot of Heart Rate and Physical Activity Level', fontsize=16)

plt.show()


In [None]:
# Visualize the relationship between Heart Rate and Stress Level.
palette = sns.color_palette("Set1")

plt.figure(figsize = (12, 8))
sns.violinplot(y = "Heart Rate", x = "Stress Level", data = df, palette = palette)
plt.title("Stress Distribution by Heart Rate")
plt.ylabel("Heart Rate (bpm)")
plt.xlabel("Stress Level")
plt.show()

In [None]:
# Visualize the impact of Heart Rate on Stress Level.
plt.figure(figsize = (12, 8))
sns.regplot(x = 'Heart Rate', y = 'Stress Level', data = df, scatter_kws={'s' : 50, 'alpha' : 0.5}, line_kws = {"color" : "red"})

plt.title('Impact of Heart Rate on Stress Level', fontsize = 16)
plt.xlabel('Heart Rate (bpm)', fontsize = 12)
plt.ylabel('Stress Level', fontsize = 12)

plt.show()

- Mối liên hệ giữa nhịp tim và căng thẳng: Cả hai biểu đồ đều cho thấy khi nhịp tim tăng, mức độ căng thẳng cũng tăng. Scatter Plot thể hiện điều này bằng một đường xu hướng đi lên, còn Violin Plot cho thấy căng thẳng thường cao hơn khi nhịp tim cao.

- Sự phân bố căng thẳng theo nhịp tim: Violin Plot cho thấy ở nhịp tim trung bình (65-70 bpm), mức căng thẳng thay đổi rất nhiều, từ thấp đến cao. Khi nhịp tim trên 75 bpm, mức căng thẳng chủ yếu tập trung ở mức cao. Scatter Plot cũng chỉ ra xu hướng căng thẳng tăng dần theo nhịp tim, dù có một số trường hợp ngoại lệ.

- Dự đoán căng thẳng qua nhịp tim: Scatter Plot cho thấy nhịp tim có thể dự đoán được mức căng thẳng, với xu hướng chung là căng thẳng tăng theo nhịp tim. Violin Plot giúp thấy rõ sự thay đổi của căng thẳng theo từng mức nhịp tim.

> Tóm lại, cả hai biểu đồ đều cho thấy rằng nhịp tim cao thường đi kèm với căng thẳng cao, với Scatter Plot cho thấy xu hướng chung và Violin Plot cho biết chi tiết hơn về sự phân bố mức căng thẳng.

Miêu tả rõ hơn cho biểu đồ Scatter Plot:

>Mối quan hệ giữa nhịp tim và mức độ căng thẳng:

- Đường hồi quy màu đỏ có độ dốc tăng lên, cho thấy mối quan hệ tuyến tính dương giữa nhịp tim và mức độ căng thẳng. Cụ thể, khi nhịp tim tăng, mức độ căng thẳng cũng có xu hướng tăng theo.
Mối quan hệ này gợi ý rằng những người có nhịp tim cao hơn thường có mức độ căng thẳng cao hơn.

>Độ phân tán của dữ liệu:

- Các điểm dữ liệu có độ phân tán khá lớn quanh đường hồi quy, cho thấy rằng nhịp tim không phải là yếu tố duy nhất quyết định mức độ căng thẳng. Mặc dù có xu hướng chung là nhịp tim cao đi kèm với căng thẳng cao, nhưng vẫn có những trường hợp ngoại lệ. Ví dụ, có người có nhịp tim thấp nhưng căng thẳng cao, và ngược lại.
Điều này gợi ý rằng căng thẳng có thể bị ảnh hưởng bởi nhiều yếu tố khác ngoài nhịp tim.

>Khoảng tin cậy:

- Vùng màu hồng xung quanh đường hồi quy thể hiện khoảng tin cậy, cho thấy mức độ biến động của mức độ căng thẳng so với đường hồi quy. Vùng này càng rộng cho thấy sự dự đoán của mô hình hồi quy càng kém chắc chắn ở các khu vực đó.
Đặc biệt, ở khu vực có nhịp tim cao (trên 80 bpm), khoảng tin cậy dường như mở rộng hơn, chỉ ra rằng mối quan hệ giữa nhịp tim và căng thẳng có thể kém ổn định hơn ở mức nhịp tim cao.

Biểu đồ này cho thấy xu hướng chung là nhịp tim tăng đi kèm với mức độ căng thẳng tăng. Tuy nhiên, do sự phân tán của dữ liệu, nhịp tim chỉ là một trong nhiều yếu tố ảnh hưởng đến căng thẳng, và không phải tất cả trường hợp nhịp tim cao đều có mức căng thẳng cao tương ứng.

In [None]:
# Plotting occupation by gender distribution and stress level by occupation.
occupation_gender_counts = df.groupby(['Occupation', 'Gender']).size().unstack()

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(16, 8))

occupation_gender_counts.plot(kind = 'barh', stacked = True, color = palette, ax = axes[0])
axes[0].set_xlabel('Number of People')
axes[0].set_ylabel('Occupation')
axes[0].set_title('Occupation Distribution by Gender')
axes[0].legend(title = 'Gender')
axes[0].tick_params(axis = 'y', rotation = 0)

sns.stripplot(x = 'Occupation', y = 'Stress Level', data = df, palette = 'Set1', jitter = True, ax = axes[1])

axes[1].set_xlabel('Occupation')
axes[1].set_ylabel('Stress Level')
axes[1].set_title('Stress Level Distribution by Occupation')
axes[1].tick_params(axis = 'x', rotation = 45)

plt.tight_layout()

plt.show()

- Phân bố giới tính theo nghề: Biểu đồ bên trái cho thấy nữ chiếm ưu thế trong các nghề như "Nurse" và "Teacher," trong khi nam nhiều hơn ở các nghề như "Doctor" và "Engineer." Sự khác biệt này gợi ý phân bổ giới tính khác nhau theo tính chất công việc.

- Mức độ stress theo nghề: Biểu đồ bên phải cho thấy các nghề như Doctor và Nurse có mức độ stress cao (từ 3 đến 8), do trách nhiệm và áp lực cao. Teacher cũng có mức stress đáng kể, tập trung ở mức 5 trở lên. Trong khi đó, Sales Representative và Software Engineer có stress thấp hơn (3–5), có thể do tính chất công việc ít căng thẳng hơn.

- Liên hệ giới tính và stress: Nữ giới chiếm ưu thế trong các nghề có mức stress cao như "Nurse" và "Teacher," cho thấy họ thường làm việc trong môi trường áp lực cao hơn, đặc biệt trong các ngành chăm sóc và giáo dục.

>Như vậy, nghề nghiệp và giới tính đều tác động đáng kể đến mức độ stress trong công việc.

 Ngành chăm sóc và giáo dục thường có tỷ lệ căng thẳng cao hơn vì những lý do sau:

- Áp lực trách nhiệm: Những người làm việc trong ngành chăm sóc (như y tá, bác sĩ) chịu trách nhiệm trực tiếp đến sức khỏe và an toàn của người khác. Quyết định sai lầm hoặc thiếu sót có thể ảnh hưởng nghiêm trọng đến tính mạng, tạo ra áp lực rất lớn.

- Đòi hỏi cảm xúc và tinh thần: Giáo viên và nhân viên chăm sóc phải liên tục giao tiếp, hướng dẫn, và hỗ trợ người khác, đòi hỏi sự kiên nhẫn, đồng cảm, và khả năng xử lý các tình huống căng thẳng. Điều này có thể gây kiệt sức về tinh thần và cảm xúc.

- Thời gian và cường độ làm việc cao: Nhân viên chăm sóc y tế thường làm việc theo ca kéo dài, thậm chí qua đêm, trong khi giáo viên thường làm thêm giờ để chuẩn bị bài giảng và chấm bài. Lịch làm việc không đều đặn và thiếu thời gian nghỉ ngơi làm tăng căng thẳng.

- Thiếu kiểm soát công việc: Công việc chăm sóc và giáo dục thường có nhiều yếu tố bất ngờ hoặc không thể kiểm soát, từ tình trạng khẩn cấp trong y tế đến các vấn đề phát sinh trong lớp học, khiến người lao động khó cảm thấy ổn định và an toàn.

> Những yếu tố này khiến công việc trong ngành chăm sóc và giáo dục dễ dẫn đến tỷ lệ căng thẳng cao hơn so với nhiều ngành khác **(Nếu có thêm data về các thông tin này thì các kết luận sẽ được xác thực hơn)**

In [None]:
# Displaying the unique categories in the 'BMI Category' column.
df['BMI Category'].unique()

In [None]:
# Counting 'Normal Weight' individuals with non-low Activity Level.
# Displaying value counts for 'BMI Category' and 'Activity Level Category'.
print("Số lượng người Normal Weight không có mức độ hoạt động thể chất thấp:", df[(df['BMI Category'] == 'Normal Weight') & (df['Activity Level Category'] != 'Low')].shape[0], "\n")
print("Số lượng người Normal không có mức độ hoạt động thể chất thấp:", df[(df['BMI Category'] == 'Normal') & (df['Activity Level Category'] != 'Low')].shape[0], "\n")
print(df['BMI Category'].value_counts(), "\n")
print(df['Activity Level Category'].value_counts())


The two elements "Normal" and "Normal Weight" have the same meaning, so they will be merged into a single type called "Normal"

In [None]:
# Replacing 'Normal Weight' with 'Normal' in the 'BMI Category' column.
df['BMI Category'] = df['BMI Category'].replace('Normal Weight', 'Normal')

In [None]:
# Visualize the distribution of BMI categories in the dataset.
plt.figure(figsize = (12, 12))

plt.pie(df['BMI Category'].value_counts(), labels = df['BMI Category'].unique(), autopct = '%1.1f%%', startangle = 90)

plt.title('Distribution of BMI Categories')

plt.show()

- Thừa cân (58,3%): Phần lớn nhất của nhóm, chiếm 58,3%, thuộc vào nhóm "Thừa cân". Điều này cho thấy hơn một nửa số người trong dân số này có BMI nằm trong mức thừa cân.

- Bình thường (39,0%): Đây là nhóm lớn thứ hai, chiếm 39,0% dân số. Những người trong nhóm này có BMI được coi là bình thường, thường gắn liền với nguy cơ thấp hơn về một số vấn đề sức khỏe.

- Béo phì (2,7%): Nhóm nhỏ nhất, chiếm 2,7%, thuộc vào nhóm "Béo phì".

In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='Activity Level Category', hue='BMI Category')

plt.title('Relationship Between Activity Level and BMI Type')
plt.xlabel('Activity Level Category')
plt.ylabel('Number of people')

plt.legend(title='BMI Category')

plt.show()

#Merge Occupation

- Ở mức độ hoạt động thấp và trung bình, số lượng người có BMI bình thường và thừa cân tương đối cân bằng.
- Ở mức độ hoạt động cao, đa số thuộc nhóm BMI bình thường, ít người béo phì.

Điều này gợi ý rằng tăng cường hoạt động thể chất có thể góp phần duy trì hoặc đạt được chỉ số BMI bình thường và giảm tỷ lệ béo phì.


In [None]:
plt.figure(figsize=(12, 8))

sns.histplot(data=df, y='Daily Steps', x='Stress Level', multiple='dodge', palette='cool', kde=False, bins=10, shrink=0.8)

plt.title('Stress Level Distribution by Daily Steps', fontsize=16)
plt.ylabel('Daily Steps', fontsize=12)
plt.xlabel('Stress Level', fontsize=12)

plt.show()

In [None]:
df.head()

In [None]:
# Visualizing the distributions of Age, Physical Activity Level, and Daily Steps by Histogram.
plt.figure(figsize=(20, 8))

plt.subplot(1, 4, 1)
sns.histplot(df['Age'], bins = 20, kde = True, color = 'blue')
plt.title('Age Distribution')

plt.subplot(1, 4, 2)
sns.histplot(df['Physical Activity Level'], bins = 20, kde = True, color = 'green')
plt.title('Physical Activity Level Distribution')

plt.subplot(1, 4, 3)
sns.histplot(df['Daily Steps'], bins = 20, kde = True, color = 'red')
plt.title('Daily Steps Distribution')


plt.subplot(1, 4, 4)
sns.histplot(df['Heart Rate'], bins = 20, kde = True, color = 'orange')
plt.title('Heart Rate Distribution')

plt.tight_layout()
plt.show()

In [None]:
#Print skewness values for distribution check.
columns = ['Age', 'Physical Activity Level', 'Daily Steps', 'Heart Rate']
for i in range(4):
    print(columns[i])
    print("Skewness:", df[columns[i]].skew())
    print("\n")

In [None]:
# Apply square root to 'Age' and cube root to 'Heart Rate' to reduce skewness.
df['Age'] = np.sqrt(df['Age'])
df['Heart Rate'] = np.sqrt(df['Heart Rate'])

In [None]:
#Display skewness of 'Age' and 'Heart Rate'.
print("Age\nSkewness:", df['Age'].skew())
print("Heart Rate\nSkewness:", df['Heart Rate'].skew())

#Data Preparation

- Drop the "Person ID" column.
- Fill in the missing values ​​in the "Sleep disorders" column.
- Encoding the columns “BMI Category”, “Occupation”, "Gender", "Sleep disorder", "Age_Group"
- Divide the "Blood pressure" column into two columns: Systolic and Diastolic
- Visualize heat map correlation of dataframe
- Drop columns that have a low correlation with the Stress Level column
- Standardized or not (Depends on the level of efficiency)
- Divide data into 2 parts: Test, Train.

In [None]:
# Count the total number of duplicate rows
num_duplicates = df.duplicated().sum()
print(f"Số lượng hàng trùng lặp: {num_duplicates}")

In [None]:
#Set index the column 'Person ID'
df.set_index('Person ID', inplace = True)

In [None]:
#Fill in the missing values ​​in the "Sleep Disorder" column.
df['Sleep Disorder'] = df['Sleep Disorder'].fillna("Nothing")

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
df.head(1)

In [None]:
#Divide the "Blood pressure" column into two columns: Systolic and Diastolic
df[['Systolic', 'Diastolic']] = df['Blood Pressure'].str.split('/', expand = True)
df['Systolic'] = df['Systolic'].astype(int)
df['Diastolic'] = df['Diastolic'].astype(int)
df.drop('Blood Pressure', axis = 1, inplace = True)

In [None]:
#Show the first row
df.head(1)

In [None]:
#Check NULL and columns in dataframe
df.isna().sum()

In [None]:
# Encoding the columns “BMI Category”, “Occupation”, "Gender", "Sleep disorder"
cat_cols=['Gender','Occupation','BMI Category','Sleep Disorder', 'Activity Level Category', 'Age_Group']
label_encoder = LabelEncoder()
for col in cat_cols:
    df[col] = label_encoder.fit_transform(df[col])

In [None]:
# Visualize heat map correlation of dataframe
plt.figure(figsize = (10, 10))
sns.heatmap(df.corr(), cmap = 'crest', annot = True)
plt.show

In [None]:
#Drop columns that have a low correlation with the Stress Level column
df.drop('Sleep Disorder', axis = 1, inplace = True)
df.drop('Activity Level Category', axis = 1, inplace = True)
df.drop('Diastolic', axis = 1, inplace = True)
df.drop('Age', axis = 1, inplace = True)
#Đa cộng tuyến

In [None]:
# Removes outliers from a specified column in a DataFrame using the IQR method
def handle_outliers_IQR(df, column_name):
    # Check if column is numeric
    if pd.api.types.is_numeric_dtype(df[column_name]):
        Q1 = df[column_name].quantile(0.25)
        Q3 = df[column_name].quantile(0.75)
        IQR = Q3 - Q1

        df_no_outliers = df[(df[column_name] >= (Q1 - 1.5 * IQR)) & (df[column_name] <= (Q3 + 1.5 * IQR))]

        return df_no_outliers
    else:
        print(f"Column '{column_name}' is not numeric, cannot handle outliers.")
        return df

In [None]:
# Print out the number of rows after removing outliers in each column
print(f'Số lượng hàng sau khi loại bỏ outliner trong cột:')
for column in df.columns:
    df_no_outliers = handle_outliers_IQR(df, column)
    print(column,":", df_no_outliers.shape[0])

In [None]:
#Import library
from sklearn.model_selection import train_test_split

In [None]:
#Divide data into 2 parts: Test, Train
X = df.drop('Stress Level', axis = 1)
y = df['Stress Level']

In [None]:
#Data Standardization
from sklearn.preprocessing import StandardScaler
X = StandardScaler().fit_transform(X)

In [None]:
# Split the data into training and testing sets (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

# Display the shapes of the training and testing sets
print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

In [None]:
X_train

#Model Training

In [None]:
#Import Libbraries
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier, export_text

from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

from sklearn.model_selection import learning_curve
from sklearn.model_selection import cross_val_score

#**A. Logistic Regression**

In [None]:
Logistic_Regression = LogisticRegression()
Logistic_Regression.fit(X_train, y_train)

In [None]:
y_pred_train = Logistic_Regression.predict(X_train)
y_pred_test = Logistic_Regression.predict(X_test)

In [None]:
print("The test accuracy of Logistic Regression (x_train, y_train) is:", accuracy_score(y_train, y_pred_train))
print("The test accuracy of Logistic Regression (x_test, y_test) is:", accuracy_score(y_test, y_pred_test))

In [None]:
report = classification_report(y_test, y_pred_test)
matrix = confusion_matrix(y_test, y_pred_test)

print("Confusion Matrix:", "\n", matrix, "\n")
print("Classification Report:", "\n", report, "\n")

#**B. Naive Bayes**

In [None]:
Naive_Bayes = GaussianNB()
Naive_Bayes.fit(X_train,y_train)

In [None]:
y_pred_train = Naive_Bayes.predict(X_train)
y_pred_test = Naive_Bayes.predict(X_test)

In [None]:
print("The test accuracy of Naive Bayes (x_train, y_train) is:", accuracy_score(y_train, y_pred_train))
print("The test accuracy of Naive Bayes (x_test, y_test) is:", accuracy_score(y_test, y_pred_test))

In [None]:
report = classification_report(y_test, y_pred_test)
matrix = confusion_matrix(y_test, y_pred_test)

print("Confusion Matrix:", "\n", matrix, "\n")
print("Classification Report:", "\n", report, "\n")

#**C. Support Vector Machine**

In [None]:
svm_classifier = svm.SVC(C = 3, gamma = 'scale')
svm_classifier.fit(X_train, y_train)

In [None]:
y_pred_train = svm_classifier.predict(X_train)
y_pred_test = svm_classifier.predict(X_test)

In [None]:
print("The test accuracy of SVM (x_train, y_train) is:", accuracy_score(y_train, y_pred_train))
print("The test accuracy of SVM (x_test, y_test) is:", accuracy_score(y_test, y_pred_test))

In [None]:
report = classification_report(y_test, y_pred_test)
matrix = confusion_matrix(y_test, y_pred_test)

print("Confusion Matrix:", "\n", matrix, "\n")
print("Classification Report:", "\n", report, "\n")

#**D. KNN Classifier**

In [None]:
KNN_Classifer = KNeighborsClassifier(n_neighbors = 10)
KNN_Classifer.fit(X_train, y_train)

In [None]:
y_pred_train = KNN_Classifer.predict(X_train)
y_pred_test = KNN_Classifer.predict(X_test)

In [None]:
print("The test accuracy of KNN (x_train, y_train) is:", accuracy_score(y_train, y_pred_train))
print("The test accuracy of KNN (x_test, y_test) is:", accuracy_score(y_test, y_pred_test))

In [None]:
report = classification_report(y_test, y_pred_test)
matrix = confusion_matrix(y_test, y_pred_test)

print("Confusion Matrix:", "\n", matrix, "\n")
print("Classification Report:", "\n", report, "\n")

#**E. Random Forest Classifier**

In [None]:
Random_Forest = RandomForestClassifier(n_estimators = 10, max_depth = 6, max_features = 'sqrt', min_samples_split = 4, random_state = 42)
Random_Forest.fit(X_train, y_train)

In [None]:
y_pred = Random_Forest.predict(X_test)
y_pred_2 = Random_Forest.predict(X_train)

In [None]:
print("The test accuracy of Random Forest (x_train, y_train) is:", accuracy_score(y_train, y_pred_2))
print("The test accuracy of Random Forest (x_test, y_test) is:", accuracy_score(y_test, y_pred))

In [None]:
report = classification_report(y_test, y_pred)
matrix = confusion_matrix(y_test, y_pred)

print("Confusion Matrix:", "\n", matrix, "\n")
print("Classification Report:", "\n", report, "\n")

#**F. Decission Tree**

In [None]:
decision_tree = DecisionTreeClassifier(max_depth = 6, min_samples_split = 4, min_samples_leaf  = 5, max_features = 'log2', random_state = 42)
decision_tree.fit(X_train,y_train)

In [None]:
y_pred = decision_tree.predict(X_test)
y_pred_2 = decision_tree.predict(X_train)

In [None]:
print("The test accuracy of Decision Tree (x_train, y_train) is:", accuracy_score(y_train, y_pred_2))
print("The test accuracy of Decision Tree (x_test, y_test) is:", accuracy_score(y_test, y_pred))

In [None]:
report = classification_report(y_test, y_pred)
matrix = confusion_matrix(y_test, y_pred)

print("Confusion Matrix:", "\n", matrix, "\n")
print("Classification Report:", "\n", report, "\n")

#ROC

#**G. Visualize model accuracy && recall comparison**

In [None]:
model_names = ['Logistic Regression', 'Naive Bayes',  'SVM', 'KNN', 'Random Forest', 'Decision Tree',]
accuracy_scores = [96.86, 91.35, 99.27, 97.34, 99.51, 98.31]

data = {'Model': model_names, 'Accuracy Score': accuracy_scores}

df_model = pd.DataFrame(data)

colors = {'blue', 'green','orange', 'red', 'purple', 'brown'}

plt.figure(figsize = (10, 6))
ax = sns.barplot(x = 'Model', y = 'Accuracy Score', data = df_model, palette = palette)
for p in ax.patches:
    ax.annotate(format(p.get_height(), '.2f'),
                (p.get_x() + p.get_width() / 2., p.get_height()),
                ha = 'center', va = 'center',
                xytext = (0, 9),
                textcoords = 'offset points')

plt.title('Model Accuracy Comparison')
plt.xlabel('Model')
plt.ylabel('Accuracy Score')
plt.show()

In [None]:
model_names = ['Logistic Regression', 'Naive Bayes',  'SVM', 'KNN', 'Random Forest', 'Decision Tree',]
accuracy_scores = [97, 92.5, 97, 91.5, 98, 98]

data = {'Model': model_names, 'Recall Score': accuracy_scores}

df_model = pd.DataFrame(data)

colors = {'blue', 'green','orange', 'red', 'purple', 'brown'}

plt.figure(figsize = (10, 6))
ax = sns.barplot(x = 'Model', y = 'Recall Score', data = df_model, palette = palette)
for p in ax.patches:
    ax.annotate(format(p.get_height(), '.2f'),
                (p.get_x() + p.get_width() / 2., p.get_height()),
                ha = 'center', va = 'center',
                xytext = (0, 9),
                textcoords = 'offset points')

plt.title('Recall Score Comparison Across Models')
plt.xlabel('Model')
plt.ylabel('Recall Score')
plt.show()

#**H. Accuracy Analysis and Learning Curve of Random Forest and Decision Tree Classifiers to Check for Overfitting and Underfitting**

In [None]:
#Cross-Validation Accuracy Comparison of Random Forest and SVM
scores = cross_val_score(RandomForestClassifier(n_estimators = 10, max_depth = 6, max_features = 'sqrt', min_samples_split = 4, random_state = 42), X, y, cv=5)
print("Random Forest:")
print("Cross-validation accuracy scores:", scores)
print("Mean cross-validation accuracy:", scores.mean(), "\n")

scores = cross_val_score(svm_classifier, X, y, cv=5)
print("SVM:")
print("Cross-validation accuracy scores:", scores)
print("Mean cross-validation accuracy:", scores.mean(), "\n")

In [None]:
# Visualizing Learning Curve for Random Forest Classifier
train_sizes, train_scores, test_scores = learning_curve(RandomForestClassifier(n_estimators = 10, max_depth = 6, max_features = 'sqrt', min_samples_split = 4, random_state = 42), X, y, cv=5)
plt.plot(train_sizes, train_scores.mean(axis=1), label = "Training score")
plt.plot(train_sizes, test_scores.mean(axis=1), label = "Validation score")
plt.legend()
plt.xlabel("Training Set Size")
plt.ylabel("Accuracy")
plt.title("Learning Curve of Random Forest")
plt.show()

#bias và variance

In [None]:
# Visualizing Learning Curve for Decision Tree
train_sizes, train_scores, test_scores = learning_curve(DecisionTreeClassifier(max_depth = 6, min_samples_split = 4, min_samples_leaf  = 5, max_features = 'log2', random_state = 42), X, y, cv=5)
plt.plot(train_sizes, train_scores.mean(axis=1), label = "Training score")
plt.plot(train_sizes, test_scores.mean(axis=1), label = "Validation score")
plt.legend()
plt.xlabel("Training Set Size")
plt.ylabel("Accuracy")
plt.title("Learning Curve of Decision Tree")
plt.show()


#Stress Level Dectection


In [None]:
#User Input Collection for Stress Level Prediction with Optional Scaling

# scaler = StandardScaler()
# X_train = scaler.fit_transform(X_train)

def get_user_input():
    Gender = int(input("Gender (Male: 1, Female: 0): "))
    Age = int(input("Age: "))
    print( "['Scientist = 0','Doctor = 1 ', 'Accountant = 2', 'Teacher = 3','Manager = 4', 'Engineer = 5', 'Sales Representative = 6', 'Lawyer = 8',
    'Salesperson = 7','Software Engineer = 9', 'Nurse = 10']")
    Occupation = int(input("Occupation (encoded): "))
    print( "['Low: 0 - 29','Medium = 30 - 59', 'High = 60 - 90'], [Range (0 - 90)]")
    Activity_Level_Category = int(input("Activity Level (Low = 1, Medium = 2, High = 3): "))
    Sleep_Quality = int(input("Quality of Sleep (1 - 10): "))
    Sleep_Duration = float(input("Sleep Duration (hours): "))
    BMI_Category = int(input("BMI Category (Underweight: 1, Normal: 2, Overweight: 3): "))
    Heart_Rate = int(input("Heart Rate (bpm): "))
    Daily_Steps = int(input("Daily Steps: "))
    Systolic = int(input("Systolic Blood Pressure: "))

    user_input = np.array([[Gender, Age, Occupation, Sleep_Duration, BMI_Category, Heart_Rate, Daily_Steps, Systolic, Activity_Level_Category, Sleep_Quality]])

    # user_input_scaled = scaler.transform(user_input)

    return user_input

#Uncomment to run the code

In [None]:
# #Predicting Stress Level Based on User Input
# user_input = get_user_input()

# # predicted_stress_level = svm_classifier.predict(user_input)
# # predicted_stress_level = Logistic_Regression.predict(user_input)
# # predicted_stress_level = Naive_Bayes.predict(user_input)
# predicted_stress_level = Random_Forest.predict(user_input)
# # predicted_stress_level = decision_tree.predict(user_input)
# # predicted_stress_level = KNN_Classifer.predict(user_input)

# print("\n", "DrakePhamta.vn")
# print("\n" + "="*50)
# print("                 Stress Level Prediction                  ")
# print("="*50)
# print(f"Predicted Stress Level: {predicted_stress_level[0]} out of 8")
# print("="*50 + "\n")