## Загрузка данных

In [1]:
import pandas as pd

# Загрузка данных из CSV-файла. Пробуем разные разделители.
try:
    df = pd.read_csv("/content/DB_3.csv", sep='\t')
except Exception as e:
    print(f"Ошибка при загрузке с разделителем '\t': {e}")
    try:
        df = pd.read_csv("/content/DB_3.csv", sep=',')
    except Exception as e:
        print(f"Ошибка при загрузке с разделителем ',': {e}")
        # Если ни один из стандартных разделителей не подошел, можно попробовать другие или вывести ошибку.
        # В данном случае просто выводим ошибку и завершаем задачу с ошибкой.
        df = None

if df is not None:
    # Выводим первые строки DataFrame для проверки успешной загрузки
    display(df.head())
else:
    print("Не удалось загрузить данные с использованием известных разделителей.")


Unnamed: 0,user_id\t,age,gender,occupation,work_mode,screen_time_hours\t,work_screen_hours,leisure_screen_hours,sleep_hours,sleep_quality_1_5,stress_level_0_10,productivity_0_100\t,exercise_minutes_per_week,social_hours_per_week,mental_wellness_index_0_100,Unnamed: 15
0,U0001,33,Female,Employed,Remote,10.79,5.44,5.35,6.63,1.0,9.3,44.7,127,0.7,9.3,
1,U0002,28,Female,Employed,In-person,7.4,0.37,7.03,8.05,3.0,5.7,78.0,74,2.1,56.2,
2,U0003,35,Female,Employed,Hybrid,9.78,1.09,8.69,6.48,1.0,9.1,51.8,67,8.0,3.6,
3,U0004,42,Male,Employed,Hybrid,11.13,0.56,10.57,6.89,1.0,10.0,37.0,0,5.7,0.0,
4,U0005,28,Male,Student,Remote,13.22,4.09,9.13,5.79,1.0,10.0,38.5,143,10.1,0.0,


## Исследование данных


In [2]:
# Отображаем первые 5 строк DataFrame для первичного ознакомления с данными
display(df.head())

# Выводим информацию о DataFrame, включая типы данных и количество непропущенных значений в каждом столбце
display(df.info())

# Генерируем описательную статистику для числовых столбцов
display(df.describe())

Unnamed: 0,user_id\t,age,gender,occupation,work_mode,screen_time_hours\t,work_screen_hours,leisure_screen_hours,sleep_hours,sleep_quality_1_5,stress_level_0_10,productivity_0_100\t,exercise_minutes_per_week,social_hours_per_week,mental_wellness_index_0_100,Unnamed: 15
0,U0001,33,Female,Employed,Remote,10.79,5.44,5.35,6.63,1.0,9.3,44.7,127,0.7,9.3,
1,U0002,28,Female,Employed,In-person,7.4,0.37,7.03,8.05,3.0,5.7,78.0,74,2.1,56.2,
2,U0003,35,Female,Employed,Hybrid,9.78,1.09,8.69,6.48,1.0,9.1,51.8,67,8.0,3.6,
3,U0004,42,Male,Employed,Hybrid,11.13,0.56,10.57,6.89,1.0,10.0,37.0,0,5.7,0.0,
4,U0005,28,Male,Student,Remote,13.22,4.09,9.13,5.79,1.0,10.0,38.5,143,10.1,0.0,


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 16 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   user_id	                     398 non-null    object 
 1   age                          400 non-null    int64  
 2   gender                       397 non-null    object 
 3   occupation                   399 non-null    object 
 4   work_mode                    398 non-null    object 
 5   screen_time_hours	           398 non-null    float64
 6   work_screen_hours            397 non-null    float64
 7   leisure_screen_hours         399 non-null    float64
 8   sleep_hours                  400 non-null    float64
 9   sleep_quality_1_5            398 non-null    float64
 10  stress_level_0_10            399 non-null    float64
 11  productivity_0_100	          400 non-null    float64
 12  exercise_minutes_per_week    400 non-null    int64  
 13  social_hours_per_wee

None

Unnamed: 0,age,screen_time_hours\t,work_screen_hours,leisure_screen_hours,sleep_hours,sleep_quality_1_5,stress_level_0_10,productivity_0_100\t,exercise_minutes_per_week,social_hours_per_week,mental_wellness_index_0_100,Unnamed: 15
count,400.0,398.0,397.0,399.0,400.0,398.0,399.0,400.0,400.0,400.0,398.0,0.0
mean,29.7775,9.029171,2.187733,6.837143,7.013175,1.399497,8.145865,54.3065,109.81,7.905,20.295729,
std,7.46608,2.483373,1.936002,2.221707,0.852421,0.653377,2.095419,15.020054,70.007045,4.909632,20.336537,
min,16.0,1.0,0.11,0.89,4.64,1.0,0.0,20.6,0.0,0.0,0.0,
25%,24.0,7.385,0.7,5.46,6.3975,1.0,6.9,43.6,58.0,4.575,3.725,
50%,30.0,9.09,1.46,6.7,7.03,1.0,8.8,51.75,103.0,7.75,14.8,
75%,35.0,10.4775,3.02,8.385,7.64,2.0,10.0,63.0,157.0,11.025,30.6,
max,60.0,19.17,12.04,13.35,9.74,4.0,10.0,100.0,372.0,23.9,97.0,


## Обработка данных


In [3]:
# Удаляем столбец 'Unnamed: 15', так как он не содержит полезной информации.
df = df.drop('Unnamed: 15', axis=1)

# Проверяем изменения
display(df.head())

Unnamed: 0,user_id\t,age,gender,occupation,work_mode,screen_time_hours\t,work_screen_hours,leisure_screen_hours,sleep_hours,sleep_quality_1_5,stress_level_0_10,productivity_0_100\t,exercise_minutes_per_week,social_hours_per_week,mental_wellness_index_0_100
0,U0001,33,Female,Employed,Remote,10.79,5.44,5.35,6.63,1.0,9.3,44.7,127,0.7,9.3
1,U0002,28,Female,Employed,In-person,7.4,0.37,7.03,8.05,3.0,5.7,78.0,74,2.1,56.2
2,U0003,35,Female,Employed,Hybrid,9.78,1.09,8.69,6.48,1.0,9.1,51.8,67,8.0,3.6
3,U0004,42,Male,Employed,Hybrid,11.13,0.56,10.57,6.89,1.0,10.0,37.0,0,5.7,0.0
4,U0005,28,Male,Student,Remote,13.22,4.09,9.13,5.79,1.0,10.0,38.5,143,10.1,0.0


In [4]:
# Переименовываем столбцы, чтобы удалить лишние символы табуляции \t из названий.
df.columns = df.columns.str.replace('\t', '')

# Проверяем изменения
display(df.head())

Unnamed: 0,user_id,age,gender,occupation,work_mode,screen_time_hours,work_screen_hours,leisure_screen_hours,sleep_hours,sleep_quality_1_5,stress_level_0_10,productivity_0_100,exercise_minutes_per_week,social_hours_per_week,mental_wellness_index_0_100
0,U0001,33,Female,Employed,Remote,10.79,5.44,5.35,6.63,1.0,9.3,44.7,127,0.7,9.3
1,U0002,28,Female,Employed,In-person,7.4,0.37,7.03,8.05,3.0,5.7,78.0,74,2.1,56.2
2,U0003,35,Female,Employed,Hybrid,9.78,1.09,8.69,6.48,1.0,9.1,51.8,67,8.0,3.6
3,U0004,42,Male,Employed,Hybrid,11.13,0.56,10.57,6.89,1.0,10.0,37.0,0,5.7,0.0
4,U0005,28,Male,Student,Remote,13.22,4.09,9.13,5.79,1.0,10.0,38.5,143,10.1,0.0


In [5]:
# Обрабатываем пропущенные значения.
# Для категориальных признаков используем моду.
for col in ['gender', 'occupation', 'work_mode']:
    if df[col].isnull().any():
        mode_value = df[col].mode()[0]
        df[col].fillna(mode_value, inplace=True)
        print(f"Пропущенные значения в столбце '{col}' заполнены модой: {mode_value}")

# Для числовых признаков используем медиану.
for col in ['screen_time_hours', 'work_screen_hours', 'leisure_screen_hours', 'sleep_quality_1_5', 'stress_level_0_10', 'mental_wellness_index_0_100']:
    if df[col].isnull().any():
        median_value = df[col].median()
        df[col].fillna(median_value, inplace=True)
        print(f"Пропущенные значения в столбце '{col}' заполнены медианой: {median_value}")

# Проверяем наличие пропущенных значений после импутации
display(df.isnull().sum())

Пропущенные значения в столбце 'gender' заполнены модой: Female
Пропущенные значения в столбце 'occupation' заполнены модой: Employed
Пропущенные значения в столбце 'work_mode' заполнены модой: Remote
Пропущенные значения в столбце 'screen_time_hours' заполнены медианой: 9.09
Пропущенные значения в столбце 'work_screen_hours' заполнены медианой: 1.46
Пропущенные значения в столбце 'leisure_screen_hours' заполнены медианой: 6.7
Пропущенные значения в столбце 'sleep_quality_1_5' заполнены медианой: 1.0
Пропущенные значения в столбце 'stress_level_0_10' заполнены медианой: 8.8
Пропущенные значения в столбце 'mental_wellness_index_0_100' заполнены медианой: 14.8


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(mode_value, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(median_value, inplace=True)


Unnamed: 0,0
user_id,2
age,0
gender,0
occupation,0
work_mode,0
screen_time_hours,0
work_screen_hours,0
leisure_screen_hours,0
sleep_hours,0
sleep_quality_1_5,0


In [6]:
# Преобразуем категориальные признаки в числовой формат.
# 'gender' - бинарный признак, используем Label Encoding.
# Проводим трансформацию строковых значений в целочисленные, так как алгоритмы МО могут работать только с численными данными.
# 0 – Male, 1 – Female. Данные сохраняются в одном столбце, так как они принадлежат к бинарному типу.
df['gender'] = df['gender'].map({'Male': 0, 'Female': 1})

# 'occupation' и 'work_mode' - категориальные признаки с несколькими уникальными значениями, используем One-Hot Encoding.
# Создаем новые бинарные столбцы для каждой категории в этих признаках.
df = pd.get_dummies(df, columns=['occupation', 'work_mode'], drop_first=True)

# Проверяем изменения
display(df.head())
display(df.info())

Unnamed: 0,user_id,age,gender,screen_time_hours,work_screen_hours,leisure_screen_hours,sleep_hours,sleep_quality_1_5,stress_level_0_10,productivity_0_100,exercise_minutes_per_week,social_hours_per_week,mental_wellness_index_0_100,occupation_Retired,occupation_Self-employed,occupation_Student,occupation_Unemployed,work_mode_In-person,work_mode_Remote
0,U0001,33,1.0,10.79,5.44,5.35,6.63,1.0,9.3,44.7,127,0.7,9.3,False,False,False,False,False,True
1,U0002,28,1.0,7.4,0.37,7.03,8.05,3.0,5.7,78.0,74,2.1,56.2,False,False,False,False,True,False
2,U0003,35,1.0,9.78,1.09,8.69,6.48,1.0,9.1,51.8,67,8.0,3.6,False,False,False,False,False,False
3,U0004,42,0.0,11.13,0.56,10.57,6.89,1.0,10.0,37.0,0,5.7,0.0,False,False,False,False,False,False
4,U0005,28,0.0,13.22,4.09,9.13,5.79,1.0,10.0,38.5,143,10.1,0.0,False,False,True,False,False,True


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 19 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   user_id                      398 non-null    object 
 1   age                          400 non-null    int64  
 2   gender                       392 non-null    float64
 3   screen_time_hours            400 non-null    float64
 4   work_screen_hours            400 non-null    float64
 5   leisure_screen_hours         400 non-null    float64
 6   sleep_hours                  400 non-null    float64
 7   sleep_quality_1_5            400 non-null    float64
 8   stress_level_0_10            400 non-null    float64
 9   productivity_0_100           400 non-null    float64
 10  exercise_minutes_per_week    400 non-null    int64  
 11  social_hours_per_week        400 non-null    float64
 12  mental_wellness_index_0_100  400 non-null    float64
 13  occupation_Retired  

None

## Добавление комментариев


In [7]:
# Переименовываем столбцы, чтобы удалить лишние символы табуляции \t из названий.
# Это делается для удобства доступа к столбцам и улучшения читаемости кода.
df.columns = df.columns.str.replace('\t', '')

# Проверяем изменения, отображая первые строки обновленного DataFrame с очищенными названиями столбцов.
display(df.head())

Unnamed: 0,user_id,age,gender,screen_time_hours,work_screen_hours,leisure_screen_hours,sleep_hours,sleep_quality_1_5,stress_level_0_10,productivity_0_100,exercise_minutes_per_week,social_hours_per_week,mental_wellness_index_0_100,occupation_Retired,occupation_Self-employed,occupation_Student,occupation_Unemployed,work_mode_In-person,work_mode_Remote
0,U0001,33,1.0,10.79,5.44,5.35,6.63,1.0,9.3,44.7,127,0.7,9.3,False,False,False,False,False,True
1,U0002,28,1.0,7.4,0.37,7.03,8.05,3.0,5.7,78.0,74,2.1,56.2,False,False,False,False,True,False
2,U0003,35,1.0,9.78,1.09,8.69,6.48,1.0,9.1,51.8,67,8.0,3.6,False,False,False,False,False,False
3,U0004,42,0.0,11.13,0.56,10.57,6.89,1.0,10.0,37.0,0,5.7,0.0,False,False,False,False,False,False
4,U0005,28,0.0,13.22,4.09,9.13,5.79,1.0,10.0,38.5,143,10.1,0.0,False,False,True,False,False,True


In [8]:
# Удаляем столбец 'Unnamed: 15', так как он не содержит полезной информации (все значения пропущены).
# Удаление неинформативных столбцов является важным шагом в предобработке данных
# для улучшения производительности и точности моделей машинного обучения.
# Этот шаг был выполнен в предыдущей итерации.


# Переименовываем столбцы, чтобы удалить лишние символы табуляции \t из названий.
# Это делается для удобства доступа к столбцам и улучшения читаемости кода.
# Этот шаг был выполнен в предыдущей итерации.


# Обработка пропущенных значений.
# Пропущенные значения могут негативно сказаться на работе моделей машинного обучения, поэтому их необходимо обработать.

# Заполняем пропущенные значения в категориальных столбцах ('gender', 'occupation', 'work_mode') модой (наиболее часто встречающимся значением).
# Использование моды подходит для категориальных данных.
# Этот шаг был выполнен в предыдущей итерации.


# Заполняем пропущенные значения в числовых столбцах медианой.
# Медиана менее чувствительна к выбросам по сравнению со средним значением.
# Этот шаг был выполнен в предыдущей итерации.


# Преобразуем строковые значения в целочисленные для столбца 'gender'.
# 0 – Male, 1 – Female. Это необходимо для корректной работы алгоритмов машинного обучения с бинарными категориальными данными.
# Этот шаг был выполнен в предыдущей итерации.

# Преобразуем категориальные признаки 'occupation' и 'work_mode' в числовой формат с использованием One-Hot Encoding.
# Создаем новые бинарные столбцы для каждой уникальной категории.
# Параметр 'drop_first=True' удаляет первый столбец из каждой созданной группы для избежания проблемы мультиколлинеарности.
# Этот шаг был выполнен в предыдущей итерации, и оригинальные столбцы были удалены.

# Поскольку все шаги обработки данных, требующие комментариев, уже были выполнены в предыдущих ячейках,
# и текущее состояние DataFrame отражает эти изменения, мы завершаем подзадачу.