# Подготовка к работе

Импортирование библиотек

In [16]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import PowerTransformer
from sklearn.preprocessing import MinMaxScaler

Импортирование датасета

In [4]:
df = pd.read_csv('Dataset_salary_2024.csv')

# Основная работа с датасетом

OrdinalEncoder используется для преобразования категориальных данных в числовые значения, но сохраняет порядок категорий.

In [5]:
encoder = OrdinalEncoder()
df['employment_type_encoded'] = encoder.fit_transform(df[['employment_type']])
print("\nДанные после OrdinalEncoder:")
print(df.head())


Данные после OrdinalEncoder:
   work_year experience_level employment_type                  job_title  \
0       2024               SE              FT                AI Engineer   
1       2024               SE              FT                AI Engineer   
2       2024               SE              FT              Data Engineer   
3       2024               SE              FT              Data Engineer   
4       2024               SE              FT  Machine Learning Engineer   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0  202730             USD         202730                 US             0   
1   92118             USD          92118                 US             0   
2  130500             USD         130500                 US             0   
3   96000             USD          96000                 US             0   
4  190000             USD         190000                 US             0   

  company_location company_size  employment_type_e

LabelEncoder используется для преобразования одного столбца с категориальными метками в числовые значения.

In [7]:
label_encoder = LabelEncoder()
df['company_location_encoded'] = label_encoder.fit_transform(df['company_location'])
print("\nДанные после LabelEncoder:")
print(df.head())


Данные после LabelEncoder:
   work_year experience_level employment_type                  job_title  \
0       2024               SE              FT                AI Engineer   
1       2024               SE              FT                AI Engineer   
2       2024               SE              FT              Data Engineer   
3       2024               SE              FT              Data Engineer   
4       2024               SE              FT  Machine Learning Engineer   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0  202730             USD         202730                 US             0   
1   92118             USD          92118                 US             0   
2  130500             USD         130500                 US             0   
3   96000             USD          96000                 US             0   
4  190000             USD         190000                 US             0   

  company_location company_size  employment_type_enc

OneHotEncoder используется для преобразования категориальных данных в бинарные столбцы, что позволяет избежать предположений о порядке категорий.

In [13]:
one_hot_encoder = OneHotEncoder()
df_encoded = one_hot_encoder.fit_transform(df[['employment_type']])
df_encoded = pd.DataFrame(df_encoded.toarray(), columns=one_hot_encoder.categories_[0])
print("\nДанные после OneHotEncoder:")
print(df_encoded.head())


Данные после OneHotEncoder:
    CT   FL   FT   PT
0  0.0  0.0  1.0  0.0
1  0.0  0.0  1.0  0.0
2  0.0  0.0  1.0  0.0
3  0.0  0.0  1.0  0.0
4  0.0  0.0  1.0  0.0


StandardScaler используется для стандартизации данных путем удаления среднего значения и масштабирования до единичной дисперсии.

In [14]:
scaler = StandardScaler()
scaled_features = scaler.fit_transform(df[['salary', 'work_year']])
df[['salary_scaled', 'work_year_scaled']] = scaled_features
print("\nДанные после StandardScaler:")
print(df.head())


Данные после StandardScaler:
   work_year experience_level employment_type                  job_title  \
0       2024               SE              FT                AI Engineer   
1       2024               SE              FT                AI Engineer   
2       2024               SE              FT              Data Engineer   
3       2024               SE              FT              Data Engineer   
4       2024               SE              FT  Machine Learning Engineer   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0  202730             USD         202730                 US             0   
1   92118             USD          92118                 US             0   
2  130500             USD         130500                 US             0   
3   96000             USD          96000                 US             0   
4  190000             USD         190000                 US             0   

  company_location company_size  employment_type_e

MinMaxScaler масштабирует данные в интервал от 0 до 1, сохраняя форму распределения данных.

In [17]:
scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(df[['salary', 'work_year']])
df[['salary_minmax', 'work_year_minmax']] = scaled_features
print("\nДанные после MinMaxScaler:")
print(df.head())


Данные после MinMaxScaler:
   work_year experience_level employment_type                  job_title  \
0       2024               SE              FT                AI Engineer   
1       2024               SE              FT                AI Engineer   
2       2024               SE              FT              Data Engineer   
3       2024               SE              FT              Data Engineer   
4       2024               SE              FT  Machine Learning Engineer   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0  202730             USD         202730                 US             0   
1   92118             USD          92118                 US             0   
2  130500             USD         130500                 US             0   
3   96000             USD          96000                 US             0   
4  190000             USD         190000                 US             0   

  company_location company_size  employment_type_enc

Normalizer используется для нормализации признаков путем приведения каждого вектора признаков к единичной норме.

In [18]:
scaler = Normalizer()
normalized_features = scaler.fit_transform(df[['salary', 'work_year']])
df[['salary_normalized', 'work_year_normalized']] = normalized_features
print("\nДанные после Normalizer:")
print(df.head())


Данные после Normalizer:
   work_year experience_level employment_type                  job_title  \
0       2024               SE              FT                AI Engineer   
1       2024               SE              FT                AI Engineer   
2       2024               SE              FT              Data Engineer   
3       2024               SE              FT              Data Engineer   
4       2024               SE              FT  Machine Learning Engineer   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0  202730             USD         202730                 US             0   
1   92118             USD          92118                 US             0   
2  130500             USD         130500                 US             0   
3   96000             USD          96000                 US             0   
4  190000             USD         190000                 US             0   

  company_location company_size  employment_type_encod

RobustScaler используется для масштабирования признаков, устойчиво к наличию выбросов в данных.

In [19]:
scaler = RobustScaler()
scaled_features = scaler.fit_transform(df[['salary']])
df['salary_robust_scaled'] = scaled_features
print("\nДанные после RobustScaler:")
print(df.head())


Данные после RobustScaler:
   work_year experience_level employment_type                  job_title  \
0       2024               SE              FT                AI Engineer   
1       2024               SE              FT                AI Engineer   
2       2024               SE              FT              Data Engineer   
3       2024               SE              FT              Data Engineer   
4       2024               SE              FT  Machine Learning Engineer   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0  202730             USD         202730                 US             0   
1   92118             USD          92118                 US             0   
2  130500             USD         130500                 US             0   
3   96000             USD          96000                 US             0   
4  190000             USD         190000                 US             0   

  company_location company_size  employment_type_enc

PowerTransformer применяется для преобразования данных так, чтобы они были более нормально распределены.

In [20]:
scaler = PowerTransformer(method='yeo-johnson')
transformed_features = scaler.fit_transform(df[['salary']])
df['salary_transformed'] = transformed_features
print("\nДанные после PowerTransformer:")
print(df.head())


Данные после PowerTransformer:
   work_year experience_level employment_type                  job_title  \
0       2024               SE              FT                AI Engineer   
1       2024               SE              FT                AI Engineer   
2       2024               SE              FT              Data Engineer   
3       2024               SE              FT              Data Engineer   
4       2024               SE              FT  Machine Learning Engineer   

   salary salary_currency  salary_in_usd employee_residence  remote_ratio  \
0  202730             USD         202730                 US             0   
1   92118             USD          92118                 US             0   
2  130500             USD         130500                 US             0   
3   96000             USD          96000                 US             0   
4  190000             USD         190000                 US             0   

  company_location  ... employment_type_encoded 

Сохранение датасета происходит так же как и раньше, при помощи "to_csv" (1-я практическая)

In [21]:
df.to_csv('dataset_salary_2024_encoded.csv', index=False)