In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.metrics import accuracy_score
import numpy as np

# Шаг 1: Загрузка данных
data = pd.read_csv('data/salary.csv')

# Шаг 2: Создание целевой переменной
# Определим порог зарплаты для бинарной классификации
threshold = 100000
data['HighIncome'] = (data['Salary'] > threshold).astype(int)

# Шаг 3: Преобразование категориальных данных и нормализация числовых
X = data[['Age', 'Gender', 'Education Level', 'Job Title', 'Years of Experience']]
y = data['HighIncome']

# Категориальные и числовые признаки
categorical_features = ['Gender', 'Education Level', 'Job Title']
numeric_features = ['Age', 'Years of Experience']

# Преобразование с помощью Pipeline
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features),
        ('cat', OneHotEncoder(), categorical_features)
    ])

X = preprocessor.fit_transform(X)

# Шаг 4: Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Сохранение обучающей и тестовой выборок в CSV
train_data = pd.DataFrame(X_train)
train_data['HighIncome'] = y_train.values
train_data.to_csv('train_salary.csv', index=False)

test_data = pd.DataFrame(X_test)
test_data['HighIncome'] = y_test.values
test_data.to_csv('test_salary.csv', index=False)

# Шаг 5: Метрика качества
# Для примера рассчитаем accuracy
accuracy = accuracy_score(y_test, np.random.choice([0, 1], size=len(y_test)))  # заглушка
print("Accuracy:", accuracy)

Accuracy: 0.4666666666666667
