In [7]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Sample dataset
data = {
    'age': [25, 32, 47, np.nan, 52],
    'salary': [50000, 60000, np.nan, 45000, 70000],
    'city': ['New York', 'San Francisco', 'Los Angeles', 'New York', np.nan],
    'purchased': [1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)

# Features and target
X = df.drop('purchased', axis=1)
y = df['purchased']

# Разделение на обучающие и тестовые данные
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Определите числовые и категориальные столбцы
numerical_cols = ['age', 'salary']
categorical_cols = ['city']

# Создание шагов предварительной обработки
numerical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Объединить преобразования как для числовых, так и для категориальных данных
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

# Создайте окончательный конвейер, включающий предварительную обработку и моделирование
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier())
])

# Подогнать конвейер под обучающие данные
pipeline.fit(X_train, y_train)

# Преобразуйте тестовые данные и сделайте прогнозы
y_pred = pipeline.predict(X_test)

# Оценить модель
accuracy = accuracy_score(y_test, y_pred)
print(f"Test Accuracy: {accuracy:.2f}")


Test Accuracy: 0.00
