In [27]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_classification, make_regression

def create_dataset(task_type, n_numeric, n_categorical, n_samples=100, df=None, n_classes=2):
    """
    Создает датасет на основе sklearn.datasets с заданным количеством числовых и категориальных признаков.

    Parameters:
    - task_type: str, тип задачи ('classification' или 'regression')
    - n_numeric: int, количество числовых признаков
    - n_categorical: int, количество категориальных признаков
    - n_samples: int, количество строк в датасете
    - df: pd.DataFrame, DataFrame для хранения результата (по умолчанию создается новый DataFrame)

    Returns:
    - pd.DataFrame с сгенерированными данными
    """
    if task_type not in ['binary_classification', 'regression', 'multiclass_classification', 'classification']:
        raise ValueError("task_type должен быть 'classification' или 'regression'")

    if df is None:
        df = pd.DataFrame()

    # Генерация числовых признаков
    if 'classification' in task_type:
        X_numeric, y = make_classification(n_samples=n_samples,
            n_features=n_numeric,
            n_redundant=0,
            n_repeated=0,
            n_informative=n_numeric,
            n_clusters_per_class=1,
            n_classes=n_classes)
    elif task_type == 'regression':
        X_numeric, y = make_regression(n_samples=n_samples,
            n_features=n_numeric,
            n_informative=n_numeric,
            noise=0.1)

    # Добавление числовых признаков в DataFrame
    for i in range(n_numeric):
        df[f'feature_{i}'] = X_numeric[:, i]

    # Генерация категориальных признаков
    if n_categorical > 0:

        # Добавление категориальных признаков в DataFrame
        for j in range(n_categorical):
            n_categories = np.random.randint(2,10)
            p = np.random.rand(n_categories)
            X_categorical = np.random.choice(np.arange(n_categories), p=p / p.sum(), size=n_samples)
            df[f'category_{j}'] = X_categorical.astype(str)

    # Добавление целевой переменной в DataFrame
    df['target'] = y

    return df

In [68]:
# Пример использования
df = create_dataset(task_type='classification', n_numeric=5, n_categorical=3, n_samples=10, n_classes=3)
print(df.drop(columns='target').columns)
display(df.drop(columns='target').values.tolist())
display(df['target'].values.astype(str).tolist())

Index(['feature_0', 'feature_1', 'feature_2', 'feature_3', 'feature_4',
       'category_0', 'category_1', 'category_2'],
      dtype='object')


[[0.7381623940974018,
  0.09970188999794594,
  -0.21649352098140917,
  2.2998973375768266,
  1.8345486914809714,
  '0',
  '3',
  '3'],
 [1.230927437248078,
  1.3291172684869241,
  0.9600007239547079,
  -0.4435756351525738,
  -1.6653525697988152,
  '4',
  '2',
  '3'],
 [2.4187072632872884,
  3.069529861022269,
  -1.5108510748454314,
  -1.3507447706124038,
  -2.284109229395277,
  '3',
  '3',
  '2'],
 [0.09274773521961643,
  -0.5879252864276574,
  0.8923571809773323,
  -3.6098087168037876,
  -0.7543554125179746,
  '0',
  '4',
  '5'],
 [-2.038560695636137,
  -2.4166918200123404,
  0.3133465059875393,
  -2.720950492531423,
  2.343119887691868,
  '0',
  '6',
  '5'],
 [0.2598406619030691,
  0.8564829155451432,
  1.4295387006035314,
  -0.3395210289413332,
  -1.1644196934577051,
  '0',
  '7',
  '5'],
 [-2.7768816485478265,
  -2.5793170914409584,
  -2.141857491902217,
  2.7749802487579114,
  -1.4913165292279267,
  '4',
  '8',
  '0'],
 [1.8578713720518354,
  0.9964916615969243,
  0.37912191301965

['0', '2', '0', '2', '1', '2', '1', '0', '1', '0']