In [14]:
import pandas as pd
import numpy as np
from datetime import timedelta

np.random.seed(42)
np.random.default_rng(42)
# генерация данных для каждого столбца
data = {
    'temperature_celsius': np.random.uniform(20, 35, size=100),  # температура в градусах Цельсия (float)
    'age_years': np.random.randint(18, 65, size=100),  # возраст в годах (int)
    'timestamp_event': [pd.Timestamp('20230101') + timedelta(days=i) for i in range(100)],  # время события (datetime)
    'product_category': np.random.choice(['electronics', 'clothing', 'food'], size=100),  # категория продукта (string)
    'is_purchased': np.random.choice([True, False], size=100),  # булевое значение приобретения (bool)
    'humidity_percentage': np.random.uniform(40, 80, size=100),  # влажность в процентах (float)
    'income_usd': np.random.randint(20000, 100000, size=100),  # доход в долларах США (int)
    'last_updated': [pd.Timestamp('20240101') + timedelta(days=i) for i in range(100)],  # последнее обновление (datetime)
    'product_name': ['Product_' + str(i) for i in range(100)],  # название продукта (string)
    'is_subscribed': np.random.choice([True, False], size=100)  # булевое значение подписки (bool)
}

# создание DataFrame
df = pd.DataFrame(data)

df_int = df.select_dtypes('int64')
df_float = df.select_dtypes('float')
df_bool = df.select_dtypes('bool')
df_object = df.select_dtypes('object')
df_date = df.select_dtypes('datetime64')

Модуль preprocessing в библиотеке scikit-learn
- Для кодирования категориальных переменных в числовые — это позволит моделям работать с данными, которые содержат текстовую или категориальную информацию;
- Для нормализации данных — так улучшится их интерпретируемость для модели;
- Для заполнения пропущенных значений;
- Для масштабирования числовых признаков, чтобы модель справилась с данными в различных диапазонах

Объект предобработки данных обладает набором методов:
- fit — оценка параметров модели на основе данных X,
- transform — преобразование данных X,
- fit_transform — поочерёдное применение методов выше к данным X.
- get_feature_names_out — получение имён выходных признаков после преобразования,
- get_params — получение параметров модели. Метод, который возвращает параметры объекта, установленные во время инициализации,
- inverse_transform — обратное преобразование данных X. Метод, который использует ранее рассчитанные параметры, чтобы вернуть данные к исходному масштабу,
- set_params — установка параметров модели. Этот метод позволяет задать параметры модели после её инициализации.

In [15]:
from sklearn.preprocessing import StandardScaler
import numpy as np

X_train = np.array([[ 1., -1.,  2.],
[ 2.,  0.,  0.],
[ 0.,  1., -1.]])

transformer = StandardScaler().fit(X_train) # оцениваем параметры модели
transformer.mean_ # получаем средние значения для преобразования
transformer.scale_ # получаем масштабы для преобразования

X_scaled = transformer.transform(X_train) # применяем преобразование к данным
X_scaled # получаем преобразованные данные

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [18]:
from sklearn.preprocessing import OneHotEncoder
  
data = np.array(['Универсал', 'Седан', 'Универсал', 'Хэтчбек']).reshape(-1, 1)
encoder = OneHotEncoder()
encoded_data = encoder.fit_transform(data).toarray()
encoded_data

array([[0., 1., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [22]:
from sklearn.preprocessing import SplineTransformer
        
X = np.random.rand(10, 1)
transformer = SplineTransformer(n_knots=3, degree=2)
X_transformed = transformer.fit_transform(X)
X_transformed

array([[0.        , 0.12721624, 0.74998053, 0.12280323],
       [0.21164077, 0.72731937, 0.06103986, 0.        ],
       [0.        , 0.0466577 , 0.7121603 , 0.241182  ],
       [0.        , 0.10956902, 0.74898378, 0.1414472 ],
       [0.03312172, 0.69113457, 0.27574371, 0.        ],
       [0.5       , 0.5       , 0.        , 0.        ],
       [0.        , 0.04677601, 0.71231073, 0.24091326],
       [0.        , 0.29269306, 0.67971918, 0.02758776],
       [0.        , 0.        , 0.5       , 0.5       ],
       [0.        , 0.29302812, 0.67948686, 0.02748502]])

In [23]:
from sklearn.preprocessing import QuantileTransformer
  
X = np.random.rand(10, 1)
transformer = QuantileTransformer()
X_transformed = transformer.fit_transform(X)
X_transformed



array([[0.88888889],
       [0.33333333],
       [0.44444444],
       [1.        ],
       [0.22222222],
       [0.11111111],
       [0.        ],
       [0.77777778],
       [0.55555556],
       [0.66666667]])

In [26]:
from sklearn.preprocessing import KBinsDiscretizer
  
X = np.array([[2.3], [4.6], [7.8], [1.2]])
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit(X)
transformed = est.transform(X)
transformed



array([[0.],
       [1.],
       [2.],
       [0.]])

In [27]:
from sklearn.preprocessing import Binarizer, StandardScaler, LabelEncoder

np.random.seed(42)
np.random.default_rng(42)
# генерация данных для каждого столбца
data = {
    'temperature_celsius': np.random.uniform(20, 35, size=100),  # температура в градусах Цельсия (float)
    'age_years': np.random.randint(18, 65, size=100),  # возраст в годах (int)
    'timestamp_event': [pd.Timestamp('20230101') + timedelta(days=i) for i in range(100)],  # время события (datetime)
    'product_category': np.random.choice(['electronics', 'clothing', 'food'], size=100),  # категория продукта (string)
    'is_purchased': np.random.choice([True, False], size=100),  # булевое значение приобретения (bool)
    'humidity_percentage': np.random.uniform(40, 80, size=100),  # влажность в процентах (float)
    'income_usd': np.random.randint(20000, 100000, size=100),  # доход в долларах США (int)
    'last_updated': [pd.Timestamp('20240101') + timedelta(days=i) for i in range(100)],  # последнее обновление (datetime)
    'product_name': ['Product_' + str(i) for i in range(100)],  # название продукта (string)
    'is_subscribed': np.random.choice([True, False], size=100)  # булевое значение подписки (bool)
}

# создание DataFrame
df = pd.DataFrame(data)

In [None]:
transformer = Binarizer(threshold=df['income_usd'].mean())
df['income_usd_binarized'] = transformer.fit_transform(df['income_usd'].to_frame())

transformer = StandardScaler()
df['age_years_standarded'] = transformer.fit_transform(df['age_years'].to_frame())

transformer = LabelEncoder()
df['is_subscribed_encoded'] = transformer.fit_transform(df['is_subscribed'].to_frame())


  y = column_or_1d(y, warn=True)


Посмотрите, как использовать ColumnTransformer, чтобы преобразовать данные перед моделированием внутри одного Pipeline для метода опорных векторов (SVC).

In [96]:
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# генерация случайных данных
X, y = make_classification(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# определение числовых признаков для ColumnTransformer
numeric_features = [0, 1, 2, 3, 4]  # пример числовых признаков (нумерация с 0)

# создание ColumnTransformer с преобразованиями для числовых признаков
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features)  # преобразования для числовых признаков
    ])

# создание Pipeline с преобразованиями и моделью
pipe = Pipeline(steps=[('preprocessor', preprocessor),
                       ('classifier', SVC())])

# обучение модели
pipe.fit(X_train, y_train)

# оценка качества модели на тестовых данных
accuracy = pipe.score(X_test, y_test)
print(f"Accuracy: {accuracy}")

Accuracy: 0.88


In [132]:
import pandas as pd
import numpy as np
from datetime import timedelta
from sklearn.preprocessing import Binarizer, StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

np.random.seed(42)
np.random.default_rng(42)
# генерация данных для каждого столбца
data = {
    'temperature_celsius': np.random.uniform(20, 35, size=100),  # температура в градусах Цельсия (float)
    'age_years': np.random.randint(18, 65, size=100),  # возраст в годах (int)
    'timestamp_event': [pd.Timestamp('20230101') + timedelta(days=i) for i in range(100)],  # время события (datetime)
    'product_category': np.random.choice(['electronics', 'clothing', 'food'], size=100),  # категория продукта (string)
    'is_purchased': np.random.choice([True, False], size=100),  # булевое значение приобретения (bool)
    'humidity_percentage': np.random.uniform(40, 80, size=100),  # влажность в процентах (float)
    'income_usd': np.random.randint(20000, 100000, size=100),  # доход в долларах США (int)
    'last_updated': [pd.Timestamp('20240101') + timedelta(days=i) for i in range(100)],  # последнее обновление (datetime)
    'product_name': ['Product_' + str(i) for i in range(100)],  # название продукта (string)
    'is_subscribed': np.random.choice([True, False], size=100)  # булевое значение подписки (bool)
}

df = pd.DataFrame(data)

col = [['income_usd'],['age_years'],['is_subscribed']]
threshold=df[col[0][0]].mean()

# создание ColumnTransformer с преобразованиями для различных колонок
preprocessor = ColumnTransformer(
    transformers=[
        ('binar', Binarizer(threshold=threshold), col[0]),  # преобразования для колонки income_usd
        ('sc', StandardScaler(), col[1]),
        ('onhot', OneHotEncoder(), col[2])
    ])

# создание Pipeline с преобразованиями
pipe = Pipeline(steps=[('preprocessor', preprocessor)])

transformed_data = pipe.fit_transform(df)

In [None]:
# 1. Извлечение признаков из даты
df['Year'] = df['Random_Dates'].dt.year
df['Month'] = df['Random_Dates'].dt.month
df['Day'] = df['Random_Dates'].dt.day
df['Weekday'] = df['Random_Dates'].dt.weekday
df['Hour'] = df['Random_Dates'].dt.hour

# 2. Расчёт временных интервалов (разница между двумя датами)
df['Date_2'] = pd.to_datetime(np.random.randint(start_date.value, end_date.value, n_samples))
df['Date_Difference'] = (df['Date_2'] - df['Random_Dates']).dt.days

# 3. Скользящие окна и накопительные статистики
rolling_mean = df['Date_Difference'].rolling(window=7).mean()
cumulative_sum = df['Date_Difference'].cumsum()

# 4. Периодичность и тренды
df['Trend'] = df['Random_Dates'].dt.month * np.random.rand(n_samples)  # пример генерации тренда
df['Season'] = df['Random_Dates'].dt.month % 4  # деление на 4 для сезонов (в качестве примера)

# 5. Преобразование времени в категориальные признаки с помощью OneHotEncoder
one_hot_encoder = OneHotEncoder(sparse=False, drop='first')
month_encoded = one_hot_encoder.fit_transform(df[['Month']])
columns = [f"Month_{month}" for month in one_hot_encoder.categories_[0][1:]]
month_encoded_df = pd.DataFrame(month_encoded, columns=columns)

In [107]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# генерация случайных данных о температурах за год
np.random.seed(42)
np.random.default_rng(42)
start_date = pd.Timestamp('2023-01-01')
end_date = pd.Timestamp('2023-12-31')
dates = pd.date_range(start=start_date, end=end_date)
temperatures = np.random.uniform(low=-10.0, high=30.0, size=len(dates))
temperature_data = pd.DataFrame({'Date': dates, 'Temperature_Celsius': temperatures})

# 1. Извлечение признаков из даты
temperature_data['Month'] = temperature_data['Date'].dt.month
temperature_data['Weekday'] = temperature_data['Date'].dt.weekday
temperature_data['Hour'] = temperature_data['Date'].dt.hour

# 2. Скользящие окна и накопительные статистики
temperature_data['rolling_mean'] = temperature_data['Temperature_Celsius'].rolling(window=7).mean()
temperature_data['Cumulative_Sum'] = temperature_data['Temperature_Celsius'].cumsum()

# 3. Периодичность и тренды
tmp = temperature_data.groupby('Month').agg({'Temperature_Celsius': 'sum'}).reset_index()
tmp.columns = ['Month', 'Monthly_Sum']
temperature_data = temperature_data.merge(tmp, on='Month', how='left')

tmp = temperature_data.groupby('Month').agg({'Temperature_Celsius': 'mean'}).reset_index()
tmp.columns = ['Month', 'Monthly_Mean']
temperature_data = temperature_data.merge(tmp, on='Month', how='left')



In [108]:
temperature_data.head()

Unnamed: 0,Date,Temperature_Celsius,Month,Weekday,Hour,rolling_mean,Cumulative_Sum,Monthly_Sum,Monthly_Mean
0,2023-01-01,4.981605,1,6,0,,4.981605,240.618521,7.761888
1,2023-01-02,28.028572,1,0,0,,33.010177,240.618521,7.761888
2,2023-01-03,19.279758,1,1,0,,52.289935,240.618521,7.761888
3,2023-01-04,13.946339,1,2,0,,66.236274,240.618521,7.761888
4,2023-01-05,-3.759254,1,3,0,,62.47702,240.618521,7.761888


In [84]:
temperature_data

Unnamed: 0,Date,Temperature_Celsius,Month,Weekday,Hour,rolling_mean,Cumulative_Sum,Monthly_Sum
0,2023-01-01,4.981605,1,6,0,,4.981605,
1,2023-01-02,28.028572,1,0,0,,33.010177,240.618521
2,2023-01-03,19.279758,1,1,0,,52.289935,278.370113
3,2023-01-04,13.946339,1,2,0,,66.236274,281.604402
4,2023-01-05,-3.759254,1,3,0,,62.477020,289.535362
...,...,...,...,...,...,...,...,...
360,2023-12-27,5.526797,12,2,0,8.452282,3463.041704,
361,2023-12-28,15.731529,12,3,0,11.724964,3478.773232,
362,2023-12-29,8.330116,12,4,0,10.672585,3487.103348,
363,2023-12-30,11.824672,12,5,0,13.638902,3498.928020,


In [92]:
tmp

Unnamed: 0,Month,Monthly_Sum
0,1,240.618521
1,2,278.370113
2,3,281.604402
3,4,289.535362
4,5,273.525046
5,6,239.217888
6,7,332.116637
7,8,358.147671
8,9,412.778798
9,10,266.984807


In [97]:
tmp = temperature_data.groupby('Month').agg({'Temperature_Celsius': 'sum'}).reset_index()
tmp.columns = ['Month', 'Monthly_Sum']
dd = temperature_data.merge(tmp, on='Month', how='left')
#temperature_data.groupby('Month')['Temperature_Celsius'].expanding().sum()#.reset_index(level=0, drop=True)
#temperature_data['Monthly_Sum'] = temperature_data.groupby('Month').agg({'Temperature_Celsius': 'sum'}).reset_index()
#temperature_data.groupby('Month').transform(lambda x: temperature_data['Month'].mean())

In [98]:
dd

Unnamed: 0,Date,Temperature_Celsius,Month,Weekday,Hour,rolling_mean,Cumulative_Sum,Monthly_Sum
0,2023-01-01,4.981605,1,6,0,,4.981605,240.618521
1,2023-01-02,28.028572,1,0,0,,33.010177,240.618521
2,2023-01-03,19.279758,1,1,0,,52.289935,240.618521
3,2023-01-04,13.946339,1,2,0,,66.236274,240.618521
4,2023-01-05,-3.759254,1,3,0,,62.477020,240.618521
...,...,...,...,...,...,...,...,...
360,2023-12-27,5.526797,12,2,0,8.452282,3463.041704,269.370008
361,2023-12-28,15.731529,12,3,0,11.724964,3478.773232,269.370008
362,2023-12-29,8.330116,12,4,0,10.672585,3487.103348,269.370008
363,2023-12-30,11.824672,12,5,0,13.638902,3498.928020,269.370008
