In [1]:
import pandas as pd
import numpy as np
from datetime import timedelta

np.random.seed(42)
np.random.default_rng(42)
# генерация данных для каждого столбца
data = {
    'temperature_celsius': np.random.uniform(20, 35, size=100),  # температура в градусах Цельсия (float)
    'age_years': np.random.randint(18, 65, size=100),  # возраст в годах (int)
    'timestamp_event': [pd.Timestamp('20230101') + timedelta(days=i) for i in range(100)],  # время события (datetime)
    'product_category': np.random.choice(['electronics', 'clothing', 'food'], size=100),  # категория продукта (string)
    'is_purchased': np.random.choice([True, False], size=100),  # булевое значение приобретения (bool)
    'humidity_percentage': np.random.uniform(40, 80, size=100),  # влажность в процентах (float)
    'income_usd': np.random.randint(20000, 100000, size=100),  # доход в долларах США (int)
    'last_updated': [pd.Timestamp('20240101') + timedelta(days=i) for i in range(100)],  # последнее обновление (datetime)
    'product_name': ['Product_' + str(i) for i in range(100)],  # название продукта (string)
    'is_subscribed': np.random.choice([True, False], size=100)  # булевое значение подписки (bool)
}

# создание DataFrame
df = pd.DataFrame(data)

print(df.dtypes)

df_int = df.select_dtypes(include='int')
df_float = df.select_dtypes(include='float')
df_bool = df.select_dtypes(include='bool')
df_object = df.select_dtypes(include='object')
df_date = df.select_dtypes(include='datetime')

temperature_celsius           float64
age_years                       int64
timestamp_event        datetime64[ns]
product_category               object
is_purchased                     bool
humidity_percentage           float64
income_usd                      int64
last_updated           datetime64[ns]
product_name                   object
is_subscribed                    bool
dtype: object


In [3]:
from sklearn.preprocessing import StandardScaler
import numpy as np

X_train = np.array([[ 1., -1.,  2.],
[ 2.,  0.,  0.],
[ 0.,  1., -1.]])

transformer = StandardScaler().fit(X_train) # оцениваем параметры модели
transformer.mean_ # получаем средние значения для преобразования
transformer.scale_ # получаем масштабы для преобразования

X_scaled = transformer.transform(X_train) # применяем преобразование к данным
X_scaled # получаем преобразованные данные 

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [4]:
  from sklearn.preprocessing import OneHotEncoder
  import numpy as np
  
  data = np.array(['Универсал', 'Седан', 'Универсал', 'Хэтчбек']).reshape(-1, 1)
  encoder = OneHotEncoder()
  encoded_data = encoder.fit_transform(data).toarray()

In [5]:
    from sklearn.preprocessing import SplineTransformer
    import numpy as np
    
    X = np.random.rand(10, 1)
    transformer = SplineTransformer(n_knots=3, degree=2)
    X_transformed = transformer.fit_transform(X)

In [6]:
  from sklearn.preprocessing import QuantileTransformer
  import numpy as np
  
  X = np.random.rand(10, 1)
  transformer = QuantileTransformer()
  X_transformed = transformer.fit_transform(X)



In [7]:
  from sklearn.preprocessing import KBinsDiscretizer
  import numpy as np
  
  X = np.array([[2.3], [5.6], [7.8], [1.2]])
  est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
  est.fit(X)
  transformed = est.transform(X)



In [8]:
import pandas as pd
import numpy as np
from datetime import timedelta
from sklearn.preprocessing import Binarizer, StandardScaler, LabelEncoder

np.random.seed(42)
np.random.default_rng(42)
# генерация данных для каждого столбца
data = {
    'temperature_celsius': np.random.uniform(20, 35, size=100),  # температура в градусах Цельсия (float)
    'age_years': np.random.randint(18, 65, size=100),  # возраст в годах (int)
    'timestamp_event': [pd.Timestamp('20230101') + timedelta(days=i) for i in range(100)],  # время события (datetime)
    'product_category': np.random.choice(['electronics', 'clothing', 'food'], size=100),  # категория продукта (string)
    'is_purchased': np.random.choice([True, False], size=100),  # булевое значение приобретения (bool)
    'humidity_percentage': np.random.uniform(40, 80, size=100),  # влажность в процентах (float)
    'income_usd': np.random.randint(20000, 100000, size=100),  # доход в долларах США (int)
    'last_updated': [pd.Timestamp('20240101') + timedelta(days=i) for i in range(100)],  # последнее обновление (datetime)
    'product_name': ['Product_' + str(i) for i in range(100)],  # название продукта (string)
    'is_subscribed': np.random.choice([True, False], size=100)  # булевое значение подписки (bool)
}

# создание DataFrame
df = pd.DataFrame(data)

thr = df['income_usd'].mean()
binzr = Binarizer(threshold=thr)
df['income_usd_binarized'] = binzr.fit_transform(df[['income_usd']]).astype(int)

scaler = StandardScaler()
df['age_years_standarded'] = scaler.fit_transform(df[['age_years']])

le = LabelEncoder()
df['is_subscribed_encoded'] = le.fit_transform(df['is_subscribed'])

In [9]:
from sklearn.compose import ColumnTransformer

all_transformers = ColumnTransformer(
    transformers=[
        ("Название энкодера #1", QuantileTransformer(), columns), # преобразование 1 и соответствующие колонки
        ("Название энкодера #2", SplineTransformer(), columns), # Преобразование 2 и соответствующие колонки
    ]
) 

NameError: name 'columns' is not defined

In [10]:
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# генерация случайных данных
X, y = make_classification(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# определение числовых признаков для ColumnTransformer
numeric_features = [0, 1, 2, 3]  # пример числовых признаков (нумерация с 0)

# создание ColumnTransformer с преобразованиями для числовых признаков
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numeric_features)  # преобразования для числовых признаков
    ])

# создание Pipeline с преобразованиями и моделью
pipe = Pipeline(steps=[('preprocessor', preprocessor),
                       ('classifier', SVC())])

# обучение модели
pipe.fit(X_train, y_train)

# оценка качества модели на тестовых данных
accuracy = pipe.score(X_test, y_test)
print(f"Accuracy: {accuracy}")

Accuracy: 0.88


In [11]:
import pandas as pd
import numpy as np
from datetime import timedelta
from sklearn.preprocessing import Binarizer, StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

np.random.seed(42)
np.random.default_rng(42)
# генерация данных для каждого столбца
data = {
    'temperature_celsius': np.random.uniform(20, 35, size=100),  # температура в градусах Цельсия (float)
    'age_years': np.random.randint(18, 65, size=100),  # возраст в годах (int)
    'timestamp_event': [pd.Timestamp('20230101') + timedelta(days=i) for i in range(100)],  # время события (datetime)
    'product_category': np.random.choice(['electronics', 'clothing', 'food'], size=100),  # категория продукта (string)
    'is_purchased': np.random.choice([True, False], size=100),  # булевое значение приобретения (bool)
    'humidity_percentage': np.random.uniform(40, 80, size=100),  # влажность в процентах (float)
    'income_usd': np.random.randint(20000, 100000, size=100),  # доход в долларах США (int)
    'last_updated': [pd.Timestamp('20240101') + timedelta(days=i) for i in range(100)],  # последнее обновление (datetime)
    'product_name': ['Product_' + str(i) for i in range(100)],  # название продукта (string)
    'is_subscribed': np.random.choice([True, False], size=100)  # булевое значение подписки (bool)
}

df = pd.DataFrame(data)
thr = df['income_usd'].mean()
# создание ColumnTransformer с преобразованиями для различных колонок
preprocessor = ColumnTransformer(
    transformers=[
        ('bin_income', Binarizer(threshold=thr), ['income_usd']),      # Binarizer
        ('scale_age', StandardScaler(), ['age_years']),                # StandardScaler
        ('ohe_sub', OneHotEncoder(sparse=False), ['is_subscribed'])    # OneHotEncoder
    ],
    remainder='drop'   # или 'passthrough', если нужно сохранить остальные колонки
)

# создание Pipeline с преобразованиями
pipe = Pipeline(steps=[
    ('prep', preprocessor)
])

transformed_data = pipe.fit_transform(df)



In [12]:
# 1. Извлечение признаков из даты
df['Year'] = df['Random_Dates'].dt.year
df['Month'] = df['Random_Dates'].dt.month
df['Day'] = df['Random_Dates'].dt.day
df['Weekday'] = df['Random_Dates'].dt.weekday
df['Hour'] = df['Random_Dates'].dt.hour

# 2. Расчёт временных интервалов (разница между двумя датами)
df['Date_2'] = pd.to_datetime(np.random.randint(start_date.value, end_date.value, n_samples))
df['Date_Difference'] = (df['Date_2'] - df['Random_Dates']).dt.days

# 3. Скользящие окна и накопительные статистики
rolling_mean = df['Date_Difference'].rolling(window=7).mean()
cumulative_sum = df['Date_Difference'].cumsum()

# 4. Периодичность и тренды
df['Trend'] = df['Random_Dates'].dt.month * np.random.rand(n_samples)  # пример генерации тренда
df['Season'] = df['Random_Dates'].dt.month % 4  # деление на 4 для сезонов (в качестве примера)

# 5. Преобразование времени в категориальные признаки с помощью OneHotEncoder
one_hot_encoder = OneHotEncoder(sparse=False, drop='first')
month_encoded = one_hot_encoder.fit_transform(df[['Month']])
columns = [f"Month_{month}" for month in one_hot_encoder.categories_[0][1:]]
month_encoded_df = pd.DataFrame(month_encoded, columns=columns) 

KeyError: 'Random_Dates'

In [13]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# генерация случайных данных о температурах за год
np.random.seed(42)
np.random.default_rng(42)
start_date = pd.Timestamp('2023-01-01')
end_date = pd.Timestamp('2023-12-31')
dates = pd.date_range(start=start_date, end=end_date)
temperatures = np.random.uniform(low=-10.0, high=30.0, size=len(dates))
temperature_data = pd.DataFrame({'Date': dates, 'Temperature_Celsius': temperatures})

# 1. Извлечение признаков из даты
temperature_data['Month'] = temperature_data['Date'].dt.month
temperature_data['Weekday'] = temperature_data['Date'].dt.weekday      
temperature_data['Hour'] = temperature_data['Date'].dt.hour 

# 2. Скользящие окна и накопительные статистики
temperature_data = temperature_data.sort_values('Date')
temperature_data['RollingMean_7'] = (
    temperature_data['Temperature_Celsius'].rolling(window=7, min_periods=1).mean()
)
temperature_data['Cumulative_Sum'] = temperature_data['Temperature_Celsius'].cumsum()

# 3. Периодичность и тренды (по месяцам)
temperature_data['Monthly_Sum'] = (
    temperature_data.groupby(pd.Grouper(key='Date', freq='M'))['Temperature_Celsius']
    .transform('sum')
)
temperature_data['Monthly_Mean'] = (
    temperature_data.groupby(pd.Grouper(key='Date', freq='M'))['Temperature_Celsius']
    .transform('mean')
)

# вывод обработанных данных
print(temperature_data.head())


        Date  Temperature_Celsius  Month  Weekday  Hour  RollingMean_7   
0 2023-01-01             4.981605      1        6     0       4.981605  \
1 2023-01-02            28.028572      1        0     0      16.505089   
2 2023-01-03            19.279758      1        1     0      17.429978   
3 2023-01-04            13.946339      1        2     0      16.559069   
4 2023-01-05            -3.759254      1        3     0      12.495404   

   Cumulative_Sum  Monthly_Sum  Monthly_Mean  
0        4.981605   240.618521      7.761888  
1       33.010177   240.618521      7.761888  
2       52.289935   240.618521      7.761888  
3       66.236274   240.618521      7.761888  
4       62.477020   240.618521      7.761888  


In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

# генерация случайных данных о температурах за год
np.random.seed(42)
np.random.default_rng(42)
start_date = pd.Timestamp('2023-01-01')
end_date = pd.Timestamp('2023-12-31')
dates = pd.date_range(start=start_date, end=end_date)
temperatures = np.random.uniform(low=-10.0, high=30.0, size=len(dates))
temperature_data = pd.DataFrame({'Date': dates, 'Temperature_Celsius': temperatures})

# ваш код для предобработки временных признаков #
# 1. Извлечение признаков из даты
temperature_data['Month'] = temperature_data['Date'].dt.month
temperature_data['Weekday'] = temperature_data['Date'].dt.weekday      
temperature_data['Hour'] = temperature_data['Date'].dt.hour 

# 2. Скользящие окна и накопительные статистики
temperature_data['Cumulative_Sum'] = temperature_data['Temperature_Celsius'].cumsum()

# 3. Периодичность и тренды
temperature_data['Monthly_Sum'] = temperature_data.groupby('Month')['Temperature_Celsius'].transform('sum') 
temperature_data['Monthly_Mean'] = temperature_data.groupby('Month')['Temperature_Celsius'].transform('mean')

# вывод обработанных данных
print(temperature_data.head())