**Предобработка**

https://scikit-learn.ru/6-3-preprocessing-data/?ysclid=lx7gj1t68s153857328

Масштабирование данных
 - многие элементы, используемые в целевой функции алгоритма обучения (такие как ядро ​​RBF машин опорных векторов или регуляризаторы l1 и l2 линейных моделей), предполагают, что все функции сосредоточены вокруг нуля и имеют дисперсию в том же порядке. Если характеристика имеет дисперсию, которая на порядки больше, чем у других, она может доминировать над целевой функцией и сделать оценщик неспособным правильно учиться на других функциях, как ожидалось.

Модуль preprocessing предоставляет StandardScaler вспомогательный класс, который является быстрым и простым способом , чтобы выполнить следующую операцию на массив-типа набора данных:

**StandardScaler** из библиотеки sklearn.preprocessing используется для стандартизации признаков (фичей) в наборах данных. Стандартизация - это процесс, при котором признаки приводятся к такому масштабу, что они имеют среднее значение 0 и стандартное отклонение 1. Это может быть полезно для алгоритмов машинного обучения, которые чувствительны к масштабированию данных, таких как логистическая регрессия, SVM и KNN.
StandardScaler преобразует каждый признак путем вычитания среднего значения и деления на стандартное отклонение: X′ = (X−μ) / σ

где:
* X - оригинальное значение признака.
* μ - среднее значение признака.
* σ - стандартное отклонение признака.



In [None]:
from sklearn.preprocessing import StandardScaler
import numpy as np
X_train = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
# подбор параметров
scaler = StandardScaler().fit(X_train)
# масштабирование данных
X_scaled = scaler.transform(X_train)
# или
# X_scaled = scaler.fit_transform(X)
print(X_train,'\n', X_scaled)

[[1 2]
 [3 4]
 [5 6]
 [7 8]] 
 [[-1.34164079 -1.34164079]
 [-0.4472136  -0.4472136 ]
 [ 0.4472136   0.4472136 ]
 [ 1.34164079  1.34164079]]


In [None]:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

X, y = make_classification(random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
pipe = make_pipeline(StandardScaler(), LogisticRegression())
pipe.fit(X_train, y_train)  # apply scaling on training data

pipe.score(X_test, y_test)  # apply scaling on testing data, without leaking training data.


0.96

**Класс Normalizer**

Normalizer используется для нормализации данных. Нормализация отличается от стандартизации тем, что она изменяет масштаб признаков так, чтобы каждое наблюдение (строка) имело единичную длину. Это часто используется для векторов признаков, когда важно направление, но не масштаб признака.

Методы нормализации
Основные методы нормализации включают:

Нормализация по L2-норме: Приводит каждое наблюдение к длине(норме вектора) 1, сохраняя направление.
Это значение по умолчанию в Normalizer.

Нормализация по L1-норме: Приводит сумму абсолютных значений признаков каждого наблюдения к 1.

Нормализация по максимальному значению: Приводит максимальное значение каждого наблюдения к 1.

In [None]:
from sklearn.preprocessing import Normalizer
import numpy as np
X = np.array([[4, 1, 2, 2],
              [1, 3, 9, 3],
              [5, 7, 5, 1]])

normalizer = Normalizer(norm='l2')

X_normalized = normalizer.fit_transform(X)

print("Нормализованные данные:")
print(X_normalized)


Нормализованные данные:
[[0.8 0.2 0.4 0.4]
 [0.1 0.3 0.9 0.3]
 [0.5 0.7 0.5 0.1]]


**Кодирование категориальных признаков**

Часто характеристики задаются не как непрерывные значения, а как категориальные. Например, человек может иметь функции [«male», «female»][«from Europe», «from US», «from Asia»], [«uses Firefox», «uses Chrome», «uses Safari», «uses Internet Explorer»]. Такие функции могут быть эффективно закодированы как целые числа, например [«male», «from US», «uses Internet Explorer»], может быть выражена как [0, 1, 3] в то время как [«female», «from Asia», «uses Chrome»] было бы [1, 2, 1].

Чтобы преобразовать категориальные признаки в такие целочисленные коды, мы можем использовать расширение OrdinalEncoder. Этот оценщик преобразует каждую категориальную характеристику в одну новую характеристику целых чисел (от 0 до n_categories — 1):

OrdinalEncoder из модуля sklearn.preprocessing используется для преобразования категориальных признаков в числовые значения. В отличие от LabelEncoder, который применяется к одному столбцу меток, OrdinalEncoder работает с несколькими столбцами категориальных признаков одновременно.

In [None]:
from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
enc.transform([['female', 'from US', 'uses Safari']])

array([[0., 1., 1.]])

Такое целочисленное представление, однако, не может использоваться напрямую со всеми оценщиками scikit-learn, поскольку они ожидают непрерывного ввода и интерпретируют категории как упорядоченные, что часто нежелательно (т. Е. Набор браузеров был упорядочен произвольно).

Еще одна возможность преобразовать категориальные функции в функции, которые можно использовать с оценками scikit-learn, — это использовать кодировку «один из K», также известную как одноразовое или фиктивное кодирование. Этот тип кодирования может быть получен с помощью OneHotEncoder, который преобразует каждый категориальный признак с n_categories возможными значениями в n_categories двоичные признаки, один из которых равен 1, а все остальные 0.

Также можно кодировать каждый столбец в столбцы n_categories — 1 вместо столбцов n_categories с помощью параметра drop. Этот параметр позволяет пользователю указать категорию для каждой удаляемой функции. Это полезно, чтобы избежать коллинеарности входной матрицы в некоторых классификаторах. Такая функциональность полезна, например, при использовании нерегуляризованной регрессии (LinearRegression), поскольку коллинеарность приведет к тому, что ковариационная матрица будет необратимой.
Если функция содержит оба np.nan и None, они будут считаться отдельными категориями

In [None]:
from sklearn.preprocessing import OneHotEncoder
# Определяем категориальные столбцы
categorical_columns = df_train.select_dtypes(include=['object']).columns

# Инициализируем OneHotEncoder с drop='first'
encoder = OneHotEncoder(drop='first', sparse=False)

# Применяем encoder к тренировочным и тестовым данным
encoded_train = encoder.fit_transform(df_train[categorical_columns])
encoded_test = encoder.transform(df_test[categorical_columns])

# Преобразуем закодированные данные в DataFrame
encoded_train_df = pd.DataFrame(encoded_train, columns=encoder.get_feature_names_out(categorical_columns))
encoded_test_df = pd.DataFrame(encoded_test, columns=encoder.get_feature_names_out(categorical_columns))

# Объединяем закодированные данные с остальными столбцами
df_train_encoded = pd.concat([df_train.drop(columns=categorical_columns), encoded_train_df], axis=1)
df_test_encoded = pd.concat([df_test.drop(columns=categorical_columns), encoded_test_df], axis=1)

# Считаем количество новых столбцов
num_new_columns = encoded_train_df.shape[1]

print("Закодированные тренировочные данные:")
print(df_train_encoded)
print("\nЗакодированные тестовые данные:")
print(df_test_encoded)
print(f"\nКоличество числовых столбцов после кодирования: {num_new_columns}")

Удаление дубликатов

In [None]:
if (df.duplicated().sum() != 0):
  print("Найдено ", df.duplicated().sum(), " дубликатов")
  df.drop_duplicates(inplace=True)
else:
  print("There are no duplicates in this data")

Проверка столбца на категориальность

In [None]:
def isCat(col):
  return len(col.unique()) < 20 or col.dtypes == 'object'

Создание столбца на основе прочих

In [None]:
def check_condition(row):
  return int((row['condition'] and row['condition'] and row['condition']))
df_train['new_col'] = df_train.apply(check_condition, axis=1)

Создание матрицы корреляций

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
cols = df_train.select_dtypes(include=['object']).columns

corr_matrix = df_train[cols].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt=".2f", annot_kws={"size": 10}, vmin=-1, vmax=1)
plt.title('Correlation Heatmap')
plt.show()

Корелляция Пиросна с числовым столбцом

In [None]:
df_train.drop(['touch_screen', 'price_range'], axis=1)).corrwith(df_train['price_range']

Замена значения в столбце другим значением

In [None]:
df_train['touch_screen'].replace('-', 'Yes', inplace=True)

Подсчет количества столбцов с пустыми значениями

In [None]:
count = 0
for i in range(df_Train.shape[1]):
  if (df_Train[df_Train.columns[i]].isna().sum() > 0):
    count += 1
print("Количество пустых столбцов = ", count)

Кросс-валидация решающего дерева

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(criterion="entropy", max_depth=5)
cross_val_score(clf, X, y, cv=3, scoring='roc_auc').mean()

Кросс-валидация логистической регрессии

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
model = LogisticRegression(random_state =42)
cross_val_score(model, X_train, y_train, cv=3, scoring='f1_weighted').mean()

Подбор гиперпараметров по сетке(глубина для дерева)

In [None]:
from sklearn.model_selection import GridSearchCV
depth_array = [i for i in range(2,20)]
param_grid = {'max_depth': depth_array}
grid_search = GridSearchCV(DecisionTreeClassifier(criterion="entropy", max_depth=5), param_grid, cv=3, scoring='roc_auc')
grid_search.fit(X,y)
best_params = grid_search.best_params_

Подбор гиперпараметров по сетке(С для логистической регрессии)

In [None]:
from sklearn.model_selection import GridSearchCV

parameters = {'C': [0.001, 0.01, 0.1, 1, 10, 100]}

gs = GridSearchCV(LogisticRegression(random_state=42), parameters, scoring='f1_weighted', cv=3)

gs.fit(X_train, y_train)

gs.best_params_

Создание выборки X_train, y_train

In [None]:
X_train = df_train_encoded.drop(columns=['target'])
y_train = df_train_encoded['target']

Обучение модели катбуст

In [None]:
from catboost import CatBoostClassifier
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split
X_train3, X_test3, y_train3, y_test3 = train_test_split(X_train2, y_train2, test_size=0.25, random_state=42)

model = CatBoostClassifier()
model.fit(X_train3, y_train3)
y_pred = model.predict(X_test3)
f1_score = f1_score(y_test3, y_pred, average='weighted')

print(f"f1_score: {f1_score:.4f}")

Загрузка результата в csv

In [None]:
y_pred = model.predict(df_test_encoded)
df_predictions = pd.DataFrame(y_pred, columns=['price_range'])

df_predictions.to_csv('result.csv', index=False)

Загрузка результата в txt

In [None]:
with open('result.txt', 'w') as f:
    for prediction in y_test_pred:
        f.write(f"{prediction}\n")

Чит щиты

Pandas DataFrame (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

Электронный конспект

In [None]:
https://docs.google.com/document/d/1GJ1wLvj_8qhX8Xw08OFoG3vrRStjQgYy