# Пометки для себя, интересные примеры

#1Пример с k-Fold Cross-Validation

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Создание модели
model = RandomForestClassifier(n_estimators=100, random_state=42)

# k-Fold Cross-Validation
scores = cross_val_score(model, X, y, cv=5)

# Вывод результатов
print(f"Cross-validation accuracy: {scores.mean():.2f} ± {scores.std():.2f}")

1. k-Fold Cross-Validation (k-блочная кросс-валидация)
Данные делятся на k равных частей (фолдов).

Модель обучается на k-1 фолдах и тестируется на оставшемся фолде.

Процесс повторяется k раз, и каждый раз выбирается новый фолд для тестирования.

Результаты усредняются, чтобы получить общую оценку модели.

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100, random_state=42)
scores = cross_val_score(model, X, y, cv=5)  # 5-Fold Cross-Validation
print(f"Cross-validation accuracy: {scores.mean():.2f} ± {scores.std():.2f}")

2. Leave-One-Out Cross-Validation (LOOCV, кросс-валидация с исключением одного)
Это частный случай k-Fold, где k равно количеству наблюдений в данных.

Модель обучается на всех данных, кроме одного наблюдения, которое используется для тестирования.

Процесс повторяется для каждого наблюдения.

Этот метод очень точный, но требует больших вычислительных ресурсов.

In [None]:
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()
scores = cross_val_score(model, X, y, cv=loo)
print(f"LOOCV accuracy: {scores.mean():.2f} ± {scores.std():.2f}")

3. Stratified k-Fold Cross-Validation (стратифицированная кросс-валидация)
Этот метод используется для задач классификации, чтобы обеспечить, что каждый фолд содержит примерно одинаковое распределение классов, как и в исходных данных.

Это помогает избежать ситуаций, когда в фолде не хватает примеров одного из классов

In [None]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(model, X, y, cv=skf)
print(f"Stratified Cross-validation accuracy: {scores.mean():.2f} ± {scores.std():.2f}")

4. Time Series Cross-Validation (кросс-валидация для временных рядов)
Используется для задач, где данные имеют временную зависимость.

Данные делятся так, чтобы модель обучалась на прошлых данных и тестировалась на будущих.

In [None]:
from sklearn.model_selection import TimeSeriesSplit

tscv = TimeSeriesSplit(n_splits=5)
scores = cross_val_score(model, X, y, cv=tscv)
print(f"Time Series Cross-validation accuracy: {scores.mean():.2f} ± {scores.std():.2f}")

#2 Если модель показывает высокий скор на обучающих данных, но низкий на тестовых, это сигнал о переобучении.
Чтобы исправить это:
Упростите модель.
Используйте регуляризацию.(В логистической регрессии используйте параметр C (чем меньше C, тем сильнее регуляризация).
В случайном лесе используйте параметр max_depth для ограничения глубины деревьев.)
Увеличьте объем данных.
Уменьшите количество признаков.
Используйте кросс-валидацию.например, KFold
Применяйте ансамблевые методы.
в нейронках -использ. Dropout — метод, который случайным образом отключает часть нейронов во время обучения,

1. Упростить модель
Используйте более простую модель, которая не будет слишком сильно подстраиваться под обучающие данные.

Например:

Замените сложную модель (например, случайный лес или градиентный бустинг) на более простую (например, логистическую регрессию или k-ближайших соседей).

Уменьшите количество деревьев в случайном лесе или глубину деревьев.

In [None]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=50, max_depth=5, random_state=42)
model.fit(X_train, y_train)


2. Регуляризация
Регуляризация добавляет штраф за сложность модели, чтобы она не переобучалась.

Например:

В логистической регрессии используйте параметр C (чем меньше C, тем сильнее регуляризация).

В случайном лесе используйте параметр max_depth для ограничения глубины деревьев.

In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(C=0.1, max_iter=1000)
model.fit(X_train, y_train)

3. Использовать Dropout (для нейронных сетей)
В нейронных сетях можно использовать Dropout — метод, который случайным образом отключает часть нейронов во время обучения, чтобы предотвратить переобучение.

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout

model = Sequential([
    Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=50, validation_data=(X_test, y_test))

4. Уменьшить количество признаков
Если в данных слишком много признаков, модель может переобучиться. Удалите избыточные или нерелевантные признаки.

Используйте методы отбора признаков, такие как:

Корреляционный анализ.

Методы отбора признаков (например, SelectKBest).

In [None]:
from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(f_classif, k=10)  # Выбираем 10 лучших признаков
X_train_selected = selector.fit_transform(X_train, y_train)
X_test_selected = selector.transform(X_test)

5. Использовать ансамблевые методы
Ансамблевые методы, такие как стекинг (stacking) или бэггинг (bagging), могут помочь уменьшить переобучение.

Например, используйте BaggingClassifier с простой моделью.

In [None]:
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

model = BaggingClassifier(base_estimator=DecisionTreeClassifier(max_depth=5), n_estimators=100, random_state=42)
model.fit(X_train, y_train)

немного про корреляционную матрицу сюда закину

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Пример данных
data = pd.DataFrame({
    'feature1': [1, 2, 3, 4, 5],
    'feature2': [2, 3, 4, 5, 6],
    'feature3': [10, 20, 30, 40, 50],
    'target': [0, 1, 0, 1, 0]
})

# Вычисление корреляции
correlation_matrix = data.corr()

# Визуализация корреляционной матрицы
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.show()

# Отбор признаков с высокой корреляцией с целевой переменной
target_correlation = correlation_matrix['target'].abs()
selected_features = target_correlation[target_correlation > 0.5].index.tolist()
print("Выбранные признаки:", selected_features)

#3 Методы отбора признаков (SelectKBest)
SelectKBest — это метод, который выбирает фиксированное количество (k) наиболее важных признаков на основе статистических тестов.

Как это работает:
Выбирается статистический тест для оценки важности признаков (например, ANOVA F-тест для задач классификации или корреляция для задач регрессии).

Признаки ранжируются по важности.

 1. Выбираются k наиболее важных признаков.

In [None]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest, f_classif

# Загрузка данных
data = load_iris()
X = data.data
y = data.target

# Выбор 2 наиболее важных признаков
selector = SelectKBest(score_func=f_classif, k=2)
X_new = selector.fit_transform(X, y)

# Вывод выбранных признаков
print("Выбранные признаки:", selector.get_support(indices=True))
print("Новые данные:", X_new)

2. Другие методы отбора признаков
3.1. RFE (Recursive Feature Elimination, рекурсивное исключение признаков)
Метод, который рекурсивно удаляет наименее важные признаки на основе весов модели (например, коэффициентов линейной регрессии или важности признаков в случайном лесе).

Постепенно уменьшает количество признаков, пока не останется нужное количество.

In [None]:
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestClassifier

# Создание модели
model = RandomForestClassifier(n_estimators=100, random_state=42)

# RFE с выбором 2 признаков
rfe = RFE(model, n_features_to_select=2)
X_new = rfe.fit_transform(X, y)

# Вывод выбранных признаков
print("Выбранные признаки:", rfe.support_)
print("Ранги признаков:", rfe.ranking_)

3. SelectFromModel
Метод, который использует обученную модель для выбора признаков.

Признаки выбираются на основе важности, которую модель присваивает каждому признаку (например, важность признаков в случайном лесе или коэффициенты в линейной регрессии).


In [None]:
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

# Создание модели
model = RandomForestClassifier(n_estimators=100, random_state=42)

# Обучение модели
model.fit(X, y)

# Выбор признаков на основе важности
selector = SelectFromModel(model, threshold="median", prefit=True)
X_new = selector.transform(X)

# Вывод выбранных признаков
print("Выбранные признаки:", selector.get_support())
print("Новые данные:", X_new)

4. L1-регуляризация (Lasso)
Метод, который использует L1-регуляризацию для выбора признаков.

L1-регуляризация добавляет штраф за небольшие коэффициенты, что приводит к тому, что многие коэффициенты становятся равными нулю, и таким образом выбираются только важные признаки.

In [None]:
from sklearn.linear_model import Lasso

# Создание модели с L1-регуляризацией
model = Lasso(alpha=0.01)

# Обучение модели
model.fit(X, y)

# Вывод коэффициентов
print("Коэффициенты:", model.coef_)
print("Выбранные признаки:", model.coef_ != 0)

# Для перобработки данных, тип: Объект

In [None]:
unprocessed_cat_features = cat_features_data.select_dtypes(include=[object]).columns.to_list()

#Понравилась тепловая карта

In [None]:
plt.figure(figsize=(12, 8))
sns.heatmap(data.corr(numeric_only=True), annot=True, cmap='viridis');

Этот фрагмент кода объединяет DataFrame data.iloc[:len(train)] и Series y в один DataFrame, добавляя столбец y к DataFrame data.

In [None]:
data_and_target = pd.concat([data.iloc[:len(train)], y], axis=1) #Gold Feature
data_and_target

 Проанализируйте, какие столбцы являются существенными и влияют на предсказание, а какие нет. Удалите ненужные столбцы по вашему мнению.

In [None]:
data = pd.concat([numeric_data, categorial_data], axis=1)
data.drop(columns=['name', 'numDeadRelations', 'popularity'], inplace = True)
data

Эта строка кода выполняет следующие действия:

Выбирает столбец 'isAlive' из DataFrame data_and_target.

Считает количество уникальных значений в этом столбце.

In [None]:
data_and_target['isAlive'].value_counts()

In [None]:
data_and_target[data_and_target['isPopular'] == 1]['isAlive'].value_counts()

Фильтрует строки в DataFrame data_and_target, где значение столбца 'isPopular' равно 0.

Выбирает столбец 'isAlive' для отфильтрованных строк.

Считает количество уникальных значений в столбце 'isAlive' для этих строк.

In [None]:
data_and_target[data_and_target['isPopular'] == 0]['isAlive'].value_counts()

 Создайте переменные X, которая будет хранить только значения признаков, и y, которая будет хранить только значения целевой переменной.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

# y уже создан выше
scaled_train = scaled_data[:len(train)]
scaled_test = scaled_data[len(train):]

In [None]:
#Проверка статистической значимости категориальных столбцов
from scipy.stats import chi2_contingency

# Фильтрация категориальных столбцов
categorical_columns = data.select_dtypes(include='object').columns

# Хранение результатов хи-квадрат теста
chi2_results = {}

for col in categorical_columns:
    # Создание таблицы сопряженности
    contingency_table = pd.crosstab(data[col], data['isAlive'])

    # Применение хи-квадрат теста
    chi2, p, dof, expected = chi2_contingency(contingency_table)

    # Сохранение p-значения в словарь
    chi2_results[col] = p

# Вывод результатов
for col, p_value in chi2_results.items():
    print(f"Колонка: {col}, p-значение: {p_value}")

    if p_value < 0.05:
        print(f"Признак '{col}' статистически значим (p < 0.05)")
    else:
        print(f"Признак '{col}' не является статистически значимым (p >= 0.05)")

In [None]:
# Создаем пустой список для хранения результатов
correlation_results = []

# Целевая переменная
target = 'isAlive'

# Проходим по всем числовым колонкам, кроме целевой переменной
for column in numeric_columns:
    if column != target:
        # Вычисляем коэффициент корреляции и p-значение
        corr, p_value = pearsonr(data_encoded[column], data_encoded[target])
        correlation_results.append([column, corr, p_value])

# Преобразуем результаты в DataFrame
correlation_df = pd.DataFrame(correlation_results, columns=['Feature', 'Correlation', 'P-value'])

# Анализ статистической значимости
correlation_df['Significant'] = correlation_df['P-value'].apply(lambda x: 'Yes' if x < 0.05 else 'No')

# Выводим таблицу с анализом
print(correlation_df)

Для отрисовки Лосса

In [None]:
plot_roc_curve(y_train, grid_cat.predict_proba(X_train)[:, 1],
               y_valid, grid_cat.predict_proba(X_valid)[:, 1],
               model='CatBoostClassifier with grid_search')

Отрисовка пайплайна

In [None]:
pipe = Pipeline(
    steps=[
        ('preproc', col_transformer),
        ('model', LogisticRegression(C=best_C, solver=best_solver))
    ])

pipe.fit(train[X], train[y])

Оптимальные параметры

In [None]:
regularization = clf.cv_results_['param_model__C'].data
solvers = clf.cv_results_['param_model__solver'].data
auc_score = clf.cv_results_['mean_test_score']

In [None]:
# Pairplot для числовых признаков и целевой переменной
sns.pairplot(train_data[num_cols + [target_col]], hue=target_col)
plt.show()

In [None]:
# Оптимизация гиперпараметров
best_score = 0
best_params = {}

learning_rates = [0.01, 0.05, 0.1, 0.2]
iterations = [100, 200, 500]

for lr in learning_rates:
    for it in iterations:
        model = CatBoostClassifier(iterations=it, learning_rate=lr, cat_features=cat_cols, silent=True)
        model.fit(X_train, y_train)

        y_pred_valid = model.predict_proba(X_valid)[:, 1]
        roc_auc = roc_auc_score(y_valid, y_pred_valid)

        print(f"ROC-AUC с learning_rate={lr} и iterations={it}: {roc_auc:.4f}")

        if roc_auc > best_score:
            best_score = roc_auc
            best_params = {'learning_rate': lr, 'iterations': it}

print(f"Лучший ROC-AUC: {best_score:.4f} с параметрами: {best_params}")