# Анализ битых DOM-элементов с использованием машинного обучения

Данный ноутбук представляет собой исследование методов обнаружения битых DOM-элементов на веб-страницах с использованием методов машинного обучения.

## Задача
Разработать систему, которая исследует DOM-структуру веб-страницы и выявляет битые элементы.

### Критерии отнесения к "битым" элементам:
1. Пустые или отсутствующие ключевые атрибуты (src, href, type, alt)
2. Скрытые элементы, участвующие в логике интерфейса
3. Конфликт CSS-стилей, делающий элемент невидимым
4. Повреждённые вложенные структуры (например, незакрытые теги, вложенные ссылки и т.д.)

## Импорт необходимых библиотек

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, precision_recall_curve, roc_curve, auc
import joblib
import os
import sys

# Добавляем директорию src в путь для импорта
sys.path.append('../src')
from data_generator import generate_synthetic_data, save_data

# Устанавливаем стиль для графиков
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

ModuleNotFoundError: No module named 'faker'

## Генерация данных

Генерируем синтетические данные для обучения модели, если они еще не созданы

In [None]:
# Проверяем наличие данных или генерируем их
if not os.path.exists('../data/dom_elements.csv'):
    print("Данные не найдены. Запуск генерации синтетических данных...")
    df = generate_synthetic_data(n_samples=5000)
    save_data(df)
else:
    print("Данные уже существуют. Загружаем из файла...")
    df = pd.read_csv('../data/dom_elements.csv')

print(f"Загружено {len(df)} записей")
print(f"Из них битых элементов: {df['is_broken'].sum()} ({df['is_broken'].mean()*100:.2f}%)")
df.head()

## Разведочный анализ данных

Исследуем структуру и распределение данных для лучшего понимания проблемы

In [None]:
# Общая информация о датасете
print("Информация о датасете:")
df.info()

In [None]:
# Статистика по числовым признакам
df.describe()

In [None]:
# Распределение целевой переменной
plt.figure(figsize=(8, 6))
sns.countplot(x='is_broken', data=df)
plt.title('Распределение целевой переменной')
plt.xlabel('Битый элемент (1 - да, 0 - нет)')
plt.ylabel('Количество')
plt.show()

In [None]:
# Корреляционная матрица
plt.figure(figsize=(12, 10))
corr = df.corr()
mask = np.triu(np.ones_like(corr, dtype=bool))
sns.heatmap(corr, mask=mask, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Корреляционная матрица признаков')
plt.tight_layout()
plt.show()

In [None]:
# Распределение по типам тегов
plt.figure(figsize=(12, 6))
tag_counts = df['tag'].value_counts()
sns.barplot(x=tag_counts.index, y=tag_counts.values)
plt.title('Количество элементов по типам тегов')
plt.xlabel('Тег')
plt.ylabel('Количество')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Доля битых элементов по типам тегов
plt.figure(figsize=(12, 6))
tag_broken = df.groupby('tag')['is_broken'].mean().sort_values(ascending=False)
sns.barplot(x=tag_broken.index, y=tag_broken.values)
plt.title('Доля битых элементов по типам тегов')
plt.xlabel('Тег')
plt.ylabel('Доля битых элементов')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## Подготовка данных для обучения

Подготавливаем данные для обучения модели: кодируем категориальные признаки и разделяем на обучающую и тестовую выборки

In [None]:
# Преобразуем категориальные признаки
df_encoded = pd.get_dummies(df, columns=['tag'], drop_first=True)

# Разделяем признаки и целевую переменную
X = df_encoded.drop('is_broken', axis=1)
y = df_encoded['is_broken']

# Разделяем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")

## Сравнение различных алгоритмов машинного обучения

Сравниваем различные алгоритмы классификации для выбора наиболее подходящего

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier

# Определяем модели для сравнения
models = {
    'Логистическая регрессия': LogisticRegression(max_iter=1000, random_state=42),
    'K-ближайших соседей': KNeighborsClassifier(),
    'Дерево решений': DecisionTreeClassifier(random_state=42),
    'Случайный лес': RandomForestClassifier(n_estimators=100, random_state=42),
    'Градиентный бустинг': GradientBoostingClassifier(random_state=42)
}

# Сравниваем модели по метрикам
results = {}
for name, model in models.items():
    print(f"Оценка модели: {name}...")
    # Используем кросс-валидацию для более надежной оценки
    cv_accuracy = cross_val_score(model, X, y, cv=5, scoring='accuracy')
    cv_f1 = cross_val_score(model, X, y, cv=5, scoring='f1')
    cv_precision = cross_val_score(model, X, y, cv=5, scoring='precision')
    cv_recall = cross_val_score(model, X, y, cv=5, scoring='recall')
    
    results[name] = {
        'accuracy': cv_accuracy.mean(),
        'f1': cv_f1.mean(),
        'precision': cv_precision.mean(),
        'recall': cv_recall.mean()
    }

# Преобразуем результаты в DataFrame для удобного отображения
results_df = pd.DataFrame(results).T
results_df

In [None]:
# Визуализируем результаты сравнения моделей
plt.figure(figsize=(15, 10))

# Accuracy
plt.subplot(2, 2, 1)
sns.barplot(x=results_df.index, y=results_df['accuracy'])
plt.title('Accuracy')
plt.xticks(rotation=45)
plt.ylim(0.8, 1.0)

# F1-score
plt.subplot(2, 2, 2)
sns.barplot(x=results_df.index, y=results_df['f1'])
plt.title('F1-score')
plt.xticks(rotation=45)
plt.ylim(0.7, 1.0)

# Precision
plt.subplot(2, 2, 3)
sns.barplot(x=results_df.index, y=results_df['precision'])
plt.title('Precision')
plt.xticks(rotation=45)
plt.ylim(0.7, 1.0)

# Recall
plt.subplot(2, 2, 4)
sns.barplot(x=results_df.index, y=results_df['recall'])
plt.title('Recall')
plt.xticks(rotation=45)
plt.ylim(0.7, 1.0)

plt.tight_layout()
plt.show()

## Обучение модели Random Forest

Согласно требованиям, используем Random Forest для основной модели. Проведем оптимизацию гиперпараметров с помощью GridSearchCV.

In [None]:
# Определяем параметры для поиска
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Создаем базовую модель
rf = RandomForestClassifier(random_state=42)

# Поиск оптимальных параметров с помощью перекрестной проверки
grid_search = GridSearchCV(
    estimator=rf, 
    param_grid=param_grid, 
    cv=5, 
    n_jobs=-1, 
    verbose=1, 
    scoring='f1'
)

grid_search.fit(X_train, y_train)

# Выводим лучшие параметры
print(f"Лучшие параметры: {grid_search.best_params_}")
print(f"Лучший F1-score: {grid_search.best_score_:.4f}")

# Получаем лучшую модель
best_rf = grid_search.best_estimator_

## Оценка качества модели

Оцениваем качество обученной модели на тестовой выборке

In [None]:
# Прогнозы на обучающей выборке
y_train_pred = best_rf.predict(X_train)
train_accuracy = accuracy_score(y_train, y_train_pred)

# Прогнозы на тестовой выборке
y_pred = best_rf.predict(X_test)
test_accuracy = accuracy_score(y_test, y_pred)

print(f"Accuracy на обучающей выборке: {train_accuracy:.4f}")
print(f"Accuracy на тестовой выборке: {test_accuracy:.4f}")

print("\nОтчет о классификации:")
print(classification_report(y_test, y_pred))

In [None]:
# Матрица ошибок
plt.figure(figsize=(8, 6))
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Матрица ошибок')
plt.xlabel('Предсказанный класс')
plt.ylabel('Истинный класс')
plt.show()

In [None]:
# ROC-кривая
y_prob = best_rf.predict_proba(X_test)[:, 1]
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC)')
plt.legend(loc="lower right")
plt.show()

In [None]:
# Precision-Recall кривая
precision, recall, _ = precision_recall_curve(y_test, y_prob)

plt.figure(figsize=(8, 6))
plt.plot(recall, precision, color='blue', lw=2)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve')
plt.show()

In [None]:
# Важность признаков
plt.figure(figsize=(12, 10))
feature_importance = pd.DataFrame(
    {'feature': X_train.columns, 'importance': best_rf.feature_importances_}
).sort_values('importance', ascending=False)

sns.barplot(x='importance', y='feature', data=feature_importance.head(20))
plt.title('Важность признаков')
plt.tight_layout()
plt.show()

## Сохранение модели

Сохраняем обученную модель для дальнейшего использования

In [None]:
# Сохраняем модель
os.makedirs('../models', exist_ok=True)
joblib.dump(best_rf, '../models/random_forest_model.pkl')
print("Модель сохранена в ../models/random_forest_model.pkl")

## Демонстрация работы модели на новых данных

Проверяем работу модели на небольшом наборе новых данных

In [None]:
# Загружаем модель
loaded_model = joblib.load('../models/random_forest_model.pkl')

# Создаем небольшой набор тестовых данных
test_elements = [
    {
        'tag': 'img',
        'attr_count': 3,
        'has_text': 0,
        'depth': 4,
        'has_empty_attr': 1,  # Пустой атрибут src
        'visibility': 1,
        'is_interactive': 0,
        'has_display_none': 0,
        'missing_required_attr': 1,
        'css_conflict': 0,
        'nested_structure_issue': 0
    },
    {
        'tag': 'a',
        'attr_count': 5,
        'has_text': 1,
        'depth': 3,
        'has_empty_attr': 0,
        'visibility': 1,
        'is_interactive': 1,
        'has_display_none': 0,
        'missing_required_attr': 0,
        'css_conflict': 0,
        'nested_structure_issue': 0
    },
    {
        'tag': 'button',
        'attr_count': 2,
        'has_text': 1,
        'depth': 5,
        'has_empty_attr': 0,
        'visibility': 0,  # Невидимый
        'is_interactive': 1,  # Интерактивный
        'has_display_none': 1,  # Скрыт через CSS
        'missing_required_attr': 0,
        'css_conflict': 1,  # Конфликт стилей
        'nested_structure_issue': 0
    }
]

# Преобразуем в DataFrame
test_df = pd.DataFrame(test_elements)

# Кодируем категориальные признаки так же, как при обучении
# Получаем список всех тегов из обучающих данных
all_tags = df['tag'].unique()

# Создаем dummy-переменные для тестовых данных с тем же набором категорий
test_encoded = pd.get_dummies(test_df, columns=['tag'])

# Добавляем отсутствующие столбцы и удаляем лишние
for tag in all_tags:
    if f'tag_{tag}' not in test_encoded.columns and tag != all_tags[0]:  # Пропускаем первый тег (drop_first=True)
        test_encoded[f'tag_{tag}'] = 0

# Приводим столбцы к тому же порядку, что и в обучающих данных
missing_cols = set(X.columns) - set(test_encoded.columns)
for col in missing_cols:
    test_encoded[col] = 0
test_encoded = test_encoded[X.columns]

# Делаем предсказания
predictions = loaded_model.predict(test_encoded)
probabilities = loaded_model.predict_proba(test_encoded)[:, 1]

# Добавляем результаты в исходный DataFrame
test_df['predicted_broken'] = predictions
test_df['probability_broken'] = probabilities

# Выводим результаты
print("Результаты предсказаний для тестовых элементов:")
print(test_df[["tag", "has_empty_attr", "visibility", "is_interactive", 
              "has_display_none", "css_conflict", "predicted_broken", "probability_broken"]])

## Заключение

В данном ноутбуке мы разработали и обучили модель машинного обучения для выявления битых DOM-элементов на веб-страницах. Основные выводы:

1. Модель Random Forest показала хорошие результаты на тестовых данных
2. Наиболее важными признаками для определения битых элементов оказались...
3. Для дальнейшего улучшения модели можно...

Модель может быть интегрирована в инструменты веб-разработки для автоматического выявления проблемных элементов на сайтах.