# QWEN

In [None]:
import torch
import requests
from bs4 import BeautifulSoup
from transformers import AutoTokenizer, AutoModelForTokenClassification, BertTokenizerFast, BertForTokenClassification
from transformers import pipeline
from typing import List, Dict, Tuple
from torch.utils.data import Dataset, DataLoader
from transformers import get_linear_schedule_with_warmup
from torch.optim import AdamW
from sklearn.metrics import classification_report
import numpy as np
from tqdm import tqdm
import os

# Конфигурация
DEVICE = torch.device("cpu")
QWEN_MODEL_NAME =  "Qwen/Qwen2.5-32B-Instruct"
BERT_MODEL_NAME = "Davlan/bert-base-multilingual-cased-ner-hrl" # Предобученная модель для NER

from bs4 import BeautifulSoup, Comment
import requests

def extract_text_from_url(url: str, timeout: int = 10) -> str:
    """
    Извлекает основной текстовый контент с веб-страницы по URL.

    Параметры:
        url (str): URL веб-страницы
        timeout (int): Таймаут запроса в секундах (по умолчанию 10)

    Возвращает:
        str: Очищенный текстовый контент страницы
    """
    try:
        # Заголовки для имитации браузера
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }

        # Запрос с таймаутом и заголовками
        response = requests.get(url, headers=headers, timeout=timeout)
        response.raise_for_status()  # Проверка на ошибки HTTP

        soup = BeautifulSoup(response.text, 'html.parser')

        # Удаление нежелательных элементов
        for element in soup(['script', 'style', 'nav', 'footer', 'iframe', 'noscript', 'svg']):
            element.decompose()

        # Удаление HTML-комментариев
        for comment in soup.find_all(string=lambda text: isinstance(text, Comment)):
            comment.extract()

        # Извлечение текста из основных содержательных тегов
        text_elements = []
        for tag in ['article', 'main', 'div', 'section', 'p']:
            elements = soup.find_all(tag)
            for element in elements:
                # Проверка на содержание значимого текста
                if len(element.get_text(strip=True)) > 50:  # Минимум 50 символов
                    text_elements.append(element.get_text(separator=' ', strip=True))

        # Если не нашли достаточно текста в специфичных тегах, берем весь body
        if not text_elements or sum(len(t) for t in text_elements) < 500:
            text_elements = [soup.get_text(separator=' ', strip=True)]

        # Объединение и очистка текста
        text = ' '.join(text_elements)

        # Удаление лишних пробелов и переносов строк
        text = ' '.join(text.split())

        return text

    except requests.exceptions.RequestException as e:
        print(f"Ошибка при запросе к {url}: {str(e)}")
        return ""
    except Exception as e:
        print(f"Неожиданная ошибка при обработке {url}: {str(e)}")
        return ""

def annotate_with_bert(text: str) -> List[Dict]:
    """Аннотирует текст с помощью предобученной модели BERT."""
    tokenizer = BertTokenizerFast.from_pretrained(BERT_MODEL_NAME)
    model = BertForTokenClassification.from_pretrained(BERT_MODEL_NAME).to(DEVICE)

    nlp = pipeline("ner", model=model, tokenizer=tokenizer, device=DEVICE)
    annotations = nlp(text)
    return annotations

def adapt_qwen_for_ner(model_name: str = QWEN_MODEL_NAME):
    """Загружает модель Qwen и адаптирует её для NER."""
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForTokenClassification.from_pretrained(
        model_name,
        num_labels=9,  # Стандартное количество классов для NER (PER, ORG, LOC и т.д.)
        id2label={0: 'O', 1: 'B-PER', 2: 'I-PER', 3: 'B-ORG', 4: 'I-ORG',
                  5: 'B-LOC', 6: 'I-LOC', 7: 'B-MISC', 8: 'I-MISC'},
        label2id={'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4,
                  'B-LOC': 5, 'I-LOC': 6, 'B-MISC': 7, 'I-MISC': 8}
    ).to(DEVICE)

    # Замораживаем все слои, кроме последнего
    for param in model.base_model.parameters():
        param.requires_grad = False

    return model, tokenizer

class NERDataset(Dataset):
    """Кастомный Dataset для NER."""
    def __init__(self, texts, annotations, tokenizer, model_config, max_length=128):
        self.texts = texts
        self.annotations = annotations
        self.tokenizer = tokenizer
        self.model_config = model_config  # Добавляем конфигурацию модели
        self.max_length = max_length

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        annotations = self.annotations[idx]

        # Токенизация с выравниванием меток
        encoding = self.tokenizer(
            text,
            max_length=self.max_length,
            truncation=True,
            padding='max_length',
            return_tensors='pt',
            return_offsets_mapping=True
        )

        # Создаем массив меток, заполненный -100 (игнорируется при вычислении потерь)
        labels = torch.full((self.max_length,), -100, dtype=torch.long)

        # Преобразуем аннотации в метки для токенов
        offset_mapping = encoding['offset_mapping'][0]
        for ann in annotations:
            start, end = ann['start'], ann['end']
            label = ann['entity']

            # Находим токены, которые пересекаются с аннотацией
            for i, (token_start, token_end) in enumerate(offset_mapping):
                if token_start >= end or token_end <= start:
                    continue
                if token_start != 0 or token_end != 0:  # Игнорируем специальные токены
                    labels[i] = self.model_config.label2id.get(label, 0)  # Используем self.model_config

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': labels
        }

def prepare_training_data(text, bert_annotations, tokenizer, test_size=0.2):
    """Подготавливает данные для обучения и валидации."""
    # Разделяем текст на предложения (упрощенно)
    sentences = [sent.strip() for sent in text.split('.') if len(sent.strip()) > 0]

    # Сопоставляем аннотации с предложениями (упрощенно)
    sentence_annotations = []
    current_pos = 0
    for sent in sentences:
        sent_len = len(sent)
        sent_anns = []
        for ann in bert_annotations:
            if current_pos <= ann['start'] < current_pos + sent_len:
                adjusted_ann = {
                    'start': ann['start'] - current_pos,
                    'end': ann['end'] - current_pos,
                    'entity': ann['entity']
                }
                sent_anns.append(adjusted_ann)
        sentence_annotations.append(sent_anns)
        current_pos += sent_len + 1  # +1 для точки

    # Разделяем на train и test
    split_idx = int(len(sentences) * (1 - test_size))
    train_texts, train_anns = sentences[:split_idx], sentence_annotations[:split_idx]
    val_texts, val_anns = sentences[split_idx:], sentence_annotations[split_idx:]

    return train_texts, train_anns, val_texts, val_anns

def train_qwen(model, tokenizer, text, bert_annotations, epochs=3, batch_size=8, learning_rate=2e-5):
    """Полноценная функция обучения модели Qwen для NER."""

    # Подготовка данных
    train_texts, train_anns, val_texts, val_anns = prepare_training_data(text, bert_annotations, tokenizer)

    train_dataset = NERDataset(train_texts, train_anns, tokenizer, model_config=model.config)
    val_dataset = NERDataset(val_texts, val_anns, tokenizer, model_config=model.config)

    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=batch_size)

    # Настройка оптимизатора и планировщика
    optimizer = AdamW(model.parameters(), lr=learning_rate)
    total_steps = len(train_loader) * epochs
    scheduler = get_linear_schedule_with_warmup(
        optimizer,
        num_warmup_steps=0,
        num_training_steps=total_steps
    )

    # Обучение
    best_val_loss = float('inf')
    for epoch in range(epochs):
        print(f"\nEpoch {epoch + 1}/{epochs}")

        # Фаза обучения
        model.train()
        train_loss = 0
        for batch in tqdm(train_loader, desc="Training"):
            batch = {k: v.to(DEVICE) for k, v in batch.items()}

            optimizer.zero_grad()
            outputs = model(
                input_ids=batch['input_ids'],
                attention_mask=batch['attention_mask'],
                labels=batch['labels']
            )
            loss = outputs.loss
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
            scheduler.step()

            train_loss += loss.item()

        avg_train_loss = train_loss / len(train_loader)

        # Фаза валидации
        model.eval()
        val_loss = 0
        all_preds = []
        all_labels = []
        for batch in tqdm(val_loader, desc="Validating"):
            batch = {k: v.to(DEVICE) for k, v in batch.items()}

            with torch.no_grad():
                outputs = model(
                    input_ids=batch['input_ids'],
                    attention_mask=batch['attention_mask'],
                    labels=batch['labels']
                )

            val_loss += outputs.loss.item()

            # Собираем предсказания и метки для метрик
            preds = torch.argmax(outputs.logits, dim=2)
            mask = batch['labels'] != -100  # Игнорируем метки -100

            all_preds.extend(preds[mask].cpu().numpy())
            all_labels.extend(batch['labels'][mask].cpu().numpy())

        avg_val_loss = val_loss / len(val_loader)

        # Выводим метрики
        print(f"Train Loss: {avg_train_loss:.4f} | Val Loss: {avg_val_loss:.4f}")
        # print(classification_report(
        #     all_labels,
        #     all_preds,
        #     target_names=list(model.config.id2label.values()),
        #     zero_division=0
        # ))

        # Сохраняем лучшую модель
        if avg_val_loss < best_val_loss:
            best_val_loss = avg_val_loss
            os.makedirs("./qwen_ner", exist_ok=True)
            model.save_pretrained("./qwen_ner")
            tokenizer.save_pretrained("./qwen_ner")
            print("Saved best model!")

    return model

def predict_with_qwen(text: str, model, tokenizer) -> List[Tuple[str, str]]:
    """Делает предсказания с помощью адаптированной модели Qwen."""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(DEVICE)
    with torch.no_grad():
        outputs = model(**inputs)

    predictions = torch.argmax(outputs.logits, dim=2)
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    labels = [model.config.id2label[p.item()] for p in predictions[0]]

    return list(zip(tokens, labels))

def main(url: str):
    # 1. Извлекаем текст с веб-страницы
    text = extract_text_from_url(url)
    print(f"Извлечённый текст:\n{text[:500]}...\n")

    # 2. Аннотируем с помощью BERT
    bert_annotations = annotate_with_bert(text[:512])  # Ограничиваем длину для BERT
    print(f"Пример аннотаций BERT:\n{bert_annotations[:5]}\n")

    # 3. Адаптируем Qwen для NER
    qwen_model, qwen_tokenizer = adapt_qwen_for_ner()

    # 4. Обучаем модель
    qwen_model = train_qwen(qwen_model, qwen_tokenizer, text[:2000], bert_annotations, epochs=3)

    # 5. Делаем предсказания
    predictions = predict_with_qwen(text[:512], qwen_model, qwen_tokenizer)

    # 6. Выводим результаты
    print("Предсказания модели Qwen (первые 20 токенов):")
    for token, label in predictions[:20]:
        print(f"{token} -> {label}")

if __name__ == "__main__":
    url = "https://amulex.ru/daily/news/vozrozhdenie-lyutovolkov-iz-igry-prestolov-nauchnyj-proryv-bjfj4kf/?ysclid=mae5l3wify323318294"  # Пример URL
    main(url)

Извлечённый текст:
Блог / Новости Возрождение лютоволков из «Игры престолов»: научный прорыв Полина Недашковская 07 мая, 2025 • 2 мин • 155 Копировать ссылку Telegram VK WhatsApp Биотехнологическая компания Colossal Biosciences из Далласа совершила прорыв в области возрождения вымерших видов животных, воссоздав ужасных волков (dire wolves), известных широкой аудитории как «лютоволки» из «Игры престолов» . Процесс был долгим и сложным, но в итоге ученые смогли вернуть к жизни этот вид, вымерший более 12 тысяч лет н...



Device set to use cpu


Пример аннотаций BERT:
[{'entity': 'B-PER', 'score': np.float32(0.9994863), 'index': 26, 'word': 'Пол', 'start': 74, 'end': 77}, {'entity': 'I-PER', 'score': np.float32(0.98204434), 'index': 27, 'word': '##ина', 'start': 77, 'end': 80}, {'entity': 'I-PER', 'score': np.float32(0.9996425), 'index': 28, 'word': 'Не', 'start': 81, 'end': 83}, {'entity': 'I-PER', 'score': np.float32(0.9996587), 'index': 29, 'word': '##да', 'start': 83, 'end': 85}, {'entity': 'I-PER', 'score': np.float32(0.9995888), 'index': 30, 'word': '##шко', 'start': 85, 'end': 88}]



Loading checkpoint shards:   0%|          | 0/17 [00:00<?, ?it/s]

Some weights of Qwen2ForTokenClassification were not initialized from the model checkpoint at Qwen/Qwen2.5-32B-Instruct and are newly initialized: ['score.bias', 'score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.



Epoch 1/3


Training: 100%|██████████| 2/2 [09:35<00:00, 287.53s/it]
Validating: 100%|██████████| 1/1 [02:52<00:00, 172.39s/it]


Train Loss: nan | Val Loss: nan

Epoch 2/3


Training: 100%|██████████| 2/2 [08:55<00:00, 267.70s/it]
Validating: 100%|██████████| 1/1 [03:03<00:00, 183.90s/it]


Train Loss: nan | Val Loss: nan

Epoch 3/3


Training: 100%|██████████| 2/2 [09:15<00:00, 277.65s/it]
Validating: 100%|██████████| 1/1 [02:54<00:00, 174.30s/it]


Train Loss: nan | Val Loss: nan
Предсказания модели Qwen (первые 20 токенов):
Ðĳ -> B-PER
Ð»Ð¾Ð³ -> B-PER
Ġ/ -> B-MISC
ĠÐĿ -> B-PER
Ð¾Ð² -> B-PER
Ð¾ÑģÑĤÐ¸ -> B-PER
ĠÐĴÐ¾Ð· -> B-PER
ÑĢÐ¾Ð¶ -> B-MISC
Ð´ -> B-PER
ÐµÐ½Ð¸Ðµ -> I-PER
ĠÐ» -> B-PER
ÑİÑĤ -> B-PER
Ð¾Ð² -> B-PER
Ð¾Ð» -> B-PER
ÐºÐ¾Ð² -> B-PER
ĠÐ¸Ð· -> B-PER
ĠÂ« -> I-ORG
Ðĺ -> B-MISC
Ð³ -> B-PER
ÑĢÑĭ -> B-MISC


# SBERBANK AI

In [1]:
import torch
import requests
from bs4 import BeautifulSoup
from transformers import AutoTokenizer, AutoModelForTokenClassification, BertTokenizerFast, BertForTokenClassification
from transformers import pipeline
from typing import List, Dict, Tuple
from torch.utils.data import Dataset, DataLoader
from transformers import get_linear_schedule_with_warmup
from torch.optim import AdamW
from sklearn.metrics import classification_report
import numpy as np
from tqdm import tqdm
import os

# Конфигурация
DEVICE = torch.device("cpu")
QWEN_MODEL_NAME =  "sberbank-ai/ruBert-large"
BERT_MODEL_NAME = "Davlan/bert-base-multilingual-cased-ner-hrl"  # Предобученная BERT для NER

from bs4 import BeautifulSoup, Comment
import requests

from bs4 import BeautifulSoup, Comment
import requests

def extract_text_from_url(url: str, timeout: int = 10) -> str:
    """
    Извлекает основной текстовый контент с веб-страницы по URL.

    Параметры:
        url (str): URL веб-страницы
        timeout (int): Таймаут запроса в секундах (по умолчанию 10)

    Возвращает:
        str: Очищенный текстовый контент страницы
    """
    try:
        # Заголовки для имитации браузера
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }

        # Запрос с таймаутом и заголовками
        response = requests.get(url, headers=headers, timeout=timeout)
        response.raise_for_status()  # Проверка на ошибки HTTP

        soup = BeautifulSoup(response.text, 'html.parser')

        # Удаление нежелательных элементов
        for element in soup(['script', 'style', 'nav', 'footer', 'iframe', 'noscript', 'svg']):
            element.decompose()

        # Удаление HTML-комментариев
        for comment in soup.find_all(string=lambda text: isinstance(text, Comment)):
            comment.extract()

        # Извлечение текста из основных содержательных тегов
        text_elements = []
        for tag in ['article', 'main', 'div', 'section', 'p']:
            elements = soup.find_all(tag)
            for element in elements:
                # Проверка на содержание значимого текста
                if len(element.get_text(strip=True)) > 50:  # Минимум 50 символов
                    text_elements.append(element.get_text(separator=' ', strip=True))

        # Если не нашли достаточно текста в специфичных тегах, берем весь body
        if not text_elements or sum(len(t) for t in text_elements) < 500:
            text_elements = [soup.get_text(separator=' ', strip=True)]

        # Объединение и очистка текста
        text = ' '.join(text_elements)

        # Удаление лишних пробелов и переносов строк
        text = ' '.join(text.split())

        return text

    except requests.exceptions.RequestException as e:
        print(f"Ошибка при запросе к {url}: {str(e)}")
        return ""
    except Exception as e:
        print(f"Неожиданная ошибка при обработке {url}: {str(e)}")
        return ""

def annotate_with_bert(text: str) -> List[Dict]:
    """Аннотирует текст с помощью предобученной модели BERT."""
    tokenizer = BertTokenizerFast.from_pretrained(BERT_MODEL_NAME)
    model = BertForTokenClassification.from_pretrained(BERT_MODEL_NAME).to(DEVICE)

    nlp = pipeline("ner", model=model, tokenizer=tokenizer, device=DEVICE)
    annotations = nlp(text)
    return annotations

def adapt_qwen_for_ner(model_name: str = QWEN_MODEL_NAME):
    """Загружает модель Qwen и адаптирует её для NER."""
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForTokenClassification.from_pretrained(
        model_name,
        num_labels=9,  # Стандартное количество классов для NER (PER, ORG, LOC и т.д.)
        id2label={0: 'O', 1: 'B-PER', 2: 'I-PER', 3: 'B-ORG', 4: 'I-ORG',
                  5: 'B-LOC', 6: 'I-LOC', 7: 'B-MISC', 8: 'I-MISC'},
        label2id={'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4,
                  'B-LOC': 5, 'I-LOC': 6, 'B-MISC': 7, 'I-MISC': 8}
    ).to(DEVICE)

    # Замораживаем все слои, кроме последнего
    for param in model.base_model.parameters():
        param.requires_grad = False

    return model, tokenizer

class NERDataset(Dataset):
    """Кастомный Dataset для NER."""
    def __init__(self, texts, annotations, tokenizer, model_config, max_length=128):
        self.texts = texts
        self.annotations = annotations
        self.tokenizer = tokenizer
        self.model_config = model_config  # Добавляем конфигурацию модели
        self.max_length = max_length

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        annotations = self.annotations[idx]

        # Токенизация с выравниванием меток
        encoding = self.tokenizer(
            text,
            max_length=self.max_length,
            truncation=True,
            padding='max_length',
            return_tensors='pt',
            return_offsets_mapping=True
        )

        # Создаем массив меток, заполненный -100 (игнорируется при вычислении потерь)
        labels = torch.full((self.max_length,), -100, dtype=torch.long)

        # Преобразуем аннотации в метки для токенов
        offset_mapping = encoding['offset_mapping'][0]
        for ann in annotations:
            start, end = ann['start'], ann['end']
            label = ann['entity']

            # Находим токены, которые пересекаются с аннотацией
            for i, (token_start, token_end) in enumerate(offset_mapping):
                if token_start >= end or token_end <= start:
                    continue
                if token_start != 0 or token_end != 0:  # Игнорируем специальные токены
                    labels[i] = self.model_config.label2id.get(label, 0)  # Используем self.model_config

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': labels
        }

def prepare_training_data(text, bert_annotations, tokenizer, test_size=0.2):
    """Подготавливает данные для обучения и валидации."""
    # Разделяем текст на предложения (упрощенно)
    sentences = [sent.strip() for sent in text.split('.') if len(sent.strip()) > 0]

    # Сопоставляем аннотации с предложениями (упрощенно)
    sentence_annotations = []
    current_pos = 0
    for sent in sentences:
        sent_len = len(sent)
        sent_anns = []
        for ann in bert_annotations:
            if current_pos <= ann['start'] < current_pos + sent_len:
                adjusted_ann = {
                    'start': ann['start'] - current_pos,
                    'end': ann['end'] - current_pos,
                    'entity': ann['entity']
                }
                sent_anns.append(adjusted_ann)
        sentence_annotations.append(sent_anns)
        current_pos += sent_len + 1  # +1 для точки

    # Разделяем на train и test
    split_idx = int(len(sentences) * (1 - test_size))
    train_texts, train_anns = sentences[:split_idx], sentence_annotations[:split_idx]
    val_texts, val_anns = sentences[split_idx:], sentence_annotations[split_idx:]

    return train_texts, train_anns, val_texts, val_anns

def train_qwen(model, tokenizer, text, bert_annotations, epochs=3, batch_size=8, learning_rate=2e-5):
    """Полноценная функция обучения модели Qwen для NER."""

    # Подготовка данных
    train_texts, train_anns, val_texts, val_anns = prepare_training_data(text, bert_annotations, tokenizer)

    train_dataset = NERDataset(train_texts, train_anns, tokenizer, model_config=model.config)
    val_dataset = NERDataset(val_texts, val_anns, tokenizer, model_config=model.config)

    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=batch_size)

    # Настройка оптимизатора и планировщика
    optimizer = AdamW(model.parameters(), lr=learning_rate)
    total_steps = len(train_loader) * epochs
    scheduler = get_linear_schedule_with_warmup(
        optimizer,
        num_warmup_steps=0,
        num_training_steps=total_steps
    )

    # Обучение
    best_val_loss = float('inf')
    for epoch in range(epochs):
        print(f"\nEpoch {epoch + 1}/{epochs}")

        # Фаза обучения
        model.train()
        train_loss = 0
        for batch in tqdm(train_loader, desc="Training"):
            batch = {k: v.to(DEVICE) for k, v in batch.items()}

            optimizer.zero_grad()
            outputs = model(
                input_ids=batch['input_ids'],
                attention_mask=batch['attention_mask'],
                labels=batch['labels']
            )
            loss = outputs.loss
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
            scheduler.step()

            train_loss += loss.item()

        avg_train_loss = train_loss / len(train_loader)

        # Фаза валидации
        model.eval()
        val_loss = 0
        all_preds = []
        all_labels = []
        for batch in tqdm(val_loader, desc="Validating"):
            batch = {k: v.to(DEVICE) for k, v in batch.items()}

            with torch.no_grad():
                outputs = model(
                    input_ids=batch['input_ids'],
                    attention_mask=batch['attention_mask'],
                    labels=batch['labels']
                )

            val_loss += outputs.loss.item()

            # Собираем предсказания и метки для метрик
            preds = torch.argmax(outputs.logits, dim=2)
            mask = batch['labels'] != -100  # Игнорируем метки -100

            all_preds.extend(preds[mask].cpu().numpy())
            all_labels.extend(batch['labels'][mask].cpu().numpy())

        avg_val_loss = val_loss / len(val_loader)

        # Выводим метрики
        print(f"Train Loss: {avg_train_loss:.4f} | Val Loss: {avg_val_loss:.4f}")
        # print(classification_report(
        #     all_labels,
        #     all_preds,
        #     target_names=list(model.config.id2label.values()),
        #     zero_division=0
        # ))

        # Сохраняем лучшую модель
        if avg_val_loss < best_val_loss:
            best_val_loss = avg_val_loss
            os.makedirs("./qwen_ner", exist_ok=True)
            model.save_pretrained("./qwen_ner")
            tokenizer.save_pretrained("./qwen_ner")
            print("Saved best model!")

    return model

def predict_with_qwen(text: str, model, tokenizer) -> List[Tuple[str, str]]:
    """Делает предсказания с помощью адаптированной модели Qwen."""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(DEVICE)
    with torch.no_grad():
        outputs = model(**inputs)

    predictions = torch.argmax(outputs.logits, dim=2)
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    labels = [model.config.id2label[p.item()] for p in predictions[0]]

    return list(zip(tokens, labels))

def main(url: str):
    # 1. Извлекаем текст с веб-страницы
    text = extract_text_from_url(url)
    print(f"Извлечённый текст:\n{text[:500]}...\n")

    # 2. Аннотируем с помощью BERT
    bert_annotations = annotate_with_bert(text[:512])  # Ограничиваем длину для BERT
    print(f"Пример аннотаций BERT:\n{bert_annotations[:5]}\n")

    # 3. Адаптируем Qwen для NER
    qwen_model, qwen_tokenizer = adapt_qwen_for_ner()

    # 4. Обучаем модель
    qwen_model = train_qwen(qwen_model, qwen_tokenizer, text[:2000], bert_annotations, epochs=3)

    # 5. Делаем предсказания
    predictions = predict_with_qwen(text[:512], qwen_model, qwen_tokenizer)

    # 6. Выводим результаты
    print("Предсказания модели Qwen (первые 20 токенов):")
    for token, label in predictions[:20]:
        print(f"{token} -> {label}")

if __name__ == "__main__":
    url = "https://amulex.ru/daily/news/vozrozhdenie-lyutovolkov-iz-igry-prestolov-nauchnyj-proryv-bjfj4kf/?ysclid=mae5l3wify323318294"  # Пример URL
    main(url)

Извлечённый текст:
Блог / Новости Возрождение лютоволков из «Игры престолов»: научный прорыв Полина Недашковская 07 мая, 2025 • 2 мин • 157 Копировать ссылку Telegram VK WhatsApp Биотехнологическая компания Colossal Biosciences из Далласа совершила прорыв в области возрождения вымерших видов животных, воссоздав ужасных волков (dire wolves), известных широкой аудитории как «лютоволки» из «Игры престолов» . Процесс был долгим и сложным, но в итоге ученые смогли вернуть к жизни этот вид, вымерший более 12 тысяч лет н...



The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/264 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.10k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/709M [00:00<?, ?B/s]

Device set to use cpu


Пример аннотаций BERT:
[{'entity': 'B-PER', 'score': np.float32(0.9995003), 'index': 26, 'word': 'Пол', 'start': 74, 'end': 77}, {'entity': 'I-PER', 'score': np.float32(0.9840973), 'index': 27, 'word': '##ина', 'start': 77, 'end': 80}, {'entity': 'I-PER', 'score': np.float32(0.9996512), 'index': 28, 'word': 'Не', 'start': 81, 'end': 83}, {'entity': 'I-PER', 'score': np.float32(0.99967647), 'index': 29, 'word': '##да', 'start': 83, 'end': 85}, {'entity': 'I-PER', 'score': np.float32(0.9995914), 'index': 30, 'word': '##шко', 'start': 85, 'end': 88}]



config.json:   0%|          | 0.00/591 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.78M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.71G [00:00<?, ?B/s]

Some weights of BertForTokenClassification were not initialized from the model checkpoint at sberbank-ai/ruBert-large and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.



Epoch 1/3


Training: 100%|██████████| 2/2 [00:14<00:00,  7.42s/it]
Validating: 100%|██████████| 1/1 [00:04<00:00,  4.70s/it]


Train Loss: nan | Val Loss: nan

Epoch 2/3


Training: 100%|██████████| 2/2 [00:15<00:00,  7.85s/it]
Validating: 100%|██████████| 1/1 [00:04<00:00,  4.70s/it]


Train Loss: nan | Val Loss: nan

Epoch 3/3


Training: 100%|██████████| 2/2 [00:14<00:00,  7.20s/it]
Validating: 100%|██████████| 1/1 [00:04<00:00,  4.80s/it]
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Train Loss: nan | Val Loss: nan
Предсказания модели Qwen (первые 20 токенов):
[CLS] -> B-PER
блог -> B-ORG
/ -> B-ORG
новости -> I-LOC
возрождение -> B-PER
люто -> I-ORG
##вол -> I-ORG
##ков -> I-MISC
из -> I-ORG
« -> B-ORG
игры -> B-ORG
престолов -> B-ORG
» -> B-MISC
: -> B-ORG
науч -> I-ORG
##ны -> B-MISC
##и -> B-ORG
прорыв -> B-PER
поли -> I-MISC
##на -> I-PER


# FACEBOOK AI

In [None]:
import torch
import requests
from bs4 import BeautifulSoup
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
from typing import List, Dict, Tuple
from torch.utils.data import Dataset, DataLoader
from transformers import get_linear_schedule_with_warmup
from torch.optim import AdamW
from sklearn.metrics import classification_report
import numpy as np
from tqdm import tqdm
import os

# Конфигурация
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
MODEL_NAME = "FacebookAI/xlm-roberta-large-finetuned-conll03-english"

from bs4 import BeautifulSoup, Comment
import requests

def extract_text_from_url(url: str, timeout: int = 10) -> str:
    """
    Извлекает основной текстовый контент с веб-страницы по URL.

    Параметры:
        url (str): URL веб-страницы
        timeout (int): Таймаут запроса в секундах (по умолчанию 10)

    Возвращает:
        str: Очищенный текстовый контент страницы
    """
    try:
        # Заголовки для имитации браузера
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }

        # Запрос с таймаутом и заголовками
        response = requests.get(url, headers=headers, timeout=timeout)
        response.raise_for_status()  # Проверка на ошибки HTTP

        soup = BeautifulSoup(response.text, 'html.parser')

        # Удаление нежелательных элементов
        for element in soup(['script', 'style', 'nav', 'footer', 'iframe', 'noscript', 'svg']):
            element.decompose()

        # Удаление HTML-комментариев
        for comment in soup.find_all(string=lambda text: isinstance(text, Comment)):
            comment.extract()

        # Извлечение текста из основных содержательных тегов
        text_elements = []
        for tag in ['article', 'main', 'div', 'section', 'p']:
            elements = soup.find_all(tag)
            for element in elements:
                # Проверка на содержание значимого текста
                if len(element.get_text(strip=True)) > 50:  # Минимум 50 символов
                    text_elements.append(element.get_text(separator=' ', strip=True))

        # Если не нашли достаточно текста в специфичных тегах, берем весь body
        if not text_elements or sum(len(t) for t in text_elements) < 500:
            text_elements = [soup.get_text(separator=' ', strip=True)]

        # Объединение и очистка текста
        text = ' '.join(text_elements)

        # Удаление лишних пробелов и переносов строк
        text = ' '.join(text.split())

        return text

    except requests.exceptions.RequestException as e:
        print(f"Ошибка при запросе к {url}: {str(e)}")
        return ""
    except Exception as e:
        print(f"Неожиданная ошибка при обработке {url}: {str(e)}")
        return ""

def annotate_with_xlm_roberta(text: str) -> List[Dict]:
    """Аннотирует текст с помощью предобученной модели XLM-RoBERTa."""
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForTokenClassification.from_pretrained(MODEL_NAME).to(DEVICE)

    nlp = pipeline("ner", model=model, tokenizer=tokenizer, device=0 if DEVICE.type == "cuda" else -1)
    annotations = nlp(text)

    # Добавляем индекс сущности в соответствии с id2label модели
    label2id = model.config.label2id
    for ann in annotations:
        ann['index'] = label2id[ann['entity']]

    return annotations

class NERDataset(Dataset):
    """Кастомный Dataset для NER."""
    def __init__(self, texts, annotations, tokenizer, max_length=128):
        self.texts = texts
        self.annotations = annotations
        self.tokenizer = tokenizer
        self.max_length = max_length
        self.label_map = {
            'O': 0,
            'B-PER': 1,
            'I-PER': 2,
            'B-ORG': 3,
            'I-ORG': 4,
            'B-LOC': 5,
            'I-LOC': 6,
            'B-MISC': 7,
            'I-MISC': 8
        }

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        annotations = self.annotations[idx]

        # Токенизация с выравниванием меток
        encoding = self.tokenizer(
            text,
            max_length=self.max_length,
            truncation=True,
            padding='max_length',
            return_tensors='pt',
            return_offsets_mapping=True
        )

        # Создаем массив меток, заполненный -100 (игнорируется при вычислении потерь)
        labels = torch.full((self.max_length,), -100, dtype=torch.long)

        # Преобразуем аннотации в метки для токенов
        offset_mapping = encoding['offset_mapping'][0]
        for ann in annotations:
            start, end = ann['start'], ann['end']
            label_idx = ann['index']  # Используем предварительно сохраненный индекс

            # Находим токены, которые пересекаются с аннотацией
            for i, (token_start, token_end) in enumerate(offset_mapping):
                if token_start >= end or token_end <= start:
                    continue
                if token_start != 0 or token_end != 0:  # Игнорируем специальные токены
                    # Убедимся, что индекс метки в допустимых пределах
                    if 0 <= label_idx < len(self.label_map):
                        labels[i] = label_idx
                    else:
                        labels[i] = 0  # По умолчанию 'O'

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': labels
        }

def prepare_training_data(text, annotations, tokenizer, test_size=0.2):
    """Подготавливает данные для обучения и валидации."""
    # Разделяем текст на предложения (упрощенно)
    sentences = [sent.strip() for sent in text.split('.') if len(sent.strip()) > 0]

    # Сопоставляем аннотации с предложениями (упрощенно)
    sentence_annotations = []
    current_pos = 0
    for sent in sentences:
        sent_len = len(sent)
        sent_anns = []
        for ann in annotations:
            if current_pos <= ann['start'] < current_pos + sent_len:
                adjusted_ann = {
                    'start': ann['start'] - current_pos,
                    'end': ann['end'] - current_pos,
                    'entity': ann['entity'],
                    'index': ann['index']  # Сохраняем индекс сущности
                }
                sent_anns.append(adjusted_ann)
        sentence_annotations.append(sent_anns)
        current_pos += sent_len + 1  # +1 для точки

    # Разделяем на train и test
    split_idx = int(len(sentences) * (1 - test_size))
    train_texts, train_anns = sentences[:split_idx], sentence_annotations[:split_idx]
    val_texts, val_anns = sentences[split_idx:], sentence_annotations[split_idx:]

    return train_texts, train_anns, val_texts, val_anns

def train_model(model, tokenizer, text, annotations, epochs=3, batch_size=8, learning_rate=2e-5):
    """Функция обучения модели XLM-RoBERTa для NER."""

    # Подготовка данных
    train_texts, train_anns, val_texts, val_anns = prepare_training_data(text, annotations, tokenizer)

    train_dataset = NERDataset(train_texts, train_anns, tokenizer)
    val_dataset = NERDataset(val_texts, val_anns, tokenizer)

    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=batch_size)

    # Настройка оптимизатора и планировщика
    optimizer = AdamW(model.parameters(), lr=learning_rate)
    total_steps = len(train_loader) * epochs
    scheduler = get_linear_schedule_with_warmup(
        optimizer,
        num_warmup_steps=0,
        num_training_steps=total_steps
    )

    # Обучение
    best_val_loss = float('inf')
    for epoch in range(epochs):
        print(f"\nEpoch {epoch + 1}/{epochs}")

        # Фаза обучения
        model.train()
        train_loss = 0
        for batch in tqdm(train_loader, desc="Training"):
            batch = {k: v.to(DEVICE) for k, v in batch.items()}

            optimizer.zero_grad()
            outputs = model(
                input_ids=batch['input_ids'],
                attention_mask=batch['attention_mask'],
                labels=batch['labels']
            )
            loss = outputs.loss
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
            scheduler.step()

            train_loss += loss.item()

        avg_train_loss = train_loss / len(train_loader)

        # Фаза валидации
        model.eval()
        val_loss = 0
        all_preds = []
        all_labels = []
        for batch in tqdm(val_loader, desc="Validating"):
            batch = {k: v.to(DEVICE) for k, v in batch.items()}

            with torch.no_grad():
                outputs = model(
                    input_ids=batch['input_ids'],
                    attention_mask=batch['attention_mask'],
                    labels=batch['labels']
                )

            val_loss += outputs.loss.item()

            # Собираем предсказания и метки для метрик
            preds = torch.argmax(outputs.logits, dim=2)
            mask = batch['labels'] != -100  # Игнорируем метки -100

            all_preds.extend(preds[mask].cpu().numpy())
            all_labels.extend(batch['labels'][mask].cpu().numpy())

        avg_val_loss = val_loss / len(val_loader)

        # Выводим метрики
        print(f"Train Loss: {avg_train_loss:.4f} | Val Loss: {avg_val_loss:.4f}")
        # print(classification_report(
        #     all_labels,
        #     all_preds,
        #     target_names=list(model.config.id2label.values()),
        #     zero_division=0
        # ))

        # Сохраняем лучшую модель
        if avg_val_loss < best_val_loss:
            best_val_loss = avg_val_loss
            os.makedirs("./xlm_roberta_ner", exist_ok=True)
            model.save_pretrained("./xlm_roberta_ner")
            tokenizer.save_pretrained("./xlm_roberta_ner")
            print("Saved best model!")

    return model

def predict_with_model(text: str, model, tokenizer) -> List[Tuple[str, str]]:
    """Делает предсказания с помощью модели XLM-RoBERTa."""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(DEVICE)
    with torch.no_grad():
        outputs = model(**inputs)

    predictions = torch.argmax(outputs.logits, dim=2)
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    labels = [model.config.id2label[p.item()] for p in predictions[0]]

    return list(zip(tokens, labels))

def main(url: str):
    # 1. Извлекаем текст с веб-страницы
    text = extract_text_from_url(url)
    print(f"Извлечённый текст:\n{text[:500]}...\n")

    # 2. Аннотируем с помощью XLM-RoBERTa
    annotations = annotate_with_xlm_roberta(text[:512])  # Ограничиваем длину для модели
    print(f"Пример аннотаций XLM-RoBERTa:\n{annotations[:5]}\n")

    # 3. Загружаем модель и токенизатор
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForTokenClassification.from_pretrained(MODEL_NAME).to(DEVICE)

    # 4. Обучаем модель (дообучение)
    model = train_model(model, tokenizer, text[:2000], annotations, epochs=3)

    # 5. Делаем предсказания
    predictions = predict_with_model(text[:512], model, tokenizer)

    # 6. Выводим результаты
    print("Предсказания модели XLM-RoBERTa (первые 20 токенов):")
    for token, label in predictions[:20]:
        print(f"{token} -> {label}")

if __name__ == "__main__":
    url = "https://amulex.ru/daily/news/vozrozhdenie-lyutovolkov-iz-igry-prestolov-nauchnyj-proryv-bjfj4kf/?ysclid=mae5l3wify323318294"
    main(url)

Извлечённый текст:
Блог / Новости Возрождение лютоволков из «Игры престолов»: научный прорыв Полина Недашковская 07 мая, 2025 • 2 мин • 144 Копировать ссылку Telegram VK WhatsApp Биотехнологическая компания Colossal Biosciences из Далласа совершила прорыв в области возрождения вымерших видов животных, воссоздав ужасных волков (dire wolves), известных широкой аудитории как «лютоволки» из «Игры престолов» . Процесс был долгим и сложным, но в итоге ученые смогли вернуть к жизни этот вид, вымерший более 12 тысяч лет н...



Some weights of the model checkpoint at FacebookAI/xlm-roberta-large-finetuned-conll03-english were not used when initializing XLMRobertaForTokenClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing XLMRobertaForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


Пример аннотаций XLM-RoBERTa:
[{'entity': 'I-MISC', 'score': np.float32(0.9999461), 'index': 4, 'word': 'И', 'start': 42, 'end': 43}, {'entity': 'I-MISC', 'score': np.float32(0.9999021), 'index': 4, 'word': 'г', 'start': 43, 'end': 44}, {'entity': 'I-MISC', 'score': np.float32(0.99977), 'index': 4, 'word': 'ры', 'start': 44, 'end': 46}, {'entity': 'I-MISC', 'score': np.float32(0.99995315), 'index': 4, 'word': '▁престол', 'start': 47, 'end': 54}, {'entity': 'I-MISC', 'score': np.float32(0.99939775), 'index': 4, 'word': 'ов', 'start': 54, 'end': 56}]



Some weights of the model checkpoint at FacebookAI/xlm-roberta-large-finetuned-conll03-english were not used when initializing XLMRobertaForTokenClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing XLMRobertaForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).



Epoch 1/3


Training: 100%|██████████| 2/2 [01:45<00:00, 52.74s/it]
Validating: 100%|██████████| 1/1 [00:04<00:00,  4.50s/it]


Train Loss: nan | Val Loss: nan

Epoch 2/3


Training: 100%|██████████| 2/2 [00:49<00:00, 24.75s/it]
Validating: 100%|██████████| 1/1 [00:04<00:00,  4.99s/it]


Train Loss: nan | Val Loss: nan

Epoch 3/3


Training: 100%|██████████| 2/2 [00:51<00:00, 25.55s/it]
Validating: 100%|██████████| 1/1 [00:05<00:00,  5.29s/it]


Train Loss: nan | Val Loss: nan
Предсказания модели XLM-RoBERTa (первые 20 токенов):
<s> -> O
▁Блог -> O
▁/ -> O
▁Новости -> O
▁Воз -> O
рожден -> O
ие -> O
▁лют -> O
о -> O
вол -> O
ков -> O
▁из -> O
▁« -> O
И -> I-MISC
г -> I-MISC
ры -> I-MISC
▁престол -> I-MISC
ов -> I-MISC
»: -> O
▁на -> O


# Babelscape/wikineural-multilingual-ner
---



In [None]:
import torch
import requests
from bs4 import BeautifulSoup
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
from typing import List, Dict, Tuple
from torch.utils.data import Dataset, DataLoader
from transformers import get_linear_schedule_with_warmup
from torch.optim import AdamW
from sklearn.metrics import classification_report
import numpy as np
from tqdm import tqdm
import os

# Конфигурация
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
MODEL_NAME = "Babelscape/wikineural-multilingual-ner"

from bs4 import BeautifulSoup, Comment
import requests

def extract_text_from_url(url: str, timeout: int = 10) -> str:
    """
    Извлекает основной текстовый контент с веб-страницы по URL.

    Параметры:
        url (str): URL веб-страницы
        timeout (int): Таймаут запроса в секундах (по умолчанию 10)

    Возвращает:
        str: Очищенный текстовый контент страницы
    """
    try:
        # Заголовки для имитации браузера
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }

        # Запрос с таймаутом и заголовками
        response = requests.get(url, headers=headers, timeout=timeout)
        response.raise_for_status()  # Проверка на ошибки HTTP

        soup = BeautifulSoup(response.text, 'html.parser')

        # Удаление нежелательных элементов
        for element in soup(['script', 'style', 'nav', 'footer', 'iframe', 'noscript', 'svg']):
            element.decompose()

        # Удаление HTML-комментариев
        for comment in soup.find_all(string=lambda text: isinstance(text, Comment)):
            comment.extract()

        # Извлечение текста из основных содержательных тегов
        text_elements = []
        for tag in ['article', 'main', 'div', 'section', 'p']:
            elements = soup.find_all(tag)
            for element in elements:
                # Проверка на содержание значимого текста
                if len(element.get_text(strip=True)) > 50:  # Минимум 50 символов
                    text_elements.append(element.get_text(separator=' ', strip=True))

        # Если не нашли достаточно текста в специфичных тегах, берем весь body
        if not text_elements or sum(len(t) for t in text_elements) < 500:
            text_elements = [soup.get_text(separator=' ', strip=True)]

        # Объединение и очистка текста
        text = ' '.join(text_elements)

        # Удаление лишних пробелов и переносов строк
        text = ' '.join(text.split())

        return text

    except requests.exceptions.RequestException as e:
        print(f"Ошибка при запросе к {url}: {str(e)}")
        return ""
    except Exception as e:
        print(f"Неожиданная ошибка при обработке {url}: {str(e)}")
        return ""

def annotate_with_wikineural(text: str) -> List[Dict]:
    """Аннотирует текст с помощью модели WikiNeural."""
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForTokenClassification.from_pretrained(MODEL_NAME).to(DEVICE)

    nlp = pipeline("ner", model=model, tokenizer=tokenizer, device=0 if DEVICE.type == "cuda" else -1)
    annotations = nlp(text)

    # Добавляем индекс сущности в соответствии с id2label модели
    label2id = model.config.label2id
    for ann in annotations:
        ann['index'] = label2id[ann['entity']]

    return annotations

class NERDataset(Dataset):
    """Кастомный Dataset для NER."""
    def __init__(self, texts, annotations, tokenizer, max_length=128):
        self.texts = texts
        self.annotations = annotations
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = self.texts[idx]
        annotations = self.annotations[idx]

        # Токенизация с выравниванием меток
        encoding = self.tokenizer(
            text,
            max_length=self.max_length,
            truncation=True,
            padding='max_length',
            return_tensors='pt',
            return_offsets_mapping=True
        )

        # Создаем массив меток, заполненный -100 (игнорируется при вычислении потерь)
        labels = torch.full((self.max_length,), -100, dtype=torch.long)

        # Преобразуем аннотации в метки для токенов
        offset_mapping = encoding['offset_mapping'][0]
        for ann in annotations:
            start, end = ann['start'], ann['end']
            label_idx = ann['index']

            # Находим токены, которые пересекаются с аннотацией
            for i, (token_start, token_end) in enumerate(offset_mapping):
                if token_start >= end or token_end <= start:
                    continue
                if token_start != 0 or token_end != 0:  # Игнорируем специальные токены
                    labels[i] = label_idx

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': labels
        }

def prepare_training_data(text, annotations, tokenizer, test_size=0.2):
    """Подготавливает данные для обучения и валидации."""
    # Разделяем текст на предложения (упрощенно)
    sentences = [sent.strip() for sent in text.split('.') if len(sent.strip()) > 0]

    # Сопоставляем аннотации с предложениями (упрощенно)
    sentence_annotations = []
    current_pos = 0
    for sent in sentences:
        sent_len = len(sent)
        sent_anns = []
        for ann in annotations:
            if current_pos <= ann['start'] < current_pos + sent_len:
                adjusted_ann = {
                    'start': ann['start'] - current_pos,
                    'end': ann['end'] - current_pos,
                    'entity': ann['entity'],
                    'index': ann['index']
                }
                sent_anns.append(adjusted_ann)
        sentence_annotations.append(sent_anns)
        current_pos += sent_len + 1  # +1 для точки

    # Разделяем на train и test
    split_idx = int(len(sentences) * (1 - test_size))
    train_texts, train_anns = sentences[:split_idx], sentence_annotations[:split_idx]
    val_texts, val_anns = sentences[split_idx:], sentence_annotations[split_idx:]

    return train_texts, train_anns, val_texts, val_anns

def train_model(model, tokenizer, text, annotations, epochs=3, batch_size=8, learning_rate=2e-5):
    """Функция обучения модели WikiNeural для NER."""

    # Подготовка данных
    train_texts, train_anns, val_texts, val_anns = prepare_training_data(text, annotations, tokenizer)

    train_dataset = NERDataset(train_texts, train_anns, tokenizer)
    val_dataset = NERDataset(val_texts, val_anns, tokenizer)

    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=batch_size)

    # Настройка оптимизатора и планировщика
    optimizer = AdamW(model.parameters(), lr=learning_rate)
    total_steps = len(train_loader) * epochs
    scheduler = get_linear_schedule_with_warmup(
        optimizer,
        num_warmup_steps=0,
        num_training_steps=total_steps
    )

    # Обучение
    best_val_loss = float('inf')
    for epoch in range(epochs):
        print(f"\nEpoch {epoch + 1}/{epochs}")

        # Фаза обучения
        model.train()
        train_loss = 0
        for batch in tqdm(train_loader, desc="Training"):
            batch = {k: v.to(DEVICE) for k, v in batch.items()}

            optimizer.zero_grad()
            outputs = model(
                input_ids=batch['input_ids'],
                attention_mask=batch['attention_mask'],
                labels=batch['labels']
            )
            loss = outputs.loss
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()
            scheduler.step()

            train_loss += loss.item()

        avg_train_loss = train_loss / len(train_loader)

        # Фаза валидации
        model.eval()
        val_loss = 0
        all_preds = []
        all_labels = []
        for batch in tqdm(val_loader, desc="Validating"):
            batch = {k: v.to(DEVICE) for k, v in batch.items()}

            with torch.no_grad():
                outputs = model(
                    input_ids=batch['input_ids'],
                    attention_mask=batch['attention_mask'],
                    labels=batch['labels']
                )

            val_loss += outputs.loss.item()

            # Собираем предсказания и метки для метрик
            preds = torch.argmax(outputs.logits, dim=2)
            mask = batch['labels'] != -100  # Игнорируем метки -100

            all_preds.extend(preds[mask].cpu().numpy())
            all_labels.extend(batch['labels'][mask].cpu().numpy())

        avg_val_loss = val_loss / len(val_loader)

        # Выводим метрики
        print(f"Train Loss: {avg_train_loss:.4f} | Val Loss: {avg_val_loss:.4f}")
        if len(all_labels) > 0:
            print(classification_report(
                all_labels,
                all_preds,
                target_names=list(model.config.id2label.values()),
                zero_division=0
            ))

        # Сохраняем лучшую модель
        if avg_val_loss < best_val_loss:
            best_val_loss = avg_val_loss
            os.makedirs("./wikineural_ner", exist_ok=True)
            model.save_pretrained("./wikineural_ner")
            tokenizer.save_pretrained("./wikineural_ner")
            print("Saved best model!")

    return model

def predict_with_model(text: str, model, tokenizer) -> List[Tuple[str, str]]:
    """Делает предсказания с помощью модели WikiNeural."""
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(DEVICE)
    with torch.no_grad():
        outputs = model(**inputs)

    predictions = torch.argmax(outputs.logits, dim=2)
    tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    labels = [model.config.id2label[p.item()] for p in predictions[0]]

    return list(zip(tokens, labels))

def main(url: str):
    # 1. Извлекаем текст с веб-страницы
    text = extract_text_from_url(url)
    print(f"Извлечённый текст:\n{text[:500]}...\n")

    # 2. Аннотируем с помощью WikiNeural
    annotations = annotate_with_wikineural(text[:512])  # Ограничиваем длину для модели
    print(f"Пример аннотаций WikiNeural:\n{annotations[:5]}\n")

    # 3. Загружаем модель и токенизатор
    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
    model = AutoModelForTokenClassification.from_pretrained(MODEL_NAME).to(DEVICE)

    # 4. Обучаем модель (дообучение)
    model = train_model(model, tokenizer, text[:2000], annotations, epochs=3)

    # 5. Делаем предсказания
    predictions = predict_with_model(text[:512], model, tokenizer)

    # 6. Выводим результаты
    print("Предсказания модели WikiNeural (первые 20 токенов):")
    for token, label in predictions[:20]:
        print(f"{token} -> {label}")

if __name__ == "__main__":
    url = "https://amulex.ru/daily/news/vozrozhdenie-lyutovolkov-iz-igry-prestolov-nauchnyj-proryv-bjfj4kf/?ysclid=mae5l3wify323318294"  # Пример URL
    main(url)

Извлечённый текст:
Блог / Новости Возрождение лютоволков из «Игры престолов»: научный прорыв Полина Недашковская 07 мая, 2025 • 2 мин • 150 Копировать ссылку Telegram VK WhatsApp Биотехнологическая компания Colossal Biosciences из Далласа совершила прорыв в области возрождения вымерших видов животных, воссоздав ужасных волков (dire wolves), известных широкой аудитории как «лютоволки» из «Игры престолов» . Процесс был долгим и сложным, но в итоге ученые смогли вернуть к жизни этот вид, вымерший более 12 тысяч лет н...



Device set to use cpu


Пример аннотаций WikiNeural:
[{'entity': 'I-MISC', 'score': np.float32(0.57293886), 'index': 8, 'word': '##гр', 'start': 43, 'end': 45}, {'entity': 'I-MISC', 'score': np.float32(0.59628475), 'index': 8, 'word': '##ы', 'start': 45, 'end': 46}, {'entity': 'I-MISC', 'score': np.float32(0.5956247), 'index': 8, 'word': 'престол', 'start': 47, 'end': 54}, {'entity': 'I-MISC', 'score': np.float32(0.5244818), 'index': 8, 'word': '##ов', 'start': 54, 'end': 56}, {'entity': 'B-PER', 'score': np.float32(0.99309933), 'index': 1, 'word': 'Пол', 'start': 74, 'end': 77}]


Epoch 1/3


Training: 100%|██████████| 2/2 [00:40<00:00, 20.09s/it]
Validating: 100%|██████████| 1/1 [00:01<00:00,  1.80s/it]


Train Loss: nan | Val Loss: nan

Epoch 2/3


Training: 100%|██████████| 2/2 [00:17<00:00,  8.70s/it]
Validating: 100%|██████████| 1/1 [00:01<00:00,  1.40s/it]


Train Loss: nan | Val Loss: nan

Epoch 3/3


Training: 100%|██████████| 2/2 [00:16<00:00,  8.15s/it]
Validating: 100%|██████████| 1/1 [00:01<00:00,  1.70s/it]


Train Loss: nan | Val Loss: nan
Предсказания модели WikiNeural (первые 20 токенов):
[CLS] -> O
Б -> I-MISC
##лог -> I-MISC
/ -> O
Ново -> I-MISC
##сти -> I-MISC
Во -> I-MISC
##з -> O
##ро -> O
##ждение -> I-MISC
л -> O
##ют -> O
##ово -> O
##лков -> O
из -> O
« -> I-MISC
И -> I-MISC
##гр -> I-MISC
##ы -> I-MISC
престол -> I-MISC


# STREAMLIT

In [2]:
pip install streamlit --ignore-installed blinker

Collecting streamlit
  Downloading streamlit-1.45.0-py3-none-any.whl.metadata (8.9 kB)
Collecting blinker
  Downloading blinker-1.9.0-py3-none-any.whl.metadata (1.6 kB)
Collecting altair<6,>=4.0 (from streamlit)
  Downloading altair-5.5.0-py3-none-any.whl.metadata (11 kB)
Collecting cachetools<6,>=4.0 (from streamlit)
  Downloading cachetools-5.5.2-py3-none-any.whl.metadata (5.4 kB)
Collecting click<9,>=7.0 (from streamlit)
  Downloading click-8.2.0-py3-none-any.whl.metadata (2.5 kB)
Collecting numpy<3,>=1.23 (from streamlit)
  Downloading numpy-2.2.5-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.0/62.0 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting packaging<25,>=20 (from streamlit)
  Downloading packaging-24.2-py3-none-any.whl.metadata (3.2 kB)
Collecting pandas<3,>=1.4.0 (from streamlit)
  Downloading pandas-2.2.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl

In [3]:
 pip install streamlit transformers torch beautifulsoup4 requests



In [4]:
import streamlit as st
import requests
from bs4 import BeautifulSoup
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import os

# Настройки страницы
st.set_page_config(
    page_title="NER со SBER AI",
    page_icon=":mag:",
    layout="wide"
)

# Заголовок приложения
st.title("Извлечение именованных сущностей (NER) с Qwen")
st.markdown("""
Это приложение анализирует текст с веб-страницы и извлекает именованные сущности с помощью модели Qwen.
""")

# Функция для получения текста с сайта
@st.cache_data(show_spinner=False)
def get_website_text(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')

        # Удаляем ненужные элементы
        for element in soup(['script', 'style', 'meta', 'link', 'nav', 'footer']):
            element.decompose()

        return ' '.join(soup.stripped_strings)
    except Exception as e:
        st.error(f"Ошибка при получении текста: {e}")
        return None

# Загрузка модели с индикатором прогресса
@st.cache_resource(show_spinner="Загрузка модели...")
def load_model():
    model_name = "sberbank-ai/ruBert-large" # или "Qwen/Qwen2.5-32B-Instruct"
    try:
        tokenizer = AutoTokenizer.from_pretrained(model_name)
        tokenizer.pad_token = tokenizer.eos_token
        model = AutoModelForCausalLM.from_pretrained(model_name)
        return tokenizer, model
    except Exception as e:
        st.error(f"Ошибка загрузки модели: {e}")
        return None, None

# Основной интерфейс
def main():
    # Сайдбар с настройками
    with st.sidebar:
        st.header("Настройки")
        url = st.text_input(
            "Введите URL страницы:",
            value="https://amulex.ru/daily/news/vozrozhdenie-lyutovolkov-iz-igry-prestolov-nauchnyj-proryv-bjfj4kf/?ysclid=mae5l3wify323318294"
        )
        max_length = st.slider("Максимальная длина текста:", 100, 2000, 512)
        analyze_button = st.button("Анализировать текст")

    if analyze_button and url:
        with st.spinner("Получаем текст с сайта..."):
            text = get_website_text(url)

        if text:
            # Обрезаем текст до выбранной длины
            text = text[:max_length]

            st.subheader("Извлеченный текст")
            st.text_area("Текст", text, height=200)

            with st.spinner("Анализируем текст..."):
                tokenizer, model = load_model()

                if model:
                    # Токенизация и предсказание
                    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)

                    with torch.no_grad():
                        outputs = model(**inputs)

                    # Получаем предсказания
                    predictions = torch.argmax(outputs.logits, dim=-1)
                    predicted_tokens = tokenizer.batch_decode(predictions[0])

                    # Отображаем результаты
                    st.subheader("Результаты анализа")

                    col1, col2 = st.columns(2)

                    with col1:
                        st.markdown("**Оригинальные токены:**")
                        st.write(tokenizer.tokenize(text)[:50])  # Показываем первые 50 токенов

                    with col2:
                        st.markdown("**Предсказанные токены:**")
                        st.write(predicted_tokens[:50])

                    # Дополнительная информация
                    with st.expander("Технические детали"):
                        st.write(f"Размер модели: {sum(p.numel() for p in model.parameters()):,} параметров")
                        st.write(f"Длина входного текста: {len(text)} символов")
                        st.write(f"Количество токенов: {inputs.input_ids.shape[1]}")
                else:
                    st.error("Не удалось загрузить модель")

if __name__ == "__main__":
    main()

2025-05-11 10:53:36.050 
  command:

    streamlit run /usr/local/lib/python3.11/dist-packages/colab_kernel_launcher.py [ARGUMENTS]
2025-05-11 10:53:36.053 No runtime found, using MemoryCacheStorageManager
2025-05-11 10:53:36.058 Session state does not function when running a script without `streamlit run`


In [None]:
!streamlit run /usr/local/lib/python3.11/dist-packages/colab_kernel_launcher.py [ARGUMENTS]


Collecting usage statistics. To deactivate, set browser.gatherUsageStats to false.
[0m
[0m
[34m[1m  You can now view your Streamlit app in your browser.[0m
[0m
[34m  Local URL: [0m[1mhttp://localhost:8501[0m
[34m  Network URL: [0m[1mhttp://172.28.0.12:8501[0m
[34m  External URL: [0m[1mhttp://35.224.229.246:8501[0m
[0m


# FASTAPI

In [None]:
pip install fastapi uvicorn requests beautifulsoup4 torch transformers

Collecting fastapi
  Downloading fastapi-0.115.12-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn
  Downloading uvicorn-0.34.2-py3-none-any.whl.metadata (6.5 kB)
Collecting starlette<0.47.0,>=0.40.0 (from fastapi)
  Downloading starlette-0.46.2-py3-none-any.whl.metadata (6.2 kB)
Downloading fastapi-0.115.12-py3-none-any.whl (95 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m95.2/95.2 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading uvicorn-0.34.2-py3-none-any.whl (62 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.5/62.5 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading starlette-0.46.2-py3-none-any.whl (72 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m72.0/72.0 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: uvicorn, starlette, fastapi
Successfully installed fastapi-0.115.12 starlette-0.46.2 uvicorn-0.34.2


In [None]:
pip install pyngrok

Collecting pyngrok
  Downloading pyngrok-7.2.7-py3-none-any.whl.metadata (9.4 kB)
Downloading pyngrok-7.2.7-py3-none-any.whl (23 kB)
Installing collected packages: pyngrok
Successfully installed pyngrok-7.2.7


In [None]:
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification
from typing import List, Dict, Optional
import requests
from bs4 import BeautifulSoup
import uvicorn
from pyngrok import ngrok

app = FastAPI(title="NER with Qwen", version="1.0")

# Конфигурация
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
MODEL_PATH = "./qwen_ner"  # Путь к сохраненной модели

# Загрузка модели и токенизатора
try:
    tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
    model = AutoModelForTokenClassification.from_pretrained(MODEL_PATH).to(DEVICE)
    print("Model loaded successfully")
except Exception as e:
    print(f"Error loading model: {e}")
    model = None
    tokenizer = None

class TextRequest(BaseModel):
    text: str
    return_entities: Optional[bool] = True

class URLRequest(BaseModel):
    url: str
    return_entities: Optional[bool] = True

class Entity(BaseModel):
    word: str
    entity: str
    start: int
    end: int

class NERResponse(BaseModel):
    tokens: List[str]
    labels: List[str]
    entities: Optional[List[Entity]] = None
    model: str = "Qwen-NER"

def extract_text_from_url(url: str) -> str:
    """Извлекает текст с веб-страницы по URL."""
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')

        # Удаляем ненужные элементы
        for element in soup(["script", "style", "nav", "footer", "head", "meta"]):
            element.decompose()

        text = soup.get_text(separator=' ', strip=True)
        return text
    except Exception as e:
        raise HTTPException(status_code=400, detail=f"Error extracting text from URL: {str(e)}")

def predict_entities(text: str) -> NERResponse:
    """Делает предсказания NER для текста."""
    if model is None or tokenizer is None:
        raise HTTPException(status_code=503, detail="Model not loaded")

    try:
        # Токенизация и предсказание
        inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(DEVICE)
        with torch.no_grad():
            outputs = model(**inputs)

        # Обработка результатов
        predictions = torch.argmax(outputs.logits, dim=2)
        tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
        labels = [model.config.id2label[p.item()] for p in predictions[0]]

        # Собираем сущности
        entities = []
        current_entity = None

        for i, (token, label) in enumerate(zip(tokens, labels)):
            if label.startswith("B-"):
                if current_entity:
                    entities.append(current_entity)
                current_entity = {
                    "word": token,
                    "entity": label[2:],
                    "start": i,
                    "end": i
                }
            elif label.startswith("I-") and current_entity and label[2:] == current_entity["entity"]:
                current_entity["word"] += " " + token
                current_entity["end"] = i
            else:
                if current_entity:
                    entities.append(current_entity)
                    current_entity = None

        if current_entity:
            entities.append(current_entity)

        # Преобразуем сущности в формат с позициями в тексте
        char_pos = 0
        text_entities = []
        offset_mapping = inputs["offset_mapping"][0].cpu().numpy()

        for entity in entities:
            start_token, end_token = entity["start"], entity["end"]
            start_pos = offset_mapping[start_token][0].item()
            end_pos = offset_mapping[end_token][1].item()

            text_entities.append(Entity(
                word=entity["word"],
                entity=entity["entity"],
                start=start_pos,
                end=end_pos
            ))

        return NERResponse(
            tokens=tokens,
            labels=labels,
            entities=text_entities
        )
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"Prediction error: {str(e)}")

@app.post("/predict/text", response_model=NERResponse)
async def predict_from_text(request: TextRequest):
    """API endpoint для обработки текста."""
    result = predict_entities(request.text)
    if not request.return_entities:
        result.entities = None
    return result

@app.post("/predict/url", response_model=NERResponse)
async def predict_from_url(request: URLRequest):
    """API endpoint для обработки URL."""
    text = extract_text_from_url(request.url)
    result = predict_entities(text)
    if not request.return_entities:
        result.entities = None
    return result

@app.get("/health")
async def health_check():
    """Проверка статуса сервиса."""
    return {
        "status": "OK" if model and tokenizer else "Error",
        "device": str(DEVICE),
        "model_loaded": bool(model)
    }

if __name__ == "__main__":
    uvicorn.run("__main__:app", host="0.0.0.0", port=8000, reload=True)

Error loading model: Repo id must use alphanumeric chars or '-', '_', '.', '--' and '..' are forbidden, '-' and '.' cannot start or end the name, max length is 96: './qwen_ner'.


INFO:     Will watch for changes in these directories: ['/content']
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)
INFO:     Started reloader process [1901] using StatReload
INFO:     Stopping reloader process [1901]


In [None]:
pip install "fastapi[standard]"


Collecting fastapi-cli>=0.0.5 (from fastapi-cli[standard]>=0.0.5; extra == "standard"->fastapi[standard])
  Downloading fastapi_cli-0.0.7-py3-none-any.whl.metadata (6.2 kB)
Collecting python-multipart>=0.0.18 (from fastapi[standard])
  Downloading python_multipart-0.0.20-py3-none-any.whl.metadata (1.8 kB)
Collecting email-validator>=2.0.0 (from fastapi[standard])
  Downloading email_validator-2.2.0-py3-none-any.whl.metadata (25 kB)
Collecting dnspython>=2.0.0 (from email-validator>=2.0.0->fastapi[standard])
  Downloading dnspython-2.7.0-py3-none-any.whl.metadata (5.8 kB)
Collecting rich-toolkit>=0.11.1 (from fastapi-cli>=0.0.5->fastapi-cli[standard]>=0.0.5; extra == "standard"->fastapi[standard])
  Downloading rich_toolkit-0.14.5-py3-none-any.whl.metadata (999 bytes)
Collecting httptools>=0.6.3 (from uvicorn[standard]>=0.12.0; extra == "standard"->fastapi[standard])
  Downloading httptools-0.6.4-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_

In [None]:
# примеры запросов, обработка текста
!curl -X POST "http://localhost:8000/predict/url" \
-H "Content-Type: application/json" \
-d '{"url": "https://ru.wikipedia.org/wiki/История_Google", "return_entities": true}'

curl: (7) Failed to connect to localhost port 8000 after 0 ms: Connection refused
