## Подбор необходимого набора данных

### Библиотека datasets

Библиотека datasets от Hugging Face предоставляет множество наборов данных для различных задач в области машинного обучения и обработки естественного языка. Вот некоторые из популярных наборов данных, которые могут быть полезны для работы с текстом, включая новости на русском языке:

1. **Russian News Dataset:** Наборы данных, содержащие статьи новостей на русском языке. Например, вы можете найти наборы данных с новостями из различных источников.

2. **RuSentiment:** Набор данных для анализа тональности текстов на русском языке. Содержит аннотированные отзывы и комментарии.

3. **Sberbank Russian Language Dataset:** Набор данных для задач обработки естественного языка, который включает в себя различные текстовые данные на русском языке.

4. **Toxic Comment Classification Challenge:** Набор данных, содержащий токсичные комментарии на нескольких языках, включая русский. Полезен для задач классификации текста.

5. **Russian Wikipedia:** Полный набор данных с текстами статей из русскоязычной Википедии, который можно использовать для различных задач, включая обучение языковых моделей.

6. **Multi-Genre Natural Language Inference (MNLI):** Хотя этот набор данных в основном на английском языке, есть его версии на других языках, включая русский, которые могут быть полезны для задач вывода.

7. **Common Crawl:** Наборы данных, собранные из веб-страниц, включая контент на русском языке. Это может быть полезно для создания больших языковых моделей.

In [1]:
#pip install datasets

In [4]:
from datasets import load_dataset

dataset = load_dataset('data-silence/rus_news_classifier')  # Укажите нужный набор данных
dataset

Downloading readme:   0%|          | 0.00/1.01k [00:00<?, ?B/s]

Downloading and preparing dataset None/None to C:/Users/Sonya/.cache/huggingface/datasets/data-silence___parquet/data-silence--rus_news_classifier-d21d67b1ed0f3c2c/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/69.1M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/17.3M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/57530 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/14383 [00:00<?, ? examples/s]

Dataset parquet downloaded and prepared to C:/Users/Sonya/.cache/huggingface/datasets/data-silence___parquet/data-silence--rus_news_classifier-d21d67b1ed0f3c2c/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['news', 'labels'],
        num_rows: 57530
    })
    test: Dataset({
        features: ['news', 'labels'],
        num_rows: 14383
    })
})

categories_translator:
- 'climate': 0,
- 'conflicts': 1,
- 'culture': 2,
- 'economy': 3,
- 'gloss': 4,
- 'health': 5,
- 'politics': 6,
- 'science': 7,
- 'society': 8,
- 'sports': 9,
- 'travel': 10}

In [10]:
print(dataset['train'][10])

{'news': 'Компания Xiaomi до конца осени может начать официально поставлять свои ноутбуки в Россию. Об этом сообщают «Известия» со ссылкой на источник в компании-партнере китайского вендора. Если китайская корпорация начнет поставлять ноутбуки в России, то станет едва ли не первым широко известным вендором, который выйдет на российский рынок после начала специальной военной операции на Украине и санкционной кампании, отметил один из собеседников издания. Отмечается, что официально Xiaomi до сих пор ввозил на территорию России только смартфоны, аксессуары, мелкую бытовую технику, телевизоры и другие позиции, но не ноутбуки. По данным Mobile Research Group, несмотря на отсутствие официального импорта, спрос на ноутбуки Xiaomi в стране был — в начале 2022 года они занимали 3,5-4 процента рынка этих устройств в натуральном выражении. По словам ведущего аналитика компании Эльдара Муртазина, если прямые поставки действительно начнутся, эта доля может значительно увеличиться. Он считает, что 

In [11]:
import pandas as pd

# Преобразование тренировочного набора данных в DataFrame
df_train = pd.DataFrame(dataset['train'])
df_test = pd.DataFrame(dataset['test'])

In [14]:
print(df_train.head)

<bound method NDFrame.head of                                                     news  labels
0      Житель Москвы сходил на сеанс эротического мас...       1
1      В 2021 году Microsoft выпустит специальную вер...       7
2      Министерство культуры и информационной политик...       2
3      Британский боксер-тяжеловес Тайсон Фьюри оскор...       9
4      Растущая напряженность между Индией и Китаем в...       1
...                                                  ...     ...
57525  Популярные парки аттракционов, закрытые на год...      10
57526  Модный редактор Vogue Хенрик Лишке назвал солн...       4
57527  Партнерам следует тщательнее подбирать слова и...       5
57528  44-летняя полная женщина повторила откровенные...       4
57529  Россия завершила укладку труб «Северного поток...       3

[57530 rows x 2 columns]>


In [15]:
print(df_test)

                                                    news  labels
0      Ученые Университета Неймегена и Университета Т...       7
1      Житель австралийского города Брисбена, штат Кв...       4
2      Минобороны России впервые испытает боевых робо...       1
3      Сотрудники ФСБ установили и задержали двух муж...       1
4      Стюардесса британских авиалиний Лаура Рейнольд...      10
...                                                  ...     ...
14378  вброс bloomberg о российском ' вмешательстве '...       4
14379  США разместили в Румынии элитную 101-ю десантн...       8
14380  Британская журналистка Даниэль Кейт Роу решила...       5
14381  На увеличение зарплат помощникам депутатов в 2...       6
14382  Австралийка, пережившая извержение вулкана на ...      10

[14383 rows x 2 columns]
