# Просмотр первых строк для каждого источника

Этот ноутбук показывает первые несколько строк для каждого source из файла unified_news_pairs


In [1]:
import pandas as pd


In [2]:
# Загрузка данных
df = pd.read_csv('unified_news_pairs.csv')
print(f"Всего строк: {len(df)}")
print(f"Колонки: {df.columns.tolist()}")


Всего строк: 8620
Колонки: ['text1', 'text2', 'label', 'source']


In [3]:
# Уникальные источники
sources = df['source'].unique()
print(f"Уникальные источники: {sources}")
print(f"Количество источников: {len(sources)}")


Уникальные источники: ['ru_paraphraser' 'opusparcus_ru']
Количество источников: 2


In [4]:
# Статистика по меткам (label)
print("\n" + "="*80)
print("СТАТИСТИКА ПО МЕТКАМ")
print("="*80)

label_counts = df['label'].value_counts().sort_index()
print("\nКоличество записей по меткам:")
for label, count in label_counts.items():
    percentage = (count / len(df)) * 100
    print(f"  Label {label}: {count:>8} ({percentage:.2f}%)")

print(f"\nВсего записей: {len(df)}")

# Статистика по меткам для каждого источника
print("\n" + "="*80)
print("СТАТИСТИКА ПО МЕТКАМ ДЛЯ КАЖДОГО ИСТОЧНИКА")
print("="*80)

for source in sources:
    print(f"\n{source}:")
    source_df = df[df['source'] == source]
    source_label_counts = source_df['label'].value_counts().sort_index()
    for label, count in source_label_counts.items():
        percentage = (count / len(source_df)) * 100
        print(f"  Label {label}: {count:>8} ({percentage:.2f}%)")
    print(f"  Всего: {len(source_df)}")



СТАТИСТИКА ПО МЕТКАМ

Количество записей по меткам:
  Label 0:     4477 (51.94%)
  Label 1:     4143 (48.06%)

Всего записей: 8620

СТАТИСТИКА ПО МЕТКАМ ДЛЯ КАЖДОГО ИСТОЧНИКА

ru_paraphraser:
  Label 0:     3335 (61.87%)
  Label 1:     2055 (38.13%)
  Всего: 5390

opusparcus_ru:
  Label 0:     1142 (35.36%)
  Label 1:     2088 (64.64%)
  Всего: 3230


In [5]:
# Показываем первые 5 строк для каждого источника
for source in sources:
    print(f"\n{'='*80}")
    print(f"Источник: {source}")
    print(f"{'='*80}")
    source_df = df[df['source'] == source]
    print(f"Всего строк для этого источника: {len(source_df)}")
    print("\nПервые 5 строк:")
    display(source_df.head(5))



Источник: ru_paraphraser
Всего строк для этого источника: 5390

Первые 5 строк:


Unnamed: 0,text1,text2,label,source
0,Курсанты университета МВД похитили человека и ...,Курсанты МВД похитили человека в Подмосковье.,0,ru_paraphraser
1,"""Лаборатория Касперского"" вскрыла международну...","""Лаборатория Касперского"" раскрыла международн...",1,ru_paraphraser
2,Закрытый из-за пожара аэропорт Рима возобновля...,СМИ: причина пожара в аэропорту Рима стало воз...,0,ru_paraphraser
4,Правительство ФРГ рассчитывает на благоразумие...,"Власти ФРГ аннулировали визу ""Ночного волка"" Ю...",0,ru_paraphraser
6,Три человека погибли из-за мощной волны на поб...,Мощная волна в Мексике унесла жизни трех человек,1,ru_paraphraser



Источник: opusparcus_ru
Всего строк для этого источника: 3230

Первые 5 строк:


Unnamed: 0,text1,text2,label,source
3,"Прошу тебя , перестань .","Пожалуйста , остановись .",1,opusparcus_ru
5,Это может быть еще не все .,Это может оказаться пустышкой .,0,opusparcus_ru
7,"Так что , похоже , что у нас есть серийный уби...","Так что у нас серийный убийца , чьи цели - люд...",1,opusparcus_ru
8,Я изложу свои мысли в книге .,Я закончу свою книгу .,0,opusparcus_ru
9,У меня есть там наделенные властью друзья .,У меня там могущественные друзья .,1,opusparcus_ru
