# Просмотр первых строк для каждого источника

Этот ноутбук показывает первые несколько строк для каждого source из файла unified_news_pairs


In [6]:
import pandas as pd


In [7]:
# Загрузка данных
df = pd.read_csv('unified_news_pairs.csv')
print(f"Всего строк: {len(df)}")
print(f"Колонки: {df.columns.tolist()}")


Всего строк: 309094
Колонки: ['text1', 'text2', 'label', 'source']


In [8]:
# Уникальные источники
sources = df['source'].unique()
print(f"Уникальные источники: {sources}")
print(f"Количество источников: {len(sources)}")


Уникальные источники: ['ru_paraphrase_nmt_leipzig' 'opusparcus_ru' 'ru_paraphraser']
Количество источников: 3


In [9]:
# Статистика по меткам (label)
print("\n" + "="*80)
print("СТАТИСТИКА ПО МЕТКАМ")
print("="*80)

label_counts = df['label'].value_counts().sort_index()
print("\nКоличество записей по меткам:")
for label, count in label_counts.items():
    percentage = (count / len(df)) * 100
    print(f"  Label {label}: {count:>8} ({percentage:.2f}%)")

print(f"\nВсего записей: {len(df)}")

# Статистика по меткам для каждого источника
print("\n" + "="*80)
print("СТАТИСТИКА ПО МЕТКАМ ДЛЯ КАЖДОГО ИСТОЧНИКА")
print("="*80)

for source in sources:
    print(f"\n{source}:")
    source_df = df[df['source'] == source]
    source_label_counts = source_df['label'].value_counts().sort_index()
    for label, count in source_label_counts.items():
        percentage = (count / len(source_df)) * 100
        print(f"  Label {label}: {count:>8} ({percentage:.2f}%)")
    print(f"  Всего: {len(source_df)}")



СТАТИСТИКА ПО МЕТКАМ

Количество записей по меткам:
  Label 0:     4477 (1.45%)
  Label 1:   304617 (98.55%)

Всего записей: 309094

СТАТИСТИКА ПО МЕТКАМ ДЛЯ КАЖДОГО ИСТОЧНИКА

ru_paraphrase_nmt_leipzig:
  Label 1:   300474 (100.00%)
  Всего: 300474

opusparcus_ru:
  Label 0:     1142 (35.36%)
  Label 1:     2088 (64.64%)
  Всего: 3230

ru_paraphraser:
  Label 0:     3335 (61.87%)
  Label 1:     2055 (38.13%)
  Всего: 5390


In [10]:
# Показываем первые 5 строк для каждого источника
for source in sources:
    print(f"\n{'='*80}")
    print(f"Источник: {source}")
    print(f"{'='*80}")
    source_df = df[df['source'] == source]
    print(f"Всего строк для этого источника: {len(source_df)}")
    print("\nПервые 5 строк:")
    display(source_df.head(5))



Источник: ru_paraphrase_nmt_leipzig
Всего строк для этого источника: 300474

Первые 5 строк:


Unnamed: 0,text1,text2,label,source
0,"Предлагается освежить в памяти даты, события, ...","Предложено освежить память о датах, событиях, ...",1,ru_paraphrase_nmt_leipzig
1,На десерт нам подают пирожные и французскую ме...,Для десерта подаются торты и французская медов...,1,ru_paraphrase_nmt_leipzig
2,"Например, зебра – арбез, трава – аварт и т.п. ...","Например, Зебра является арбесом, травы аварто...",1,ru_paraphrase_nmt_leipzig
3,Мы разрабатываем проекты документов территориа...,Разрабатываем проекты планировочных документов...,1,ru_paraphrase_nmt_leipzig
4,"Так что Мартин не просто смыслил в цифрах, он ...","Поэтому Мартин не только разбирался в числах, ...",1,ru_paraphrase_nmt_leipzig



Источник: opusparcus_ru
Всего строк для этого источника: 3230

Первые 5 строк:


Unnamed: 0,text1,text2,label,source
16,"У вас , дамы , терки ?",А у вас проблемы ?,0,opusparcus_ru
80,"По-моему , это плохая идея .","Не думаю , что это хорошая идея .",1,opusparcus_ru
116,Ваше Величество .,Мой повелитель .,1,opusparcus_ru
244,Я не хочу от него уходить .,Я не хочу с ним расставаться .,1,opusparcus_ru
264,Какого хуя ты смотришь ?,Чего уставился ?,1,opusparcus_ru



Источник: ru_paraphraser
Всего строк для этого источника: 5390

Первые 5 строк:


Unnamed: 0,text1,text2,label,source
158,"В Казани поймали маньяка, совершившего 65 изна...",В Казани задержали подозреваемого в 65 изнасил...,0,ru_paraphraser
215,Вину за крушение Ан-28 на Камчатке возложили н...,В крушении Ан-28 на Камчатке обвинили пилотов.,1,ru_paraphraser
223,Сирия не пустила экспертов ООН по химическому ...,Сирия отказалась впустить комиссию ООН по хими...,1,ru_paraphraser
230,Скончался ведущий артист Малого театра Ярослав...,Умер артист Малого театра Ярослав Барышев.,1,ru_paraphraser
300,Антонов: РФ ни при каких обстоятельствах не бу...,Минобороны: РФ ни при каких обстоятельствах не...,1,ru_paraphraser
