# Просмотр первых строк для каждого источника

Этот ноутбук показывает первые несколько строк для каждого source из файла unified_news_pairs


In [1]:
import pandas as pd


In [2]:
# Загрузка данных
df = pd.read_csv('unified_news_pairs.csv')
print(f"Всего строк: {len(df)}")
print(f"Колонки: {df.columns.tolist()}")


Всего строк: 12971
Колонки: ['text1', 'text2', 'label', 'source']


In [3]:
# Уникальные источники
sources = df['source'].unique()
print(f"Уникальные источники: {sources}")
print(f"Количество источников: {len(sources)}")


Уникальные источники: ['ru_paraphraser' 'opusparcus_ru' 'kaggle_russian_news_paraphrases_2020']
Количество источников: 3


In [4]:
# Статистика по меткам (label)
print("\n" + "="*80)
print("СТАТИСТИКА ПО МЕТКАМ")
print("="*80)

label_counts = df['label'].value_counts().sort_index()
print("\nКоличество записей по меткам:")
for label, count in label_counts.items():
    percentage = (count / len(df)) * 100
    print(f"  Label {label}: {count:>8} ({percentage:.2f}%)")

print(f"\nВсего записей: {len(df)}")

# Статистика по меткам для каждого источника
print("\n" + "="*80)
print("СТАТИСТИКА ПО МЕТКАМ ДЛЯ КАЖДОГО ИСТОЧНИКА")
print("="*80)

for source in sources:
    print(f"\n{source}:")
    source_df = df[df['source'] == source]
    source_label_counts = source_df['label'].value_counts().sort_index()
    for label, count in source_label_counts.items():
        percentage = (count / len(source_df)) * 100
        print(f"  Label {label}: {count:>8} ({percentage:.2f}%)")
    print(f"  Всего: {len(source_df)}")



СТАТИСТИКА ПО МЕТКАМ

Количество записей по меткам:
  Label 0:     7231 (55.75%)
  Label 1:     5740 (44.25%)

Всего записей: 12971

СТАТИСТИКА ПО МЕТКАМ ДЛЯ КАЖДОГО ИСТОЧНИКА

ru_paraphraser:
  Label 0:     3335 (61.87%)
  Label 1:     2055 (38.13%)
  Всего: 5390

opusparcus_ru:
  Label 0:     1142 (35.36%)
  Label 1:     2088 (64.64%)
  Всего: 3230

kaggle_russian_news_paraphrases_2020:
  Label 0:     2754 (63.30%)
  Label 1:     1597 (36.70%)
  Всего: 4351


In [5]:
# Показываем первые 5 строк для каждого источника
for source in sources:
    print(f"\n{'='*80}")
    print(f"Источник: {source}")
    print(f"{'='*80}")
    source_df = df[df['source'] == source]
    print(f"Всего строк для этого источника: {len(source_df)}")
    print("\nПервые 5 строк:")
    display(source_df.head(5))



Источник: ru_paraphraser
Всего строк для этого источника: 5390

Первые 5 строк:


Unnamed: 0,text1,text2,label,source
0,МИД: саммит в Риге способствовал оживлению диа...,МИД России назвал саммит в Риге старой песней,0,ru_paraphraser
2,Следователя СК уволили за участие в драке хокк...,Уволенного за драку с полицией следователя про...,0,ru_paraphraser
4,Президент Франции Франсуа Олланд прибыл с офиц...,Президент Франции прибыл с официальным визитом...,1,ru_paraphraser
5,В Мексике похищен радиоактивный материал,WikiLeaks выложил все украденные у Sony материалы,0,ru_paraphraser
6,На Кубани при пожаре в частном доме погибли дв...,При пожаре в доме престарелых в Техасе погибли...,0,ru_paraphraser



Источник: opusparcus_ru
Всего строк для этого источника: 3230

Первые 5 строк:


Unnamed: 0,text1,text2,label,source
1,Моя давняя подруга .,Она старый друг .,1,opusparcus_ru
3,"Потому что кажется , что получится вкусно , но...",Ничему не учатся .,0,opusparcus_ru
7,Нет других путей .,Другого способа нет .,1,opusparcus_ru
8,Как я могу помочь ?,Могу ли чем-нибудь помочь ?,1,opusparcus_ru
9,Не переживай об этом .,— Не парься по этому поводу .,1,opusparcus_ru



Источник: kaggle_russian_news_paraphrases_2020
Всего строк для этого источника: 4351

Первые 5 строк:


Unnamed: 0,text1,text2,label,source
15,боевик иго уничтожать христианский могила севе...,боевик иго разрушать христианский могила кладб...,0,kaggle_russian_news_paraphrases_2020
16,оболонь переставать поставлять россия пиво,« оболонь » приостанавливать отгрузка россия,0,kaggle_russian_news_paraphrases_2020
17,дочь шарль де голль скончаться франция,франция скончаться дочь шарль де голль,1,kaggle_russian_news_paraphrases_2020
18,восстанавливать связь грузовик прогресс 27м уд...,специалист цуп удаваться устанавливать связь к...,0,kaggle_russian_news_paraphrases_2020
19,московский отдел полиция повеситься задержанный,московский овд повеситься задержанный,1,kaggle_russian_news_paraphrases_2020
