## Предварительное изучение набора данных UNPC

In [59]:
import os
from collections import Counter

import pandas as pd

pd.set_option('display.float_format', lambda x: '%.f' % x)

In [54]:
# кол-во строк, слов, символов с пробелами (считая \n)
# ДО удаления повторов и непереведенных предложений
!wc -l -w -m 'UNv1.0.en-ru.en'

 23239280 524719605 3447778761 UNv1.0.en-ru.en


In [56]:
# кол-во строк, слов, символов с пробелами (считая \n)
# ПОСЛЕ удаления повторов и непереведенных предложений
!wc -l -w -m 'data/en_clean.txt'

 18217590 468927461 3076077507 data/en_clean.txt


In [57]:
# то же самое для русской части
!wc -l -w -m 'UNv1.0.en-ru.ru'

 23239280 482966738 3805475315 UNv1.0.en-ru.ru


In [58]:
!wc -l -w -m 'data/ru_clean.txt'

 18217590 431839641 3400826152 data/ru_clean.txt


In [23]:
# индексы строк содержатся в файле UNv1.0.en-ru.ids
# пример идентификации строк
example_list = """
1990/trans/wp_29/1999/14/add_1 en:43:1 ru:41:1\n
1990/trans/wp_29/1999/14/add_1 en:44:1 ru:42:1\n
1993/a/47/1000 en:7:1 ru:7:1\n
1993/a/47/1000 en:9:1 ru:9:1\n
1993/a/47/1000 en:10:1 ru:10:1\n
1993/a/47/1000 en:11:1 ru:11:1\n
1993/a/47/1000 en:12:1 ru:12:1\n
1993/a/47/1000 en:13:1 ru:13:1\n
1993/a/47/1000 en:14:1 ru:14:1\n
1993/a/47/1000 en:15:1 ru:15:1\n
1993/a/47/1000 en:16:1 ru:16:1\n
1993/a/47/1000 en:16:2 ru:16:2\n
1993/a/47/1000 en:17:1 ru:17:1\n
""".split('\n')

In [27]:
c = Counter()
for line in example_list:
    if line:
        text = line.split('/')
        c.update([(text[1], text[2])])

c.most_common()

[(('a', '47'), 11), (('trans', 'wp_29'), 2)]

In [60]:
# Подсчет кол-ва строк по разным критериям
def count_by(path):
    by_year = Counter()
    by_first_el = Counter()
    by_two_el = Counter()
    by_three_el = Counter()
    with open(path, 'r', encoding='utf-8') as idx_file:
        for line in idx_file:
            if line:
                line = line.strip().split('/')
                try:
                    by_year.update([line[0]])
                    by_first_el.update([line[1]])
                    by_two_el.update([(line[1], line[2])])
                    by_three_el.update([(line[1], line[2], line[3])])
                except IndexError:
                    pass
    return by_year, by_first_el, by_two_el, by_three_el

In [None]:
# в оригинальном файле
counts_orig = count_by('UNv1.0.en-ru.ids')

In [61]:
# в файле после очистки
counts_clean =  count_by(os.path.join('data', 'ids_clean.txt'))

In [36]:
by_year.items()

dict_items([('1990', 38), ('1993', 293377), ('1994', 754526), ('1995', 741322), ('1996', 769402), ('1997', 867670), ('1998', 925509), ('1999', 983868), ('2000', 694729), ('2001', 677616), ('2002', 1080683), ('2003', 1102801), ('2004', 1172013), ('2005', 1185567), ('2006', 1259275), ('2007', 1240023), ('2008', 1358682), ('2009', 1301024), ('2010', 1384765), ('2011', 1413653), ('2012', 1346634), ('2013', 1375985), ('2014', 1310118)])

In [125]:
# разбивка в оригинельном корпусе
for item in by_year.items():
    print(f'{item[1]} \t{item[0]}\t')  #

38 	1990	
293377 	1993	
754526 	1994	
741322 	1995	
769402 	1996	
867670 	1997	
925509 	1998	
983868 	1999	
694729 	2000	
677616 	2001	
1080683 	2002	
1102801 	2003	
1172013 	2004	
1185567 	2005	
1259275 	2006	
1240023 	2007	
1358682 	2008	
1301024 	2009	
1384765 	2010	
1413653 	2011	
1346634 	2012	
1375985 	2013	
1310118 	2014	


In [68]:
# после удаление повторов и тд
for item in counts_clean[0].items():
    print(f'{item[1]}')

32
262123
646561
597157
624760
689438
745852
767408
565738
541289
866413
871845
927058
948978
989491
967447
1045964
1002857
1073165
1086654
1012616
1024219
960525


In [51]:
# по органу, выпустившему документ
for item in by_first_el.most_common(15):
    print(f'{item[0]}\t{item[1]}\t\t')

a	10274840		
e	3055569		
s	1645784		
ece	1551302		
cedaw	806527		
cerd	485993		
trans	473294		
td	446469		
unep	417435		
cat	334240		
fccc	314830		
dp	261116		
ccpr	253505		
crc	192744		
hri	187687		


In [70]:
for item in counts_clean[1].most_common(17):
    print(f'{item[0]}\t{item[1]}\t\t')

a	8212074		
e	2495126		
s	1341648		
ece	1083461		
cedaw	727517		
cerd	421211		
td	356949		
trans	328707		
unep	289818		
cat	275163		
fccc	237558		
dp	227167		
ccpr	211032		
cd	170939		
crc	156863		
hri	132100		
iccd	107414		


In [71]:
# всего элементов в списке органов
len(counts_clean[1].items())

208

In [72]:
# весь списко органов
counts_clean[1].items()

dict_items([('trans', 328707), ('a', 8212074), ('cedaw', 727517), ('dp', 227167), ('e', 2495126), ('los', 5785), ('npt', 80697), ('s', 1341648), ('st', 55631), ('td', 356949), ('cat', 275163), ('ccpr', 211032), ('cd', 170939), ('cerd', 421211), ('ces', 93844), ('crc', 156863), ('ece', 1083461), ('euro', 133), ('hbp', 15814), ('hri', 132100), ('isba', 34496), ('journal_no_1994', 5487), ('splos', 40142), ('t', 103), ('unctad', 8935), ('anglais', 306), ('cep', 38040), ('chem', 1319), ('fccc', 237558), ('itc', 1634), ('journal_no_1995', 10540), ('sg', 1560), ('sof_conf', 2395), ('tcdc', 3544), ('ccw', 48661), ('dl', 64), ('eb_air', 68497), ('ecn_4', 232), ('fcc', 177), ('hs', 3659), ('journal_no_1996', 10292), ('sploos', 98), ('steel', 242), ('trade', 104148), ('unep', 289818), ('agri', 211), ('cee', 253), ('clcs', 9298), ('ctbt', 740), ('energy', 33269), ('gc_7', 3478), ('iccd', 107414), ('journal_no_1997', 10436), ('mp_wat', 10164), ('opa', 6507), ('tdbex_15_', 49), ('tim', 18410), ('_e'

In [34]:
by_two_el.most_common(30)

[(('a', 'hrc'), 867428),
 (('cedaw', 'c'), 789625),
 (('ece', 'trans'), 769399),
 (('e', 'cn_4'), 617471),
 (('cerd', 'c'), 481233),
 (('a', '65'), 397729),
 (('td', 'b'), 388396),
 (('a', '64'), 385322),
 (('a', '62'), 382668),
 (('a', '66'), 379448),
 (('a', '63'), 367559),
 (('a', '61'), 345962),
 (('a', '67'), 337558),
 (('a', '68'), 336251),
 (('a', '59'), 330816),
 (('a', '60'), 328596),
 (('a', '50'), 316613),
 (('a', 'c_5'), 313687),
 (('cat', 'c'), 309759),
 (('a', '58'), 302077),
 (('a', '49'), 299288),
 (('a', '51'), 291909),
 (('a', '52'), 281698),
 (('a', '57'), 271695),
 (('e', 'c_12'), 271402),
 (('a', '69'), 264442),
 (('a', 'c_3'), 262692),
 (('a', '48'), 255706),
 (('a', '54'), 254319),
 (('a', 'res'), 245418)]

In [35]:
by_three_el.most_common(30)

[(('ece', 'trans', 'wp_29'), 334854),
 (('a', 'hrc', 'wg_6'), 265874),
 (('e', 'ece', '324'), 213852),
 (('e', 'cn_4', 'sub_2'), 123034),
 (('ece', 'trans', 'wp_15'), 111509),
 (('ece', 'trade', 'c'), 109060),
 (('e', '1990', '5'), 84073),
 (('ece', 'trans', 'sc_3'), 76357),
 (('unep', 'fao', 'rc'), 65822),
 (('td', 'b', 'com_2'), 58559),
 (('trans', 'wp_15', 'ac_1'), 55450),
 (('ece', 'trans', 'wp_30'), 51069),
 (('e', 'cn_4', '1998'), 50822),
 (('e', 'cn_4', '1999'), 47423),
 (('e', 'cn_4', '2000'), 47253),
 (('e', 'cn_4', '1997'), 46487),
 (('td', 'b', 'c_i'), 46050),
 (('hri', 'core', '1'), 45926),
 (('fccc', 'kp', 'cmp'), 44366),
 (('td', 'b', 'com_1'), 43412),
 (('e', '1994', '104'), 40857),
 (('e', 'cn_4', '1995'), 40060),
 (('e', 'cn_4', '2005'), 39223),
 (('e', '1990', '6'), 38857),
 (('e', 'cn_4', '2006'), 37673),
 (('e', 'cn_4', '2002'), 37313),
 (('e', 'cn_4', '2003'), 36729),
 (('e', 'cn_4', '2004'), 36260),
 (('e', 'cn_4', '1996'), 36095),
 (('td', 'b', 'com_3'), 35627)]

In [40]:
a_list = []
for key, val in by_three_el.items():
    if key[0] == 'a':
        a_list.append((key, val))

In [46]:
# какие подкомоненты есть у документов Генассамблеи
sorted(a_list, key=lambda elem: elem[1], reverse=True)[:30]

[(('a', 'hrc', 'wg_6'), 265874),
 (('a', 'hrc', '13'), 35570),
 (('a', 'cn_9', 'ser_c'), 32461),
 (('a', 'hrc', '10'), 32094),
 (('a', 'hrc', '4'), 30768),
 (('a', 'hrc', '19'), 29963),
 (('a', 'hrc', '16'), 27939),
 (('a', 'hrc', '12'), 24941),
 (('a', 'hrc', '15'), 24814),
 (('a', 'c_5', '51'), 24477),
 (('a', 'c_5', '48'), 24278),
 (('a', 'c_5', '52'), 24023),
 (('a', 'hrc', '7'), 24005),
 (('a', 'c_5', '50'), 23311),
 (('a', 'hrc', '8'), 23202),
 (('a', 'hrc', '25'), 22553),
 (('a', 'hrc', '22'), 22069),
 (('a', 'c_5', '49'), 22048),
 (('a', 'hrc', 'wgad'), 21773),
 (('a', 'hrc', '21'), 21517),
 (('a', 'hrc', '17'), 21490),
 (('a', 'hrc', '27'), 21344),
 (('a', 'hrc', '18'), 21325),
 (('a', 'hrc', '23'), 20938),
 (('a', 'c_3', '69'), 20922),
 (('a', '65', '5'), 20818),
 (('a', '67', '5'), 20665),
 (('a', '69', '5'), 20505),
 (('a', '61', '5'), 20295),
 (('a', '63', '5'), 19721)]

In [75]:
# непонятный элемент в классифкации документов
!grep -n 'bla' 'data/ids_clean.txt'

3161382:1998/bla en:15:1 ru:15:1
3161383:1998/bla en:16:1 ru:16:1
3161384:1998/bla en:17:1 ru:17:1
3161385:1998/bla en:18:1 en:19:1 ru:18:1
3161386:1998/bla en:20:1 ru:19:1
3161387:1998/bla en:24:1 ru:20:1
3161388:1998/bla en:25:1 ru:21:1
3161389:1998/bla en:36:1 ru:39:1
3161390:1998/bla en:38:1 en:39:1 en:40:1 ru:40:1
3161391:1998/bla en:41:1 en:42:1 ru:41:1
3161392:1998/bla en:43:1 ru:42:1
3161393:1998/bla en:51:1 ru:50:1
3161394:1998/bla en:52:1 ru:51:1
3161395:1998/bla en:53:1 ru:52:1
3161396:1998/bla en:54:1 ru:53:1
3161397:1998/bla en:55:1 ru:54:1
3161398:1998/bla en:56:1 ru:55:1
3161399:1998/bla en:57:1 ru:56:1
3161400:1998/bla en:58:1 ru:57:1
3161401:1998/bla en:59:1 ru:58:1
3161402:1998/bla en:61:1 ru:60:1
3161403:1998/bla en:62:1 ru:61:1
3161404:1998/bla en:62:2 ru:61:2
3161405:1998/bla en:62:3 ru:61:3
3161406:1998/bla en:64:1 ru:63:1
3161407:1998/bla en:66:1 ru:65:1
3161408:1998/bla en:67:1 ru:66:1
3161409:1998/bla en:69:1 en:70:1 en:71:1 ru:67:1


In [92]:
# создал сsv-файл с подсчетом слов и знаков
!head -3 'data/unsimple.csv'

en_words,en_chars,ru_words,ru_chars,year,body
2,14,2,18,1990,trans
4,30,3,34,1990,trans


In [90]:
!head -2 'data/en_clean.txt'

UNITED NATIONS
ECONOMIC COMMISSION FOR EUROPE


In [91]:
!head -2 'data/ru_clean.txt'

ОБЪЕДИНЕННЫХ НАЦИЙ
ЕВРОПЕЙСКАЯ ЭКОНОМИЧЕСКАЯ КОМИССИЯ


In [127]:
df = pd.read_csv('data/unsimple.csv')

In [128]:
df.head()

Unnamed: 0,en_words,en_chars,ru_words,ru_chars,year,body
0,2,14,2,18,1990,trans
1,4,30,3,34,1990,trans
2,3,26,4,33,1990,trans
3,7,45,6,50,1990,trans
4,9,52,9,51,1990,trans


In [100]:
df.describe()

Unnamed: 0,en_words,en_chars,ru_words,ru_chars,year
count,18217590,18217590,18217590,18217590,18217590
mean,26,168,24,186,2005
std,19,124,17,138,6
min,1,1,1,1,1990
25%,13,84,12,93,2000
50%,23,147,21,162,2006
75%,34,222,31,246,2010
max,1692,11542,1501,12570,2014


In [129]:
# посчитать разницу в кол-ве слов между англ. и русским
df['diff_len_w'] = df.loc[:, 'en_words'] - df.loc[:, 'ru_words']
df['diff_len_c'] = df.loc[:, 'en_chars'] - df.loc[:, 'ru_chars']

In [130]:
df.head(4)

Unnamed: 0,en_words,en_chars,ru_words,ru_chars,year,body,diff_len_w,diff_len_c
0,2,14,2,18,1990,trans,0,-4
1,4,30,3,34,1990,trans,1,-4
2,3,26,4,33,1990,trans,-1,-7
3,7,45,6,50,1990,trans,1,-5


In [131]:
df.describe()

Unnamed: 0,en_words,en_chars,ru_words,ru_chars,year,diff_len_w,diff_len_c
count,18217590,18217590,18217590,18217590,18217590,18217590,18217590
mean,26,168,24,186,2005,2,-18
std,19,124,17,138,6,5,34
min,1,1,1,1,1990,-655,-5432
25%,13,84,12,93,2000,-1,-32
50%,23,147,21,162,2006,2,-12
75%,34,222,31,246,2010,5,1
max,1692,11542,1501,12570,2014,262,2531


In [102]:
# Совпадает ли кол-во слов и симвлом с результатом wc
print(df['en_words'].sum())
print(df['en_chars'].sum())

print(df['ru_words'].sum())
print(df['ru_chars'].sum())
# Символы не совпадают, т. к. wc считала и \n тоже

468927461
3057859917
431839641
3382608562


In [113]:
# среднее кол-во слов на страницу из 1800 символов (с пробелами) в английском
round(468927461/(3057859917/1800))

276

In [114]:
# среднее кол-во слов на страницу из 1800 символов (с пробелами) в русском
round(431839641/(3382608562/1800))

230