In [1]:
import pandas as pd

## Get the corpus data

In [2]:
df = pd.read_csv("/media/tilek/DATASETS1/Language/KGZ/kir_community_2017/kir_community_2017-words.txt", sep="\t", header=None)
df.rename(columns = {0: 'i1', 1:'word', 2: 'w2', 3: 'count'}, inplace=True)
df

Unnamed: 0,i1,word,w2,count
0,1,!,!,2000.0
1,2,\t,16062,
2,4,$,$,7.0
3,5,%,%,133.0
4,6,&,&,14.0
...,...,...,...,...
281354,281426,﻿Басылмада,﻿Басылмада,1.0
281355,281427,﻿Бул,﻿Бул,1.0
281356,281428,﻿Токой,﻿Токой,1.0
281357,281429,﻿•,﻿•,1.0


In [3]:
df['word'] = df['word'].str.lower()

In [4]:
df.sort_values(by=['count'], ascending=False)

Unnamed: 0,i1,word,w2,count
12,14,.,.,244058.0
10,12,",",",",228336.0
29,101,жана,жана,65001.0
30,102,менен,менен,61361.0
31,103,да,да,35084.0
...,...,...,...,...
174373,174445,цзянтао,Цзянтао,1.0
174374,174446,цзянцзюнь,Цзянцзюнь,1.0
174375,174447,цзянчжу,Цзянчжу,1.0
281358,281430,﻿﻿﻿,﻿﻿﻿,1.0


## Filter out non-Kyrgyz words

In [5]:
vowels = ['а', 'э', 'е', 'ё', 'и', 'ы', 'о', 'ө', 'у', 'ү', 'ю', 'я']
consonants = ['б', 'в', 'г', 'д', 'ж', 'з', 'й', 'к', 'л', 'м', 'н', 'ң', 'п', 'р', 'с', 'т', 'ф', 'х', 'ч', 'ц', 'ш', 'щ', 'ь', 'ъ']

alphabet = set()

for c in vowels:
    alphabet.add(c)

for c in consonants:
    alphabet.add(c)
    
alphabet.add('-')

print(sorted(alphabet))

print(len(alphabet))


['-', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я', 'ё', 'ң', 'ү', 'ө']
37


In [6]:
def is_kyrgyz(row):    
   
    word = row['word'].lower()
    
    for ch in word:
        if ch not in alphabet:
            return False
    
    return True    

In [7]:
df['is_kyrgyz'] = df.apply(is_kyrgyz, axis=1)

In [8]:
for ind, row in df.iterrows():
    if not row['is_kyrgyz']:
        print(ind, row['word'], row['is_kyrgyz'])

0 ! False
1 	 False
2 $ False
3 % False
4 & False
5 ' False
6 ( False
7 ) False
8 * False
9 + False
10 , False
12 . False
13 / False
14 : False
15 ; False
16 < False
17 > False
18 ? False
19 @ False
20 ~ False
21 § False
22 « False
23 ® False
24 ± False
25 » False
26 “ False
27 ” False
28 „ False
55 – False
141 — False
366 2 False
374 к. False
393 а. False
435 3 False
440 1 False
472 2. False
507 2011 False
599 5 False
608 1-чыгарылыш False
609 3. False
618 1. False
654 б. False
677 10 False
713 м. False
715 ж. False
749 4. False
771 01 False
779 20 False
801 4 False
817 т. False
882 к. False
889 «манас» False
969 ж.б. False
1018 с. False
1037 роза отунбаева False
1044 ж. False
1077 5. False
1086 2010-жылдын False
1103 100 False
1108 б. False
1143 15 False
1155 30 False
1265 6 False
1289 7 False
1296 билим берүү False
1341 50 False
1356 6. False
1392 12 False
1514 и. False
1566 2009-жылдын False
1646 в. False
1661 2011-жылдын False
1679 31 False
1725 э. False
1739 8 False
1799 м. False

18073 калды. False
18434 ү. False
18452 1-январдан False
18453 10-октябрга False
18454 11-январь False
18455 16-декабрда False
18456 19-кылымда False
18457 1930-жылы False
18458 1942-жылы False
18459 1956-жылы False
18460 1960-жылы False
18461 1964-жылы False
18462 1974-жылы False
18463 1983-жылы False
18464 1984 False
18465 1988 False
18466 1989 False
18467 1990-жылдан False
18468 1998 False
18469 1999 False
18470 220 False
18471 31-январь False
18472 4,5 False
18473 68 False
18474 7-8 False
18475 70тен False
18476 76 False
18477 80ден False
18478 star False
18479 twitter False
18480 wikileaks False
18481 «биздин False
18482 «манас False
18483 «таза False
18518 д.медведев False
18527 и.арабаев False
18531 к.ташиевдин False
18578 со2 False
18606 шарика/мушарака False
18674 атат. False
18687 б.з. False
18774 жолу» False
19088 тили» False
19219 0,1 False
19220 0,5% False
19221 1-октябрында False
19222 1-тиркемеге False
19223 10—15 False
19224 17-ноябрь False
19225 19-майда False
19226 19

28951 пионери» False
29026 сом/чет False
29386 шарика/мушарака False
29499 –жылы False
29500 —10 False
29501 0,1% False
29502 02:50 False
29503 02:52 False
29504 0312 False
29505 1,3 False
29506 1,4 False
29507 1-бөлүктүн False
29508 1-декабрь False
29509 1-жолу False
29510 10-тилкеде False
29511 100дөй False
29512 1100 False
29513 122 False
29514 133 False
29515 136 False
29516 14-январда False
29517 141 False
29518 149 False
29519 15-апрелде False
29520 15—20 False
29521 16-мартында False
29522 1600 False
29523 17-декабрда False
29524 17-мартта False
29525 17-январда False
29526 1700 False
29527 18-октябрда False
29528 19-январда False
29529 190 False
29530 1935-жылы False
29531 1939-жылдын False
29532 1946 False
29533 1950 False
29534 1951-жылы False
29535 1962 False
29536 1963-жылдан False
29537 1965 False
29538 1969-жылдан False
29539 1977 False
29540 1978-жылдан False
29541 1979-жылдан False
29542 1980-жылдары False
29543 1982 False
29544 1983-жылдан False
29545 1985-жылдан False

36067 калат» False
36179 келди. False
36270 колдонулат. False
36392 кызматкер. False
36418 кыргыздар» False
36438 кёч. False
36451 күнү» False
36548 мг/л False
36665 о.эле False
36844 салынат. False
37365 чагы» False
37399 чен» False
37431 чыгат. False
37432 чыгат» False
37437 чыгым)» False
37533 эл» False
37537 элек. False
37547 эмгектенген. False
37550 эмес,-деп False
37587 эсептелет. False
37621 ѳттү False
37630 үй» False
37715 өтөт. False
37721 –деп False
37722 №3 False
37723 %, False
37724 0,4 False
37725 01:18 False
37726 01:19 False
37727 03:39 False
37728 1,8 False
37729 1-жарымында False
37730 1-ноябрга False
37731 1-ноябрь False
37732 1-октябрына False
37733 1-октябрь False
37734 1-сентябрга False
37735 1-январына False
37736 1000ден False
37737 107 False
37738 10—12 False
37739 11-октябрында False
37740 11-сентябрында False
37741 12-апрелде False
37742 12-декабрда False
37743 12-сентябрда False
37744 123 False
37745 129 False
37746 13-кылымда False
37747 13-тилкеде False
377

42978 т.к.к. False
43032 туу» False
43042 түркия республикасы False
43051 у.барыктабасовго False
43105 ч.айтматовго False
43352 алынды. False
43358 алышат. False
43382 аныкталган. False
43461 аталышы» False
43529 б.т. False
43576 балдары» False
43587 банкноттор/монеталар False
43588 банкнотторду/монеталарды False
43661 белгиленген. False
43675 берди. False
43677 берилбейт.» False
43705 билдирет. False
43748 бол» False
43756 болсо,анда False
43766 борбору» False
43773 боюнча. False
43912 да» False
43951 да… False
43953 дегендей. False
43981 депозиттери» False
44054 ж.б.у.с False
44055 жµн‰ндµ False
44096 жайғашқан False
44127 жамбы» False
44226 жеткен. False
44359 жүгүртүү» False
44562 кадам» False
44676 кардар/өнөктөш False
44726 катышуучусу. False
44749 келатат. False
44871 киши» False
44900 койду. False
45027 кредитти/траншты False
45153 кылыч» False
45178 кѳргѳн False
45212 күч» False
45227 көз» False
45268 көрсөтүлөт. False
45306 л. False
45333 м/с False
45411 менен. False
45412 ме

49777 белгиленет. False
49785 беле. False
49798 беришет. False
49824 билбейм. False
49841 билет. False
49903 болууда. False
49906 болушту. False
49910 болғон False
49930 боюнча» False
50008 бүткөн. False
50102 гр. False
50118 д.а. False
50120 дайындалган. False
50153 датка» False
50219 дин» False
50277 дөбө» False
50291 ж.б.). False
50344 жакшы» False
50371 жан» False
50455 жашаган. False
50504 жери» False
50505 жетектеген. False
50541 живопись» False
50623 журт» False
50704 жүрүшөт. False
50707 жүрөт. False
50797 илим» False
50857 искусство» False
50897 ишмери» False
50959 казаттын» False
51010 калдык» False
51013 калдым» False
51079 капитал» False
51097 каражаттары» False
51120 кармалган. False
51217 келбейт. False
51241 келтирүү» False
51313 кеӊири False
51339 кирген. False
51342 киргизилген. False
51393 козголду. False
51418 колдонулат.» False
51559 которулган. False
51614 куйрук» False
51733 кылынган. False
51747 кыргыз» False
51786 кѳбүрѳѳк False
51892 көрдүм» False
51909 көрсөтү

55366 б.ибраевдин False
55430 башкармасы/көзөмөл False
55487 бишкек,25-январь False
55510 борис ельцин False
55554 в.в.маяковский False
55555 в.и. False
55558 вич/спиддин False
55651 д.үсөнов False
55736 ж.садыковдун False
55737 ж.турдукожоев False
55840 жусуп баласагуни False
55859 з.асанкожоева False
55881 и.абдрасулов False
55882 и.каримовдун False
55883 и.өмүркулов False
55956 й. False
55960 к.баялиновдун False
55961 к.и. False
55962 к.карасаев False
55963 к.эшмамбетов False
56020 канатбек бегалиев False
56127 киев. False
56314 лейлек району False
56350 м.в. False
56351 м.конгантиевдин False
56352 м.с. False
56364 мт320 False
56450 мидин алыбаев False
56527 н.а. False
56528 н.байтемиров False
56529 н.н. False
56530 н.танаев False
56531 н.түлеев False
56532 н2so4 False
56538 нс1 False
56556 нарын областы False
56600 о.молдалиевдин False
56747 р.отунбаевага False
56767 ред. False
56790 с.айжигитов False
56791 с.далбаевдин False
56792 с.каралаевдин False
56793 с.м. False
56889 сопубек

65807 299-шайлоо False
65808 2нин False
65809 2чи False
65810 2—6 False
65811 3%түү False
65812 3-бөлүгүн False
65813 3-графада False
65814 3-жолу False
65815 3-июнунда False
65816 3-пункту False
65817 3-революция False
65818 3-статьянын False
65819 3-февралда False
65820 3.4.1 False
65821 3.5.1 False
65822 3.7 False
65823 30- False
65824 30-40% False
65825 30-45 False
65826 30-августта False
65827 30-августунда False
65828 30-жылдары False
65829 30-июнга False
65830 30-июнуна False
65831 30-октябрында False
65832 30-сентябрында False
65833 30-статьяда False
65834 30-январда False
65835 30000 False
65836 3000дей False
65837 3000ден False
65838 3000–3200 False
65839 302 False
65840 303-беренеси False
65841 304-берене False
65842 305-берене False
65843 308 False
65844 30—60 False
65845 31% False
65846 31-61-53 False
65847 31-61-71 False
65848 31-беренесин False
65849 31-декабрында False
65850 31-июлда False
65851 31-январда False
65852 31-январына False
65853 31-январында False
65854 310

67133 баткен району False
67245 бишкек,14-январь False
67246 бишкек,28-январь False
67286 бош убакыт False
67357 б‰г‰нк‰ False
67358 в.в.бартольддун False
67359 в.и.лениндин False
67360 в.ленин False
67361 в.путиндин False
67362 в.терешкова False
67363 в2 False
67383 вашингтон. False
67411 г.дулатова False
67412 г.дулатованын False
67413 г.и. False
67414 г.павлюк False
67415 г.суранчиева False
67416 г.о. False
67532 д.нарымбаев False
67533 д.ниязалиева False
67534 д.тербишалиев False
67691 ж.акималиев False
67692 ж.бакиев False
67693 ж.касаболотов False
67694 ж.сатыбалдиев False
67695 ж.сейдакматова False
67696 ж.шамшиев False
67793 жаӊы False
67871 жылдыз» False
67898 з.рысалиев False
67899 з.чокоев False
67938 и.в.сталин False
67939 и.исаковго False
67940 и.исаковду False
68071 к.-ж-тардын False
68072 к.акматов False
68073 к.бакиевден False
68074 к.батыровго False
68075 к.баялинов False
68076 к.жантөшев False
68077 к.мурзахаилов False
68078 к.рахматуллин False
68079 к.ташиевди False


82823 өлкөлөр» False
82876 өнүктүрүү» False
82912 өрүмү» False
82915 өрөөн» False
82997 –1 False
82998 –2 False
82999 –деген False
83000 –жыл False
83001 –жылдан False
83002 –жылдын False
83003 –түлүк False
83004 –утур False
83005 —2 False
83006 ‰ч False
83007 №1-тиркеме False
83008 №106-бөлмө False
83009 №17 False
83010 ≥ False
83011 $. False
83012 %түү False
83013 0,02 False
83014 0,025 False
83015 0,03 False
83016 0,10 False
83017 0,15 False
83018 0,16 False
83019 0,25 False
83020 0,30 False
83021 0,5-1 False
83022 0,54 False
83023 0,5–4 False
83024 0,5—1,5 False
83025 0,7 False
83026 0,75% False
83027 0,84 False
83028 0,86% False
83029 0,9 False
83030 0,95 False
83031 0,9дан False
83032 0-0 False
83033 0-0,05% False
83034 00.30 False
83035 000001 False
83036 000ге False
83037 000дей False
83038 00:02 False
83039 00:15 False
83040 00:20 False
83041 00дө False
83042 01:08 False
83043 01:14 False
83044 01:20 False
83045 01:25 False
83046 01:34 False
83047 01:35 False
83048 02:14 False

83909 21-октябрдан False
83910 21-пункттарында False
83911 21-статьясынан False
83912 21-февралда False
83913 2100 False
83914 2108 False
83915 212 False
83916 214),— False
83917 2168 False
83918 2192 False
83919 21:00дө False
83920 21ден False
83921 21не False
83922 22,7 False
83923 22,8 False
83924 22,9 False
83925 22-август False
83926 22-августта False
83927 22-апрель False
83928 22-беренелердин False
83929 22-декабрында False
83930 22-март False
83931 22-мартында False
83932 22-ноябрдагы False
83933 22-пункттарында False
83934 22-том False
83935 22-февралда False
83936 22-февралында False
83937 2200гө False
83938 2238 False
83939 2281 False
83940 22:39 False
83941 22си False
83942 23% False
83943 23,1% False
83944 23,48 False
83945 23- False
83946 23-2-пунктунда False
83947 23-беренеде False
83948 23-декабрга False
83949 23-декабрдагы False
83950 23-декабрындагы False
83951 23-декабрь False
83952 23-дө False
83953 23-марттагы False
83954 23-октябр False
83955 23-сентябр False
8395

84971 promiscuns False
84972 publishing False
84973 regnum False
84974 rankdex False
84975 real False
84976 republik False
84977 research False
84978 reuters False
84979 review False
84980 revolution False
84981 richard False
84982 rolling False
84983 rossianyn False
84984 sf2 False
84985 silk False
84986 simm False
84987 sms-билдирүүлөр False
84988 smsтер False
84989 smsтерге False
84990 soap False
84991 start False
84992 swiftтин False
84993 samsung False
84994 save False
84995 sb False
84996 sb2o3 False
84997 sbcl3 False
84998 school False
84999 schwytz False
85000 se False
85001 search False
85002 series False
85003 server False
85004 shadow False
85005 siemens False
85006 silver False
85007 sirius False
85008 skype'ка False
85009 software False
85010 stone False
85011 store False
85012 store-до False
85013 studies False
85014 stuxnet False
85015 subscribe.ru False
85016 system False
85017 sо False
85018 sо3 False
85019 ti False
85020 takahashi False
85021 technology False
85022 te

86008 ард/чеки False
86015 атcте False
86156 агромаш» False
86227 азия» False
86228 азиясат3-д False
86339 акаев,бакиев False
86433 алай району False
86469 алжир шаары False
86552 аманбек дилденбай False
86960 ақ False
86977 б.1 False
86978 б.абакиров False
86979 б.жаркынбаев False
86980 б.ибраев False
86981 б.м.зима False
86982 б.м.юнусалиев False
86983 б.миңжылкиев False
86984 б.миңжылкиевди False
86985 б.обаманын False
86986 б.с. False
86987 б.смирнов False
86988 б.солтоноевдин False
86989 б.шалтаев False
86990 б.б. False
86991 б.к. False
86992 б.с. False
86993 б.с.к. False
86994 б.өмүралиев False
87001 бдипч/обсе False
87116 бактыгγл False
87212 баткен областы False
87213 баткен шаары False
87253 баяны» False
87384 бийикт. False
87447 бишкек,11-январь False
87448 бишкек,13-январ False
87449 бишкек,17-январь False
87450 бишкек,26-январь False
87451 бишкек,3-январь False
87452 бишкек,6-январь False
87455 бишкек—торугарт False
87544 брокер/дилер False
87568 булак» False
87660 в-1 Fals

96733 арстаны» False
96771 артыкчылыгы» False
96811 арыбайт» False
96920 ата» False
96943 атайт» False
96958 атам. False
96968 атасыңарбы. False
97013 аткаруу/аяктоо False
97084 аттырат» False
97095 атчан» False
97107 атын» False
97110 атышат. False
97154 ачар» False
97160 ачкан. False
97178 ачуу­га False
97179 ачуу» False
97200 ачылган» False
97219 ачық False
97265 ашырат. False
97266 ашырган. False
97275 ашырылат» False
97276 ашырылган. False
97321 аял» False
97355 ањчылык False
97383 аңтармай» False
97391 аң–сезимдин False
97392 аӊ- False
97393 б)нын False
97403 б.а.адамдын False
97405 ба­йыркы False
97417 бааланды. False
97502 багытталган. False
97528 базар» False
97581 байланышкан. False
97586 байланыштары» False
97632 байқалат False
97681 бала» False
97730 балта» False
97764 банкноттор/ False
97766 банкноттордун/монеталардын False
97785 бар,бирок False
97798 барак» False
97804 баракчасынын» False
97812 баратат» False
97902 басаўдашы False
97994 баш» False
98019 башкармалыктарынын

107834 күчүк» False
107860 күү» False
107866 кө¬рүү False
107880 көбөйдү. False
107997 көлөмү» False
108051 көп. False
108057 көпчүлүк» False
108058 көпүрө» False
108105 көрсөт» False
108134 көрсөтүү. False
108158 көрүнүш. False
108184 көрүшөт. False
108186 көрүү¬нү False
108194 көрөм» False
108202 көрөт. False
108267 көчөттү» False
108298 көөрүк» False
108300 к‰ндө False
108333 лат. False
108338 лауреаттары» False
108348 легионунда» False
108405 лимитинин(теринин False
108438 лицензиялары/күбөлүктөрү False
108450 лл. False
108454 логос» False
108487 м/бар False
108488 м3. False
108500 маалыматтаp False
108502 маалыматтар» False
108508 маалымдады. False
108557 маданият» False
108628 май–июнда False
108633 макал-лакаптары» False
108740 мамл. False
108833 маселе. False
108835 маселелер» False
108836 маселелери» False
108837 маселелеринде» False
108874 материя» False
108941 маңызы» False
108995 мекен» False
109010 мектебинин» False
109041 менчик» False
109107 механизми» False
109157 милде

121319 1-нафтил-амин False
121320 1-нафтиламин False
121321 1-номердеги False
121322 1-номеринин False
121323 1-ностро False
121324 1-ноябрдагы False
121325 1-ноябрынан False
121326 1-ноябрындагы False
121327 1-октябры False
121328 1-октябрындагы False
121329 1-окуу False
121330 1-окууда False
121331 1-окуудан False
121332 1-ондугуна False
121333 1-орунбасар False
121334 1-п False
121335 1-парламенттик False
121336 1-поляк False
121337 1-президент False
121338 1-проректор False
121339 1-пунктчасында False
121340 1-реакциядан False
121341 1-салттуу False
121342 1-саны False
121343 1-секретары False
121344 1-секретарыныкынан False
121345 1-сентябрдагы False
121346 1-сентябрды False
121347 1-сентябрдын False
121348 1-сентябрына False
121349 1-сентярбь False
121350 1-сессиясына False
121351 1-согуш False
121352 1-сорту False
121353 1-статьядан False
121354 1-сър False
121355 1-сыйлыкка False
121356 1-сюита False
121357 1-сүрөт False
121358 1-сөөктө False
121359 1-таблицада False
121360 1-т

122183 13,9 False
122184 13,9% False
122185 13- False
122186 13-00 False
122187 13-1-пункт False
122188 13-14-май False
122189 13-14-майда False
122190 13-14-октябрь False
122191 13-14-орунду False
122192 13-14жаштагы False
122193 13-15 False
122194 13-18- False
122195 13-19-май False
122196 13-30 False
122197 13-март False
122198 13-февраль False
122199 13-августта False
122200 13-апрелден False
122201 13-б False
122202 13-бёлъктён False
122203 13-бөлүктө False
122204 13-главасынын False
122205 13-декабрга False
122206 13-ж False
122207 13-жылдыз False
122208 13-июлда False
122209 13-июлунда False
122210 13-июндан False
122211 13-июнунан False
122212 13-майындагы False
122213 13-март False
122214 13-мартындагы False
122215 13-ноябрына False
122216 13-ноябрь False
122217 13-октбярда False
122218 13-октябрга False
122219 13-октябрдан False
122220 13-октябрынан False
122221 13-октябрь False
122222 13-пункттарынын False
122223 13-пунктчасындагы False
122224 13-саптар False
122225 13-сапта

123205 1785-жылы False
123206 1785—1799-жылдары False
123207 1786-жылдан False
123208 1787 False
123209 1787-жылдын False
123210 1787-жылкы False
123211 1788-ж False
123212 1788-жылы False
123213 1789–1793-жж False
123214 178ге False
123215 1790-жылы False
123216 1790–1800-ж False
123217 1791-конституциялык False
123218 1791-ж False
123219 1791-жылы False
123220 1792-ж False
123221 1793 False
123222 1793-жылга False
123223 1793-жылдын False
123224 1794 False
123225 1794-жылда False
123226 1794-инв. False
123227 1795-жылдын False
123228 1796 False
123229 1796-жылы False
123230 1797 False
123231 1798—1857 False
123232 1799-1887 False
123233 17:00гө False
123234 17:12 False
123235 17:50 False
123236 17» False
123237 17о False
123238 17ге False
123239 17ден False
123240 17синде False
123241 17–18-к-да False
123242 17–18-к. False
123243 17–18-кылымда False
123244 17–19-к False
123245 17—20 False
123246 18,3% False
123247 18,8% False
123248 18-19-20 False
123249 18-19-сентябрда False
123250 

124150 1952-жылдын False
124151 1952–1955-жж False
124152 1952–1957-жж False
124153 1952–58 False
124154 1952—63-жылы False
124155 1953-1958-жылдарда False
124156 1953-жылга False
124157 1953-жылдарда False
124158 1953-жылдарынан False
124159 1953–1958-ж False
124160 1953–54-ж False
124161 1953–59 False
124162 1954-57-жылдары False
124163 1954-63-жылдары False
124164 1954-72-жылдары False
124165 1954-жылга False
124166 1954-жылдары False
124167 1954-жылкы False
124168 1954-жылында False
124169 1954жылдан False
124170 1954– False
124171 1954–1964-жж False
124172 1954–55-ж False
124173 1955- False
124174 1955-1963-жж False
124175 1955-61-жылдары False
124176 1955-ге False
124177 1955-ж False
124178 1955-жылкы False
124179 1955–1957-жж False
124180 1955–1958-жж False
124181 1955–1960 False
124182 1955–56-ж False
124183 1955–64-ж False
124184 1955–65 False
124185 1955—59-ж False
124186 1956-1957-жылдары False
124187 1956-1961 False
124188 1956-1965-жылдары False
124189 1956-59 False
124190

125158 20-30-40 False
125159 20-30-40-50 False
125160 20-30-жж False
125161 20-30°с False
125162 20-30дан False
125163 20-35 False
125164 20-42 False
125165 20-50 False
125166 20-февраль False
125167 20-августагы False
125168 20-августтан False
125169 20-аперилене False
125170 20-апрелдеги False
125171 20-б False
125172 20-б. False
125173 20-белме False
125174 20-беренелери False
125175 20-беренесине False
125176 20-декабрдагы False
125177 20-декабрдан False
125178 20-декабрындагы False
125179 20-декабрь False
125180 20-ж False
125181 20-ж. False
125182 20-жж False
125183 20-жылдардагы False
125184 20-жылдарынан False
125185 20-жылды False
125186 20-жылдыгы False
125187 20-жылдык False
125188 20-жылдыкты False
125189 20-жылы False
125190 20-июлдагы False
125191 20-июндан False
125192 20-июндарда False
125193 20-июнуна False
125194 20-кундон False
125195 20-кыдымдын False
125196 20-кылым False
125197 20-кылымдындын False
125198 20-күнү False
125199 20-майдан False
125200 20-майындагы Fa

126186 27-октябрындагы False
126187 27-пунктуна False
126188 27-пунктчасындагы False
126189 27-сентябрга False
126190 27-статьянын False
126191 27-февралындагы False
126192 27-январындагы False
126193 27.1 False
126194 27.администрациялык False
126195 270,00 False
126196 2700— False
126197 271-инв. False
126198 271. False
126199 2714 False
126200 271ине False
126201 272-километрге False
126202 272-километрден False
126203 273. False
126204 275,3 False
126205 275. False
126206 2750 False
126207 2756449 False
126208 275м False
126209 275метр False
126210 275не False
126211 276-инв. False
126212 276. False
126213 2767 False
126214 276сы False
126215 2772 False
126216 27803 False
126217 279 False
126218 279-99-39 False
126219 279-99-99 False
126220 2790 False
126221 279у False
126222 27кмге False
126223 27синде False
126224 27—30 False
126225 27—50 False
126226 28)-январда False
126227 28,1 False
126228 28,4 False
126229 28,8% False
126230 28- False
126231 28-29-апрелинде False
126232 28-3

127298 4-тилке False
127299 4-тилкелерде False
127300 4-тиркемесине False
127301 4-тиркме False
127302 4-түркмөн False
127303 4-февралы False
127304 4-чейректе False
127305 4-январдын False
127306 4.0'дө False
127307 4.1-пунктта False
127308 4.1-пунктту False
127309 4.1-пункту False
127310 4.1-пунктунда False
127311 4.1-сапта False
127312 4.1.1-пунктчасынын False
127313 4.2.2 False
127314 4.2.3 False
127315 4.20-пунктунда False
127316 4.3 False
127317 4.3-пункту False
127318 4.3-пунктунда False
127319 4.3-сапта False
127320 4.3.4-пунктунда False
127321 4.4-сапта False
127322 4.5-пункт False
127323 4.6-пункту False
127324 4.9 False
127325 4.9-пункт False
127326 4.а-1 False
127327 4.акча-кредиттик False
127328 4.гендердик False
127329 4.калпактын False
127330 4.озун False
127331 4.партиялаш False
127332 4.силер False
127333 4.тамеки False
127334 4.тарыхый-маданий False
127335 4.уруштун False
127336 40%дан False
127337 40%ин False
127338 40%түү False
127339 40%ы False
127340 40%ын False
1

128365 6-бөлүгүнө False
128366 6-бөлүк False
128367 6-бөлүктө False
128368 6-дан False
128369 6-декабрдын False
128370 6-декабрь False
128371 6-декбарь False
128372 6-жылга False
128373 6-июлундагы False
128374 6-июньда False
128375 6-к-да False
128376 6-к-дан False
128377 6-к-дын False
128378 6-кабаттан False
128379 6-кылым False
128380 6-кылымга False
128381 6-кылымда False
128382 6-күнү False
128383 6-майда False
128384 6-майдагы False
128385 6-ноябрынан False
128386 6-октябрдан False
128387 6-орун False
128388 6-орунга False
128389 6-орунду False
128390 6-пунктта False
128391 6-пунктундагы False
128392 6-пунктчаларында False
128393 6-пунктчасында False
128394 6-разряддагылар False
128395 6-сентябрга False
128396 6-сентябрдан False
128397 6-сентябрына False
128398 6-спартакиадасында False
128399 6-статьялардын False
128400 6-статьясында False
128401 6-съездинде False
128402 6-сүр. False
128403 6-тиркеме False
128404 6-тиркемеде False
128405 6-тиркемедеги False
128406 6-февралга Fals

129378 805 False
129379 806. False
129380 808-ж False
129381 80–90-ж False
129382 80—90%ы False
129383 81% False
129384 81-82 False
129385 81-о-31-байланышынын False
129386 81-ж False
129387 81-конгресси False
129388 81-күнү False
129389 81-статья False
129390 810-жылдардын False
129391 8107,7 False
129392 8128 False
129393 813–833 False
129394 81—кайиртйгйн False
129395 82,1 False
129396 82,2 False
129397 82-84 False
129398 82-күнү False
129399 820-жылы False
129400 820оc False
129401 820–840-ж False
129402 822. False
129403 824 False
129404 824ү False
129405 826. False
129406 826сы False
129407 827. False
129408 829 False
129409 82синин False
129410 83% False
129411 83-88 False
129412 83-жылкы False
129413 83-күнү False
129414 83-пленардык False
129415 830-11 False
129416 832,1 False
129417 8320 False
129418 833. False
129419 837 False
129420 84,015 False
129421 84,6 False
129422 84-85 False
129423 84-б False
129424 84-б. False
129425 84-беренеси False
129426 84-беренесине False
1294

130471 dаярдоо False
130472 dе-факто False
130473 e False
130474 eaae False
130475 earth False
130476 eagle False
130477 ebcdic False
130478 ects False
130479 edge False
130480 eis False
130481 ekkу False
130482 elena-чыгыш False
130483 ellp False
130484 end False
130485 esc False
130486 escape False
130487 eu False
130488 eulex False
130489 ev-do False
130490 exe False
130491 expo-2010 False
130492 ezb False
130493 earth False
130494 east False
130495 eastern False
130496 easy False
130497 eclipseке False
130498 edita False
130499 education False
130500 egerde False
130501 ekiga False
130502 elcat False
130503 elec-tronic False
130504 electrostatic False
130505 elena False
130506 elevate False
130507 elk False
130508 ell/nikki False
130509 elsevir False
130510 emarat False
130511 embedding False
130512 emblem False
130513 emmanuel False
130514 empathy False
130515 encryption False
130516 endowment False
130517 engelbert False
130518 engine False
130519 engster-дин False
130520 enneade

131486 oysho False
131487 oшондой False
131488 oшондуктан False
131489 p,n2 False
131490 p2o5 False
131491 pafтын False
131492 papты False
131493 path False
131494 pcl5 False
131495 pec False
131496 perl False
131497 pflag False
131498 pflagтын False
131499 php5 False
131500 php6 False
131501 pi5 False
131502 piac False
131503 piacтын False
131504 pos-терминалдар False
131505 post False
131506 pr False
131507 pr-жарнама False
131508 press False
131509 procasur False
131510 procasur﻿ False
131511 prtлар False
131512 prtчылар False
131513 ps False
131514 psp False
131515 psp-3000'дын False
131516 ptv False
131517 pvp False
131518 padar False
131519 palinurus False
131520 pamir False
131521 panasonic False
131522 panthera False
131523 paparizou False
131524 paribas False
131525 paris False
131526 paris» False
131527 parmalat False
131528 parmiola False
131529 parophiocephalus False
131530 party False
131531 pasylloidae False
131532 paulista’нын False
131533 pavements False
131534 pay Fals

132275 yчжиле False
132276 yчүнчүдөн False
132277 z3 False
132278 z9e12-тддадан False
132279 z9e12-тдолдон False
132280 zara False
132281 zaraнын False
132282 zma False
132283 zaem False
132284 zahradní False
132285 zalembias False
132286 zdarek False
132287 zebu False
132288 zeitung False
132289 zend False
132290 zettersteen False
132291 zhalal-abad False
132292 ziе False
132293 zn(он)2 False
132294 zn3as2 False
132295 zn3р2 False
132296 zns False
132297 znо False
132298 znс12 False
132299 znсо3 False
132300 zohar False
132301 zr2h False
132302 zrc False
132303 zrh False
132304 zrh2 False
132305 zrn False
132306 zrг4 False
132307 zrо False
132308 zrо2 False
132309 zuercher False
132310 zygomycetes False
132311 a,a False
132312 a,b- False
132313 a-fe False
132314 a-nh2-тобу False
132315 a-ni False
132316 a-o False
132317 a-к. False
132318 a-п False
132319 a-бромпропион False
132320 a-гидроксиизомай False
132321 a-моноглицеридди False
132322 a-нафтиламин False
132323 a-пиран False
13232

133390 «40 False
133391 «40-жүз» False
133392 «400» False
133393 «431 False
133394 «46» False
133395 «4» False
133396 «50-100 False
133397 «5000 False
133398 «5000» False
133399 «500дөн False
133400 «50» False
133401 «5»ке False
133402 «6-бөлүк False
133403 «6.2 False
133404 «61109 False
133405 «64 False
133406 «7 False
133407 «7-тиркеме» False
133408 «7.1 False
133409 «7.2 False
133410 «70 False
133411 «70031 False
133412 «70032 False
133413 «78-1 False
133414 «900 False
133415 «alpine False
133416 «anonymus False
133417 «aus False
133418 «back False
133419 «bad False
133420 «baku False
133421 «believe» False
133422 «bella False
133423 «biljett False
133424 «black False
133425 «complete False
133426 «christmas False
133427 «colleced False
133428 «cуусамыр—интер» False
133429 «dairy False
133430 «dickson False
133431 «don't False
133432 «dе-факто False
133433 «eclair» False
133434 «enter» False
133435 «euro False
133436 «everybody» False
133437 «everyway False
133438 «facebook False
13

134367 «жетинин False
134368 «жеткен False
134369 «жеңижокко False
134370 «жеңиш False
134371 «жибек False
134372 «жигер» False
134373 «жин False
134374 «жиндинин False
134375 «жобо» False
134376 «жокчулуктун False
134377 «жол» False
134378 «жолдо False
134379 «жолдор» False
134380 «жолдош False
134381 «жолдун False
134382 «жолой False
134383 «жолойго False
134384 «жомок False
134385 «жону False
134386 «жообуна False
134387 «жоомарт» False
134388 «жоон-дөбө» False
134389 «жооп,— False
134390 «жумакайрык» False
134391 «жумушсуз False
134392 «жумушчу False
134393 «жунгария False
134394 «жунглидеги False
134395 «жупуну False
134396 «журнал False
134397 «журналисттерди False
134398 «журналисттердин False
134399 «жуңгария» False
134400 «жыгач False
134401 «жыйынтыктап False
134402 «жылаан False
134403 «жыландын False
134404 «жылаңач False
134405 «жылдыз-көл» False
134406 «жылдыз» False
134407 «жылдызга False
134408 «жылдыздарга False
134409 «жылдызча» False
134410 «жылкы False
134411 «жылкы

135535 «салкын False
135536 «салтанаттанган False
135537 «салык False
135538 «салыктарды False
135539 «салыштырмалуу False
135540 «самансур» False
135541 «самора False
135542 «сан False
135543 «сана» False
135544 «сандардын False
135545 «сандхинирмочанастура» False
135546 «сандык False
135547 «санпа» False
135548 «санташ» False
135549 «саргыч False
135550 «саринжи False
135551 «сарт» False
135552 «сары-ой» False
135553 «сары-суу« False
135554 «сарынжи» False
135555 «сарычат-ээрташ» False
135556 «сарыөзөн False
135557 «сарөзөн» False
135558 «саткын» False
135559 «сатууга False
135560 «сахар False
135561 «сахиб-ул-азан» False
135562 «сахихине» False
135563 «сахихти» False
135564 «саякат False
135565 «саякбай False
135566 «саясат» False
135567 «саясатчы» False
135568 «свободные False
135569 «свободный False
135570 «себат» False
135571 «себеп False
135572 «себептер False
135573 «севилья» False
135574 «седеп» False
135575 «сейид-баттал» False
135576 «сейилде» False
135577 «сейит» False
1355

136592 «беспилотный False
136593 «бет False
136594 «бета False
136595 «бетеге False
136596 «беттик» False
136597 «библдик False
136598 «библиясы» False
136599 «биз-ден» False
136600 «бизге False
136601 «бий» False
136602 «бийик False
136603 «бийлеген False
136604 «бийлик False
136605 «бийликтин False
136606 «билбестик» False
136607 «билем» False
136608 «билерик» False
136609 «билерман» False
136610 «билермандардын» False
136611 «билим False
136612 «билсең False
136613 «билүү» False
136614 «биометрикалык False
136615 «бир» False
136616 «бирбүтүн False
136617 «бирдеме False
136618 «бирди False
136619 «бирдиктери» False
136620 «биригип False
136621 «биринчи» False
136622 «бирлер» False
136623 «бирлик False
136624 «бирлик» False
136625 «бирөө False
136626 «бирөөгө False
136627 «бирөөнү False
136628 «бисмилланы» False
136629 «биссимилда» False
136630 «бияк» False
136631 «бланктык False
136632 «блог» False
136633 «боекту» False
136634 «боео» False
136635 «боз False
136636 «болбол False
13663

137780 «ортолук False
137781 «ортолуктагы False
137782 «орточо False
137783 «орточо» False
137784 «ортоңку False
137785 «орус False
137786 «орустун False
137787 «орусчулдук» False
137788 «отузчулардын» False
137789 «ошол False
137790 «ошондо False
137791 «оюлган False
137792 «оюн-зоок» False
137793 «оюнга» False
137794 «оюндан False
137795 «оң» False
137796 «оңолдук» False
137797 «оңчул» False
137798 «п» False
137799 «падыша False
137800 «падышалык False
137801 «пайда False
137802 «пайдалуу False
137803 «пайыздык False
137804 «пакистандыктар False
137805 «паланча False
137806 «палитрада» False
137807 «пантоген» False
137808 «парламенттик False
137809 «паровоздук» False
137810 «пароль» False
137811 «парыз False
137812 «патриотмун» False
137813 «паңсат» False
137814 «пейил False
137815 «пентакампеондор» False
137816 «персиялык False
137817 «пикир» False
137818 «пикирлерин» False
137819 «пилтир» False
137820 «пифагорийчи» False
137821 «пияда» False
137822 «пленэрдик False
137823 «пневмати

138935 а.ахматов False
138936 а.ахматовдун False
138937 а.б.столперден False
138938 а.бакиевге False
138939 а.бандура False
138940 а.батманов False
138941 а.батыров False
138942 а.бекилов. False
138943 а.бекназаровдин False
138944 а.бердибаев False
138945 а.бердибаевдин False
138946 а.борщов. False
138947 а.буранов False
138948 а.бусси False
138949 а.бөдөшовдун False
138950 а.в False
138951 а.в.адриянов False
138952 а.в.беляковдор False
138953 а.в.громовдун False
138954 а.в.затаевич False
138955 а.в.луначарский False
138956 а.в.хуторский False
138957 а.видугиристин False
138958 а.вознессенский False
138959 а.г.зима False
138960 а.г.колпаковский False
138961 а.гиорсо False
138962 а.гитлер False
138963 а.грибановдун False
138964 а.д.исаевага False
138965 а.дыйканалиева False
138966 а.дүйшеев False
138967 а.евниев False
138968 а.егеубай False
138969 а.елиференко False
138970 а.жакыповдун False
138971 а.жандаров False
138972 а.жапаров. False
138973 а.жапаровдой False
138974 а.жапаровдун Fa

142281 арстанбек бойлош уулу False
142303 артыкбаев» False
142347 арыз(даттануу False
142394 асан кайгы False
142420 асанкан жумакматов False
142486 аспара– False
142493 аспира́нт False
142535 астанаға False
142593 ата-журтту,сдпк,жана False
142600 ата-мекен,манас False
142620 ата-журт,ар-намысчылар False
142621 ата-журт,ата-мекен,сдп,ар-намыс,ресбублика False
142688 атамбаев. False
142690 атамбаевден,отубаевадан,бекназаровдон False
142788 атуулдук– False
142807 ат–башы False
142889 ахмадия(мусулмандардын False
142899 ахмединежад. False
142922 ахурамазда// False
142923 ахурамазда//хормуста False
142943 ачууланба,ар False
142951 ачык-cуу False
142968 ачық False
142969 аш,тойду False
143035 ашымбаев,арстанбек False
143117 аға False
143118 ақмола False
143119 ақырындап False
143143 аӊчылык False
143147 а–а False
143148 а–в False
143149 б)куноону False
143150 б,жакиевдин False
143151 б-3 False
143152 б-4 False
143177 б.,2003 False
143178 б.-б-до False
143179 б.-а False
143180 б.-б. False
1

149225 дуоденит—(duodenitis False
149237 дуулат. False
149293 дюрингдин» False
149294 дюшамбе» False
149384 е.а. False
149385 е.а.букетовдун False
149386 е.батракова. False
149387 е.батурина False
149388 е.бурсловскийдин False
149389 е.быцконун False
149390 е.в.поливановдун False
149391 е.воронина False
149392 е.гуревич False
149393 е.гуревичке False
149394 е.гуревичти False
149395 е.д.поливановдун False
149396 е.демарсе False
149397 е.евтушенко False
149398 е.жовтис False
149399 е.и.кычанов False
149400 е.корничюктун False
149401 е.кычанов False
149402 е.н.клеменц False
149403 е.н.потапованын False
149404 е.рихтер False
149405 е.урлаева False
149406 е.ф.корчаков False
149407 е.чирикова False
149408 е.ш. False
149409 еm False
149410 еmax False
149419 екку/диаубтун False
149461 евразияда» False
149486 европа/азаттыктын False
149487 европа» False
149570 ерochе False
149631 ж.-бт-на False
149632 ж.-к False
149633 ж.-т False
149634 ж.-э False
149635 ж.-т False
149636 ж.абдрахмановдун False

156159 комитет» False
156168 комментарийлер/түшүндүрмөлөр False
156175 коммуниcттер False
156190 компании» False
156265 кондильяк,— False
156417 конц. False
156456 коому» False
156534 кореа(4840м False
156555 коркут» False
156613 коруктардын,заказниктердин False
156636 космос-186 False
156637 космос-188 False
156639 косоводо. False
156653 кот-д'ивуарга False
156680 кочкордо(орто-токойдо)токомбай False
156711 кошмузтөр,ортоңку False
156719 кошой» False
156765 коңурөлөң–алабаш False
156802 кредит,жардам False
156832 крест» False
156896 кроуп» False
156921 куба,зимбабве False
156939 кубогун/уефа False
156974 кудайга» False
157124 кулмурза» False
157126 кулов,бекназаров False
157186 кумулдан. False
157265 куран» False
157310 курма. False
157337 куррам,оракзай False
157350 курт(кумурскалар False
157396 кут» False
157414 куттусай-2 False
157416 куттуусай-2 False
157424 кутунай» False
157436 куугун. False
157600 кызыл-cуунун False
157626 кызыл-туу,3-даражадагы False
157685 кыл көпүрүк False
1

163014 о.дескамп False
163015 о.жамансариев. False
163016 о.жүндүбаев False
163017 о.ибраимов False
163018 о.ибраимовдун False
163019 о.к.сулайманов False
163020 о.караматов False
163021 о.каратаевди False
163022 о.кенчиев False
163023 о.малеванаянын False
163024 о.молдалиев False
163025 о.нурмамбетов. False
163026 о.рёмер False
163027 о.сарбагышев False
163028 о.субаналиевге False
163029 о.суваналиевге False
163030 о.сулайманов False
163031 о.сыдыковдун False
163032 о.т-да False
163033 о.текебаев False
163034 о.текебаевди False
163035 о.текебаевтин False
163036 о.ф.акимушкин False
163037 о.френелдин False
163038 о.хаям False
163039 о.к. False
163040 о.спирттерге False
163041 о.текебаев False
163042 о.ш. False
163043 о.э False
163044 о.э.баса False
163045 о2-вакуумда False
163046 оcмоналиевдин False
163055 огуз,тон False
163080 ооганстанда)чыр False
163093 осв-3 False
163097 оско» False
163108 оу-2 False
163109 оу-5 False
163110 оу-9 False
163119 оэср)(3 False
163159 обондору» False
16

169405 т.окистендирет.щелочтор False
169406 т.п.к.з. False
169407 т.с-нын False
169408 т.сыдыкбеков False
169409 т.трифенилметан False
169410 т.углеводород False
169411 т.ф. False
169412 т.ф.м-ын False
169413 т.ч. False
169414 т.үмөталиев False
169415 т.үмөталиева. False
169416 т.үмөталиеванын False
169417 т.үмөталиев False
169418 т1/2 False
169419 т6 False
169420 тhe False
169421 тiо2 False
169422 тl2sо4 False
169423 т» False
169424 тʏркстан False
169425 тγркиядан False
169426 тγркиянын False
169427 тγркстан False
169428 тγркстанда False
169432 таг» False
169482 тоз-8 False
169521 та2о5 False
169526 таажы(4866,7м False
169702 тайманбас,таланттуу False
169712 таймска» False
169716 тайпей-101 False
169811 талас району False
169822 талас—чу False
169871 талмас» False
170095 тарыхѳзүокутатурганобьекттинкѳлѳмүбоюнчадүйнѳтарыхы False
170096 тар’йх-и False
170142 тахир» False
170158 ташабадын(бербедин False
170164 ташиев,келдибековтор False
170165 ташиев-ташизм… False
170243 твга,гезитке Fal

176856 элине,кыргыз False
176900 элчиси» False
176982 эмне,пикетке False
176999 эн,кедей False
177065 энтимема– False
177084 энңиклопедия» False
177130 эргешов» False
177138 эргүү,шыктануу,илхом False
177151 эрдоган,1997 False
177288 эсенгул» False
177289 эсенгулдай» False
177349 эстебес» False
177362 эстутум-1 False
177476 ээй,раткум False
177507 ю.а.заднепровский False
177508 ю.а.зуевдин False
177509 ю.бронфенбренер False
177510 ю.в.бромлей False
177511 ю.гагарин False
177512 ю.кахконен False
177513 ю.лужков False
177514 ю.лужковго False
177515 ю.лужковдун False
177516 ю.луценкого False
177517 ю.с.худяковго False
177518 ю.с.худяковдун False
177519 ю.свенсен False
177520 ю.тимошенко. False
177521 ю.тимошенконун False
177522 ю.худяков False
177523 ю.худяковдун False
177524 ю.ц.оганесян False
177525 ю́щенконун False
177538 юодѳн False
177553 юг-2 False
177569 юлдуз» False
177595 юридикалык/жеке False
177626 я.-б. False
177627 я.берцелиус False
177628 я.бутанаев False
177629 я.и.королько

183366 аныкталууда» False
183373 аныкталып,балл False
183383 аныктап,тактап False
183391 аныктоо» False
183406 анын«баку False
183417 анықтабайт False
183418 анықтайт False
183419 анықтайт» False
183420 анықталат False
183421 анықтоочу False
183427 апа» False
183442 апама» False
183447 апаны» False
183478 апийим» False
183502 апологиясы» False
183574 апсап» False
183633 ар-түрдүүлүгүнөѳтѳ False
183634 ар-түрдүүлүктѳрдүү False
183637 ар.—төрттүк)—төрт False
183638 арaкеттенишүүсүнөн False
183639 ар­ган­дай False
183644 ара­лык False
183645 ара» False
183653 араб,чагатай False
183678 арабист» False
183687 арагы» False
183708 аракет)—сахнага False
183744 аракеттенгиле. False
183751 аракеттенишет. False
183759 аракеттенишүүсү» False
183767 аракеттенүү,— False
183769 аракеттенүүгө» False
183777 аракеттери.1985-жылы False
183780 аракеттеринен/аракеттенбей False
183781 аракеттеринин/аркеттенбей False
183786 аракеттешпейт. False
183794 аракетти’ False
183799 аракет–айрым False
183807 арактын,и

189680 баянынын» False
189713 беpилген False
189716 беги» False
189750 безер» False
189773 бей-бечараларга,жетим-жесирлерге False
189781 бейбаш,эч False
189808 бейкут» False
189863 бейѳкмѳт False
189870 бек» False
189872 бекем,тыгыз False
189882 бекемдейт» False
189891 бекемдеп,андан False
189903 бекемдѳѳ False
189908 бекемдөө» False
189914 бекен. False
189917 бекенсин. False
189918 бекербиз. False
189926 бекет» False
189927 бекетинде. False
189949 бекинип,салгылашуунун False
189959 бекитилген. False
189966 бекитилсин. False
189971 бекитип,уйдо False
189977 бекиткен.1991-ж. False
190007 бел» False
190020 белги­лөөчү False
190025 белгилγγ False
190032 белгилеген. False
190033 белгилеген.1945-жылы False
190034 белгилеген1316 False
190060 белгиленген(5 False
190061 белгиленген(7 False
190062 белгиленген1437 False
190066 белгиленди. False
190068 белгиленет.1-12ге False
190076 белгилеп,утрк False
190077 белгилер» False
190078 белгилери,казак,өзбек False
190079 белгилери. False
190094 белгил

192486 болсо(туш False
192487 болсо). False
192488 болсо)кыргыз False
192489 болсо,улуу False
192490 болсо,алар- False
192491 болсо,алды False
192492 болсо,алсыз,чектелген False
192493 болсо,атам False
192494 болсо,ачылса False
192495 болсо,балким False
192496 болсо,башка False
192497 болсо,беш False
192498 болсо,бийликте False
192499 болсо,жакындары,туугандары False
192500 болсо,зекет False
192501 болсо,мен False
192502 болсо,мындай False
192503 болсо,озулорунун False
192504 болсо,олкодо False
192505 болсо,орустарга False
192506 болсо,пикирин False
192507 болсо,тартипсиз False
192508 болсо,токтом False
192509 болсо,учурун False
192510 болсо,экиден False
192511 болсо,өлкө False
192516 болсо.80 False
192517 болсо:дунган False
192519 болсок,анан False
192520 болсок,анда False
192521 болсок,куда-сооктордой False
192522 болсок,тиги False
192524 болсон,ай False
192527 болсоңор,бийликти False
192530 болсун,бул False
192531 болсун,коп False
192532 болсун,суу False
192533 болсун,уй False
19253

199408 дисконттун/сый False
199457 дисплен)-тексттик False
199464 диспут,маек False
199580 дм3 False
199581 дм² False
199582 дне» False
199584 дней» False
199592 добуш,бийлик,акча-азаматсынар$ False
199593 добуш. False
199594 добуш» False
199605 добуштары» False
199608 добушу» False
199610 добушун,умутун False
199669 докладда. False
199685 доктор» False
199697 доктору» False
199704 доктринанын» False
199725 документеринерди,кур False
199733 документтери» False
199746 документ– False
199772 долбоорлор… False
199773 долбоору» False
199777 долбоорунун» False
199785 долл. False
199786 доллар. False
199819 домго» False
199849 доо-арыз(кассациялык False
199851 доо» False
199863 доолашкан» False
199892 дооруна(энеолит False
199894 доорунун» False
199897 доор–бул False
199923 дос,кошуна False
199941 достор» False
199966 достун» False
199967 досу» False
199974 досуңарбыз» False
199976 досуӊуз False
199977 досуӊузду False
199996 драма). False
199997 драма,- False
200018 другое» False
200048 дуба

205776 жоготушту,-деп False
205780 жогу. False
205807 жок,-дейт False
205808 жок,-деп False
205809 жок,андан False
205810 жок,бакиевти False
205811 жок,тескерисинче False
205812 жок,эми False
205813 жок,алар False
205814 жок,анан False
205815 жок,анын False
205816 жок,беларустар False
205817 жок,бирок False
205818 жок,группа False
205819 жок,кайдыгерлер False
205820 жок,кеп False
205821 жок,кунумдук False
205822 жок,кылам False
205823 жок,сизге False
205824 жок,тамагы False
205825 жок,тескерисинче False
205826 жок,тил False
205827 жок,убактылуу False
205828 жок,ушунчалык False
205829 жок,четке False
205830 жок,шейиттердин False
205831 жок,экинчиден False
205834 жок.» False
205835 жок»,- False
205836 жок»1305 False
205841 жокмун,-деп False
205842 жокмун. False
205843 жокмун» False
205850 жокпу» False
205851 жокпуз,-деп False
205852 жокпуз,гуревичтен False
205853 жокпуз. False
205854 жокпуз» False
205859 жокта,ошого False
205863 жоктон,эптеп False
205867 жокторду,жакыр-жалчыларды False
2

212536 каарман,анын False
212542 каармандыгы» False
212543 каармандык» False
212547 каарманы,кыргыздын False
212548 каарманы» False
212574 кабар» False
212596 кабарлайт:бул False
212601 кабарланат» False
212602 кабарланган. False
212603 кабарланды. False
212621 кабарлашкан. False
212623 кабарлашты. False
212631 кабарчылар» False
212640 кабат» False
212643 кабатталган» False
212670 кабат… False
212778 кабылышат» False
212783 кабына» False
212785 кабындай» False
212802 кавалери. False
212818 каган. False
212819 каган» False
212830 кагуу)» False
212837 кагылат. False
212845 кагылып,согулган False
212855 кагылышты. False
212896 кадам,- False
212902 кадамдай. False
212905 кадамдарды,анын False
212907 кадамдарына» False
212942 кадрлары» False
212952 кадыр-­барктуу False
212983 кадыры» False
212986 кадырына,аз False
213011 казак,же False
213016 казак» False
213031 казак–кыргыз False
213064 казаттары» False
213066 казатты» False
213109 казы» False
213113 казык,башын False
213120 казына» False


219074 кечээ. False
219084 кечүүчүлүк» False
219121 кеѕешчи False
219122 кеѕири False
219123 кењешет False
219124 кењеште False
219125 кењири False
219154 кеңеш» False
219159 кеңеши» False
219174 кеңешкени» False
219187 кеңештин» False
219196 кеңешчиси» False
219218 кеңсе» False
219228 кеӊ False
219229 кеӊешин False
219230 кеӊешинде False
219231 кеӊештерди False
219240 киpгизет False
219284 кийгизчү» False
219336 кийимди,ошондой False
219341 кийин). False
219342 кийин,14-майда False
219343 кийин,кыргыз False
219344 кийин,жыйнап False
219345 кийин,курман False
219346 кийин,элге False
219347 кийин:1- False
219378 кийин False
219418 кийлигишпейт»,- False
219467 килемде» False
219489 киловатт/сааттан False
219506 ким. False
219509 кимге» False
219511 кимди,жада False
219542 киндиктешсиңер» False
219639 киносуна,бут False
219693 кир¬пик False
219706 кирген,бирок False
219734 киргизген. False
219746 киргизди. False
219747 киргизди» False
219762 киргизилген» False
219771 киргизилип,кыргыз Fa

226105 кызганып,мамлекет False
226120 кыздар» False
226142 кызматrерлери False
226159 кызматкери,лабороториянын False
226162 кызматкерин/кызматкерлерин False
226165 кызматкерлер,анын False
226166 кызматкерлер» False
226187 кызматташкан. False
226211 кызматташуу,билдирүүдө False
226213 кызматташууга» False
226239 кызматы-isi False
226276 кызыгып,жан-дүйнөсү False
226277 кызыгып,урматтаган False
226287 кызыкдар. False
226292 кызыккан. False
226349 кызыкчылыгын,укугун False
226359 кызыкчылык» False
226376 кызыкын,ар False
226383 кызыл. False
226398 кызылтилдүүрѳк False
226405 кызым» False
226407 кызында» False
226425 кый¬мылынын False
226429 кыйбадыбы. False
226434 кыйган. False
226456 кыйкырабыз. False
226485 кыйкырып,эртеси False
226492 кыйлача» False
226498 кыймыkдарынын False
226508 кыймыл. False
226518 кыймылдайт. False
226519 кыймылдар» False
226521 кыймылдары,согушка False
226522 кыймылдары» False
226552 кыймылы,соода-сатык False
226553 кыймылы;атмосфералык False
226579 кыйналган. 

232551 масеси,буга False
232573 маскарачылык,уй False
232594 массаларды» False
232600 массасы» False
232653 математика» False
232657 математикалық False
232658 математиканын» False
232669 материалдар/документтер False
232684 материалдык–жооптуу False
232690 материалы» False
232691 материалымда,ишимде False
232698 материк» False
232756 махабат» False
232758 махабаты» False
232797 машакат» False
232808 машина» False
232845 машыгуу,тажрыйбаларын False
232847 машыгууда. False
232853 машыгып,футбол False
232858 машыккан,козго False
232859 машыккан. False
232878 машыктырышкан. False
232895 мањызы False
232896 мақсатында False
232897 мақулдуғунан False
232932 маңыздык» False
232935 маӊызында False
232937 мг/лди False
232975 медалы,дүйнөлүк False
232976 медалына» False
232983 медведи» False
233040 медресеси» False
233056 мез¬гилге False
233057 мез¬гилде False
233058 мезгiлдiн False
233060 мезги¬линде False
233064 мезгил. False
233065 мезгил:адабий False
233066 мезгил» False
233068 мезгилде,кыр

239085 омуртканы» False
239092 омурунон,канча False
239125 ондосун,айлык False
239200 онугуп,гастарбайтерлерге False
239208 онуккон,акыйкачыл False
239221 онуктуруу,архитектуралык False
239240 ооба,текебаев False
239277 ооз» False
239287 ооздош» False
239362 оомат» False
239385 оор,ректор False
239386 оор,мундуу False
239388 оор. False
239402 оордуғуна False
239405 оорлогон» False
239429 оорубай,бат False
239439 ооруйт,бала False
239440 ооруйт. False
239443 оорукана-дарыканалар,лицей False
239476 оорусу» False
239512 ооруға False
239513 ооруғандарда False
239541 оп¬тикалык False
239555 опералардын,кинофильмдердин False
239558 операларынын,4 False
239574 операторлоруна/төлөм False
239576 оператору/төлөм False
239580 операциялардын/бътъмдёрдън False
239597 опозиционер,же False
239621 оппозиция» False
239677 опуза» False
239683 опузасы» False
239694 опурулгандыр. False
239709 ор¬дунан False
239717 оратор,дин False
239720 оратор» False
239742 орг. False
239745 орган. False
239746 орган/жак

246015 сабатсыздык,жакырлар False
246016 сабатсыздықты False
246067 сагушкан. False
246077 сагынычы» False
246097 сазы» False
246099 сай,чоң False
246102 сай» False
246162 сайт(тар)ы False
246163 сайт)– False
246181 сайуулар» False
246184 сайы» False
246189 сайын,олкобуз False
246190 сайын/жума False
246194 сайыш» False
246219 сакайды» False
246246 сакмалчы» False
246263 сактаганга,жогорку False
246270 сактагыла»,- False
246274 сактагыч,аңыз False
246279 сактайлы» False
246281 сактайт. False
246288 сакталат. False
246296 сакталган. False
246297 сакталган» False
246302 сакталмак,-деп False
246304 сакталууда» False
246307 сакталып,кыркка False
246329 сактап,шайлого False
246330 сактап,ынтымактуу False
246331 сактап,экономикабызды False
246332 сактап,өнүктүрүп False
246333 сактары» False
246346 сактоorо False
246347 сактоо,колдонуучу False
246348 сактоо/калыбына False
246374 сал» False
246381 салабыз1190 False
246382 салабыз» False
246392 салам. False
246395 саламаттык. False
246396 салам

252137 сүрѳт False
252138 сүрѳттѳйм False
252139 сүрѳттѳрменентолукталынган False
252140 сүрѳтчү False
252141 сүрѳтүн False
252184 сүрөт­кердин False
252185 сүрөт­төгөн False
252186 сүрөт­төл­гөн False
252187 сүрөт­чү-реалисттер False
252188 сүрөт­чүлөрүнүн False
252207 сүрөттө¬лүштөрдү False
252208 сүрөттөгөн. False
252212 сүрөттөл­гөн False
252219 сүрөттөлүш­төрүнүн False
252227 сүрөттөлөт. False
252228 сүрөттөлөт» False
252229 сүрөттөмү» False
252234 сүрөттөрдү,живописи,графикасы False
252263 сүрөтчү­лөрдүн False
252265 сүрөтчүлөр­дүн False
252266 сүрөтчүлөрү­нүн False
252268 сүрөтчүсү. False
252289 сүт­түү False
252325 сөзγнөн False
252328 сөздy False
252334 сөздү» False
252336 сөздүгүндө» False
252339 сөздүк. False
252340 сөздүктү» False
252348 сөздөн)—туташ False
252351 сөздөр» False
252354 сөздөрдү» False
252367 сөзсʏз False
252373 сөзү. False
252378 сөзүн» False
252416 сөњгөгү False
252438 сөөктөрʏ False
252447 сөөлөт» False
252450 сөөм//сөөмөй False
252455 сөөрү. False
252458 

258109 тогуп,эгерде False
258147 той» False
258179 тойлайды,- False
258187 тойсун» False
258196 токмок» False
258203 токмоктолду. False
258236 токою» False
258266 токтоду. False
258273 токтойт,-деп False
258274 токтойт,болбодубу False
258282 токтолмокчу. False
258285 токтолор» False
258288 токтолот. False
258294 токтолуп,клинтон False
258295 токтолуп,акыл False
258324 токтотконун,ушунун False
258327 токтоткула. False
258328 токтоткула» False
258350 токтотсо,бир False
258355 токтоттум» False
258395 токту,илгертен False
258396 токтунор,канча False
258466 толду,жакшы False
258467 толду. False
258480 толкуйт» False
258482 толкун» False
258511 толкунунун» False
258531 толонот,аз False
258536 толот,геморрой False
258542 толсун» False
258546 толтура.18 False
258552 толтурган'жарым False
258553 толтурган» False
258566 толтурулган1189 False
258591 толуктаган. False
258598 толуктайт» False
258601 толукталбайт» False
258604 толукталсын» False
258612 толукташкан. False
258657 томдук. False
258663 

264342 умуттонуп,суюндум False
264393 университет,6 False
264396 университети(жаму False
264397 университети» False
264399 университетинде,улуттук False
264452 унутпайлы. False
264459 унутпастан,анны False
264487 унутуп,озун False
264508 унчукпай,кайдыгер False
264509 унчукпай,талкан False
264517 уотч» False
264534 ур-ризванда» False
264549 ураан–чакырыктар False
264563 урандылары» False
264579 урат. False
264580 урат» False
264589 урбайбы» False
264626 урду. False
264682 урматына,кыргыз False
264709 урсун,ошондай False
264710 урсун» False
264711 уругу» False
264725 урук-тууганына,жек-жаатарына,байларга False
264735 уруксат. False
264770 урулғанда False
264817 уруу­лар False
264824 уруулары(дуулат False
264833 урууну» False
264836 уруусу. False
264838 уруусунан. False
264930 устарасы» False
264937 устаттары» False
264972 усул» False
264979 усун» False
264986 утабыз. False
264990 утасыз. False
264991 утат» False
265050 утур,точкалар False
265064 утушту. False
265073 уу» False
265093 уул

271056 чөп,эңчилек False
271067 чөөл» False
271070 ч‰с‰ False
271078 ш.т-нда False
271079 шaapынын False
271080 шyмкapы False
271082 шаaры False
271119 шаар/айыл False
271120 шаар¬лар False
271127 шаарда» False
271134 шаардын,агын False
271142 шаарлык//шаардык False
271150 шаарчаларына» False
271152 шаары(мурунку False
271153 шаары)редакциялык False
271157 шаарында,баку False
271158 шаарында,ташкентте False
271163 шаары—гарм False
271164 шаар… False
271199 шайба» False
271203 шайкеш. False
271204 шайкеш» False
271229 шайлады,жакшыбы False
271235 шайлайт. False
271252 шайланды» False
271274 шайлашат. False
271278 шайлоо,референдум False
271279 шайлоо,шайлоонун False
271282 шайлоого,эл False
271323 шайтан» False
271347 шакеги» False
271349 шакек» False
271397 шалбалууталаа,токой,альп False
271408 шамал,туман False
271460 шанүй» False
271479 шапкечен» False
271490 шарды» False
271533 шарт» False
271543 шартта,протоколдо False
271561 шарттары» False
271593 шаттл» False
271615 шахрстан,раба

277491 үйрѳнгѳндѳ False
277492 үйрѳнүү False
277493 үйрѳнүүгѳ False
277494 үйрѳнүүдѳн False
277495 үйрѳткѳн False
277496 үйрѳтүлгѳн False
277497 үйрѳтүшкѳн» False
277498 үйрѳтүштү False
277507 үйрөнбөдүкпү. False
277520 үйрөндүм» False
277532 үйрөнүп,грек-рим False
277540 үйрөнүүгө,билим False
277544 үйрөнөбүз. False
277548 үйрөт» False
277554 үйрөткөндөй,- False
277570 үйрөтүшкөн. False
277582 үйрөтөт. False
277590 үйү,2 False
277594 үйү» False
277601 үйүн» False
277610 үйүнө» False
277611 үйүр(лүү False
277615 үйүрлѳрү False
277620 үйүрундѳ False
277621 үйүрунѳ False
277635 үй—бүлөгө False
277654 үлгү)—жогорку False
277669 үлгүрдү. False
277671 үлгүрүшкөн,- False
277681 үлпөтү» False
277685 үлү­шүнө False
277706 үлүшү» False
277731 үмүттөбүз. False
277732 үмүттөмүн. False
277745 үмүттөнүүдө. False
277748 үмүттөнөм,- False
277749 үмүттөнөм. False
277769 үналгысы» False
277770 үналгысын» False
277772 үналгысында» False
277773 үндѳѳнү False
277782 үндөгөн» False
277789 үндөр» False
2777

In [9]:
df = df[df.is_kyrgyz][['word', 'count']]

## Get the most frequent words

In [10]:
freq_thereshold = 300

In [11]:
frequent = df[df['count'] >= freq_thereshold]

print(frequent.count())

for ind, row in frequent.iterrows():
    print(ind, row['word'], row['count'])

word     1537
count    1537
dtype: int64
11 - 11540.0
29 жана 65001.0
30 менен 61361.0
31 да 35084.0
32 бир 34119.0
33 эле 30732.0
34 деп 24035.0
35 боюнча 22054.0
36 болуп 21793.0
37 үчүн 20603.0
38 бул 18512.0
39 болгон 15797.0
40 же 15574.0
41 бул 15362.0
42 ал 14315.0
43 керек 13745.0
44 эмес 13669.0
45 бар 13167.0
46 башка 12274.0
47 жок 11855.0
48 алып 11362.0
49 анын 11341.0
50 ар 10229.0
51 турган 10100.0
52 деген 9695.0
53 өз 9600.0
54 гана 9448.0
56 ал 8743.0
57 кандай 8619.0
58 болот 8275.0
59 катары 7989.0
60 эки 7945.0
61 эл 7768.0
62 дагы 7579.0
63 кийин 6815.0
64 болсо 6708.0
65 ушул 6562.0
66 мүмкүн 6500.0
67 бирок 6453.0
68 кыргыз 6191.0
69 адам 6148.0
70 тарабынан 6132.0
71 учурда 5967.0
72 аны 5896.0
73 эми 5892.0
74 эч 5703.0
75 алардын 5646.0
76 көп 5557.0
77 кабыл 5409.0
78 мамлекеттик 5303.0
79 чейин 5257.0
80 аркылуу 5232.0
81 келген 5191.0
82 алуу 5123.0
83 жаткан 5123.0
84 каршы 5010.0
85 ошол 4990.0
86 иш 4983.0
87 кыргыз 4902.0
88 ылайык 4808.0
89 тууралуу 4

1117 бийик 423.0
1118 зыян 422.0
1119 кеп 422.0
1120 айлык 421.0
1121 бирөө 421.0
1122 жаза 421.0
1123 камакка 421.0
1124 жалаң 420.0
1125 жатып 420.0
1126 кеңеши 420.0
1127 соттук 420.0
1128 ички 419.0
1129 камтыйт 418.0
1130 мамлекеттердин 418.0
1131 салык 418.0
1132 система 418.0
1133 директорлор 417.0
1134 баатыр 417.0
1135 бири-бирине 417.0
1136 мамлекетке 416.0
1137 ъчън 416.0
1138 ёлкё 416.0
1139 бирден 415.0
1140 болсун 415.0
1141 карабай 415.0
1142 көрсөткөн 415.0
1144 системасын 414.0
1145 калк 413.0
1146 кошумчалады 413.0
1147 мыйзамдарына 413.0
1148 кылды 412.0
1149 өңдүү 412.0
1150 дагы 411.0
1151 бай 411.0
1152 калыс 411.0
1153 ошого 411.0
1154 узак 411.0
1156 албетте 410.0
1157 анча 410.0
1158 колдонулган 410.0
1159 кызыл 410.0
1160 күчүнө 410.0
1161 мусулман 410.0
1162 темир 410.0
1163 шайлоонун 410.0
1164 элдеринин 410.0
1165 оору 409.0
1166 түздөн-түз 409.0
1167 билдирип 408.0
1168 жатканы 408.0
1169 милдети 408.0
1170 ислам 407.0
1171 астында 407.0
1172 дешет 407.0
1

In [12]:
triphones = {}

for ind, row in df.iterrows():
    word = row['word']
    if len(word)>=3:
        for i in range(len(word)-3):
            tr = (word[i], word[i+1], word[i+2])
            if tr in triphones:
                triphones[tr] += 1
            else:
                triphones[tr] = 1
                
for tr in triphones.keys():
    print(tr, triphones[tr])

('ж', 'а', 'н') 962
('м', 'е', 'н') 1566
('е', 'н', 'е') 1009
('б', 'о', 'ю') 48
('о', 'ю', 'н') 299
('ю', 'н', 'ч') 75
('б', 'о', 'л') 1207
('о', 'л', 'у') 1452
('ү', 'ч', 'ү') 531
('о', 'л', 'г') 510
('л', 'г', 'о') 431
('к', 'е', 'р') 1504
('е', 'р', 'е') 1197
('э', 'м', 'е') 114
('б', 'а', 'ш') 1399
('а', 'ш', 'к') 1110
('а', 'л', 'ы') 4372
('а', 'н', 'ы') 5259
('т', 'у', 'р') 2870
('у', 'р', 'г') 977
('р', 'г', 'а') 1537
('д', 'е', 'г') 1198
('е', 'г', 'е') 1272
('г', 'а', 'н') 5417
('к', 'а', 'н') 4002
('а', 'н', 'д') 8509
('н', 'д', 'а') 6438
('о', 'л', 'о') 3118
('к', 'а', 'т') 1801
('а', 'т', 'а') 1969
('т', 'а', 'р') 7477
('д', 'а', 'г') 3119
('к', 'и', 'й') 550
('и', 'й', 'и') 597
('о', 'л', 'с') 94
('у', 'ш', 'у') 910
('м', 'ү', 'м') 114
('ү', 'м', 'к') 112
('м', 'к', 'ү') 104
('б', 'и', 'р') 1095
('и', 'р', 'о') 334
('к', 'ы', 'р') 1583
('ы', 'р', 'г') 1279
('р', 'г', 'ы') 801
('а', 'д', 'а') 2203
('а', 'р', 'а') 5212
('р', 'а', 'б') 503
('а', 'б', 'ы') 1447
('б', 'ы', 'н'

('д', 'а', 'с') 269
('т', 'ү', 'с') 90
('ю', 'ш', 'у') 64
('ү', 'м', 'г') 21
('г', 'р', 'у') 95
('р', 'у', 'з') 73
('у', 'з', 'и') 94
('ж', 'у', 'с') 33
('а', 'с', 'у') 94
('б', 'ө', 'г') 245
('а', 'т', 'м') 158
('д', 'о', 'й') 71
('т', 'р', 'у') 304
('р', 'ө', 'т') 359
('т', 'т', 'ө') 527
('у', 'к', 'р') 45
('р', 'а', 'и') 143
('а', 'и', 'н') 48
('а', 'м', 'з') 39
('м', 'з', 'а') 39
('й', 'т', 'п') 96
('е', 'ш', 'ч') 49
('ш', 'ч', 'и') 45
('м', 'л', 'р') 3
('т', 'у', 'б') 117
('ф', 'и', 'з') 166
('з', 'и', 'к') 112
('ч', 'а', 'с') 277
('г', 'ө', 'н') 1147
('ы', 'й', 'н') 255
('й', 'н', 'а') 347
('у', 'р', 'б') 299
('т', 'у', 'м') 200
('р', 'ө', 'д') 24
('к', '-', 'т') 342
('д', 'е', 'я') 65
('е', 'я', 'с') 38
('о', 'ң', 'д') 248
('у', 'м', 'т') 110
('м', 'т', 'у') 99
('у', 'ч', 'а') 202
('о', 'о', 'б') 108
('д', 'ү', 'ү') 718
('и', 'к', 'р') 269
('к', 'р', 'о') 385
('ү', 'й', 'р') 211
('е', 'в', 'а') 280
('м', 'п', 'л') 106
('п', 'л', 'е') 175
('у', 'я', 'д') 16
('г', 'ү', 'ү') 163
('

('л', 'ь', 'г') 44
('ь', 'г', 'и') 10
('в', 'а', 'с') 74
('о', 'р', 'ь') 13
('р', 'ь', 'к') 6
('ь', 'к', 'и') 8
('и', 'к', 'н') 6
('е', 'р', 'п') 79
('к', 'р', 'у') 83
('о', 'ж', 'а') 40
('л', 'к', 'ж') 3
('ф', 'у', 'л') 17
('я', 'н', '-') 21
('о', 'в', 'ь') 15
('в', 'ь', 'ё') 5
('ү', 'л', 'е') 11
('л', 'е', 'е') 28
('у', 'и', 'л') 15
('у', 'о', 'т') 13
('а', 'н', 'х') 20
('н', 'х', 'а') 26
('и', 'к', 'у') 102
('э', 'р', 'н') 15
('р', 'н', 'и') 119
('э', 'ш', 'т') 14
('ю', 'н', 'и') 17
('р', 'х', 'а') 82
('а', 'и', 'к') 17
('-', 'а', 'ч') 8
('н', 'т', 'ч') 35
('н', 'з', 'о') 39
('е', 'ш', '-') 31
('г', 'о', 'с') 86
('ё', 'л', 'г') 13
('ү', 'т', 'с') 9
('л', 'ү', 'п') 30
('-', 'б', 'ө') 27
('м', 'о', 'ф') 28
('с', 'к', 'т') 53
('л', 'ө', 'ң') 14
('ж', 'и', 'р') 62
('и', 'ч', 'с') 8
('и', 'ш', 'а') 58
('е', 'ш', 'п') 67
('л', 'а', 'ч') 77
('о', 'ш', 'с') 19
('ш', 'у', 'с') 13
('з', 'г', 'ы') 89
('к', 'ё', 'ч') 20
('ө', 'й', 'н') 22
('р', 'ү', 'с') 49
('о', 'р', 'ф') 122
('р', 'ф', 'о') 5

('ч', 'ж', 'а') 7
('ю', 'к', 'е') 5
('ш', '-', 'д') 12
('е', 'ц', 'а') 3
('щ', 'в', 'е') 4
('д', 'н', 'ы') 18
('э', 'й', 'д') 11
('э', 'л', 'н') 3
('р', 'н', 'с') 4
('ф', 'и', 'о') 23
('и', 'о', 'п') 24
('э', 'ң', 'г') 23
('ю', 'р', 'ь') 5
('б', 'с', 'у') 7
('т', 'о', 'ж') 20
('т', 'о', 'х') 38
('х', 'т', 'о') 19
('м', 'м', 'ы') 8
('а', 'д', 'с') 32
('д', 'с', 'о') 24
('р', 'б', 'ц') 28
('б', 'ц', 'и') 28
('з', 'е', 'о') 12
('ы', 'п', 'с') 23
('л', '-', 'х') 21
('е', 'з', 'м') 17
('л', 'п', 'к') 6
('м', '-', 'с') 25
('в', 'е', 'о') 4
('у', 'и', 'с') 12
('р', 'ф', 'т') 22
('д', 'ё', 'ё') 26
('л', 'о', '-') 10
('н', '-', 'ү') 6
('-', 'ү', 'с') 5
('а', 'г', 'б') 9
('г', 'б', 'а') 11
('ж', 'ы', 'ч') 2
('р', 'и', 'ц') 35
('ы', 'т', '-') 5
('й', 'с', 'т') 55
('ч', 'ү', 'м') 36
('е', 'с', '-') 43
('-', 'п', 'л') 24
('й', 'ч', 'и') 48
('о', 'г', 'ч') 2
('й', 'у', 'р') 18
('ь', 'в', 'а') 27
('д', 'ъ', 'г') 25
('э', 'к', '-') 6
('-', 'о', 'ф') 8
('л', 'ъ', 'н') 7
('ү', 'т', 'ч') 11
('в', 'о', 'е

('ц', '-', 'д') 2
('ц', 'е', 'з') 6
('т', 'а', 'о') 4
('ц', 'з', 'э') 1
('з', 'э', 'д') 1
('ц', 'и', 'м') 2
('ц', 'о', 'й') 1
('ц', 'ы', 'п') 2
('ц', 'ю', 'р') 2
('ш', 'ч', 'о') 2
('о', 'б', 'ы') 8
('р', 'н', 'я') 4
('н', 'я', 'е') 1
('ж', 'и', 'ц') 2
('ч', 'ж', 'э') 2
('ж', 'э', 'н') 7
('у', 'н', 'л') 7
('ч', 'х', 'о') 3
('ы', 'з', 'х') 7
('ч', 'ь', 'щ') 2
('ь', 'щ', 'г') 1
('щ', 'г', 'ы') 1
('ч', 'ө', 'ж') 2
('ч', 'ө', 'р') 8
('ш', '-', 'г') 4
('ш', 'о', 'с') 15
('к', 'ы', 'е') 3
('а', 'х', '-') 13
('х', '-', 'ж') 1
('в', 'ч', 'у') 12
('о', 'к', 'ю') 1
('а', 'р', 'ё') 2
('ш', 'и', 'о') 2
('ш', 'и', 'х') 5
('ң', '-', 'у') 3
('-', 'у', 'й') 7
('л', 'о', 'х') 7
('о', 'м', 'ш') 3
('ш', 'о', 'х') 3
('о', 'х', 'р') 38
('и', 'ц', '-') 4
('ц', '-', 'т') 8
('-', 'т', 'ю') 2
('т', 'ю', 'б') 6
('й', 'н', 'м') 1
('н', 'б', 'р') 4
('ы', '-', 'г') 10
('ы', 'ы', 'к') 1
('ы', 'к', 'ө') 7
('к', 'к', 'ё') 1
('э', '-', 'с') 3
('э', 'б', 'б') 6
('б', 'б', 'г') 1
('э', 'о', 'к') 1
('э', 'с', 'п') 10
('с'

('п', 'у', 'м') 2
('ш', 'ю', 'т') 2
('н', 'н', 'т') 7
('з', 'м', 'п') 1
('т', 'н', 'ө') 1
('а', 'ң', 'о') 2
('ң', 'о', 'в') 1
('ц', 'и', 'ш') 3
('н', 'х', 'в') 1
('ш', 'а', 'з') 2
('п', 'в', 'л') 1
('й', 'ж', 'р') 1
('н', 'й', 'и') 2
('н', 'л', 'с') 1
('р', 'м', 'ь') 3
('м', 'ь', '-') 1
('ь', '-', 'т') 7
('р', 'г', 'к') 3
('и', 'ц', 'о') 3
('ц', 'о', 'н') 3
('о', 'и', 'о') 5
('е', 'х', 'ш') 1
('х', 'ш', 'т') 1
('с', 'б', 'р') 2
('п', 'и', 'х') 1
('а', 'ц', 'к') 3
('о', 'р', 'ы') 2
('а', 'л', 'ё') 2
('ё', 'в', 'о') 2
('д', 'м', 'о') 4
('о', 'е', 'д') 2
('в', 'и', '-') 3
('т', 'б', 'ю') 3
('и', 'б', 'ю') 3
('л', 'я', 'к') 7
('м', 'е', 'щ') 4
('е', 'щ', 'и') 5
('о', 'т', 'ю') 1
('т', 'ю', 'т') 1
('п', 'о', 'я') 3
('я', 'х', 'а') 3
('е', 'а', 'м') 3
('т', 'к', 'к') 2
('м', 'ъ', 'е') 2
('ъ', 'е', 'р') 2
('ь', 'е', '-') 1
('р', 'е', 'ю') 2
('е', 'ю', 'д') 2
('п', 'р', 'з') 1
('п', 'р', 'м') 3
('ф', 'е', 'ц') 3
('п', 'р', 'ю') 1
('р', 'ю', 'д') 1
('и', 'х', 'р') 9
('п', 'у', 'э') 4
('у', 'э',

('т', 'к', 'ш') 1
('т', 'м', 'н') 1
('о', '-', 'ю') 1
('б', 'т', 'т') 1
('о', 'г', 'ү') 3
('п', 'г', 'р') 1
('з', 'ч', 'о') 1
('о', 'о', 'ү') 1
('п', 'ч', 'о') 1
('к', 'ө', 'о') 1
('т', 'о', 'ь') 1
('о', 'ь', 'м') 1
('н', 'с', 'ч') 4
('ш', 'е', 'я') 1
('-', 'п', '-') 1
('и', 'ф', 'н') 1
('ф', 'н', 'о') 1
('л', 'ы', 'ы') 1
('т', 'р', 'м') 1
('у', 'г', 'ю') 1
('у', 'е', 'т') 1
('к', 'и', 'у') 1
('у', 'к', 'ю') 1
('я', 'р', 'е') 2
('а', 'й', 'ь') 2
('й', 'ь', 'ы') 1
('ш', 'е', 'а') 1
('р', 'ы', 'у') 2
('ы', 'у', 'ш') 1
('п', '-', 'ё') 1
('-', 'ё', 'с') 1
('с', 'с', 'ө') 1
('у', 'ф', '-') 1
('у', 'ш', 'ь') 1
('ш', 'ь', 'у') 2
('у', 'ш', 'ө') 1
('т', 'у', 'щ') 1
('у', 'щ', 'д') 1
('щ', 'д', 'щ') 1
('щ', 'р', 'а') 1
('у', 'ю', '-') 2
('ю', '-', 'н') 2
('у', 'ю', 'и') 1
('ю', 'и', 'у') 1
('т', 'у', 'ү') 2
('у', 'ү', 'з') 1
('т', 'х', 'э') 1
('х', 'э', 'к') 1
('д', 'щ', 'г') 3
('-', 'т', 'щ') 1
('щ', 'л', 'г') 2
('з', 'щ', 'щ') 2
('щ', 'з', 'ё') 1
('т', 'щ', 'п') 2
('щ', 'п', 'к') 2
('п', 'к',

## Diphones

In [13]:
diphones = []

In [14]:
for v in vowels:
    if v not in ['е', 'ё', 'ю', 'я']:
        for c in consonants:
            if c not in ['щ', 'ь', 'ъ', 'ц']:
                print(v+c)
                diphones.append(v+c)

аб
ав
аг
ад
аж
аз
ай
ак
ал
ам
ан
аң
ап
ар
ас
ат
аф
ах
ач
аш
эб
эв
эг
эд
эж
эз
эй
эк
эл
эм
эн
эң
эп
эр
эс
эт
эф
эх
эч
эш
иб
ив
иг
ид
иж
из
ий
ик
ил
им
ин
иң
ип
ир
ис
ит
иф
их
ич
иш
ыб
ыв
ыг
ыд
ыж
ыз
ый
ык
ыл
ым
ын
ың
ып
ыр
ыс
ыт
ыф
ых
ыч
ыш
об
ов
ог
од
ож
оз
ой
ок
ол
ом
он
оң
оп
ор
ос
от
оф
ох
оч
ош
өб
өв
өг
өд
өж
өз
өй
өк
өл
өм
өн
өң
өп
өр
өс
өт
өф
өх
өч
өш
уб
ув
уг
уд
уж
уз
уй
ук
ул
ум
ун
уң
уп
ур
ус
ут
уф
ух
уч
уш
үб
үв
үг
үд
үж
үз
үй
үк
үл
үм
үн
үң
үп
үр
үс
үт
үф
үх
үч
үш


In [15]:
for c in consonants:
    if c not in ['щ', 'ь', 'ъ', 'ц']:
        for v in vowels:
            if v not in ['е', 'ё', 'ю', 'я']:
                print(c+v)
                diphones.append(c+v)

ба
бэ
би
бы
бо
бө
бу
бү
ва
вэ
ви
вы
во
вө
ву
вү
га
гэ
ги
гы
го
гө
гу
гү
да
дэ
ди
ды
до
дө
ду
дү
жа
жэ
жи
жы
жо
жө
жу
жү
за
зэ
зи
зы
зо
зө
зу
зү
йа
йэ
йи
йы
йо
йө
йу
йү
ка
кэ
ки
кы
ко
кө
ку
кү
ла
лэ
ли
лы
ло
лө
лу
лү
ма
мэ
ми
мы
мо
мө
му
мү
на
нэ
ни
ны
но
нө
ну
нү
ңа
ңэ
ңи
ңы
ңо
ңө
ңу
ңү
па
пэ
пи
пы
по
пө
пу
пү
ра
рэ
ри
ры
ро
рө
ру
рү
са
сэ
си
сы
со
сө
су
сү
та
тэ
ти
ты
то
тө
ту
тү
фа
фэ
фи
фы
фо
фө
фу
фү
ха
хэ
хи
хы
хо
хө
ху
хү
ча
чэ
чи
чы
чо
чө
чу
чү
ша
шэ
ши
шы
шо
шө
шу
шү


In [16]:
diphones

['аб',
 'ав',
 'аг',
 'ад',
 'аж',
 'аз',
 'ай',
 'ак',
 'ал',
 'ам',
 'ан',
 'аң',
 'ап',
 'ар',
 'ас',
 'ат',
 'аф',
 'ах',
 'ач',
 'аш',
 'эб',
 'эв',
 'эг',
 'эд',
 'эж',
 'эз',
 'эй',
 'эк',
 'эл',
 'эм',
 'эн',
 'эң',
 'эп',
 'эр',
 'эс',
 'эт',
 'эф',
 'эх',
 'эч',
 'эш',
 'иб',
 'ив',
 'иг',
 'ид',
 'иж',
 'из',
 'ий',
 'ик',
 'ил',
 'им',
 'ин',
 'иң',
 'ип',
 'ир',
 'ис',
 'ит',
 'иф',
 'их',
 'ич',
 'иш',
 'ыб',
 'ыв',
 'ыг',
 'ыд',
 'ыж',
 'ыз',
 'ый',
 'ык',
 'ыл',
 'ым',
 'ын',
 'ың',
 'ып',
 'ыр',
 'ыс',
 'ыт',
 'ыф',
 'ых',
 'ыч',
 'ыш',
 'об',
 'ов',
 'ог',
 'од',
 'ож',
 'оз',
 'ой',
 'ок',
 'ол',
 'ом',
 'он',
 'оң',
 'оп',
 'ор',
 'ос',
 'от',
 'оф',
 'ох',
 'оч',
 'ош',
 'өб',
 'өв',
 'өг',
 'өд',
 'өж',
 'өз',
 'өй',
 'өк',
 'өл',
 'өм',
 'өн',
 'өң',
 'өп',
 'өр',
 'өс',
 'өт',
 'өф',
 'өх',
 'өч',
 'өш',
 'уб',
 'ув',
 'уг',
 'уд',
 'уж',
 'уз',
 'уй',
 'ук',
 'ул',
 'ум',
 'ун',
 'уң',
 'уп',
 'ур',
 'ус',
 'ут',
 'уф',
 'ух',
 'уч',
 'уш',
 'үб',
 'үв',
 'үг',

In [17]:
len(diphones)

320

## Final list

In [18]:
word_list = [word.lower() for word in frequent['word'].unique().tolist()]

In [19]:
word_list.remove('-')
print(len(word_list))

1433


In [20]:
word_list

['жана',
 'менен',
 'да',
 'бир',
 'эле',
 'деп',
 'боюнча',
 'болуп',
 'үчүн',
 'бул',
 'болгон',
 'же',
 'ал',
 'керек',
 'эмес',
 'бар',
 'башка',
 'жок',
 'алып',
 'анын',
 'ар',
 'турган',
 'деген',
 'өз',
 'гана',
 'кандай',
 'болот',
 'катары',
 'эки',
 'эл',
 'дагы',
 'кийин',
 'болсо',
 'ушул',
 'мүмкүн',
 'бирок',
 'кыргыз',
 'адам',
 'тарабынан',
 'учурда',
 'аны',
 'эми',
 'эч',
 'алардын',
 'көп',
 'кабыл',
 'мамлекеттик',
 'чейин',
 'аркылуу',
 'келген',
 'алуу',
 'жаткан',
 'каршы',
 'ошол',
 'иш',
 'ылайык',
 'тууралуу',
 'бардык',
 'ошондой',
 'эң',
 'жерде',
 'тийиш',
 'улуттук',
 'жатат',
 'берүү',
 'жалпы',
 'жолу',
 'ээ',
 'келип',
 'көз',
 'пайда',
 'аралык',
 'турат',
 'мындай',
 'баш',
 'негизги',
 'ага',
 'өзүнүн',
 'саясий',
 'кол',
 'жөнүндө',
 'сөз',
 'алган',
 'ишке',
 'байланыштуу',
 'биз',
 'жаңы',
 'өзү',
 'туура',
 'ичинде',
 'чоң',
 'алынган',
 'алар',
 'зарыл',
 'чыгып',
 'айрым',
 'жакшы',
 'калган',
 'берилген',
 'толук',
 'маалымат',
 'банк',
 'бол

In [21]:
word_list.extend(['а', 'э', 'е', 'и', 'ы', 'о', 'ө', 'у', 'ү'])

In [22]:
word_list.extend(diphones)

In [23]:
word_list = list(set(word_list))

sorted(word_list)

['а',
 'аб',
 'аба',
 'абал',
 'абалда',
 'абалы',
 'абалын',
 'абдан',
 'ав',
 'автору',
 'аг',
 'ага',
 'ад',
 'адабий',
 'адам',
 'адамга',
 'адамдар',
 'адамдарга',
 'адамдарды',
 'адамдардын',
 'адамды',
 'адамдын',
 'адистер',
 'аж',
 'аз',
 'азаттык',
 'азаттыкка',
 'азаттыктын',
 'азия',
 'азыр',
 'азыркы',
 'азырынча',
 'ай',
 'айланып',
 'айлык',
 'аймагында',
 'аймакта',
 'айрыкча',
 'айрым',
 'айта',
 'айтат',
 'айткан',
 'айтканда',
 'айтты',
 'айтылат',
 'айтылган',
 'айтылып',
 'айтымында',
 'айтып',
 'айыл',
 'айынан',
 'айында',
 'айырмаланат',
 'айырмаланып',
 'ак',
 'акаев',
 'активдүү',
 'акча',
 'акчаны',
 'акш',
 'акшнын',
 'акы',
 'акыркы',
 'ал',
 'ала',
 'алабыз',
 'алар',
 'аларга',
 'аларды',
 'алардын',
 'алат',
 'албай',
 'албайт',
 'албетте',
 'алган',
 'алганда',
 'алгач',
 'алгачкы',
 'алды',
 'алдыга',
 'алдын',
 'алдына',
 'алдында',
 'алдындагы',
 'алдынча',
 'алдыңкы',
 'алкагында',
 'алмашуу',
 'алса',
 'алты',
 'алтын',
 'алуу',
 'алууга',
 'алууда

In [24]:
len(word_list)

1738