## Pymorphy2
Морфологический анализатор для русского языка (http://pymorphy2.readthedocs.org/).

In [1]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

Метод *morph.parse()* возвращает список объектов типа Parse с информацией о формах слова. Анализатор возвращает несколько вариантов разбора, так как на основе информации о том, как слово пишется  понять, какой разбор правильный, нельзя (нужен контекст).

In [2]:
def pr(lst):
    for x in lst:
        print('{}\t{}'.format(x.normal_form, x.tag))

In [3]:
pr(morph.parse('стекло'))

стекло	NOUN,inan,neut sing,nomn
стекло	NOUN,inan,neut sing,accs
стечь	VERB,perf,intr neut,sing,past,indc


В данном примере слово "стекло" может быть разобрано как глагол, как существительное в именительном падеже и сущиствительное в винительном падеже. 
Граммема - какая-то грамматическая характеристика слова (падеж, род и т.д.). Тэг - это набор граммем. В данном случае, для слова *стечь*:  
**глагол**, **совершенный вид**, **средний род**, **единственное число**, **прошедшее время**.

Полный список граммем: http://opencorpora.org/dict.php?act=gram

Как может быть разобрано слово *машина*? Примеры предложений с каждым вариантом?

In [4]:
pr(morph.parse('машина'))

машина	NOUN,inan,femn sing,nomn
машин	NOUN,anim,masc,Sgtm,Surn sing,gent
машин	NOUN,anim,masc,Sgtm,Surn sing,accs
машин	NOUN,anim,femn,Sgtm,Surn sing,nomn


Слово *дань*? Примеры?

In [5]:
pr(morph.parse('дань'))

дань	NOUN,inan,femn sing,nomn
дань	NOUN,inan,femn sing,accs
даня	NOUN,anim,masc,Name sing,voct,Infr
даня	NOUN,anim,masc,Name plur,gent
даня	NOUN,anim,masc,Name plur,accs


В случае, если слово отсутствует в словаре, разбор производится эвристически:

In [6]:
pr(morph.parse('бокренок'))

бокренок	NOUN,inan,masc sing,nomn
бокренок	NOUN,inan,masc sing,accs
бокрёнок	NOUN,anim,masc sing,nomn
бокренка	NOUN,inan,femn plur,gent
бокренок	NOUN,inan,masc sing,nomn
бокренок	NOUN,inan,masc sing,accs


In [7]:
pr(morph.parse('на'))

на	PREP
на	PRCL
на	INTJ


In [8]:
pr(morph.parse('люди'))

человек	NOUN,anim,masc plur,nomn


### MyStem
https://api.yandex.ru/mystem/

Можно загрузить только в виде исполняемого файла, pymystem3 - обертка. Формально при разборе может учитывать контекст. 

In [1]:
from pymystem3 import Mystem
mystem = Mystem()

In [10]:
mystem.analyze('машина')

[{'analysis': [{'gr': 'S,жен,неод=им,ед', 'lex': 'машина'}], 'text': 'машина'},
 {'text': '\n'}]

In [11]:
mystem.analyze('ловить глазами')

[{'analysis': [{'gr': 'V,несов,пе=инф', 'lex': 'ловить'}], 'text': 'ловить'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,муж,неод=твор,мн', 'lex': 'глаз'}],
  'text': 'глазами'},
 {'text': '\n'}]

In [12]:
mystem.analyze('Всё это стекло на помойку')

[{'analysis': [{'gr': 'APRO=(им,мн|вин,ед,сред|им,ед,сред|вин,мн,неод)',
    'lex': 'весь'}],
  'text': 'Всё'},
 {'text': ' '},
 {'analysis': [{'gr': 'SPRO,ед,сред,неод=(вин|им)', 'lex': 'это'}],
  'text': 'это'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,сред,неод=(вин,ед|им,ед)', 'lex': 'стекло'}],
  'text': 'стекло'},
 {'text': ' '},
 {'analysis': [{'gr': 'PR=', 'lex': 'на'}], 'text': 'на'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,жен,неод=вин,ед', 'lex': 'помойка'}],
  'text': 'помойку'},
 {'text': '\n'}]

### Snowball

Стемминг - выделение основы. 
http://snowball.tartarus.org - стеммеры для разных языков. Будем использовать обертку из библиотеки NLTK.

In [13]:
from nltk.stem.snowball import RussianStemmer 
rs = RussianStemmer()

In [14]:
(rs.stem('бутявку'),
rs.stem('муки'),
rs.stem('стекло'),
rs.stem('машина'),
rs.stem('машину'))

('бутявк', 'мук', 'стекл', 'машин', 'машин')

In [15]:
from nltk.tokenize import sent_tokenize

print(
    sent_tokenize('I like trains. I like cakes. Dr. House, how are you? I like I.B.M.!'))
print(
    sent_tokenize('The world\'s oldest football competition is the FA Cup, which was founded by C. W. Alcock and has been contested by English teams since 1872.'))

['I like trains.', 'I like cakes.', 'Dr. House, how are you?', 'I like I.B.M.', '!']
["The world's oldest football competition is the FA Cup, which was founded by C. W. Alcock and has been contested by English teams since 1872."]


### Полезные ссылки:
1. http://lucene.apache.org/
2. http://nltk.org/
3. http://snowball.tartarus.org/
4. http://opennlp.apache.org/    
5. http://nlp.stanford.edu/software/
6. http://terrier.org