### Lemmatization & tagging for Russian texts

The package used here is Python [Pymystem3](https://pypi.org/project/pymystem3/), which is a wrapper around Mystem morphological analyser commonly used for Russian. I use it because I find its quality both for historical (i.e. 19th-century) and modern texts quite good, although there's a problem that Mystem is not an opensource tool but a property of Yandex. We can test/switch to another tool if necessary.

In [7]:
import re
import json
import pandas as pd
from pymystem3 import Mystem

m = Mystem()

### Basic usage for strings

In [3]:
test = 'Попробуй этих мягких французских булок'
lemma = m.lemmatize(test)
print(lemma) # list output

['попробовать', ' ', 'этот', ' ', 'мягкий', ' ', 'французский', ' ', 'булка', '\n']


#### Annotation

In [None]:
import json

In [9]:
an = m.analyze(test) # Mystem output is hierarchical 

In [10]:
print(an)

[{'analysis': [{'lex': 'попробовать', 'wt': 1, 'gr': 'V,сов,пе=ед,пов,2-л'}], 'text': 'Попробуй'}, {'text': ' '}, {'analysis': [{'lex': 'этот', 'wt': 1, 'gr': 'APRO=(пр,мн|род,мн|вин,мн,од)'}], 'text': 'этих'}, {'text': ' '}, {'analysis': [{'lex': 'мягкий', 'wt': 1, 'gr': 'A=(пр,мн,полн|вин,мн,полн,од|род,мн,полн)'}], 'text': 'мягких'}, {'text': ' '}, {'analysis': [{'lex': 'французский', 'wt': 1, 'gr': 'A=(пр,мн,полн|вин,мн,полн,од|род,мн,полн)'}], 'text': 'французских'}, {'text': ' '}, {'analysis': [{'lex': 'булка', 'wt': 1, 'gr': 'S,жен,неод=род,мн'}], 'text': 'булок'}, {'text': '\n'}]


In [41]:
print(an[2])
print('\nroot list length:', len(an))

{'analysis': [{'lex': 'этот', 'wt': 1, 'gr': 'APRO=(пр,мн|род,мн|вин,мн,од)'}], 'text': 'этих'}

root list length: 10


In [42]:
pd.json_normalize(an[2], record_path = ['analysis'],
                 meta = ['text'])

Unnamed: 0,lex,wt,gr,text
0,этот,1,"APRO=(пр,мн|род,мн|вин,мн,од)",этих


In [49]:
df = pd.DataFrame(columns = ['lex', 'wt', 'gr', 'text'])
df

Unnamed: 0,lex,wt,gr,text


In [50]:
for i in range(len(an)):
    try: 
        t = pd.json_normalize(an[i], record_path = ['analysis'], meta = ['text'])
        df = df.append(t)
        t = None
    except:
        continue

In [51]:
df

Unnamed: 0,lex,wt,gr,text
0,попробовать,1,"V,сов,пе=ед,пов,2-л",Попробуй
0,этот,1,"APRO=(пр,мн|род,мн|вин,мн,од)",этих
0,мягкий,1,"A=(пр,мн,полн|вин,мн,полн,од|род,мн,полн)",мягких
0,французский,1,"A=(пр,мн,полн|вин,мн,полн,од|род,мн,полн)",французских
0,булка,1,"S,жен,неод=род,мн",булок


### Table input 
(lemmatization only)

1. For tidy-like table w/1 row = 1 word

In [60]:
#df = pd.read_csv('test.tsv', sep = '\t')

df = pd.DataFrame(data = {'id': [1,2,3,4,5],
                         'text':['Попробуй','этих','мягких','французских','булок'],
                         'lemma':['','','','','']})

print(df.head(5))

   id         text lemma
0   1     Попробуй      
1   2         этих      
2   3       мягких      
3   4  французских      
4   5        булок      


In [62]:
df['lemma'] = df['text'].apply(m.lemmatize)
df['lemma'] = [''.join(map(str, l)) for l in df['lemma']] 
df['lemma'] = df['lemma'].str.replace('\n', '', regex = True)

In [63]:
print(df.head())

   id         text        lemma
0   1     Попробуй  попробовать
1   2         этих         этот
2   3       мягких       мягкий
3   4  французских  французский
4   5        булок        булка


In [74]:
print(df.iloc[3])
print("\n", df.iloc[3][1])

id                 4
text     французских
lemma    французский
Name: 3, dtype: object

 французских


In [77]:
df['analysis'] = df['text'].apply(m.analyze)

In [101]:
df.head()

Unnamed: 0,id,text,lemma,analysis
0,1,Попробуй,попробовать,"[{'analysis': [{'lex': 'попробовать', 'wt': 1,..."
1,2,этих,этот,"[{'analysis': [{'lex': 'этот', 'wt': 1, 'gr': ..."
2,3,мягких,мягкий,"[{'analysis': [{'lex': 'мягкий', 'wt': 1, 'gr'..."
3,4,французских,французский,"[{'analysis': [{'lex': 'французский', 'wt': 1,..."
4,5,булок,булка,"[{'analysis': [{'lex': 'булка', 'wt': 1, 'gr':..."


In [88]:
# indexes to get only grammar annotation
df['analysis'][1][0].get('analysis')[0].get('gr')

'APRO=(пр,мн|род,мн|вин,мн,од)'

In [106]:
# separate column 'gr' with only grammar features(to be sep furthier with regex)
df['gr'] = [df['analysis'][i][0].get('analysis')[0].get('gr') for i in range(len(df))]
df.drop('analysis', inplace = True, axis = 1) # axis = 1 for columns

In [107]:
df

Unnamed: 0,id,text,lemma,gr
0,1,Попробуй,попробовать,"V,сов,пе=ед,пов,2-л"
1,2,этих,этот,"APRO=(пр,мн|род,мн|вин,мн,од)"
2,3,мягких,мягкий,"A=(пр,мн,полн|вин,мн,полн,од|род,мн,полн)"
3,4,французских,французский,"A=(пр,мн,полн|вин,мн,полн,од|род,мн,полн)"
4,5,булок,булка,"S,жен,неод=род,мн"


In [None]:
# write to file
# df.to_csv('test.csv')

2. Non-tokenized text in rows (lemmatization only)

In [54]:
df = pd.DataFrame(data = {'id': [1,2],
                          'text': ['Мама мыла раму', 'Попробуй этих мягких французских булок'],
                         'lemma': ['','']})
print(df.head())

   id                                    text lemma
0   1                          Мама мыла раму      
1   2  Попробуй этих мягких французских булок      


In [58]:
df['lemma'] = df['text'].apply(m.lemmatize)
df['lemma'] = [''.join(map(str, l)) for l in df['lemma']] # mystem output is a list
# second part is: for list in all rows of df['lemma'] do join as string (same as str.get but for multiple list el-s)
df['lemma'] = df['lemma'].str.replace('\n', '', regex = True)

print(df.head())

   id                                    text  \
0   1                          Мама мыла раму   
1   2  Попробуй этих мягких французских булок   

                                       lemma  
0                             мама мыть рама  
1  попробовать этот мягкий французский булка  
