### Обрабатываем и обучаемся на train

In [1]:
import pandas as pd
my_csv = pd.read_csv('C://Put_txt/ruscorpora_parsed.txt', sep='/')

In [2]:
my_csv.head()

Unnamed: 0,Словоформа,лемма,Морфологический разбор
0,Якутское,якутский,"A=n,sg,nom,plen"
1,отделение,отделение,"S,n,inan=sg,nom"
2,Единой,единый,"A=f,sg,gen,plen"
3,России,Россия,"S,f,inan=sg,gen"
4,планирует,планировать,"V,ipf,tran=sg,act,praes,3p,indic"


In [3]:
import re
POS = []
for my_data in my_csv['Морфологический разбор']:
    res = re.search('[A-Z]*(-[A-Z]*)?', my_data)
    POS.append(res.group(0))
my_csv['POS'] = POS
    

In [4]:
my_csv.head()

Unnamed: 0,Словоформа,лемма,Морфологический разбор,POS
0,Якутское,якутский,"A=n,sg,nom,plen",A
1,отделение,отделение,"S,n,inan=sg,nom",S
2,Единой,единый,"A=f,sg,gen,plen",A
3,России,Россия,"S,f,inan=sg,gen",S
4,планирует,планировать,"V,ipf,tran=sg,act,praes,3p,indic",V


In [5]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
label_encoder = LabelEncoder()
real_1 = pd.Series(label_encoder.fit_transform(my_csv['POS'].astype(str)))
dict1 = dict(enumerate(label_encoder.classes_))

### Кодируем train data

In [6]:
categorical_columns = my_csv.columns[my_csv.dtypes == 'object'].union(['POS'])
for column in categorical_columns:
    my_csv[column] = label_encoder.fit_transform(my_csv[column].astype(str))
my_csv.head()

Unnamed: 0,Словоформа,лемма,Морфологический разбор,POS
0,29302,50918,523,1
1,82438,32539,1328,17
2,11064,19704,453,1
3,22805,9577,941,17
4,87665,34594,2404,19


In [7]:
y = my_csv['POS']
my_csv = my_csv.drop('POS', 1)

In [8]:
my_csv = my_csv.drop('Морфологический разбор', 1)
my_csv.head()

Unnamed: 0,Словоформа,лемма
0,29302,50918
1,82438,32539
2,11064,19704
3,22805,9577
4,87665,34594


In [9]:
onehot_encoder = OneHotEncoder(sparse=True)
X = onehot_encoder.fit_transform(my_csv)

### Мы обучаемся на train методом LogisticRegression

In [10]:
from sklearn.linear_model import LogisticRegression

In [11]:
clf = LogisticRegression(n_jobs=-1, verbose=5)
clf = clf.fit(X, y)

  " = {}.".format(self.n_jobs))


[LibLinear]

### Открываем текст test и золотой стандарт, проводим препроцессинг

Мы токенизируем текст и предстказываем части речи токенов по средствам обученного алгоритма. После этого сравниваем с золотым стандартом. Но что-то пошло не так, потому что золотой стандарт не совпадает с текстом. Поэтому, далее мы решили применить алгоритм к леммам из золотого стандарта, расставить тэги и сравить с резульататми золотого стандарта.

In [12]:
from nltk.tokenize import word_tokenize, wordpunct_tokenize
from pymorphy2 import MorphAnalyzer
import matplotlib.pyplot as plt
%matplotlib inline 

morph = MorphAnalyzer()

with open ('C://Put_txt/ruscorpora_parsed.txt', 'r', encoding = 'Windows-1251') as f:
    text = f.read()

def first_normalize(text):
    lemmas = []
    text = text.lower()
    text = re.sub('!|\#|\$|%|\&|\(|\)|\*|\+|,|-|\.|\/|\:|;|<|=|>|\?|\@|\[|\]|^|_|`|\{|\}|~|«|«|»|"|…', '', text)
    text = re.sub('(http://|https://|www.)[a-zA-z0-9]*? ', '', text)
    text = re.sub('[A-Za-z0-9]+', '', text)
    text = re.sub('\s+|\n|\t', ' ', text)
    tokens = wordpunct_tokenize(text)
    for el in tokens:
        lemmas.append(morph.parse(el)[0].normal_form)
    
    clean_lemmas = [lemma for lemma in lemmas]
    
    return tokens, clean_lemmas

tokens, clean_lemmas = first_normalize(text)

new_data = pd.DataFrame()
new_data['Словоформа'] = tokens
new_data['Лемма'] = clean_lemmas

In [13]:
real_11 = pd.Series(label_encoder.fit_transform(new_data['Словоформа'].astype(str)))
categorical_columns = new_data.columns[new_data.dtypes == 'object'].union(['Словоформа'])
for column in categorical_columns:
    new_data[column] = label_encoder.fit_transform(new_data[column].astype(str))
new_data.head()


Unnamed: 0,Словоформа,Лемма
0,1504,1243
1,289,231
2,1489,1227
3,794,645
4,1244,1025


In [14]:
X1 = onehot_encoder.transform(new_data)
X1

<2322x184026 sparse matrix of type '<class 'numpy.float64'>'
	with 4644 stored elements in Compressed Sparse Row format>

In [15]:
Y_pred = clf.predict(X1)

In [16]:
Y_pred

array([11, 17, 17, ..., 17, 17, 17])

In [12]:
with open ('C://Put_txt/GoldStandard.txt', 'r', encoding='utf-8') as f:
    gold_text = f.read()

In [13]:
gold_text = re.sub('!|\#|\$|%|\&|\(|\)|\*|\+|,|-|\.|\/|\:|;|<|=|>|\?|\@|\[|\]|^|_|`|\{|\}|~|«|«|»|"|…', '', gold_text)
gold_text = re.sub('[a-z0-9]+', '', gold_text)
gold_text = re.sub('\n+', '\n', gold_text)

In [14]:
with open ('C://Put_txt/gold.txt', 'w', encoding = 'utf-8') as f:
    f.write(gold_text)

In [16]:
new_csv = pd.read_csv('C://Put_txt/gold1.txt', encoding = 'Windows-1251', sep=' ')
new_csv = new_csv.drop('Unnamed: 3', 1)
new_csv = new_csv.dropna()
new_csv.columns = ['Word', 'Lemma', 'POS']

In [17]:
new_csv.head()

Unnamed: 0,Word,Lemma,POS
0,Цветки,цветок,S
1,дикорастущих,дикорастущий,A
2,форм,форма,S
3,обыкновенной,обыкновенный,A
4,сирени,сирень,S


## А ТЕПЕРЬ НОРМАЛЬНО

In [18]:
real_11 = pd.Series(label_encoder.fit_transform(new_csv['POS'].astype(str)))
dict2 = dict(enumerate(label_encoder.classes_))
categorical_columns = new_csv.columns[new_csv.dtypes == 'object'].union(['POS'])
for column in categorical_columns:
    new_csv[column] = label_encoder.fit_transform(new_csv[column].astype(str))

new_csv.head()

Unnamed: 0,Word,Lemma,POS
0,298,1379,7
1,577,356,0
2,1739,1364,7
3,1042,761,0
4,1504,1159,7


In [19]:
y_test = new_csv['POS']
new_csv = new_csv.drop('POS', 1)

In [20]:
X2 = onehot_encoder.transform(new_csv)
X2

<2661x184026 sparse matrix of type '<class 'numpy.float64'>'
	with 5322 stored elements in Compressed Sparse Row format>

In [21]:
Y_pred = clf.predict(X2)

In [22]:
Y_pred

array([17, 11, 17, ..., 17, 17, 17], dtype=int32)

In [23]:
Y_pr = Y_pred.tolist()
print(len(Y_pr))
Y_ts = y_test.tolist()
print(len(Y_ts))

2661
2661


In [24]:
Y_pr_n = []
for y in Y_pr:
    for key, value in dict1.items():
        if y == key:
            y = dict1[key]
            Y_pr_n.append(y)
Y_pr_n


['S',
 'NUM',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'NUM',
 'S',
 'NUM',
 'NUM',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'ANUM',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'NONLEX',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'NUM',
 'S',
 'S',
 'S',
 'NUM',
 'NUM',
 'NUM',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'ANUM',
 'S',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'NUM',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'NUM',
 'S',
 'NUM',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'S',
 'NUM',
 'S',
 'NUM',
 'NUM',
 'S',
 'S',
 'S',
 'S',
 'S',
 'S',
 'NUM',
 'S',
 'NUM',
 'S',
 'S',
 'NUM',

In [25]:
Y_ts_n = []
for y in Y_ts:
    for key, value in dict2.items():
        if y == key:
            y = dict2[key]
            Y_ts_n.append(y)
Y_ts_n

['S',
 'A',
 'S',
 'A',
 'S',
 'A',
 'V',
 'A',
 'S',
 'PR',
 'S',
 'PR',
 'S',
 'A',
 'S',
 'PR',
 'S',
 'PR',
 'S',
 'S',
 'S',
 'S',
 'V',
 'A',
 'PR',
 'S',
 'S',
 'A',
 'S',
 'PR',
 'S',
 'S',
 'PR',
 'S',
 'S',
 'CONJ',
 'S',
 'V',
 'A',
 'S',
 'A',
 'S',
 'S',
 'ADV',
 'V',
 'PR',
 'A',
 'S',
 'PR',
 'ADV',
 'A',
 'S',
 'PR',
 'A',
 'S',
 'PR',
 'A',
 'S',
 'PR',
 'A',
 'S',
 'V',
 'S',
 'S',
 'ADV',
 'V',
 'ADV',
 'S',
 'S',
 'PR',
 'S',
 'A',
 'S',
 'CONJ',
 'V',
 'A',
 'S',
 'ADV',
 'S',
 'S',
 'S',
 'ADV',
 'V',
 'S',
 'A',
 'S',
 'PR',
 'S',
 'S',
 'PR',
 'S',
 'S',
 'PR',
 'A',
 'A',
 'S',
 'A',
 'S',
 'V',
 'PR',
 'S',
 'S',
 'CONJ',
 'V',
 'PR',
 'S',
 'PR',
 'S',
 'S',
 'S',
 'ADV',
 'PR',
 'A',
 'A',
 'ADV',
 'S',
 'V',
 'PR',
 'S',
 'PR',
 'S',
 'S',
 'S',
 'ADV',
 'S',
 'A',
 'CONJ',
 'A',
 'S',
 'PR',
 'APRO',
 'S',
 'SPRO',
 'ADV',
 'APRO',
 'S',
 'V',
 'PR',
 'S',
 'S',
 'ADV',
 'SPRO',
 'V',
 'SPRO',
 'PR',
 'S',
 'S',
 'ADV',
 'ADV',
 'SPRO',
 'V',
 'A',
 'CONJ'

In [26]:
Y_ts = []
for y in Y_ts_n:
    for key, value in dict1.items():
        if y == dict1[key]:
            y = key
        if (y == 'APRO') or (y == 'SPRO'):
            y = 20
    Y_ts.append(int(y))
Y_ts


[17,
 1,
 17,
 1,
 17,
 1,
 19,
 1,
 17,
 14,
 17,
 14,
 17,
 1,
 17,
 14,
 17,
 14,
 17,
 17,
 17,
 17,
 19,
 1,
 14,
 17,
 17,
 1,
 17,
 14,
 17,
 17,
 14,
 17,
 17,
 7,
 17,
 19,
 1,
 17,
 1,
 17,
 17,
 4,
 19,
 14,
 1,
 17,
 14,
 4,
 1,
 17,
 14,
 1,
 17,
 14,
 1,
 17,
 14,
 1,
 17,
 19,
 17,
 17,
 4,
 19,
 4,
 17,
 17,
 14,
 17,
 1,
 17,
 7,
 19,
 1,
 17,
 4,
 17,
 17,
 17,
 4,
 19,
 17,
 1,
 17,
 14,
 17,
 17,
 14,
 17,
 17,
 14,
 1,
 1,
 17,
 1,
 17,
 19,
 14,
 17,
 17,
 7,
 19,
 14,
 17,
 14,
 17,
 17,
 17,
 4,
 14,
 1,
 1,
 4,
 17,
 19,
 14,
 17,
 14,
 17,
 17,
 17,
 4,
 17,
 1,
 7,
 1,
 17,
 14,
 20,
 17,
 20,
 4,
 20,
 17,
 19,
 14,
 17,
 17,
 4,
 20,
 19,
 20,
 14,
 17,
 17,
 4,
 4,
 20,
 19,
 1,
 7,
 1,
 17,
 17,
 19,
 19,
 17,
 1,
 17,
 7,
 19,
 1,
 17,
 1,
 17,
 17,
 4,
 7,
 4,
 19,
 14,
 19,
 17,
 4,
 19,
 4,
 1,
 17,
 20,
 19,
 14,
 17,
 4,
 7,
 1,
 19,
 19,
 17,
 17,
 14,
 17,
 20,
 17,
 14,
 20,
 19,
 14,
 17,
 14,
 17,
 14,
 1,
 17,
 17,
 20,
 1,
 17,
 4,
 19,
 14,


In [27]:
import numpy as np

Y_ts = np.asarray(Y_ts)
Y_ts


array([17,  1, 17, ..., 14, 17, 17])

In [31]:
from sklearn.metrics import accuracy_score, classification_report

print(accuracy_score(Y_ts, Y_pred))

0.3179255918827508


In [32]:
print (classification_report(Y_ts, Y_pred))

             precision    recall  f1-score   support

          1       0.00      0.00      0.00       299
          4       0.00      0.00      0.00       197
          6       0.00      0.00      0.00         8
          7       0.00      0.00      0.00       148
         10       0.00      0.00      0.00         0
         11       0.01      0.21      0.01        14
         14       0.00      0.00      0.00       352
         17       0.42      0.76      0.54      1103
         19       0.00      0.00      0.00       376
         20       0.00      0.00      0.00       164

avg / total       0.17      0.32      0.22      2661



  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)


In [None]:
from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(n_estimators=200, n_jobs=-1, verbose=5) 
clf = clf.fit(X, y)


building tree 1 of 200building tree 2 of 200

building tree 3 of 200
building tree 4 of 200


In [11]:
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(X.toarray(), y)

ValueError: array is too big; `arr.size * arr.dtype.itemsize` is larger than the maximum possible size.