**извлечение признаков из текста на естественном языке**

частотный анализ

_Евгений Борисов <esborisov@sevsu.ru>_

## библиотеки

In [1]:
# import re
# import gzip
import numpy as np
# import pandas as pd
# from tqdm import tqdm

np.set_printoptions(precision=2) # вывод на печать чисел до 2 знака
# pd.options.display.max_colwidth = 200 

# tqdm.pandas()

## тексты

In [2]:
docs = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
 ]

In [3]:
# docs = [
#     'После посадки в аэропорту Нью-Йорка воздушное судно отогнали в отдаленную часть аэропорта',
#     'У белой медведицы Джованны в зоопарке Мюнхена 21 ноября родился детеныш.',
#     'На юге столицы сотрудница полиции выжила после падения с седьмого этажа.',
#     ]

## простая векторизация ( CountVectorizer )

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer().fit(docs)

In [5]:
print( 'словарь:', len(count.vocabulary_), 'слов\n')  
print( sorted( count.vocabulary_.keys() )  )
# count.vocabulary_

словарь: 9 слов

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']


In [6]:
# ищем и считаем слова из словаря в тексте
print('\n'.join(docs))
count.transform(docs).todense()

This is the first document.
This document is the second document.
And this is the third one.
Is this the first document?


matrix([[0, 1, 1, 1, 0, 0, 1, 0, 1],
        [0, 2, 0, 1, 0, 1, 1, 0, 1],
        [1, 0, 0, 1, 1, 0, 1, 1, 1],
        [0, 1, 1, 1, 0, 0, 1, 0, 1]])

## векторизация словосочетаний ( CountVectorizer )

In [7]:
from sklearn.feature_extraction.text import CountVectorizer

count = CountVectorizer(ngram_range=(2,2)).fit(docs)

In [8]:
print( 'словарь:', len(count.vocabulary_), 'слов\n')  
print( sorted( count.vocabulary_.keys() )  )
# count.vocabulary_

словарь: 13 слов

['and this', 'document is', 'first document', 'is the', 'is this', 'second document', 'the first', 'the second', 'the third', 'third one', 'this document', 'this is', 'this the']


In [9]:
# ищем и считаем словосочетания из словаря в тексте
count.transform(docs).todense()

matrix([[0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0],
        [0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0],
        [1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0],
        [0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1]])

## векторизация с хэшированием ( HashingVectorizer )

In [10]:
from sklearn.feature_extraction.text import HashingVectorizer

hashvect = HashingVectorizer(n_features=4).fit(docs)

In [11]:
# ищем и считаем хэши из словаря в тексте
hashvect.transform(docs).todense()

matrix([[-0.89,  0.45,  0.  ,  0.  ],
        [-0.82,  0.41,  0.  ,  0.41],
        [-0.71,  0.71,  0.  ,  0.  ],
        [-0.89,  0.45,  0.  ,  0.  ]])

##  CountVectorizer + TF

In [12]:
cv = CountVectorizer().fit(docs)
print( 'словарь:', len(cv.vocabulary_), 'слов\n')  

словарь: 9 слов



In [13]:
cv_doc = cv.transform( docs )
cv_doc.todense()

matrix([[0, 1, 1, 1, 0, 0, 1, 0, 1],
        [0, 2, 0, 1, 0, 1, 1, 0, 1],
        [1, 0, 0, 1, 1, 0, 1, 1, 1],
        [0, 1, 1, 1, 0, 0, 1, 0, 1]])

In [14]:
from sklearn.feature_extraction.text import TfidfTransformer

# применяем коэффициент обратной частоты IDF и нормализацию
tf = TfidfTransformer(use_idf=True, norm='l2').fit( cv_doc )
tf.transform( cv_doc ).todense()

matrix([[0.  , 0.47, 0.58, 0.38, 0.  , 0.  , 0.38, 0.  , 0.38],
        [0.  , 0.69, 0.  , 0.28, 0.  , 0.54, 0.28, 0.  , 0.28],
        [0.51, 0.  , 0.  , 0.27, 0.51, 0.  , 0.27, 0.51, 0.27],
        [0.  , 0.47, 0.58, 0.38, 0.  , 0.  , 0.38, 0.  , 0.38]])

### TfidfVectorizer

In [15]:
# TfidfVectorizer = CountVectorizer + TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer

tf = TfidfVectorizer(use_idf=True, norm='l2').fit( docs )
tf.transform( docs ).todense()

matrix([[0.  , 0.47, 0.58, 0.38, 0.  , 0.  , 0.38, 0.  , 0.38],
        [0.  , 0.69, 0.  , 0.28, 0.  , 0.54, 0.28, 0.  , 0.28],
        [0.51, 0.  , 0.  , 0.27, 0.51, 0.  , 0.27, 0.51, 0.27],
        [0.  , 0.47, 0.58, 0.38, 0.  , 0.  , 0.38, 0.  , 0.38]])