Установка зависимостей для извлечения текста из doc-файлов

In [None]:
!apt-get install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils \
     pstotext tesseract-ocr \
     flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libasound2-dev libpulse-dev
!pip install textract

Загрузка текста из документов

In [None]:
import os
import textract

def myprint(docs):
  print(f'Doc: {list(docs.keys())[0]}\nContent: {list(docs.values())[0]}')

docs = {}
dir_path = "my_data"

for path in os.listdir(dir_path):
    file_path = os.path.join(dir_path, path)
    if os.path.isfile(os.path.join(dir_path, path)):
       docs[path] = textract.process(file_path, encoding = 'unicode_escape').decode("utf8")
myprint(docs)

Установка библиотеки и модели для обработки текста

In [None]:
!pip install spacy==3.5.2
!pip install https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.5.0/ru_core_news_sm-3.5.0.tar.gz

Предобработка текста -- токенизация

In [2]:
import ru_core_news_sm

model = ru_core_news_sm.load()

t_docs = {}

for doc, text in docs.items():
  tokens = model(text)
  t_docs[doc] = []
  for token in tokens:
    str_token = str(token)
    if (len(str_token.strip()) > 0):
      t_docs[doc].append(token)

myprint(t_docs)

Doc: tz_09.doc
Content: [2.2, ., Техническое, задание, 2.2.1, ., 1, ., 1, Общие, сведения, В, данной, главе, представлены, общие, сведения, о, системе, :, 1, ), полное, наименование, системы, и, ее, условное, обозначение, :, Web, -, приложение, «, Аутсорсинг, Информационных, Систем, и, Технологий, », (, АИСТ, ), ;, 2, ), шифр, темы, или, шифр, (, номер, ), договора, :, данный, программный, продукт, разрабатывался, в, рамках, дипломного, проектирования, ,, какой, -, либо, договор, не, заключался, ;, 3, ), наименование, предприятий, разработчика, и, заказчика, системы, ,, их, реквизиты, :, ООО, «, Торговая, компания, «, Альфа, », (, ИНН, /, КПП, ,, г., Ульяновск, ,, ул., ), ;, 4, ), плановые, сроки, начала, и, окончания, работ, :, 1, марта, 2009, года, —, 30, мая, 2009, года, ;, 5, ), сведения, об, источниках, и, порядке, финансирования, работ, :, данные, работы, проводятся, на, абсолютно, безвозмездной, основе, ;, 6, ), порядок, оформления, и, предъявления, заказчику, результатов, работ

Предобработка текста -- удаление спец. символов

In [3]:
import re

regex = re.compile('[^a-zA-Zа-яА-Я]')

sp_docs = {}

for doc, tokens in t_docs.items():
  sp_docs[doc] = []
  for token in tokens:
    if len(regex.sub('', str(token))) > 2:
      sp_docs[doc].append(token)

myprint(sp_docs)

Doc: tz_09.doc
Content: [Техническое, задание, Общие, сведения, данной, главе, представлены, общие, сведения, системе, полное, наименование, системы, условное, обозначение, Web, приложение, Аутсорсинг, Информационных, Систем, Технологий, АИСТ, шифр, темы, или, шифр, номер, договора, данный, программный, продукт, разрабатывался, рамках, дипломного, проектирования, какой, либо, договор, заключался, наименование, предприятий, разработчика, заказчика, системы, реквизиты, ООО, Торговая, компания, Альфа, ИНН, КПП, Ульяновск, плановые, сроки, начала, окончания, работ, марта, года, мая, года, сведения, источниках, порядке, финансирования, работ, данные, работы, проводятся, абсолютно, безвозмездной, основе, порядок, оформления, предъявления, заказчику, результатов, работ, созданию, системы, частей, отдельных, средств, окончанию, работ, заказчику, должны, быть, предъявлены, переданы, установочный, диск, всеми, необходимыми, дистрибутивами, набор, инструкций, документации, для, полноценного, функ

Предобработка текста -- удаление стоп-слов

In [4]:
stopwords = model.Defaults.stop_words
print(stopwords)

{'данунах', 'должен', 'ых', 'свою', 'вопреки', 'го', 'ешь', 'имела', 'бац', 'любого', 'таким', 'там', 'х', 'другим', 'всею', 'ка', 'не', 'такая', 'му', 'пор', 'хотя', 'ой', 'ведь', 'вправе', 'алло', 'наша', 'везде', 'сможет', 'оне', 'которые', 'одними', 'эти', 'своих', 'эдакий', 'этак', 'был', 'сразу', 'увы', 'своя', 'иными', 'ч', 'возможно', 'стали', 'явных', 'ли', 'одних', 'этим', 'находиться', 'нынешней', 'своём', 'всюду', 'нашу', 'также', 'нынешнее', 'стать', 'вдобавок', 'поелику', 'имел', 'отнелиже', 'тьфу', 'хочешь', 'где', 'своей', 'всей', 'от', 'да', 'некогда', 'которому', 'твоих', 'таки', 'б', 'для', 'затем', 'сам', 'ест', 'нечто', 'чьих', 'нередко', 'близко', 'касательно', 'то', 'никем', 'вдали', 'можем', 'без', 'какие', 'хочу', 'се', 'всего', 'щ', 'к', 'такое', 'него', 'моё', 'ближайшие', 'каждые', 'кажется', 'одна', 'особую', 'сверх', 'ы', 'могут', 'кому', 'сама', 'скорее', 'оба', 'собой', 'чё', 'помимо', 'кем', 'тоже', 'ему', 'какая', 'твоим', 'еще', 'оттуда', 'наверху', '

In [5]:
st_docs = {}

for doc, tokens in sp_docs.items():
  st_docs[doc] = []
  for token in tokens:
    if not token.is_stop:
      st_docs[doc].append(token)

myprint(st_docs)

Doc: tz_09.doc
Content: [Техническое, задание, Общие, сведения, главе, представлены, общие, сведения, системе, полное, наименование, системы, условное, обозначение, Web, приложение, Аутсорсинг, Информационных, Систем, Технологий, АИСТ, шифр, темы, шифр, номер, договора, программный, продукт, разрабатывался, рамках, дипломного, проектирования, договор, заключался, наименование, предприятий, разработчика, заказчика, системы, реквизиты, ООО, Торговая, компания, Альфа, ИНН, КПП, Ульяновск, плановые, сроки, окончания, работ, марта, года, мая, года, сведения, источниках, порядке, финансирования, работ, работы, проводятся, абсолютно, безвозмездной, основе, порядок, оформления, предъявления, заказчику, результатов, работ, созданию, системы, частей, отдельных, средств, окончанию, работ, заказчику, предъявлены, переданы, установочный, диск, необходимыми, дистрибутивами, набор, инструкций, документации, полноценного, функционирования, указанной, системы, Назначение, цели, создания, системы, Разра

Предобработка текста -- лемматизация

In [6]:
l_docs = {}

for doc, tokens in st_docs.items():
  l_docs[doc] = []
  for token in tokens:
    l_docs[doc].append(regex.sub('', str(token.lemma_).lower()))

myprint(l_docs)

t_docs.clear()
sp_docs.clear()
st_docs.clear()

Doc: tz_09.doc
Content: ['технический', 'задание', 'общий', 'сведение', 'глава', 'представить', 'общий', 'сведение', 'система', 'полный', 'наименование', 'система', 'условный', 'обозначение', 'web', 'приложение', 'аутсорсинг', 'информационный', 'система', 'технология', 'аист', 'шифр', 'тема', 'шифр', 'номер', 'договор', 'программный', 'продукт', 'разрабатываться', 'рамка', 'дипломный', 'проектирование', 'договор', 'заключаться', 'наименование', 'предприятие', 'разработчик', 'заказчик', 'система', 'реквизит', 'ооо', 'торговый', 'компания', 'альфа', 'инн', 'кпп', 'ульяновск', 'плановый', 'срок', 'окончание', 'работа', 'март', 'год', 'май', 'год', 'сведение', 'источник', 'порядок', 'финансирование', 'работа', 'работа', 'проводиться', 'абсолютно', 'безвозмездный', 'основа', 'порядок', 'оформление', 'предъявление', 'заказчик', 'результат', 'работа', 'создание', 'система', 'часть', 'отдельный', 'средство', 'окончание', 'работа', 'заказчик', 'предъявить', 'передать', 'установочный', 'диск', '

Индексирование документов -- создание словаря

In [18]:
unique_words = set()

for tokens in l_docs.values():
  unique_words |= set(tokens)
  

print(unique_words)

{'case', 'воздух', 'when', 'подробный', 'указаниями', 'сформатированный', 'фактур', 'априори', 'допустим', 'акт', 'недостаточность', 'полоса', 'оперативность', 'другим', 'неприменимый', 'дойти', 'меню', 'прислушиваться', 'сборка', 'усилие', 'вызываемая', 'соединить', 'vdispatcher', 'неполно', 'насколько', 'заключаться', 'выполнять', 'неподготовленный', 'webbench', 'качественный', 'multi', 'базуданных', 'библиотеки', 'получаться', 'украинских', 'косвенный', 'пострадать', 'пойти', 'коды', 'приступать', 'space', 'постановки', 'схожий', 'идеолог', 'наименовались', 'спецификациями', 'выделить', 'поле', 'идеал', 'бланк', 'winrunner', 'decision', 'окружение', 'упростить', 'произвести', 'перспективный', 'информации', 'неудача', 'sqln', 'прописной', 'влажность', 'практика', 'multiversioning', 'аналогичный', 'embedding', 'decimal', 'validate', 'выплачиваться', 'администратору', 'группировка', 'диаграама', 'transaction', 'крупный', 'нагрузка', 'date', 'state', 'чудесный', 'catauditsql', 'simple',

Индексирование документов -- векторизация

In [19]:
ind_docs = {}

for doc in l_docs.keys():
  ind_docs[doc] = dict.fromkeys(unique_words, 0)

myprint(ind_docs)

for doc, tokens in l_docs.items():
  for token in tokens:
    ind_docs[doc][token] += 1

myprint(ind_docs)

Doc: tz_09.doc
Content: {'case': 0, 'воздух': 0, 'when': 0, 'подробный': 0, 'указаниями': 0, 'сформатированный': 0, 'фактур': 0, 'априори': 0, 'допустим': 0, 'акт': 0, 'недостаточность': 0, 'полоса': 0, 'оперативность': 0, 'другим': 0, 'неприменимый': 0, 'дойти': 0, 'меню': 0, 'прислушиваться': 0, 'сборка': 0, 'усилие': 0, 'вызываемая': 0, 'соединить': 0, 'vdispatcher': 0, 'неполно': 0, 'насколько': 0, 'заключаться': 0, 'выполнять': 0, 'неподготовленный': 0, 'webbench': 0, 'качественный': 0, 'multi': 0, 'базуданных': 0, 'библиотеки': 0, 'получаться': 0, 'украинских': 0, 'косвенный': 0, 'пострадать': 0, 'пойти': 0, 'коды': 0, 'приступать': 0, 'space': 0, 'постановки': 0, 'схожий': 0, 'идеолог': 0, 'наименовались': 0, 'спецификациями': 0, 'выделить': 0, 'поле': 0, 'идеал': 0, 'бланк': 0, 'winrunner': 0, 'decision': 0, 'окружение': 0, 'упростить': 0, 'произвести': 0, 'перспективный': 0, 'информации': 0, 'неудача': 0, 'sqln': 0, 'прописной': 0, 'влажность': 0, 'практика': 0, 'multiversioni

Индексирование документов -- TF (частота термина/токена)

In [20]:
def compute_tf(tokens_dict, tokens):
    tf_dict = {}
    tokens_count = len(tokens)
    for word, count in tokens_dict.items():
        tf_dict[word] = count / float(tokens_count)
    return tf_dict

tf_docs = {}

for doc, tokens_dict in ind_docs.items():
  tf_docs[doc] = compute_tf(tokens_dict, l_docs[doc])

myprint(tf_docs)

Doc: tz_09.doc
Content: {'case': 0.0, 'воздух': 0.0, 'when': 0.0, 'подробный': 0.0, 'указаниями': 0.0, 'сформатированный': 0.0, 'фактур': 0.0, 'априори': 0.0, 'допустим': 0.0, 'акт': 0.0, 'недостаточность': 0.0, 'полоса': 0.0, 'оперативность': 0.0, 'другим': 0.0, 'неприменимый': 0.0, 'дойти': 0.0, 'меню': 0.0, 'прислушиваться': 0.0, 'сборка': 0.0, 'усилие': 0.0, 'вызываемая': 0.0, 'соединить': 0.0, 'vdispatcher': 0.0, 'неполно': 0.0, 'насколько': 0.0, 'заключаться': 0.0035778175313059034, 'выполнять': 0.0, 'неподготовленный': 0.0, 'webbench': 0.0, 'качественный': 0.0, 'multi': 0.0, 'базуданных': 0.0, 'библиотеки': 0.0, 'получаться': 0.0, 'украинских': 0.0, 'косвенный': 0.0, 'пострадать': 0.0, 'пойти': 0.0, 'коды': 0.0, 'приступать': 0.0, 'space': 0.0, 'постановки': 0.0, 'схожий': 0.0, 'идеолог': 0.0, 'наименовались': 0.0, 'спецификациями': 0.0, 'выделить': 0.0, 'поле': 0.0, 'идеал': 0.0, 'бланк': 0.0, 'winrunner': 0.0, 'decision': 0.0, 'окружение': 0.0, 'упростить': 0.00178890876565295

Индексирование документов -- IDF (обратная документная частота термина/токена)

In [21]:
import math
    
docs_count = len(tf_docs.keys())

idf_dict = dict.fromkeys(unique_words, 0)
for doc, tokens_dict in tf_docs.items():
    for token, freq in tokens_dict.items():
        if freq > 0:
            idf_dict[token] += 1

for token, freq in idf_dict.items():
    idf_dict[token] = math.log(docs_count / float(freq))

print(idf_dict)

{'case': 1.7676619176489945, 'воздух': 3.713572066704308, 'when': 3.713572066704308, 'подробный': 1.5163474893680884, 'указаниями': 3.713572066704308, 'сформатированный': 3.713572066704308, 'фактур': 3.713572066704308, 'априори': 3.0204248861443626, 'допустим': 3.713572066704308, 'акт': 2.614959778036198, 'недостаточность': 3.713572066704308, 'полоса': 3.713572066704308, 'оперативность': 1.9218125974762528, 'другим': 3.713572066704308, 'неприменимый': 3.713572066704308, 'дойти': 3.713572066704308, 'меню': 1.148622709242771, 'прислушиваться': 3.713572066704308, 'сборка': 2.327277705584417, 'усилие': 3.713572066704308, 'вызываемая': 3.713572066704308, 'соединить': 2.614959778036198, 'vdispatcher': 3.713572066704308, 'неполно': 3.713572066704308, 'насколько': 2.1041341542702074, 'заключаться': 1.148622709242771, 'выполнять': 0.2795848622191615, 'неподготовленный': 3.0204248861443626, 'webbench': 3.713572066704308, 'качественный': 2.614959778036198, 'multi': 3.713572066704308, 'базуданных'

Индексирование документов -- TF*IDF




In [23]:
tfidf_docs = {}
for doc, tokens_dict in tf_docs.items():
  tfidf_docs[doc] = {}
  for token, freq in tokens_dict.items():
    tfidf_docs[doc][token] = freq * idf_dict[token]

myprint(tfidf_docs)

unique_words.clear()
l_docs.clear()
tf_docs.clear()
idf_dict.clear()

Doc: tz_09.doc
Content: {'case': 0.0, 'воздух': 0.0, 'when': 0.0, 'подробный': 0.0, 'указаниями': 0.0, 'сформатированный': 0.0, 'фактур': 0.0, 'априори': 0.0, 'допустим': 0.0, 'акт': 0.0, 'недостаточность': 0.0, 'полоса': 0.0, 'оперативность': 0.0, 'другим': 0.0, 'неприменимый': 0.0, 'дойти': 0.0, 'меню': 0.0, 'прислушиваться': 0.0, 'сборка': 0.0, 'усилие': 0.0, 'вызываемая': 0.0, 'соединить': 0.0, 'vdispatcher': 0.0, 'неполно': 0.0, 'насколько': 0.0, 'заключаться': 0.004109562465984869, 'выполнять': 0.0, 'неподготовленный': 0.0, 'webbench': 0.0, 'качественный': 0.0, 'multi': 0.0, 'базуданных': 0.0, 'библиотеки': 0.0, 'получаться': 0.0, 'украинских': 0.0, 'косвенный': 0.0, 'пострадать': 0.0, 'пойти': 0.0, 'коды': 0.0, 'приступать': 0.0, 'space': 0.0, 'постановки': 0.0, 'схожий': 0.0, 'идеолог': 0.0, 'наименовались': 0.0, 'спецификациями': 0.0, 'выделить': 0.0, 'поле': 0.0, 'идеал': 0.0, 'бланк': 0.0, 'winrunner': 0.0, 'decision': 0.0, 'окружение': 0.0, 'упростить': 0.003437947401567536

Кластеризация -- подготовка данных

In [None]:
!pip install fuzzy-c-means

In [56]:
import numpy as np
from matplotlib import pyplot as plt

data = []

for tokens_dict in tfidf_docs.values():
  data.append(list(tokens_dict.values()))

data = np.array(data)
print(data)

[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.00219494 0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.00704248]
 [0.         0.         0.         ... 0.00487068 0.         0.00409181]]


Кластеризация -- разбиение документов по группам с помощью алгоритма FCM (Fuzzy C-Means)

In [64]:
from fcmeans import FCM

fcm_model = FCM(n_clusters = 2, m = 1.3)
fcm_model.fit(data)

centers = fcm_model.centers
labels = fcm_model.predict(data)

cl1 = []
cl2 = []
for index, label in enumerate(labels):
  if label == 0:
    cl1.append(list(tfidf_docs.keys())[index])
  else:
    cl2.append(list(tfidf_docs.keys())[index])

print(f'Cluster 1:\n{sorted(cl1)}')
print(f'Cluster 2:\n{sorted(cl2)}')

Cluster 1:
['Архитектура, управляемая модель.doc', 'Введение в проектирование ИС.doc', 'Встроенные операторы SQL.doc', 'Методологии разработки программного обеспечения 2.doc', 'Методологии разработки программного обеспечения.doc', 'Методы композиции и декомпозиции исполняемых UML моделей.doc', 'Модели представления данных в СУБД.doc', 'Некоторые особенности проектирования под конкретные архитектуры.doc', 'Непроцедурный доступ к данным.doc', 'Процедурное расширение языка SQL.doc', 'Системные объекты базы данных.doc', 'Технология создания распр ИС.doc', 'Требования к проекту.doc', 'Условия целостности БД.doc', 'Характеристики СУБД.doc', 'Этапы разработки проекта1.doc', 'Этапы разработки проекта2.doc', 'Этапы разработки проекта3.doc', 'Этапы разработки проекта4.doc', 'Этапы разработки проекта5.doc', 'Язык манипуляции данными.doc']
Cluster 2:
['tz_01.doc', 'tz_02.doc', 'tz_03.doc', 'tz_04.doc', 'tz_05.doc', 'tz_06.doc', 'tz_07.doc', 'tz_08.doc', 'tz_09.doc', 'tz_10.doc', 'tz_11.doc', 'tz_1