# Demonstration of Collocation extraction
author: Anton Shkvarskii

Goal: to find out collocations consisted from 2 to 3 words related with sought or determined named entity. This example provides how it goes with 3 stages:
- Text preprocessing (remove stopwords, numbers, emails etc.)
- Words and collocations vector represintation
- Similarity search to target NER ("ремонт")
- Thresholding unrelevant results

In [5]:
# load libs 
from utility.text_preprocessing import TextPreprocesser, NGramCheck
import fasttext

In [17]:
# create some custom corpus with written text manually
# as you can see, one sentence has no relevance to the target term
raw_corpus = [
    "Ремонт квартиры начался не сразу и с замены старых окон на современные стеклопакеты по высокой стоимости.", 
"Затем были выровнены стены и поклеены новые обои.", 
"На полу уложили паркет, который придаёт интерьеру уют.", 
"Кухонный гарнитур выглядел непривлекательно и был заменен на более функциональный и стильный.", 
"Во дворе 1 растет 3трава!", 
"В завершение ремонта установили новую сантехнику и освещение."
]
# fasttext binnary for russian language
model_path = "./model/pretrained/fasttext/cc.ru.300.bin"

In [18]:
corpus = TextPreprocesser(raw_corpus=raw_corpus, n_grams=2)
model = fasttext.load_model(model_path)
print(f"Model: {model.__class__.__name__}")
print("Corpus:")
for sent in corpus.clean_corpus:
    print(sent)

Model: _FastText
Corpus:
завершение ремонта установили новую сантехнику освещение
ремонт квартиры начался сразу замены старых окон современные стеклопакеты высокой стоимости
полу уложили паркет который придаёт интерьеру уют
кухонный гарнитур выглядел непривлекательно заменен функциональный стильный
затем выровнены стены поклеены новые обои
дворе растет трава


In [24]:
score = NGramCheck(corpus.ngrams, ner="ремонт", model=model)
score.get_collocations(threshold=0.21)

defaultdict(int,
            {0: {'завершение ремонта': 0.29325562074263395,
              'ремонта установили': 0.26904228264650165,
              'новую сантехнику': 0.2904794842609984,
              'сантехнику освещение': 0.3233703852555032},
             1: {'ремонт квартиры': 0.3813256772412644,
              'квартиры начался': 0.21881538406804932,
              'сразу замены': 0.2656339670055069,
              'замены старых': 0.2834914173520114,
              'старых окон': 0.30490107801461974,
              'современные стеклопакеты': 0.21934028499411284,
              'стеклопакеты высокой': 0.24345522321716012},
             2: {'придаёт интерьеру': 0.21152428426661588,
              'интерьеру уют': 0.245418491929159},
             3: {'кухонный гарнитур': 0.2857415515748554,
              'заменен функциональный': 0.3077061324809371,
              'функциональный стильный': 0.25635729820450204},
             4: {'затем выровнены': 0.2180654582249512,
              'стены 

Actually, you can replace initial entity to any you want.

In [25]:
another_score = NGramCheck(corpus.ngrams, ner="природа", model=model)
another_score.get_collocations(threshold=0.21)

defaultdict(int,
            {0: {},
             1: {},
             2: {},
             3: {},
             4: {},
             5: {'растет трава': 0.3174456762650938}})

So, all of the relevant sentences are not shown this time