In [1]:
import fuzzytext

**Download N-grams model**

In [2]:
! mkdir -p models/ngrams/ru_rent_estate_ads
! wget --quiet --no-clobber -P models/ngrams/ru_rent_estate_ads https://github.com/ralan/fuzzytext_models/raw/master/ngrams/ru_rent_estate_ads/2grams.pkl
! wget --quiet --no-clobber -P models/ngrams/ru_rent_estate_ads https://github.com/ralan/fuzzytext_models/raw/master/ngrams/ru_rent_estate_ads/3grams.pkl

**Setup text from which we should extract the number of rooms**

In [3]:
text = "В  аренду предлагается 1к квартира, в которой есть 2к холодильник"

**Setup reference context where rooms number value is probably located**

In [4]:
reference_context="Сдается * квартира"

**Setup reference values for rooms number**

In [5]:
reference_values=[
    {
        "value": "однокомнатная",
        "alternatives": ["1-комнатная"],
    },
    {
        "value": "двухкомнатная",
        "alternatives": ["2-комнатная"],
    },
    {
        "value": "трехкомнатная",
        "alternatives": ["3-комнатная"],
    },
    {
        "value": "четырехкомнатная",
        "alternatives": ["4-комнатная"],
    },
    {
        "value": "пятикомнатная",
        "alternatives": ["5-комнатная"],
    },
]

**Run extractor using Transformers (RoBERTa) language model**

In [6]:
language_model = fuzzytext.LanguageModel(
    model_type="transformers",
    model_path="rafagudinov/ru_rent_estate_ads"
)

In [7]:
rooms_extractor = fuzzytext.Extractor(
    language_model=language_model,
    reference_context=reference_context,
    reference_values=reference_values
)

print(text)
rooms_extractor.extract(text, top_k=3)

В  аренду предлагается 1к квартира, в которой есть 2к холодильник


[{'pos': 3,
  'value': '1к',
  'reference_value': 'однокомнатная',
  'score': 0.88973923107852},
 {'pos': 8,
  'value': '2к',
  'reference_value': 'двухкомнатная',
  'score': 0.004846687986063913}]

**Run extractor using N-grams language model**

In [8]:
language_model = fuzzytext.LanguageModel(
    model_type="ngrams",
    model_path="models/ngrams/ru_rent_estate_ads",
    lowercase=True
)

In [9]:
rooms_extractor = fuzzytext.Extractor(
    language_model=language_model,
    reference_context=reference_context,
    reference_values=reference_values
)

print(text)
rooms_extractor.extract(text, top_k=3)

В  аренду предлагается 1к квартира, в которой есть 2к холодильник


[{'pos': 3,
  'value': '1к',
  'reference_value': 'однокомнатная',
  'score': 0.8895140003260694},
 {'pos': 8,
  'value': '2к',
  'reference_value': 'двухкомнатная',
  'score': 0.12294030556908897}]