# Проверка обратной нормализации InverseNormalizer от Nvidia для распознавания адресов.

In [1]:
!pip install wget
!apt-get install sox libsndfile1 ffmpeg
!pip install unidecode
!pip install matplotlib>=3.3.2
!pip install --upgrade numba

BRANCH = 'main'
!python -m pip install git+https://github.com/NVIDIA/NeMo.git@$BRANCH#egg=nemo_toolkit[all]

Collecting wget
  Downloading wget-3.2.zip (10 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wget
  Building wheel for wget (setup.py) ... [?25l[?25hdone
  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9656 sha256=3fb699e14792160d3a458cc6914ec25525fd288d74ae30ac66c7c11841a650d4
  Stored in directory: /root/.cache/pip/wheels/8b/f1/7f/5c94f0a7a505ca1c81cd1d9208ae2064675d97582078e6c769
Successfully built wget
Installing collected packages: wget
Successfully installed wget-3.2
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
libsndfile1 is already the newest version (1.0.31-2build1).
ffmpeg is already the newest version (7:4.4.2-0ubuntu0.22.04.1).
The following additional packages will be installed:
  libopencore-amrnb0 libopencore-amrwb0 libsox-fmt-alsa libsox-fmt-base
  libsox3 libwavpack1
Suggested packages:
  libsox-fmt-all
The following NEW packages will be installed:

In [2]:
from nemo_text_processing.inverse_text_normalization.inverse_normalize import InverseNormalizer

In [3]:
inverse_normalizer = InverseNormalizer(lang='ru')

In [4]:
spoken = "проспект Ленина два"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

проспект Ленина два


In [5]:
spoken = "проспект Ленина три"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

проспект Ленина три


In [6]:
spoken = "проспект Ленина пятьдесят квартира восемьдесят один"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

проспект Ленина 50 кв. 81


In [7]:
spoken = "улица Джона Ленона четыре"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

улица Джона Ленона четыре


In [8]:
spoken = "два литра молока за три рубля"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

2 л молока за 3 руб.


In [9]:
spoken = "улица Сталеваров четыре квартира три"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

улица Сталеваров четыре кв. три


In [10]:
spoken = "улица сталеваров четыре строение семь"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

улица сталеваров четыре строение семь


In [11]:
spoken = "улица сталеваров двадцать пять строение одиннадцать"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

улица сталеваров 25 строение 11


In [12]:
spoken = "улица академика королева тридцать восемь строение пятнадцать корпус семь"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

улица академика королева 38 строение 15 корпус семь


In [13]:
spoken = "амбулаторный второй проезд дом десять"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

амбулаторный второй проезд дом 10


In [14]:
spoken = "первая красноказарменная улица дом пятьдесят"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

первая красноказарменная улица дом 50


In [16]:
spoken = "улица таганская дом пятьдесят дробь семнадцать"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

улица таганская дом 50 дробь 17


In [17]:
spoken = "улица красносельская дом двадцать пять дробь три"
un_normalized = inverse_normalizer.inverse_normalize(spoken, verbose=False)
print(un_normalized)

улица красносельская дом 25 дробь три


Можно заметить, что NeMo работает не очень хорошо для распознавания тех адресов, в которых присутствуют однозначные числительные. Попробуем построить свою более простую модель, заточенную только на обратную нормализацию адресов. В качестве исходных данных возьмем адреса домов Москвы с сайта http://mosopen.ru/streets