# Нормализация строк

В этом уроке мы продолжим изучать возможности создания функций в Python, а также возможности работы со строками на примере одной реальной задачи.

### Постановка задачи

Представим, что компания, в которой вы работаете, разрабатывает веб-приложение, и у него уже есть какое-то количество активных пользователей. Вы, как аналитик, решили посмотреть географию ваших пользователей, чтобы предложить для пользователей из города с наибольшим количеством регистраций особые условия использования. 

Беда в том, что при заполнении регистрационной формы в приложении у вас нельзя выбрать свой город из выпадающего списка. Пользователи вводили его руками. Разработчики выгрузили вам небольшой семпл данных с различными примерами того, как пользователи записывали город Москва, чтобы вы придумали, как их привести в нормальную форму. После того как вы научитесь нормализовывать имена на примере Москвы, они выгрузят вам данные от пользователей всех городов.

*Г москва*
<br>
*город москва* <br>
*МоСкВа*<br>
*г Москва*<br>
*г.москва*<br>
*Москва*

Как мы видим, данные в разном формате: кто-то пишет приставку город, кто-то – не пишет, кто-то пишет большими буквами, кто-то – маленькими. Нам нужно стандартизировать эти данные, чтобы в итоге получился вот такой список:

*москва*<br>
*москва*<br>
*москва*<br>
*москва*<br>
*москва*<br>
*москва*<br>



Не смущайтесь, что Москва написана не с заглавной буквы. Приводя данные к единому виду, чтобы не сделать ошибок в коде, применяется один и тот же регистр, именно поэтому всё пишем с маленькой буквы. 

Мы отработаем функцию нормализации строки на одном городе, а потом сможем применить её на других городах.

Итак, нам нужно написать некоторую функцию f, которая будет нормализовывать имена городов.

***Нормализация текста***  – это приведение каждого слова текста к его словарной форме. Для существительных – к слову в именительном падеже, единственном числе.



In [1]:
user_cities = ['Г москва', 'город москва', 'МоСкВа', 'г Москва', 'г.москва', 'Москва']

Для начала напишем функцию, которая на вход принимает не список, а одну единственную строку и нормализует ее. Назовём функцию `city_normalization`. На вход она принимает строку – назовем ее `city_string`. 



In [None]:
def city_normalization(city_string):

В первую очередь можно попробовать привести все буквы к нижнему регистру. Для этого есть специальный метод `.lower()`. Применим этот метод к Москве, написанной заглавными буквами. 

In [2]:
'МОСКВА'.lower()

'москва'

Если нужно произвести обратную операцию – для этого также предусмотрен метод – `.upper()`:

In [3]:
'г.москва'.upper()

'Г.МОСКВА'

Внутри нашей функции заведём переменную `normalized_string`. Положим туда `city_string` в нижнем регистре. C помощью команды `return` вернём `normalized_string`:

In [4]:
def city_normalization(city_string):
    normalized_string = city_string.lower()
    return normalized_string

Сразу напишем вызов функции в следующей ячейке, чтобы оперативно отслеживать получившийся результат. Можем попробовать вызвать функцию, подав на вход любую строку. 

In [5]:
city_normalization("Г москва")

'г москва'

Отлично, строка приведена к нижнему регистру. 


Осталось проверить, есть ли  в строке `normalized_string` упоминание Москвы. Воспользуемся ещё одним заранее определенным для строк методом `.find()`.  Он ищет подстроку в заданной строке и возвращает индекс ее начала. 

Возьмём строку "город москва" и применим к ней метод `.find()`, в скобках укажем подстроку, которую мы ищем. 

In [6]:
'город москва'.find('москва')

6

Получили число 6 – это индекс первого символа подстроки. Чтобы получить все символы подстроки, используем слайсинг. 

In [None]:
'город москва'[6:]

'москва'

Все получилось верно, но чтобы удостовериться на 100 процентов, попробуйте протестировать самостоятельно на других примерах.


Если подстрока не найдена, то метод возвращает -1:

In [None]:
'город москва'.find('казань')

-1

Теперь, когда мы научились искать вхождение подстроки в строку, будем проверять, есть ли слово "москва" в `normalized_string`. Создадим ещё одну переменную, которая будет хранить индекс начала слова "москва", найденный с помощью `.find()`. Если индекс не равен минус единице (а это значит что "москва" в строке нашлась), будем возвращать нормализованную строку: москва.

In [9]:
def city_normalization(city_string):
    normalized_string = city_string.lower()
    index = normalized_string.find("москва")
    
    if index != -1:
        return "москва"

Но что произойдёт, если в индексе окажется -1, то есть на вход функции придёт строка, в которой нет "москвы"? Этот случай нам тоже надо описать. Обработаем его с помощью `else`.  Если индекс равен -1, будем возвращать пустоту – `None`. 

In [10]:
def city_normalization(city_string):
    normalized_string = city_string.lower()
    index = normalized_string.find("москва")
    
    if index != -1:
        return "москва"
    else:
        return None

Проверим работу функции на строке "город москва":

In [11]:
city_normalization('Г москва')

'москва'

Проверим на другой строке, в которой нет "москвы":

In [12]:
city_normalization('Г казань')

Эта функция работает только для поиска вхождения города Москва, попробуем вместо Москвы искать Казань и запустить функцию на примере с городом Казань. Для этого везде в теле функции вместо упоминания города Москва подставим город Казань:

In [13]:
def city_normalization(city_string):
    normalized_string = city_string.lower()
    index = normalized_string.find("казань")
    
    if index != -1:
        return "казань"
    else:
        return None

И заново запустим функцию:

In [14]:
city_normalization('Г казань')

'казань'

Но почему бы не сделать нормализованное имя города также входным параметром? Тогда в вызове функции мы будем писать и строку, и город, который в ней нужно искать. Добавим второй параметр `city_name`. Заменим в функции `.find()` и в `return` имя города на `city_name`. 

In [15]:
def city_normalization(city_string, city_name):
    normalized_string = city_string.lower()
    index = normalized_string.find(city_name)
    
    if index != -1:
        return city_name
    else:
        return None

Проверим на нескольких примерах. Указываем входные параметры по порядку. Сначала строку, в которой надо искать, затем нормализованное имя города. 

In [16]:
city_normalization('Г москва', 'москва')

'москва'

In [17]:
city_normalization('Г КАЗАНЬ', 'казань')

'казань'

In [18]:
city_normalization('Г москва', 'казань')

Если мы в вызове функции поменяем их местами, то ответ будет неверный. 

In [19]:
city_normalization('москва', 'Г москва')

В данном примере мы ищем в строке "москва" подстроку "Г москва". И конечно же, в результате получаем `None`.

Если вы боитесь запутаться в аргументах, можете явно указать, какое значение нужно положить в определённый параметр. Тогда можно указывать аргументы в каком угодно порядке и путаницы не будет.

In [20]:
city_normalization(city_string='Г москва', city_name='москва')

'москва'

In [21]:
city_normalization(city_name='москва', city_string='Г москва')

'москва'

У некоторых функций есть такое свойство: если какой-то из параметров не указать, то будет использоваться дефолтное значение, то есть значение по умолчанию. 

Помните, как с методом `.split()`? Мы в скобках ничего не указывали, а разделительный символ по умолчанию считался последовательностью из пробелов. 

Мы можем сделать так же с входным параметром `city_name`. Пусть, если мы не указываем второй параметр при вызове функции, по умолчанию будет искаться город Москва. 

Для этого во входных параметрах проставим `city_name='москва'`. 

In [22]:
def city_normalization(city_string, city_name='москва'):
    normalized_string = city_string.lower()
    index = normalized_string.find(city_name)
    
    if index != -1:
        return city_name
    else:
        return None

И проверим работоспособность решения.
Вызовем функцию, указав только первый параметр – строку,  в которой нужно искать. Попробуем на разных строках. 

In [23]:
city_normalization('Г москва')

'москва'

In [24]:
city_normalization('Г КАЗАНЬ')

In [25]:
city_normalization('Г КАЗАНЬ', 'казань')

'казань'

В первом случае вернулась "москва", а во втором случае результатом является пустота. В третьем случае мы определили второй параметр, и поиск уже происходил по слову "казань". На выходе получили нормализованное имя города Казань.


Вот и всё, мы до конца описали функцию нормализации строки. Осталось только применить её к исходному списку, который нам предоставили в самом начале разработчики, и проверить, что все значения действительно были нормализованы и мы ничего не упустили.

Список, в котором лежали все примеры, назывался `user_cities`. Пройдёмся по всем значениям с помощью цикла `for` и будем применять к каждому функцию нормализации и выводить на экран:

In [26]:
for elem in user_cities:
    print(city_normalization(elem))

москва
москва
москва
москва
москва
москва


Добавим форматированный вывод, в котором будем выводить строку до и после нормализации:

In [27]:
for elem in user_cities:
    print(f"До: {elem}, После: {city_normalization(elem)}")

До: Г москва, После: москва
До: город москва, После: москва
До: МоСкВа, После: москва
До: г Москва, После: москва
До: г.москва, После: москва
До: Москва, После: москва


В практическом задании вам нужно будет потренироваться и написать программу для  нормализации имён городов на списке, в котором есть примеры не только с городом Москва, но и еще с одним городом. 

### Итоги 

Мы научились искать подстроки в строках, приводить их к нижнему и верхнему регистру, объявлять функции с множественными входными параметрами и задавать им дефолтные значения. На этом мы заканчиваем изучать встроенные методы для строк. Если вам интересны дополнительные методы для работы со строками, про них можно почитать по ссылке: 