# Работа со строками. Методы и f-строки. Строки как списки

До этого мы работали преимущественно с числовыми значениями: суммами транзакций, оценками пользователя. Часто для аналитики и разработки требуется обрабатывать строковые переменные. Например, пользователь в форме регистрации вводит свое ФИО, и вам нужно разделить строку на три части и отдельно обработать фамилию, имя и отчество.

Бывают и более интересные ситуации: например, когда нужно проанализировать общение оператора и клиента, и разработчики выгружают тексты диалогов целиком. Тогда нужно разбивать отдельно реплики оператора и реплики клиента, чтобы потом анализировать, на какой запрос клиента пришел определённый ответ оператора.

На самом деле, примеров огромное множество, а работы с текстами в современном мире становится всё больше. Популярность виртуальных ассистентов и чат-ботов, где клиент общается с помощью естественного языка, заставляет разработчиков, дата-инженеров, аналитиков, дата-сайентистов всё больше работать с текстами.


В этом уроке мы познакомимся со стандартными методами обработки строк, запрограммируем несколько реальных задач на строковых переменных, а также познакомимся с новым понятием метод.



Начнём с простого примера.

У нас есть переменная `fio` типа строка, в которой лежат фамилия, имя и отчество. Значение состоит из трёх слов, отделённых друг от друга пробелами.



In [None]:
fio = 'Иванов Герасим Александрович'

In [None]:
type(fio)

str

Нужно выделить из этой строки фамилию, имя, отчество и сохранить в три разные переменные `surname`, `name`, `middle_name`.

Для выполнения этой задачи нам понадобится метод `.split()`. Применить его можно, написав `split` через точку и добавив круглые скобки.

In [None]:
fio.split()

['Иванов', 'Герасим', 'Александрович']

Получилось, мы разделили наши ФИО. Разберёмся, что произошло:

`.split()` – это заранее определённый ***метод*** для строковых переменных, который делит строку на части по разделительному символу. В результате метода мы получаем список из выделенных частей строк. Если в круглых скобках ничего не указать, метод по умолчанию считает разделительным символом пробел или последовательность пробелов.

Попробуем добавить в `fio` пробелов между фамилией и именем и заново применить `.split()`.

In [None]:
fio = 'Иванов      Герасим Александрович'
fio.split()

['Иванов', 'Герасим', 'Александрович']

Результат не изменился, все лишние пробелы удалились.

Если мы хотим использовать в качестве разделительного символа не пробел, а другой символ, нужно просто указать его внутри скобок:




In [None]:
fio = 'Иванов!Герасим!Александрович'

In [None]:
fio.split('!')

['Иванов', 'Герасим', 'Александрович']

Запишем фамилию, имя  и отчество в соответствующие переменные.





In [None]:
splitted_fio = fio.split('!')
surname = splitted_fio[0]
name = splitted_fio[1]
middle_name = splitted_fio[2]

In [None]:
print(surname)
print(name)
print(middle_name)

Иванов
Герасим
Александрович


### Метод vs функция

Как было упомянуто выше, `.split()` – это метод. Давайте разберемся, в чём отличие метода от функции.

1. `fio.split()` – это метод

2. `my_list.append(1)` – это метод

3. `get_average()` – это функция

В чём же различие? Метод – это тоже именованный кусок кода, но он всегда привязан к какому-либо объекту, переменной.

В первом случае мы применяем `.split()` к переменной `fio`, во втором случае – добавляем 1 к списку `my_list`. Проще говоря, если вы вызываете функцию через точку у какого-либо объекта – это метод. Без объекта он не существует. Нельзя написать просто `.split()` без `fio`, ничего не заработает.

Функция же вызывается самостоятельно, без привязки к переменной. Мы просто пишем имя функции, её входные параметры (если они есть) и запускаем её.  Попробуйте ещё примеры функций, которые заранее объявлены в Python.


У строк ещё много предопределённых в Python методов. Наиболее популярные из них мы разберём в этом и следующем уроках.



### f-строки

Вернёмся к ФИО, которые мы извлекли из строки. Теперь представим, что нам нужно сделать красивый форматированный вывод этих данных на экран в виде:

`Фамилия:Иванов,Имя:Герасим,Отчество:Александрович`

Мы уже изучили два метода вывода на экран нескольких переменных сразу:

1. Указать все значения через запятую:



In [None]:
print("Фамилия:", surname, ",Имя:", name, ",Отчество:", middle_name)

Фамилия: Иванов ,Имя: Герасим ,Отчество: Александрович


Указывая значения через запятую, Python автоматически проставляет пробелы между ними.

2. Конкатенация:



In [None]:
print("Фамилия:" + surname + ",Имя:" + name + ",Отчество:" + middle_name)

Фамилия:Иванов,Имя:Герасим,Отчество:Александрович


Получилось верно, но достаточно долго и неудобно писать такие выражения. Наверное, есть вариант легче? Это же Python, тут всё сделано для удобства разработчика.

Опишем строку, которая должна быть выведена на экран, значения переменных пока пропустим, оставив вместо них пробелы:



In [None]:
print("Фамилия:    ,Имя:    ,Отчество:   ")

Теперь подставим в строку значения переменных. Обозначим фигурными скобками места, куда нужно будет подставлять значения. В фигурные скобки напишем имена переменных, которые нужно подставить. Перед строкой напишем магическую букву f:





In [None]:
print(f"Фамилия:{surname},Имя:{name},Отчество:{middle_name}")

Фамилия:Иванов,Имя:Герасим,Отчество:Александрович


Мы воспользовались ***f-строками***. f – значит форматированная строка. Такие строки внутри фигурных скобок могут подставлять значения из переменных, которые объявлены в текущем файле области видимости, могут исполнять любые арифметические действия, и даже вызывать функции.

Подставим арифметическое выражение вместо фамилии:

In [None]:
print(f"Фамилия:{1+2},Имя:{name},Отчество:{middle_name}")

Фамилия:3,Имя:Герасим,Отчество:Александрович


Вызовем функцию `len()` от строки `fio`:



In [None]:
print(f"Фамилия:{len(fio)},Имя:{name},Отчество:{middle_name}")

Фамилия:28,Имя:Герасим,Отчество:Александрович


Такой удивительный инструмент форматирования строк стал доступен только в версии Python 3.6. Если вы пользуетесь версией Python ниже, то эта функциональность будет недоступна. Как форматировать строки в версиях ниже, чем 3.6, мы добавим в материалах в описании к уроку.




### Строки как списки

В примере, который мы рассматриваем, данные представлены в идеальном виде. Но иногда случается, что данные выгружаются не совсем в корректном формате и к строке, которую нужно обработать, добавляются какие-то лишние символы. Если эти символы всегда одинаковы, то мы можем их просто отрезать.

В нашем примере к `fio` добавились вопросительные знаки в начале строки, избавимся от них.



In [None]:
fio = '??Иванов Герасим Александрович'

Вообще строка – это список символов, к каждому символу можно обращаться по его индексу, как и в списке. Попробуем обратиться к нулевому, десятому и последнему индексу в строке:



In [None]:
fio[0]

'?'

In [None]:
fio[10]

'е'

In [None]:
fio[-1]

'ч'

Если мы можем обратиться к символам внутри строки по индексу, значит, мы можем с помощью slicing отрезать первые два символа. Давайте выведем всё, начиная со второго индекса и до конца строки.



In [None]:
fio[2:]

'Иванов Герасим Александрович'

Отлично, теперь у нас красивая строка, и мы можем спокойно разделить её на три части и вывести на экран.


### Итоги
В этом уроке мы многое узнали про обработку строк и научились:
- разбивать строку на множество строк по разделяющему символу
- работать со строками как со списками
- применять слайсинг к строкам

А также познакомились с f-строками и узнали, в чем отличие функции от метода.


In [None]:
print("smartphone".startswith("smart"))
# Сопоставляет префикс строки с аргументом: True
print("smartphone".endswith("phone"))
# Сопоставляет суффикс строки с аргументом: True

True
True


In [1]:
x = 'AAAABBBCCDAABBB'
sorted(x)

['A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'B', 'C', 'C', 'D']

In [4]:
# удаление дублирования символов из строки 'AAAABBBCCDAABBB'
from itertools import groupby
''.join([k for k, g in groupby(x)] )

'ABCDAB'

In [5]:
# удаление дубликатов из строки и сортировка 'AAAABBBCCDAABBB'
from itertools import groupby
''.join([k for k, g in groupby(sorted(x))] )

'ABCD'

In [17]:
import random
x = ''.join(random.choices(('A','B','C','D','E','F','G','H'), k = random.randint(3,21)))
print(x)
''.join([k for k, g in groupby(x)] )

HHBAAHHBECFF


'HBAHBECF'