# Строковые методы и форматирование

Мы уже знаем про:
- типы данных `int`, `float`, `str`, `bool`, `list` [список], `tuple` (кортеж неизменяемый)
- математические операторы: `+`, `-`, `/`, `*`, `**` (в степень), `%` (остаток от деления), `//` (целая часть при делении)
- `print()` — напечатать
- `type()` — узнать тип данных
- `input()` — принять значение от пользователя
- `int()` — преобразовать в целочисленный формат
- `float()` — преобразовать в формат дробного числа
- `str()` — преобразовать в строку
- `bool()` — преобразовать в bool (True/False)
- `list()` — преобразовать в список
- `tuple()` — преобразовать в кортеж
- условия:
```
if <условие>:
    <инструкции, для случая если условие истинно (True)>
#elif <условие №2>:
#    <инструкции, для случая если условие №2 истинно (True)>
#else:
#    <инструкции, когда все условия не выполнились (False)>
```
- операторы сравнения: `>`, `<`, `>=`, `<=`, `==` (равно), `!=` (не равно)
- логические операторы: `and`, `or`, `not`
- цикл `while`:
```
while <условие>:
    <инструкции, которые будут выполняться по кругу, пока условие выполняется True>
```
- цикл `for`
```
for <element> in <elements>:
       <инструкции, которые будут выполняться для каждого элемента>
```
- `.split()` - поделить строку, указанную до точки, по сочетанию символов, указанных в скобках (строка -> список)
- индексация с нуля: `итерируемый_объект[индекс]`
- срезы: `итерируемый_объект[START:END:STEP]`
- `*список` - то же самое, что `список[0] список[1] список[2] список[3]...`
- `len()` - узнать длину
- `range()` - "обещание последовательности чисел" (`list(range(0, 8, 2))` - `[0, 2, 4, 6]`)
- `enumerate()` - делает последовательность кортежей: [(порядковый_номер, элемент), (порядковый_номер, элемент), (порядковый_номер, элемент)]

**Методы списка (+ строк и кортежей, если метод ничего не изменяет)**
- `.append()` - добавление элемента в конец списка
- `.extend(another_list)` - расширяет список, добавляя в конец все элементы списка `another_list` (и не только списка)
- `.insert(i, x)` — вставляет в `i`-ую позицию в списке значение `x`
- `.remove(x)` — удаляет первый элемент в списке, имеющий значение `x`
- `.pop(i)` - удаляет элемент с индексом `i` (по умолчанию последний) и возвращает удалённый элемент
- `.clear()` — очищает список
- `.count(x)` — узнать, сколько раз встречается элемент `x`
- `.index(x)` — узнать индекс элемента `x` в списке

**Функции для списков и кортежей**
- `sum()` — сумма
- `min()` — минимальное
- `max()` — максимальное
- `map()` — применить функцию или метод ко всем элементам сразу (`print(list(map(len, ['Привет', 'ТЕСТ', 'функции', 'map!'])))` - `[6, 4, 7, 4]`), (`print(list(map(str.split, ['Таня Казакова', 'Максим Бажуков', 'Олег Сериков'])))` - `[['Таня', 'Казакова'], ['Максим', 'Бажуков']]`)


## Строковые методы

In [None]:
help(str)

Строки неизменяемые, и методы, которые должны бы что-то менять, дают **новую** строку. Это значит, что их можно применять по цепочке!

**Напоминание про объекты**

`<к чему применяется>.split(<дополнительные аргументы>)`
Метод применяется к объектам определённого типа. Например, `.split()` к строкам.

То есть перед `.split()` может стоять:

In [2]:
print('просто строка'.split())

peremennaya = 'сохранённая-в-переменную-строка'
print(peremennaya.split('-'))

print(('То, ' + 'что ' + 'даёт ' + 'строку. ' + 'Например: ' + str(5>0)).split())

['просто', 'строка']
['сохранённая', 'в', 'переменную', 'строка']
['То,', 'что', 'даёт', 'строку.', 'Например:', 'True']


А вот так нельзя:

In [10]:
sentences = ["Это первое предложение.",
             "Это второе предложение"]
print(sentences.split())

AttributeError: 'list' object has no attribute 'split'

*Если вы хотели таким образом получить список списков, т.е. список предложений, а каждое предложение это уже список слов, то это можно сделать немного иначе.
    Нужно применить функцию разбиения на слова к каждому предложению из списка в отдельности.
    Функцию разбиения на слова при этом надо назвать полностью, `str.split`.
    Скобки не нужны! (потому что мы не применяем функцию разбения `str.split`, а упоминаем, называем её, говорим функции `map`, какую функцию применить &mdash; эту самую функцию деления)*

*Смотрите [в тетрадке про списки про `map`](./230207_methods.ipynb)*

In [13]:
sentences = ["Это первое предложение.",
             "Это второе предложение"]

splitted_sents = list(map(str.split, sentences))

print(splitted_sents)

[['Это', 'первое', 'предложение.'], ['Это', 'второе', 'предложение']]


### Убираем символы на концах строки: `str.strip()`, `str.lstrip()`, `str.rstrip()`

In [3]:
word = ",,,привет,,,,"

print(word.strip(","))

привет


Убирает каждый из символов с краёв строки, сколько бы раз они не встретились

In [4]:
word = ",.,..привет,.,"

print(word.strip(",."))

привет


Это не удаление символов по всей строке, только по краям. Слева дошли до "Р" (а это не "," и не "-") и остановились, справа дошли до "у" и остановились. Внутри дефисы не удалились.

In [5]:
word = "-----,-,Ростов-на-Дону,---"

print(word.strip(",-"))

Ростов-на-Дону


#### `l...` и `r...` в названиях функций
`str.lstrip()` и `str.rstrip()` это, предсказуемо, версии работающие с одним краем строки, левым (l — left) или правым (r — right)

In [6]:
word = ",.,..привет,.,"

print("orig:", word)
print("l:", word.lstrip(",."))

print("r:", word.rstrip(",."))

orig: ,.,..привет,.,
l: привет,.,
r: ,.,..привет


### Тренировка

Разбейте строчку на слова, и получите список слов, очищенных от знаков препинания 

In [1]:
text = "Тут должен быть хороший, остроумный, чёткий пример:  хм... ...не вышло!"


### Понижаем регистр и делаем замены:  `str.lower()`, `str.casefold()`

В тестовой форме вы по-разному пишете фамилию (да чего там, мы сами так делаем). Имя и фамилия могут быть написаны с маленькой буквы, или неодинаково. В этом и многих других случаях, чтобы уменьшить разнообразие написаний, можно приводить строку к одному регистру, обычно нижнему: `str.lower()` . 

In [8]:
name1 = "Иван Топорышкин"
name2 = "иван топорышкин"
name3 = "иван Топорышкин"

print(name1.lower())

иван топорышкин


In [9]:
print(name1.lower() == name2.lower() == name3.lower())

True


In [10]:
s = "работа сдана"
s_sarc = "рАбОтА сДанА"

print(s_sarc.lower())
print(s_sarc.lower() == s)

работа сдана
True


Есть похожий метод `str.casefold()`, но чуть более агрессивный, с дополнительными правилами.
    Обычно это экзотика, типа греческого, некоторых написаний и лигатур из латыни и другого.
    Он как-то по-особому обрабатывает *безрегистровые* символы.

In [11]:
greek_beta_symbol = "ϐ"

print("orig:", greek_beta_symbol)
print("lower:", greek_beta_symbol.lower())
print("casefold:", greek_beta_symbol.casefold())

orig: ϐ
lower: ϐ
casefold: β


Но для немецкого эсцета `ß`, например, может быть полезно: 

In [12]:
german_eszet_symbol = "ß"

print("orig:", german_eszet_symbol)
print("lower:", german_eszet_symbol.lower())
print("casefold:", german_eszet_symbol.casefold())

orig: ß
lower: ß
casefold: ss


### Тренировка
Дополните код и предыдущей тренировки. Получите список слов, очищенных от знаков препинания и приведённых к нижнему регистру

In [2]:
text = "Тут должен быть хороший, остроумный, чёткий пример:  хм... ...не вышло!"


### Повышаем регистр: `str.capitalize()`, `str.upper()`, `str.title()` 

* можно сделать большой первую букву, а все остальные маленькими: `str.capitalize()`
* можно сделать большими все буквы строки: `str.upper()`,
* можно сделать как в заголовках (англоязычных, то есть большой каждую первую букву слов, разделённых пробелами): `str.title()`,


In [7]:
sent = "александр Сергеевич Пушкин родился в 1799 году."

In [8]:
print(sent.capitalize())
print(sent.upper())
print(sent.title())

Александр сергеевич пушкин родился в 1799 году.
АЛЕКСАНДР СЕРГЕЕВИЧ ПУШКИН РОДИЛСЯ В 1799 ГОДУ.
Александр Сергеевич Пушкин Родился В 1799 Году.


Обратите внимание, метод `str.upper` относится к экзотическим символам скорее как `str.casefold`, чем как `str.lower`. Аналогично `str.casefold` он заменяет `ß` на `SS`. И `str.title` (да и `str.capizatalize`) тоже знает экзотические символы.

In [18]:
sent2 = "александр Сергеевич Пушкин war nicht in ß. (Bavaria) in 1799 geboren."

print(sent2.capitalize())
print(sent2.upper())
print(sent2.title())

Александр сергеевич пушкин war nicht in ß. (bavaria) in 1799 geboren.
АЛЕКСАНДР СЕРГЕЕВИЧ ПУШКИН WAR NICHT IN SS. (BAVARIA) IN 1799 GEBOREN.
Александр Сергеевич Пушкин War Nicht In Ss. (Bavaria) In 1799 Geboren.


### `str.replace()` &mdash; делаем замены 

`str.replace("<ЧТО>", "<НА ЧТО>")`

Позволяет заменять одну точную последовательность на другую

In [19]:
zhi = "жимолость, живот, Житомир"

# заменились только "жи" в нижнем регистре
print(zhi.replace("жи", "жы"))  

жымолость, жывот, Житомир


In [20]:
zhi2 = "жымолость, жывот"

# заменились только "жи" в нижнем регистре
print(zhi2.replace("жы", "ПРАВИЛЬНО ЖИ"))

ПРАВИЛЬНО ЖИмолость, ПРАВИЛЬНО ЖИвот


### найти позицию символа в строке: `str.find()` (`str.rfind()`) (а также `str.index()`, `str.rindex()`)

`str.find()` ищет, начиная слева, а `.rfind()`, начиная справа, но оба возвращают положительный индекс (от начала строки, с 0)  

In [21]:
s = "Привет, Альберт!"

print(s.find("т"))
print(s.rfind("т"))

5
14


Если символа нет, то выдаёт `-1`

In [22]:
s = "Привет, Альберт!"

print(s.rfind("W"))

-1


`str.index()` и `str.rindex()` устроены схоже, но дают ошибку, когда ничего не найдено. Это иногда полезно, но не нам, мы не умеем работать с ошибками.

*вспомните [из той же тетрадки про методы](230207_methods.ipynb), что так же был устроен `list.index()` &mdash; давал ошибку, если ничего не найдено.
    К сожалению, для списков нет чего-то вроде `list.find()`*

In [23]:
s = "Привет, Альберт!"

print(s.index("т"))
print(s.rindex("т"))

5
14


In [24]:
s = "Привет, Альберт!"

print(s.rindex("W"))

ValueError: substring not found

### Подсчёт нужных символов в строке (уже видели)

In [25]:
stroka = "длинношеее"

print(stroka.count("е"))

3


### Делим и соединяем
#### `str.split()` с `maxsplit=<число>`

In [26]:
salute = "hey-hey-hey"

print(salute.split("-"))
print(salute.split("."))

['hey', 'hey', 'hey']
['hey-hey-hey']


Количество делений можно ограничить!

In [27]:
salute.split("-", maxsplit=1)

['hey', 'hey-hey']

In [28]:
proverb = "Пётр и Павел день убавил"

print(proverb.split(maxsplit=3))

['Пётр', 'и', 'Павел', 'день убавил']


### `< `чем соединяем`>.join(<`что соединяем`>)`

Когда у нас есть список строк и мы хотим соединить их в одну, следует использовать `str.join`. Он вызывается от той строчки, которую мы хотим сделать разделителем:

In [29]:
names = ["Алексей Николаевич", "Лев Николаевич", "Алексей Константинович"]
' --- '.join(names)

'Алексей Николаевич --- Лев Николаевич --- Алексей Константинович'

In [30]:
separator = ", "
print(separator.join(names))

Алексей Николаевич, Лев Николаевич, Алексей Константинович


### Проверка содержимого строк

#### `str.startswith()` верно, что строка начинается с определённой подстроки?

In [31]:
"https://cbr.ru".startswith("http:")

False

In [32]:
print('Начинается  ли строка "https://cbr.ru" с "https"?', "https://cbr.ru".startswith("https"))

Начинается  ли строка "https://cbr.ru" с "https"? True


#### `str.endswith()` верно, что строка кончается на определённую подстроку?

In [33]:
"hse.ru".endswith('com')

False

In [34]:
"hse.ru".endswith(("ru", ".рф"))

True

In [35]:
print('Оканчивается ли "hse.ru" на ".ru"?', "hse.ru".endswith("ru"))
print('Оканчивается ли "hse.ru" на ".ru" или ".рф"?', "hse.ru".endswith(("ru", ".рф")))
# Можно для нескольких проверять

Оканчивается ли "hse.ru" на ".ru"? True
Оканчивается ли "hse.ru" на ".ru" или ".рф"? True


#### Какого рода в строке символы?

In [36]:
s = ' 4242elloello42! '
print('Проверим их работу на примере строки', '"' + s + '"')

print('Состоит ли строка только из букв:', s.isalpha())
print('Состоит ли строка только из цифр:', s.isdigit())

print('Состоит ли строка только из букв или цифр:', s.isalnum())

print('Все ли буквы в строчке строчные:', s.islower())
print('Все ли буквы в строчке прописные:', s.isupper())

Проверим их работу на примере строки " 4242elloello42! "
Состоит ли строка только из букв: False
Состоит ли строка только из цифр: False
Состоит ли строка только из букв или цифр: False
Все ли буквы в строчке строчные: True
Все ли буквы в строчке прописные: False


In [37]:
print("41414".isdigit())
print("41414.515415".isdigit())

True
False


In [38]:
print("41414abc".isalnum())
print("4141451abc.5415".isalnum())

True
False


## Форматирование строк: `str.format`, `f-строки`, (`%`)

Часто нужно подставить какие-то значения в строчку. Мы делали это сложением или в `print`:



- сложение
(здесь ещё нужно результат самому в строчку переводить)

In [39]:
res = 10

res_message = "Результат:" + " " + res

print(res_message)

TypeError: can only concatenate str (not "int") to str

In [40]:
res = 10

res_message = "Результат:" + " " + str(res)

print(res_message)

Результат: 10


- внутри функции `print`

In [41]:
res = 10

print("Результат:", res)
print("Результат", res, sep=' - ')

Результат: 10
Результат - 10


Но если значений, которые нужно подставить много, и подставлять нужно внутрь строки, а не в начало или конец, то становится жутко:

In [42]:
x0 = 4
x = 5
y = 2
z = 4 


print("При x=" + str(x), "значения y=" + str(y),
      "z=" + str(z) + ",",  "что в два раза больше, чем при x0=" + str(x0))

При x=5 значения y=2 z=4, что в два раза больше, чем при x0=4


Можно делать это аккуратнее и красивее, используя **форматирование строк**.

Форматирование строк &mdash; это подстановка какого-то значения внутрь строки в нужном месте. Значению при этом необязательно быть строкой самому. 

В питоне есть три способа форматирования строк:

- `f"Результат: {res}"` 
- `"Результат: {}".format(res)`
- `"Результат: %d" % res`

Последний рассматривать не будем, способы выше новее и всем лучше.

Строчки с фигурными скобками могут быть использованы отложенно, сколько угодно раз, **как шаблоны**, а `f-строки` обязательно форматируются сразу.

In [43]:
mysalute1 = "Здравствуйте, {}!"
print(mysalute1.format("Ваня"))

Здравствуйте, Ваня!


In [2]:
names = ["Алексей Николаевич", "Лев Николаевич", "Алексей Константинович"]

mysalute2 = "Ну и ну! Приветствую вас, {}!"

print(mysalute2.format(names[1]))

Ну и ну! Приветствую вас, Лев Николаевич!


Получается, это шаблон, в котором `.format()` заменяет `"{}"` на то, что дали в скобках

In [3]:
mysalute2

'Ну и ну! Приветствую вас, {}!'

In [4]:
mysalute3 = "Приятно видеть вас, {name}!"
 
print(mysalute3.format(name=names[2]))
# print(mysalute3.format(names[2]))  # А так не работает, ведь нужно именно name

Приятно видеть вас, Алексей Константинович!


In [5]:
mysalute4 = "Привет, {name}!"
name = "Пачкуале Пестрини"
print(mysalute4.format(name = name))
#print(mysalute3.format(name))  # А так не работает

Привет, Пачкуале Пестрини!


In [48]:
phrase = "Вы готовы, {name} {patronymic}?"
 
print(phrase.format(patronymic="Степановна", name="Шехерезада"))

Вы готовы, Шехерезада Степановна?


In [49]:
result = [1, 2, 3, 4]

stroka = f"результат: {result}"

print(stroka)

результат: [1, 2, 3, 4]


**f-строки** не шаблоны, нельзя отложить подстановку, значения нужно подставить сразу, иначе ошибка

In [50]:
result = [1, 2, 3, 4]

s = f"результат: {}"

print(s)

SyntaxError: f-string: empty expression not allowed (4092511919.py, line 3)

Форматирование строк позволяет подставлять внутрь что угодно, не только строки

In [51]:
print(mysalute1.format(42))
print(mysalute1.format("Never gonna give you up".split()))
print(mysalute1.format(5<10))

Здравствуйте, 42!
Здравствуйте, ['Never', 'gonna', 'give', 'you', 'up']!
Здравствуйте, True!


## Токенизация
***(этого не будет в экзамене)***

"Не для экзамена, а для жизни мы <s>учимся</s> учим питон"

Питон не включает в себя всё, что возможно придумать.

Кому-то нужно считать статистику, кому-то — сделать веб-сайт для своего магазина, а кому-то —  (ух!) строить неройнные сети.
    Для каждой из этих задач нужны совершенно разные программы.
    Поскольку это **задачи** достаточно **частые**, то **их кто-то уже решал**.

И действительно, немало сторонних разработчиков пишут малые (пакеты) или большие (библиотеки) программы для решения каких-то определённых задач, и делают их общедоступными (спасибо им!).
    Что очень нужно нам, это аккуратно делить русский текст на предложения и слова.
    Оказывается, для этого тоже есть программы!    

**Natasha** &mdash; библиотека для обработки текстов на естественном русском языке.

Есть много пакетов, которые могут делить текст на предложения.
    Но с русским особенно хорош пакет `razdel` (это часть проекта-библиотеки `natasha`).

In [52]:
# чтобы использовать, надо установить библиотеку
!pip install natasha

[33mDEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621[0m[33m
[33mDEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621[0m[33m
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip available: [0m[31;49m22.3.1[0m[39;49m -> [0m[32;49m23.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3.9 -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


Теперь у нас установлен этот большой набор программ (библиотека `natasha`),
    среди которых наш небольшой пакет для разбиения текстов &mdash; `razdel`.

Но пакет этот нам может быть нужен не каждый раз!
    Например, когда у нас уже есть какая-то статистика по авторам (их годам жизни, количеству произведений с годами публикаций и т.д.),
    нам не нужно разбивать тексты на слова, а нужна простая программа, которая будет что-то считать.
    Поэтому, когда мы прямо хотим воспользоваться в своей программе какой-то другой программой (пакетом / библиотекой), то нам это нужно явно указать.
    Тогда Python поймёт, что внешняя программа понадобится и подключит её *(а если бы не написали этого, то не подключал бы. Экономия!)*.

In [1]:
from razdel import sentenize

Что мы сейчас сделали? Мы сначала установили библиотеку, а потом импортировали из неё нужную нам функцию. Сначала взяли огромную коробку, а потом рассказали программе, что есть функция внутри коробки, которую хочется уметь использовать.

In [5]:
text = "Вот хотим мы поделить текст на предложения. Можно просто поделить по точке. Но что делать, с предложениями, заканчивающимися не на точку? Восклицательные и вопросительные знаки забыли! Как же быть... Проверять все завершающие знаки препинания. А что скажет на это А.С.Пушкин, чьи инициалы содержат точки? Лучше воспользоваться библиотекой, которая умеет делить на предложения! Она и про 0.5 гр. и 100 руб. знает..."

print(sentenize(text))

<generator object find_substrings at 0x0000027941628890>


*(снова печатается непонятно что, как и с `range` и `enumerate`. Помним, что можно поглотить и создать, например, список или пройтись в цикле `for`)*

In [6]:
# А вот так можно посмотреть
list(sentenize(text))

[Substring(0, 43, 'Вот хотим мы поделить текст на предложения.'),
 Substring(44, 75, 'Можно просто поделить по точке.'),
 Substring(76,
           137,
           'Но что делать, с предложениями, заканчивающимися не на точку?'),
 Substring(138, 184, 'Восклицательные и вопросительные знаки забыли!'),
 Substring(185, 199, 'Как же быть...'),
 Substring(200, 243, 'Проверять все завершающие знаки препинания.'),
 Substring(244,
           304,
           'А что скажет на это А.С.Пушкин, чьи инициалы содержат точки?'),
 Substring(305,
           376,
           'Лучше воспользоваться библиотекой, которая умеет делить на предложения!'),
 Substring(377, 414, 'Она и про 0.5 гр. и 100 руб. знает...')]

In [8]:
# Вот так удобнее
for sent in sentenize(text):
    print(sent.text)  # тут нет скобочек, потому что это не совсем действие, просто свойство
                      # но об этом можно не думать

Вот хотим мы поделить текст на предложения.
Можно просто поделить по точке.
Но что делать, с предложениями, заканчивающимися не на точку?
Восклицательные и вопросительные знаки забыли!
Как же быть...
Проверять все завершающие знаки препинания.
А что скажет на это А.С.Пушкин, чьи инициалы содержат точки?
Лучше воспользоваться библиотекой, которая умеет делить на предложения!
Она и про 0.5 гр. и 100 руб. знает...


In [9]:
# Поделим на предложения текст с разными сокращениями
text2 = """Почему я как композитор-оперник тяготею к классике? Это у меня с детства. В детстве я очень любил играть в классики. Ребенком я любил пить чай, естественно, с пирожными, и лучше всего с безе. Отсюда в сублимации ассоциаций детства тяготение к Чайковскому, к Бизе, и т. д., и т. п., и т. д. Как сказал классик, надо брать музыку у народа, и только обрабатывать её. Так я и делаю. Поэтому, когда сегодня берёшь у композитора — это, собственно говоря, берёшь у народа, берёшь у народа — берёшь у себя, и главное, чтобы музыка была твоя, и кто говорит "плагиат", я говорю "традиция"."""

list(sentenize(text2))

[Substring(0, 51, 'Почему я как композитор-оперник тяготею к классике?'),
 Substring(52, 73, 'Это у меня с детства.'),
 Substring(74, 116, 'В детстве я очень любил играть в классики.'),
 Substring(117,
           191,
           'Ребенком я любил пить чай, естественно, с пирожными, и лучше всего с безе.'),
 Substring(192,
           289,
           'Отсюда в сублимации ассоциаций детства тяготение к Чайковскому, к Бизе, и т. д., и т. п., и т. д.'),
 Substring(290,
           363,
           'Как сказал классик, надо брать музыку у народа, и только обрабатывать её.'),
 Substring(364, 378, 'Так я и делаю.'),
 Substring(379,
           579,
           'Поэтому, когда сегодня берёшь у композитора — это, собственно говоря, берёшь у народа, берёшь у народа — берёшь у себя, и главное, чтобы музыка была твоя, и кто говорит "плагиат", я говорю "традиция".')]

In [10]:
# И даже с прямой речью справляется
list(sentenize('''"Привет!" - сказали мы питону.'''))

[Substring(0, 30, '"Привет!" - сказали мы питону.')]

## Теперь делим на слова

Что такое токен? Последовательность символов. (Какая последовательность? Авторы кода определяют для себя это сами.) Обычно это слова в тексте, смайлики, числ в тексте, иногда пунктуация.

Почему бы не сказать, что токен=слово? Потому что "что такое слово?" + числа и пунктуацию сложно назвать словами.

> *Сладострастная отрава - золотая Бричмула,*

> *Где чинара притулилась под скалою, - под скалою...*

> *Про тебя жужжит над ухом вечная пчела:*

> *Бричмула, Бричмулы, Бричмуле, Бричмулу, <span style="color:blue">Бричмулою</span>.*

> *Про тебя жужжит над ухом вечная пчела:*

> *Бричмула, Бричмулы, Бричмуле, Бричмулу, <span style="color:orange">Бричмулою</span>.*

Сколько тут слов - неизвестно. "Бричмула" и "Бричмулы" - разные слова? "<span style="color:blue">Бричмулою</span>" и "<span style="color:orange">Бричмулою</span>" - разные слова?

Это точно разные токены.

In [67]:
from razdel import tokenize

In [60]:
list(tokenize('Мы любим питон. И он нас. Просто нужно познакомиться поближе.'))
# Да, конкретно этот способ сохраняет пунктуацию как отдельные токены
# (можно потом убрать всё, что не буквы)

[Substring(0, 2, 'Мы'),
 Substring(3, 8, 'любим'),
 Substring(9, 14, 'питон'),
 Substring(14, 15, '.'),
 Substring(16, 17, 'И'),
 Substring(18, 20, 'он'),
 Substring(21, 24, 'нас'),
 Substring(24, 25, '.'),
 Substring(26, 32, 'Просто'),
 Substring(33, 38, 'нужно'),
 Substring(39, 52, 'познакомиться'),
 Substring(53, 60, 'поближе'),
 Substring(60, 61, '.')]

In [61]:
punctuation = '''!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~...'''

for token in tokenize('И побольше времени с ним проводить... Привыкнуть.'):
    if token.text not in punctuation:
        print(token.text)

И
побольше
времени
с
ним
проводить
Привыкнуть


In [62]:
# Он справится с:
text5 = "25кг надежды"
list(tokenize(text5)) # Если бы мы делили по пробелам, получили бы слово "25кг "

[Substring(0, 2, '25'), Substring(2, 4, 'кг'), Substring(5, 12, 'надежды')]

In [63]:
text9 = "14ого числа"  # ну вот...
list(tokenize(text9))

[Substring(0, 2, '14'), Substring(2, 5, 'ого'), Substring(6, 11, 'числа')]

In [64]:
list(tokenize("Лежал ли А.С.Пушкин в Санкт-Петербурге на диване-кровати?"))

[Substring(0, 5, 'Лежал'),
 Substring(6, 8, 'ли'),
 Substring(9, 10, 'А'),
 Substring(10, 11, '.'),
 Substring(11, 12, 'С'),
 Substring(12, 13, '.'),
 Substring(13, 19, 'Пушкин'),
 Substring(20, 21, 'в'),
 Substring(22, 38, 'Санкт-Петербурге'),
 Substring(39, 41, 'на'),
 Substring(42, 56, 'диване-кровати'),
 Substring(56, 57, '?')]

In [65]:
list(tokenize("Привет! :)"))

[Substring(0, 6, 'Привет'), Substring(6, 7, '!'), Substring(8, 10, ':)')]

In [66]:
list(tokenize("Смайлики разные: ♥, (о_о), 👨‍👩‍👧‍👦"))

[Substring(0, 8, 'Смайлики'),
 Substring(9, 15, 'разные'),
 Substring(15, 16, ':'),
 Substring(17, 18, '♥'),
 Substring(18, 19, ','),
 Substring(20, 21, '('),
 Substring(21, 24, 'о_о'),
 Substring(24, 25, ')'),
 Substring(25, 26, ','),
 Substring(27, 34, '👨\u200d👩\u200d👧\u200d👦')]