## Разрезание строки разделитялями разного типа

split() предполагает использование в самом простом случае и не допускает разрезания с разными разделителями, так-же не учитывает возможность пробелов вокруг разделителей. Решение re.split()

In [1]:
import re

In [2]:
line = 'asdf fjdk; afed, fjek,asdf,      foo'
re.split(r'[;,\s]\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

re.split() позволяет определить множество разделителей

[спецификация регулярок тут](https://docs.python.org/3/library/re.html)

## Поиск текста в начале и в конце строки

In [3]:
line = 'spam.txt'
line.endswith('.txt')

True

In [4]:
line.startswith('ham')

False

Чтобы проверить несколько вариантов, в методы можно передать кортеж (список или множество не подходят)

In [5]:
import os
filenames = os.listdir('.')
filenames

['python-learning-oop_lutz.ipynb',
 '.gitignore',
 'LICENSE',
 'python-learning-structure-and-data.ipynb',
 'README.md',
 'data',
 'pandas-learning.ipynb',
 'snap-learning.ipynb',
 '.git',
 '.vscode',
 'python_learning',
 '.ipynb_checkpoints',
 'matplotlibe-learning.ipynb',
 'networkx-learning.ipynb',
 'python-learning-strings-and-text.ipynb',
 'ipython-learning.ipynb',
 'numpy-learning.ipynb',
 'img']

In [6]:
[name for name in filenames if name.endswith(('.ipynb', '.md'))]

['python-learning-oop_lutz.ipynb',
 'python-learning-structure-and-data.ipynb',
 'README.md',
 'pandas-learning.ipynb',
 'snap-learning.ipynb',
 'matplotlibe-learning.ipynb',
 'networkx-learning.ipynb',
 'python-learning-strings-and-text.ipynb',
 'ipython-learning.ipynb',
 'numpy-learning.ipynb']

In [7]:
# методы работают и с другими операциями
if any(name.endswith(('.ipynb', '.md')) for name in filenames):
    print('wow')

wow


## Поиск совпадений и поиск текстовых паттернов

Если текст - простой литерал, то можно использовать базовые методы

In [8]:
text = 'это конечно замечательно, хотя конечно не это, но замечательно'

In [9]:
# точное совпадение
text == 'замечательно'

False

In [10]:
# совпадение в начале или в конце
text.startswith('это')

True

In [11]:
text.endswith('это')

False

In [12]:
# позиция первого вхождения
text.find('конечно')

4

Для более сложного поиска использовать re  и рег.выражения

In [13]:
text1 = '11/22/2020'
text2 = 'Nov 22, 2020'

In [14]:
# Полное совпадение - match() всегда ищет в начале строки
if re.match(r'\d+/\d+/\d+', text1): #\d+ - совпадение одной или более цифр
    print('Yes')
else:
    print('No')

Yes


In [15]:
if re.match(r'\d+/\d+/\d+', text2):
    print('Yes')
else:
    print('No')

No


In [16]:
# Если шаблон используется много рпаз его можно скомпилировать в объект шаблона
pattern = re.compile(r'\d+/\d+/\d+')

In [17]:
if pattern.match(text1):
    print('Yes')
else:
    print('No')

Yes


In [18]:
# поиск всех случаев совпадения
text = '22/10/2020 я вышел из дома, а пришел 23/11/2021'

In [19]:
pattern.findall(text)

['22/10/2020', '23/11/2021']

Часто бывает полезно использовать "захватывающие группЫ" - это упрощает последующую обработку

In [20]:
pattern = re.compile(r'(\d+)/(\d+)/(\d+)')

In [21]:
grp = pattern.match(text1)
grp

<re.Match object; span=(0, 10), match='11/22/2020'>

In [22]:
grp.group(0)

'11/22/2020'

In [23]:
grp.group(1)

'11'

In [24]:
grp.group(2)

'22'

In [25]:
grp.group(3)

'2020'

In [26]:
grp.groups()

('11', '22', '2020')

In [27]:
# ищем все совпадения - метод findall() проходит по тексту, находит все совпадения и возвращает их в списке
pattern.findall(text)

[('22', '10', '2020'), ('23', '11', '2021')]

In [28]:
for m, d, y in pattern.findall(text):
    print('{0}-{1}-{2}'.format(m, d, y))

22-10-2020
23-11-2021


In [29]:
# метод finditer() возвращает итератора
for m in pattern.finditer(text):
    print(m.groups())

('22', '10', '2020')
('23', '11', '2021')


## Поиск текста с заменой

In [30]:
# в простом случае базовый метод replace() - надо помнить, что строка не изменяется на месте!
text = 'это конечно замечательно, хотя конечно не это, но замечательно'
text.replace('замечательно', 'отвратительно')

'это конечно отвратительно, хотя конечно не это, но отвратительно'

In [31]:
# в более сложных случаях - sub() из re
text = '10/22/2020 я вышел из дома, а пришел 11/12/2021'
re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) # цифры во втором случае - ссылки на группы в первом

'2020-10-22 я вышел из дома, а пришел 2021-11-12'

In [32]:
# тоже самое со скомпилированным шаблоном
pattern.sub(r'\3-\1-\2', text)

'2020-10-22 я вышел из дома, а пришел 2021-11-12'

In [33]:
# в более сложных случаях можно определить подстановочную функцию обратного вызова callback
from calendar import month_abbr
def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{0} {1} {2}'.format(m.group(2), mon_name, m.group(3))

pattern.sub(change_date, text)

'22 Oct 2020 я вышел из дома, а пришел 12 Nov 2021'

На вход подстановочной функции передается объект поиска, возвращенный ф-ией math() или find(). Group() используется для извлечения определенных частей совпадения

In [34]:
# узнать сколько подстановок было сделано можно с помощью re.subn()
newtext, n = pattern.subn(r'\3-\1-\2', text)
newtext

'2020-10-22 я вышел из дома, а пришел 2021-11-12'

In [35]:
n

2

## Поиск и замена текста без учета регистра

Устаноивть флап re.IGNORECASE

In [36]:
text = 'SOME text WITH DIFFERENT Register REGISTER'
re.findall('register', text, flags=re.IGNORECASE)

['Register', 'REGISTER']

In [37]:
# у метода есть ограничение - текст замены не будет совпадать по регистру
re.sub('register', 'minister', text, flags=re.IGNORECASE)

'SOME text WITH DIFFERENT minister minister'

In [38]:
# чтобы исправить такое проведение, необходимо написать функцию поддержки
# в данном случае исп.замыкание
def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word        
    return replace

In [39]:
re.sub('register', matchcase('minister'), text, flags=re.IGNORECASE)

'SOME text WITH DIFFERENT Minister MINISTER'

## Регулярные выражения для поиска кратчайшего совпадения

Проблема часто возникает, когда необходимо выполнить поиск текста, заключенного в пару разделителей.

В шаблоне . соответствует любому символу, за исключением символа новой строки. Однако, если окружить точку открывающим и закрывающим текстом, поиск будет пытаться найти самое из длинное из возможных совпадение. Добавление ? сразу после * или + заставляет алгоритм поиска искать самое короткое совпадение.

In [40]:
# В этом примере оператор * - жадный и находит самое длиннео выраэение
templ = re.compile(r'\"(.*)\"')
text1 = 'Comp says "no"'
templ.findall(text1)

['no']

In [41]:
text2 = 'Comp says "no", another comp says "yes"'
templ.findall(text2)

['no", another comp says "yes']

In [42]:
# чтобы сделать поиск нежадным надо добавить знак ?
templ = re.compile(r'\"(.*?)\"')
templ.findall(text2)

['no', 'yes']

## Поиск совпадений, охватывающих несколько строк

Проблема возникает, когда используется . для поиска совпадений с любым символом, т.к. . не может совпадать с символом новой строки. Чтобы исправить проблему, необходимо добавить поддержку символов новой строки.

In [43]:
# (?:.|\n) определяет незахватывающую группу (группа не захватывается и не подсчитывается)
templ = re.compile(r'/\*((?:.|\n)*?)\*/')
text1 = '/* this is a comment */'
text2 = '''/* this is a
multiple comment */
'''

In [44]:
templ.findall(text1)

[' this is a comment ']

In [45]:
templ.findall(text2)

[' this is a\nmultiple comment ']

In [46]:
# другой вариант - добавить в шаблон флаг re.DOTALL, который заставляет .
# не игнорироват символ перевода строки
# этот вариант работает только в очень простых случаях
templ = re.compile(r'/\*(.*?)\*/', re.DOTALL)
templ.findall(text2)

[' this is a\nmultiple comment ']

<span class="mark">Протестить регулярки можно</span> [тут](https://regex101.com/)

## Нормализация unicode-текста к стандартному виду

unicode допускает несколько кодирующих последовательностей для одного символа. Это представляет проблему для сравнения строк. Чтобы это исправить необходимо нормализовать текст.

In [47]:
s1 = 'Spicy Jalape\u00f1o'
s2 = 'Spicy Jalapen\u0303o'

In [48]:
s1

'Spicy Jalapeño'

In [49]:
s2

'Spicy Jalapeño'

In [50]:
s1 == s2

False

In [51]:
# нормализация с помощью unicodedata
import unicodedata

t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
t1 == t2

True

In [52]:
t1

'Spicy Jalapeño'

In [53]:
print(ascii(t1))

'Spicy Jalape\xf1o'


In [54]:
t1 = unicodedata.normalize('NFD', s1)
t2 = unicodedata.normalize('NFD', s2)
t1 == t2

True

In [55]:
t1

'Spicy Jalapeño'

In [56]:
print(ascii(t1))

'Spicy Jalapen\u0303o'


NFC означает, что символы должны быть полноценными, т.е. по возможности использовать только одну кодирующую последовательность. NVD означает, что символы должны быть декомпозированными, т.е. разделены на комбинирующиеся  символы (основной + дополняющий, как в нашем случае). Кроме того доступны NFKC и NFKD, позволяющие работать с определенными типами символов.

Модуль располагает функцией для проверки принадлежности символов к определенным классам симовлов. combining() проверяет, является ли символ объединяющимся.

In [57]:
# удаление из текста диактрических знаков
t1 = unicodedata.normalize('NFD', s1)
''.join(c for c in t1 if not unicodedata.combining(c))

'Spicy Jalapeno'

[фак по нормализации на unicode.org](http://unicode.org/faq/normalization.html)

[подробная презентация про решение проблем unicode в python](https://nedbatchelder.com/text/unipain.html)

[документация unicodedata](https://docs.python.org/3/library/unicodedata.html)

## Символы unicode в регулярных выражениях

Проще всего реализовать черех сторннюю библиотечку regex

[regex](https://pypi.org/project/regex/)

## Срезание нежелательных символов

strip() - срезание символов в начале или в конце

lstrip(), rstrip() только слева или только справа

По умолчанию срезают пробел, но можно добавить любой символ

In [58]:
s = ' hello world \n'
s.strip()

'hello world'

In [59]:
s.lstrip()

'hello world \n'

In [60]:
s.rstrip()

' hello world'

In [61]:
s = '-----hello world====='
s.strip('-')

'hello world====='

In [62]:
s.strip('-=')

'hello world'

In [63]:
# не работает с пробелами в середине строки
s = 'hello          world'
s.strip()

'hello          world'

In [64]:
# костыль
s.replace(' ', '')

'helloworld'

In [65]:
# костыль 2
re.sub('\s+', ' ', s)

'hello world'

В ряде случаев полезно создать генератор

```python
with open(filename: as f:
    lines = (line.strip() got line in f)
    for line in lines:
        ...
```

Генератор работает как преобразователь данных. Мы просто сразу создаем итератор, где ко всем строкам применена операция срезания символов.

## Чистка строк

Все перечисленные ранее методы подходят для простого преобразования и нормализации текста. Если есть задача удаления целых диапазонов символов или диактрических знаков, стоит воспользоваться str.translate()

In [66]:
s = 'pýtĥöñ\fis\tawesome\r\n'
s

'pýtĥöñ\x0cis\tawesome\r\n'

In [67]:
# создадим таблицу перевода и задействуем translate()
# приведем символы пробелов к единой форме, при этом символ возврата каретки был удален
remap = {
    ord('\t'): ' ',
    ord('\f'): ' ',
    ord('\r'): None
}
a = s.translate(remap)
a

'pýtĥöñ is awesome\n'

[подробнее о методе](https://docs.python.org/3/library/stdtypes.html#str.translate) - по сути возвращает копию строки, где каждый символ изменен по мапе из таблицы

In [68]:
# удалим комбинирующиеся символы
import unicodedata
import sys
cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
# предварительно нормализуем все символы как комбинирующиеся
b = unicodedata.normalize('NFD', a)
b

'pýtĥöñ is awesome\n'

In [69]:
b.translate(cmb_chrs)

'python is awesome\n'

С помощью dict.fromkeys() был создан словарь, отображающий все комб.символы на None

In [70]:
# Еще пример - тамблица перевода, которая отображает все десятичные цифры Unicode на
# их эквиваленты в ASCII
digitmap = { c: ord('0') + unicodedata.digit(chr(c))
             for c in range(sys.maxunicode)
             if unicodedata.category(chr(c)) == 'Nd'}
len(digitmap)

610

In [71]:
# переведем арабские цифры
x = '\u0661\u0662\u0663'
x.translate(digitmap)

'123'

Другой прием чистки - использовать операции кодирования/декодлирования encode()/decode(), что приводит к последовательной замене некоторых символов на другие.

In [72]:
a

'pýtĥöñ is awesome\n'

In [73]:
# вначале нормализуем
b = unicodedata.normalize('NFD', a)
# затем кодируем и декодируем в ASCII - это удалит комбинированные символы
b.encode('ascii', 'ignore').decode('ascii')

'python is awesome\n'

Метод translate() быстрый для нетривиальных операций замены, но простые штуки часто бывает выгоднее сделать несколько операций replace()