## Практикум Python

### Тема 6. Строки

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

**Содержание:**

1. Строки в Python
2. `str` и `bytes`
3. Кодировки
4. Работа с файлами
5. Регулярные выражения 101

### Строки Python

Объявления строк:

In [2]:
s = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit'
also_s = "Lorem ipsum dolor sit amet, consectetur adipiscing elit"

#разницы в объявлении нет
s == also_s 

True

#### Методы строк

Строки поддерживают срезы:

In [5]:
print(s)
print(s[10 : 20])
print(s[10 : 20 : 3])

Lorem ipsum dolor sit amet, consectetur adipiscing elit
m dolor si
mori


In [7]:
# срез: s[START:STOP:STEP]
# default: START = 0, STOP = len(s), STEP = 1
# можно указывать не все аргументы

print(s[10:])
print(s[:20])
print(s[::3])
print(s[10::2])

m dolor sit amet, consectetur adipiscing elit
Lorem ipsum dolor si
Leiudos e nct isnet
mdlrstae,cnettraiicn lt


Строки являются неизменяемыми объектами. Поддерживают базовые арифметические операции:

In [8]:
id(s)

2408032112912

In [9]:
id(s + '_else')

2408032114928

In [10]:
s += '!' * 2
print(s)

Lorem ipsum dolor sit amet, consectetur adipiscing elit!!


In [11]:
s[-1] = '?'

TypeError: 'str' object does not support item assignment

Строки можно разбивать на несколько:

In [14]:
words = s.split()

words
s.split(' ')
s.split('sit')

['Lorem',
 'ipsum',
 'dolor',
 'sit',
 'amet,',
 'consectetur',
 'adipiscing',
 'elit!!']

['Lorem',
 'ipsum',
 'dolor',
 'sit',
 'amet,',
 'consectetur',
 'adipiscing',
 'elit!!']

['Lorem ipsum dolor ', ' amet, consectetur adipiscing elit!!']

Строки можно соединять:

In [15]:
''.join(words)
' '.join(words)
' ^_^ '.join(words)

'Loremipsumdolorsitamet,consecteturadipiscingelit!!'

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

'Lorem ^_^ ipsum ^_^ dolor ^_^ sit ^_^ amet, ^_^ consectetur ^_^ adipiscing ^_^ elit!!'

**Примечание:** Методы `split` и `join` создают копию объекта, при этом изменяя её

Базовые преобразования строк:

In [17]:
s                      # исходная строка
s.upper()              # делает все буквы заглавными
s.lower()              # делает все буквы строчными
# делает первую букву строки заглавной, а остальные строчными
'lorem ipsum DOLOR sit amet, consectetur adipiscing ELIT!!'.capitalize()
s.title()              # делает первую букву каждого слова заглавной

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

'LOREM IPSUM DOLOR SIT AMET, CONSECTETUR ADIPISCING ELIT!!'

'lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

'Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit!!'

#### Поиск подстроки в строке

Для проверки есть ли в строке искомая подстрока можно использовать оператор in:

In [18]:
'lorem' in s

False

In [19]:
'lorem' in s.lower()

True

Чтобы найти где именно есть подстрока в строке удобно использовать методы `find` и `index`:

In [21]:
s.find('ipsum') # возвращает индекс первого вхождения
s.find('nonexistent') # или -1 

6

-1

In [22]:
s.index('ipsum')
s.index('nonexistent')

6

ValueError: substring not found

#### Анализ строки

Можем проверять из каких символов состоит строка:

In [23]:
strings = ['abc', '2', '   ']

print('\t\t'.join('string isalpha isdigit isspace'.split()))
for s in strings:
    print("'" + s + "'", s.isalpha(), s.isdigit(), s.isspace(), sep='\t\t')

string		isalpha		isdigit		isspace
'abc'		True		False		False
'2'		False		True		False
'   '		False		False		True


Дополнительные методы - `startswith`, `endswith`, `strip`.

In [24]:
'Hello, world!'.startswith('Hel')

True

In [25]:
'Hello, world!'.endswith('world')

False

In [26]:
'    Hello world    '.strip()

'Hello world'

### Форматирование строк

#### Классическое форматиование

Так же, как и в C, в Python можно форматировать строки:

In [27]:
# Old style

name = 'Bob'
'Hello, %s' % name
'Hello, %(name)s' % {'name':name} 

'Hello, Bob'

'Hello, Bob'

In [28]:
# New style

name = 'Bob'
'Hello, {}'.format(name)

'Hello, Bob'

В функцию `format` можно передавать и несколько аргументов:

In [29]:
names = ['Bob','Alice']
'Hello, {}! Hello, {}!'.format(*names)

'Hello, Bob! Hello, Alice!'

Для точного указания параметра можно использовать индексы и ключи:

In [32]:
names = ['Bob','Alice']
'Hello, {1}! Hello, {0}!'.format(*names)

names = {'name1': 'Bob','name2': 'Alice'}
'Hello, {name1}! Hello, {name2}! Hello, {name1} again!'.format(**names)

'Hello, Alice! Hello, Bob!'

'Hello, Bob! Hello, Alice! Hello, Bob again!'

Кроме строк можно подставлять и другие типы данных, в этом случае произойдёт каст к строке:

In [33]:
number = 50159747054
name = 'Bob'
'Hey {}, I have a decimal number {}!'.format(name, number)

'Hey Bob, I have a decimal number 50159747054!'

In [34]:
'Coordinates: {latitude}, {longitude}'.format(latitude=37.24, longitude=-115.81)

'Coordinates: 37.24, -115.81'

#### f-строки

*f-строки* - более новый и удобный способ форматирования строк, добавлен в Python 3.6:

In [35]:
year = 2023
season = 7
f'В {year}-м году состоится {season}-й сезон курса Python 3' 
# Обратите внимание на символ f перед строкой

'В 2023-м году состоится 7-й сезон курса Python 3'

f-строки поддерживают форматирование чисел:

In [36]:
year = 2023
season = 7

# .2f - вещественное число с двумя знаками после запятой
f'В {year}-м году состоится {season: .2f}-й сезон курса Python 3'

'В 2023-м году состоится  7.00-й сезон курса Python 3'

Внутри f-строк можно выполнять различные операции:

In [37]:
year = 2023

f'В {year}-м году состоится {year-2017+1}-й сезон курса Python 3'

'В 2023-м году состоится 7-й сезон курса Python 3'

Можно обращаться к элементам списков по индексу:

In [38]:
years = [2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]
season = 7

f'В {years[season]}-м году состоится {season}-й сезон курса Python 3'

'В 2023-м году состоится 7-й сезон курса Python 3'

И даже использовать функции и методы:

In [39]:
year = 2023
season = 7
name = 'Python 3'

f'В {year}-м году состоится {season}-й сезон {name.upper()}'

'В 2023-м году состоится 7-й сезон PYTHON 3'

#### Модуль string

В Python есть специальный модуль для работы со строками:

In [40]:
import string

string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [41]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [42]:
string.digits

'0123456789'

In [43]:
string.whitespace

' \t\n\r\x0b\x0c'

Также модуль позволяет создавать шаблоны c помощью `Template` и метода `substitute`:

In [44]:
from string import Template

s = Template('$who likes $what')
s.substitute(who='tim', what='kung pao')

'tim likes kung pao'

Если в словаре отсутствует один из ключей, то вылезет ошибка.

In [45]:
d = dict(who='tim')
Template('$who likes $what').substitute(d)

KeyError: 'what'

Чтобы этого не было, необходимо использовать метод `safe_substitute`:

In [46]:
Template('$who likes $what').safe_substitute(d)

'tim likes $what'

### Кодировки

**Определения:**
- **Символ** (韩) - абстракция
- **Charset** - набор "допустимых" символов
- **Кодировка** - правила, как записывать символы в компьютере

Операции перевода символьного представления в байтовое и обратно - **кодирование** и **декодирование**.

Кодировки:
- **ASCII** - кодировка для 128 символов. Каждый символ занимает 7 бит.
- **КОИ-8** - кодировка для 256 символов (расширение ASCII для русского языка). Символ занимает 8 бит.
- **Unicode** - стандарт, включающий в себя несколько кодировок:
    - UTF-8 - от 1 до 4 байт
    - UTF-16 - 2 или 4 байта
    - UTF-32 - 4 байта

В Unicode уникальный идентификатор символа (например, r, Я или 韩) != байтовое представление.

В Python для всего этого есть `string` - для последовательности символов, и `bytes` - для последовательности байтов. 

Можно переходить между символом Unicode (напр., "U+1D11E") и его целочисленным идентификатором с помощью функций `ord` и `chr`:

In [47]:
ord('𝄞')
ord('\U0001D11E')

chr(ord('\U0001D11E'))

119070

119070

'𝄞'

Рассмотрим еще пример:

In [48]:
s = 'café'
len(s)

4

In [49]:
b = s.encode('utf8')
print(len(b), type(b))

5 <class 'bytes'>


In [50]:
b # binary representation

b'caf\xc3\xa9'

Длина символьного представления - 4, а байтового - 5. В чем дело?

Посмотрим на то, как выглядит каждый байт в отдельности:

In [51]:
print(b)
for byte in b:
    print(hex(byte), byte, chr(byte))

b'caf\xc3\xa9'
0x63 99 c
0x61 97 a
0x66 102 f
0xc3 195 Ã
0xa9 169 ©


Какие кодировки можем использовать? Разные:

In [52]:
string = 'El Niño'

for codec in ['latin_1', 'utf_8', 'utf_16', 'cp437']:
    encoded = string.encode(codec)
    print(codec, encoded.decode(codec), encoded, sep='\t\t')

latin_1		El Niño		b'El Ni\xf1o'
utf_8		El Niño		b'El Ni\xc3\xb1o'
utf_16		El Niño		b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'
cp437		El Niño		b'El Ni\xa4o'


Не все кодировки работают для всех строк:

In [54]:
city = 'São Paulo'
city.encode('utf_8')
city.encode('utf_16')
city.encode('iso8859_1')
city.encode('cp437')

b'S\xc3\xa3o Paulo'

b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'

b'S\xe3o Paulo'

UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

Что делать с такими ошибками? Обрабатывать:

In [55]:
print(city.encode('cp437', errors='ignore')) # bad
print(city.encode('cp437', errors='replace')) # better
print(city.encode('cp437', errors='xmlcharrefreplace')) # still not perfect

b'So Paulo'
b'S?o Paulo'
b'S&#227;o Paulo'


### Работа с файлами

In [64]:
with open('unicode_file.txt', 'w', encoding='utf-16le') as f:
    f.write('韩国烧酒')

4

In [67]:
# используется кодировка по умолчанию
with open('unicode_file.txt', 'r') as f:
    print(f.read())

й—эVзpR‘


In [68]:
with open('unicode_file.txt', 'r', encoding='utf-16le') as f:
    print(f.read())

韩国烧酒


### Регулярные выражения

**Регулярные выражения** - формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов (`. ˆ $ * + ? { } [ ] | ( )`)

Регулярки порой сложно дебажить, на помощь приходит https://regex101.com/

В Python для работы с регулярными выражениями существует модуль `re`. 

Для поиска всех непересекающихся вхождений регулярного выражения используется `re.findall`:

In [75]:
import re

string = '__abc__acc__abc__a6c__a66c'
print(re.findall(r'abc', string))
print(re.findall(r'a\d+c', string))
print(re.findall(r'a\wc', string))

['abc', 'abc']
['a6c', 'a66c']
['abc', 'acc', 'abc', 'a6c']


Мы также можем сохранить паттерн и использовать его несколько раз:

In [76]:
text = u'Français złoty Österreich'
pattern = r'\w+'
ascii_pattern = re.compile(pattern, re.ASCII)
unicode_pattern = re.compile(pattern)

In [78]:
print('Text    :', text)
print('Pattern :', pattern)
print('ASCII   :', list(ascii_pattern.findall(text)))
print('Unicode :', list(unicode_pattern.findall(text)))

Text    : Français złoty Österreich
Pattern : \w+
ASCII   : ['Fran', 'ais', 'z', 'oty', 'sterreich']
Unicode : ['Français', 'złoty', 'Österreich']


Можем заменять части строки с помощью регулярных выражений:

In [79]:
re.sub(r'a\wc', '***', string)

'__***__***__***__***__a66c'