# Практикум Python


<img src="https://www.python.org/static/community_logos/python-logo-master-v3-TM.png" align="right" style="height: 200px;"/>

# Тема 6. Строки


# Строки в Python

## Базовый синтаксис

Объявление строк в Python:

In [None]:
s = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit'
also_s = "Lorem ipsum dolor sit amet, consectetur adipiscing elit"

In [None]:
s

'Lorem ipsum dolor sit amet, consectetur adipiscing elit'

In [None]:
also_s

'Lorem ipsum dolor sit amet, consectetur adipiscing elit'

## Методы строк

Строки поддерживают срезы:

In [None]:
print(s)
print(s[10 : 20])
print(s[10 : 20 : 3])

Lorem ipsum dolor sit amet, consectetur adipiscing elit
m dolor si
mori


Строки являются неизменяемыми объектами. Поддерживают базовые арифметические операции:

In [None]:
id(s)

139842586713984

In [None]:
id(s+'_else')

139842517073968

In [None]:
s += '!' * 2
print(s)

Lorem ipsum dolor sit amet, consectetur adipiscing elit!!


In [None]:
s[-1] = '?'

TypeError: ignored

Строки можно разбивать на несколько:

In [None]:
s.split()

['Lorem',
 'ipsum',
 'dolor',
 'sit',
 'amet,',
 'consectetur',
 'adipiscing',
 'elit!!']

In [None]:
s.split('sit')

['Lorem ipsum dolor ', ' amet, consectetur adipiscing elit!!']

In [None]:
s.split(' ')

['Lorem',
 'ipsum',
 'dolor',
 'sit',
 'amet,',
 'consectetur',
 'adipiscing',
 'elit!!']

In [None]:
words = s.split(' ')

Строки можно соединять:

In [None]:
''.join(words)

'Loremipsumdolorsitamet,consecteturadipiscingelit!!'

In [None]:
' '.join(words)

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [None]:
' ^_^ '.join(words)

'Lorem ^_^ ipsum ^_^ dolor ^_^ sit ^_^ amet, ^_^ consectetur ^_^ adipiscing ^_^ elit!!'

Базовые преобразования строк:

In [None]:
s

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [None]:
s.upper()

'LOREM IPSUM DOLOR SIT AMET, CONSECTETUR ADIPISCING ELIT!!'

In [None]:
s.lower()

'lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [None]:
s.lower().capitalize()

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [None]:
s.title()

'Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit!!'

## Поиск подстроки в строке

Для проверки есть ли в строке искомая подстрока можно использовать оператор `in`:

In [None]:
'lorem' in s

False

In [None]:
'lorem' in s.lower()

True

Чтобы найти где именно есть подстрока в строке удобно использовать методы `find` и `index`:

In [None]:
s.find('ipsum') # возвращает индекс первого вхождения

6

In [None]:
s.find('nonexistent') # или -1

-1

In [None]:
s.index('ipsum')

6

In [None]:
s.index('nonexistent')

ValueError: ignored

## Анализ строки

Можем проверять из каких символов состоит строка:

In [None]:
strings = ['abc', '2', '   ']

print('\t\t'.join('string isalpha isdigit isspace'.split()))
for s in strings:
    print("'" + s + "'", s.isalpha(), s.isdigit(), s.isspace(), sep='\t\t')

string		isalpha		isdigit		isspace
'abc'		True		False		False
'2'		False		True		False
'   '		False		False		True


Дополнительные методы - `startswith`, `endswith`, `strip`.

In [None]:
'Hello, world!'.startswith('Hel')

True

False

'Hello world'

In [None]:
'Hello, world!'.endswith('world')

In [None]:
'    Hello world    '.strip()

# Форматирование строк

## Классическое форматирование

Так же, как и в C, в Python можно форматировать строки:

In [None]:
# Old style

name = 'Bob'
'Hello, %s' % name

'Hello, Bob'

In [None]:
'Hello, %(name)s' % {'name':name}

'Hello, Bob'

In [None]:
# New style

name = 'Bob'
'Hello, {}'.format(name)

'Hello, Bob'

В функцию `format` можно передавать и несколько аргументов:

In [None]:
names = ['Bob','Alice']
'Hello, {}! Hello, {}!'.format(*names)

'Hello, Bob! Hello, Alice!'

Для точного указания параметра можно использовать индексы и ключи:

In [None]:
names = ['Bob','Alice']
'Hello, {1}! Hello, {0}!'.format(*names)

names = {'name1': 'Bob','name2': 'Alice'}
'Hello, {name1}! Hello, {name2}! Hello, {name1} again!'.format(**names)

'Hello, Bob! Hello, Alice! Hello, Bob again!'

Кроме строк можно подставлять и другие типы данных:

In [None]:
number = 50159747054
name = 'Bob'
'Hey {}, I have a decimal number {}!'.format(name, number)

'Hey Bob, I have a decimal number 50159747054!'

In [None]:
'Coordinates: {latitude}, {longitude}'.format(latitude=37.24, longitude=-115.81)

'Coordinates: 37.24, -115.81'

## f-строки

**f-строки** - более новый и удобный способ форматирования строк, добавлен в Python 3.6:

In [None]:
year = 2023
season = 7
f'В {year}-м году состоится {season}-й сезон курса Python 3' # Обратите внимание на символ f перед строкой

'В 2023-м году состоится 7-й сезон курса Python 3'

f-строки поддерживают форматирование чисел:

In [None]:
year = 2023
season = 7

# .2f - вещественное число с двумя знаками после запятой
f'В {year}-м году состоится {season: .2f}-й сезон курса Python 3'

'В 2023-м году состоится  7.00-й сезон курса Python 3'

Внутри f-строк можно выполнять различные операции:

In [None]:
year = 2023

f'В {year}-м году состоится {year-2017+1}-й сезон курса Python 3'

В 2023-м году состоится 7-й сезон курса Python 3


Можно обращаться к элементам списков по индексу:

In [None]:
years = [2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]
season = 7

f'В {years[season]}-м году состоится {season}-й сезон курса Python 3'

В 2023-м году состоится 7-й сезон курса Python 3


И даже использовать функции и методы:

In [None]:
year = 2023
season = 7
name = 'Python 3'

f'В {year}-м году состоится {season}-й сезон {name.upper()}'

В 2023-м году состоится 7-й сезон PYTHON 3


# Модуль `string`

В Python есть специальный модуль для работы со строками:

In [None]:
import string

string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [None]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [None]:
string.digits

'0123456789'

In [None]:
string.whitespace

' \t\n\r\x0b\x0c'

Также модуль позволяет создавать шаблоны c помощью `Template` и метода `substitute`:

In [None]:
from string import Template

s = Template('$who likes $what')
s.substitute(who='tim', what='kung pao')

'tim likes kung pao'

Если в словаре отсутствует один из ключей, то вылезет ошибка.

In [None]:
d = dict(who='tim')
Template('$who likes $what').substitute(d)

KeyError: ignored

Чтобы этого не было, необходимо использовать метод `safe_substitute`:

In [None]:
Template('$who likes $what').safe_substitute(d)

'tim likes $what'

## Кодировки

**Определения:**
- **Символ** (韩) - абстракция
- **Charset** - набор "допустимых" символов
- **Кодировка** - правила, как записывать символы в компьютере

Операции перевода символьного представления в байтовое и обратно - **кодирование** и **декодирование**.

Кодировки:
- **ASCII** - кодировка для 128 символов. Каждый символ занимает 7 бит.
- **КОИ-8** - кодировка для 256 символов (расширение ASCII для русского языка). Символ занимает 8 бит.
- **Unicode** - стандарт, включающий в себя несколько кодировок:
    - UTF-8 - от 1 до 4 байт
    - UTF-16 - 2 или 4 байта
    - UTF-32 - 4 байта

В Unicode уникальный идентификатор символа (например, r, Я или 韩) != байтовое представление.

В Python для всего этого есть `string` - для последовательности символов, и `bytes` - для последовательности байтов.

Можно переходить между символом Unicode (напр., "U+1D11E") и его целочисленным идентификатором с помощью функций `ord` и `chr`:

In [None]:
ord('𝄞')

119070

In [None]:
ord('\U0001D11E')

119070

In [None]:
chr(ord('\U0001D11E'))

'𝄞'

Рассмотрим еще пример:

In [None]:
s = 'café'
len(s)

4

In [None]:
b = s.encode('utf8')
print(len(b), type(b))

5 <class 'bytes'>


In [None]:
b # binary representation

b'caf\xc3\xa9'

Длина символьного представления - 4, а байтового - 5. В чем дело?

Посмотрим на то, как выглядит каждый байт в отдельности:

In [None]:
print(b)
for byte in b:
    print(hex(byte), byte, chr(byte))

b'caf\xc3\xa9'
0x63 99 c
0x61 97 a
0x66 102 f
0xc3 195 Ã
0xa9 169 ©


Какие кодировки можем использовать? Разные:

In [None]:
string = 'El Niño'

for codec in ['latin_1', 'utf_8', 'utf_16', 'cp437']:
    encoded = string.encode(codec)
    print(codec, encoded.decode(codec), encoded, sep='\t\t')

latin_1		El Niño		b'El Ni\xf1o'
utf_8		El Niño		b'El Ni\xc3\xb1o'
utf_16		El Niño		b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'
cp437		El Niño		b'El Ni\xa4o'


Не все кодировки работают для всех строк:

In [None]:
city = 'São Paulo'
city.encode('utf_8')

b'S\xc3\xa3o Paulo'

In [None]:
city.encode('utf_16')

b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'

In [None]:
city.encode('iso8859_1')

b'S\xe3o Paulo'

In [None]:
city.encode('cp437')

UnicodeEncodeError: ignored

Что делать с такими ошибками? Обрабатывать:

In [None]:
print(city.encode('cp437', errors='ignore')) # bad

b'So Paulo'


In [None]:
city.encode('cp437', errors='replace') # better

b'S?o Paulo'

In [None]:
city.encode('cp437', errors='xmlcharrefreplace') # still not perfect

b'S&#227;o Paulo'

# Чтение и запись в файл

Создадим простой файл с помощью unix-команд:

In [None]:
%%bash
touch 'text.txt'
echo 'abcd' > text.txt
echo 'efgh' >> text.txt
echo 'ijkl' >> text.txt
cat text.txt

abcd
efgh
ijkl


## Чтение файла

Для открытия фалы используем команду `open`. Она принимает 2 аргумента - путь до файла и режим (по-умолчанию, `'r'`):

In [None]:
f = open('text.txt', 'r')
f

<_io.TextIOWrapper name='text.txt' mode='r' encoding='UTF-8'>

In [None]:
type(f)

_io.TextIOWrapper

In [None]:
help(open)

Help on built-in function open in module io:

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
    Open file and return a stream.  Raise OSError upon failure.
    
    file is either a text or byte string giving the name (and the path
    if the file isn't in the current working directory) of the file to
    be opened or an integer file descriptor of the file to be
    wrapped. (If a file descriptor is given, it is closed when the
    returned I/O object is closed, unless closefd is set to False.)
    
    mode is an optional string that specifies the mode in which the file
    is opened. It defaults to 'r' which means open for reading in text
    mode.  Other common values are 'w' for writing (truncating the file if
    it already exists), 'x' for creating and writing to a new file, and
    'a' for appending (which on some Unix systems, means that all writes
    append to the end of the file regardless of the current seek position

Получился объект `f` одного из файловых типов. Что с ним можно делать? Можно его использовать в `for` цикле, каждый раз будет возвращаться очередная строка файла (включая `'\n'` в конце; в конце последней строки текстового файла `'\n'` может и не быть).

In [None]:
for i, s in enumerate(f):
    print(i, s)

0 abcd

1 efgh

2 ijkl



После работы с файлом его необходимо закрыть:


In [None]:
f.close()

In [None]:
f.closed

True

Общий формат работы с файлом выглядит так:

In [None]:
# open()
# work with file
# close()

Поэтому часто при работе с файлами используют менеджеры контекстов:

In [None]:
file_strings = []
with open('text.txt') as f:
    for s in f:
        print(s[:-1])
        file_strings.append(s)

abcd
efgh
ijkl


In [None]:
file_strings

['abcd\n', 'efgh\n', 'ijkl\n']

У объекта `f` имеются и полезные методы:

Метод `f.read(n)` читает `n` символов (когда файл близится к концу и прочитать именно `n` символов уже невозможно, читает меньше; в самый последний раз он читает 0 символов и возвращает `''`). Прочитаем файл по 2 символа.

In [None]:
with open('text.txt') as f:
    while True:
        c = f.read(2)
        if c == '':
            break
        else:
            print(c.__repr__())

'ab'
'cd'
'\ne'
'fg'
'h\n'
'ij'
'kl'
'\n'


Если не указать количество символов, то файл прочитается полностью:

In [None]:
with open('text.txt') as f:
    s = f.read()

In [None]:
s

'abcd\nefgh\nijkl\n'

Если хотим прочитать файл построчно, то пользуемся методом `readline`:

In [None]:
with open('text.txt') as f:
    count = 0
    while True:
        s = f.readline()
        if s == '':
            break
        else:
            print(f'count: {count}, {s.__repr__()}')
            count += 1

count: 0, 'abcd\n'
count: 1, 'efgh\n'
count: 2, 'ijkl\n'


In [None]:
with open('text.txt') as f:
    s1 = f.readline()[:-1]
    s2 = f.readline()[:-1]
    s3 = f.readline()[:-1]

print(s1, s2, s3, sep='\n')

abcd
efgh
ijkl


Метод `f.readlines()` возвращает список строк (его лучше не применять для очень больших файлов).

In [None]:
with open('text.txt') as f:
    lst_of_words = f.readlines()
lst_of_words

['abcd\n', 'efgh\n', 'ijkl\n']

Теперь посмотрим, чем же оператор `with` лучше, чем пара `open` - `close`.

In [None]:
def a(name):
    global f
    f = open(name)
    s = f.readline()
    n = 1 / 0
    f.close()
    return s

In [None]:
a('text.txt')

ZeroDivisionError: ignored

In [None]:
f.closed

False

In [None]:
f.close()
f.closed

True

In [None]:
f = open("text.txt")

Произошло исключение, мы покинули функцию до строчки `close`, и файл не закрылся.

In [None]:
def a(name):
    global f
    with open(name) as f:
        print(f'File is opened: {not f.closed}')
        s = f.readline()
        n = 1 / 0
    return s

In [None]:
a('text.txt')

File is opened: True


ZeroDivisionError: ignored

In [None]:
f.closed

True

Теперь всё в порядке.

## Запись в файл

Чтобы открыть файл на запись, нужно указать в качестве второго аргумента `'w'`:

In [None]:
f = open('newtext.txt', 'w')

In [None]:
f.write('aaa\n')

4

In [None]:
f.write('bbb\n')

4

In [None]:
f.write('ccc\n')

4

In [None]:
f.close()

In [None]:
!cat newtext.txt

aaa
bbb
ccc


In [None]:
with open('newtext.txt', 'w') as f:
    f.write('aaa\n')
    f.write('bbb\n')
    f.write('ccc\n')

In [None]:
!cat newtext.txt

aaa
bbb
ccc


Создадим функцию, которая копирует старый текстовый файл в новый. Если строки нужно как-нибудь обработать, в последней строчке вместо `line` будет стоять что-нибудь вроде `f(line)`:

In [None]:
def copy(old_name, new_name):
    with open(old_name) as old, open(new_name, 'w') as new:
        for line in old:
            new.write(line)

In [None]:
def copy(old_name, new_name):
    with open(old_name) as old:
        with open(new_name, 'w') as new:
            for line in old:
                new.write(line)

In [None]:
copy('text.txt', 'newtext.txt')

In [None]:
!cat newtext.txt

abcd
efgh
ijkl


## Файлы с разными кодировками

In [None]:
with open('unicode_file.txt', 'w', encoding='utf-16le') as f:
    f.write('韩国烧酒')

При некорректно указанной кодировке вылезет ошибка:

In [None]:
with open('unicode_file.txt', 'r') as f:
    print(f.read())

UnicodeDecodeError: ignored

Проверим с корректной кодировкой:

In [None]:
with open('unicode_file.txt', 'r', encoding='utf-16le') as f:
    print(f.read())

韩国烧酒


# Регулярные выражения

**Регулярные выражения** - формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов (`. ˆ $ * + ? { } [ ] | ( )`)

![xkcd-re](https://imgs.xkcd.com/comics/regular_expressions.png)

*Source: [xkcd](https://imgs.xkcd.com/comics/regular_expressions.png)*

В Python для работы с регулярными выражениями существует модуль `re`.

Для поиска всех непересекающихся вхождений регулярного выражения используется `re.findall`:

In [None]:
import re

string = '__abc__acc__abcd__a6c__a66c'

In [None]:
re.findall(r'abc', string)

['abc', 'abc']

In [None]:
re.findall(r'a\dc', string)

['a6c']

In [None]:
re.findall(r'a\w+c', string)

['abc__acc__abcd__a6c__a66c']

Мы также можем сохранить паттерн и использовать его несколько раз:

In [None]:
text = u'Français złoty Österreich'
pattern = r'\w+'
ascii_pattern = re.compile(pattern, re.ASCII)
unicode_pattern = re.compile(pattern)

In [None]:
text

'Français złoty Österreich'

In [None]:
pattern

'\\w+'

In [None]:
list(ascii_pattern.findall(text))

['Fran', 'ais', 'z', 'oty', 'sterreich']

In [None]:
list(unicode_pattern.findall(text))

Можем заменять части строки с помощью регулярных выражений:

In [None]:
re.sub(r'a\wc', '***', string)

'__***__***__***d__***__a66c'

Регулярки порой сложно дебажить, на помощь приходит https://regex101.com/