# Строки в Python

## Базовый синтаксис

Объявление строк в Python:

In [None]:
s = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit'
also_s = "Lorem ipsum dolor sit amet, consectetur adipiscing elit"

print('s:      ', s)
print('also_s: ', also_s)

s:       Lorem ipsum dolor sit amet, consectetur adipiscing elit
also_s:  Lorem ipsum dolor sit amet, consectetur adipiscing elit


Строки поддерживают срезы:

In [None]:
# str[START:STOP:STEP]

s[10:20:3]

'mori'

Поддерживают базовые арифметические операции:

In [None]:
s_1 = 'foot'
s_2 = 'ball'

s_3 = s_1 + s_2 + '!' * 2
print(s_3)

football!!


Строки являются неизменяемыми объектами.

In [None]:
s[-1] = 'o'

TypeError: 'str' object does not support item assignment

## Экранирование символов

Чтобы использовать кавычки как один из символов внутри строки, а не ее начало или конец (и не ловить ошибки), используют **символ экранирования: `\`**.
Он ставится перед соответсвующей кавычкой.

In [None]:
string_1 = "Dragon's mother said \"No\""

string_2 = 'Dragon\'s mother said "No"'

print(string_1, string_2, sep='\n')  # печать с новой строки

Dragon's mother said "No"
Dragon's mother said "No"


Если нужно вывести сам обратный слеш, его тоже надо экранировать, как и любой другой специальный символ:

In [None]:
print("\\")

\


## Методы строк

Для удобства работы в строки встроено множество полезных методов. Рассмотрим неоторые из них:

### Разбиение и соединение

1. **`str.partition(sep[arator]) -> tuple`**

Разбивает строку на три составляющие (начало, разделитель, конец) и возвращает в виде кортежа

In [None]:
s.partition('em')

('Lor', 'em', ' ipsum dolor sit amet, consectetur adipiscing elit')

2. **`str.split(sep[, maxsplit]) -> list`**

Разбивает строку на части, используя разделитель, и возвращает эти части списком.

In [None]:
a = s.split()         # или s.split(' ')
b = s.split('e')      # sep='e'
c = s.split('e', 2)   # maxsplit=2

print(a, ' ', b, c, sep='\n')

['Lorem', 'ipsum', 'dolor', 'sit', 'amet,', 'consectetur', 'adipiscing', 'elit']
 
['Lor', 'm ipsum dolor sit am', 't, cons', 'ct', 'tur adipiscing ', 'lit']
['Lor', 'm ipsum dolor sit am', 't, consectetur adipiscing elit']


In [None]:
words = s.split()
words[0]

'Lorem'

In [None]:
list(words[0])

['L', 'o', 'r', 'e', 'm']

3. **`str.join(words)  -> str`**

Соединяет строки, используя указанный разделитель.

In [None]:
a = ''.join(words)
b = ' '.join(words)
c = ' ^_^ '.join(words)

print(a, b, c, sep='\n')

Loremipsumdolorsitamet,consecteturadipiscingelit
Lorem ipsum dolor sit amet, consectetur adipiscing elit
Lorem ^_^ ipsum ^_^ dolor ^_^ sit ^_^ amet, ^_^ consectetur ^_^ adipiscing ^_^ elit


### Регистр символов

In [None]:
s

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [None]:
s.upper()

'LOREM IPSUM DOLOR SIT AMET, CONSECTETUR ADIPISCING ELIT!!'

In [None]:
s.lower()

'lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [None]:
s.lower().capitalize()

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [None]:
s.title()

'Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit!!'

Метод swapcase() строки преобразует все символы верхнего регистра в нижний регистр и все символы нижнего регистра в символы верхнего регистра данной строки и возвращает ее.


In [None]:
s.swapcase()

'lOREM IPSUM DOLOR SIT AMET, CONSECTETUR ADIPISCING ELIT!!'

### Поиск и замена

Для проверки есть ли в строке искомая подстрока можно использовать оператор `in`:

In [None]:
'lorem' in s

False

In [None]:
'lorem' in s.lower()

True

Чтобы найти где именно есть подстрока в строке удобно использовать методы `find` и `index`:

Метод find принимает три параметра:

substring (символ/подстрока) — подстрока, которую нужно найти в данной строке
.
start (необязательный) — первый индекс, с которого нужно начинать поиск. По умолчанию значение равно 0.
end (необязательный) — индекс, на котором нужно закончить поиск. По умолчанию равно длине строки.

In [None]:
a = s.find('t')           # возвращает индекс первого вхождения
b = s.rfind('t')          # возвращает индекс последнего вхождения
c = s.find('nonexistent') # возвращает -1 если строка не найдена

print(a, b, c)

20 54 -1


In [None]:
a = s.index('ipsum')
b = s.rindex('ipsum')

print(a, b)

6 6


In [None]:
c = s.index('nonexistent')

ValueError: substring not found

In [None]:
txt = "I like bananas, bananas"

a = txt.replace("bananas", "apples")
b = txt.strip("Ilans ")                # удаляет символы из аргументов с начала и конца строки

print(a, b, sep='\n')

I like apples, apples
ike bananas, b


### Анализ строки

Можем проверять из каких символов состоит строка:

In [None]:
strings = ['abc', '2', '   ']

print('\t\t'.join('string isalpha isdigit isspace'.split()))

for s in strings:
    print("'" + s + "'", s.isalpha(), s.isdigit(), s.isspace(), sep='\t\t')

string		isalpha		isdigit		isspace
'abc'		True		False		False
'2'		False		True		False
'   '		False		False		True


Дополнительные методы - `startswith`, `endswith`, `strip`.

In [None]:
'Hello, world!'.startswith('Hel')

True

In [None]:
'Hello, world!'.endswith('world')

False

In [None]:
'    Hello world    '.strip()

'Hello world'

In [20]:
'hahafghahafff'.strip('haf')

'g'

In [24]:
'adcdefg'.strip('gfcda')

'e'

## Форматирование строк

### Классическое форматирование

#### Оператор `%`

Так же, как и в C, в Python можно форматировать строки:

- `%s` - строка (или объект со строковым представлением, например, числа)

In [None]:
name1, name2 = 'Alice', [1, 2]
'Hello, %s and %s' % (name1, name2)

'Hello, Alice and [1, 2]'

- `%d` - целые числа

In [None]:
result = 99.99
'Your score: %d' % result

'Your score: 99'

- `%f` - числа с плавающей точкой

In [None]:
result = 99.99
'Your score: %f' % result

'Your score: 99.990000'

- `%.<number of digits>f` - числа с плавающей точкой с фиксированным кол-вом чисел после запятой

In [None]:
result = 99.99
'Your score: %.1f' % result    # округление до 1 числа после запятой

'Your score: 100.0'

- `%x`/`%X` - целые числа в шестнадцатеричном представлении (lowercase/uppercase)

In [None]:
result = 110
'Your score: %x' % result

'Your score: 6e'

#### Метод `format`

In [None]:
name = 'Bob'
'Hello, {}'.format(name)

'Hello, Bob'

В функцию `format` можно передавать и несколько аргументов:

In [None]:
'Hello, {}! Hello, {}!'.format('Bob','Alice')

'Hello, Bob! Hello, Alice!'

Для точного указания параметра можно использовать индексы и ключи:

In [None]:
'Hello, {1}! Hello, {0}!'.format('Bob','Alice')

'Hello, Alice! Hello, Bob!'

Кроме строк можно подставлять и другие типы данных:

In [None]:
'Coordinates: {latitude}, {longitude}'.format(latitude=37.24, longitude=-115.81)

'Coordinates: 37.24, -115.81'

Можно использовать те же флаги, что и с оператором `%`:

In [None]:
result = 99.9
'Your score: {:.2f}'.format(result)

'Your score: 99.90'

### f-строки

**f-строки** - более новый и удобный способ форматирования строк, добавлен в Python 3.6:

In [None]:
year = 2024
season = 8
f'В {year}-м году состоится {season}-й сезон курса Python 3'  # Обратите внимание на символ f перед строкой

'В 2024-м году состоится 8-й сезон курса Python 3'

f-строки поддерживают форматирование чисел:

In [None]:
year = 2024
season = 8

# .2f - вещественное число с двумя знаками после запятой
f'В {year}-м году состоится {season:.2f}-й сезон курса Python 3'

'В 2024-м году состоится 8.00-й сезон курса Python 3'

Внутри f-строк можно выполнять различные операции:

In [None]:
year = 2024

f'В {year}-м году состоится {year-2017+1}-й сезон курса Python 3'

'В 2024-м году состоится 8-й сезон курса Python 3'

Можно обращаться к элементам списков по индексу:

In [None]:
years = [2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024]
season = 8

f'В {years[season]}-м году состоится {season}-й сезон курса Python 3'

'В 2024-м году состоится 8-й сезон курса Python 3'

И даже использовать функции и методы:

In [None]:
year = 2024
season = 8
name = 'Python 3'

f'В {year}-м году состоится {season}-й сезон {name.upper()}'

'В 2024-м году состоится 8-й сезон PYTHON 3'

#### Как вывести фигурные скобки?

Ок, значит для подстановки переменных и выражений в f-строках мы используем фигурные скобки. Но как тогда мы можем просто отрисовать фигурную скобку в f-строках? Просто продублируем их!

In [None]:
f"{{70 + 4}}"

'{70 + 4}'

Если используем тройные фигурные скобки:



In [None]:
f"{{{70 + 4}}}"

'{74}'

#### `f"{var=}"`

Еще одна удобна фича f-строк - вывод имени выводимой переменной:

In [None]:
debug_var = 42
f"{debug_var=}"

'debug_var=42'

Помогает при отладке приложения с помощью `print` и f-строк.

## Модуль `string`

В Python есть специальный модуль для облегчения работы со строками:

In [None]:
import string

string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [None]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [None]:
string.digits

'0123456789'

In [None]:
string.whitespace

' \t\n\r\x0b\x0c'

### `Template`

Также модуль позволяет создавать шаблоны c помощью `Template` и метода `substitute`:

In [None]:
from string import Template

s = Template('$who likes $what')
s.substitute(who='tim', what='kung pao')

'tim likes kung pao'

Если в словаре отсутствует один из ключей, то вылезет ошибка.

In [None]:
d = dict(who='tim')
Template('$who likes $what').substitute(d)

KeyError: ignored

In [None]:
# метод safe_substitute позволяет избежать ошибки отсутствия ключа

Template('$who likes $what').safe_substitute(d)

'tim likes $what'

# Кодировки

**Определения:**
- **Символ** (韩) - абстракция
- **Charset** - набор "допустимых" символов
- **Кодировка** - правила, как записывать символы в компьютере

Операции перевода символьного представления в байтовое и обратно - **кодирование** и **декодирование**.

Кодировки:
- **ASCII** - кодировка для 128 символов. Каждый символ занимает 7 бит.
- **КОИ-8** - кодировка для 256 символов (расширение ASCII для русского языка). Символ занимает 8 бит.
- **Unicode** - стандарт, включающий в себя несколько кодировок:
    - UTF-8 - от 1 до 4 байт
    - UTF-16 - 2 или 4 байта
    - UTF-32 - 4 байта

В Unicode уникальный идентификатор символа (например, r, Я или 韩) != байтовое представление.

В Python для всего этого есть `string` - для последовательности символов, и `bytes` - для последовательности байтов.

Можно переходить между символом Unicode (напр., "U+1D11E") и его целочисленным идентификатором с помощью функций `ord` и `chr`:

In [None]:
a = ord('𝄞')
b = ord('\U0001D11E')
c = chr(ord('\U0001D11E'))

print(a, b, c, sep='\n')

119070
119070
𝄞


Рассмотрим еще пример:

In [None]:
s = 'café'
len(s)

4

In [None]:
b = s.encode('utf8')                 # binary representation
print(b, len(b), type(b), sep='\n')

b'caf\xc3\xa9'
5
<class 'bytes'>


Длина символьного представления - 4, а байтового - 5. В чем дело?

Посмотрим на то, как выглядит каждый байт в отдельности:

In [None]:
print(b)
for byte in b:
    print(hex(byte), byte, chr(byte))

b'caf\xc3\xa9'
0x63 99 c
0x61 97 a
0x66 102 f
0xc3 195 Ã
0xa9 169 ©


Какие кодировки можем использовать? Разные:

In [None]:
string = 'El Niño'

for codec in ['latin_1', 'utf_8', 'utf_16', 'cp437']:
    encoded = string.encode(codec)
    print(codec, encoded.decode(codec), encoded, sep='\t\t')

latin_1		El Niño		b'El Ni\xf1o'
utf_8		El Niño		b'El Ni\xc3\xb1o'
utf_16		El Niño		b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'
cp437		El Niño		b'El Ni\xa4o'


Не все кодировки работают для всех строк:

In [None]:
city = 'São Paulo'
city.encode('iso8859_1')

b'S\xe3o Paulo'

In [None]:
city.encode('cp437')

UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

Что делать с такими ошибками? Обрабатывать:

In [None]:
city.encode('cp437', errors='ignore') # bad

b'So Paulo'

In [None]:
city.encode('cp437', errors='replace') # better

b'S?o Paulo'

In [None]:
city.encode('cp437', errors='xmlcharrefreplace') # still not perfect

b'S&#227;o Paulo'

# Чтение и запись в файл

Создадим простой файл:

In [None]:
%%file testfile.txt
Hello, world!
This is a test file.

Overwriting testfile.txt


## Открытие файла

Для открытия файла используем команду open. Она принимает 2 аргумента - путь до файла и режим (по-умолчанию, 'r'):

In [None]:
f = open('testfile.txt', 'r')
f

<_io.TextIOWrapper name='testfile.txt' mode='r' encoding='UTF-8'>

Существуют следующие режимы открытия файлов:
- `r`- чтение файла, курсор в начале файла, выдает ошибку, если файла нет
- `r+` - чтение и запись файла, курсор в начале файла, выдает ошибку, если файла нет, при записи не перезатирает файл полностью
- `w` - запись файла, курсор в начале файла, перезатирает файл полностью
- `w+` - запись и чтение файла, курсор в начале файла, перезатирает файл полностью
- `a` - запись файла, курсор в конце файла
- `a+` - запись и чтение файла, курсор в конце файла
- <font color="#ABABAB">`r+b` - чтение и запись в бинарном формате

### Контекстный менеджер функции `open`

После работы с файлом его необходимо закрыть:

In [None]:
f.close()
f.closed   # проверка

True

Однако, если до вызова метода `close` при исполнении программы встретится ошибка и выполнение программы будет прервано - файл не будет корректно закрыт!

Чтобы даже при возникновении ошибки файл закрывался, функцию open можно использовать в виде менеджера контекста.

**Менеджер контекста** - конструкция, оборачивающая набор команд, которая позволяет выполнять определенные операции непосредственно перед обернутым набором команд и после (разные наборы команд перед и после), даже если во время исполнения обернутого набора команд возникнет ошибка.

```python
with <context_manager> as <variable>:
    some_code()
```

При открытии файлов вместо:






In [None]:
f = open('testfile.txt', 'r')
print(f.name)
# do something else
f.close()

testfile.txt



рекоммендуется использовать следующее:


In [None]:
with open('testfile.txt', 'r') as f:
    print(f.name)
    # do something else

testfile.txt


### Пример:

In [None]:
# пара open-closed

f = open('testfile.txt', 'r')
print(f"File opened {f.name}")
line = f.readline()
n = 1 / 0
f.close()

File opened testfile.txt


ZeroDivisionError: division by zero

In [None]:
f.closed

False

Произошло исключение, мы завершили выполнение кода ячейки до строчки `close`, и файл не закрылся. Закроем файл.

In [None]:
f.close()
f.closed

True

In [None]:
# контекстный менеджер

with open('testfile.txt', 'r') as f:
    print(f"File opened {f.name}")
    line = f.readline()
    n = 1 / 0

File opened testfile.txt


ZeroDivisionError: division by zero

In [None]:
f.closed

True

## Чтение файла

### Цикл `for`

In [None]:
with open('testfile.txt', 'r') as f:
    for i, line in enumerate(f):
        print(i, line, end='')

0 Hello, world!
1 This is a test file.


### Метод `readline`

Для чтения файла построчно

In [None]:
with open('testfile.txt') as f:
    count = 0
    while True:
        s = f.readline()
        if s == '':
            break
        print(f'count: {count}, {s.__repr__()}')
        count += 1

count: 0, 'Hello, world!\n'
count: 1, 'This is a test file.\n'


In [None]:
with open('testfile.txt') as f:
    s1 = f.readline()[:-1]
    s2 = f.readline()[:-1]
    s3 = f.readline()[:-1]

print(s1, s2, s3, sep='\n')

Hello, world!
This is a test file.



### Метод `readlines`

In [None]:
# возвращает список строк (его лучше не применять для очень больших файлов).

with open('testfile.txt') as f:
    lst_of_words = f.readlines()
lst_of_words

['Hello, world!\n', 'This is a test file.\n']

### Метод `read`

Позволяет считать файл двумя способами:

1. Считывание файла целиком

In [None]:
with open('testfile.txt') as f:
    content = f.read()  # Не указываем аргумент - читаем файл целиком
    print(content)

Hello, world!
This is a test file.



2. Считывание N символов

In [None]:
with open('testfile.txt') as f:
    chars = f.read(10)  # Указываем аргумент 10 - читаем 10 символов
    print(chars)

Hello, wor


>**Примечание** - читать файл полностью нужно с большой осторожностью!
>
>Если вы заранее не знаете размер файла или ваша программа даже теоретически может быть запущена для файла крайне большого размера (больше размера вашей оперативной памяти), то ни в коем случае не считывайте файл полностью:
>- не используйте метод `readlines`!
>- не используйте метод `read` без аргумента
>
>Иначе заполните всю оперативку вашим текстом и все упадет!
>
>Безопаснее считывать файл построчно (`readline`) или пакетами символов (указывая аргумент метода `read`).

## Запись в файл

Чтобы открыть файл на запись, можно указать в качестве второго аргумента `'w'` и использовать метод `write`:

In [None]:
with open('newtext.txt', 'w') as f:
    f.write('aaa\n')
    f.write('bbb\n')
    f.write('bbb\n')

In [None]:
!cat newtext.txt

cat: newtext.txt: No such file or directory


#### Копирование текстового файла

In [None]:
old_name = 'testfile.txt'
new_name = 'new_testfile.txt'

with open(old_name) as old, open(new_name, 'w') as new:
    for line in old:
        new.write(line)

In [None]:
!cat new_testfile.txt

Hello, world!
This is a test file.


## Файлы с разными кодировками

In [None]:
with open('unicode_file.txt', 'w', encoding='utf-16le') as f:
    f.write('韩国烧酒')

In [None]:
with open('unicode_file.txt', 'r', encoding='utf-16le') as f:
    print(f.read())

韩国烧酒


In [None]:
# при некорректно указанной категории вылезет ошибка

with open('unicode_file.txt', 'r') as f:
    print(f.read())

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 0-1: invalid continuation byte

# Работа с путями в Python. Библиотека Pathlib

При работе с файлами часто приходится открывать файлы, находящиеся не в одной директории с исполняемой программой. Поэтому важно иметь возможность корректно указать путь до необходимого файла.

Плохим вариантом будет относиться к путям как строкам:

```python
data_folder = "source_data/text_files/"
file_to_open = data_folder + "raw_data.txt"
f = open(file_to_open)
print(f.read())
```

Такой код может не сработать для некоторых библиотек на некоторых ОС.

Более хороший вариант - использовать модуль `os.path`:

```python
import os.path

data_folder = os.path.join("source_data", "text_files")
file_to_open = os.path.join(data_folder, "raw_data.txt")
f = open(file_to_open)
print(f.read())
```

Этот код корректно сработает на всех ОС, но использовать его очень больно.

На текущий момент лучшее решение - модуль [`pathlib`](https://docs.python.org/3/library/pathlib.html) и его класс `Path`:

In [None]:
from pathlib import Path
type(Path)

type

In [None]:
# Path() возвращает текущую директорию

p = Path()
p, print(p)

.


(PosixPath('.'), None)

In [None]:
type(p)

pathlib.PosixPath

In [None]:
# метод resolve приводит путь к каноническому виду

p = Path('.././/book')
p = p.resolve()
p

PosixPath('/book')

In [None]:
# метод cwd возвращает текущую директорию (current working directory)

Path.cwd()

PosixPath('/content')

In [None]:
# метод iterdir позволяет посмотреть все файлы в директории (проитерироваться по ней):

p = Path('./sample_data')

for f in p.iterdir():
    print(f)

sample_data/anscombe.json
sample_data/README.md
sample_data/mnist_test.csv
sample_data/california_housing_test.csv
sample_data/mnist_train_small.csv
sample_data/california_housing_train.csv


In [None]:
type(p.iterdir())

generator

Если `p` - путь к директории, то `p/'fname'` - путь к файлу (или директории) `fname` в ней

In [None]:
%%bash
mkdir sample_data/dir1
mkdir sample_data/dir2
mkdir sample_data/dir3/
mkdir sample_data/dir3/subdir3

In [None]:
p

PosixPath('sample_data')

In [None]:
d = Path('dir3')
p2 = p / d
p2

PosixPath('sample_data/dir3')

In [None]:
p2.exists()

True

In [None]:
# методы определить, что находится по этому пути (файл, папка или символьная ссылка):

p2.is_file(), p2.is_dir(), p2.is_symlink()

(False, True, False)

In [None]:
# метод parts разбирает путь на отдельные составляющие

Path('/content/sample_data/mnist_test.csv').parts

('/', 'content', 'sample_data', 'mnist_test.csv')

In [None]:
# методом absolute получается абсолютный путь

print(p2.absolute().parts, p2)

('/', 'content', 'sample_data', 'dir3') sample_data/dir3


In [None]:
# метод parent - узнать родительскую директорию

p2.parent, p2.parent.parent

(PosixPath('sample_data'), PosixPath('.'))

In [None]:
# узнать из названия файла его имя и расширение

p2 = Path('/content/sample_data/mnist_test.csv')
p2.name, p2.stem, p2.suffix

('mnist_test.csv', 'mnist_test', '.csv')

In [None]:
# методо rglob находит в папке все файлы по заданной маске

for item in p.rglob("*.csv"):
    print(item)