### Escape-последовательности

`\n` &mdash; новая строка  
`\r` &mdash; возврат каретки  
`\t` &mdash; табуляция  

Вместе с пробелом (`' '`) они составляют пробельные символы.

`\\` &mdash; обратный слэш

In [1]:
print("a\nb\tc")

a
b	c


### Методы для работы со строками

Python поддерживает ряд методов для работы со строками. Так как строки неизменяемы, методы возвращают новые строки, а старые остаются без изменений.

Вспомним, что чтобы вызвать метод, нужно после переменной, указывающей на строку, поставить точку (без пробелов) и написать имя нужного метода с круглыми скобками, в которых нужно перечислтить аргументы, если они есть.

Метод `.split()` позволяет разбить строку на подстроки по какому-нибудь символу-разделителю. Он возвращает список строк. По умолчанию разделитель &ndash; любая последовательность пробельных символов.

In [2]:
a = "1, 2, 3\t4"
a = a.split()
print(a)

['1,', '2,', '3', '4']


In [3]:
a = "1, 2, 3\t   4"
a = a.split()
print(a)

['1,', '2,', '3', '4']


In [4]:
a = "1, 2, 3"
a = a.split(", ")
print(a)

['1', '2', '3']


In [1]:
a = "1-2-3"
a = a.split("-")
print(a)

['1', '2', '3']


Параметр `maxsplit` позволяет указать максимальное количество разбиений.

In [5]:
a = "1, 2, 3"
a = a.split(", ", maxsplit=1)
print(a)

['1', '2, 3']


Если мы хотим отсчитывать разбиения справа, используем метод `.rsplit()`.

In [6]:
a = "1, 2, 3"
a = a.rsplit(", ", maxsplit=1)
print(a)

['1, 2', '3']


Метод `.strip()` позволяет обрезать пробельные символы по краям строки. `.lstrip()` делает это только слева, `.rstrip()` &ndash; только справа.

In [7]:
a = "   a\t"
print([a.strip(), a.rstrip(), a.lstrip()])

['a', '   a', 'a\t']


#### Контрольный вопрос

Дан список строк, в каждой из которых содержится следующая информация: имя студента, курс и тема курсовой через запятую. При этом тема курсовой может содержать запятые. Постройте список, в котором каждый элемент &ndash; список из этих трёх элементов: `["Имя", "Курс", "Тема"]`. Используйте `.split()`.

In [2]:
data = [
    "Петр Иванов, 2, Культура, литература и религия Британских островов",
    "Василий Сидоров, 3, Популярная культура как измерение постпостмодернизма: феноменология, теория, критика",
    "Анна Петрова, 3, Выражение иронии в речи, жестах и мимике",
    "Валерия Смирнова, 2, Региональные варианты русской интонации",
]

<details>
<summary>Ответ</summary>
<pre>
data_split = []
for row in data:
    row = row.split(", ", maxsplit=2)
    data_split.append(row)
print(data_split)
</pre>
</details>

Метод `.join()` позволяет объединить список строк (или любой другой итерируемый объект, например, строку) с некоторой строкой как разделителем.

In [8]:
a = ["1", "2", "3"]
print("-".join(a))

1-2-3


In [None]:
a = "123"
print("-".join(a))

1-2-3


Если разделитель не нужен, укажем в качестве него пустую строку.

In [None]:
a = ["1", "2", "3"]
print("".join(a))

1 2 3


#### Контрольный вопрос

Дан список слов. Постройте новый список, где между буквами слов будут знаки `+`. Используйте метод `.join()`.

In [3]:
words = ["собака", "арба", "карандаш", "мама", "стол"]

<details>
<summary>Ответ:</summary>
<pre>
newwords = ["+".join(w) for w in words]
print(newwords)
</pre>
</details>

Метод `.replace()` позволяет заменить заданные подстроки в строке на что-то другое.

In [10]:
a = "1_2_3_4_5"
print(a.replace("_", "+"))

1+2+3+4+5


In [11]:
a = "1_2_3_4_5"
print(a.replace("_", ""))

12345


#### Контрольный вопрос

Дан список слов. Замените в каждом слове все гласные буквы на нижнее подчёркивание `_`.

In [4]:
words = [
    "собака", "арба", "карандаш", "мама", "стол",
    "парашют", "ананас", "табурет", "старатель"
]


<details>
<summary>Ответ:</summary>
<pre>
newwords = []
vowels = "аяоёуюыиэе"
for word in words:
    for v in vowels:
        word = word.replace(v, "_")
        # обратите внимание, что внутренний цикл нужен!
        # мы перебираем все гласные и по очереди каждую заменяем на _
    newwords.append(word)
print(newwords)
</pre>
</details>

Метод `.startswith()` позволяет определить, начинается ли строка с заданной подстроки (`True`) или нет (`False`). `.endswith()` &ndash; то же самое для конца строки.

In [12]:
a = "this is a test"
print(a.endswith("est"))

True


#### Контрольный вопрос

Дан список слов. Постройте новый список слов, где будут только слова, начинающиеся на "аб". Выведите на экран все эти слова через дефис.

In [5]:
words = ["абрикос", "арба", "алтын", "абак", "аббатство", "аркан"]


<details>
<summary>Ответ:</summary>
<pre>
ab_words = [w for w in words if w.startswith("аб")]
print(ab_words)
</pre>
</details>

Методы `.upper()`, `.lower()` и `.capitalize()` управляют регистром строки.

In [13]:
a = "tHiS iS a TeSt"
print(a.upper())
print(a.lower())
print(a.capitalize())

THIS IS A TEST
this is a test
This is a test


С полным списком строковых методов можно ознакомиться в [документации](https://docs.python.org/3/library/stdtypes.html#string-methods).

### Особые типы строк

"Сырые" строки (r-строки) не учитывают escape-последовательности.

In [14]:
a = "a\tb"
b = r"a\tb"
print(a)
print(b)

a	b
a\tb


Форматные строки (f-строки) позволяют вставлять в строку значения переменных.

In [15]:
a = 4
b = "1"
c = f"some value: {a},  another value: {b}"
print(c)

some value: 4,  another value: 1


С названиями переменных:

In [16]:
c = f"some value: {a=},  another value: {b=}"
print(c)

some value: a=4,  another value: b='1'


Если хотим "добить" нулями до определённой длины:

In [17]:
x = 11
print(f"{x:04d}")

0011


#### Контрольный вопрос

Напишите программу, которая принимает на вход два целых числа (от 0 до 23 и от 0 до 59) и выводит на экран время в формате `HH:mm`.

<details>
<summary>Ответ:</summary>
<pre>
h = int(input())
m = int(input())
if not (0 <= h <= 23 or 0 <= m <= 59):
    print("Invalid time!")
else:
    print(f"{h:02d}:{m:02d}")
</pre>

</details>

Если нужна определённая точность:

In [18]:
y = 11.123123123123
print(f"{y:.4f}")

11.1231


Полную спецификацию можно посмотреть в [документации](https://docs.python.org/3/library/string.html#format-specification-mini-language).

Многострочные строки:

In [19]:
text = """Line 1
Line 2
Line 3
Line 4"""
print(text)

Line 1
Line 2
Line 3
Line 4


В таких строках часто оформляют документацию (т.н. doc-строки). Обратите внимание, что это не комментарии!

### Работа с текстовыми файлами

Python обладает удобным интерфейсом, позволяющим считывать данные из текстовых файлов и записывать в них новые. Обычно у таких файлов расширение .txt, но оно на самом деле может быть любым. Такие файлы можно открыть в программе &laquo;Блокнот&raquo; или прямо в редакторе исходного кода.

Чтобы работать с файлом, его нужно открыть. Для этого есть функция `open()`. В неё передаётся два аргумента:
* имя файла (или путь к нему) в виде строки &mdash; полностью, вместе с расширением
* специальная строка, которая показывает, в каком режиме будет открыт файл: `"r"` &mdash; режим чтения, `"w"` &mdash; режим записи, `"a"` &mdash; режим дописывания в конец существующего файла.
* третий (опциональный аргумент) &mdash; `encoding`, в который передадим название кодировки

Функция возвращает специальный объект, через который можно получать доступ к файлу с помощью специальных методов.

1. Чтение

Файл будет читаться из текущей директории! Если такого файла нет, возникнет ошибка.

Скачаем тестовый файл (обратите внимание, что это консольная команда, которая не будет работать в файле .py).

In [None]:
!wget https://phonetics-spbu.github.io/courses/python_genling_bac/files/test.txt

In [None]:
f = open("test.txt", "r", encoding="utf-8")
text = f.read()  # считываем весь текст одной строкой
f.close()  # закроем файл
print(text)

Был тихий серый вечер.
Дул ветер, слабый и тёплый.
Небо было покрыто тучами, сквозь которые иногда прорывались лучи заходящего солнца.



In [None]:
f = open("test.txt", "r", encoding="utf-8")
lines = f.readlines()  # считываем весь текст построчно, получаем список строк
f.close()
print(lines)

['Был тихий серый вечер.\n', 'Дул ветер, слабый и тёплый.\n', 'Небо было покрыто тучами, сквозь которые иногда прорывались лучи заходящего солнца.\n']


Принято использовать т.н. context manager, чтобы файл закрывался автоматически:

In [None]:
with open("test.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
print(lines)

2. Запись

Если файла с таким названием не существует, он будет создан. Существующий файл будет перезаписан.

In [None]:
with open("test_out.txt", "w", encoding="utf-8") as f:
    f.write("test")

3. Добавление в существующий файл

Если файла с таким названием не существует, он будет создан.

In [None]:
with open("test_out.txt", "a", encoding="utf-8") as f:
    f.write("test")

Также можно задать путь к файлу, относительный или абсолютный.

Таким образом: чтобы работать с файлом, либо поместите его в ту же директорию, где лежит ваш код, либо пропишите перед именем файла его полный путь (можно посмотреть в Проводнике в меню &laquo;Свойства&raquo;).

Путь можно задать с помощью прямых слешей:

In [None]:
with open("C:/users/user/downloads/test.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
print(lines)

Или, на Windows, с помощью обратных (обратите внимание, что во втором случае используется r-строка!):

In [None]:
with open("C:\\users\\user\\downloads\\test.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
print(lines)

In [None]:
with open(r"C:\users\user\downloads\test.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
print(lines)

### Практические задания

#### Задание 1

а) Дан список слов. Создайте новый список, где все буквы "а" будут заменены на "ы".

In [7]:
words = ["абрикос", "арба", "алтын", "абак", "аббатство", "аркан"]



б) Дан текст. Сделайте так, чтобы после каждой точки был перевод строки.

In [6]:
text = "Text text.Text text text.Text.Text text text"


#### Задание 2

Откройте файл *test.txt* и прочитайте из него текст. Уберите из него запятые и точки с помощью `.replace()`, приведите к нижнему регистру и создайте список всех слов, которые начинаются на букву "т". Выведите на экран все эти слова через нижнее подчёркнивание.