# Строки и коллекции: list, tuple, dict, set

## Строки

### Основы строк

*   Строки в Python - упорядоченные последовательности символов, используемые для хранения и представления текстовой информации, поэтому с помощью строк можно работать со всем, что может быть представлено в текстовой форме

*   Строки — неизменяемые последовательности символов!

In [41]:
string1 = "hello" # создание через ""
string2 = 'world' # создание через ''

# создание через ''' '''
text = '''Hello world 
next string
new and new
'''

print(string1 + string2)
print(text)

helloworld
Hello world 
next string
new and new



Операции со строками

In [42]:
print('hello' + ' ' + 'world') # соединяет строки, конкатенация
print('hello ' * 5) # дублирурет строку
print(len('hello')) # длина строки

hello world
hello hello hello hello hello 
5


In [43]:
print('ell' in 'hello') # проверка на наличие подстроки
print('Hello' == 'hello') # сравнение строк
print('кот' > 'кит') # сравнения по кодам символов
print(ord('а')) #узнать код символа по кодировке

True
False
True
1072


На данный момент в Python везде unicode, однака база это ASCII. Про обе можно найти кодировки на вики

Удобный способ работы со строками - срезы (slicing) `[start:end:step]`

In [44]:
s = '123456789'

# Индексы
print(s[0], s[-1])
print(s[4])

1 9
5


In [45]:
s = '123456789'

# Срезы (slicing)
print(s[:]) # вся строка
print(s[2:], s[:2]) #с 2 и до 2
print(s[-4:-1]) # c -4 Элемента до -1
print(s[2:4]) # c 2 по 4 элементы
print(s[::-1]) # все элементы с шагом -1, получаем перевернутую строку
print(s[2:6:2]) # с 2 по 6 число с шагом 2
print(s[-4::-1]) #c -4 индекса до начала, т.к шаг -1

123456789
3456789 12
678
34
987654321
35
654321


Внутри строкового литерала могут быть использованы *управляющие последовательности* (это только основные)

| Последовательность |       Описание      |
|:------------------:|:-------------------:|
|         `\\`         | Обратный слеш (`\`) |
|         `\'`         |       Апостроф      |
|         `\"`         |       Кавычка       |
|         `\t`         |   Символ табуляции  |
|         `\n`         |    Перевод строки   |

**Префикс «r»**  
"Сырые" строки - подавляют экранирование!  

Форматирование строк:

- f - строка

- str.format

- %

In [46]:
var = 12.123

# value:{width}.{precision}
print(f"result is {var:10.1f}")

print("result is {res:10.1f}".format(res = var)) 

print("result is %10.1f" % (var)) 

result is       12.1
result is       12.1
result is       12.1


### Встроенные функции и методы строк

Также весь список методов с примерами https://pyhub.ru/python/lecture-5-10-23/

| Метод                 | Описание |
|----------------------|----------|
| `capitalize()`       | Делает первую букву заглавной, остальные — строчными. |
| `casefold()`         | Более агрессивная версия `lower()`, используется для сравнения без учёта регистра. |
| `center(width)`      | Возвращает строку, выровненную по центру в строке длины `width`. |
| `count(sub)`         | Возвращает количество вхождений подстроки `sub`. |
| `encode()`           | Кодирует строку в байты (по умолчанию UTF-8). |
| `endswith(suffix)`   | Проверяет, заканчивается ли строка на `suffix`. |
| `expandtabs(tabsize)`| Заменяет табуляции `\t` на пробелы (по умолчанию 8). |
| `find(sub)`          | Возвращает индекс первого вхождения `sub`, либо `-1`. |
| `format()`           | Форматирует строку с использованием подстановок `{}`. |
| `format_map(dict)`   | Как `format()`, но принимает только словарь. |
| `index(sub)`         | Как `find()`, но вызывает `ValueError`, если нет вхождения. |
| `isalnum()`          | True, если строка состоит только из букв и цифр. |
| `isalpha()`          | True, если строка состоит только из букв. |
| `isascii()`          | True, если все символы — ASCII. |
| `isdecimal()`        | True, если строка содержит только десятичные цифры. |
| `isdigit()`          | True, если строка состоит из цифр. |
| `isidentifier()`     | True, если строка — допустимый идентификатор Python. |
| `islower()`          | True, если все буквы — строчные. |
| `isnumeric()`        | True, если строка состоит из чисел (включая, например, римские цифры). |
| `isprintable()`      | True, если все символы можно напечатать. |
| `isspace()`          | True, если строка состоит только из пробельных символов. |
| `istitle()`          | True, если строка в "title case" — Первая Буква Каждого Слова Заглавная. |
| `isupper()`          | True, если все буквы — заглавные. |
| `join(iterable)`     | Соединяет элементы `iterable` в строку с разделителем — текущей строкой. |
| `ljust(width)`       | Выравнивает строку по левому краю в поле ширины `width`. |
| `lower()`            | Переводит все буквы в нижний регистр. |
| `lstrip()`           | Удаляет пробелы (или заданные символы) слева. |
| `maketrans()`        | Возвращает таблицу преобразования символов для `translate()`. |
| `partition(sep)`     | Разделяет строку на три части: до `sep`, `sep`, после. |
| `removeprefix(p)`    | Удаляет префикс `p`, если он есть. (Python 3.9+) |
| `removesuffix(s)`    | Удаляет суффикс `s`, если он есть. (Python 3.9+) |
| `replace(old, new)`  | Заменяет `old` на `new`. |
| `rfind(sub)`         | Последнее вхождение подстроки или `-1`. |
| `rindex(sub)`        | Как `rfind()`, но вызывает ошибку, если не найдено. |
| `rjust(width)`       | Выравнивает строку по правому краю. |
| `rpartition(sep)`    | Разделяет строку по последнему вхождению `sep`. |
| `rsplit(sep)`        | Разбивает строку справа налево. |
| `rstrip()`           | Удаляет пробелы (или заданные символы) справа. |
| `split(sep)`         | Разбивает строку по разделителю `sep` (по умолчанию — по пробелам). |
| `splitlines()`       | Разбивает строку по строкам (`\n`, `\r\n` и т.д.). |
| `startswith(prefix)` | Проверяет, начинается ли строка с `prefix`. |
| `strip()`            | Удаляет пробелы слева и справа (или заданные символы). |
| `swapcase()`         | Меняет регистр: заглавные → строчные и наоборот. |
| `title()`            | Делает каждое слово с заглавной буквы. |
| `translate(table)`   | Заменяет символы согласно таблице `table` из `maketrans()`. |
| `upper()`            | Переводит все буквы в верхний регистр. |
| `zfill(width)`       | Дополняет строку нулями слева до длины `width`. |


In [47]:
s1 = '      heLLo    '

print(s1.strip())
print(s1.upper())
print(s1.lower())
print(s1.capitalize())

# В общем очень много методов под капотом

heLLo
      HELLO    
      hello    
      hello    


In [48]:
s = "   Hello, I love python  "
s = s.strip().title().replace(',', '').split() #слева на право
print(s)

full = ' / '.join(s)
print(full)

['Hello', 'I', 'Love', 'Python']
Hello / I / Love / Python


### Регулярные варажение

Здесь только супер база, больше описал в NLP

Регулярные выражения (их еще называют регулярки, regexp или regex) — это мощный механизм для поиска и замены текста.

Регулярные выражения ‒ выражения, последовательности символов, которые позволяют искать совпадения в тексте. Выражаясь более формально, они помогают найти подстроки определенного вида в строке.

Статьи по регулярным выражениям:

- https://habr.com/ru/articles/349860/

- https://habr.com/ru/articles/545150/

Основые задачи, которые решают регулярные выражения

*   поиск в строке
*   разбиение строки на подстроки
*   замена части строки
*   валидация

Сайт для проверки регулярок - https://regex101.com/

**Таблица символов и конструкций регулярных выражений в Python**

| Синтаксис        | Назначение |
|------------------|------------|
| `.`              | Любой символ, кроме новой строки (`\n`) |
| `^`              | Начало строки |
| `$`              | Конец строки |
| `*`              | 0 или более повторений |
| `+`              | 1 или более повторений |
| `?`              | 0 или 1 повторение |
| `{n}`            | Ровно `n` повторений |
| `{n,}`           | `n` или более повторений |
| `{n,m}`          | От `n` до `m` повторений |
| `[...]`          | Один из символов внутри скобок |
| `[^...]`         | Любой символ, кроме указанных |
| `Вертикальная черта`| Альтернатива (ИЛИ) |
| `(...)`          | Группа для захвата .group()|
| `(?:...)`        | Группа без захвата просто для порядка операций|
| `\`              | Экранирование специального символа |



**Специальные последовательности**

| Синтаксис | Значение |
|-----------|----------|
| `\d`      | Цифра `[0-9]` |
| `\D`      | Не цифра |
| `\w`      | Словесный символ: `[a-zA-Z0-9_]` |
| `\W`      | Не словесный символ |
| `\s`      | Пробельный символ (включает `\t`, `\n` и т.д.) |
| `\S`      | Не пробельный символ |
| `\b`      | Граница слова |
| `\B`      | Не граница слова |
| `\A`      | Начало всей строки |
| `\Z`      | Конец всей строки |
| `\n`, `\t` и т.п. | Стандартные escape-последовательности |

In [49]:
# библиотека регулярных выражений в Python
import re

In [50]:
text = ['1235', '2145', '123-456-7890', '987-654-3210']
pattern = r"\d{3}-\d{3}-\d{4}"

# Функция match проверяет совпадение
for str in text:
    match = re.match(pattern, str)
    if match:
        print(match.group())

123-456-7890
987-654-3210


In [51]:
text = "My phone numbers are 123-456-7890 and 987-654-3210."

# Это ищет строки формата: XXX-XXX-XXXX
pattern = r"\d{3}-\d{3}-\d{4}"

# Ищет первое совпадение в строке
search = re.search(pattern, text)
print(search.group())

123-456-7890


In [52]:
# Возвращает все совпадения как список строк (без объектов Match)
all_numbers = re.findall(pattern, text)
print(all_numbers)

['123-456-7890', '987-654-3210']


In [53]:
# То же, что findall(), но возвращает итератор объектов Match — удобно, если нужны позиции.
for match in re.finditer(pattern, text):
    print(f"Найдено: {match.group()} на позиции {match.start()}–{match.end()}")

Найдено: 123-456-7890 на позиции 21–33
Найдено: 987-654-3210 на позиции 38–50


In [54]:
# Сравнивает шаблон с всей строкой полностью.
text = "123-456-7890"
full = re.fullmatch(pattern, text)
print(full.group())

text = "v.a.asadchiy@gmail.com"
pattern = r'[\w._]+@[\w._]+.[\w._]{2,5}'

match = re.fullmatch(pattern, text)
if match:
    print(match.group())

123-456-7890
v.a.asadchiy@gmail.com


`re.split(pattern, string, maxsplit=0)`	Аналог `str.split()`, только разделение происходит по подстрокам, подходящим под шаблон pattern;

`re.sub(pattern, repl, string, count=0)`	заменяет в строке `string` все непересекающиеся шаблоны `pattern` на `repl`

`re.compile` компелирует регулярное выражение в отдельный объект

## Коллекции

### Списки (list)

Список - упорядоченная коллекция данных (упорядоченная значит имеет индекс); изменяемый тип данных

In [55]:
arr = [1, 'hello', 245.24, True, [1, 2]]
print(arr)

a = list([1,2,3,4,5,6])
print(a)

b = list('python') # Строит список из итерируемых объектов
print(b)

c = list()
print(c)

[1, 'hello', 245.24, True, [1, 2]]
[1, 2, 3, 4, 5, 6]
['p', 'y', 't', 'h', 'o', 'n']
[]


Функции применимые к спискам

| Функция |       Описание      |
|:------------------:|:-------------------:|
|         `len()`         | Длина |
|         `max()`         |       Максимальный элемент      |
|         `min()`         |       Минимальный элемент       |
|         `sum()`         |   Сумма  |
|         `sorted()`         |    Сортировка   | 

Методы списка

| Метод |       Описание      |
|:------------------:|:-------------------:|
|         `+`         | Соединение двух списков |
|         `*`         |       Дублирование списка      |
|         `in`         |       Проверка вхождения элемента в список       |
|         `del()`         |   Удаляет по индексу или срезу  |
|         `append()`         |   Добавить в конец  |
|         `insert()`         |   Добавить в индекс  |
|         `remove()`         |   Удалить по значению  |
|         `pop()`         |   Удалить последний или по индексу  |
|         `clear()`         |   Отчищает массив  |
|         `copy()`         |   Возвращает копию списка;  |
|         `count()`         |   Возвращает количество вхождений  |
|         `index()`         |   Возвращает индекс первого вхождения  |
|         `reverse()`         |   Разворачивает список на месте  |
|         `sort()`         |   Сортирует список на месте, возвращает None  |

Также работают срезы как и со строками
Сравнения через `==` `>` `>=` `<` `<=`

In [56]:
arr = [4,12,51,19,51,5,2,1]
arr = sorted(arr, reverse = False) # Прежний список не меняется
arr.sort(reverse = False) # Прежний список меняется

arr += [0,0,0,0,0]
del arr[0:2]
print(arr)

[4, 5, 12, 19, 51, 51, 0, 0, 0, 0, 0]


### Словарь (dict)

Ключ - значение:

house -> дом  
car -> машина  
tree -> дерево  
road -> дорога  
river -> река

Ключи могут быть любыми неизменяемыми объектами (включая числа, кортежи и даже frozenset).  

Словарь изменяемый тип данных. Ключи словаря должны быть уникальными и неизменяемыми (если ключ не уникален, то соответсвие будет последний ключ)

In [57]:
d = dict()

d = {}

d = {"house": "дом", "car": "машина",
     "tree": "дерево", "road": "дорога",
     "river": "река"}

print(d["house"])

дом


In [58]:
# Здесь ключи преобразовываются в строки и должны определяться как и имена переменных. Например, использовать числа уже не получится
d2 = dict(one = 1, two = 2, three = "3", four = "4")
print(d2)

{'one': 1, 'two': 2, 'three': '3', 'four': '4'}


Можно создать словарь из списка специального вида

In [59]:
lst = [[2, "неудовлетворительно"], [3, "удовлетворительно"], [4, "хорошо"], [5, "отлично"]]
d3 = dict(lst)
print(d3)

{2: 'неудовлетворительно', 3: 'удовлетворительно', 4: 'хорошо', 5: 'отлично'}


Операторы и функции работы со словарем

In [60]:
print(len(d3)) # Длина

del d3[2] # Удаление по ключю

4


In [61]:
# Формирует словарь с ключами, указанными в списке и некоторым значением
a = dict.fromkeys(["+7", "+6", "+5", "+4"])
print(a)

a = dict.fromkeys(["+7", "+6", "+5", "+4"], "код страны")
print(a)

d1 = d.copy() # Копирует

d.clear() # Отчищает

{'+7': None, '+6': None, '+5': None, '+4': None}
{'+7': 'код страны', '+6': 'код страны', '+5': 'код страны', '+4': 'код страны'}


In [62]:
d = {"house": "дом", "car": "машина",
     "tree": "дерево", "road": "дорога",
     "river": "река"}

print(d.get("house")) # Возвращает None при отсутствии, а не ошибку

дом


`dict.setdefault(key, default)` - возвращает значение, ассоциированное с ключом key и если его нет, то добавляет в словарь со значением None, либо default

In [63]:
del d["house"]
print(d.setdefault("house", 100))
print(d)

100
{'car': 'машина', 'tree': 'дерево', 'road': 'дорога', 'river': 'река', 'house': 100}


`d.pop(key, default)` - удаляет указанный ключ и возвращает его значение, если ключа нет вернется default

`d.keys()` - возвращает коллекцию ключей  
`d.values()` - возвращает коллекцию значений  
`d.items` - возвращает записи в виде кортежей: ключ, значение  

In [64]:
d = {"a": 1, "b": 2, "c": 3}

for i in d.keys():
    print(i)

for i in d.values():
    print(i)

for i, val in d.items():
    print(i, val)

a
b
c
1
2
3
a 1
b 2
c 3


Метод `update` - позволяет обновлять словарь содержимым другого словаря. То есть словарь получает те ключи, которых не было, а ключи которые есть и во втором словаре, их значения обновляются.

In [65]:
d = dict(one = "1", two = "2", three = "3", four = "4")
d2 = {2: "неудовлетворительно", 3: "удовлетворительно", 'four': "хорошо", 5: "отлично"}

d.update(d2)
print(d)

{'one': '1', 'two': '2', 'three': '3', 'four': 'хорошо', 2: 'неудовлетворительно', 3: 'удовлетворительно', 5: 'отлично'}


Если же нам нужно создать новый словарь, который бы объединял содержимое обоих, то для этого можно воспользоваться конструкцией:

In [66]:
d3 = {**d, **d2}
print(d3)

{'one': '1', 'two': '2', 'three': '3', 'four': 'хорошо', 2: 'неудовлетворительно', 3: 'удовлетворительно', 5: 'отлично'}


### Кортежи (tuple)

Это упорядоченная, но неизменяемая коллекция произвольных данных. Они, в целом, аналогичны спискам, но в отличие от них, элементы кортежей менять нельзя – это неизменяемый тип данных.  

Обладают тем же функционалом что и списки, но являются неизменяемыми, следоватльно могут быть ключами словаря и занимают меньше места

In [67]:
a = (1, 2, 3)

x, y, z = a
print(x,y,z)

b = tuple()
b = b + (3,) # Кортежи нельзя изменять напрямую, но можно создать новый кортеж на основе старого, как мы делали с переменными
print(b)


1 2 3
(3,)


### Множества (set)

Формально, множество (set) – это неупорядоченная коллекция уникальных элементов. Уникальных, то есть, в ней отсутствуют дублирующие значения.

Во множество мы можем записывать только неизменяемые данные. Само множество изменяемый тип данных.

In [68]:
a = {1,2,'hello',1,2}
print(a, type(a))

b = set()

{1, 2, 'hello'} <class 'set'>


Мы не можем обращаться в множестве по индексам, но можем пройтись через цикл, ведь это итерируемый объект

In [69]:
a = set([1,2,3,4,5])
for i in a:
    print(i)

1
2
3
4
5


frozenset() - множество, но уже неизменяемое

In [70]:
a = frozenset([1,1,1,2,2,2,3,3,3])
print(a)

try:
    a.add(4)
except:
    print("Нельзя!!!")

frozenset({1, 2, 3})
Нельзя!!!


Метода множества:

- `add()` добавление элемента

- `update()` добавление нескольких элементов, передаем перебираемый объект

- `discard()` удаление по значению (не вызывает ошибку при отсутствии элемента)

- `remove()` удаление по значению

- `clear()` чистит множество

Существует глубокое копирование из библиотеки copy - копируется всё, включая вложенные объекты — создаётся полная независимая копия.

Операции над множествами:

- пересечение множеств;

- объединение множеств;

- вычитание множеств;

- вычисление симметричной разности.

In [71]:
setA = {1, 2, 3, 4}
setB = {3, 4, 5, 6, 7}

# Пересечение
print(setA & setB)
print(setA.intersection(setB))
setA.intersection_update(setB)
print(setA)

{3, 4}
{3, 4}
{3, 4}


In [72]:
setA = {1, 2, 3, 4}
setB = {3, 4, 5, 6, 7}

# Объединение
print(setA | setB)
print(setA.union(setB))

{1, 2, 3, 4, 5, 6, 7}
{1, 2, 3, 4, 5, 6, 7}


In [73]:
setA = {1,2,3,4}
setB = {3,4,5,6,7}

# Вычитаение множеств
print(setA - setB)

# Симметричная разность
print(setA ^ setB)

{1, 2}
{1, 2, 5, 6, 7}


In [74]:
setA = {1,2}
setB = {1,2,3,4,5,6}
print(setA < setB) # множество А входит в множество В

True


### Генераторы множеств и генераторы словарей

In [75]:
# Множество
a = {x ** 2 for x in range(1, 5)}
print(a)

# Словарь
a = {x: x ** 2 for x in range(1,5)}
print(a)

m = {"неудовл.": 2, "удовл.": 3, "хорошо": '4', "отлично": '5'}
a = {key.upper(): int(value) for key, value in m.items()}
print(a)

{16, 1, 4, 9}
{1: 1, 2: 4, 3: 9, 4: 16}
{'НЕУДОВЛ.': 2, 'УДОВЛ.': 3, 'ХОРОШО': 4, 'ОТЛИЧНО': 5}
