# Строки и коллекции: list, tuple, dict, set

## Строки

### Основы строк

*   Строки в Python - упорядоченные последовательности символов, используемые для хранения и представления текстовой информации, поэтому с помощью строк можно работать со всем, что может быть представлено в текстовой форме
*   Строки — неизменяемые последовательности символов!

In [48]:
string1 = "hello" # создание через ""
string2 = 'world' # создание через ''

# создание через ''' '''
text = '''Hello world 
next string
new and new
'''

print(string1 + string2)
print(text)

helloworld
Hello world 
next string
new and new



Операции со строками

In [49]:
print('hello' + ' ' + 'world') # соединяет строки, конкатенация
print('hello ' * 5) # дублирурет строку
print(len('hello')) # длина строки

hello world
hello hello hello hello hello 
5


In [50]:
print('ell' in 'hello') # проверка на наличие подстроки
print('Hello' == 'hello') # сравнение строк
print('кот' > 'кит') # сравнения по кодам символов
print(ord('а')) #узнать код символа по кодировке

True
False
True
1072


На данный момент в Python везде unicode, однака база это ASCII. Про обе можно найти кодировки на вики

Удобный способ работы со строками - срезы (slicing) `[start:end:step]`

In [51]:
s = '123456789'

print(s[0], s[-1])
print(s[4])

1 9
5


In [52]:
s = '123456789'

print(s[:]) # вся строка
print(s[2:], s[:2]) #с 2 и до 2
print(s[-4:-1]) # c -4 Элемента до -1
print(s[2:4]) # c 2 по 4 элементы
print(s[::-1]) # все элементы с шагом -1, получаем перевернутую строку
print(s[2:6:2]) # с 2 по 6 число с шагом 2
print(s[-4::-1]) #c -4 индекса до начала, т.к шаг -1

123456789
3456789 12
678
34
987654321
35
654321


Внутри строкового литерала могут быть использованы *управляющие последовательности*

| Последовательность |       Описание      |
|:------------------:|:-------------------:|
|         `\\`         | Обратный слеш (`\`) |
|         `\'`         |       Апостроф      |
|         `\"`         |       Кавычка       |
|         `\t`         |   Символ табуляции  |
|         `\n`         |    Перевод строки   |

**Префикс «r»**  
"Сырые" строки - подавляют экранирование!  

Форматирование строк:

- f - строка

- str.format

- %

In [53]:
var = 12.123

# value:{width}.{precision}
print(f"result is {var:10.1f}")

print("result is {res:10.1f}".format(res = var)) 

print("result is %10.1f" % (var)) 

result is       12.1
result is       12.1
result is       12.1


### Встроенные функции и методы строк

Также весь список методов с примерами https://pyhub.ru/python/lecture-5-10-23/

| Метод                 | Описание |
|----------------------|----------|
| `capitalize()`       | Делает первую букву заглавной, остальные — строчными. |
| `casefold()`         | Более агрессивная версия `lower()`, используется для сравнения без учёта регистра. |
| `center(width)`      | Возвращает строку, выровненную по центру в строке длины `width`. |
| `count(sub)`         | Возвращает количество вхождений подстроки `sub`. |
| `encode()`           | Кодирует строку в байты (по умолчанию UTF-8). |
| `endswith(suffix)`   | Проверяет, заканчивается ли строка на `suffix`. |
| `expandtabs(tabsize)`| Заменяет табуляции `\t` на пробелы (по умолчанию 8). |
| `find(sub)`          | Возвращает индекс первого вхождения `sub`, либо `-1`. |
| `format()`           | Форматирует строку с использованием подстановок `{}`. |
| `format_map(dict)`   | Как `format()`, но принимает только словарь. |
| `index(sub)`         | Как `find()`, но вызывает `ValueError`, если нет вхождения. |
| `isalnum()`          | True, если строка состоит только из букв и цифр. |
| `isalpha()`          | True, если строка состоит только из букв. |
| `isascii()`          | True, если все символы — ASCII. |
| `isdecimal()`        | True, если строка содержит только десятичные цифры. |
| `isdigit()`          | True, если строка состоит из цифр. |
| `isidentifier()`     | True, если строка — допустимый идентификатор Python. |
| `islower()`          | True, если все буквы — строчные. |
| `isnumeric()`        | True, если строка состоит из чисел (включая, например, римские цифры). |
| `isprintable()`      | True, если все символы можно напечатать. |
| `isspace()`          | True, если строка состоит только из пробельных символов. |
| `istitle()`          | True, если строка в "title case" — Первая Буква Каждого Слова Заглавная. |
| `isupper()`          | True, если все буквы — заглавные. |
| `join(iterable)`     | Соединяет элементы `iterable` в строку с разделителем — текущей строкой. |
| `ljust(width)`       | Выравнивает строку по левому краю в поле ширины `width`. |
| `lower()`            | Переводит все буквы в нижний регистр. |
| `lstrip()`           | Удаляет пробелы (или заданные символы) слева. |
| `maketrans()`        | Возвращает таблицу преобразования символов для `translate()`. |
| `partition(sep)`     | Разделяет строку на три части: до `sep`, `sep`, после. |
| `removeprefix(p)`    | Удаляет префикс `p`, если он есть. (Python 3.9+) |
| `removesuffix(s)`    | Удаляет суффикс `s`, если он есть. (Python 3.9+) |
| `replace(old, new)`  | Заменяет `old` на `new`. |
| `rfind(sub)`         | Последнее вхождение подстроки или `-1`. |
| `rindex(sub)`        | Как `rfind()`, но вызывает ошибку, если не найдено. |
| `rjust(width)`       | Выравнивает строку по правому краю. |
| `rpartition(sep)`    | Разделяет строку по последнему вхождению `sep`. |
| `rsplit(sep)`        | Разбивает строку справа налево. |
| `rstrip()`           | Удаляет пробелы (или заданные символы) справа. |
| `split(sep)`         | Разбивает строку по разделителю `sep` (по умолчанию — по пробелам). |
| `splitlines()`       | Разбивает строку по строкам (`\n`, `\r\n` и т.д.). |
| `startswith(prefix)` | Проверяет, начинается ли строка с `prefix`. |
| `strip()`            | Удаляет пробелы слева и справа (или заданные символы). |
| `swapcase()`         | Меняет регистр: заглавные → строчные и наоборот. |
| `title()`            | Делает каждое слово с заглавной буквы. |
| `translate(table)`   | Заменяет символы согласно таблице `table` из `maketrans()`. |
| `upper()`            | Переводит все буквы в верхний регистр. |
| `zfill(width)`       | Дополняет строку нулями слева до длины `width`. |


In [54]:
s1 = '      heLLo    '

print(s1.strip())
print(s1.upper())
print(s1.lower())
print(s1.capitalize())

# В общем очень много методов под капотом

heLLo
      HELLO    
      hello    
      hello    


### Регулярные варажение

Здесь только супер база, больше описал в NLP

Регулярные выражения (их еще называют регулярки, regexp или regex) — это мощный механизм для поиска и замены текста.

Регулярные выражения ‒ выражения, последовательности символов, которые позволяют искать совпадения в тексте. Выражаясь более формально, они помогают найти подстроки определенного вида в строке.

Статьи по регулярным выражениям:

- https://habr.com/ru/articles/349860/

- https://habr.com/ru/articles/545150/

Основые задачи, которые решают регулярные выражения

*   поиск в строке
*   разбиение строки на подстроки
*   замена части строки
*   валидация

Сайт для проверки регулярок - https://regex101.com/

**Таблица символов и конструкций регулярных выражений в Python**

| Синтаксис        | Назначение |
|------------------|------------|
| `.`              | Любой символ, кроме новой строки (`\n`) |
| `^`              | Начало строки |
| `$`              | Конец строки |
| `*`              | 0 или более повторений |
| `+`              | 1 или более повторений |
| `?`              | 0 или 1 повторение |
| `{n}`            | Ровно `n` повторений |
| `{n,}`           | `n` или более повторений |
| `{n,m}`          | От `n` до `m` повторений |
| `[...]`          | Один из символов внутри скобок |
| `[^...]`         | Любой символ, кроме указанных |
| ``              | Альтернатива (ИЛИ), например: `abc|def` |
| `(...)`          | Группа для захвата .group()|
| `(?:...)`        | Группа без захвата просто для порядка операций|
| `\`              | Экранирование специального символа |

**Специальные последовательности**

| Синтаксис | Значение |
|-----------|----------|
| `\d`      | Цифра `[0-9]` |
| `\D`      | Не цифра |
| `\w`      | Словесный символ: `[a-zA-Z0-9_]` |
| `\W`      | Не словесный символ |
| `\s`      | Пробельный символ (включает `\t`, `\n` и т.д.) |
| `\S`      | Не пробельный символ |
| `\b`      | Граница слова |
| `\B`      | Не граница слова |
| `\A`      | Начало всей строки |
| `\Z`      | Конец всей строки |
| `\n`, `\t` и т.п. | Стандартные escape-последовательности |

In [55]:
# библиотека регулярных выражений в Python
import re

In [56]:
text = ['1235', '2145', '123-456-7890', '987-654-3210']
pattern = r"\d{3}-\d{3}-\d{4}"

# Функция match проверяет совпадение
for str in text:
    match = re.match(pattern, str)
    if match:
        print(match.group())

123-456-7890
987-654-3210


In [57]:
text = "My phone numbers are 123-456-7890 and 987-654-3210."

# Это ищет строки формата: XXX-XXX-XXXX
pattern = r"\d{3}-\d{3}-\d{4}"

# Ищет первое совпадение в строке
search = re.search(pattern, text)
print(search.group())

123-456-7890


In [58]:
# Возвращает все совпадения как список строк (без объектов Match)
all_numbers = re.findall(pattern, text)
print(all_numbers)

['123-456-7890', '987-654-3210']


In [59]:
# То же, что findall(), но возвращает итератор объектов Match — удобно, если нужны позиции.
for match in re.finditer(pattern, text):
    print(f"Найдено: {match.group()} на позиции {match.start()}–{match.end()}")

Найдено: 123-456-7890 на позиции 21–33
Найдено: 987-654-3210 на позиции 38–50


In [60]:
# Сравнивает шаблон с всей строкой полностью.
text = "123-456-7890"
full = re.fullmatch(pattern, text)
print(full.group())

123-456-7890


`re.split(pattern, string, maxsplit=0)`	Аналог `str.split()`, только разделение происходит по подстрокам, подходящим под шаблон pattern;

`re.sub(pattern, repl, string, count=0)`	заменяет в строке `string` все непересекающиеся шаблоны `pattern` на `repl`

`re.compile` компелирует регулярное выражение в отдельный объект

## Коллекции