# Часть 2. Структуры данных Python

## Строки (Strings)

Строка в Python – это последовательность символов, заключенная в кавычки (одинарные или двойные). Строка – это неизменяемый упорядоченный тип данных.

Примеры строк:

In [None]:
str1 = "Привет"
str2 = 'мир'
str3 = """
Длинная
строка
"""

Строки можно суммировать, объединяя в одну строку:

In [None]:
str1+", "+str2+'!'

При умножении строки на число создается строка, в которой исходная строка повторяется указанное количество раз:

In [None]:
str2*10

Так как строки являются упорядоченным типом данных, можно обращаться к символам в строке по номеру, начиная с нуля:

In [None]:
str1[0]

Если указывать отрицательные значения (с минус единицы), то обращаемся к соответствующему символу, начиная с конца:

In [None]:
str1[-1]

Можно также делать срезы строк, указав диапазон номеров:

In [None]:
print(str1[1:4])
print(str1[:5])
print(str1[3:])
print(str1[-2:])
print(str1[::2])

Срез также позволяет получить строку в обратном порядке:

In [None]:
str1[::-1]

### Методы и функции для работы со строками

Строки – это неизменяемый тип данных, поэтому все методы, которые преобразуют строку возвращают новую строку, а исходная строка остается неизменной.

Некоторые полезные функции и методы для работы со строками:

In [None]:
print(len(str1))         # длина строки
print(str1.upper())      # верхний регистр
print(str1.lower())      # нижний регистр
print(str1.swapcase())   # изменить регистр
print(str2.capitalize()) # первую букву в верхний регистр

Метод `count()` используется для подсчета того, сколько раз символ или подстрока встречаются в строке:

In [None]:
mission = "Объединяя знанием людей разных культур, РУДН формирует лидеров, которые делают мир лучше"
print(mission.count('е'))
print(mission.count(str2))

Методу `find()` можно передать подстроку или символ, и он покажет, на какой позиции находится первый символ подстроки (для первого совпадения):

In [None]:
print(mission.find('РУДН'))
print(mission[mission.find('РУДН'):])

Если совпадение не найдено, метод `find()` возвращает -1.

Можно проверить, начинается или заканчивается ли строка на определенные символы: 

In [None]:
print(mission.startswith('Объединяя'))
print(mission.startswith('РУДН'))
print(mission.endswith('лучше'))

Замена последовательности символов в строке на другую последовательность производится при помощи метода `replace()`:

In [None]:
mission.replace('лучше','круче')

Часто при обработке файла файл открывается построчно и в конце каждой строки (а может и в начале) могут быть какие-то спецсимволы (например, перевод строки). Для того, чтобы избавиться от них, используется метод `strip()`:

In [None]:
RUDN = "\n\t\tРУДН\n\n"
print(RUDN)
print(RUDN.strip())

Методу `strip()` можно передать как аргумент любые символы. Тогда в начале и в конце строки будут удалены все символы, которые были указаны в строке:

In [None]:
hell = "3.14159Hello2.71828"
hell.strip('.0123456789')

Метод `strip()` убирает спецсимволы и в начале, и в конце строки. Если необходимо убрать символы только слева или только справа, можно использовать, соответственно, методы `lstrip()` и `rstrip()`.

Метод `split()` разбивает строку на части, используя как разделитель какой-то символ (или символы) и возвращает список строк:

In [None]:
mission.split()

По умолчанию в качестве разделителя используются пробельные символы (пробелы, табуляция, перевод строки), но в скобках можно указать любой разделитель:

In [None]:
"1,2,3,4,5".split(',')

Полезные особенности метода `split()` с разделителем по умолчанию — строка разделяется в список строк по любому количеству пробельных символов и пробельные символы удаляются в начале и в конце строки:

In [None]:
" Beautiful   is   better than ugly     ".split()

In [None]:
" Beautiful   is   better than ugly     ".split(' ')

## Список (List)

Список в Python – это последовательность элементов, разделенных между собой запятой и заключенных в квадратные скобки.

Список является изменяемым упорядоченным типом данных.

Примеры списков:

In [None]:
[10, 20, 30, 40]

In [None]:
["один", "два", "три"] 

In [None]:
[100, 3.14159, 'пи']

Список может быть создан с помощью литерала (выражения,  создающего объект):

In [None]:
list0 = [100, 200, 300, 400]
list0

Также список может быть создан с помощью функции `list()`:

In [None]:
list1 = list("НБИ-01-18")
list1

Так как список - это упорядоченный тип данных, то в списках можно обращаться к элементу списка по номеру и  делать срезы:

In [None]:
print(list1[0])
print(list1[-1])
print(list1[1:3])
print(list1[::2])

Перевернуть список наоборот можно с помощью метода `reverse()`:

In [None]:
list1.reverse()
list1

Так как список является изменяемым типом данных, элементы списка можно менять:

In [None]:
list1[7] = "П"
list1.reverse()
list1

При присваивании имени списка другой переменной создается новая переменная, которое ссылается на тот же список, и при изменении элементов "нового" списка изменяется и исходный список:

In [None]:
list2 = list1
list2[1] = 'Ф'
list1

Для создания копии списка можно использовать срез `[:]` или метод `copy()`:

In [None]:
list2 = list1[:]
list2[1] = 'Б'
print(list1)
print(list2)

Можно создать список, состоящий из списков и, как и в обычном списке, можно обращаться к элементам во вложенных списках:

In [None]:
gruppa = [[1, "Иванов", 1999],[2, "Петров", 2000],[3, "Сидоров", 1998]]
print(gruppa)
gruppa[1][2]

Функция `len()` возвращает количество элементов в списке:

In [None]:
len(list1)

Функция `sorted()` сортирует элементы списка по возрастанию и возвращает новый список с отсортированными элементами:

In [None]:
sorted(list1)

### Методы для работы со списками

Список - это изменяемый тип данных, поэтому большинство методов для работы со списками изменяют исходный список, ничего не возвращая.

Метод `join()` собирает список строк в одну строку с разделителем, который указан перед `join`:

In [None]:
print(''.join(list1))
print('_'.join(list1))

Метод `append()` добавляет в конец списка указанный элемент:

In [None]:
gruppa.append([4, "Васильев", 1995])
print(gruppa)

Если нужно объединить два списка, то можно использовать два способа: метод `extend()` и операцию сложения.
Отличие способов: `extend()` меняет список, к которому применен метод, а суммирование возвращает новый список, который состоит из двух списков.

In [None]:
list2 = [2, 4, 6, 8, 10]
list3 = [3, 5, 7, 9]
print(list2 + list3)
list3.extend(list2)
list3

Метод `pop()` удаляет элемент, который соответствует указанному номеру,  при этом метод возвращает этот элемент:

In [None]:
list3.pop(0)
print(list3.pop())
list3

Если номер не указан, то удаляется последний элемент списка.

Метод `remove()` удаляет указанный элемент (не возвращая его):

In [None]:
list1.remove("Н")
list1

В методе `remove()` указывается сам элемент, который надо удалить, а не его номер в списке.

Метод `index()` позволяет найти номер элемента в списке:

In [None]:
list3.index(2)

Метод `insert()` позволяет вставить элемент на определенное место в списке:

In [None]:
list3.insert(0,3)
list3

Метод `sort()` сортирует сам список:

In [None]:
list3.sort()
list3

## Кортеж (Tuple)

Кортеж в Python – это последовательность элементов, которые разделены между собой запятой и заключены в круглые скобки. 

Кортеж является неизменяемым упорядоченным типом данных, т.е. кортеж - это список, который нельзя изменить. 

Создадим пустой кортеж:

In [None]:
tuple0 = tuple()
tuple0

Создать кортеж из одного элемента можно так (обратите внимание на запятую):

In [None]:
tuple1 = (2020,)
tuple1

Кортеж можно получить из списка:

In [None]:
tuple2 = tuple([2018,2019,2020])
tuple2

К объектам в кортеже можно обращаться, как и к объектам списка, по порядковому номеру:

In [None]:
tuple2[1]

Так как кортеж неизменяем, присвоить новое значение элементу кортежа нельзя:

In [None]:
tuple2[2] = 2021

С конструкцией кортежа связана операция распаковки переменных, когда в присваивании слева от знака равенства указываются несколько переменных:

In [None]:
(u, v) = (2., 3.)
print(u,v)

In [None]:
u, v, w = [7, 8, 9]
print(u,v,w)

In [None]:
u, v, w, _, _ = [5, 6, 7, 8, 9]
print(u,v,w)

Такие конструкции часто применяются в функциях, когда необходимо вернуть несколько значений.

## Словарь (Dictionary)

Словари в Python - это неупорядоченные коллекции произвольных объектов с доступом по ключу. 

Словари характеризуются следующими свойствами:  
• это изменяемый неупорядоченный тип данных    
• данные в словаре - это пары ключ: значение  
• доступ к значениям осуществляется по ключу, а не по номеру, как в списках  
• так как словари изменяемы, то элементы словаря можно менять, добавлять, удалять  
• ключ должен быть объектом неизменяемого типа: число, строка, кортеж  
• значение может быть данными любого типа  

Пример словарей:

In [None]:
d1 = {} # пустой словарь
d2 = { "John": 100, "Kate": 200 } 
d3 = dict( Nick = "Boston", Sara = "Seattle" )

Проверка наличия ключа в словаре производится с помощью оператора `in`:

In [None]:
name = "Kate"
if name in d2:
    print("Имя "+name+" в словаре")

Доступ к элементу словаря, осуществляется как же как доступ к элементу списка, только в качестве индекса указывается ключ, а именно, конструкция `<имя словаря>[<ключ>]`:

In [None]:
print( d2[ "John" ], d3[ "Nick" ] )

Для добавления нового значения в словарь d2 достаточно написать:

In [None]:
d2[ "Willy" ] = 500
d2

В словаре в качестве значения можно использовать другой словарь.

### Методы для работы со словарями

При присваивании имени словаря другой переменной создается еще одно имя, которое ссылается на тот же словарь. 

Для создания полной копии словаря можно использовать метод `copy()`:

In [None]:
d4 = d2.copy()
d2['Willy'] = 300
d4

Для очистки словаря можно использовать метод `clear()`:

In [None]:
d2.clear()
d2

Если при обращении к словарю указывается ключ, которого нет в словаре, возникает ошибка. Метод `get()` запрашивает ключ, и если его нет, вместо ошибки возвращает `None`:

In [None]:
d4["Sara"] = 1000

In [None]:
print(d4.get("Sara"))

Проверка в операторе `if` выглядит так:

In [None]:
if d4.get("Sara") is None:
    print("Sara не входит в словарь")

Также можно указывать другое значение вместо `None`:

In [None]:
print(d4.get("James","Ooops"))

Метод `setdefault()` ищет ключ, и если его нет, вместо ошибки создает ключ со значением `None`:

In [None]:
d4.setdefault("James")
d4

Второй аргумент позволяет указать, какое значение должно соответствовать ключу:

In [None]:
d4.setdefault("Piter",400)
d4

Методы `keys()`, `values()`, `items()` работают так:

In [None]:
print(d4.keys())
print(d4.values())
print(d4.items())

Все три метода возвращают специальные объекты, которые отображают ключи, значения и пары ключ-значение словаря соответственно, причем эти объекты меняются с изменением словаря.

Если нужно зафиксировать, скажем, список ключей, то достаточно конвертировать ключи в список: `list(d4.keys())`.

Для удаления ключа и значения можно использовать команду `del`:

In [None]:
del d4['Sara']
d4

Метод `update()` позволяет добавлять в словарь содержимое другого словаря:

In [None]:
d4.update({"Carl":600,"Lolita":650})
d4

или обновить значения:

In [None]:
d4.update({'John': 150, 'Kate': 250})
d4

Если нужно создать словарь с известными ключами, но пока что пустыми значениями (или одинаковыми значениями), то удобна функция `fromkeys()`:

In [None]:
aero_keys = ["SVO","DME","VNU"]
d5 = dict.fromkeys(aero_keys, 0)
d5

### Перебор элементов словаря в цикле

Для перебора элементов словаря применяются цикл `for` и некоторые методы словаря:

In [None]:
print("Перебор ключей:")
for key in d4.keys(): 
    print(key)
print("Перебор значений:")
for val in d4.values(): 
    print(val)
print("Перебор пар:")
for key,val in d4.items(): 
    print("{} -> {}".format(key,val))

## Множество (Set)

Множество в Python - это изменяемый неупорядоченный тип данных. В множестве всегда содержатся только уникальные элементы.
Множество в Python - это последовательность элементов, которые разделены между собой запятой и заключены в фигурные скобки.

С помощью множества можно легко убрать повторяющиеся элементы:

In [None]:
a_list = [10, 20, 30, 40, 20, 30, 40, 50]
a_set = set(a_list)
a_set

Метод `add()` добавляет элемент во множество:

In [None]:
a_set.add(100)
a_set

Метод `discard()` позволяет удалять элементы, не выдавая ошибку, если элемента в множестве нет:

In [None]:
a_set.discard(90)
a_set.discard(100)
a_set

Метод `clear()` очищает множество:

In [None]:
a_set.clear()
a_set

### Операции с множествами

Множества полезны тем, что с ними можно делать различные операции и находить объединение множеств, пересечение и так далее.
Объединение множеств можно получить с помощью метода `union()` или оператора `|`:

In [None]:
set1 = {1,2,3,4,5,6,7,8,9,10}
set2 = {2,4,6,8,10,12,14,16,18,20}
print(set1.union(set2))
print(set1 | set2)

Пересечение множеств можно получить с помощью метода `intersection()` или оператора `&`:

In [None]:
print(set1.intersection(set2))
print(set1 & set2)

### Создание множества

Нельзя создать пустое множество с помощью литерала (так как в таком случае это будет не множество, а словарь):

In [None]:
set0 = {}
print(set0)
type(set0)

Пустое множество можно создать при помощи `set()`:

In [None]:
set0 = set()
print(set0)
type(set0)

Множество из строки будет содержать символы, использованные в строке:

In [None]:
set("Привет, мир")

## Включения (comprehensions)

Списковым включением называется способ конструирования списков при помощи цикла `for` внутри квадратных скобок. Например, список целых чисел от 0 до 9 может быть получен так:

In [None]:
[i for i in range(10)]

Составим список квадратов целых чисел от 0 до 9:

In [None]:
[i**2 for i in range(10)]

В списковом включении можно использовать условный оператор `if` для выбора только тех элементов, которые удовлетворяют заданному условию.

Например,

In [None]:
[i**2 for i in range(100) if i**3 % 7==0]

При помощи списковых включений можно создавать списки из строковых значений:

In [None]:
['НПИ-{}-18'.format(num) for num in range(1,21)]

Включения также могут порождать словари, например:

In [None]:
{str(num):2**num for num in range(20)}

А также множества:

In [None]:
text = "Пусть всегда будет солнце"
{sym for sym in text}