## Словари


### Что такое словарь

Ранее мы познакомились со списками – в них можно хранить упорядоченный набор объектов.  
Например, в списке мы хранили список номеров пользователей, которые заходили в наш интернет-магазин. Но кроме номеров нам нужно хранить еще много информации о пользователях, чтобы анализировать их поведение и получать выводы. Например, что будет, если мы захотим хранить имена пользователей?

Мы могли бы хранить по два списка: номера пользователей и их имена:

In [None]:
customer_ids = ['0', '1', '2']
customer_names = ['Артем', 'Виталий', 'Александра']

Это сложно, ведь нам придется всегда следить за тем, чтобы индексы номеров пользователей в первом списке всегда соответствовали индексам имен пользователей во втором.

Тут на помощь приходят словари.  
**Словарь** – неупорядоченная структура данных, в которой данные хранятся парами ключ:значение. Ключи при этом должны быть уникальны в пределах одного словаря.  
Это значит, что мы можем сделать словарь, в котором ключом будет номер пользователя, а значением – его имя:

In [None]:
customers = {
    '0': 'Артем',
    '1': 'Виталий',
    '2': 'Александра'
}

print(customers)

{'0': 'Артем', '1': 'Виталий', '2': 'Александра'}


Пустой словарь можно создать с помощью оператора `dict()` или просто написав пустые фигурные скобки:

In [None]:
test_dict = dict()
test_dict

{}

In [None]:
test_dict = {}
print(test_dict)
print(type(test_dict))

{}
<class 'dict'>


Значениями в словаре может быть любой объект: даже другой словарь. 

In [None]:
customers_2 = {
    '0': {
        'name': 'Артем',
        'customer_type': 'premium'
    }
}

print(customers_2)

{'0': {'name': 'Артем', 'customer_type': 'premium'}}


Мы сделали словарь, теперь научимся получать из него информацию.  
В отличие от списков, из словарей мы получаем информацию по ключу. Это очень похоже на списки: после названия словаря мы пишем в квадратных скобках ключ:  

```python
value = dictionary[key]
```

In [None]:
customers['0']

'Артем'

Если внутри словаря есть другие структуры данных типа словаря или списка, обращение к ним идет сразу после первого обращения к этому элементу. Например:

In [None]:
customers_2['0']['customer_type']

'premium'

Если мы обратимся по ключу, которого нет в словаре, то появится ошибка. Поэтому перед обращением можно проверить, есть ли такой ключ в словаре.  
Проверка делается уже знакомым оператором `in`:

In [None]:
'5' in customers

False

In [None]:
for customer_id in customer_ids:
  if customer_id in customers_2:
    customer = customers_2[customer_id]
    print(f"Пользователя под номером {customer_id} зовут {customer['name']}, \
тип пользователя: {customer['customer_type']}")
  else:
    print(f"Пользователя под номером {customer_id} нет в базе.")

Пользователя под номером 0 зовут Артем, тип пользователя: premium
Пользователя под номером 1 нет в базе.
Пользователя под номером 2 нет в базе.


Еще один способ обратиться к словарю – метод `get(key, default_value)`. Он позволяет вернуть значение по умолчанию, если по такому ключу в словаре ничего не найдено.

In [None]:
customers.get(5, 'Пользователь не найден')

'Пользователь не найден'

**Практическое задание**  
Напишите функцию, которая принимает на вход словарь и пару "ключ:значение". Функция должна проверить, если ли точно такая пара в словаре и вернуть True/False.

### Добавление и удаление элементов

Словарь – изменяемая структура данных. Это значит, что элементы можно добавлять, удалять и изменять.  

Добавлять элементы можно, написав после переменной квадратные скобки и записав в них ключ, который мы хотим добавить. После этого остается только присвоить элементу по этому ключу какое-то значение:

```python
dictionary[new_key] = value
```

Добавим нового пользователя в наш словарь:

In [None]:
customers_2['1'] = {
    'name': customers['1'],
    'customer_type': 'free'
}

customers_2

{'0': {'customer_type': 'premium', 'name': 'Артем'},
 '1': {'customer_type': 'free', 'name': 'Виталий'}}

Выведем наш словарь на экран в более читаемом виде:

In [None]:
import json

def pretty_print_dict(dictionary):
  print(json.dumps(dictionary, sort_keys=True, indent=2, ensure_ascii=False))

pretty_print_dict(customers_2)

{
  "0": {
    "customer_type": "premium",
    "name": "Артем"
  },
  "1": {
    "customer_type": "free",
    "name": "Виталий"
  }
}


Допустим, мы по ошибке занесли неправильно значение в словарь. Или нам просто нужно убрать какого-то конкретного пользователя из анализа.  
Удалить объект из словаря по ключу можно с помощью метода `pop()`, передав ему ключ в качестве аргумента.

In [None]:
customers_2['2'] = {'Hello': 'world'}
pretty_print_dict(customers_2)

{
  "0": {
    "customer_type": "premium",
    "name": "Артем"
  },
  "1": {
    "customer_type": "free",
    "name": "Виталий"
  },
  "2": {
    "Hello": "world"
  }
}


In [None]:
customers_2.pop('2')

{'Hello': 'world'}

In [None]:
pretty_print_dict(customers_2)

{
  "0": {
    "customer_type": "premium",
    "name": "Артем"
  },
  "1": {
    "customer_type": "free",
    "name": "Виталий"
  }
}


При этом, функция `pop()` возвращает тот элемент, который она удалила из словаря – его можно сохранить и использовать.


Еще один метод – встроенная функция `del()`. Она позволяет удалить элемент словаря по его ключу и не возвращает его.

In [None]:
customers_2['3'] = {}
pretty_print_dict(customers_2)

{
  "0": {
    "customer_type": "premium",
    "name": "Артем"
  },
  "1": {
    "customer_type": "free",
    "name": "Виталий"
  },
  "3": {}
}


In [None]:
del(customers_2['3'])
pretty_print_dict(customers_2)

{
  "0": {
    "customer_type": "premium",
    "name": "Артем"
  },
  "1": {
    "customer_type": "free",
    "name": "Виталий"
  }
}


### Перебор словаря

Ранее мы уже использовали цикл для перебора словаря, но тогда у нас номера пользователей хранились в одном списке.  
Можно сделать перебор по самим ключам словаря в цикле `for`:

In [None]:
for customer_id in customers_2:
  print(f"Данные по пользователю {customer_id}")
  pretty_print_dict(customers_2[customer_id])

Данные по пользователю 0
{
  "customer_type": "premium",
  "name": "Артем"
}
Данные по пользователю 1
{
  "customer_type": "free",
  "name": "Виталий"
}


Перебор по словарю в цикле `for` возвращает нам ключи, по которым в цикле мы можем обращаться к значениям в словаре. То же самое можно сделать, если использовать функцию `keys()` у словаря. Разницы между этими вариантами нет.

In [None]:
for customer_id in customers_2.keys():
  print(f"Данные по пользователю {customer_id}")
  pretty_print_dict(customers_2[customer_id])

Данные по пользователю 0
{
  "customer_type": "premium",
  "name": "Артем"
}
Данные по пользователю 1
{
  "customer_type": "free",
  "name": "Виталий"
}


Также, можно сделать перебор по значениям. Для этого нужно использовать у словаря метод `values()`:

In [None]:
print("Список имен пользователей:")
for customer_value in customers_2.values():
  print(customer_value['name'])

Список имен пользователей:
Артем
Виталий


Наконец, если мы хотим итерироваться одновременно и по ключам, и по значениям, мы можем сделать это с помощью функции словаря `items()`. Функция вернет нам кортеж `(ключ, значение)`:

In [None]:
for customer_id, customer_value in customers_2.items():
  print(f"Данные по пользователю {customer_id}")
  pretty_print_dict(customer_value)

Данные по пользователю 0
{
  "customer_type": "premium",
  "name": "Артем"
}
Данные по пользователю 1
{
  "customer_type": "free",
  "name": "Виталий"
}


## Множества

### Что такое множество

Представим, что у нас есть два списка с номерами клиентов нашего магазина, которые смотрели на два похожих товара. Задача – понять, какие именно клиенты смотрели на эти товары, чтобы составить портрет покупателя.  
Попробуем решить эту задачу:

In [None]:
customers_list_1 = [0, 2, 3, 4, 7]
customers_list_2 = [0, 1, 3, 5, 6, 7]

full_customers_list = customers_list_1 + customers_list_2
print(full_customers_list)

[0, 2, 3, 4, 7, 0, 1, 3, 5, 6, 7]


Мы получили список, но в нем есть повторяющиеся значения. Если список небольшой, то можно вручную убрать повторы. Но обычно наши задачи масштабнее, чем эта, поэтому сделаем все автоматически:

In [None]:
full_customers_list_no_repeats = []
for value in full_customers_list:
  if value not in full_customers_list_no_repeats:
    full_customers_list_no_repeats.append(value)

sorted(full_customers_list_no_repeats)

[0, 1, 2, 3, 4, 5, 6, 7]

Мы решили задачу, но решение получилось довольно громоздким. Давайте воспользуемся множествами, чтобы решить нашу задачу проще и быстрее.  
**Множество** – неупорядоченная структура данных, которая не содержит повторов.

In [None]:
print(full_customers_list)
print(set(full_customers_list))

[0, 2, 3, 4, 7, 0, 1, 3, 5, 6, 7]
{0, 1, 2, 3, 4, 5, 6, 7}


Что случилось? мы превратили наш список с повторами во множество (set) с помощью встроенной функции `set()`. При этом, в списке не осталось повторов.

Можно превратить любой итерируемый объект (например, список или строку) во множество.  
Также, можно создать множество, перечислив его элементы в фигурных скобках через запятую:

In [None]:
set_values = {1, 2, 2, 2, 3}
set_values

{1, 2, 3}

Этот способ похож на создание списка, но Python понимает, что в фигурных скобках находятся не пары ключ:значение, а просто элементы.  
Есть исключение – если мы напишем пустые фигурные скобки `{}`, то Python создаст пустой словарь.  
Если мы хотим создать пустое множество, то можно воспользоваться встроенной функцией `set()`, не передавая ей аргументов:

In [None]:
empty_set = set()
print(empty_set)
print(type(empty_set))

set()
<class 'set'>


### Операции со множествами

Множество можно перебирать в цикле `for` так же, как и списки:

In [None]:
for value in set_values:
  print(value)

1
2
3


Можно проверять наличие элемента во множестве:

In [None]:
print(4 in set_values)
print(3 in set_values)

False
True


Добавлять новые элементы во множество можно с помощью функции `add()`. Аргументом является то значение, которое мы хотим добавить.  

Функция работает примерно так же, как и функция `append()` у списка, но называется по-другому. Это происходит потому, что `append()` добавляет элемент в конец списка, который является упорядоченным. Множество – неупорядоченная структура данных, поэтому `add()` добавляет элемент не на какое-то конкретное место, а просто в целом во множество.

In [None]:
set_values.add(5)
set_values

{1, 2, 3, 5}

Если нужно добавить сразу несколько значений, то можно воспользоваться функцией `update()`. Ей можно передать один или несколько итерируемых объектов (например, кортеж или список) и она добавит уникальные значения во множество:

In [None]:
values_to_add = [1, 3, 4, 5, 6]
set_values.update(values_to_add)
set_values

{1, 2, 3, 4, 5, 6}

Если мы хотим удалить метод из множества, у нас есть две функции:
* `remove()` – удаляет элемент из множества, если он там есть. Если элемента нет, то показывает ошибку
* `discard()` – удаляет элемент из множества, если он там есть. Если элемента нет, то ничего не происходит

In [None]:
set_values.remove(23)

KeyError: ignored

In [None]:
set_values.discard(23)

In [None]:
set_values.remove(5)
set_values

{1, 2, 3, 4, 6}

### Операции над множествами

Один из плюсов множеств – возможность выполнять над ними математические операции.  

Первая операция – объединение (union). Она выполняется с помощью функции `union()` и возвращает новое множество, которое является объединением обоих множеств:

In [None]:
set_values_2 = {5, 6, 7, 9}
print(set_values)
print(set_values_2)

{1, 2, 3, 4, 6}
{9, 5, 6, 7}


In [None]:
set_values.union(set_values_2)

{1, 2, 3, 4, 5, 6, 7, 9}

Вторая операция – пересечение (intersection). Она выполняется с помощью функции `intersection()` и возвращает только те значения, которые есть в обоих множествах. Пересечение можно также записать с помощью оператора `&`.

In [None]:
print(set_values)
print(set_values_2)
print(set_values.intersection(set_values_2))

{1, 2, 3, 4, 6}
{9, 5, 6, 7}
{6}


In [None]:
set_values & set_values_2

{6}

Третья операция – разность (difference). Она выполняется с помощью функции `difference()` и возвращает те значения, которые есть в левом множестве (у которого мы вызываем функцию), но которых нет в правом (которое передаем в качестве аргумента. Разность можно также записать с помощью оператора `-`.

In [None]:
print(set_values)
print(set_values_2)
print(set_values.difference(set_values_2))

{1, 2, 3, 4, 6}
{9, 5, 6, 7}
{1, 2, 3, 4}


Четвертая операция – симметрическая разность (symmetric difference). Она выполняется с помощью функции `symmetric_difference()` и возвращает те значения, которые есть в левом множестве (у которого мы вызываем функцию), но которых нет в правом (которое передаем в качестве аргумента. Разность можно также записать с помощью оператора `^`.

In [None]:
print(set_values)
print(set_values_2)
print(set_values.symmetric_difference(set_values_2))

{1, 2, 3, 4, 6}
{9, 5, 6, 7}
{1, 2, 3, 4, 5, 7, 9}


In [None]:
set_values ^ set_values_2

{1, 2, 3, 4, 5, 7, 9}

## Строки

### Что такое строки

Мы уже много работали со строками. Теперь мы познакомимся с несколькими полезными функциями для работы со строками.  

Сначала посмотрим на способы создания строк:
* С помощью апострофов: 'Hello world'
* С помощью кавычек: "Hello world"
* С помощью тройных апострофов или тройных кавычек: """Hello
World"""

Третий способ позволяет заносить в переменную текст, имеющий сразу несколько строк.

In [None]:
string_1 = 'Hello world'
string_2 = "Hello world"
string_3 = """Hello
World"""

print(string_1)
print(string_2)
print(string_3)

Hello world
Hello world
Hello
World


Индексирование и срезы в строках работают точно так же, как в списках. В данном случае можно считать строковую переменную списком с символами.

In [None]:
string_1[4]

'o'

In [None]:
string_1[3:8]

'lo wo'

In [None]:
string_2[::-1]

'dlrow olleH'

### Полезные функции

Есть множество полезных функций для работы со строками.  
Про `len()` вы уже знаете – эта функция принимает на вход список и возвращает его длину. То же самое работает для строк:

In [None]:
len(string_1)

11

Функция `find()` позволяет найти подстроку в тексте и возвращает индекс первого символа в этой подстроке:

In [None]:
string_1.find("world")

6

Если в тексте есть несколько символов или подстрок, которые мы ищем, то `find()` возвращает индекс первой из них:

In [None]:
string_1.find('o')

4

Если мы попытаемся найти символ или подстроку, которой нет в строке, то `find()` вернет нам -1.

In [None]:
string_1.find('z')

-1

Есть несколько функций, которые позволяют понять, состоит ли строка из цифр, букв или цифр и букв:

In [None]:
print("Из цифр?", string_1.isdigit())
print("Из букв?", string_1.isalpha())
print("Из цифр и букв?", string_1.isalnum())

Из цифр? False
Из букв? False
Из цифр и букв? False


In [None]:
print("Из цифр?", "123".isdigit())

Из цифр? True


Также, есть пара функций, которые приводят текст к верхнему или нижнему регистру.  
Изначальный текст при этом не меняется.

In [None]:
print("Верхний регистр:", string_1.upper())
print("Нижний регистр:", string_1.lower())
print("Обычный текст:", string_1)

Верхний регистр: HELLO WORLD
Нижний регистр: hello world
Обычный текст: Hello world


Иногда нам нужно разбить текст на слова по какому-то разделителю. Например, нам пришел отзыв от пользователя, мы хотим разбить его на слова по пробелам и дальше проанализировать методами машинного обучения.  
Для этого нам нужен метод `split()`, который можно вызвать у строки:

In [None]:
string_1.split()

['Hello', 'world']

Этот метод возвращает нам список с элементами, которые в изначальной строке были разделены с помощью пробела.  
Если мы передадим какую-то строку в функцию `split()` в качестве аргумента, то нам вернется список с элементами, разделенными по этой строке:

In [None]:
split_by_o = string_1.split('o')
split_by_o

['Hell', ' w', 'rld']

Списки строк можно собирать обратно с помощью функции `join()`. Эта функция вызывается у строки, которая будет разделителем и на вход ей подается список строк, которые нужно объединить:

In [None]:
'a'.join(split_by_o)

'Hella warld'

## Самостоятельная работа

1. Напишите функцию, которая принимает на вход словарь и удаляет из него ту пару "ключ:значение", которая отличается от остальных. На верхнем уровне словаря ключом будет номер, а значением – другие словари со своими ключами. Проверку на "похожесть" нужно делать по ключам вложенных словарей.

Пример:
```python
test_dict = {
  '1': {
    'name': 'name',
    'last_name': 'last name',
    'age': 23
  },
  '2': {
    'name': 'name',
    'last_name': 'last name',
    'year': 1993
  },
  '3': {
    'name': 'name',
    'last_name': 'last name',
    'age': 42
  }
}
```

2. Напишите функцию, которая берет на вход два словаря и возвращает только те их значения, ключи для которых есть в первом словаре, и при этом ключей для которых нет во втором.

3. Напишите функцию, которая принимает на вход два множества и удаляет из множества 1 пересечение множеств 1 и 2.

4. Напишите функцию, которая принимает на вход строку и возвращает ту же строку, но в ней первый и последний символ должны поменяться местами.

5. Напишите функцию, которая принимает на вход две строки, помещает вторую строку в середину первой и возвращает этот результат.

5.* Эта функция при расчете индекса середины не должна учитывать символы, идущие после первого символа `#` в первой строке.

## Дополнительные материалы: Классы

### Что такое класс

В общем смысле, класс - это некоторый шаблон или чертеж, по которому создаются конкретные объекты.  
Мы уже давно работаем с классами – с самого начала курса. Переменные, которые мы создавали, являлись объектами (экземплярами) каких-то классов.  
Например, 3 – это экземпляр класса `int`, а `'Hello'` – это экземпляр класса `str`:

In [None]:
'Hello/world'.split('/')

['Hello', 'world']

У всех объектов в Python есть какой-то класс:

In [None]:
(3).__class__

int

Теперь давайте создадим свой класс. Продолжим историю с посетителями веб-страницы и добавим класс, обозначающий товар на этой странице:

In [None]:
class Product():
  pass

Пока что наш класс ничего не делает, так как в теле класса мы написали ключевое слово `pass`, которое является заглушкой и ничего не делает.  
Обычно мы ставим `pass` внутри функций и классов, в которых пока нет кода, но мы ожидаем, что он появится.

Создадим экземпляр нашего класса:

In [None]:
product_1 = Product()

In [None]:
dir(product_1)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__']

Пока что наш класс ничего не хранит и ничего не умеет. 

In [None]:
product_2 = Product()
product_1 == product_2

False

### Атрибуты и методы класса

Теперь обновим наш класс, чтобы в нем хранились какие-то данные.  
Одна из внутренних функций, которую мы видели чуть выше – это `__init__()`.  
Она является методом инициализации класса, или по-другому – конструктором класса. В этой функции можно задать атрибуты, которые мы будем хранить в классе.  
При этом, при создании объекта класса мы сразу сможем задать значения для этих атрибутов.

In [None]:
class Product():
  def __init__(self, name):
    self.name = name
    self._seen_by = []

Теперь мы можем не только создать продукт, но и дать ему имя:

In [None]:
product_1 = Product(name='iphone')

После этого мы сможем узнать название продукта, обратившись к нужной переменной через точку:

In [None]:
product_1.name

'iphone'

Давайте добавим для нашего класса возможность добавлять пользователей, которые видели этот продукт:

In [None]:
class Product():
  def __init__(self, name):
    self.name = name
    self._seen_by = []

  def add_customer(self, customer_id):
    self._seen_by.append(customer_id)

  def get_customers(self):
    return self._seen_by

In [None]:
product_1 = Product('iphone')
for i in range(4):
  product_1.add_customer(i)

In [None]:
product_1.get_customers()

[0, 1, 2, 3]

Теперь мы можем расширить наш класс, чтобы он позволял нам определять, какой из пользователей просматривал этот продукт больше всего.  
Например, это позволит нам определить, какому пользователю стоит предложить скидку.

In [None]:
from collections import Counter

class Product():
  def __init__(self, name, product_type):
    self.name = name
    self.product_type = product_type
    self._seen_by = []

  def add_customer(self, customer_id):
    self._seen_by.append(customer_id)

  def get_customers(self):
    return self._seen_by

  def most_viewed_by(self):
    return Counter(self._seen_by).most_common(1)[0]

In [None]:
product_1 = Product('iphone', 'phone')
for i in [1, 2, 2, 2, 3, 3, 4]:
  product_1.add_customer(i)

In [None]:
product_1.most_viewed_by()

(2, 3)

### \_\_getitem\_\_ и \_\_setitem\_\_

В предыдущей версии класса `Product` мы добавили тип продукта.  
Давайте перенесем тип продукта в информацию о продукте и добавим возможность более удобно читать и обновлять информацию о продукте с помощью встроенных функций `__getitem__()` и `__setitem__()`:

In [None]:
from collections import Counter

class Product():
  def __init__(self, name, product_type=None, product_subtype=None):
    self.name = name
    self.product_info = {
        'type': product_type,
        'subtype': product_subtype
    }
    self._seen_by = []

  def add_customer(self, customer_id):
    self._seen_by.append(customer_id)

  def get_customers(self):
    return self._seen_by

  def most_viewed_by(self):
    return Counter(self._seen_by).most_common(1)[0]

  def __getitem__(self, key):
    if key in self.product_info.keys():
      value = self.product_info[key]
      if value is None:
        value = f'Значение для элемента {key} еще не задано'
      return value
    else:
      return "У продукта нет такого элемента"

  def __setitem__(self, key, value):
    self.product_info[key] = value


In [None]:
product_2 = Product('iphone')

In [None]:
product_2['type'] 

'Значение для элемента type еще не задано'

In [None]:
product_2['type'] = 'phone'

In [None]:
product_2['type']

'phone'

In [None]:
product_2['warehouse']

'У продукта нет такого элемента'

### Документация классов и функций

Мы создали класс, которым можно пользоваться. Один из способов повысить удобство использования – задокументировать класс с помощью docstring.  
Давайте опишем, что делает класс и функции в нем:

In [None]:
class Product():
  """
  Класс Product хранит информацию о продукте 
  и пользователях, которые его просматривали.
  """
  def __init__(self, name, product_type=None, product_subtype=None):
    """
    Инициализация атрибутов класса.

    Параметры:
      name: str – название продукта
      product_info: dict – словарь с парами тип_информации:значение
    """
    self.name = name
    self.product_info = {
        'type': product_type,
        'subtype': product_subtype
    }
    self._seen_by = []

  def add_customer(self, customer_id):
    """
    Добавляет пользователя, просмотревшего товар, 
    в список просмотревших для этого продукта.

    Параметры:
      customer_id: int – id пользователя
    """
    self._seen_by.append(customer_id)

  def get_customers(self):
    """
    Возвращает список пользователей, просмотревших товар.

    Возвращает:
      _seen_by: list – список id пользователей
    """
    return self._seen_by

  def most_viewed_by(self):
    """
    Возвращает id пользователя, наиболее часто смотревшего товар,
    и количество просмотров.

    Возвращает: 
      (id: int, value: int): tuple – 
        id пользователя, количество просмотров
    """
    return Counter(self._seen_by).most_common(1)[0]

  def __getitem__(self, key):
    if key in self.product_info.keys():
      value = self.product_info[key]
      if value is None:
        value = f'Значение для элемента {key} еще не задано'
      return value
    else:
      return "У продукта нет такого элемента"

  def __setitem__(self, key, value):
    self.product_info[key] = value
