# Введение в Python

In [1]:
import sys

<img width = '400px' src= https://cdn.analyticsvidhya.com/wp-content/uploads/2020/06/python-logo.jpg>

## Определение

Интерпретируемый объектно-ориентированный язык программирования высокого уровня с динамической типизацией, автоматическим управлением памятью и удобными высокоуровневыми структурами данных, такими как словари (хэш-таблицы), списки, кортежи. Поддерживает классы, модули (которые могут быть объединены в пакеты), обработку исключений, а также многопоточные вычисления. Питон обладает простым и выразительным синтаксисом. Язык поддерживает несколько парадигм программирования: структурное, объектно-ориентированное, функциональное и аспектно-ориентированное.
<br> **Хорошее чтиво**:</br>
<br> 1) Про разницу между интерпретирумемыми и компилируемыми языками: https://tproger.ru/translations/programming-concepts-compilation-vs-interpretation/ или https://www.internet-technologies.ru/articles/newbie/kompiliruemye-vs-interpretiruemye-yazyki-programmirovaniya.html </br>
<br> 2) Дзен языка python : https://tyapk.ru/blog/post/the-zen-of-python </br>
<br> 3) Официальная документация. Поверьте, ответы на все ваши вопросы есть там и на stackoverflow :D https://docs.python.org/3/ </br>

## Модель данных и  основные типы данных 

В Python есть несколько стандартных типов данных:

* Numbers (числа)
* Strings (строки)
* Lists (списки)
* Dictionaries (словари)
* Tuples (кортежи)
* Sets (множества)
* Boolean (логический тип данных)

Для того, чтобы понять, что происходит, когда мы работаем с различными типами данных в Python, рассмотрим пример

### Числа

In [2]:
a = 1

In [3]:
type(a)

int

Мы создали переменную a, которая в рамках нашей работы сейчас является целым числом. И что же произошло?
<br> Документация на эту тему - https://docs.python.org/3/reference/datamodel.html#objects-values-and-types

При инициализации переменной, на уровне интерпретатора, происходит следующее:
* создается целочисленный объект 1 (условно создается ячейка, которую мы занимаем числом 1);
* посредством оператора "=" создается связь между переменной a и целочисленным объектом 1 (переменная a ссылается на эту ячейку)

Теперь созданный нами объект имеет ряд характеристик:
* идентификатор - это уникальный признак объекта, позволяющий отличать объекты друг от друга;
* тип;
* значение - информация, хранящаяся в памяти

In [4]:
b = 1

In [5]:
id(a)

4456058640

In [6]:
id(b)

4456058640

In [7]:
id(a) == id(b)

True

С помощью id можем получить уникальный идентификатор нашего объекта, можно соотносить с номером некоторой ячейки, где хранится определенное значение. А имена переменных выступают в качестве имен указателей на эти ячейки.

Когда мы создали переменную а со значением 1, в памяти создался объект в определенным идентификатором, который содержал целое число 1. Затем мы решили создать еще одну переменную b со значением которое также 1, и хоть это и разные переменные, но в итоге они ссылаются на один и тот же объект в памяти.

Если мы попробуем изменить значение нашей переменной а

In [8]:
a = a + 10
a

11

У нас разумеется получиться, любые операции к нашим услугам. Но что произойдет с существующим у нас объектом?

In [9]:
id(a)

4456058960

Как мы видим идентификатор объекта изменился, потому что изменилось число, на которое теперь ссылается переменная а. Наш прежний объект, равный 1 до сих пор остался в памяти и теперь к нему обращается только переменная b

In [10]:
id(b)

4456058640

Числа поддерживают все базовые математические операции

Но если мы создадим еще одну переменную - с и захотим, чтобы она была равна 1, то увидим, что она также как и b обращается к нашему первому созданному объекту

In [11]:
c = 1
id(c)

4456058640

In [12]:
id(c) == id(b)

True

Кстати такая запись как id(c) == id(b) будет эквивалентна более часто используемой записи:

In [13]:
b is c

True

С помощью IS мы мыжем проверять именно равенства идентификаторов наших объектов

Когда мы прибавили к нашей переменной а другое число (10), то в нашей памяти появился новый объект, ну и собственно, как вы уже знаете лучше меня, если я решу создать новую переменную d и сделаю ее равной 2001, то идентификаторы переменных а и d будут равны)

In [14]:
d = 11
d is a

True

Это работает именно так, потому что целые числа относятся к неизменяемому типу данных в Python (конечно дальше мы увидим случаи, когда для некоторых целых чисел это не работает :D, но это позже.

**Изменяемые и неизменяемые типы данных**

![t1](https://miro.medium.com/max/1316/1*uFlTNY4W3czywyU18zxl8w.png)

Разница проста, в случае с изменяемыми объектами, мы можем изменить сам объект в памяти, то еслт бы в примере выше наша переменная а содержала бы изменяемый тип данных, то при прибавлении к ней 10, мы бы не создали новый объект, а изменили бы существующий. При неизменяемом типе данных,мы не можем изменить сам объект, поэтому при любых махинациях с ним получим новый объект, что мы и наблюдали выше.

Как мы видим, целые числа - неизменяемые типы и мы можем ожидать ситуаций, как наблюдали с переменными a,b,c,d выше, но рассмотрим еще один популярный пример

In [15]:
a = 256
b = 256

In [16]:
a is b

True

In [17]:
a = 257
b = 257
a is b

False

Как мы видим прошлая схема не работает с числами больше 256.

В целом подобное работает для чисел от -5 до 256. Это так называемая оптимизация часто используемых чисел. Для этих чисел заранее выделяется память. 
<br> Чтиво на эту тему: https://rushter.com/blog/python-integer-implementation/
<br> Места в исходниках:  https://github.com/python/cpython/blob/8e3b9f92835654943bb59d9658bb52e1b0f40a22/Include/internal/pycore_interp.h#L163 и https://github.com/python/cpython/blob/master/Include/internal/pycore_long.h#L15

Важно! Подобная оптмизация работает только для интерпретатора cpython, для других интрпретаторов, например, pypy и так далее, собственные оптимизации,зачастую более эффективные.

**Вернемся к числам**

Числа в Python бывают: целые, вещетсвенные, комплексные
<br> https://pythonworld.ru/tipy-dannyx-v-python/chisla-int-float-complex.html

Для работы с числами имеем арсенал всех математических,битовых и некоторых дополнительных операций
<br> Математические операции

![numbers](https://ucarecdn.com/f20426b5-7302-4604-85a0-0f5a100b04d9/)

С числами мы еще сегодня поработаем в рамках работы с другими типами данных, которые могут содержать в себе числа. 

Чтобы тема с изменяемыми и неизменяемыми типами данных не затерялась в чертогах разума, давайте разберем один из изменяемых типов - списки.

### Списки (lists)

**Списки в Python** - упорядоченные изменяемые коллекции объектов произвольных типов (почти как массив, но типы могут отличаться).

Пример

In [18]:
lst = [1,2,3]

In [19]:
lst

[1, 2, 3]

Сначала убедимся, что это действительно изменяемый тип данных

In [20]:
id(lst)

4489872560

Если с обычными числами мы можем работать с помощью известных нам математических операций, то для того, чтобы добавлять, удалять, изменять списки мы должны пользоваться специальными функциями. Добавим в наш список еще один элемент.

In [21]:
lst.append(5)

In [22]:
lst

[1, 2, 3, 5]

Функция append позволяет добавить новый элемент в конец списка
<br> Посмотрим, что стало с созданным нами и измененным объектом

In [23]:
id(lst)

4489872560

Как мы видим, идентификатов объекта не изменился, так как добавив новый элемент в список мы не создали новый объект в памяти, а изменили существующий, так как список - изменяемый тип.

Списки позволяют решать большое количество задач и обладают весьма обширным функционалом, рассмотрим основное и интересное, больше функций  можно посмотреть в доке и  по ссылкам:
* https://pythonworld.ru/tipy-dannyx-v-python/spiski-list-funkcii-i-metody-spiskov.html
* https://www.w3schools.com/python/python_lists.asp
* https://devpractice.ru/python-lesson-7-work-with-list/
* https://www.programiz.com/python-programming/list

<img width = '400px' src=https://pics.me.me/matrix-2d-array-list-of-lists-imgflip-com-low-effort-meme-created-in-63634729.png>

**Порешаем задачки.
<br> Приходите вы на собеседование, а вам говорят "Найдите ка медиану списка из любых  чисел любого количества не используя никакие аналитические библиотеки." (очень частая и скучная задачка)  Ваши действия?**

Все мы знаем (я надеюсь), что медиана это число, меньше которого 50% наших данных и больше которого 50% наших данных. Другими словами, 50-й перцентиль.

Так как нам надо писать код, то сразу переведм на нужную нам формулировку, медиана  - это середина отсортированного списка, если у нас нечетное количество чисел и среднее двух соседних в центре, если у нас четное количество чисел.

Значит, нам надо написать код, который будет проверять, четное или нечетное количество элементов в списке, сортировать его и брать центральный элемент или среднее соседних чисел в центре.

На деле все очень просто, срешим нашу задачу, изучая на ходу интресующие нас нюансы

#### Генераторы списков

Сначала нам надо создать список, мы можем ввести его вручную, но куда интереснее и быстрее использовать генератор списков

**Генератор списков** - способ построить новый список, применяя выражение к каждому элементу последовательности. Очень похожи на цикл for и в целом работают аналогично

Чтиво про генераторы списков - https://younglinux.info/python/feature/generators

In [24]:
lst = [i for i in range(19)]

In [25]:
lst

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]

На всякий случай про функцию range - https://dev-gang.ru/article/python-funkcija-range-lpzk2bitpa/

В python индексация начинается с 0, поэтому передавая в функцию range 19, последнее числоа в списке - 18.

Итак список у нас есть. Мы сгенерировали его, и как видим он уже отсортирован, но от нас скорее всего ждут код, который будет готов и к неотсортированному списку, поэтому необходимо знать, как сортировать список.

#### Сортировка списка 

Функция  sort() или sorted()

С помощью данной функции мы можем отсортировать наш список

In [26]:
lst.sort()  #дефолтно сортировка идет по возрастанию

In [27]:
lst

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]

In [28]:
lst.sort(reverse = True) # сортируем по убыванию

In [29]:
lst

[18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

Нам для того, чтобы рассчитать медиану нужна сортировка по возрастанию.

In [30]:
lst.sort()

In [31]:
lst

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]

In [32]:
sorted(lst)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]

Приближаемся к финальной части вычисления, нам нужно проверить четное или нечетное у нас количество элементов с списке,и либо взять центральный элемент списка либо рассчитать среднее соседних. Ну и собрать все это в функцию.
<br> Для этого вспомним (или узнаем) что такое индекс и как обращаться по нему к элементам в списках

#### Индексы и срезы

Индекс - номер элемента в списке, по индексу мы можем обращаться к элементам в списке, а также производить различные операции.

Уже упоминали, что индексация у нас начинается в 0, то есть первый элемент в нашем списке имеет индекс 0. Обратиться к нему очень легко, синтаксис простой:

In [33]:
lst[0]

0

 Оперируя индексами можем совершать различные расчеты конечно же

In [34]:
lst[1] + lst[10]

11

Отрицательные индексы тоже могут быть, например если мы хотим обратиться к первому индексу с конца это будет эквивалентно тому, что мы обращаемся кпоследнему с начала списка

In [35]:
lst[-1] == lst[18]

True

In [36]:
lst[-1]

18

Часто мы имеем дело с довольно таки длинными списками и зачастую нам наоборот может требоваться узнать индекс определенного элемента, это конечно тоже можем сделать

In [37]:
lst.index(10)

10

Если число встречается несколько раз, то нам вернется первое вхождение.  Мы можем ограничить интервал, в котором будем искать <br> list.index(x, [start [, end]])

**Срезы**

Срезы - инструмент, который  Python предоставляет для работы с целыми подмножествами элементов списка: к так называемым срезам (slices)

Всего у среза три параметра:

* START — индекс первого элемента в выборке,
* STOP — индекс элемента списка, перед которым срез должен закончиться (т.е. сам элемент с индексом STOP не будет входить в выборку),
* STEP — шаг прироста выбираемых индексов.

Синтаксис - **some_list[START:STOP:STEP]**

Почитатать про срезы - https://ru.hexlet.io/courses/python-lists/lessons/slices/theory_unit

Например, выбор всех элементов до 5го:

In [38]:
lst[:5]

[0, 1, 2, 3, 4]

И наоборот послего 5го:

In [39]:
lst[5:]

[5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]

А выбор всех элементов начиная с 1-го и до 18-го (не включая его) с шагом в 2 элемента:

In [40]:
lst[1:18:2]

[1, 3, 5, 7, 9, 11, 13, 15, 17]

Теперь, когда мы знаем, как работать с индексами, вернемся к расчету медианы

Наш список отсортирован

In [41]:
lst

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]

Теперь необходимо добавить добавить расчет проверки четности или нечетности количества элементов а нашем списке

#### Количество элементов с списке 

Тут ничего сверхъестественного, используем функцию len()

Вернемся к пункту с числами и вспомним, как проверять остаток от деления, который поможет нам проверить четность любого списка

In [42]:
len(lst) % 2 == 0

False

In [43]:
len([1,2,3,4]) % 2 == 0

True

#### Отвлечемся на условные конструкции

В целом мы знаем все, что требуется, чтобы рассчитать медиану любого списка, но для того, чтобы определить методику расчета нам надо проверять четность или нечетность количества элементов в списке, здесь не обойтись без условных конструкций

Как всегда, почитать подробнее - https://pythonworld.ru/osnovy/instrukciya-if-elif-else-proverka-istinnosti-trexmestnoe-vyrazhenie-ifelse.html

Условная инструкция if-elif-else (её ещё иногда называют оператором ветвления) - основной инструмент выбора в Python. Проще говоря, она выбирает, какое действие следует выполнить, в зависимости от значения переменных в момент проверки условия.

<img width = '300px' src = https://younglinux.info/sites/default/files/images/python/elif.png>

In [44]:
if (len(lst) % 2) == 0:
    print('Четное количество')
elif (len(lst) < 1):
    print('No list')
else: 
    print('Нечетное количество')

Нечетное количество


Мы имеем нужную нам условную конструкцию, осталось добавить вместо принтов нужные вычисления и собрать это вместе

#### Наконец рассчитаем медиану

Для начала добавим формулу рассчета индекса середины нашего списка:

In [45]:
ind = (len(lst) - 1) // 2

In [46]:
ind

9

Теперь на случай четности количества символов, добавим расчет среднего арифметического между двумя соседними центральными элементами в списке

In [47]:
(lst[ind] + lst[ind + 1])/2

9.5

Соберем все вместе

In [48]:

if (len(lst) % 2) == 0:
    print((lst[ind] + lst[ind + 1])/2)
elif (len(lst) < 1):
    print('No list')
else: 
    print(ind)

9


In [49]:
q = []

Ну и наконец соберем в функцию:

In [50]:
def median(data):
    index = (len(data) - 1) // 2

    if (len(data) % 2) == 0:
        return (sorted(data)[index] + sorted(data)[index + 1])/2.0
    else:
        return sorted(data)[index]

In [51]:
median(lst)

9

К функциям мы вернемся после того как рассмотрим работу со строками, кортежами и словарями

### Строки

#### Определение

Строки в Python - упорядоченные последовательности символов, используемые для хранения и представления текстовой информации

Операции, которые можем производить со строками:
<br> Подробный список функций - https://ps.readthedocs.io/ru/latest/strings.html

**Примеры**

In [52]:
a = 'a'

In [53]:
a = 'ABC'

In [54]:
a = 'Отличный сегодня день'

In [55]:
a = """- Мне уже 25. Не знаю, что может быть хуже.
- Наверное, если бы тебе было 26"""

In [56]:
a

'- Мне уже 25. Не знаю, что может быть хуже.\n- Наверное, если бы тебе было 26'

In [57]:
type(a)

str

Это все строки, они могут быть разными, содержать также числа и разное количество символов.

**Строки также относятся к неизменяемым типам данных, поэтому с ними тоже связаны некоторые интересные явления**

#### Интернирование строк

Создадим две переменные а и b, содержащие строку с одним и тем же словом

In [58]:
a = 'Beautiful'

In [59]:
b = 'Beautiful'

In [60]:
a is b

True

In [61]:
a = 'Hello!'

In [62]:
b = 'Hello!'

In [63]:
a is b

False

В данном случае мы столкнулись с интернированием строк - как и в случае с числами от -5 до 256, сохранением в памяти объекта и при создании переменной с таким же значением, обращением к этому же объекту в памяти. 

 Но почему же интернирование по умолчанию работает не всегда?

**По умолчанию, интернируются только строки, которые содержат только ASCII-символы, цифры и знак подчеркивания, в остальных случаях даже если строки одинаковые, будет создаваться новый объект**

Почитать подробнее - http://guilload.com/python-string-interning/

In [64]:
a = sys.intern('abc_')

In [65]:
b = sys.intern('abc_')

In [66]:
a is b

True

**Можно интернировать строку принудительно**

In [67]:
a = sys.intern('Hello!')

In [68]:
b = sys.intern('Hello!')

In [69]:
a is b

True

**Теперь разберем некоторые функции для работы со строками**

#### Конкатенация строк

**конкатенация** - операция склеивания объектов линейной структуры, обычно строк

Как правило реализуется с помощью знака +. 

In [70]:
string1 = 'good'
string2 = 'day'
string1 + string2

'goodday'

In [71]:
string1 = string1 + string2

In [72]:
string1

'goodday'

Можно добавить любой разделитель или знак до и/или после слова и так далее

In [73]:
result = string1 + " " + string2 + " <3"
result

'goodday day <3'

Помним, что строки - не списки, и при изменении строк, создаетсмя новый объект в памяти, поэтому когда мы конкатенируем строки мы также создаем новый объект в памяти

**Представим, что у нас есть несколько списков с именами, фамилиями, отчеством наших клиентов и мы хотим составить новый список с целым ФИО.В этом нам поможет умению работать со списками и канкатенцией строк**

In [74]:
names = ['Ольга','Александр','Максим','Иван']

In [75]:
surnames = ['Иванова','Петров','Максимов','Васильев']

In [76]:
patronymic = ['Николаевна','Александрович','Алексеевич','Иванович']

Что мы должны сделать? Например, создать новый список и записать туда канкатенированные в верном порядке строки из имеющихся списков

**Пример решения**

In [77]:
client_info = [surname + ' ' + name + ' ' + patr for surname, name,patr in zip(surnames,names,patronymic)]

In [78]:
client_info

['Иванова Ольга Николаевна',
 'Петров Александр Александрович',
 'Максимов Максим Алексеевич',
 'Васильев Иван Иванович']

 Снова используем генератор списков, для удобства работы с циклом for в нескольких списках используем функцию **zip**

В Python функция zip позволяет пройтись одновременно по нескольким итерируемым объектам (спискам и др.)

 Условно, создается специальный zip - объект, который содержит в себе наши списки, по элементам которых мы хотим пройтись циклом for

Подробнее про функцию zip:
* https://tproger.ru/translations/implementing-zip-list-comprehensions/
* https://pyneng.readthedocs.io/ru/latest/book/10_useful_functions/zip.html

Также если у нас,например, посто 2 строки или мы хотим собрать воедино слова в одном списке, можем использовать функцию join:

Подробности про функцию join:
* https://www.w3schools.com/python/ref_string_join.asp
* https://pythonz.net/references/named/string.join/

In [79]:
str1 = 'Hello'
str2 = 'World'
lst = [str1,str2]
''.join(lst)

'HelloWorld'

#### А если наоборот надо разбить строку на отдельные слова/буквы?

На слова или части

Функция split() - разбивает строку на части, используя разделитель, и возвращает эти части списком. Направление разбиения: слева направо.

In [80]:
phrase = "Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической"

In [81]:
phrase

'Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической'

In [82]:
phrase.split()

['Выдвинутая',
 'гипотеза',
 'нуждается',
 'в',
 'проверке,',
 'которая',
 'осуществляется',
 'статистическими',
 'методами,',
 'поэтому',
 'гипотезу',
 'называют',
 'статистической']

In [83]:
phrase.split(',')

['Выдвинутая гипотеза нуждается в проверке',
 ' которая осуществляется статистическими методами',
 ' поэтому гипотезу называют статистической']

Разбить на буквы в целом совсем просто

In [84]:
p = list(phrase)

In [85]:
p[:15]

['В', 'ы', 'д', 'в', 'и', 'н', 'у', 'т', 'а', 'я', ' ', 'г', 'и', 'п', 'о']

#### Нахождение длины строки vs подсчет количества символов в строке

In [86]:
word = 'Day' + '<3' + ' '

In [87]:
w = 'abc '

In [88]:
len(w)

4

In [89]:
word = word  * 10 

In [90]:
word

'Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 '

In [91]:
len(word)

60

При нахождении длины строки будут посчитаны также и пробелы, что не очень удобно. Например, мы хотим найти строку, в которой присутствует ошибка в использовании какой-либо аббревиатуры,если мы знаем, что это связано с лишней буквой, нам важно убрать возможные пробелы и сравнить количество символов в строках. Приемлимый вариант - использовать функцию replace().

In [92]:
len(word.replace(' ', ''))

50

####  Приведение к единому регистру/формату написания

Изменение регистра требуется довольно таки часто. Например вы хотите изучать данные, которые собирали сами через гугл формы и при введение города не все ваши друзья использовали единый паттерн, кто-то писал капсом, кто-то с маленькой или большой буквы и т.д, исправляется довольно таки легко.
<br> * lower() - нижний регистр; </br>
<br> * upper() - верхний регистр; </br>
<br> * capitalize(),title() - первый символ с заглавной буквы, а остальные с маленькой </br>

Иногда увы приходится работать сданными, введенными вручную или просто различным написанием тех же городов. И если один и тот же город написан по-разному, разным регистром например, то при нашей попытке агрегировать по городу и что-то считать, мы разумеется получим для каждого варианта написания города свой подсчет. Поэтому важно уметь приводить строки к одному регистру

In [93]:
city = ['москва','МОСКва','МОСКВА','Санкт-петербург','САНКТ-ПЕТЕРБУРГ']

In [94]:
lower_names = []
upper_names = []
norm_names = []
for name in city:
    lower_names.append(name.lower())
    upper_names.append(name.upper())
    norm_names.append(name.title())

In [95]:
lower_names

['москва', 'москва', 'москва', 'санкт-петербург', 'санкт-петербург']

In [96]:
upper_names

['МОСКВА', 'МОСКВА', 'МОСКВА', 'САНКТ-ПЕТЕРБУРГ', 'САНКТ-ПЕТЕРБУРГ']

In [97]:
norm_names

['Москва', 'Москва', 'Москва', 'Санкт-Петербург', 'Санкт-Петербург']

#### Срезы и индексы также поддерживаются

Строки также поддерживают работу с индексами и срезами, так что мы можем использовать этот функционал

In [98]:
word

'Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 '

In [99]:
word[7]

'a'

In [100]:
word[:10]

'Day<3 Day<'

In [101]:
word[10:]

'3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 Day<3 '

Также можем узнать индекс какого-либо символа или проверить его вхождение в строку

In [102]:
supertrue = 'Lena is the best teacher'

In [103]:
supertrue

'Lena is the best teacher'

In [104]:
'Somebody else' in supertrue

False

In [105]:
'Lena' in supertrue

True

In [106]:
supertrue.index('s')

6

### Множества

#### Определение

Множество в python содержат не повторяющиеся элементы в случайном порядке

Чаще всего можно встретить использование множества для удаления повторяющихся значений. Например, когда мы приводили названия городов к одному регистру, затем мы могли бы оставить только уникальные, отправив наш список городов на вход множеству

Так и сделаем

In [107]:
norm_names

['Москва', 'Москва', 'Москва', 'Санкт-Петербург', 'Санкт-Петербург']

In [108]:
uniq_names = set(norm_names)

In [109]:
uniq_names

{'Москва', 'Санкт-Петербург'}

#### Базовые функции

Многие функции похожи на функции работы со списками, полный список и описание можно будет изучить тут - https://pythonworld.ru/tipy-dannyx-v-python/mnozhestva-set-i-frozenset.html

#### Изменяемые множества

Обычные множества являются изменяемым типом данных

Так что если мы добавим элемент с наше множество, оно также как и списком не создаст новый объект в памяти, а изменит существующий

In [110]:
id(uniq_names)

4489938896

In [111]:
uniq_names.add('a')

In [112]:
uniq_names

{'a', 'Москва', 'Санкт-Петербург'}

In [113]:
id(uniq_names)

4489938896

#### Неизменяемые множества

Единственное отличие это то, что эти множества не изменяются. Для того, чтобы создать неизменяемое множество:

In [114]:
st = frozenset([1,2,3,4,5])

In [115]:
st

frozenset({1, 2, 3, 4, 5})

Но добавить элемент в такое множество мы уже не сможем

In [116]:
#st.add(5)

#### Интересные возможности множеств

Если у вас в памяти множества из теории множеств и так далее, то и отлично.   Мы имеем неплохой арсенал для работы с множествами привычным для нас способом

In [117]:
st1 = set([i for i in range(25,30)])

In [118]:
st2 = set([i for i in range(20,40)])

**Пересечение множеств**

<img width = '300px' src = https://upload.wikimedia.org/wikipedia/commons/thumb/6/6d/Venn_A_intersect_B.svg/1200px-Venn_A_intersect_B.svg.png>

In [119]:
st1.intersection(st2)

{25, 26, 27, 28, 29}

Например, у нас есть клиенты, которым мы дали промокод и мы хотим сколько из них поехало в этом месяце. Для этого нам вполне достаточно найти пересечение двух этих множеств

In [120]:
clients_with_promo = set([i for i in range(100,198700)])

In [121]:
pay_clients = set([i for i in range(7911,3000000)])

In [122]:
promo_pay = clients_with_promo.intersection(pay_clients)

In [123]:
len(promo_pay)

190789

А чтобы посчитать кто не поехал , достаточно найти разницу

<img width = '300px' src = https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/Venn_A_setminus_B.svg/1200px-Venn_A_setminus_B.svg.png>

In [124]:
diff = clients_with_promo.difference(pay_clients)

In [125]:
len(diff)

7811

В целом реализованы все привычные функции работы со множествами, доступны по ссылку что выше в базовых функциях.

### Кортежи

#### Определение

Кортеж (tuple) – это неизменяемая структура данных, которая по своему подобию очень похожа на список.

Подробно про кортежи :
* https://devpractice.ru/python-lesson-8-tuple/
* https://www.bestprog.net/ru/2020/04/15/python-operations-on-tuples-bypass-of-tuple-methods-of-working-with-tuples-ru/

Работа с кортежами во многом очень похожа на работу со списками, НО так как это неизменяемый тип данных, все действия, связанные с добавлением, вставкой и тд символов - недоступны. 

Но мы абсолютно также можем работать с индексами, обращаясь к элементам кортежа,перебирать элементы и искать нужные, можем конкатенировать кортежи как строки и так далее

Синтаксис создания

In [126]:
a = (1,2,3,4,5)

In [127]:
a

(1, 2, 3, 4, 5)

In [128]:
type(a)

tuple

или

In [129]:
b = tuple([1,2,3,4,5])

In [130]:
b

(1, 2, 3, 4, 5)

Когда лучше использовать кортежи?

* основное - если важно, чтобы данные небыли изменены;
* часто можно увидеть аргумент в пользу того, что кортежи занимают меньше места в памяти

In [131]:
lst = [1,2,3]

In [132]:
tpl = (1,2,3)

In [133]:
lst.__sizeof__()

64

In [134]:
tpl.__sizeof__()

48

#### Примеры применения известных нам подходов

In [135]:
tpl = (1,2,3,4,5,6,7,8,9,10)

1) индексы,срезы

In [136]:
tpl[0]

1

In [137]:
tpl[:5]

(1, 2, 3, 4, 5)

In [138]:
tpl[5:]

(6, 7, 8, 9, 10)

2) конкатенация

In [139]:
t1 = ('abc','a','yyyy')
t2 = ('bca','xxx','ooo')
t1 + t2

('abc', 'a', 'yyyy', 'bca', 'xxx', 'ooo')

Если хотим в определенном порядке как в случае с именами (когда изучали списки), то также можем пройтись по кортежам, записывая их в список, не в кортеж

In [140]:
res = [a + ' ' + b for a, b in zip(t1,t2)]

In [141]:
res

['abc bca', 'a xxx', 'yyyy ooo']

3) нахождение длины

In [142]:
len(t1)

3

4) проверка вхождения

In [143]:
'abc' in t1

True

In [144]:
'uuuuuu' in t2

False

5) индекс элемента

In [145]:
t1.index('yyyy')

2

### Словари

#### Определение

Словарь (dict) представляет собой структуру данных (которая ещё называется ассоциативный массив), предназначенную для хранения произвольных объектов с доступом по ключу. Данные в словаре хранятся в формате ключ – значение. Если вспомнить такую структуру как список, то доступ к его элементам осуществляется по индексу, который представляет собой целое неотрицательное число, причем мы сами, непосредственно, не участвуем в его создании (индекса). В словаре аналогом индекса является ключ, при этом ответственность за его формирование ложится на программиста.

Подробнее про словари:
* https://developers.google.com/edu/python/dict-files;
* https://devpractice.ru/python-lesson-9-dict/;
* https://www.learnbyexample.org/python-dictionary/
* https://www.educative.io/edpresso/how-does-the-dictionary-work-in-python

Скобки для создания словаря выглядят также как и скобки для создания множества, однако указав пустые фигурные скобки мы можем создать только пустой словарь

In [146]:
my_dict = {}

In [147]:
type(my_dict)

dict

Словарь в Python - это объект сопоставления, который сопоставляет ключи со значениями, где ключи уникальны в пределах коллекции, а значения могут содержать любое произвольное значение. Помимо уникальности ключи также должны быть хешируемыми.

Syntax
<br> dictionary = { key1 : Value1, key2 : Value2, …}

Создадим простой словарь

In [148]:
clients = {'Max':25,'Ivan':25}

In [149]:
clients

{'Max': 25, 'Ivan': 25}

In [150]:
clients = dict.fromkeys(['Max', 'Ivan'],25)

In [151]:
clients

{'Max': 25, 'Ivan': 25}

Словари - это реализация ассоциативных массивов . Все ассоциативные массивы имеют структуру пар (ключ, значение), где каждый ключ уникален для каждой коллекции.

В отличие от упорядоченных типов данных, таких как списки и кортежи, где индексация достигается с помощью позиционных индексов, словари индексируются с использованием их ключей. Следовательно, с помощью этих ключей можно получить доступ к отдельным значениям.

#### Доступ к элементам

In [152]:
d = dict(
  title="Analyst",
  location="Russia",job_type="full time",
  employer="Mail.ru"
)

In [153]:
d

{'title': 'Analyst',
 'location': 'Russia',
 'job_type': 'full time',
 'employer': 'Mail.ru'}

In [154]:
d['title']

'Analyst'

In [155]:
d.get('location')

'Russia'

In [156]:
d['title'] == 'Analyst'

True

In [157]:
d.items()

dict_items([('title', 'Analyst'), ('location', 'Russia'), ('job_type', 'full time'), ('employer', 'Mail.ru')])

Можем получить только ключи

In [158]:
d.keys()

dict_keys(['title', 'location', 'job_type', 'employer'])

Или только значения

In [159]:
d.values()

dict_values(['Analyst', 'Russia', 'full time', 'Mail.ru'])

#### Добавление новых элементов

In [160]:
d

{'title': 'Analyst',
 'location': 'Russia',
 'job_type': 'full time',
 'employer': 'Mail.ru'}

In [161]:
d['salary'] = 150000

In [162]:
d

{'title': 'Analyst',
 'location': 'Russia',
 'job_type': 'full time',
 'employer': 'Mail.ru',
 'salary': 150000}

Ключа salary не существовало, поэтому подобный синтаксис позволил добавить его, однако если речь идет о существующем ключе, то такой синтаксис изменит его значение

In [163]:
d['salary'] = 200000

In [164]:
d

{'title': 'Analyst',
 'location': 'Russia',
 'job_type': 'full time',
 'employer': 'Mail.ru',
 'salary': 200000}

#### Копия словаря

In [165]:
d1 = d.copy()

In [166]:
d1

{'title': 'Analyst',
 'location': 'Russia',
 'job_type': 'full time',
 'employer': 'Mail.ru',
 'salary': 200000}

####  Обход словаря

В словарях также возможен итерационный доступ

In [167]:
for key in d:
    print(key)

title
location
job_type
employer
salary


In [168]:
for key in d:
    print(key, '-', d[key])

title - Analyst
location - Russia
job_type - full time
employer - Mail.ru
salary - 200000


Ну и конечно возможен обход и ключей и значений

In [169]:
for key, value in d.items():
    print(key, '-', value)

title - Analyst
location - Russia
job_type - full time
employer - Mail.ru
salary - 200000


Это может быть использовано для изменения значений

In [170]:
for k, v in d.items():
    d[k] = str(v).upper()

In [171]:
d

{'title': 'ANALYST',
 'location': 'RUSSIA',
 'job_type': 'FULL TIME',
 'employer': 'MAIL.RU',
 'salary': '200000'}

# Функции

![f](https://cdn.askpython.com/wp-content/uploads/2019/06/python-functions.png)

Почитать про функции
* http://pythonicway.com/python-functions
* https://www.w3schools.com/python/python_functions.asp
* https://www.programiz.com/python-programming/function
* https://www.tutorialspoint.com/python/python_functions.htm

Функция - это блок организованного многократно используемого кода, который используется для выполнения одного связанного действия. Функции обеспечивают лучшую модульность вашего приложения и высокую степень повторного использования кода.

Как вы уже знаете, Python предоставляет множество встроенных функций, таких как print () и т. Д., Но вы также можете создавать свои собственные функции. Эти функции называются пользовательскими функциями.

### Определение функций


Вы можете определять функции для обеспечения необходимой функциональности. Вот простые правила для определения функции в Python.

1) Функциональные блоки начинаются с ключевого слова def, за которым следует имя функции и круглые скобки (()).

2) Все входные параметры или аргументы должны быть заключены в эти круглые скобки. Вы также можете определить параметры внутри этих скобок.

3) Первое утверждение функции может быть необязательное заявление - документация строка функции или строки документации .

4) Блок кода внутри каждой функции начинается с двоеточия (:) и имеет отступ.

5) Оператор return  завершает функцию, опционально передавая выражение вызывающей стороне. Оператор return без аргументов аналогичен return None.



**Пример**

In [172]:
def mean(data):
    return sum(data)/len(data)

In [173]:
lst = [1,1,1,2,3,3,4,5,5,6,6,6,6,10,22,33,400,45,67,50,11,2,2,1,1,1,1,1200,44,55,1,1,5,5,5,5,5]

In [174]:
mean(lst)

54.62162162162162

а так нам не вернется результат

In [175]:
def mean1(data):
    sum(data)/len(data)
    return

In [176]:
print(mean1(lst))

None


Наша простая функция по нахождению среднего принимает на вход список и возвращает в результате сумму его элементов, деленную на количество элементов

Конечно же, функции могут быть сложнее, вспомним нашу функцию с нахождением медианы

In [177]:
def median(data):
    index = (len(data) - 1) // 2

    if (len(data) % 2):
        return sorted(data)[index]
    else:
        return (sorted(data)[index] + sorted(data)[index + 1])/2

In [178]:
median(lst)

5

### Анонимные функции (лямбда - выражение)

![g](https://0xbharath.github.io/art-of-packet-crafting-with-scapy/img/lambda.png)

Почитать про анонимные функции:
* https://pyneng.readthedocs.io/ru/latest/book/10_useful_functions/lambda.html
* https://webdevblog.ru/kak-ispolzovat-v-python-lyambda-funkcii/
* https://ru.hexlet.io/courses/python-functions/lessons/lambda-functions/theory_unit

В Python лямбда-выражение позволяет создавать анонимные функции - функции, которые не привязаны к имени.

В анонимной функции:

* может содержаться только одно выражение
* могут передаваться сколько угодно аргументов

Примеры

In [179]:
def func (x): 
    return x**10
func(5)

9765625

In [180]:
l_func = lambda x: x**10
l_func(5)

9765625

В определении лямбда-функции нет оператора return, так как в этой функции может быть только одно выражение, которое всегда возвращает значение и завершает работу функции.

Лямбда-функцию удобно использовать в выражениях, где требуется написать небольшую функцию для обработки данных.

Как правило, lambda-выражения используются при вызове функций (или классов), которые принимают функцию в качестве аргумента.

Встроенная функция сортировки Python принимает функцию в качестве ключевого аргумента. Эта ключевая функция использует для вычисления сравнительного ключа при определении порядка сортировки элементов.

Таким образом, сортировка — отличный пример места, в котором используются лямбда-выражения:

In [181]:
colors = ["Goldenrod", "purple", "Salmon", "turquoise", "cyan",'RED','YELLOW','BLACK','blue']
sorted(colors)

['BLACK',
 'Goldenrod',
 'RED',
 'Salmon',
 'YELLOW',
 'blue',
 'cyan',
 'purple',
 'turquoise']

Как мы видим обычная сортировка чувствительная к регистру

In [182]:
sorted(colors, key= lambda color: color.casefold())

['BLACK',
 'blue',
 'cyan',
 'Goldenrod',
 'purple',
 'RED',
 'Salmon',
 'turquoise',
 'YELLOW']

Теперь вы сравниваете слова без учета регистра)