#### @author: Александр Владимирович Толмачев | axtolm@gmail.com
<hr>

## Курс Python for Data Mining

## Раздел 1. Основы языка Python

## Часть 1. Синтаксис и типы данных

### На этом занятии:
- Введение в Python (интерпретация и компиляция, структурное и объектно-ориентированное программирование).
- Синтаксис и типизация языка Python.
- Основные встроенные типы данных (boolean, numeric, list, tuple, dict, set, str) и методы для работы с ними.

### 1. Введение в Python

**Язык Python — интерпретатор компилирующего типа. Что это значит?**<br>
  
**Интерпретатор** - это специальная программа, которая преобразует инструкции пользователя (например, написанные на Python) в байт-код и выполняет их. Есть два типа интерпретаторов:
- **Простые интерпретаторы** (берут одну инструкцию, транслируют ее и сразу выполняют, после чего переходят к следующей), 
- **Интерпретаторы компилирующего типа** (включают две подсистемы - компилятор, который преобразует исходный код программы в промежуточный байт-код, и собственно интерпретатор (виртуальная машина), который байт-код выполняет). Python относится к ним.

Существуют также **компилируемые** языки, такие как C#. Компилятор анализирует весь исходный код целиком и преобразует его в машинный код, который затем может выполняться независимо от исходного кода.<br> 

Ошибки времени выполнения, такие как деление на ноль, в обоих случаях обнаруживаются во время выполнения программы.<br>
По сравнению с компилируемыми языками, Python быстрее в разработке и медленнее в исполнении.

**Структурное и объектно-ориентированное программирование**. Python поддерживает обе парадигмы.<br>
Для работы с данными будем использовать **структурное программирование**.<br>
В основе структурного программирования лежит представление программы в виде иерархической структуры блоков.<br>Есть три базовых управляющих конструкции: последовательность, ветвление, цикл. Кроме того, есть функции.<br>Разработка программы ведётся пошагово, методом «сверху вниз».

**Синтаксис языка программирования. Что это такое?**<br>
**Синтаксис** — набор правил, описывающий комбинации символов алфавита, считающиеся правильно структурированной программой.<br> 
Знание синтаксиса языка программирования важно при написании кода.

### 2. Синтаксис Python
1. Конец строки — конец инструкции.
1. Вложенные инструкции всегда пишутся после основной и отделяются от неё двоеточием.
1. Вложенные инструкции отделяются от основных отступами.

Как выглядит синтаксис Python на примере исполняемого кода:

In [1]:
m = 4                    # присвоение переменной численного значения
print("start")           # вывод на экран слова start
for i in range(1,m):     # оператор цикла, range(0,m) = 0,1,2,...,m-1, вывод на экран переменной цикла
    print("i=",i)        
print("the end," + " m = " + str(m))

start
i= 1
i= 2
i= 3
the end, m = 4


`m = 4 ` - конец строки — конец инструкции или одна строка — одна инструкция

Цикл `for` - пример основной и вложенной инструкций.<br>
`for i in range(1,m):` - основная инструкция, идет с начала строки, в конце `:`<br>
`print("i=",i)` - вложенная инструкция, идет с отступом от начала строки

**Исключения**  
Если очень нужно сделать **несколько инструкций в одной строке**, то между ними надо ставить точку с запятой.  
Такой формой записи лучше не увлекаться из-за ухудшения читабельности кода:

In [2]:
k1 = 2; k2 = 4; print(k1*k2)

8


Можно записать **одну инструкцию в нескольких строках**. Для этого достаточно ее заключить в пару круглых, квадратных или фигурных скобок:

In [3]:
v1 = 1; v2 = 2; v3 = 3; v4 = 4
if (v1 ==1 and v2 == 2 
        and v3 == 3 and v4 == 4):
    print("OK!")

OK!


**Тело вложенной инструкции** может располагаться **в той же строке, что и тело основной**, если тело вложенной инструкции не содержит больше вложенностей:

In [4]:
y1 = 5; y2 = 3
if y1 > y2: print(y1-y2)

2


Есть руководство **PEP 8 - Style Guide for Python Code** о том, как оформлять код на языке Python.   
Для чего оно? **Код читается намного больше раз, чем пишется!** - стоит подумать о тех, кто будет работать с вашим кодом.</br>   

О чем там речь - как оформлять **внешний вид кода**, как ставить **пробелы в выражениях и инструкциях**, как писать **комментарии**, каких придерживаться соглашений по **именованию** переменных.

Примеры рекомендаций PEP 8 в разделе **"Внешний вид кода"**
1. **Отступы.** Используйте 4 пробела на каждый уровень отступа.   
1. **Табуляция или пробелы?** Пробелы - предпочтительный метод отступов.
1. **Максимальная длина строки.** Ограничьте длину строки максимум **79** символами. Для более длинных блоков текста с меньшими структурными ограничениями (строки документации или комментарии), длину строки следует ограничить **72** символами.
1. **Пустые строки.** Используйте пустые строки в функциях, чтобы указать логические разделы.
1. **Кодировка исходного файла.** Кодировка Python должна быть UTF-8.
1. **Импорты.** Каждый импорт, как правило, должен быть на отдельной строке.

Ссылка https://www.python.org/dev/peps/pep-0008/   

**Важно!** Python является регистрозависимым. То есть XY != xy

### 3. Типизация в Python:  
a) **неявная** - при объявлении переменной не обязательно указывать ее тип;  
b) **динамическая** - тип переменной определяется во время выполнения программы;  
c) **сильная** - нельзя выполнять операции с переменными разных типов, если не удается выполнить преобразование типов.

### 4. Ограничение на имена переменных  
Имя не должно совпадать с **ключевыми словами** интерпретатора Python. Список ключевых слов можно получить в программе - для этого нужно подключить package keyword и воспользоваться командой `keyword.kwlist`.

In [5]:
# так задается комментарий (с помощью символа "#")
import keyword    # так подключается библиотека (package)
print ("Python keywords: ", keyword.kwlist)    # а так можно вывести данные на экран

Python keywords:  ['False', 'None', 'True', '__peg_parser__', 'and', 'as', 'assert', 'async', 'await', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'nonlocal', 'not', 'or', 'pass', 'raise', 'return', 'try', 'while', 'with', 'yield']


### 5. Основные встроенные типы данных  
    5.1 Логические переменные - Boolean Type
    5.2 Числовые переменные - Numeric Type (int, float, complex)
    5.3 Cписки list
    5.4 Кортежи tuple
    5.5 Словари dict 
    5.6 Множества set
    5.7 Строки str 

### 5.1. Логические переменные - Boolean Type  
Могут принимать значения **True** (Истина) или **False** (Ложь).

Пример - объявление логических переменных `a` и `b` и присвоение им значений `True` и `False`.

In [6]:
a = True    
b = False
print("a = %s, b = %s" % (a, b))    # вывод строки на экран с форматированием и заполнителями типа str (%s)

a = True, b = False


Над логическими переменными можно выполнять логические операции типа `and`, `or`, `not`, `==`, `!=`.

In [7]:
c = a and b    # логическое И (AND)
d = a or b     # логическое ИЛИ (OR)
e = not a      # отрицание НЕ (NOT)
f = (a == b)   # логическое выражение a равно b
g = a != b     # логиеское выражение a не равно b
# вывод строки на экран с форматированием и заполнителями типа str (%s)
print("c = %s, d = %s, e = %s, f = %s, g = %s" % (c, d, e, f, g))

c = False, d = True, e = False, f = False, g = True


### 5.2. Числовые переменные - Numeric Type  
Могут быть **int** (целые числа), **float** (числа с плавающей точкой), **complex** (комплексные числа).<br>
В курсе по анализу данных нам чаще всего будут нужны **int** и **float**.<br>
Над **int** и **float** определены **элементарные арифметические операции**: 

|операция|символ|
|--------|---|
|сложение|+| 
|вычитание|-| 
|умножение|\*| 
|деление|/|
|целая часть от деления|//|
|остаток от деления|%|
|степень|\*\*| 

Определим два числа `x1` и `x2` для дальнейших операций с ними.

In [8]:
x1 = 23       # int
x2 = 4.2      # float
print(x1, type(x1))    # выведем на экран переменную x1 и ее тип (функция type() возвращает тип переменной)
print(x2, type(x2))    # выведем на экран переменную x2 и ее тип

23 <class 'int'>
4.2 <class 'float'>


Операция __сложение__ `+`

In [9]:
x_sum = x1+x2              # сумма x1 и x2
print(x_sum, type(x_sum))    # выведем на экран сумму и ее тип 

27.2 <class 'float'>


При сложении `python` выполнил преобразование `int` -> `float` и результат сложения имеет тип `float`

Операция __вычитание__ `-`

In [10]:
x_diff = x1-x2               # разность x1 и x2     
print(x_diff, type(x_diff))    # выведем на экран разность и ее тип 

18.8 <class 'float'>


Операция __умножение__ `*`

In [11]:
x_mult = x1*x2         # произведение x1 и x2 
print(x_mult, type(x_mult))    # выведем на экран произведение и его тип 

96.60000000000001 <class 'float'>


Операция __деление__ `/`

In [12]:
x_div = x1/x2                # деление x1 на x2
print(x_div, type(x_div))    # выведем на экран результат деления и его тип 

5.476190476190476 <class 'float'>


Операция __целая часть от деления__ `//`<br>
Просто отбрасывается дробная часть. Правила округления здесь не работают.

In [13]:
x3_1 = x1 // 7             
x3_2 = x2 // 3             
print(x3_1, type(x3_1))    # выведем на экран переменную x3_1 и ее тип 
print(x3_2, type(x3_2))    # выведем на экран переменную x3_2 и ее тип

3 <class 'int'>
1.0 <class 'float'>


Операция __остаток от деления__ `%`<br>
По сути считается так: `a % b = a - b*(a//b)`.

In [14]:
x4_1 = x1 % 23    
x4_2 = x2 % 2     
x4_3 = x2 % 4     # внимание! x4_2 == x4_3
print(x4_1, type(x4_1))    # выведем на экран переменную x4_1 и ее тип 
print(x4_2, type(x4_2))    # выведем на экран переменную x4_2 и ее тип
print(x4_3, type(x4_3))    # выведем на экран переменную x4_3 и ее тип 

0 <class 'int'>
0.20000000000000018 <class 'float'>
0.20000000000000018 <class 'float'>


**Встроенные функции для работы с числами**   
`int(х)` - преобразование к целому числу  
`float(x)` - преобразование к числу с плавающей точкой  
`abs(x)` - модуль числа x  
`round(x\[,n\])` - округление х до n знаков после запятой (в Python 3 округление по банковским правилам, а не по арифметическим!!!)  

In [15]:
print(round(2.35,1), round(2.25,1))

2.4 2.2


**Банковские правила округления**<br>
Рассмотрим округление с точностью до 1 знака после запятой.<br>
Если в первом знаке после запятой стоит **нечетное** число и после него идет **5**, то нечетное число округляется вверх: `2.35` -> `2.4`<br>
Если в первом знаке после запятой стоит **четное** число и после него идет **5**, то четное число округляется вниз: `2.25` -> `2.2`<br>

**Библиотека математических функций `math`**

Большинство часто используемых математических функций содержит package **math**, который входит в стандартную поставку Python.  
Полное описание функций в составе math тут: <a> https://docs.python.org/3/library/math.html </a>. 

**Константы**  
*math.pi* (число пи), *math.e* (число е)  
**Тригонометрические функции**  
*math.cos(x)*, *math.sin(x)*, *math.tan(x)*  
*math.acos(x)*, *math.asin(x)*, *math.atan(x)*    
**Степенные и логарифмические функции**  
*math.exp(x)* - экспонента e\*\*x    
*math.log2(x)* - логарифм по основанию 2  
*math.log10(x)* - логарифм по основанию 10  
*math.log(x\[, base\])* - логарифм по произвольному основанию (по умолчанию e)  
*math.pow(x, y)* -  значение x в степени y    
*math.sqrt(x)* - квадратный корень из x  
**Округление чисел и другие операции**  
*math.ceil(х)* - ближайшее целое число >= x  
*math.floor(х)* - ближайшее целое число <= x  
*math.fabs(x)* - абсолютное значение числа x  
*math.factorial(x)* - факториал x  

In [16]:
import math as m    # сначала package надо импортировать (здесь импорт под псевдонимом "m")
g = 5.1             # присвоим значение переменной g 
g1 = m.ceil(g)      # ближайшее целое число >= g
g2 = m.floor(g)     # ближайшее целое число <= g
print(g1,type(g1))  # выведем на экран результат и его тип
print(g2,type(g2))  # выведем на экран результат и его тип

6 <class 'int'>
5 <class 'int'>


Также в `math` есть константы типа $e$, $\pi$

In [17]:
print(m.e, m.pi)    # выведем на экран

2.718281828459045 3.141592653589793


**Complex** (комплексные числа) можно создать двумя путями: использовать функцию x = complex(a,b) или записать в явном виде x = a + bj. Можно извлечь действительную и мнимую части x.real, x.imag. 

In [18]:
k = complex(5,4)        # присвоим переменной k комплексное число 5 + 4j
l = 6 + 5j              # присвоим переменной l комплексное число 6 + 5j
print(k, type(k))       # выведем на экран переменную k и ее тип
print(k.real, k.imag)   # выведем на экран действительную и мнимую части переменной k
print(l, type(l))       # выведем на экран переменную l и ее тип

(5+4j) <class 'complex'>
5.0 4.0
(6+5j) <class 'complex'>


Числа **complex** можно складывать, вычитать, умножать, делить и возводить в степень.   
В курсе для аналитиков нам они не пригодятся и мы их рассматривать не будем.

**Максимальные значения для int и float**

In [19]:
import sys
print('max float: ', sys.float_info.max)
print('max int: ', sys.maxsize)

max float:  1.7976931348623157e+308
max int:  9223372036854775807


### 5.3.Список list      
`list` - тип данных для хранения объектов различных типов.<br>
Список в чем-то похож на массивы из других языков.<br>
Размер списка динамичен. Тип данных изменяемый.<br> 

Ссылки:     
https://docs.python.org/3/tutorial/datastructures.html#more-on-lists     
https://docs.python.org/3/library/stdtypes.html#sequence-types-list-tuple-range 

**Как создать (объявить) список**

In [20]:
l1 = []                           # пустой список
l2 = [1,2,3,4,5]                  # явное объявление списка
l3 = [1,2,'a','d']                # список из данных разных типов
l4 = [i**2 for i in range(0,5)]   # с помощью генератора списка (!!!)
print(l1,l2,l3,l4)                # выведем на экран все 4 списка
print(type(l3))                   # выведем на экран тип переменной l3 

[] [1, 2, 3, 4, 5] [1, 2, 'a', 'd'] [0, 1, 4, 9, 16]
<class 'list'>


**Обращение к элементам списка по индексу**<br>
Нумерация индексов начинается с **0**.<br>

In [21]:
print(l2[0],l2[4])        # выведем на экран элементы списка l2 с индексами 0 и 4

1 5


Индекс может быть **отрицательным**. В этом случае обращение идет с конца.

In [22]:
print(l2[-1],l2[-5])     # выведем на экран элементы списка l2 с индексами -1 (это 5 с начала) и -5 (это 0 с начала)

5 1


**Есть еще срезы (slices)**, которые позволяют выбрать часть списка по индексам.<br>
Так `list[start:stop:step]` берёт срез от индекса `start` до индекса `stop`, не включая его, с шагом `step`.<br>
По умолчанию `start = 0`, `stop` = длине объекта, `step = 1`. Какие-то (возможно все) параметры могут быть опущены.<br>

In [23]:
l5 = [1,2,3,4,5,6,7,8,9]    # создадим список l5
print(l5[0:6:2])            # срез от индекса 0 до индекса 5 включительно с шагом 2
print(l5[:2])               # срез от начала списка до индекса 1 включительно с шагом 1
print(l5[4:])               # срез от индекса 4 до конца списка с шагом 1

[1, 3, 5]
[1, 2]
[5, 6, 7, 8, 9]


**Важно! Операция присваивания не копирует список, а лишь создаёт ссылку на него.** 

In [24]:
z1 = [1,2,3]    # создаем список
z2 = z1         # присвоим z1 переменной z2 
z3 = z1.copy()  # сделаем копию z1 и присвоим z3
z1[0] = 25      # изменим элемент с индексом 0 в списке z1
print(z1,z2,z3) # выведем все три списка на экран

[25, 2, 3] [25, 2, 3] [1, 2, 3]


При изменении `z1`:<br>
- `z2`, полученный из `z1` путем присваивания, **меняется**,
- `z3`, полученный из `z1` путем копирования, **остается без изменений**.

**В случае с числами было бы иначе**

In [25]:
y1 = 5         # присвоим 5 переменной y1
y2 = y1        # присвоим y1 переменной y2
y1 = y1**2     # изменим y1
print(y1,y2)   # выведем y1 и y2 на экран

25 5


При изменении `y1`:<br>
- `y2`, полученный из `y1` путем присваивания, **не меняется**.

**Встроенные функции python для работы со списками**

Определим список `z4` для дальнейших операций. 

In [26]:
z4 = [1,2,3,9,5,6,7,8]    # список z4 из целых чисел

Функция `len()` возвращает число элементов в списке.

In [27]:
print(len(z4))    

8


Функция `sorted(x)` возвращает копию отсортированного списка `x` (при этом исходный список не меняется).<br>
`sorted(x,reverse=True)` вернет список, отсортированный по убыванию.<br>

In [28]:
print(sorted(z4))   # отсортированный список
print(z4)           # исходный список (он не меняется)

[1, 2, 3, 5, 6, 7, 8, 9]
[1, 2, 3, 9, 5, 6, 7, 8]


Функции `min(x)`, `max(x)` возвращают минимальный и максимальный элементы списка, `sum(x)` - сумму элементов.

In [29]:
print(min(z4),max(z4),sum(z4))  # выведем на экран min, max, sum для списка z4

1 9 41


Функция сложения списков `+`

In [30]:
z4_1 = sorted(z4, reverse = True)    # сделаем копию отсортированного по убыванию списка, чтобы было с чем складывать
z4_2 = z4 + z4_1                     # выполним сложение списков
print(z4, z4_1)                      # выведем исходные списки
print(z4_2)                          # выведем результат сложения 

[1, 2, 3, 9, 5, 6, 7, 8] [9, 8, 7, 6, 5, 3, 2, 1]
[1, 2, 3, 9, 5, 6, 7, 8, 9, 8, 7, 6, 5, 3, 2, 1]


Если нужна поэлементная сумма, то придется написать свою функцию (как это делается рассматривается в части 3).

In [31]:
def add_list(x, y):
    return list(map(lambda a, b: a + b, x, y))

Применим ее к нашим двум спискам `z4` и `z4_1` и выведем реузльтат на экран.

In [32]:
z4_3 = add_list(z4,z4_1)
print(z4_3)

[10, 10, 10, 15, 10, 9, 9, 9]


**В Python `list` это класс (объект) и он имеет собственные методы для работы с данными списка**  
Вызов функций и методов отличается.    
Вызов функции был выше: **Имя_функции(аргументы)**, аргументом функции может быть объект, например, список.<br>
Метод вызывается в виде: **Имя_объекта.Имя_метода(параметры)**.      
</i>

Метод `list.append(x)` добавляет элемент `x` в конец списка `list`.

In [33]:
z4.append('9')     # добавим в список к числам символ
print(z4)          # выведем результат

[1, 2, 3, 9, 5, 6, 7, 8, '9']


Метод `list.insert(i, x)` вставляет на место `i-го` элемента значение `x`, сдвигая остальные.

In [34]:
z4.insert(1,22)    # вставим на место с индексом 1 число 22    
print(z4)          # выведем результат

[1, 22, 2, 3, 9, 5, 6, 7, 8, '9']


Метод `list.extend(X)` расширяет список `list`, добавляя в конец все элементы списка `Х`

In [35]:
z5 = [31,32,31]    # создадим список z5
z4.extend(z5)      # расширим список z4 элементами списка z5
print(z4)          # выведем результат

[1, 22, 2, 3, 9, 5, 6, 7, 8, '9', 31, 32, 31]


Если применить метод `list.append(x)`, то в качестве одного элемента будет добавлен список.

In [36]:
z4.append(z5)      # добавим в конец z4 список z5
print(z4)          # выведем результат

[1, 22, 2, 3, 9, 5, 6, 7, 8, '9', 31, 32, 31, [31, 32, 31]]


Метод `list.remove(x)` удаляет первый элемент в списке, имеющий значение `x`<br>
Если такого элемента в списке нет, то будет ошибка `ValueError` (запустите этот блок два раза)

In [37]:
z4.remove(22)      # удалим число 22 из списка z4
print(z4)          # выведем результат

[1, 2, 3, 9, 5, 6, 7, 8, '9', 31, 32, 31, [31, 32, 31]]


Метод `list.pop(i)` удаляет `i-ый` элемент и возвращает его значение.<br> 
Если индекс не указан, метод применяется к последнему элементу списка.

In [38]:
z4_v1 = z4.pop(1)    # удалим элемент с индексом 1 и присвоим его переменной z4_v1. 
print(z4_v1, z4)     # выведем результат и список z4 с удаленным элементом

2 [1, 3, 9, 5, 6, 7, 8, '9', 31, 32, 31, [31, 32, 31]]


Метод `list.count(x)` возвращает количество элементов списка `list`, имеющих значение `x`.

In [39]:
z4_v2 = z4.count(31)   # найдем количество элементов 31 в списке z4
print(z4_v2)           # выведем результат

2


Метод `list.index(x,[start[,end]])` возвращает индекс первого элемента `== x` (поиск от `start` до `end`).<br>
Если элемента в списке нет, то метод вернет ошибку `ValueError`!

In [40]:
z4_v3 = z4.index(310)  # найдем в списке z4 индекс элемента 310 (его в списке нет) 
print(z4_v3)           # выведем результат

ValueError: 310 is not in list

Удалим из списка `z4` для дальнейших действий нечисловые элементы.

In [41]:
z4.remove('9')             # удалим из списка элемент типа str   
z4.remove([31, 32, 31])    # удалим из списка элемент типа list   
print(z4)

[1, 3, 9, 5, 6, 7, 8, 31, 32, 31]


Метод `list.sort([key=функция])` сортирует список на основе функции.<br> 
Если бы не удалили элементы типа str и list, то при сортировке была бы ошибка.<br>
Метод `sort` в отличие от функции сортировки изменяет исходный объект, не сохраняя исходных данных!

In [42]:
z4.sort(reverse=True)   # сортировка по убыванию
print(z4)               # выведем результат

[32, 31, 31, 9, 8, 7, 6, 5, 3, 1]


Метод `list.reverse()` разворачивает список.

In [43]:
z4.reverse()            # развернем список
print(z4)               # выведем результат

[1, 3, 5, 6, 7, 8, 9, 31, 31, 32]


Метод `list.copy()` создает поверхностную копию списка.

In [44]:
z6 = z4.copy()    # сделаем копию списка z4 и сохраним ее в z6 
print(z4, z6)

[1, 3, 5, 6, 7, 8, 9, 31, 31, 32] [1, 3, 5, 6, 7, 8, 9, 31, 31, 32]


Выведем идентификаторы объектов `Python` с помощью функции `id` - они разные!

In [45]:
print(id(z4), id(z6))    

2364555085376 2364555345984


Метод `list.clear()` очищает список.

In [46]:
z4.clear()                # очистим список z4
print(z4, z6)             # выведем на экран списки z4 и z6
print(id(z4),id(z6))      # выведем идентификаторы объектов

[] [1, 3, 5, 6, 7, 8, 9, 31, 31, 32]
2364555085376 2364555345984


### 5.4. Кортежи tuple  
`tuple` - тип данных, похожий на `list`, только неизменяемый.<br>
Зачем нужны кортежи, если есть списки? Защита данных: кортеж защищен от изменений, как намеренных, так и случайных.<br>
Имеет чуть меньший размер. При анализе данных используются не часто. Методы и функции как для list, если они не изменяют элементы.

Ссылка: https://docs.python.org/3/tutorial/datastructures.html#tuples-and-sequences

**Как создать (объявить) кортеж:**

In [47]:
t1 = ()                           # пустой кортеж
t2 = (1,2,3,4,5)                  # явное объявление списка
t3 = (1,2,'a','d')                # список из данных разных типов
print(t1,t2,t3)                   # выведем на экран все 3 списка
print(type(t3))                   # выведем на экран тип переменной t3 

() (1, 2, 3, 4, 5) (1, 2, 'a', 'd')
<class 'tuple'>


**Обращение к элементам кортежа по индексу аналогично `list`**<br>
Нумерация индексов начинается с **0**.<br>

In [48]:
print(t2[0],t2[4])    # выведем на экран элементы списка l2 с индексами 0 и 4

1 5


**Слайсы** тоже работают

In [49]:
t2[2:]

(3, 4, 5)

Попробуем изменить элемент кортежа - это уже не получится, будет ошибка `TypeError`!

In [50]:
t2[1] = 22  

TypeError: 'tuple' object does not support item assignment

### 5.5. Словари dict  
`dict` - неупорядоченный набор произвольных объектов с доступом к ним по ключу (еще название - ассоциативный массив).  

Ссылка: https://docs.python.org/3/tutorial/datastructures.html#dictionaries

**Как создать (объявить) словарь**

In [51]:
d1 = {}                                                      # пустой словарь
d2 = {"Russia":"Moscow","Germany":"Berlin"}                  # явное объявление словаря
d3 = dict(France="Paris",Germany="Berlin")                   # Ключ - значение
print(d1,d2,d3)                                              # выведем на экран все 3 словаря
print(type(d3))                                              # выведем на экран тип переменной d3 

{} {'Russia': 'Moscow', 'Germany': 'Berlin'} {'France': 'Paris', 'Germany': 'Berlin'}
<class 'dict'>


**Как добавить новую пару в словарь**

In [52]:
d2["China"] = "Beijing"        # добавим в словарь d2 пару "China" - "Beijing"
print(d2)                      # выведем на экран словарь d2

{'Russia': 'Moscow', 'Germany': 'Berlin', 'China': 'Beijing'}


**Обращение к словарю происходит по ключу**

In [53]:
print(d2["Russia"])            # ключ "Russia" - значение "Moscow"

Moscow


Метод `dict.update()` позволяет дополненять и обновлять словарь

In [54]:
d2.update({'Страна':'Столица'})        # дополним словарь
print(d2)                              # выведем на экран
d2.update({'Страна':'Новая столица'})  # обновим словарь
print(d2)                              # выведем на экран

{'Russia': 'Moscow', 'Germany': 'Berlin', 'China': 'Beijing', 'Страна': 'Столица'}
{'Russia': 'Moscow', 'Germany': 'Berlin', 'China': 'Beijing', 'Страна': 'Новая столица'}


К работе со словарями применяются встроенные функции и методы класса `dict`, как в случае с `list`.

### 5.6. Множества  set и frozenset
Множество - неупорядоченный набор **неповторяющихся** элементов.  
`set` - изменяемый тип, `frozenset` - неизменяемый.   
Ссылка: https://docs.python.org/3/tutorial/datastructures.html#sets

**Как создать (объявить) множество:**

In [55]:
a = set()               # пустое множество, но так a = {} нельзя - будет dict
b = {1,2,3,4,5,6,7}     # не пустое множество можно
print(b,type(b))        # выведем на экран множество b и его тип 

{1, 2, 3, 4, 5, 6, 7} <class 'set'>


In [56]:
c = [1,2,3,4,5,5,5,6,6,7,8,9]   # список с повторяющимися элементами
d = set(c)                      # set можно использовать для очистки от повторов
print(c,d)

[1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 8, 9] {1, 2, 3, 4, 5, 6, 7, 8, 9}


Есть встроенные функции и методы класса(объекта) `set` для работы с множествами, например:<br>
`set.union(other, ...)` или `set | other | ...` - объединение нескольких множеств.<br>
`set.intersection(other, ...)` или `set & other & ...` - пересечение.<br>
`set.difference(other, ...)` или `set - other - ...` - разность - множество из всех элементов set, не принадлежащие ни одному из other.

Рассмотрим их на примере множеств `b` и `d`.

In [57]:
print(b,d)    # выведем исходные множества b и d

{1, 2, 3, 4, 5, 6, 7} {1, 2, 3, 4, 5, 6, 7, 8, 9}


In [58]:
e = b | d         # объединение b и d
f = b & d         # пересечение b и d
g = d - b         # разность d и b 
h = b - d         # разность b и d 
print(e,f,g,h)    # выведем результат

{1, 2, 3, 4, 5, 6, 7, 8, 9} {1, 2, 3, 4, 5, 6, 7} {8, 9} set()


### 5.7. Строки 
Строка - упорядоченная последовательность символов, используемая для хранения и представления текстовой информации. 

Ссылка: https://docs.python.org/3/library/stdtypes.html#text-sequence-type-str 

**Как задать строку:**<br>
Используются символы `'` и `"` (они эквивалентны) и `'''` для многострочных блоков.

In [59]:
s1 = 'This is " the first string.'  
s2 = "This is ' the second string."
s3 = '''Многострочный вариант       
текстового блока'''
print(s1,s2,s3)

This is " the first string. This is ' the second string. Многострочный вариант       
текстового блока


Экранированные последовательности - это служебные символы, которые не показываются при отображении строки.<br>
Например, `\n`	- перевод строки, `\t` - табуляция.<br>
Если перед кавычкой стоит символ 'r' (в любом регистре), то механизм экранирования отключается.

In [60]:
s4 = "12345\n67890\t11\n"     # строка с экранированными последовательностями
s5 = r"12345\n67890\t11\n"    # строка с отменой экранированных последовательностей
print(s4,s5)                  # выведем результат

12345
67890	11
 12345\n67890\t11\n


**Встроенные функции и методы для работы со строками**

Функция конкатенации (слияния) строк `+`

In [61]:
ss1 = "1string"    # определим строку ss1
ss2 = '2string'    # определим строку ss2
ss3 = ss1 + ss2    # сложим строки
print(ss3)         # выведем результат

1string2string


Функция `len(s)` возвращает длину строки `s`.

In [62]:
print(len(ss3))

14


Использование функции `*` дает тиражирование строки.

In [63]:
print(ss1*4)

1string1string1string1string


Доступ к символам строки происходит по индексу. Как в списках есть срезы. Вообще, строка - это список из символов.

In [64]:
ss4 = 'letter'             # определим строку ss4 
print(ss4[0],ss4[-1])      # выведем символы строки с индексом 0 и -1
print(ss4[1:4])            # выведем срез по индексам от 1 до 3

l r
ett


Метод `S.find(str, [start],[end])` выполняет поиск подстроки в строке и возвращает номер **первого** вхождения или -1.

In [65]:
ss5 = 'Oneletterwithsmile'    # определим строку ss5
print(ss5.find('with'))       # найдем первое вхождение подстроки 'with'
print(ss5.find('can'))        # найдем первое вхождение подстроки 'can', которой нет

9
-1


Метод `S.rfind(str, [start],[end])` выполняет поиск подстроки в строке и возвращает номер **последнего** вхождения или -1.

In [66]:
ss5 = 'Oneletterwithsmile'    # определим строку ss5
print(ss5.rfind('le'))        # найдем последнее вхождение подстроки 'le'

16


Метод `S.index(str, [start],[end])` выполняет поиск подстроки в строке и возвращает номер **первого** вхождения или вызывает `ValueError`.

In [67]:
print(ss5.index('with'))      # найдем первое вхождение подстроки 'with'

9


Метод `S.rindex(str, [start],[end])` выполняет поиск подстроки в строке и возвращает номер **последнего** вхождения или вызывает `ValueError`.

In [68]:
print(ss5.index('can'))       # найдем последнее вхождение подстроки 'with', которой нет

ValueError: substring not found

Метод `S.replace(шаблон, замена_шаблона)` выполняет замену `шаблона` на `замену_шаблона`.<br>
При этом возвращается копия. Исходная строка `S` не меняется.

In [69]:
ss6 = ss5.replace('with','without')     # найдем в строке ss5 все шаблоны 'with' и заменим их на 'without'
print(ss5,ss6)                          # выведем на экран исходную строку ss5 и результат замены ss6

Oneletterwithsmile Oneletterwithoutsmile


Метод `S.split(символ)` выполняет разбиение строки `S` по разделителю `символ` и возвращает список.

In [70]:
ss5 = 'Oneletterwithsmile'    # определим строку ss5
ss7 = ss5.split('e')          # разобъем строку по символу 'e'
print(ss7,type(ss7))          # выведем результат и его тип

['On', 'l', 'tt', 'rwithsmil', ''] <class 'list'>


Метод `S.join(список)` выполняет сборку строки из `списка` с разделителем `S`

In [71]:
ss9 = 'e'.join(ss7)             # соберем из списка ss7 строку с разделителем 'e'
print(ss9,type(ss9))                      # выведем результат и его тип

Oneletterwithsmile <class 'str'>


Метод `S.count(str, [start],[end])` возвращает количество непересекающихся вхождений подстроки в диапазоне [start,end).<br>
По умолчанию `start = 0` и `end = длина строки`.

In [72]:
print(ss5)                     # выведем строку ss5
print(ss5.count('le'))         # выведем количество вхождений 'le' в строку ss5

Oneletterwithsmile
2


Метод `S.isdigit()` возвращает `True`, если `S` состоит из цифр, иначе `False`.

In [73]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.isdigit() ',ss5.isdigit())   # выведем isdigit() на экран

.isdigit()  False


Метод `S.isalpha()` возвращает `True`, если `S` состоит из букв, иначе `False`.

In [74]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.isalpha() ',ss5.isalpha())   # выведем isalpha() на экран

.isalpha()  True


Метод `S.isalnum()` возвращает `True`, если `S` состоит из букв или цифр, иначе `False`.

In [75]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.isalnum() ',ss5.isalnum())   # выведем isalnum() на экран

.isalnum()  True


Метод `S.islower()` возвращает `True`, если `S` состоит из символов в нижнем регистре, иначе `False`.

In [76]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.islower() ',ss5.islower())   # выведем islower() на экран

.islower()  False


Метод `S.isupper()` возвращает `True`, если `S` состоит из символов в верхнем регистре, иначе `False`.

In [77]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.isupper() ',ss5.isupper())   # выведем isupper() на экран

.isupper()  False


Метод `S.isspace()` возвращает `True`, если `S` состоит из неотображаемых символов, иначе `False`.<br>
Неотображаемые символы - пробел, символ перевода страницы `\f`, новая строка `\n`, перевод каретки `\r`, горизонтальная табуляция `\t`, вертикальная табуляция `\v`.

In [78]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.isspace() ',ss5.isspace())   # выведем isspace() на экран

.isspace()  False


Метод `S.istitle()` возвращает `True`, если слова в строке `S` начинаются с заглавной буквы, иначе `False`.

In [79]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.istitle() ',ss5.istitle())   # выведем istitle() на экран

.istitle()  True


Метод `S.upper()` выполняет преобразование строки `S` к верхнему регистру.

In [80]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.upper() ',ss5.upper())       # выведем на экран ss5 в верхнем регистре

.upper()  ONELETTERWITHSMILE


Метод `S.lower()` выполняет преобразование строки `S` к нижнему регистру.

In [81]:
ss5 = 'Oneletterwithsmile'           # определим строку ss5
print('.lower() ',ss5.lower())       # выведем на экран ss5 в нижнем регистре

.lower()  oneletterwithsmile


Метод `S.capitalize()` переводит 1-й символ строки `S` в верхний регистр, остальные - в нижний.

In [82]:
ss6 = 'Oneletterwithsmile'.upper()           # определим строку ss6 в верхнем регистре
print(ss6, '.capitalize() ',ss6.capitalize())     # выведем на экран ss6 и ss6.capitalize()

ONELETTERWITHSMILE .capitalize()  Oneletterwithsmile


Метод `S.center(width, [fill])` возвращает отцентрованную строку длиной `width`, по краям которой стоит символ `fill` (по умолчанию - это пробел).

In [83]:
ss6 = 'Oneletterwithsmile'.upper()                    # определим строку ss6 в верхнем регистре
print(ss6, '.center(30,"#") ',ss6.center(30,"#"))     # выведем на экран ss6 и ss6.center(30,"#")

ONELETTERWITHSMILE .center(30,"#")  ######ONELETTERWITHSMILE######


Метод `S.lstrip([chars])` выполняет удаление символов [chars] в начале строки.

In [84]:
ss8 = 'Oneletterwithsmile'.center(30,"#")        # определим строку ss8 с символами '#' в начале и конце
print(ss8, '.lstrip("#") ',ss8.lstrip("#"))      # удалим символы '#' в начале строки

######Oneletterwithsmile###### .lstrip("#")  Oneletterwithsmile######


Метод `S.rstrip([chars])` выполняет удаление символов [chars] в конце строки.

In [85]:
ss8 = 'Oneletterwithsmile'.center(30,"#")        # определим строку ss8 с символами '#' в начале и конце
print(ss8, '.rstrip("#") ',ss8.rstrip("#"))      # удалим символы '#' в конце строки

######Oneletterwithsmile###### .rstrip("#")  ######Oneletterwithsmile


Метод `S.strip([chars])` выполняет удаление символов [chars] в начале и в конце строки.

In [86]:
ss8 = 'Oneletterwithsmile'.center(30,"#")        # определим строку ss8 с символами '#' в начале и конце
print(ss8, '.strip("#") ',ss8.strip("#"))      # удалим символы '#' в начале и конце строки

######Oneletterwithsmile###### .strip("#")  Oneletterwithsmile


**Форматирование строк с помощью метода format**<br>
Часто нужно сделать строку, подставив в неё данные, полученные в процессе выполнения программы (ввод, результаты расчетов).<br>
Подстановку данных можно сделать с помощью **форматирования строк**.<br>
Форматирование можно сделать с помощью оператора **%**, либо с помощью метода **format**.

In [87]:
lt = '37.24N'
ln = '-115.81W'
print('Coordinates: {latitude}, {longitude}'.format(latitude=lt, longitude=ln))

Coordinates: 37.24N, -115.81W


In [88]:
ll1 = 2.567765345
ll2 = 342.3564222
print('Result is {:.3} and this is exponential format {:E}'.format(ll1,ll2))
print('Percentage is {:.2%}'.format(ll1/ll2))

Result is 2.57 and this is exponential format 3.423564E+02
Percentage is 0.75%


**Форматирование строк с помощью `%`**<br>


In [89]:
a = 2.54; b = True; c = 'S234'                  # зададим 3 переменные 
print("a = %s, b = %s, c = %s" % (a, b, c))     # вывод строки на экран 

a = 2.54, b = True, c = S234


Важно понимать, что возможности форматирования намного шире здесь рассмотренных, но это не самая актуальная тема при анализе данных.

### Подведем итоги. На этом занятии мы:
- Обсудили общую информацию о языке Python.
- Рассмотрели синтаксис и типизацию языка Python.
- Познакомились с основными встроенными типами данных (boolean, numeric, list, tuple, dict, set, str) и методами для работы с ними. 