## Введение в анализ данных и машинное обучение на Python

### Занятие 1: Введение в Python (версия от 05 октября 2019)

_Лучший друг программиста – ...?_

---

#### Часть 0: Тетрадка Jupyter Notebook
Краткие напоминания:
- Сейчас мы работаем в тетрадке `Jupyter Notebook`. Все тетрадки должны иметь расширение `.ipynb`
- В тетрадках код и текст пишутся в клеточках. Чтобы создать новую клеточку, нажмите на значок `"+"` вверху страницы. Чтобы изменить созданную клетку, два раза нажмите на неё левой кнопкой мыши.
- Чтобы запустить ячейку, убедитесь, что курсор находится в ней, а затем нажмите на кнопку `"Run"` вверху страницы (или комбинацию `Shift-Enter` на клавиатуре). Если в ячейке написан код, то начнётся его выполнение. Если в ячейке написан текст, то начнётся его обработка. Чтобы остановить выполнение ячейки (например, если запущен длинный цикл), нажмите на значок `"Stop"` вверху страницы).
- Чтобы писать в ячейках код, убедитесь, что в выпадающем списке вверху страницы выбран раздел `"Code`". Чтобы писать в ячейках текст, выберите в этом списке `"Markdown"`. По умолчанию новые ячейки создаются с разделом "Code".
- Числа в квадратных скобках слева от ячеек показывают номер запуска ячейки по порядку. Например, `In[3]` означает, что данная ячейка – это третья запущенная по порядку ячейка. Запуск одной и той же ячейки два раза тоже увеличивает номер (воспринимаются как разные ячейки).

#### Часть 1: Markdown

__Markdown__ – язык разметки, который удобно использовать для оформления текста. Поддерживаются базовые операции форматирования (выделение жирным, курсивом и проч.), а также LaTex.

[Полезные материалы, но на английском](https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet)

Ввод текста: какой-то текст.

Какой-то текст на Markdown

Жирный текст: __какой-то жирный текст__ 

**Другой жирный текст**

Для перехода на новую строку, оставьте пустую строку (см. пример с жирным текстом выше).

Курсивный текст: _курсивный текст_

*другой курсивный текст*

Маркированный список:
- пункт 1
- пункт 2
- ещё один пункт

Нумерованный список:
1. пункт 1
2. пункт 2
3. пункт 3

Код: как мы видим, модель `Linear Model 1` показала лучший результат.

Ссылки: [это очень полезный сайт](https://www.google.com).

LaTex ([статья в Википедии](https://ru.wikipedia.org/wiki/LaTeX)):

__LaTex__ – язык разметки, позволяющий набирать сложные типографские документы, в которых, в частности, присутствует математика. Для нашего курса нам могут потребоваться базовые возможности LaTex, например, аккуратный ввод формул.

Строковые формулы: $x + y = 3$. 

Выносные формулы:
$$y(x) = x^2 + 2x + 3$$ 

$$\frac{3+x}{2-x}$$ 

$$X_i^7$$

$$Y_{2n + 2}^{3x+8}$$

---

#### Часть 2: Переменные

In [1]:
# Комментарий
a = 3
b = 7
c = a + b

In [6]:
print(c) # Вывести значение переменной
a
b # Если написать название переменной в конце клеточки, будет выведено её значение

10


7

__Упражнение:__ присвойте переменной `sweets` значение 5, а переменной `cakes` значение 2. Найдите их:
- сумму, разность, произведение, частное, 
- целую часть от деления, остаток от деления.

Выведите результаты.

In [9]:
sweets = 5
cakes = 2
print("Сумма:", sweets + cakes)
print('Разность:', sweets - cakes)
print("Произведение:", sweets * cakes)
print("Частное:", sweets / cakes)

Сумма: 7
Разность: 3
Произведение: 10
Частное: 2.5


In [12]:
print("Целая часть от деления:", sweets // cakes)
print("Остаток от деления:", sweets % cakes)

Целая часть от деления: 2
Остаток от деления: 1


Типы данных:
- None
- Boolean
- Numeric (`int`, `float`)
- Sequence (`list`, `tuple`, `range`, `str`)
- Set (`set`, `frozenset`)
- Dictionary (`dict`)
- и др.

__Упражение__: создайте переменные следующих типов данных:

In [16]:
# None
a = None
print(a)

None


In [19]:
# Boolean (логические переменные: True и False)
c = True
d = False

False

In [22]:
a = 5
c = 3 == 4 # Положи в переменную c результат сравнения 3 и 4
q = 3 == 3 # Положи в переменную q результат сравнения 3 и 3
q

True

In [27]:
a = 5
a = True # True = 1, False = 0 (воспринимаются как числа 1 и 0)
a + 5

6

In [28]:
# Numeric (int и float)
a = 5 # Numeric (int)
b = 6.7 # Numeric (float)

In [29]:
# Str
c = "Hello!" # Можно использовать как одинарные, так и двойные кавычки
c

'Hello!'

Заметьте, что переменная `c` ранее была типа `Boolean`, а теперь стала типа `str`. `Python` позволяет перезаписывать в переменные значения разных типов, так как является языком с _динамической типизацией_. В некоторых других языках программирования (например, `Swift`) тип переменной указывается при её создании, и нельзя присвоить ей значение другого типа, – это языки со _статической типизацией_.

---

#### Часть 3: Коллекции

Коллекции:
1. Последовательности (`sequences`):
    - Изменяемые (`list`)
    - Неизменяемые (`str`, `tuple`)
2. Множества:
    - Изменяемые (`set`)
    - Неизменяемые (`frozenset`)
3. Словари (`dict`)

Коллекция – модель, абстрактное понятие.

`list`, `str`, `tuple` и т.д. – типы данных.

Например, коллекция "Изменяемая последовательность" в `Python` реализуется типом данных `list`. А коллекция "Изменяемое множество" в `Python` реализуется типом данных `set`.

У каждого типа данных есть свои __методы__.

#### 3.1 Списки (`lists`)

In [31]:
list_of_numbers = [1, 2, 3]
list_of_numbers

[1, 2, 3]

In [35]:
# 2 способа создания пустых списков
another_list = list() 
third_list = []

In [2]:
# В списках могут хрниться переменные разных типов, но это не рекомендуется
list_of_different_items = [1, 2, 'Hello', 5, [7, 5]]
list_of_different_items

[1, 2, 'Hello', 5, [7, 5]]

__Упражение__: создайте следующие списки:
- Список из натуральных чисел от 1 до 3.
- Список из первых пяти букв алфавита.
- Список, содержащий два других списка.
- Список, содержащий разные типы данных.

Найдите длину (число элементов) одного из созданных списков. 

In [3]:
natural_numbers = [1, 2, 3]
first_five_letters = ['a', 'b', 'c', 'd', 'e']
list_with_other_two_lists = [[1, 2], ['a', 'b']]
list_of_different_items

[1, 2, 'Hello', 5, [7, 5]]

In [4]:
len(natural_numbers) # len() позволяет узнать длину списка

3

Нужные нам методы списков:
- `.append(element)` – добавляет элемент в конец списка.
- `.copy()` – создаёт копию списка (важно!).
- `.count(value)` – выдаёт число раз, которое `value` входит в список.
- `.sort()` – сортировка списка. 

In [44]:
natural_numbers

[1, 2, 3]

In [45]:
natural_numbers.append(4)
natural_numbers

[1, 2, 3, 4]

In [5]:
a = [1, 2, 3]
b = a # Переменная b ссылается на ту же ячейку в памяти, что и переменная a
b.append(4) 

In [6]:
b

[1, 2, 3, 4]

In [7]:
a # Поэтому при изменении переменной b, изменяется и переменная a

[1, 2, 3, 4]

In [8]:
c = a.copy() # .copy() копирует данные, лежащие в ячейке, на которую
# ссылается переменная a, в другую ячейку, и заставляет переменную c ссылаться на неё
c.append(5)

In [9]:
c

[1, 2, 3, 4, 5]

In [10]:
a # Поэтому теперь при изменении переменной c переменная a не меняется

[1, 2, 3, 4]

In [53]:
a.count(3)

1

In [56]:
unordered_list = [4, 5, 3, 2, 1]
unordered_list.sort()
unordered_list

[1, 2, 3, 4, 5]

Индексирование:
`a[1]`, `a[2:3]`, `a[-1]`.

In [58]:
a

[1, 2, 3, 4]

In [57]:
a[0] # Индексирование начинается с 0: первый элемент списка имеет индекс 0

1

In [59]:
a[3]

4

In [60]:
a[-1] # Последний элемент списка

4

In [61]:
a[-2] # Предпоследний элемент списка

3

In [62]:
a[0:2] # Все элементы с индексами от 0 до (2-1). 
# В общем случае, [a:b] – все элементы списка с индексами от a до (b-1)

[1, 2]

In [63]:
a[2:] # Все элементы, начиная с элемента с индексом 2, до конца списка

[3, 4]

In [64]:
a = [1, [1, 2]]

In [65]:
a[1][1] # Можно индексировать объекты внутри других объектов

2

#### 3.2 Строки (`str`)

In [None]:
text_oneline = 'Это текст на одну строку!'
text_multiline = '''А это текст
на несколько строк!
'''

Сложение и умножение строк: 

Индексирование строк:

Длина строки:

Нужные нам методы строк:
- `.find(element)` – возвращает индекс первого вхождения `element` (или -1).
- `.rfind(element)` – возвращает индекс последнего вхождения `element` (или -1).
- `.split(element)` – разделение строки по `element`.

#### 3.3 Кортежи (`tuples`) 

Индексирование:

#### 3.4 Множества (`sets`)

Нужные нам методы множеств:
- `.add(element)` – добавляет элемент в множество. 
- `.update([a, b, c])` – добавляет несколько элементов в множество.
- `.remove(element)` и `.discard(element)`– удаляет элемент из множества (`.discard()` не выдаёт ошибку).
- `.union(set2)` – возвращает объединение с `set2`.
- `intersection(set2)` – возвращает пересечение с `set2`.

#### 3.5 Словари (`dictionaries`) 

`dict()` – пустой словарь.

Нужные нам методы словарей:
- `.keys()` – возвращает список с ключами словаря. 
- `.values()` – возвращает список со значениями словаря.

---

#### Часть 4: Операторы и циклы

#### 4.1 if ... elif ... else

Важные операторы: 
- `break` – прерывает выполнение цикла.
- `continue` – начинает следующую итерацию цикла.

#### 4.2 for ... in ...

#### 4.3 for ... in range(...)

#### 4.4 while ...

---

#### Часть 5: Функции

- Документация к функциям: `?...()`
- Своя документация: `'''`

In [None]:
def hello():
    print('Hello!')
    return(0)

In [None]:
hello()

__Упражнение:__ создайте функцию `print_mult_table()`, выводящую таблицу умножения от 1 до 9.

__Упражнение__: создайте функцию `get_result(a, b = 3)`, которая находит сумму `a` и `b`, если `a < b` и их произведение в обратном случае. Вызовите функцию:
- Задав только значение `a`.
- Задав значения и `a`, и `b`.

__Важно__: локальные ("внутри" части кода) и глобальные переменные.

#### Часть 6: Дополнительные задания

I. __Простой временной ряд:__ если мы наблюдаем за одной и той же переменной во времени, то наша выборка называется _временным рядом_. Для анализа временных рядов существуют отдельные методы, которые мы обсудим в середине и конце курса. Пока же мы можем попробовать проанализировать искусственно созданный временной ряд на качественном уровне. Итак, пусть $X_i$ – это наблюдения за температурой (в градусах Цельсия) в некотором месте в день с номером $i$:

In [2]:
x = [18, 20, 22, 22, 20, 19, 22, 27, 27, 27, 20, 9,
     20, 8, 27, 22, 21, 20, 19, 25, 27, 22, 27, 20, 
     22, 18, 19, 22, 27, 24, 27, 20, 9, 20, 28, 8, 20, 22]

Описательные характеристики:
1. Найдите количество наблюдений, используя соответствующую команду.
2. Найдите максимальное и минимальное значение температуры за период.
3. Найдите арифметическое среднее температуры за период (при помощи цикла).

Далее мы будем говорить о том, что выборку перед анализом следует очищать от нетипичных значений – выбросов. Это можно сделать, просто установив нижнюю и вернхнюю границы "типичности". Предложите такие границы, обосновав Ваше предложение, и очистите выборку от всех наблюдений, выходящих за их пределы (при помощи цикла).

Часто интересно смотреть не на сами значения ряда, а на их изменения, то есть разность последующего значения и предыдущего. Таким образом, мы можем лучше понять динамику наблюдаемой переменной. Напишите функцию `calculate_difference(x)`, которая принимает на вход список с числами любой длины и на возвращает новый список, в котором каждый элемент равен $x_{i+1} - x_i$ (понятно, что длина нового списка будет на 1 меньше, чем длина исходного списка).

In [None]:
def calculate_difference(x):
    
    return

Прокомментируйте полученные результаты.

II. __Исследовательское задание__: бесстрашная исследовательница Алевтина составляет список стран, в которых ей бы хотелось исследовать зависимость ВВП и инфляции. После долгих раздумий, она остановилась на следующих вариантах:

In [None]:
countries = ['Russia', 'France', 'Great Britain', 'USA', 'Korea', 'Thailand']

1. Как известно, любой анализ данных начинается с их сбора. Воспользуйтесь веб-сайтом [Всемирного банка](https://data.worldbank.org), чтобы найти значения ВВП (в долларах США) для данных стран для 2005 года. Подсказка: введите в поле поиска "GDP Название-страны-из-списка". Создайте список `gdp`, содержащий найденные данные.

In [None]:
gdp =

2. Существует способ создавать словари из двух списков, подробнее о котором мы будем говорить на следующем занятии: `new_dict = {k: v for k, v in zip(keys, values)}`.
    По аналогии создайте словарь `data`, в котором ключами будут названия стран, а значениями – найденные значения ВВП. 

In [None]:
data = {}

3. В дальнейшем мы изучим более эффективные способы анализа данных при помощи различных библиотек, но пока мы ограничены стандартными средствами Python. Тем не менее, мы уже можем сделать некоторые выводы о полученных данных. Найдите, в какой стране в 2005 году был максимальный ВВП, а в какой – минимальный, итерируясь по созданному словарю `data`.

Поясните, почему использование циклов может быть неэффективно (мы столкнёмся с этим в дальнейшем). 

Поясните, почему использование словарей может быть неэффективно (это сложный вопрос, связанный с особенностями Python).

4. Запустите код ниже (на данном этапе его понимание не нужно, но уже скоро мы научимся писать и понимать такой код). Если всё сделано правильно, то Вы должны увидеть диаграмму, показывающую значения ВВП для исследуемых стран.

In [None]:
import matplotlib.pyplot as plt
plt.bar(range(1,7), gdp, tick_label = countries)
plt.title('Значения ВВП для разных стран в 2005 году')
plt.ylabel('ВВП($)')

Прокомментируйте полученные результаты.