# Воркшоп 1: блокнот для работы

Это блокнот. Здесь можно выполнять ячейки (cell) с кодом на питоне. Вот например:

In [None]:
1+2

Чтобы получить результат выполнения ячейки, надо нажать на `Shift+Enter`. Есть ячейки *с кодом* и ячейки с **Markdown** для отображения текста с помощью специального языка форматирования. Нажми два раза на эту ячейку, чтобы уведить содержимое этой ячейки

(и `Shift+Enter`, чтобы вернуть нормальный текст)

In [None]:
# Посчитай в этой ячейке, чему будем равен 12 в степени 12 :)

## Ковидная статистика (работа с файлами)

В папке с воркшопом есть файл `coviddata.tsv`. Это данные о конкретных заболеваниях COVID-19 в МФТИ с 16.03.2020 (первый подтверждённый случай заболевания) по 26.07.2021. Данные хранятся в следующем виде:

```
days	type	place
0	 student 	1
22	employee	Зюзино
22	employee	Зюзино
22	employee	Зюзино
```

Это TSV (tab-seperated value), своего рода таблица, как в Microsoft Excel. Каждая строка файла -- это строка таблица, а столбцы разделены табуляцией. Первая строка, как обычно, — заглавная.

Выгрузим эти данные и будем с ними работать.

In [None]:
# Как ты думаешь, что выведет эта ячейка?
# Проверь с помощью Shift+Enter

with open('coviddata.tsv') as f:
    data = f.read()
    print(data)

Наша задача на сегодня — это посчитать скользящее среднее новых случаев коронавируса для каждого дня с 16.03.20 по 26.07.21 и нарисовать график этого.

Что такое скользящее среднее? Это такое преобразование, когда для каждой точки во времени берётся среднее за какой-то предыдущий период времени. В нашем случае это среднее по числу ковидных заболеваний в день за неделю (включая рассматриваемый день, т.е. суммарно 7 дней).

Что по факту надо сделать:

1. Обработать таблицу и собрать два массива:
    * `data_days`, где на i-ом месте находится i-ый день, **когда было** ковидное заболевание;
    * `data_cases`, где на i-ом месте находится число заболеваний в день под номером `data_days[i]`.
2. Понять, что `data_days` не содержит нулевых дней и для этого сделать аналогичные массив `cases`, где на i-ом месте — число заболеваний в день **под номером** i.
3. Сделать третий массив `MA`, где `MA[i]` — это скользящее среднее числа заболеваний COVID-19 в i-ый день.

In [None]:
# This is where the magic happens

data_cases = []
data_days = []
cases = []
MA = []

# ...

А теперь давайте построим график всей этой истории :) Для этого мы будем использовать модуль `matplotlib`:

In [None]:
import matplotlib.pyplot as plt # мы используем сейчас упрощённый интерфейс matplotlib -- pyplot
plt.figure(figsize=(12, 8), dpi=80)
plt.plot(days, MA)
plt.plot(days, cases, alpha=0.3)

# МНК

Давайте попробуем сами ручками написать метод наименьших квадратов (в первый и последний раз). Мы с Климом хотели найти какие-нибудь красивые линейные данные, но готовили этот воркшоп в три часа ночи, так что вот просто данные (как бы линейные, но who knows):

In [None]:
import numpy as np

x = np.array([9.72865995, 8.49670838, 7.42215368, 9.24180254, 1.08910601,
       6.88764829, 4.80696958, 1.16477671, 1.15264239, 2.14934245,
       0.08498134, 3.73913031, 7.56555375, 9.16132849, 9.80000289,
       0.05551247, 2.46885668, 0.20888657, 2.95307349, 2.02063978,
       8.90760717, 7.2296356 , 6.17634083, 5.41968397, 2.93260765,
       3.5028278 , 5.11519412, 3.41181432, 6.52713645, 0.61214268,
       0.80386215, 3.63978706, 8.42485588, 4.33544528, 1.74244898,
       7.27948604, 9.66476382, 6.9006507 , 9.08533557, 5.44101048,
       9.6998904 , 9.14949135, 8.6974094 , 8.22214944, 3.23041788,
       3.26960208, 2.88894316, 3.48589882, 4.65094567, 8.96341868])

y = np.array([19.52128306, 20.22081684, 17.45655356, 22.15411597,  2.3508767,
       13.85404701,  9.92190647,  5.21112047,  4.09802546,  4.579933,
        3.04940806,  8.21079806, 17.84661339, 21.61788469, 20.84462506,
        1.63873974,  8.80208309,  0.99555821,  9.35688167,  7.49464481,
       20.74910873, 18.15135805, 14.4473176 , 14.28514574,  9.01566074,
        8.71362035, 12.18991662,  8.98752978, 13.06713448,  1.24258915,
        4.17280051, 10.98514401, 17.10174728, 11.02439618,  5.18206816,
       15.00585065, 21.37687091, 15.98171232, 20.85792246, 13.03606412,
       20.96197846, 20.17157259, 21.07294275, 18.54899049,  7.17013124,
        9.83404064,  8.50158536,  8.94749829, 12.23271709, 18.77317096])

Здесь у нас сразу несколько новых вещей возникает. Мы импортируем `numpy` — эта библиотека используется для работы с матрицами, векторами и всем таким математическим. Основной объект здесь -- массивы (array). С ними можно, например, делать математические операции, попробуй:

In [None]:
test_array_1 = np.array([1,2,3,4,5])
test_array_1 * 10

In [None]:
# немного кек, что будет тут?
test_array_1 ** 2

In [None]:
# срыв покровов: @ = матричное произведение. Какой результат здесь?
test_array_1 @ test_array_1.T

In [None]:
# Массивы бывают и многомерные!!

test_array_2 = np.array([[1, 2, 3],
                         [4, 5, 6]])

test_array_2 # попробуй сюда дописать .T

test_array_2 @ test_array_2.T # что случится?

Попробуем всё же написать МНК. Позаимствовали формулы и объяснения [отсюда](https://www.mathsisfun.com/data/least-squares-regression.html):

(N - число точек)

1. Подсчитаем для каждой точки (x,y) x^2 и xy
2. Просуммируем x, y, x^2 и xy, что даёт Σx, Σy, Σx^2 and Σxy
3. Подсчитаем наклон m: m = (N*(Σxy) − Σx*Σy) / (N*(Σx^2) − (Σx)2)
4. Подсчитаем b = (Σy − m Σx) / N

In [None]:
m, b = 0, 0
# ...

Построим графики.

In [None]:
import matplotlib.pyplot as plt

plt.scatter(x,y)
xl = np.arange(0,10,0.1) # как range, но это numpy.array по типу
yl = m*xl+c # это *вектор*
plt.scatter(x,y) # график точек
plt.plot(xl,yl) # график-линия