# NumPy

Представим, что нам необходимо посчитать насколько точно наша модель определила температуру воздуха на неделю вперед

В переменной <code>predictions</code> запишем прогнозы модели, а в переменную <code>true_values</code> запишем истинные значения температуры воздуха 

In [1]:
prediction  = [14, 13, 14, 20, 15, 17, 28]
true_values = [17, 16, 11, 24, 23, 19, 31]

Средняя ошибка модели в процентах считается по этой формуле:

$$\text{MAPE} = \frac{1}{n}\sum^n_{i=1}\frac{|pred - true|}{true} * 100\%$$

Напишем функцию для расчета MAPE без использования библиотеки NumPy

А теперь напишем функцию для расчета MAPE c использованием NumPy

In [12]:
import numpy as np

### Задача

Вывести матрицу NxN, состоящую из нулей и единиц в шахматном порядке. 

### Задача 

Сгенерировать случайную матрицу NxN и посчитать сумму положительных элементов

### Задача - Решение СЛАУ

$Ax = b$

In [2]:
A = np.array([
    [3, -2],
    [5, 1]]
)
b = np.array([-6, 3])
# Решение - [0, 3]

NameError: name 'np' is not defined

# Pandas

### Почему не стоит использовать .apply()

In [48]:
import pandas as pd
import numpy as np

df_len = 1000

test_df = pd.DataFrame(
    {
        "cat_column": np.random.choice(["a", "b", "c"], size=df_len),
        "float_col1": np.random.random(size=df_len),
        "float_col2": np.random.random(size=df_len),
    }
)

In [49]:
def trig_transform(x):
    return np.log(np.cos(x) + 5)

In [50]:
test_df["float_col1"].apply(trig_transform)

0      1.745593
1      1.789860
2      1.786290
3      1.748633
4      1.738317
         ...   
995    1.786602
996    1.740288
997    1.715954
998    1.741543
999    1.780773
Name: float_col1, Length: 1000, dtype: float64

In [51]:
trig_transform(test_df["float_col1"])

0      1.745593
1      1.789860
2      1.786290
3      1.748633
4      1.738317
         ...   
995    1.786602
996    1.740288
997    1.715954
998    1.741543
999    1.780773
Name: float_col1, Length: 1000, dtype: float64

In [52]:
%timeit test_df["float_col1"].apply(trig_transform)
%timeit trig_transform(test_df["float_col1"])

2.54 ms ± 14.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
170 µs ± 239 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


### Задача

Посчитать сумму двух столбцов и записать в третий при помощи метода apply и просто арифметическими действиями. Сравнить время выполнения.

### Задача
Найти в датафрейме ближайшее число к заданному

## Работаем с данными

Мы можем прочитать таблицу из разных форматов: Excel, CSV, TSV, HDF и т.д.

Начнем с самого простого формата - CSV. Можно открыть в блокноте файл `data/weather.csv` и посмотреть как он выглядит.

Чтобы загрузить файл в DataFrame, воспользуемся методом `pd.read_csv()`

In [53]:
df = pd.read_csv('weather.csv')
df.head()

Unnamed: 0,Day,t
0,2008-01-01,0
1,2008-01-02,-5
2,2008-01-03,-11
3,2008-01-04,-11
4,2008-01-05,-12


In [54]:
df.describe()

Unnamed: 0,t
count,3285.0
mean,8.137595
std,10.403138
min,-23.0
25%,1.0
50%,8.0
75%,17.0
max,34.0


In [55]:
df["Day"] = pd.to_datetime(df["Day"])
df["year"] = df.Day.dt.year
df["month"] = df.Day.dt.month
df["day"] = df.Day.dt.day
df.head()

Unnamed: 0,Day,t,year,month,day
0,2008-01-01,0,2008,1,1
1,2008-01-02,-5,2008,1,2
2,2008-01-03,-11,2008,1,3
3,2008-01-04,-11,2008,1,4
4,2008-01-05,-12,2008,1,5


## Задача

Вывести среднюю температуру за январь 2010 года

### Задача

Посчитать среднюю температуру для каждого месяца

## Задача

Найти насколько отличалась температура в самый жаркий и самый холодный день

### Задача
Вывести среднее, максимальное, минимальное, стандартное отклонение и медиану температуры за каждый год

### Задача
Необходимо узнать насколько медиана отличалась от среднего в каждом месяце.

# Matplotlib

## Задание - нарисовать $n$ линий

Написать функцию, которая на вход принимает параметр $n$ и рисует $n$ графиков по такому приципу:

$$y = x$$
$$y = 2x$$
$$y = 3x$$
$$...$$
$$y = nx$$

## Задача

По заданным точкам нарисовать квадрат.

# Seaborn

## Задача
Воспользоваться набором данных tips

1. Создать новую колонку - отношение чаевых ко всему счету
2. Построить гистограмму распределения новой колонки
3. Посмотреть меняется ли процент чаевых в зависимости от времени дня (колонка time, параметр hue)
4. Посмотреть на bar plot колличество чаевых в зависимости от дня недели