# Numpy

numpy позволяет оперировать матрицами и векторами

## Установка

В нужном окружении запустить

```
conda install numpy
```

Импортируем библиотеку

In [1]:
import numpy as np

Создаем массив из обычного списка python

In [2]:
test_list = [1, 2, 3]
array = np.array(test_list)
print(array, array.shape, len(array))

Генерируем разные массивы

In [3]:
np.arange(5)

In [4]:
np.linspace(0, 10, 21)

Создаем матрицу из списка массива

In [5]:
matrix = [[1, 2, 3], [4, 5, 6]]
np_matrix = np.array(matrix)
print(np_matrix)
print(np_matrix.shape)

Пример работы reshape

In [6]:
np_matrix.reshape(3, 2)

In [7]:
np_matrix.reshape(-1, 1)

In [8]:
np_matrix.reshape(-1)

## Задача

Сгенерировать вектор из 100 элементов и превратить его в:

- матрицу 10x10
- вектор 1x100
- вектор 100x1

In [9]:
vec = np.random.randint(10, size=(100, ))
vec, vec.shape

In [10]:
matrix = vec.reshape((10, -1))
matrix

In [11]:
vec2 = vec.reshape(1, -1)
vec3 = vec.reshape(-1, 1)
vec2.shape, vec3.shape

## Базовые операции

При помощи numpy можно легко делать любые простейшие операции над векторами и матрицами

In [12]:
a = np.array([20, 30, 40, 50])
b = np.arange(4)
b

In [13]:
a + b

In [14]:
b ** 2

In [15]:
b < 2

Выбираем все элементы меньше двух

In [16]:
b[b < 2]

In [17]:
A = np.array([[1, 1], [0, 1]])
B = np.array([[2, 0], [3, 4]])

Поэлементное произведение

In [18]:
A * B

Произведение матриц

In [19]:
A @ B

In [20]:
A.dot(B) # то же самое

Транспонирование

In [21]:
B

In [22]:
B.T

## Задача - Решение СЛАУ

$Ax = b$

Функция обратной матрицы - `np.linalg.inv(A)`

In [23]:
A = np.array([
    [3, -2],
    [5, 1]]
)
b = np.array([-6, 3])
# Решение - [0, 3]

In [24]:
A_inv = np.linalg.inv(A)
print(A_inv.shape, b.shape)

In [25]:
x = A_inv @ b

Проверить себя можно при помощи `np.linalg.solve(A, b)` - функция решения СЛАУ

In [26]:
assert (x == np.linalg.solve(A, b)).all()

Создание случайного массива

In [27]:
rand_arr = np.random.uniform(-1, 1, size=(2, 5))
rand_arr

In [28]:
rand_arr[rand_arr > 0]

Считаем сумму по строкам/столбцам

In [29]:
rand_arr.sum(axis=0)

In [30]:
rand_arr.sum(axis=1)

Находим минимум максимум во всем массиве и по строкам/столбцам

In [31]:
rand_arr.max(), rand_arr.min()

In [32]:
rand_arr.max(axis=0)

Также можно применять любые математические операции к массиву

In [33]:
np.sqrt(abs(rand_arr))

In [34]:
np.exp(rand_arr)

In [35]:
np.log(abs(rand_arr))

## Задача

Сгенерировать случайную матрицу и посчитать сумму положительных элементов в каждой строке, в каждом столбце.

In [36]:
matrix = np.random.uniform(0, 1, size=(5, 5))
matrix

In [37]:
non_neg = np.maximum(matrix, 0)
print(f"сумма по строкам: {np.sum(non_neg, axis=0)},\n по столбцам: {np.sum(non_neg, axis=1)}")

## Индексация

Индексация по массивам numpy похожа на индексацию по спискам python, но шире и гибче

Общий синтаксис:

`a[start:stop:step]`

Аргументы можно пропускать, тогда будут взятые аргументы по-умолчанию. Например:

`a[:] == a[0:len(a):1]`

In [38]:
a = np.arange(10)

Выбираем один элемент

In [39]:
a[2]

Берем подмассив

In [40]:
a[2:5]

Подмассив с заданным шагом

In [41]:
a[:6:2]

In [42]:
a[:6:2] = 1000
a

In [43]:
a[::-1]

Возьмем матрицу из случайных целых чисел

In [44]:
arr = np.random.randint(1, 5, size=(3, 5))
arr

In [45]:
arr[2]

По матрицам можно индексироваться отдельно по каждой оси через запятую

Сначала указываем индекс для строк, потом для колонок

In [46]:
a = [1, 2, 3]

a = map(lambda x: x + 2, a)
list(a)

In [47]:
arr[1:, :2]

In [48]:
arr[::-1, ::2] = 0
arr

In [49]:
arr[-1]

In [50]:
arr[:, :]

Генерируем матрицы

In [51]:
np.ones((3, 3))

In [52]:
np.zeros((3, 3))

In [53]:
np.eye(3)

## Задача

Вывести матрицу из нулей и единиц в шахматном порядке

In [54]:
def chess_order(n: int):
    res = np.zeros(shape=(n, n))
    res[1::2, ::2] = 1
    res[::2, 1::2] = 1
    return res

In [55]:
chess_order(5)

## Расширяем массивы

In [56]:
a = np.arange(10)
b = a + 1

In [57]:
a.shape, b.shape

Соединям по горизонтали

In [58]:
np.hstack((a, b)).shape

Соединяем по вертикали

In [59]:
np.vstack((a, b)).shape

In [60]:
np.hstack((a, [1]))

Расширение массива в numpy происходит путем создания нового массива.

Поэтому если требуется сгенерировать массив, то лучше сделать это через список, а дальше сделать из него массив numpy

In [61]:
%%timeit

a = np.arange(10)
for i in range(1000):
    a = np.hstack((a, 1))
a.shape

In [62]:
%%timeit

a = list(range(10))
for i in range(1000):
    a.append(i)
np.array(a).shape

## Сравниваем скорость list и np.array

In [63]:
%%timeit

[i * i for i in range(100000)]

In [64]:
%%timeit

a = np.arange(100000)
a * a

# Pandas

 Позволяет работать с данными - читать, преобразовывать и сохранять

 ## Установка

 ```
 conda install pandas
 ```

In [65]:
import pandas as pd

## Series

Series - столбец в таблице.

Он состоит из индекса ("имена" строк) и значений. По-умолчанию индекс - уникальные числа от 0 до длины списка.

Создавать series можно из списка или массива numpy. 

In [66]:
series = pd.Series([1, 2, 3])
series

In [67]:
series.index

In [68]:
series.values

Индекс может быть строкой

In [69]:
legs_counter = pd.Series([4, 4, 8], index=["cat", "dog", "spider"])
legs_counter

По series можно индексирования при помощи `loc` и `iloc`

- `loc` - если хотим взять по индексу
- `iloc` - если хотим взять по порядковому номеру

In [70]:
legs_counter.iloc[2]

In [71]:
legs_counter.loc["dog"]

In [72]:
legs_counter.unique()

## DataFrame

DataFrame - набор Series, то есть таблица.

Индекс для датафрейма - названия строк

Колонки - названия столбцов (series)

In [73]:
ages = [25, 35, 45]
heights = [170, 180, 190]
names = ["Alex", "Polina", "Misha"]
data = {'age': ages, 'height': heights, 'name': names}
df = pd.DataFrame(data)
df

In [74]:
df['age']  # Получился Series

In [75]:
df[['age', 'height']] # Получился DataFrame

In [76]:
df[['age']] # Получился DataFrame

Можно добавить новую колонку

In [77]:
df['height/age'] = df['height'] / df['age']
df

In [78]:
df["age"].sum()
df["age"].min()
df["age"].max()
df["age"].mean()

Можно взять содержимое датафрейма как набор numpy-массивов

In [79]:
df.values

Можно фильтровать датафреймы

In [80]:
df[df['age'] == 25]

In [81]:
df[(df['age'] > 35) & (df['height'] > 170)]

Если нужно поменять какое-то значение, можно использовать [.loc](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)

In [82]:
df.loc[df['age'] == 25, 'age'] = 20

In [83]:
df[df['height/age'] > 5]

Создадим категорию "высокий", если человек выше 175, а иначе "низкий"

In [84]:
df["height_category"] = df["height"].apply(lambda x: "высокий" if x > 175 else "низкий")
df

In [85]:
df[(df['height_category'] == "высокий") & (df['age'] > 40)]

## Задача

Посчитать средний рост для высоких людей

In [86]:
mean_height = df.height.mean()
mean_height, df[df['height'] > mean_height].height.mean()

## Пропуски в данных

Часто в реальных данных есть пропуски. Их надо либо убирать, либо заполнять

In [87]:
values = [[None, 1, 2], [None, 2, 3], [None, None, 4]]
df = pd.DataFrame(values, columns=["a", "b", "c"])
df

За удаление отвечает функция `dropna()`

У dropna есть два важных аргумента:

- axis (по-умолчанию 0) - по строкам или по колонкам будем искать наны
- how (по-умолчанию 'any') - бывает any и all, ниже пример использования

Удаляем столбец `a`, потому что в нем все (all) значения None

Сохраним датафрейм, он понадобится ниже

In [88]:
dropped_a = df.dropna(axis=1, how='all')
dropped_a

Удаляем столбцы `a` и `b`, потому что в них есть None (any)

In [89]:
df.dropna(axis=1, how='any')

Возьмем датафрейм выше. Удалим из него последнюю строку, так как в ней есть None

In [90]:
dropped_a.dropna(axis=0, how='any')

Заполним пустые значения 0

In [91]:
df.fillna(0)

Заполним последним известным значением

In [92]:
df.fillna(method="ffill")

Заполним средним между соседними известными значениями

In [93]:
df.interpolate()

## Работаем с данными

Мы можем прочитать таблицу из разных форматов: Excel, CSV, TSV, HDF и т.д.

Начнем с самого простого формата - CSV. Можно открыть в блокноте файл `data/weather.csv` и посмотреть как он выглядит.

Чтобы загрузить файл в DataFrame, воспользуемся методом `pd.read_csv()`

In [94]:
df = pd.read_csv('../data/weather.csv')
df.head()

In [95]:
df.describe()

In [96]:
df["Day"] = pd.to_datetime(df["Day"])
df["year"] = df.Day.dt.year
df["month"] = df.Day.dt.month
df["day"] = df.Day.dt.day
df.head()

## Задача

Вывести среднюю температуру за январь 2010 года

In [97]:
df[df['year'] == 2010].loc[df['month'] == 1].t.mean() # loc for no warning

## Группировка и агрегация данных

Иногда нужно объединять строки, в которых есть какие-то одинаковые значения.

Например, мы хотим посчитать среднюю температуру для каждого месяца. Это значит, что нам нужны строки, в которых совпадают year и month

In [98]:
for name, group in df.groupby(["year", "month"]):
    print(name)
    print(group.head(2))
    break

In [99]:
df.groupby(["year", "month"]).mean()

Вопрос - почему среднее по дням разное?

Иногда мы хотим применить какую-то функцию, которой нет в стандартном pandas или хотим применить много разных функций к определенным строкам. Для этого существует метод agg (сокращение от Aggregate)

In [100]:
df.groupby(["month"])['t'].agg(['mean', 'max', 'std']) # Применяем много функций ко всем столбцам

In [101]:
# применяем много функций к определенным столбцам
df.groupby(["month"]).agg({'t': ['count', 'mean', 'max', 'min'], 'day': ['mean']}) 

In [102]:
df.groupby(["month"]).agg(
    {'t': [
        ('one',  np.mean), 
        ('two', lambda value: 100 * ((value > 32).sum() / value.std())), 
        ('three', lambda value: 100* ((value > 45).sum() / value.mean()))
    ]}
)

## Функция map

In [103]:
month_number_to_name = {
    1: "Январь",
    2: "Февраль",
    3: "Март",
    4: "Апрель",
    5: "Май",
    6: "Июнь",
    7: "Июль",
    8: "Август",
    9: "Сентябрь",
    10: "Октябрь",
    11: "Ноябрь",
    12: "Декабрь"
}

In [104]:
df["month_name"] = df["month"].map(month_number_to_name)
df.head()

Сохраним результаты

## Функций apply

In [105]:
df['T_f'] = df.t.apply(lambda x: 9/5 * x + 32)
df.head()

In [106]:
df.to_csv('result.csv')

## Задача

**Во всех задачах ниже стараемся избегать циклов**


Найти насколько отличалась температура в самый жаркий и самый холодный день

In [107]:
df.t.max() - df.t.min()

## Задача

Вывести среднее, максимальное, минимальное, стандартное отклонение и медиану температуры за каждый год

In [108]:
df.groupby('year').t.agg(['max', 'min', 'std', 'median'])

## Задача

Необходимо узнать насколько медиана отличалась от среднего в каждом месяце. Использовать agg для решения

In [109]:
df.groupby('month').t.agg(lambda x: x.median() - x.mean())

## Задача

Вывести день, в который максимально изменилась температура

Подсказка: `diff()`

In [110]:
# Ваш код здесь
diff = abs(df.t.diff())
id_max = diff[diff == diff.max()].index[0]
diff, id_max, diff[id_max]

In [111]:
df.loc[id_max-1:id_max, ['year', 'month', 'day', 't']]

## Поработаем с экселем

Сохраним датафрейм в эксель

In [112]:
df.to_excel('../data/excel.xlsx')

Прочитаем из экселя

In [113]:
pd.read_excel('../data/excel.xlsx', index_col=0)

In [114]:
import os
os.remove('../data/excel.xlsx')
os.remove('result.csv')

# Полезные ссылки

- [Git](https://git-scm.com/downloads)

- [Anaconda](https://www.anaconda.com/products/individual#Downloads)

- [VS Code](https://code.visualstudio.com/download)

- [Шпаргалка по анаконде](https://docs.conda.io/projects/conda/en/4.6.0/_downloads/52a95608c49671267e40c689e0bc00ca/conda-cheatsheet.pdf)

- [Шпаргалка по гиту](https://education.github.com/git-cheat-sheet-education.pdf)

- [Установка jupyterlab (вариант с conda install, не забываем активировать окружение)](https://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html)

- [Небольшой курс по numpy-pandas-matplotlib, если хочется интерактивных задач](https://www.sololearn.com/learning/1161)