# Курс TextAI

# Материалы: https://bit.ly/2023-TextAI

# GitHUB: https://github.com/AlekseyBuzmakov/2023-TextAI

## Numpy

Numpy -- это библиотека, которая позволяет работать с однородными данными, сформированными в многомерные матрицы.

Numpy эффективно реализует многие стандартные операции, а также предоставляет простой, в достаточной степени интуитный инструмент работы с такими данными.

In [None]:
# Загрузка данных

import numpy as np

In [None]:
# Преобразуем списки в numpy массивы

integers = np.array([1,2,3,4])
floats = np.array([1.0,2,3,4])
strs = np.array([1,2,3,"str"])

print(integers, integers.dtype)
print(floats, floats.dtype)
print(strs, strs.dtype)

[1 2 3 4] int64
[1. 2. 3. 4.] float64
['1' '2' '3' 'str'] <U21


In [None]:
# Либо можно создать массивы данных, заполненных по определённому образу
print(np.zeros(10, dtype='int64'))
print(np.ones((2,2),dtype='float64'))
print(np.full((4,2),22, dtype='float64'))
print(np.arange(0, 10, 2))
print(np.linspace(0, 10, 5))

[0 0 0 0 0 0 0 0 0 0]
[[1. 1.]
 [1. 1.]]
[[22. 22.]
 [22. 22.]
 [22. 22.]
 [22. 22.]]
[0 2 4 6 8]
[ 0.   2.5  5.   7.5 10. ]


In [None]:
# Случайные заполнения
print(np.random.random((3, 3))) # между 0 и 1
print(np.random.normal(0, 1, (3, 3))) # нормальное распределение
print(np.random.randint(0, 10, (3, 3))) # целые числа

[[0.88084127 0.75102805 0.22016303]
 [0.86356211 0.17794245 0.28205565]
 [0.31658814 0.13600925 0.17463009]]
[[ 0.68011257  1.44030106 -1.28953134]
 [ 1.12241345  0.4392603   1.4328979 ]
 [ 0.02459939  0.64819462  0.55478418]]
[[2 3 4]
 [3 3 5]
 [7 4 2]]


Существует множество типов похожих друг на друга, на занимающих разное количество байт в памяти. Здесь оставлю только самые важные для начального этапа:
* целые -- int64
* положительные целые -- uint 64
* действительные -- float64
* логические -- bool_

## Работа с массивами Numpy

Каждый массив Numpy -- класс со своими методами. Часть методов являются общими для всех массивов, а часть специфичными для конкретного типа данных

In [None]:
x1 = np.random.randint(10, size=5)
x3 = np.random.randint(10, size=(3, 4, 5))

print("Количество 'осей':", x3.ndim)
print("Размер каждой оси:", x3.shape)
print("Общее количество элементов:", x3.size)

Количество 'осей': 3
Размер каждой оси: (3, 4, 5)
Общее количество элементов: 60


In [None]:
# Индексация как в списках
print(x1)
print(x1[0])
print(x1[-1])
print(x1[-2])

[7 1 1 2 3]
7
3
2


In [None]:
print(x3)
print(x3[0,0,0])
print(x3[2,2,-1])

[[[3 5 4 1 8]
  [2 9 0 7 3]
  [1 6 2 4 6]
  [2 4 3 2 7]]

 [[0 1 8 0 7]
  [1 8 0 9 5]
  [0 5 1 0 3]
  [7 1 3 1 6]]

 [[8 9 2 0 9]
  [3 7 6 4 2]
  [1 2 0 1 1]
  [7 5 6 1 7]]]
3
1


In [None]:
# Значения можно менять
x3[2,2,-1]=100
print(x3)

[[[  3   5   4   1   8]
  [  2   9   0   7   3]
  [  1   6   2   4   6]
  [  2   4   3   2   7]]

 [[  0   1   8   0   7]
  [  1   8   0   9   5]
  [  0   5   1   0   3]
  [  7   1   3   1   6]]

 [[  8   9   2   0   9]
  [  3   7   6   4   2]
  [  1   2   0   1 100]
  [  7   5   6   1   7]]]


### Упражнение

Замените в массиве x2 все диагональные элементы на 100. Также замените 3ий элемент во 2ой строке на 1000 и первый элемент в последней строке на 999.

In [None]:
x2 = np.random.randint(10,size=(5,5))
print(x2)
# ...

[[1 9 5 5 8]
 [9 7 7 4 5]
 [1 3 1 4 5]
 [3 7 9 1 3]
 [6 7 9 9 0]]


## Получения подмассивов

По аналогии со списками общий синтаксис запроса к массиву:

x\[start:stop:step\]


In [None]:
print(x1)
print(x1[1:4])
print(x1[:4])
print(x1[::2])
print(x1[1::2])

[7 1 1 2 3]
[1 1 2]
[7 1 1 2]
[7 1 3]
[1 2]


In [None]:
print(x3)
print(x3[:3,:3,:3])

[[[9 5 0 6 1]
  [3 3 5 0 3]
  [3 7 0 4 9]
  [5 3 9 0 5]]

 [[8 9 5 8 7]
  [0 1 4 1 5]
  [0 0 0 4 3]
  [8 5 9 4 5]]

 [[1 4 9 7 6]
  [7 4 9 1 0]
  [9 0 4 6 6]
  [7 4 6 0 8]]]
[[[9 5 0]
  [3 3 5]
  [3 7 0]]

 [[8 9 5]
  [0 1 4]
  [0 0 0]]

 [[1 4 9]
  [7 4 9]
  [9 0 4]]]


### Нет копии при индексации!

При индексации не происходит копирование памяти. По сути образуется новый объект, который указывает на старый и содержит информацию о тех элементах которые были выбраны.

In [None]:
print(x1)
xx = x1[::2]
print(xx)
xx[1] = 100
print(xx)
print(x1)

[7 1 1 2 3]
[7 1 3]
[  7 100   3]
[  7   1 100   2   3]


In [None]:
# Копирование должно быть явным при необходимости

print(x1)
xx = x1[::2].copy() # Вся магия тут
print(xx)
xx[1] = -100
print(xx)
print(x1)

[  7   1 100   2   3]
[  7 100   3]
[   7 -100    3]
[  7   1 100   2   3]


### Упражнение

В одну операцию замените 1, 3, 5 элементы в 1, 3, 5 строчках на 100

In [None]:
x2 = np.random.randint(10,size=(5,5))
print(x2)
# ...

[[9 4 6 5 3]
 [0 8 2 1 2]
 [3 4 8 7 9]
 [5 1 8 6 1]
 [6 6 2 5 1]]


## Операции над массивами

Numpy и её расширения (Scipy) определят набор операций которые применяются сразу ко всем элементам массива. Это очень существенно повышает эффективность операций, а также упрощает код. Большинство известных функций уже реализовано, если нужно применить такую функцию сразу ко всему массиву, то просто ищите в интернет, как функций называется. Иногда потребуется подключать другие библиотеки, например, Scipy.

### Бинарные операции

Бинарные операции выполняютя сразу над двумя массивами или простыми типами

In [None]:
x1 = np.random.randint(10,size=10)
x2 = np.random.randint(10,size=10)
print(x1)
print(x2)

[0 8 8 1 3 0 5 8 0 7]
[4 1 8 5 5 4 5 7 7 8]


In [None]:
print(x1+x2)
print(x1/x2)
print(x1//x2)
print(x1-x2)
print(x1*x2)

[ 4  9 16  6  8  4 10 15  7 15]
[0.         8.         1.         0.2        0.6        0.
 1.         1.14285714 0.         0.875     ]
[0 8 1 0 0 0 1 1 0 0]
[-4  7  0 -4 -2 -4  0  1 -7 -1]
[ 0  8 64  5 15  0 25 56  0 56]


In [None]:
print(x1+1)
print(x1/2)
print(x1//2)
print(x1-2)
print(x1*2)

[1 9 9 2 4 1 6 9 1 8]
[0.  4.  4.  0.5 1.5 0.  2.5 4.  0.  3.5]
[0 4 4 0 1 0 2 4 0 3]
[-2  6  6 -1  1 -2  3  6 -2  5]
[ 0 16 16  2  6  0 10 16  0 14]


### Унарные операции

Унарные операции -- это операции над одним массивом

In [None]:
x = np.arange(10)-5
print(x)

print(abs(x))
print(np.exp(x))
print(np.power(0.1,x))
print(np.sin(x/10))
print(x ** 2)

[-5 -4 -3 -2 -1  0  1  2  3  4]
[5 4 3 2 1 0 1 2 3 4]
[6.73794700e-03 1.83156389e-02 4.97870684e-02 1.35335283e-01
 3.67879441e-01 1.00000000e+00 2.71828183e+00 7.38905610e+00
 2.00855369e+01 5.45981500e+01]
[1.e+05 1.e+04 1.e+03 1.e+02 1.e+01 1.e+00 1.e-01 1.e-02 1.e-03 1.e-04]
[-0.47942554 -0.38941834 -0.29552021 -0.19866933 -0.09983342  0.
  0.09983342  0.19866933  0.29552021  0.38941834]
[25 16  9  4  1  0  1  4  9 16]


### Упражнения:

#### Маржинальность компаний

Пусть для 10 компаний известны выручка и расходы. Нужно расчитать какая часть выручки для каждой из компании переходить в прибыль, т.е. для одной компании если выручка $R$, а расходы $C$, то её прибыль это $R-C$, а маржинальность $\frac{R-C}{R}$.

Создайте numpy массив с 10 значениями выручки компаний, а также numpy массив с 10 значениями расходов компании. Посчитайте маржинальность компании по выручке.

In [None]:
# ...

#### Банковские вклады

Пусть в массиве SUMs содержаться суммы вкладов 10 клиентов, а в массиве RATEs их ставки по вкладам.
Создайте массивы  SUMs с произвольными значениями от 100 до 10000 
и RATEs с произвольными ставками от 0 до 1.

Расчитайте сумму вклада у каждого клиента через 2 года и через n (общее число для всех клиентов) лет

In [None]:
# ...

## Логический тип данных и numpy

При работе с данными часто требуется смотреть не на все данные, а только на часть из них.

Рассмотрим пример. Пусть есть 5 клиентов, по каждому известны суммарная выручка и количество раз этот клиент совершал покупку. 

_Как зависит средний чек от лояльности клиента?_

In [None]:
revenue = np.array([20, 200, 300, 10, 80])
visits = np.array([1, 5, 6, 1, 2])
avg_bill = revenue / visits

print( avg_bill)

[20. 40. 50. 10. 40.]


In [None]:
# Как мы можем сравнить средний чек тех кто совершил покупку один раз и тех кто совершил ее более одного раза?

# Наивный способ через цикл
one_visit = []
many_visits = []
for i in range(len(visits)):
    if visits[i] > 1:
        many_visits.append(avg_bill[i])
    else:
        one_visit.append(avg_bill[i])
print(one_visit)
print(many_visits)

[20.0, 10.0]
[40.0, 50.0, 40.0]


In [None]:
# То же самое в numpy

one_visit = avg_bill[visits == 1]
many_visits = avg_bill[visits > 1]
print(one_visit)
print(many_visits)

[20. 10.]
[40. 50. 40.]


In [None]:
# Как это работает?
#  Результат сравнения numpy вектора с чем-то является логическим numpy вектором
print(visits)

print(visits > 1)
print(visits != 1)
print(visits >= 2)
print(visits <= 1)

[1 5 6 1 2]
[False  True  True False  True]
[False  True  True False  True]
[False  True  True False  True]
[ True False False  True False]


In [None]:
#  и составные выражения
print(visits)

print(1 < visits & (visits < 5)) # Не and! and только для if
print( (visits == 1) | (visits == 2) ) # Не or!
print(~((visits == 1) | (visits == 2))) # Отрицание

[1 5 6 1 2]
[False False False False False]
[ True False False  True  True]
[False  True  True False False]


In [None]:
# Когда есть логический вектор индексации, он и используется в numpy массиве
inds = np.array([False, True, True, False, True])
print(visits)
print(visits[inds])

[1 5 6 1 2]
[5 6 2]
[5 6 2]


### Упражения

#### Высокосный ли год?

Напишите функцию, которая принимает numpy массив, содержаший года, и возвращает numpy массив логических значений. Каждое значение соответствует году и при этом True для высокосных, а False, для обычных

In [None]:
def is_leap_year(years):
    pass
    # ...

In [None]:
# Ожидаем следующий результат 
#   [True, False, False, True, False]
print(is_leap_year(np.array([2020,2010,2015,2000,2100])))

None


#### Корректна ли дата?

Проверить является набор год, месяц, день правильными датами? Можно предполагать, что передаются массивы numpy одной длины.

In [None]:
def is_correct_date(years, months, days):
    pass
    # ...

In [None]:
# Проверяем работу функции
#   Передаем следующие даты 2020-06-31, 2020-02-29, 2019-02-29
#   Ожидаемый результат [False, True, False]

print(is_correct_date(
    years  = np.array([2020,2020,2019]),
    months = np.array([   6,   2,   2]),
    days   = np.array([  31,  29,  29]))) 

None


## Выводы по логическим массивам

В некоторых ситуациях требуется логический вектор охаратеризовать одним значением.
Например, _есть ли клиенты со средним чеком меньше 20 долларов?_

In [None]:
is_small_client = avg_bill < 20
print(is_small_client)
print( is_small_client.any() )
print( (avg_bill < 20).any() )

[False False False  True False]
True
True


In [None]:
# или, все ли клиенты приносят больше 5 долларов
is_enough_client = avg_bill > 5
print(is_enough_client)
print(is_enough_client.all())

[ True  True  True  True  True]
True


In [None]:
# True при приведении к целому типу всегда рассматривается как 1, а False -- как ноль
print(is_small_client)
print(is_small_client.astype("int"))

[False False False  True False]
[0 0 0 1 0]


In [None]:
# Приведение типов часто выполняется автоматически
print(sum(is_small_client)) # количество клиентов с маленьким средним чеком
print(np.count_nonzero(is_small_client))

1
1


## Выборочная индексация массивов

Выше мы разбирали индексация из диапазона array[5:7]. Однако, в некоторых случаях требуется обратиться к конкретным элементам массива. 

Рассмотрим следующую ситуацию. У вас есть магазин книг и вы продаете различные книги. Пока книги характеризуются именем и годом выпуска. Вы считает, что год выпуска должен быть больше 1700 года. 

Но тут вы понимаете, что в базе данных есть книги с отрицательным годом выпуска! Что это? Скорее всего ошибка, думаете вы, но нужно проверить. Поэтому вы смотрите на названия этих книг...

In [None]:
years = np.array([2017,1938, -385, 1802, -376])
titles = np.array([
    "Jake VanderPlas. Data Science Handbook",
    "Носов. Живая шляпа",
    "Платон. Пир",
    "Карамзин. Вестник Европы",
    "Платон. Государство"
])

In [None]:
# Допустим мы знаем, что отрицательные года находятся в позициях 2 и 4
neg_year_inds = [2,4]
# Посмотрим на названия
titles[neg_year_inds]
# ... мда, ошибки нет, действительно отрицательный год выпуска

array(['Платон. Пир', 'Платон. Государство'], dtype='<U38')

Вторым примером является выбор случайных элементов, например, для обучения моделей машинного обучения.

In [None]:
data = np.random.normal(0,1,10)
inds = np.random.randint(0,10,3)
print(data)
print(inds)
print(data[inds])

[-0.23861435 -0.16985128 -1.11334693  0.55052182 -1.66830305 -1.68170464
  0.91073883  0.24619536 -0.87640352 -0.88773946]
[1 9 3]
[-0.16985128 -0.88773946  0.55052182]


### Упражение

Найдите минимальное значение из 5, 7, и 12 элемента массива data.

Создайте numpy массив с элементами меньше этого числа

In [None]:
data = np.random.randint(0,100,20)
print(data)
# ...

[96 64 57 27 76 50 39 58 71 67  9 39 54 25  4 40 59 18 37 28]


## Задачи

1. Создать вектор (одномерный массив) размера 10, заполненный нулями
1. Создать вектор размера 10, заполненный единицами
1. Создать вектор размера 10, заполненный числом 2.5
1. Создать вектор размера 10, заполненный нулями, но пятый элемент равен 1
1. Создать вектор со значениями от 10 до 49
1. С помощью функции nonzero из пакета Numpy найти индексы ненулевых элементов в [1,2,0,0,4,0]
1. Дан массив, поменять знак у элементов, значения которых между 3 и 8
1. Проверить, одинаковы ли 2 numpy массива с действительными числами
1. Найти скалярное произведение (сумма поэлементное произведений элементов) двух массивов одинаковой длины
1. Найти среднее значение массива numpy
1. Найти количество элементов массива numpy с действительными числами, которые близки к целым (разница менее 0.1)
1. Вывести элемент массива numpy стоящие на чётных позициях

![Заключительная картинка](end-image.png)