### NumPy (Numerical Python)

http://www.numpy.org/

Quickstart tutorial https://docs.scipy.org/doc/numpy/user/quickstart.html

<img src='https://drive.google.com/uc?id=1_UPhD0m3AbkSKA6oy7oNqBfyJcar4lOC'>

## План занятия:
- Что такое numpy и как его установить?
- Введение в numpy
- Индексирование
- Основные математические функции
- Изменение размера массива
- Присоединение массивов
- Булевые маски
- Итоги

## Что такое numpy и как его установить?

mPy - пакет для вычисления на Python, который предоставляет для работы многомерные массивы, векторы, матрицы, быстрые математические вычисления, изменения размерностей, сортировки, фильтрации, линейная алгебра, статистика и многое другое.




In [None]:
%%time

a = range(1, 20_000_000)
for i in range(len(a)):
    a[i]**2




CPU times: user 8.02 s, sys: 11.7 ms, total: 8.03 s
Wall time: 8.04 s


In [None]:
import numpy as np

In [None]:
%%time

a = range(1, 20_000_000)
a_ = np.array(a)
a_*a_




CPU times: user 1.79 s, sys: 529 ms, total: 2.32 s
Wall time: 2.3 s


In [None]:
print(length(a))

NameError: ignored

Чтобы установить себе numpy нужно выполнить команду в консоли


```
!pip install numpy
```

Но в google colab пакет numpy и так уже есть, так что следующую ячейку можно было бы и не запускать.

In [None]:
!pip install numpy



Чтобы получить доступ ко всем интересным вещам в numpy, для начала нужно его импортировать себе в ноутбук.

Импортируем numpy и даем ему псевдоним `np`, чтобы при обращении не писать всё название библиотеки.

In [None]:
import numpy as np

Основной объект, который присутствует в NumPy - это ndarray object.

In [None]:
a = np.array([1, 2, 3])
type(a)

numpy.ndarray


Много научных и математических пакетов Python пользуются NumPy массивами, а не Python списками. А всё из-за скорости вычислений. 

Можем посмотреть на небольшой пример, демонстрирующий отличия в скорости работы.

Перемножим два вектора друг на друга.


In [None]:
a = range(0, 100_000_000)
b = range(0, 100_000_000)

Сначала через чистый Python.

In [None]:
%%time

for i in range(len(a)):
    a[i] * b[i]

CPU times: user 36.4 s, sys: 0 ns, total: 36.4 s
Wall time: 36.4 s


А сейчас с помощью numpy

In [None]:
%%time
a_np = np.array(a)
b_np = np.array(b)

a_np * b_np

CPU times: user 18.1 s, sys: 5.57 s, total: 23.7 s
Wall time: 23.6 s


- Во-первых видим, что строк кода меньше при использовании numpy перемножения.
- Во-вторых скорость работы тоже отличается

numpy в двух моментах побеждает Python списки.

### Почему он быстрый?

Numpy array - это векторизированные объекты, для которых не нужны Python циклы. В коде - эти вещи происходят “за кулисами” в оптимизированном, предварительно скомпилированном коде C.

## Введение в numpy

Теперь надеюсь не сомневаетесь в том, что numpy - отличная библиотека и нужно ей пользоваться.

Давайте посмотрим на несколько объектов, которыми можно оперировать в numpy.

### Объекты в numpy

Для начала это хранение одномерных данных - векторы, обычные Python списки, которые уже наблюдали выше.

In [None]:
vector_age = np.array([20, 45, 3, 71, 36])
vector_age

array([20, 45,  3, 71, 36])

Так же мы можем хранить двумерные данные в Numpy массивах - это таблицы.

<table>
<tr>
<td>Height</td><td>  Age </td>
</tr>

<tr><td>183</td><td>20</td>
</tr>

<tr><td>164</td><td>45</td>
</tr>

<tr>
<td>95</td><td>3</td>
</tr>

<tr>
<td>158</td><td>71</td>
</tr>

<tr>
<td>190</td><td>36</td>
</tr>
</table>

In [None]:
matrix_table = np.array([
    [183, 164, 95, 158, 190],
    vector_age
])

matrix_table

array([[183, 164,  95, 158, 190],
       [ 20,  45,   3,  71,  36]])

К трехмерным объектам можем отнести изображения, ведь в них есть три измерения: высота, ширина и глубина (количество каналов, мы привыкли к RGB).

Скачаем себе тестовую картинку.

In [None]:
!wget 'https://drive.google.com/uc?id=14d4PWnRDoHw83zk8JKhHl7iZJjuxAng1' -O test_img.png

--2022-05-07 20:25:52--  https://drive.google.com/uc?id=14d4PWnRDoHw83zk8JKhHl7iZJjuxAng1
Resolving drive.google.com (drive.google.com)... 142.250.157.138, 142.250.157.139, 142.250.157.100, ...
Connecting to drive.google.com (drive.google.com)|142.250.157.138|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://doc-00-c0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/a7fcsc5q1fl0badvv7op5afjes5kfouo/1651955100000/14904333240138417226/*/14d4PWnRDoHw83zk8JKhHl7iZJjuxAng1 [following]
--2022-05-07 20:25:53--  https://doc-00-c0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/a7fcsc5q1fl0badvv7op5afjes5kfouo/1651955100000/14904333240138417226/*/14d4PWnRDoHw83zk8JKhHl7iZJjuxAng1
Resolving doc-00-c0-docs.googleusercontent.com (doc-00-c0-docs.googleusercontent.com)... 108.177.125.132, 2404:6800:4008:c01::84
Connecting to doc-00-c0-docs.googleusercontent.com (doc-00-c0-docs.googleusercontent.com)|108.177.1

И считаем её с помощью библиотеки opencv, плотно работать с ней пока не будем, воспользуемся ей только для наглядности примера.

In [None]:
import cv2

img = cv2.imread('/content/test_img.png')

print(type(img))
img

<class 'numpy.ndarray'>


array([[[220, 225, 251],
        [221, 225, 251],
        [222, 226, 252],
        ...,
        [211, 218, 251],
        [211, 218, 251],
        [211, 219, 251]],

       [[219, 230, 249],
        [220, 231, 249],
        [222, 232, 250],
        ...,
        [219, 232, 252],
        [219, 232, 252],
        [218, 232, 252]],

       [[220, 234, 245],
        [219, 233, 245],
        [219, 233, 245],
        ...,
        [208, 229, 248],
        [210, 230, 249],
        [211, 231, 249]],

       ...,

       [[143, 143, 250],
        [136, 136, 249],
        [131, 128, 248],
        ...,
        [208, 225, 233],
        [199, 217, 230],
        [197, 216, 229]],

       [[149, 150, 251],
        [146, 146, 250],
        [145, 142, 250],
        ...,
        [208, 225, 233],
        [198, 215, 228],
        [195, 212, 224]],

       [[144, 148, 250],
        [143, 144, 250],
        [140, 137, 249],
        ...,
        [213, 228, 233],
        [205, 220, 228],
        [201, 214, 221]]

И в действительности видим, что изображение - это numpy массив, а ещё, что в этом массиве есть три размерности.

### Полезные атрибуты numpy array

У каждого numpy массива есть следующие атрибуты:

- ndarray.ndim - количество измерений (осей) массива.


In [None]:
print(f'ndim of vector_age {vector_age.ndim}')
print(f'ndim of matrix_table {matrix_table.ndim}')
print(f'ndim of image {img.ndim}')

ndim of vector_age 1
ndim of matrix_table 2
ndim of image 3


In [None]:
data

NameError: ignored


- ndarray.shape - размерность массива. Это кортеж целых чисел, который описывает размер каждого измерения (каждой оси).


In [None]:
print(vector_age)
vector_age.shape

[20 45  3 71 36]


(5,)

In [None]:
print(matrix_table)
matrix_table.shape

[[183 164  95 158 190]
 [ 20  45   3  71  36]]


(2, 5)

In [None]:
print(img)
print(img.shape)

[[[220 225 251]
  [221 225 251]
  [222 226 252]
  ...
  [211 218 251]
  [211 218 251]
  [211 219 251]]

 [[219 230 249]
  [220 231 249]
  [222 232 250]
  ...
  [219 232 252]
  [219 232 252]
  [218 232 252]]

 [[220 234 245]
  [219 233 245]
  [219 233 245]
  ...
  [208 229 248]
  [210 230 249]
  [211 231 249]]

 ...

 [[143 143 250]
  [136 136 249]
  [131 128 248]
  ...
  [208 225 233]
  [199 217 230]
  [197 216 229]]

 [[149 150 251]
  [146 146 250]
  [145 142 250]
  ...
  [208 225 233]
  [198 215 228]
  [195 212 224]]

 [[144 148 250]
  [143 144 250]
  [140 137 249]
  ...
  [213 228 233]
  [205 220 228]
  [201 214 221]]]
(141, 113, 3)



- ndarray.size - общее количество элементов в массиве.


In [None]:
print(vector_age)
vector_age.size

[20 45  3 71 36]


5

In [None]:
print(matrix_table)
matrix_table.size

[[183 164  95 158 190]
 [ 20  45   3  71  36]]


10

In [None]:
print(img)
img.size

[[[220 225 251]
  [221 225 251]
  [222 226 252]
  ...
  [211 218 251]
  [211 218 251]
  [211 219 251]]

 [[219 230 249]
  [220 231 249]
  [222 232 250]
  ...
  [219 232 252]
  [219 232 252]
  [218 232 252]]

 [[220 234 245]
  [219 233 245]
  [219 233 245]
  ...
  [208 229 248]
  [210 230 249]
  [211 231 249]]

 ...

 [[143 143 250]
  [136 136 249]
  [131 128 248]
  ...
  [208 225 233]
  [199 217 230]
  [197 216 229]]

 [[149 150 251]
  [146 146 250]
  [145 142 250]
  ...
  [208 225 233]
  [198 215 228]
  [195 212 224]]

 [[144 148 250]
  [143 144 250]
  [140 137 249]
  ...
  [213 228 233]
  [205 220 228]
  [201 214 221]]]


47799


- ndarray.dtype - описание типа данных элементов в массиве

In [None]:
print(vector_age)
vector_age.dtype

[20 45  3 71 36]


dtype('int64')

In [None]:
print(matrix_table)
matrix_table.dtype

[[183 164  95 158 190]
 [ 20  45   3  71  36]]


dtype('int64')

In [None]:
print(img)
img.dtype

[[[220 225 251]
  [221 225 251]
  [222 226 252]
  ...
  [211 218 251]
  [211 218 251]
  [211 219 251]]

 [[219 230 249]
  [220 231 249]
  [222 232 250]
  ...
  [219 232 252]
  [219 232 252]
  [218 232 252]]

 [[220 234 245]
  [219 233 245]
  [219 233 245]
  ...
  [208 229 248]
  [210 230 249]
  [211 231 249]]

 ...

 [[143 143 250]
  [136 136 249]
  [131 128 248]
  ...
  [208 225 233]
  [199 217 230]
  [197 216 229]]

 [[149 150 251]
  [146 146 250]
  [145 142 250]
  ...
  [208 225 233]
  [198 215 228]
  [195 212 224]]

 [[144 148 250]
  [143 144 250]
  [140 137 249]
  ...
  [213 228 233]
  [205 220 228]
  [201 214 221]]]


dtype('uint8')

### Создание numpy массивов

Иногда мы не знаем наполнение numpy массива, но мы знаем его размер. В numpy есть несколько подходов, чтобы создавать заготовки для дальнейшего заполнения данными. Такой подход убирает необходимость в расширении массива, что является дорогой операцией.


Функция numpy.zeros создает массив, заполненный нулями.

In [None]:
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

Функция numpy.ones создает массив, заполненный единицами.

При этом можем при желании указать, какой тип желаете в новом массиве.


In [None]:
np.ones((2, 3, 4), dtype=np.int16)

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

И функция numpy.empty создает массив, заполненный случайными величинами, которые зависят от текущего состояния памяти.


In [None]:
np.empty((2, 3))

array([[4.67172811e-310, 0.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 0.00000000e+000]])

np.arange - полный аналог `range` в Python.

In [None]:
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

np.linspace создаст массив в заданных диапазон с одинаковым шагом.

In [None]:
np.linspace(0, 1, num=5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

И так же можем нагенерировать случайные объекты с помощью модуля random в numpy.

In [None]:
np.random.randint(0, 10, size=5)

array([3, 7, 2, 9, 6])

## Задача на сегодня

С основами numpy массивов разобрались, теперь давайте возьмем небольшое количество данные и попробуем их проанализировать.

Ссылка на google drive: https://drive.google.com/file/d/1TaS4DsUnUQuqB0UxCscptbEQ0JoFmUMQ

In [None]:
!wget 'https://drive.google.com/uc?id=1TaS4DsUnUQuqB0UxCscptbEQ0JoFmUMQ' -O income_by_age.txt

--2022-05-08 16:05:26--  https://drive.google.com/uc?id=1TaS4DsUnUQuqB0UxCscptbEQ0JoFmUMQ
Resolving drive.google.com (drive.google.com)... 74.125.137.102, 74.125.137.101, 74.125.137.100, ...
Connecting to drive.google.com (drive.google.com)|74.125.137.102|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://doc-0c-c0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/6e3k8mv8k5v5jhvns5p5prrhkohem7ig/1652025900000/14904333240138417226/*/1TaS4DsUnUQuqB0UxCscptbEQ0JoFmUMQ [following]
--2022-05-08 16:05:27--  https://doc-0c-c0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/6e3k8mv8k5v5jhvns5p5prrhkohem7ig/1652025900000/14904333240138417226/*/1TaS4DsUnUQuqB0UxCscptbEQ0JoFmUMQ
Resolving doc-0c-c0-docs.googleusercontent.com (doc-0c-c0-docs.googleusercontent.com)... 142.250.141.132, 2607:f8b0:4023:c0b::84
Connecting to doc-0c-c0-docs.googleusercontent.com (doc-0c-c0-docs.googleusercontent.com)|142.250.141.1

Данные взяты с магазина, есть информация по 100 клиентам, есть их возраст и есть суммарный чек за последнюю неделю.

In [None]:
data = np.loadtxt('income_by_age.txt')
data.shape

(100, 2)

In [16]:
condition = data[:,1] > 1500
data[condition, 1]



#column_stack()






array([2730., 1882., 1964., 2157., 1811., 1634., 1861., 1591., 1713.,
       1610., 2560., 3159., 2177., 1838., 2121., 1697., 2388.])

In [20]:
import pandas as pd



1    1
2    1
3    2
4    3
5    7
dtype: int64

In [25]:

ser2

0    1
1    1
2    2
3    3
4    7
dtype: int64

In [34]:
ser1 = pd.Series([1,2,3,4,5])
ser2 = pd.Series([6,7,8,9,10])
ser3 = pd.Series([11,12,13,14,15])
df1 = pd.DataFrame(np.column_stack([ser1, ser2, ser3]))
df1

#np.column_stack([ser1, ser2])


df  = pd.DataFrame([s1, s2, s3, s4])
s1= 

Unnamed: 0,0,1,2
0,1,6,11
1,2,7,12
2,3,8,13
3,4,9,14
4,5,10,15


In [27]:
df1

Unnamed: 0,0
1,1.0
1,1.0
2,1.0
3,2.0
7,


In [23]:
ser1


1    1
2    1
3    2
4    3
5    7
dtype: int64

In [None]:
data

array([[  38.,  741.],
       [  32.,  630.],
       [  52., 2730.],
       [  33.,  552.],
       [  35.,  409.],
       [  46., 1882.],
       [  28., 1209.],
       [  30.,  891.],
       [  36.,  487.],
       [  32.,  629.],
       [  26., 1492.],
       [  33.,  504.],
       [  32.,  658.],
       [  39.,  903.],
       [  23., 1964.],
       [  30., 1000.],
       [  43., 1451.],
       [  48., 2157.],
       [  24., 1811.],
       [  39.,  944.],
       [  28., 1280.],
       [  29., 1156.],
       [  28., 1171.],
       [  32.,  722.],
       [  41., 1296.],
       [  39., 1012.],
       [  35.,  359.],
       [  32.,  663.],
       [  35.,  303.],
       [  34.,  405.],
       [  40., 1093.],
       [  30.,  931.],
       [  34.,  306.],
       [  34.,  401.],
       [  34.,  352.],
       [  36.,  549.],
       [  36.,  497.],
       [  44., 1634.],
       [  34.,  386.],
       [  45., 1861.],
       [  32.,  605.],
       [  31.,  777.],
       [  35.,  400.],
       [  3

## Индексирование


In [None]:
data[:,:]





AttributeError: ignored

Во-первых, научимся доставать данные по одному клиенту.

Для этого возьмем нулевой объект в массиве с помощью индексации.

In [None]:

maxx =data[:,1].max() 
idx = data[:,1].argmax()
ag = data[idx,0]

print(f"макс расход: {maxx}, индекс {idx}, возраст {ag}")




макс расход: 3159.0, индекс 68, возраст 14.0


In [None]:
data[data[:,1]>1500,0]




array([52., 46., 23., 48., 24., 44., 45., 44., 44., 25., 50., 14., 21.,
       45., 47., 25., 49.])

In [None]:
data[:,0]

NameError: ignored

Видим, что клиент с возрастом 38 и за последнюю неделю он закупился на 741.

Так же можем взять, к примеру, первых 5 покупателей в данных. Для этого воспользуемся срезами.

In [None]:

idx = data[:,1].argmax()
print(f"прибыль: {data[:,1].max()},  возраст: {data[idx,0]}" )
#print(f"прибыль: {idx}")


#print(data[:,1].min(), data[:,1].argmin(), data[data[:,0].argmin(),0] )




прибыль: 3159.0,  возраст: 14.0


In [None]:
data.mean(axis = 0)# axis = 0 - строка - значит выведет среднее по названиям колонок в столбцах
                   # axis = 1 - столбец 


data[data[:,1] >2000]






array([[  52., 2730.],
       [  48., 2157.],
       [  50., 2560.],
       [  14., 3159.],
       [  21., 2177.],
       [  47., 2121.],
       [  49., 2388.]])

А можем вообще взять все данные.

In [None]:
data[:]

array([[  38.,  741.],
       [  32.,  630.],
       [  52., 2730.],
       [  33.,  552.],
       [  35.,  409.],
       [  46., 1882.],
       [  28., 1209.],
       [  30.,  891.],
       [  36.,  487.],
       [  32.,  629.],
       [  26., 1492.],
       [  33.,  504.],
       [  32.,  658.],
       [  39.,  903.],
       [  23., 1964.],
       [  30., 1000.],
       [  43., 1451.],
       [  48., 2157.],
       [  24., 1811.],
       [  39.,  944.],
       [  28., 1280.],
       [  29., 1156.],
       [  28., 1171.],
       [  32.,  722.],
       [  41., 1296.],
       [  39., 1012.],
       [  35.,  359.],
       [  32.,  663.],
       [  35.,  303.],
       [  34.,  405.],
       [  40., 1093.],
       [  30.,  931.],
       [  34.,  306.],
       [  34.,  401.],
       [  34.,  352.],
       [  36.,  549.],
       [  36.,  497.],
       [  44., 1634.],
       [  34.,  386.],
       [  45., 1861.],
       [  32.,  605.],
       [  31.,  777.],
       [  35.,  400.],
       [  3

Во-вторых, научимся отделять данные по возрасту покупателей от их сумм, затраченных в нашем магазине.

Сначала возьмем колонку с возрастом людей, для этого обратимся к столбцу по индексу 0. Но нам нужны все покупатели, так что указываем срез по всем строкам.

In [None]:
data[:, 0]

array([38., 32., 52., 33., 35., 46., 28., 30., 36., 32., 26., 33., 32.,
       39., 23., 30., 43., 48., 24., 39., 28., 29., 28., 32., 41., 39.,
       35., 32., 35., 34., 40., 30., 34., 34., 34., 36., 36., 44., 34.,
       45., 32., 31., 35., 37., 36., 44., 42., 38., 32., 34., 44., 36.,
       25., 30., 30., 43., 34., 50., 39., 35., 31., 41., 33., 29., 38.,
       35., 43., 34., 14., 40., 21., 45., 47., 32., 26., 25., 41., 33.,
       30., 33., 49., 37., 40., 40., 42., 42., 30., 33., 29., 30., 42.,
       31., 34., 30., 30., 40., 31., 31., 38., 38.])

И берем только данные по выручке - это уже колонка с индексом 1.

In [None]:
data[:, 1]

array([ 741.,  630., 2730.,  552.,  409., 1882., 1209.,  891.,  487.,
        629., 1492.,  504.,  658.,  903., 1964., 1000., 1451., 2157.,
       1811.,  944., 1280., 1156., 1171.,  722., 1296., 1012.,  359.,
        663.,  303.,  405., 1093.,  931.,  306.,  401.,  352.,  549.,
        497., 1634.,  386., 1861.,  605.,  777.,  400.,  655.,  569.,
       1591., 1439.,  794.,  636.,  400., 1713.,  521., 1610.,  989.,
        877., 1452.,  407., 2560.,  956.,  424.,  735., 1272.,  540.,
       1124.,  868.,  312., 1489.,  373., 3159., 1089., 2177., 1838.,
       2121.,  727., 1464., 1697., 1172.,  502.,  898.,  543., 2388.,
        646., 1045., 1076., 1318., 1361., 1010.,  515., 1060., 1011.,
       1441.,  801.,  379.,  992.,  893., 1088.,  745.,  782.,  793.,
        800.])

При этом два подхода можем совмещать.

In [None]:
data[5:10, 0]

array([46., 28., 30., 36., 32.])

## Основные математические функции

Можем поизучать наши данные и найти возраст самого молодого покупателя через min().

In [None]:
data[:, 0].min()

14.0

А так же можем узнать порядковый индекс этого самого молодого покупателя, если воспользуемся argmin().

In [None]:
idx = data[:, 0].argmin()
idx

68

In [None]:
data[idx]

array([  14., 3159.])

Можем узнать, как много нам принес самый прибыльный покупатель через метод max(). 

In [None]:
data[:, 1].max()

3159.0

И так же можем узнать порядковый индекс этого самого прибыльного покупателя, если воспользуемся argmax().

In [None]:
idx = data[:, 1].argmax()
idx

68

In [None]:
data[idx]

array([  14., 3159.])

Так же можем посмотреть, а какой средний возраст наших клиентов через mean().

In [None]:
data[:, 0].mean()

35.14

А так же давайте посмотрим, сколько у нас прибыли за последнюю неделю с этими покупателями через метод sum().

In [None]:
data[:, 1].sum()

103040.0

Но тут мы к сожалению вспоминаем, что у нас есть коммисия, которую нам нужно вычесть с каждой покупки.

Коммисия равняется 2%.

Для начала узнаем, сколько выйдет, если посчитать по 2% у каждой покупки.

Если бы мы пользовались чистым Python списками, то нужно было бы пройтись по всем объектам в цикле и для каждого посчитать 2% и записать в какой-то новый список.

Условно это могло бы выглядеть примерно так.

In [None]:
incomes = data[:, 1]

percentes = []

for income in incomes:
    two_perc = income * 2 / 100
    percentes.append(two_perc)

print(percentes)

[14.82, 12.6, 54.6, 11.04, 8.18, 37.64, 24.18, 17.82, 9.74, 12.58, 29.84, 10.08, 13.16, 18.06, 39.28, 20.0, 29.02, 43.14, 36.22, 18.88, 25.6, 23.12, 23.42, 14.44, 25.92, 20.24, 7.18, 13.26, 6.06, 8.1, 21.86, 18.62, 6.12, 8.02, 7.04, 10.98, 9.94, 32.68, 7.72, 37.22, 12.1, 15.54, 8.0, 13.1, 11.38, 31.82, 28.78, 15.88, 12.72, 8.0, 34.26, 10.42, 32.2, 19.78, 17.54, 29.04, 8.14, 51.2, 19.12, 8.48, 14.7, 25.44, 10.8, 22.48, 17.36, 6.24, 29.78, 7.46, 63.18, 21.78, 43.54, 36.76, 42.42, 14.54, 29.28, 33.94, 23.44, 10.04, 17.96, 10.86, 47.76, 12.92, 20.9, 21.52, 26.36, 27.22, 20.2, 10.3, 21.2, 20.22, 28.82, 16.02, 7.58, 19.84, 17.86, 21.76, 14.9, 15.64, 15.86, 16.0]


Очень много всего нужно написать, благо у нас теперь есть numpy массивы и мы можем в разы сократить количество кода. При этом еще помним, что если данных будет не 100, а 1кк, то вычисления процентов в цикле будет очень долгим, а через numpy быстрее.

In [None]:
two_perc = data[:, 1] * 2 / 100
two_perc

array([14.82, 12.6 , 54.6 , 11.04,  8.18, 37.64, 24.18, 17.82,  9.74,
       12.58, 29.84, 10.08, 13.16, 18.06, 39.28, 20.  , 29.02, 43.14,
       36.22, 18.88, 25.6 , 23.12, 23.42, 14.44, 25.92, 20.24,  7.18,
       13.26,  6.06,  8.1 , 21.86, 18.62,  6.12,  8.02,  7.04, 10.98,
        9.94, 32.68,  7.72, 37.22, 12.1 , 15.54,  8.  , 13.1 , 11.38,
       31.82, 28.78, 15.88, 12.72,  8.  , 34.26, 10.42, 32.2 , 19.78,
       17.54, 29.04,  8.14, 51.2 , 19.12,  8.48, 14.7 , 25.44, 10.8 ,
       22.48, 17.36,  6.24, 29.78,  7.46, 63.18, 21.78, 43.54, 36.76,
       42.42, 14.54, 29.28, 33.94, 23.44, 10.04, 17.96, 10.86, 47.76,
       12.92, 20.9 , 21.52, 26.36, 27.22, 20.2 , 10.3 , 21.2 , 20.22,
       28.82, 16.02,  7.58, 19.84, 17.86, 21.76, 14.9 , 15.64, 15.86,
       16.  ])

А затем еще остается вычесть из исзодной суммы эти проценты.

In [None]:
clear_income = data[:, 1] - two_perc
clear_income

array([ 726.18,  617.4 , 2675.4 ,  540.96,  400.82, 1844.36, 1184.82,
        873.18,  477.26,  616.42, 1462.16,  493.92,  644.84,  884.94,
       1924.72,  980.  , 1421.98, 2113.86, 1774.78,  925.12, 1254.4 ,
       1132.88, 1147.58,  707.56, 1270.08,  991.76,  351.82,  649.74,
        296.94,  396.9 , 1071.14,  912.38,  299.88,  392.98,  344.96,
        538.02,  487.06, 1601.32,  378.28, 1823.78,  592.9 ,  761.46,
        392.  ,  641.9 ,  557.62, 1559.18, 1410.22,  778.12,  623.28,
        392.  , 1678.74,  510.58, 1577.8 ,  969.22,  859.46, 1422.96,
        398.86, 2508.8 ,  936.88,  415.52,  720.3 , 1246.56,  529.2 ,
       1101.52,  850.64,  305.76, 1459.22,  365.54, 3095.82, 1067.22,
       2133.46, 1801.24, 2078.58,  712.46, 1434.72, 1663.06, 1148.56,
        491.96,  880.04,  532.14, 2340.24,  633.08, 1024.1 , 1054.48,
       1291.64, 1333.78,  989.8 ,  504.7 , 1038.8 ,  990.78, 1412.18,
        784.98,  371.42,  972.16,  875.14, 1066.24,  730.1 ,  766.36,
        777.14,  784

Можем убедиться, что вычисления произошли правильно. Выведем первый объект и сравним результаты.

In [None]:
data[0, 1]

741.0

In [None]:
two_perc[0]

14.82

In [None]:
clear_income[0]

726.18

И всё посчиталось правильно.

Рассмотрели некоторые основные математические операции. 

При этом еще стоит обратить своё внимание на мат. операции, когда несколько размерностей, потому что до этого моменты подсчет велся именно на одном измерении.

Давайте за один подход найдм сразу средний возраст людей и их средние траты.

In [None]:
data.mean()

532.77

Взяли знакомый нам mean(), но почему-то число вышло одно, а ожидали два. А это получилось среднее по всему массиву.

Чтобы посчитать среднее сразу же по двум измерениям, нужно указать атрибут axis - вдоль чего идет подсчет среднего арифметического.

- axis=0 - по столбцам
- axis=1 - по строкам

In [None]:
data.mean(axis=0)

array([  35.14, 1030.4 ])

### Атрибут axis

Можем этот подход рассмотреть на примере поменьше, чтоб было более наглядно. И давайте для пущей простоты возьмем метод min().

In [None]:
np.random.seed(8)
a = np.random.randint(0, 10, size=(5, 2))
a

array([[3, 4],
       [1, 9],
       [5, 8],
       [3, 8],
       [0, 5]])

Минимальное этого массива по всем объектам (без указания axis).

In [None]:
a.min()

0

Минимальное этого массива по столбцам (axis=0).

In [None]:
a.min(axis=0)

array([0, 4])

Минимальное этого массива по строкам (axis=1).

In [None]:
a.min(axis=1)

array([3, 1, 5, 3, 0])

## Изменение размера массива

### Reshape

Небольшое отступление закончилось, сейчас снова возвращаемся к нашим покупателям.

Что если мы захотим поменять местами наши оси? Чтобы по строкам теперь были возраст и сумма покупок, а по столбцам покупатели. Это можно провернуть с помощью метода reshape.


In [None]:
data.reshape((2, 100))

array([[  38.,  741.,   32.,  630.,   52., 2730.,   33.,  552.,   35.,
         409.,   46., 1882.,   28., 1209.,   30.,  891.,   36.,  487.,
          32.,  629.,   26., 1492.,   33.,  504.,   32.,  658.,   39.,
         903.,   23., 1964.,   30., 1000.,   43., 1451.,   48., 2157.,
          24., 1811.,   39.,  944.,   28., 1280.,   29., 1156.,   28.,
        1171.,   32.,  722.,   41., 1296.,   39., 1012.,   35.,  359.,
          32.,  663.,   35.,  303.,   34.,  405.,   40., 1093.,   30.,
         931.,   34.,  306.,   34.,  401.,   34.,  352.,   36.,  549.,
          36.,  497.,   44., 1634.,   34.,  386.,   45., 1861.,   32.,
         605.,   31.,  777.,   35.,  400.,   37.,  655.,   36.,  569.,
          44., 1591.,   42., 1439.,   38.,  794.,   32.,  636.,   34.,
         400.],
       [  44., 1713.,   36.,  521.,   25., 1610.,   30.,  989.,   30.,
         877.,   43., 1452.,   34.,  407.,   50., 2560.,   39.,  956.,
          35.,  424.,   31.,  735.,   41., 1272.,   33.,  540

Иногда нам без разницы сколько объектов будет по одной из осей, нам главное, чтобы в одной оси было нужное нам значение.

К примеру, мы точно знаем, что у нас есть две характеристики по покупателям, но мы можем не знать, сколько у нас покупателей вообще.

Для такого сценария можем воспользоваться следующим синтаксисом.

In [None]:
data.reshape((2, -1))

array([[  38.,  741.,   32.,  630.,   52., 2730.,   33.,  552.,   35.,
         409.,   46., 1882.,   28., 1209.,   30.,  891.,   36.,  487.,
          32.,  629.,   26., 1492.,   33.,  504.,   32.,  658.,   39.,
         903.,   23., 1964.,   30., 1000.,   43., 1451.,   48., 2157.,
          24., 1811.,   39.,  944.,   28., 1280.,   29., 1156.,   28.,
        1171.,   32.,  722.,   41., 1296.,   39., 1012.,   35.,  359.,
          32.,  663.,   35.,  303.,   34.,  405.,   40., 1093.,   30.,
         931.,   34.,  306.,   34.,  401.,   34.,  352.,   36.,  549.,
          36.,  497.,   44., 1634.,   34.,  386.,   45., 1861.,   32.,
         605.,   31.,  777.,   35.,  400.,   37.,  655.,   36.,  569.,
          44., 1591.,   42., 1439.,   38.,  794.,   32.,  636.,   34.,
         400.],
       [  44., 1713.,   36.,  521.,   25., 1610.,   30.,  989.,   30.,
         877.,   43., 1452.,   34.,  407.,   50., 2560.,   39.,  956.,
          35.,  424.,   31.,  735.,   41., 1272.,   33.,  540

### Resize

А еще есть метод resize, он делает всё тоже самое, что и reshape, только вот он на месте перезаписывает наш массив.

И указать -1 здесь не получится.


In [None]:
data_resized = data.copy()

data_resized.resize((2, -1))

ValueError: ignored

In [None]:
data_resized.resize((2, 100))

In [None]:
data_resized

array([[  38.,  741.,   32.,  630.,   52., 2730.,   33.,  552.,   35.,
         409.,   46., 1882.,   28., 1209.,   30.,  891.,   36.,  487.,
          32.,  629.,   26., 1492.,   33.,  504.,   32.,  658.,   39.,
         903.,   23., 1964.,   30., 1000.,   43., 1451.,   48., 2157.,
          24., 1811.,   39.,  944.,   28., 1280.,   29., 1156.,   28.,
        1171.,   32.,  722.,   41., 1296.,   39., 1012.,   35.,  359.,
          32.,  663.,   35.,  303.,   34.,  405.,   40., 1093.,   30.,
         931.,   34.,  306.,   34.,  401.,   34.,  352.,   36.,  549.,
          36.,  497.,   44., 1634.,   34.,  386.,   45., 1861.,   32.,
         605.,   31.,  777.,   35.,  400.,   37.,  655.,   36.,  569.,
          44., 1591.,   42., 1439.,   38.,  794.,   32.,  636.,   34.,
         400.],
       [  44., 1713.,   36.,  521.,   25., 1610.,   30.,  989.,   30.,
         877.,   43., 1452.,   34.,  407.,   50., 2560.,   39.,  956.,
          35.,  424.,   31.,  735.,   41., 1272.,   33.,  540

## Присоединение массивов

Нам повезло и мы ещё получили данные по количеству покупок за прошедшую неделю. Скачаем себе эти данные.

In [None]:
!wget 'https://drive.google.com/uc?id=1xf9gRjobn3x7oMxVH_7ryOlg86f8cbzI' -O num_purchases.txt

--2022-05-08 16:01:49--  https://drive.google.com/uc?id=1xf9gRjobn3x7oMxVH_7ryOlg86f8cbzI
Resolving drive.google.com (drive.google.com)... 74.125.137.102, 74.125.137.138, 74.125.137.113, ...
Connecting to drive.google.com (drive.google.com)|74.125.137.102|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://doc-0k-c0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/su0shfb6idoa7kvgopn479dd9hp807lk/1652025675000/14904333240138417226/*/1xf9gRjobn3x7oMxVH_7ryOlg86f8cbzI [following]
--2022-05-08 16:01:49--  https://doc-0k-c0-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/su0shfb6idoa7kvgopn479dd9hp807lk/1652025675000/14904333240138417226/*/1xf9gRjobn3x7oMxVH_7ryOlg86f8cbzI
Resolving doc-0k-c0-docs.googleusercontent.com (doc-0k-c0-docs.googleusercontent.com)... 142.250.141.132, 2607:f8b0:4023:c0b::84
Connecting to doc-0k-c0-docs.googleusercontent.com (doc-0k-c0-docs.googleusercontent.com)|142.250.141.1

Здесь тоже 100 чисел, как и наших клиентов.

In [None]:
purchases = np.loadtxt('num_purchases.txt')
purchases

array([ 2., 11.,  7.,  2.,  5.,  2.,  5.,  8.,  5.,  4.,  3.,  5.,  4.,
        4.,  2., 10.,  2.,  3.,  5.,  3.,  2.,  4.,  6.,  5.,  3.,  2.,
        9.,  2.,  5.,  2.,  4.,  4.,  6.,  7.,  5.,  5.,  2.,  7.,  4.,
        4.,  3.,  2.,  4.,  3.,  3.,  2.,  5.,  3.,  3.,  4.,  2.,  3.,
        5.,  9.,  8.,  7.,  9.,  2.,  2.,  5.,  3.,  5.,  8.,  3.,  3.,
        2.,  5.,  2.,  2.,  4.,  3.,  6.,  8.,  4.,  4.,  2.,  3.,  6.,
        5.,  3.,  3.,  6.,  2.,  3.,  2.,  2.,  9.,  3.,  4.,  3.,  7.,
        2.,  9.,  4.,  3., 10.,  3.,  4.,  4.,  8.])

In [None]:
data.shape, purchases.shape

NameError: ignored

In [None]:
data

NameError: ignored

Попробуем присоединить этот массив к нашему `data`.


In [None]:
np.hstack([data, purchases])

ValueError: ignored

Но выскакивает ошибка о несоответствии количества измерений.

In [None]:
display(data.ndim, purchases.ndim)

2

1

Поэтому нужно поменять размерность у нашего массива `purchases`.

In [None]:
purchases = purchases.reshape((-1, 1))
purchases.ndim

2

Сейчас всё получилось без ошибок и действительно, новые данные добавились в наш существующий массив.

In [None]:
np.set_printoptions(suppress=True)

np.hstack([data, purchases])

array([[  38.,  741.,    2.],
       [  32.,  630.,   11.],
       [  52., 2730.,    7.],
       [  33.,  552.,    2.],
       [  35.,  409.,    5.],
       [  46., 1882.,    2.],
       [  28., 1209.,    5.],
       [  30.,  891.,    8.],
       [  36.,  487.,    5.],
       [  32.,  629.,    4.],
       [  26., 1492.,    3.],
       [  33.,  504.,    5.],
       [  32.,  658.,    4.],
       [  39.,  903.,    4.],
       [  23., 1964.,    2.],
       [  30., 1000.,   10.],
       [  43., 1451.,    2.],
       [  48., 2157.,    3.],
       [  24., 1811.,    5.],
       [  39.,  944.,    3.],
       [  28., 1280.,    2.],
       [  29., 1156.,    4.],
       [  28., 1171.,    6.],
       [  32.,  722.,    5.],
       [  41., 1296.,    3.],
       [  39., 1012.,    2.],
       [  35.,  359.,    9.],
       [  32.,  663.,    2.],
       [  35.,  303.,    5.],
       [  34.,  405.,    2.],
       [  40., 1093.,    4.],
       [  30.,  931.,    4.],
       [  34.,  306.,    6.],
       [  

Снова на примере попроще разберем `hstack` и `vstack`.

In [None]:
a

array([[3, 4],
       [1, 9],
       [5, 8],
       [3, 8],
       [0, 5]])

In [None]:
np.random.seed(6)
b = np.random.randint(-10, 0, size=(2, 2))
b

array([[ -1,  -7],
       [ -6, -10]])

Здесь соединяем по вертикали. Новые данные становится ниже по столбцам.

In [None]:
np.vstack([a, b])

array([[  3,   4],
       [  1,   9],
       [  5,   8],
       [  3,   8],
       [  0,   5],
       [ -1,  -7],
       [ -6, -10]])

А здесь соединим по горизонтали. Новые данные добавятся по строкам.

In [None]:
a

array([[3, 4],
       [1, 9],
       [5, 8],
       [3, 8],
       [0, 5]])

In [None]:
np.random.seed(8)
c = np.random.randint(-10, 0, size=(5, 1))
c

array([[-7],
       [-6],
       [-9],
       [-1],
       [-5]])

In [None]:
np.hstack([a, c])

array([[ 3,  4, -7],
       [ 1,  9, -6],
       [ 5,  8, -9],
       [ 3,  8, -1],
       [ 0,  5, -5]])

И на самом деле с нашими данными с покупателями мы могли и не пользоваться np.hstack, а воспользоваться np.column_stack. Данная функция позволяет присоединить в двумерному массиву новую колонку, состоящую из одномерного массива.

In [None]:
data = np.column_stack([data, purchases])
data

array([[  38.,  741.,    2.],
       [  32.,  630.,   11.],
       [  52., 2730.,    7.],
       [  33.,  552.,    2.],
       [  35.,  409.,    5.],
       [  46., 1882.,    2.],
       [  28., 1209.,    5.],
       [  30.,  891.,    8.],
       [  36.,  487.,    5.],
       [  32.,  629.,    4.],
       [  26., 1492.,    3.],
       [  33.,  504.,    5.],
       [  32.,  658.,    4.],
       [  39.,  903.,    4.],
       [  23., 1964.,    2.],
       [  30., 1000.,   10.],
       [  43., 1451.,    2.],
       [  48., 2157.,    3.],
       [  24., 1811.,    5.],
       [  39.,  944.,    3.],
       [  28., 1280.,    2.],
       [  29., 1156.,    4.],
       [  28., 1171.,    6.],
       [  32.,  722.,    5.],
       [  41., 1296.,    3.],
       [  39., 1012.,    2.],
       [  35.,  359.,    9.],
       [  32.,  663.,    2.],
       [  35.,  303.,    5.],
       [  34.,  405.,    2.],
       [  40., 1093.,    4.],
       [  30.,  931.,    4.],
       [  34.,  306.,    6.],
       [  

## Булевые маски

Продолжаем анализировать наших покупателей и давайте найдем только тех, которые для нас представляют наибольший интерес - условно, это те, кто платит больше 1500 в неделю.

Чтобы это решить, можем воспользоваться булевыми масками - это условия.

In [None]:
condition = data[:, 1] > 1500
condition

array([False, False,  True, False, False,  True, False, False, False,
       False, False, False, False, False,  True, False, False,  True,
        True, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False,  True, False,  True, False, False, False, False, False,
        True, False, False, False, False,  True, False,  True, False,
       False, False, False,  True, False, False, False, False, False,
       False, False, False, False, False,  True, False,  True,  True,
        True, False, False,  True, False, False, False, False,  True,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False])

Далее эту булевую маску маску можем передать в массив и получим только те объекты, где стоит значение True, то есть выполняется наше условие.

In [None]:
cond = data[:,1] > 1500

higher_1500 = data[cond]

#cond
higher_1500


array([[  52., 2730.],
       [  46., 1882.],
       [  23., 1964.],
       [  48., 2157.],
       [  24., 1811.],
       [  44., 1634.],
       [  45., 1861.],
       [  44., 1591.],
       [  44., 1713.],
       [  25., 1610.],
       [  50., 2560.],
       [  14., 3159.],
       [  21., 2177.],
       [  45., 1838.],
       [  47., 2121.],
       [  25., 1697.],
       [  49., 2388.]])

In [None]:

higher_1500 = data[condition]
higher_1500

array([[  52., 2730.,    7.],
       [  46., 1882.,    2.],
       [  23., 1964.,    2.],
       [  48., 2157.,    3.],
       [  24., 1811.,    5.],
       [  44., 1634.,    7.],
       [  45., 1861.,    4.],
       [  44., 1591.,    2.],
       [  44., 1713.,    2.],
       [  25., 1610.,    5.],
       [  50., 2560.,    2.],
       [  14., 3159.,    2.],
       [  21., 2177.,    3.],
       [  45., 1838.,    6.],
       [  47., 2121.,    8.],
       [  25., 1697.,    2.],
       [  49., 2388.,    3.]])

Давайте этих людей выделим, чтобы работать с ними более активно и предлагать им больше рекламных акций.

Для этого создаем новый бинарный столбец, который будет принимать 0 - если человек нам не интересен для рекламной акции и 1 - если интересен.

Сначала сделаем заготовку.

In [None]:
is_interesting = np.zeros(shape=(100))
is_interesting

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

И с помощью знакомой нам функции добавим этот столбец в исходные данные.

In [None]:
data = np.column_stack([data, is_interesting])
data

array([[  38.,  741.,    2.,    0.],
       [  32.,  630.,   11.,    0.],
       [  52., 2730.,    7.,    0.],
       [  33.,  552.,    2.,    0.],
       [  35.,  409.,    5.,    0.],
       [  46., 1882.,    2.,    0.],
       [  28., 1209.,    5.,    0.],
       [  30.,  891.,    8.,    0.],
       [  36.,  487.,    5.,    0.],
       [  32.,  629.,    4.,    0.],
       [  26., 1492.,    3.,    0.],
       [  33.,  504.,    5.,    0.],
       [  32.,  658.,    4.,    0.],
       [  39.,  903.,    4.,    0.],
       [  23., 1964.,    2.,    0.],
       [  30., 1000.,   10.,    0.],
       [  43., 1451.,    2.,    0.],
       [  48., 2157.,    3.,    0.],
       [  24., 1811.,    5.,    0.],
       [  39.,  944.,    3.,    0.],
       [  28., 1280.,    2.,    0.],
       [  29., 1156.,    4.,    0.],
       [  28., 1171.,    6.,    0.],
       [  32.,  722.,    5.,    0.],
       [  41., 1296.,    3.,    0.],
       [  39., 1012.,    2.,    0.],
       [  35.,  359.,    9.,    0.],
 

А теперь проставим единицы по нашей булевой маске.

In [None]:
data[condition, -1] = 1
data

array([[  38.,  741.,    2.,    0.],
       [  32.,  630.,   11.,    0.],
       [  52., 2730.,    7.,    1.],
       [  33.,  552.,    2.,    0.],
       [  35.,  409.,    5.,    0.],
       [  46., 1882.,    2.,    1.],
       [  28., 1209.,    5.,    0.],
       [  30.,  891.,    8.,    0.],
       [  36.,  487.,    5.,    0.],
       [  32.,  629.,    4.,    0.],
       [  26., 1492.,    3.,    0.],
       [  33.,  504.,    5.,    0.],
       [  32.,  658.,    4.,    0.],
       [  39.,  903.,    4.,    0.],
       [  23., 1964.,    2.,    1.],
       [  30., 1000.,   10.,    0.],
       [  43., 1451.,    2.,    0.],
       [  48., 2157.,    3.,    1.],
       [  24., 1811.,    5.,    1.],
       [  39.,  944.,    3.,    0.],
       [  28., 1280.,    2.,    0.],
       [  29., 1156.,    4.,    0.],
       [  28., 1171.,    6.,    0.],
       [  32.,  722.,    5.,    0.],
       [  41., 1296.,    3.,    0.],
       [  39., 1012.,    2.,    0.],
       [  35.,  359.,    9.,    0.],
 

Давайте наши новые преобразованные данные сохраним в txt файл.

In [None]:
np.savetxt('data.txt', data)

In [None]:
data

NameError: ignored

Этот файл тоже положила на goolge drive: https://drive.google.com/file/d/17xDAUwRdJVbpZNi1toPbAQitVrBVHFt6

## Что сегодня узнали?

- Что из себя представляет numpy
- Какие объекты есть в numpy и как их создавать
- Как взять объект из numpy массива по индексу 
- Как складывать/вычитать/делить/умножать массивы
- Как найти минимум/максимум/среднее массива
- Как измененить размер массива
- Как соединить вместе массивы
- Как фильтровать массивы


## Практика
Практика доступна на платформе boosty:
https://boosty.to/machine_learrrning/posts/3bf4568d-c7f0-45dd-bf7d-58b77989608b

Доступна
1. по подписке уровня light+ и выше
2. разовая оплата

Муррр ♥