# Базовые понятия и объекты

In [2]:
# Импортирование библиотеки и задача псевдонима np
import numpy as np

In [3]:
# Основной объект, который присутствует в NumPy - это ndarray object
a = np.array([1, 2, 3])
type(a)

numpy.ndarray

# Зачем нужен NumPy?

In [4]:
a = range(0, 1_000_000)
b = range(0, 1_000_000)

In [6]:
%%time

for i in range(len(a)):
    a[i] * b[i]

Wall time: 402 ms


In [7]:
%%time
a_np = np.array(a)
b_np = np.array(b)
a_np * b_np

Wall time: 296 ms


array([         0,          1,          4, ..., -733379959, -731379964,
       -729379967])

Как мы видим, идентичная операция с использованием NumPy массивов выполнилась на 25% быстрее и, помимо этого, было использовано меньше строк кода, что также облегчает потенциальный код.

# Объекты в numpy

In [8]:
# одномерные векторы
vector_age = np.array([20, 45, 3, 71, 36])
vector_age

array([20, 45,  3, 71, 36])

In [11]:
# двумерные массивы
matrix_table = np.array([
    [183, 164, 95, 158, 190],
    vector_age
])

matrix_table

array([[183, 164,  95, 158, 190],
       [ 20,  45,   3,  71,  36]])

In [12]:
# трехмерные объекты - изображения, в которых есть три измерения: высота, ширина и глубина (количество каналов)

# Полезные атрибуты NumPy массива

In [20]:
# ndim - количество измерений (осей) массива
print(vector_age.ndim)  # одномерный массив = одна ось
print(matrix_table.ndim)  # двумерный массив = две оси


1
2


In [24]:
# shape - размерность массива. Это кортеж чисел, который описываем размер каждого измерения (каждой оси)
print(vector_age.shape)  # пять элементов и один вектор
print(matrix_table.shape)  # два вектора по пять элементов

(5,)
(2, 5)


In [27]:
# size - общее количество элементов массива
print(vector_age.size)  # всего пять
print(matrix_table.size)  # два по пять

5
10


In [29]:
# dtype - тип элементов вектора
print(vector_age.dtype)  # целочисленное значение
print(matrix_table.dtype)  # целочисленное значение

int32
int32


# Создание NumPy массивов

In [30]:
# Функция numpy.zeros создает массив, заполненный нулями
np.zeros((3, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [32]:
# По аналогии массив из единиц
np.ones((2, 3, 4))

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

In [35]:
# Numpy.empty создает массив, заполненный случайными величинами, которые зависят от текущего состояния памяти
np.empty((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [37]:
# Массив по аналогии с range с python
np.arange(0, 10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [38]:
# Linspace создаст массив в заданных диапазонах с одинаковым шагом
np.linspace(0, 1, num = 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [39]:
# Random.randint - случайная генерация
np.random.randint(0, 10, size = 5)

array([0, 0, 5, 4, 6])

# Анализ Датасета

In [48]:
# загружаем массив и проверяем его форму
data = np.loadtxt('income_by_age.txt')
data.shape

(100, 2)

## Индексирование

In [49]:
# Берем данные по первой строке (нулевой индекс)
data[0]

array([  40., 5235.])

In [51]:
# Берем срез, первые пять записей
data[:5]

array([[  40., 5235.],
       [  67., 7043.],
       [  35., 2150.],
       [  45., 3158.],
       [  33., 1028.]])

In [52]:
# Берем все данные
data[:]

array([[  40., 5235.],
       [  67., 7043.],
       [  35., 2150.],
       [  45., 3158.],
       [  33., 1028.],
       [  60., 5676.],
       [  28., 4705.],
       [  66., 7999.],
       [  31., 5362.],
       [  56., 7911.],
       [  48., 2219.],
       [  70., 4342.],
       [  32., 8300.],
       [  45., 5763.],
       [  52., 5172.],
       [  21., 7287.],
       [  47., 9574.],
       [  37., 1212.],
       [  59., 1048.],
       [  53., 5110.],
       [  30., 8903.],
       [  42., 6693.],
       [  30., 9246.],
       [  38., 1916.],
       [  46., 8546.],
       [  38., 4565.],
       [  61., 8444.],
       [  34., 7396.],
       [  55., 2433.],
       [  43., 2095.],
       [  32., 4242.],
       [  52., 3121.],
       [  24., 5211.],
       [  58., 3721.],
       [  55., 4429.],
       [  43., 1829.],
       [  45., 5141.],
       [  53., 4271.],
       [  20., 4964.],
       [  46., 9206.],
       [  43., 4891.],
       [  41., 2797.],
       [  33., 1832.],
       [  3

In [54]:
# Берем только первое поле
data[:, 0]  # возвращаются записи только из первого поля

array([40., 67., 35., 45., 33., 60., 28., 66., 31., 56., 48., 70., 32.,
       45., 52., 21., 47., 37., 59., 53., 30., 42., 30., 38., 46., 38.,
       61., 34., 55., 43., 32., 52., 24., 58., 55., 43., 45., 53., 20.,
       46., 43., 41., 33., 36., 19., 24., 39., 37., 39., 47., 29., 27.,
       23., 51., 19., 29., 36., 63., 19., 64., 25., 20., 28., 38., 68.,
       62., 41., 50., 48., 51., 20., 68., 51., 30., 20., 25., 30., 31.,
       65., 58., 60., 27., 62., 70., 29., 52., 63., 23., 31., 38., 19.,
       50., 36., 43., 30., 33., 31., 49., 51., 27.])

In [57]:
# По аналогии берем второе поле
data[:, 1]  # возвращаются записи только из второго поля

array([5235., 7043., 2150., 3158., 1028., 5676., 4705., 7999., 5362.,
       7911., 2219., 4342., 8300., 5763., 5172., 7287., 9574., 1212.,
       1048., 5110., 8903., 6693., 9246., 1916., 8546., 4565., 8444.,
       7396., 2433., 2095., 4242., 3121., 5211., 3721., 4429., 1829.,
       5141., 4271., 4964., 9206., 4891., 2797., 1832., 3090., 1770.,
       3385., 9284., 1842., 4692., 3664., 3671., 4714., 5234., 3774.,
       7428., 8395., 2334., 4540., 2716., 6168., 2517., 5448., 9489.,
       5056., 4122., 5307., 7546., 3821., 1955., 7196., 7074., 6320.,
       6353., 9267., 3456., 4076., 5387., 3270., 7429., 3393., 1483.,
       1565., 5215., 1709., 8614., 5379., 6273., 1828., 8325., 5398.,
       7573., 8602., 2152., 3605., 4298., 1879., 6684., 8481., 1968.,
       3287.])

In [59]:
# Совмещенная индексация
data[5:10, 0]  # первое значение поля для записей с 5 по 10

array([60., 28., 66., 31., 56.])

## Основные математические функции

In [61]:
# Находит возвраст самого молодого человека в нашем датасете 
data[:, 0].min()  # берем минимальное значение по первому полю

19.0

In [62]:
# Узнаем порядковый индекс объекта с минимальным значением в первом поле
idx = data[:, 0].argmin()
idx

44

In [64]:
# Узнаем все основные данные по найденному индексу
data[idx]

array([  19., 1770.])

In [65]:
# По аналогии смотрим самую большую прибыль 
idx_max = data[:, 1].argmax()
idx_max

16

In [67]:
data[idx_max]  # человеку 47 лет, прибыль - 9574.

array([  47., 9574.])

In [68]:
# Средний возраст людей
data[:, 0].mean()

41.41

In [69]:
# Суммарная прибыль
data[:, 1].sum()

495687.0

In [72]:
# Допустим нам нужно вычесть налог из этой прибыли (- 13 %)
tax = data[:, 1] * 0.13
# Вычитаем из исходной суммы налоги
after_tax = data[:, 1] - tax
after_tax

array([4554.45, 6127.41, 1870.5 , 2747.46,  894.36, 4938.12, 4093.35,
       6959.13, 4664.94, 6882.57, 1930.53, 3777.54, 7221.  , 5013.81,
       4499.64, 6339.69, 8329.38, 1054.44,  911.76, 4445.7 , 7745.61,
       5822.91, 8044.02, 1666.92, 7435.02, 3971.55, 7346.28, 6434.52,
       2116.71, 1822.65, 3690.54, 2715.27, 4533.57, 3237.27, 3853.23,
       1591.23, 4472.67, 3715.77, 4318.68, 8009.22, 4255.17, 2433.39,
       1593.84, 2688.3 , 1539.9 , 2944.95, 8077.08, 1602.54, 4082.04,
       3187.68, 3193.77, 4101.18, 4553.58, 3283.38, 6462.36, 7303.65,
       2030.58, 3949.8 , 2362.92, 5366.16, 2189.79, 4739.76, 8255.43,
       4398.72, 3586.14, 4617.09, 6565.02, 3324.27, 1700.85, 6260.52,
       6154.38, 5498.4 , 5527.11, 8062.29, 3006.72, 3546.12, 4686.69,
       2844.9 , 6463.23, 2951.91, 1290.21, 1361.55, 4537.05, 1486.83,
       7494.18, 4679.73, 5457.51, 1590.36, 7242.75, 4696.26, 6588.51,
       7483.74, 1872.24, 3136.35, 3739.26, 1634.73, 5815.08, 7378.47,
       1712.16, 2859

In [77]:
# Проверяем корректность вычислений на основе первой записи в датасете
print(data[0, 1])
print(tax[0])
print(after_tax[0])

5235.0
680.5500000000001
4554.45


In [80]:
# Среднее по возрасту и среднее по прибыли
data.mean(axis = 0)  # среднее по столбцам

array([  41.41, 4956.87])

In [81]:
data.mean(axis = 1)  # среднее по строкам (в нашем случае не имеет смысла)

array([2637.5, 3555. , 1092.5, 1601.5,  530.5, 2868. , 2366.5, 4032.5,
       2696.5, 3983.5, 1133.5, 2206. , 4166. , 2904. , 2612. , 3654. ,
       4810.5,  624.5,  553.5, 2581.5, 4466.5, 3367.5, 4638. ,  977. ,
       4296. , 2301.5, 4252.5, 3715. , 1244. , 1069. , 2137. , 1586.5,
       2617.5, 1889.5, 2242. ,  936. , 2593. , 2162. , 2492. , 4626. ,
       2467. , 1419. ,  932.5, 1563. ,  894.5, 1704.5, 4661.5,  939.5,
       2365.5, 1855.5, 1850. , 2370.5, 2628.5, 1912.5, 3723.5, 4212. ,
       1185. , 2301.5, 1367.5, 3116. , 1271. , 2734. , 4758.5, 2547. ,
       2095. , 2684.5, 3793.5, 1935.5, 1001.5, 3623.5, 3547. , 3194. ,
       3202. , 4648.5, 1738. , 2050.5, 2708.5, 1650.5, 3747. , 1725.5,
        771.5,  796. , 2638.5,  889.5, 4321.5, 2715.5, 3168. ,  925.5,
       4178. , 2718. , 3796. , 4326. , 1094. , 1824. , 2164. ,  956. ,
       3357.5, 4265. , 1009.5, 1657. ])

## Изменение размера массива

In [83]:
# Reshape 
data.reshape((2, 100))  # меняем столбцы и строки местами в нашем датасете

array([[  40., 5235.,   67., 7043.,   35., 2150.,   45., 3158.,   33.,
        1028.,   60., 5676.,   28., 4705.,   66., 7999.,   31., 5362.,
          56., 7911.,   48., 2219.,   70., 4342.,   32., 8300.,   45.,
        5763.,   52., 5172.,   21., 7287.,   47., 9574.,   37., 1212.,
          59., 1048.,   53., 5110.,   30., 8903.,   42., 6693.,   30.,
        9246.,   38., 1916.,   46., 8546.,   38., 4565.,   61., 8444.,
          34., 7396.,   55., 2433.,   43., 2095.,   32., 4242.,   52.,
        3121.,   24., 5211.,   58., 3721.,   55., 4429.,   43., 1829.,
          45., 5141.,   53., 4271.,   20., 4964.,   46., 9206.,   43.,
        4891.,   41., 2797.,   33., 1832.,   36., 3090.,   19., 1770.,
          24., 3385.,   39., 9284.,   37., 1842.,   39., 4692.,   47.,
        3664.],
       [  29., 3671.,   27., 4714.,   23., 5234.,   51., 3774.,   19.,
        7428.,   29., 8395.,   36., 2334.,   63., 4540.,   19., 2716.,
          64., 6168.,   25., 2517.,   20., 5448.,   28., 9489

In [84]:
data.reshape((2, -1))  # указываем количество строк, а значение столбцов не принципиально (-1)

array([[  40., 5235.,   67., 7043.,   35., 2150.,   45., 3158.,   33.,
        1028.,   60., 5676.,   28., 4705.,   66., 7999.,   31., 5362.,
          56., 7911.,   48., 2219.,   70., 4342.,   32., 8300.,   45.,
        5763.,   52., 5172.,   21., 7287.,   47., 9574.,   37., 1212.,
          59., 1048.,   53., 5110.,   30., 8903.,   42., 6693.,   30.,
        9246.,   38., 1916.,   46., 8546.,   38., 4565.,   61., 8444.,
          34., 7396.,   55., 2433.,   43., 2095.,   32., 4242.,   52.,
        3121.,   24., 5211.,   58., 3721.,   55., 4429.,   43., 1829.,
          45., 5141.,   53., 4271.,   20., 4964.,   46., 9206.,   43.,
        4891.,   41., 2797.,   33., 1832.,   36., 3090.,   19., 1770.,
          24., 3385.,   39., 9284.,   37., 1842.,   39., 4692.,   47.,
        3664.],
       [  29., 3671.,   27., 4714.,   23., 5234.,   51., 3774.,   19.,
        7428.,   29., 8395.,   36., 2334.,   63., 4540.,   19., 2716.,
          64., 6168.,   25., 2517.,   20., 5448.,   28., 9489

In [86]:
# Resize - делает то же самое, но перезаписывает массив на месте

data_resized = data.copy()

data_resized.resize((2, 100))
data_resized

array([[  40., 5235.,   67., 7043.,   35., 2150.,   45., 3158.,   33.,
        1028.,   60., 5676.,   28., 4705.,   66., 7999.,   31., 5362.,
          56., 7911.,   48., 2219.,   70., 4342.,   32., 8300.,   45.,
        5763.,   52., 5172.,   21., 7287.,   47., 9574.,   37., 1212.,
          59., 1048.,   53., 5110.,   30., 8903.,   42., 6693.,   30.,
        9246.,   38., 1916.,   46., 8546.,   38., 4565.,   61., 8444.,
          34., 7396.,   55., 2433.,   43., 2095.,   32., 4242.,   52.,
        3121.,   24., 5211.,   58., 3721.,   55., 4429.,   43., 1829.,
          45., 5141.,   53., 4271.,   20., 4964.,   46., 9206.,   43.,
        4891.,   41., 2797.,   33., 1832.,   36., 3090.,   19., 1770.,
          24., 3385.,   39., 9284.,   37., 1842.,   39., 4692.,   47.,
        3664.],
       [  29., 3671.,   27., 4714.,   23., 5234.,   51., 3774.,   19.,
        7428.,   29., 8395.,   36., 2334.,   63., 4540.,   19., 2716.,
          64., 6168.,   25., 2517.,   20., 5448.,   28., 9489

## Присоединение массивов

In [92]:
data_copy = data.copy()

In [93]:
# Горизонтальное присоединение (Должна совпадать размерность массивов для горизонтального присоединения)
np.hstack([data, data_copy])

array([[  40., 5235.,   40., 5235.],
       [  67., 7043.,   67., 7043.],
       [  35., 2150.,   35., 2150.],
       [  45., 3158.,   45., 3158.],
       [  33., 1028.,   33., 1028.],
       [  60., 5676.,   60., 5676.],
       [  28., 4705.,   28., 4705.],
       [  66., 7999.,   66., 7999.],
       [  31., 5362.,   31., 5362.],
       [  56., 7911.,   56., 7911.],
       [  48., 2219.,   48., 2219.],
       [  70., 4342.,   70., 4342.],
       [  32., 8300.,   32., 8300.],
       [  45., 5763.,   45., 5763.],
       [  52., 5172.,   52., 5172.],
       [  21., 7287.,   21., 7287.],
       [  47., 9574.,   47., 9574.],
       [  37., 1212.,   37., 1212.],
       [  59., 1048.,   59., 1048.],
       [  53., 5110.,   53., 5110.],
       [  30., 8903.,   30., 8903.],
       [  42., 6693.,   42., 6693.],
       [  30., 9246.,   30., 9246.],
       [  38., 1916.,   38., 1916.],
       [  46., 8546.,   46., 8546.],
       [  38., 4565.,   38., 4565.],
       [  61., 8444.,   61., 8444.],
 

In [94]:
np.random.seed(6)
b = np.random.randint(-10, 0, size = (2, 2))
b

array([[ -1,  -7],
       [ -6, -10]])

In [95]:
# Вертикальное соединение
np.vstack([data, b])

array([[ 4.000e+01,  5.235e+03],
       [ 6.700e+01,  7.043e+03],
       [ 3.500e+01,  2.150e+03],
       [ 4.500e+01,  3.158e+03],
       [ 3.300e+01,  1.028e+03],
       [ 6.000e+01,  5.676e+03],
       [ 2.800e+01,  4.705e+03],
       [ 6.600e+01,  7.999e+03],
       [ 3.100e+01,  5.362e+03],
       [ 5.600e+01,  7.911e+03],
       [ 4.800e+01,  2.219e+03],
       [ 7.000e+01,  4.342e+03],
       [ 3.200e+01,  8.300e+03],
       [ 4.500e+01,  5.763e+03],
       [ 5.200e+01,  5.172e+03],
       [ 2.100e+01,  7.287e+03],
       [ 4.700e+01,  9.574e+03],
       [ 3.700e+01,  1.212e+03],
       [ 5.900e+01,  1.048e+03],
       [ 5.300e+01,  5.110e+03],
       [ 3.000e+01,  8.903e+03],
       [ 4.200e+01,  6.693e+03],
       [ 3.000e+01,  9.246e+03],
       [ 3.800e+01,  1.916e+03],
       [ 4.600e+01,  8.546e+03],
       [ 3.800e+01,  4.565e+03],
       [ 6.100e+01,  8.444e+03],
       [ 3.400e+01,  7.396e+03],
       [ 5.500e+01,  2.433e+03],
       [ 4.300e+01,  2.095e+03],
       [ 3

## Булевые маски

In [96]:
condition = data[:, 1] > 1500
condition

array([ True,  True,  True,  True, False,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True, False,
       False,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True, False,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

In [97]:
# Сохраняем преобразования
np.savetxt('data.txt', data)