# Введение в pandas и numpy

# Создание массивов

In [1]:
import numpy as np

In [2]:
# Из списка
a = np.array([1, 2, 3])
print(a)
print('Тип:', a.dtype)

[1 2 3]
Тип: int64


In [3]:
# С определением типа
a = np.array([1, 2, 3], dtype=float)
print(a)
print('Тип:', a.dtype)

[1. 2. 3.]
Тип: float64


In [4]:
# Создание многомерного массива
a = np.array([[1, 2], [3, 4], [9, 10]])
print(a)
print('Форма:', a.shape)
print('Размер:', a.size)

[[ 1  2]
 [ 3  4]
 [ 9 10]]
Форма: (3, 2)
Размер: 6


In [5]:
# При разной размерности списков создаётся массив из списков
b = np.array([[1, 2, 5], [3, 4], [9, 10]])
print(b)
print()
# При разных типах элементов списков данные приводятся к общему типу
b = np.array([[1, 1+2j], [3, 4], [9, 10]])
print(b)
print()
b = np.array([[1, '2'], [3, 4], [9, 10]])
print(b)

[list([1, 2, 5]) list([3, 4]) list([9, 10])]

[[ 1.+0.j  1.+2.j]
 [ 3.+0.j  4.+0.j]
 [ 9.+0.j 10.+0.j]]

[['1' '2']
 ['3' '4']
 ['9' '10']]


In [6]:
# Создание пустого массива (только выделяется память)
a = np.empty((2, 3))
print(a)
print()
# Создание массива из нулей
a = np.zeros((2, 3))
print(a)
print()
# Создание массива из ряда чисел
a = np.arange(1, 10)
print(a)

[[0. 2. 0.]
 [0. 0. 0.]]

[[0. 0. 0.]
 [0. 0. 0.]]

[1 2 3 4 5 6 7 8 9]


In [7]:
# Задание из функции
def fun(x, y):
    return x * 2 + y * 3

a = np.fromfunction(fun, (3, 2))
print(a)

[[0. 3.]
 [2. 5.]
 [4. 7.]]


In [8]:
# Переменные в Python представляют собой указатели, 
# потому для копирования массивов необходимо указывать это явно с помощью метода copy()
a = np.array([1, 2, 3])
b = a
print('a:', a, 'b:', b)
a[1] = 5
print()
print('Без копирования')
print('a:', a, 'b:', b)
b = a.copy()
a[2] = 7
print()
print('С копированием')
print('a:', a, 'b:', b)

a: [1 2 3] b: [1 2 3]

Без копирования
a: [1 5 3] b: [1 5 3]

С копированием
a: [1 5 7] b: [1 5 3]


# Основные операции
Операции, такие как сложение, умножение, и т.п. являются поэлементными. Возможны операции массива и числа

In [9]:
a = np.arange(5)
b = np.arange(15, 10, -1)
print(a, b)
print()
print(a + b)
print(a * b)
print(b ** a)
print()
print(a / 4)
print(b * 2)

[0 1 2 3 4] [15 14 13 12 11]

[15 15 15 15 15]
[ 0 14 26 36 44]
[    1    14   169  1728 14641]

[0.   0.25 0.5  0.75 1.  ]
[30 28 26 24 22]


### Индексация

In [10]:
c = np.array([['a', 'b'], 
              ['c', 'd']])
d = np.arange(1, 6) ** 2
print('c:\n', c)
print('d:', d)

c:
 [['a' 'b']
 ['c' 'd']]
d: [ 1  4  9 16 25]


In [11]:
# Массив индексов
print(d[[1, 3]])
# Массив логических значений
print(d[[False, True, False, True, False]])

[ 4 16]
[ 4 16]


In [12]:
# Индексация по нескольким измерениям
print('(1, 0):', c[1, 0])
print('(:, 0):', c[:, 0])
print('(1, :):', c[1])

(1, 0): c
(:, 0): ['a' 'c']
(1, :): ['c' 'd']


In [13]:
### Вычисление статистических параметров
# Максимум, минимум
print('Максимум, минимум:',a.min(), a.max())
# Среднее, среднеквадратичное отклонение
print('Среднее, среднеквадратичное отклонение:', a.mean(), a.std())
# Сумма элементов
print('Сумма элементов:', a.sum())
# Медиана
print('Медиана:', np.median(a))

Максимум, минимум: 0 4
Среднее, среднеквадратичное отклонение: 2.0 1.4142135623730951
Сумма элементов: 10
Медиана: 2.0


In [14]:
# В numpy для вещественных чисел добавлены значения nan, inf для обозначения неопределённостей и бесконечностей
c = 1 / a # Возникает Warning (предупреждение) о делении на 0 (первый символ массива)
print(c)
print()
# Добавим неопределённость бесконечность - бесконечность
print(c - c)
print()
# Или найдём arccos отчисла больше 1
print(np.arccos(a))

[       inf 1.         0.5        0.33333333 0.25      ]

[nan  0.  0.  0.  0.]

[1.57079633 0.                nan        nan        nan]


  
  
  if __name__ == '__main__':


# Операции с формой

In [15]:
a = np.arange(24)
print(a)
print()
# Метод reshape() позволяет изменить форму массива, не меняя содержимого
# Значение -1 означает, что заполняется по остаточному принципу
b = a.reshape(-1, 3, 4)
print(b)
print(b.shape)
print()
# Метод ravel() приводит массив в одномерный вектор 
print(b.ravel())

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]
(2, 3, 4)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]


In [16]:
# Метод transpose() позволяет транспонировать массив (в указанную последовательность осей)
c = b.transpose((2, 0, 1))
print(c)
print(c.shape)

[[[ 0  4  8]
  [12 16 20]]

 [[ 1  5  9]
  [13 17 21]]

 [[ 2  6 10]
  [14 18 22]]

 [[ 3  7 11]
  [15 19 23]]]
(4, 2, 3)


In [17]:
a = np.arange(6).reshape((2, 3))
b = np.arange(10, 16).reshape((2, 3))
print('a:', a)
print('b:', b)
print()
# concatenate() объединяет массивы вдоль существующей оси
c = np.concatenate((a, b))
print(c)
print()
print('Shape:', c.shape)
print()

c = np.concatenate((a, b), axis=-1)
print(c)
print()
print('Shape:', c.shape)

a: [[0 1 2]
 [3 4 5]]
b: [[10 11 12]
 [13 14 15]]

[[ 0  1  2]
 [ 3  4  5]
 [10 11 12]
 [13 14 15]]

Shape: (4, 3)

[[ 0  1  2 10 11 12]
 [ 3  4  5 13 14 15]]

Shape: (2, 6)


In [18]:
# stack() объединяет массивы вдоль новой оси
c = np.stack((a, b))
print(c)
print()
print('Shape:', c.shape)
print(c[:, 0, 0])
print()

c = np.stack((a, b), axis=-1)
print(c)
print()
print('Shape:', c.shape)
print(c[0, 0, :])

[[[ 0  1  2]
  [ 3  4  5]]

 [[10 11 12]
  [13 14 15]]]

Shape: (2, 2, 3)
[ 0 10]

[[[ 0 10]
  [ 1 11]
  [ 2 12]]

 [[ 3 13]
  [ 4 14]
  [ 5 15]]]

Shape: (2, 3, 2)
[ 0 10]


# Математические операции
В numpy существует множество функций, работающих по аналогии с функциями модулей math и random, но со всеми элементами массива

In [19]:
a = np.arange(5)
# Математические функции
print('sin:', np.sin(a))
print('cos:', np.cos(a * np.pi))
print('корень:', np.sqrt(a))

sin: [ 0.          0.84147098  0.90929743  0.14112001 -0.7568025 ]
cos: [ 1. -1.  1. -1.  1.]
корень: [0.         1.         1.41421356 1.73205081 2.        ]


In [20]:
## Функции для работы со случайными числами
# Инициализация генератора случайных чисел
np.random.seed(18182)
# Случайные целые числа
print(np.random.randint(10, size=(2, 5)))
print()
# Случайные числа от 0 до 1
print(np.random.rand(2, 5))
print()
# Получение случайных чисел из массива
a = np.arange(5)
print(np.random.choice(a, 10))
print()
# Перемешивание массива (перемешивает исходный массив, возвращает None!)
np.random.shuffle(a)
print(a)

[[3 1 1 1 5]
 [3 4 7 0 0]]

[[0.95143723 0.22385087 0.4292714  0.98347564 0.18905183]
 [0.85687288 0.72104609 0.08594073 0.72326151 0.36961344]]

[4 4 0 4 0 3 3 0 2 2]

[3 2 0 1 4]


# Операции с логическими переменными

In [21]:
np.random.seed(18182)
a = np.random.randint(-5, 5, size=5)
b = np.random.randint(-5, 5, size=5)
print(a, b)
a_bool = a > -3
b_bool = b >= a
print(a_bool)
print(b_bool)

[-2 -4 -4 -4  0] [-2 -1  2 -5 -5]
[ True False False False  True]
[ True  True  True False False]


In [22]:
# Логическое И
print('Логическое И:', np.logical_and(a_bool, b_bool))
# Логическое ИЛИ
print('Логическое ИЛИ:', np.logical_or(a_bool, b_bool))
# Логическое НЕ
print('Логическое НЕ:', np.logical_not(a_bool))
# Исключающее ИЛИ
print('Исключающее ИЛИ:', np.logical_xor(a_bool, b_bool))
print()
# Другой вариант, с помощью битовых операций
print('Логическое И:', a_bool & b_bool)
print('Логическое ИЛИ:', a_bool | b_bool)
print('Логическое НЕ:', ~a_bool)
print('Логическое И:', a_bool ^ b_bool)

Логическое И: [ True False False False False]
Логическое ИЛИ: [ True  True  True False  True]
Логическое НЕ: [False  True  True  True False]
Исключающее ИЛИ: [False  True  True False  True]

Логическое И: [ True False False False False]
Логическое ИЛИ: [ True  True  True False  True]
Логическое НЕ: [False  True  True  True False]
Логическое И: [False  True  True False  True]


# Операции со строками

In [23]:
a = np.array('Раз два три четые'.split(' '))
b = np.array('One two three four'.split(' '))
print(a)
print(b)

['Раз' 'два' 'три' 'четые']
['One' 'two' 'three' 'four']


In [24]:
# Конкатенация
print(np.char.add(a, b))
print(np.char.add(a, '_'))

['РазOne' 'дваtwo' 'триthree' 'четыеfour']
['Раз_' 'два_' 'три_' 'четые_']


In [25]:
# Каждая строка с заглавной буквы
print(np.char.capitalize(a))
# Перевод в верхний регистр
print(np.char.upper(a))
# Перевод в нижний регистр
print(np.char.lower(a))

['Раз' 'Два' 'Три' 'Четые']
['РАЗ' 'ДВА' 'ТРИ' 'ЧЕТЫЕ']
['раз' 'два' 'три' 'четые']


### Информация о строках

In [26]:
st = np.array(['One', 'two', 'three', 'four', '12', '-14'])
# Проверка начала строки
print(np.char.startswith(st, 't'))
# Проверка окончания строки
print(np.char.endswith(st, 'e'))

[False  True  True False False False]
[ True False  True False False False]


In [27]:
# Подсчет подстрок
print(np.char.count(st, 'e'))
# Строки, состоящие только из чисел
print(np.char.isdigit(st))

[1 0 2 0 0 0]
[False False False False  True False]


# Операции с матрицами

In [28]:
# Функция dot возвращает скалярное произведение векторов:
a = np.array([1, 2, 3])
b = np.array([0, 1, 1])
print(np.dot(a, b))

5


In [29]:
# Функция dot также может умножать матрицы:
a = np.array([[0, 1], 
              [2, 3]])
b = np.array([2, 3])
c = np.array([[1, 1], 
              [4, 0]])
print(np.dot(a, b))
print()
print(np.dot(a, c))

[ 3 13]

[[ 4  0]
 [14  2]]


In [30]:
# Также можно получить скалярное, тензорное и внешнее произведение матриц и векторов.
a = np.array([1, 4, 0])
b = np.array([2, 2, 1])
print(np.outer(a, b))
print()
print(np.inner(a, b))
print()
print(np.cross(a, b))

[[2 2 1]
 [8 8 4]
 [0 0 0]]

10

[ 4 -1 -6]


# Линейная алгебра

In [31]:
a = np.array([[0, 1], 
              [2, 3]])
# Возведение в степень
print(np.linalg.matrix_power(a, 2))
print()
# QR разложение
q, r = np.linalg.qr(a)
print('q:', q)
print('r:', r)
print()
# Определитель
print(np.linalg.det(a))
# Обратная матрица
print(np.linalg.inv(a))

[[ 2  3]
 [ 6 11]]

q: [[ 0. -1.]
 [-1.  0.]]
r: [[-2. -3.]
 [ 0. -1.]]

-2.0
[[-1.5  0.5]
 [ 1.   0. ]]


In [32]:
# Решение системы линейных уравнений Ax = b
a = np.array([[0, 1], 
              [2, 3]])
b = np.array([3, 5])
print(np.linalg.solve(a, b))

[-2.  3.]


# Другие функции функции

In [42]:
# Использование функции вдоль заданной оси
def fun(arr):
    return arr.cumsum()

np.random.seed(18182)
a = np.random.randint(5, size=(2, 3))

print('Исходный:\n', a)
print()
print('Axis 0\n', np.apply_along_axis(fun, 0, a))
print('Axis 1\n', np.apply_along_axis(fun, 1, a))

Исходный:
 [[2 3 3]
 [4 1 1]]

Axis 0
 [[2 3 3]
 [6 4 4]]
Axis 1
 [[2 5 8]
 [4 5 6]]


In [44]:
# Поиск уникальных значений
np.random.seed(18182)
a = np.random.randint(5, size=10)
print('Исходный:', a)
print('Уникальные значения', np.unique(a))
print('Уникальные значения и их частота', np.unique(a, return_counts=True))

Исходный: [2 3 3 4 1 1 1 3 4 2]
Уникальные значения [1 2 3 4]
Уникальные значения и их частота (array([1, 2, 3, 4]), array([3, 2, 3, 2]))


In [47]:
# Получение индексов массива
print(a.max(), a.argmax())
print(a.argsort())

4 3
[4 5 6 0 9 1 2 7 3 8]


In [54]:
# Поиск индексов по условию
np.random.seed(18182)
b = np.random.randint(5, size=(2, 3))
print('Исходный:\n', b)
print(np.where(b > 2))

Исходный:
 [[2 3 3]
 [4 1 1]]
(array([0, 0, 1]), array([1, 2, 0]))


# Задачи
1. Отсортировать значения массива по частоте встречания.
2. Дана картинка высоты h, ширины w, тип данных np.uint8 (от 0 до 255). Найти количество уникальных цветов.
3. Написать функцию, вычислающую плавающее среднее вектора
4. Дана матрица (n, 3). Вывести те тройки чисел, которые являются длинами сторон треугольника.