# NumPy
<b>NumPy</b> (Numerical Python) — библиотека для выполнения высокопроизводительных научных расчётов в Python, позволяет эффективно работать с одномерными и многомерными массивами: вычислять стандартные математические функции, реализовывать алгоритмы линейной алгебры, работать с генераторами случайных чисел.

Особенность NumPy — <b>высокая скорость и потребление небольшого кол-ва ресурсов</b>. Это низкоуровневный модуль, на его основе построена библиотека для анализа данных Pandas. Он озволяет ускорить и упростить решение многих базовых задач, связанных с преобразованием матриц, получением статистики, извлечением индексов элементов. Иногда использование NumPy небоходимо, например, чтобы найти индекс максимального или минимального элемента, необходимо знать функцию модуля NumPy. Реализовывать эту простейшию задачу при помощи других модулей сложнее и дольше по времени.

<b>Официальные ресурсы:</b>
- <b><a href='https://www.numpy.org/' a>Official page</b>
- <b><a href='https://docs.scipy.org/doc/' a>Numpy & SciPy docs</b>
- <b><a href='https://www.numpy.org/devdocs/user/quickstart.html' a>Numpy quickstart</b>
    
<b>Полезные ссылки:</b>
- <b><a href='https://devpractice.ru/numpy-calc-stats/' a>Numpy. Расчет статистик по данным в массиве</b>
- <b><a href='https://jalammar.github.io/visual-numpy/' a>A Visual Intro to NumPy and Data Representation</b>
- <b><a href='https://sites.engineering.ucsb.edu/~shell/che210d/numpy.pdf' a>Numpy guide in pdf</b>
- <b><a href='https://pythonworld.ru/numpy' a>Подборка материалов Numpy с Pythonworld</b>
- <b><a href='https://realpython.com/how-to-use-numpy-arange/' a>How to Use np.arange()</b>
- <b><a href='https://python-scripts.com/numpy' a>Основные операции в Numpy</b>
- <b><a href='https://habr.com/ru/post/352678/' a>Хороший гид по Numpy (серия)</b>   

<b>Импорт NumPy</b>. Для того, чтобы начать работу с модулем, его необходимо импортировать. При написании кода название модуля обычно сокращают до двух букв — <b>np</b>, поэтому общий формат импорта в большинстве случаев выглядит так:

In [None]:
import numpy as np

<b>Массивы в NumPy</b>. Основным объектом модуля является <b>ndarray</b> (N-dimensional array) или N-мерный массив. Это структура данных, содержащая упорядоченный набор значений (элементов), идентифицируемых по индексу или набору индексов. <b>Размерностью массива</b> называют количество индексов, необходимых для однозначного определения его элементов. Первый элемент в массиве имеет индекс 0.

![image.png](attachment:image.png)

Массивы могут быть <b>одномерными</b> (вектор), <b>двумерными</b> (матрица), и многомерными:

![image.png](attachment:image.png)

К массиву c несколькими измерениями обращаются по <b>нескольким индексам</b>, например, к элементу, расположенному в третьей строке, четвертом столбце в массиве выше, можно обратиться так: [2, 3].

### Создание массивов в NumPy
Массив задаётся с помощью функции <b>array()</b>, которая трансформирует вложенные в неё последовательности в массив. Простой способ задать массив — перечислить его элементы внутри квадратных скобок [] через запятую:

In [77]:
arr1 = np.array([1,2,3,4])
arr1

array([1, 2, 3, 4])

In [78]:
a = [1,2,3]
type(a)

list

In [79]:
aa = np.array(a)
aa

array([1, 2, 3])

Важная особенность массивов NumPy — все хранящиеся в них данные должны относиться <b>только к одному типу</b>. Тип элементов соответствует типу вложенной исходной последовательности, но в момент создания массива его можно изменить, задав параметр <b>dtype</b> требуемого типа. Чтобы узнать тип данных массива, используем метод <b>dtype</b>:

In [80]:
arr2 = np.array([5,6,7,8], dtype=float)
print (arr2)
print (arr2.dtype)

[5. 6. 7. 8.]
float64


Для создания массивов большей размерности, каждая строка помещается в квадратные скобки, строки разделяются запятой. Для двумерного массива (матрицы). Узнать размерность массива можно с помощью функции <b>shape()</b>:

In [81]:
arr3 = np.array([[1,2,3],[4,5,6],[7,8,9]])
print (arr3)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [82]:
arr3.shape # размерность массива

(3, 3)

<b>Другие способы создания массива</b>. Иногда нужно создать массив заданной структуры <b>до того</b>, как становится известно о хранящихся в нём данных. В NumPy есть функции для задания размерности массива, выделения памяти для его хранения и заполнения его элементами:

In [84]:
a = []
a

[]

In [85]:
print (np.empty(5))

[1.44147776e-311 1.44151223e-311 1.44151223e-311 1.44151223e-311
 2.46816475e-154]


In [None]:
print (np.empty(5)) # одномерный массив из пяти случайных элементов, память для которого выделена, но он не инициализирован
print ('---')
print (np.zeros((10, 7))) # массив размером 10x7, заполненный нулями
print ('---')
print (np.ones((3,3,3))) # массив размером 3х3х3, заполненный единицами
print ('---')
print (np.eye(3)) # единичная матрица (элементы главной диагонали равны 1, остальные — 0) размера 3х3
print ('---')
print (np.full((3, 5), 3.14))  # массив 3x5 заполненный числом 3.14
print ('---')
print (np.arange(0, 21, 7))  # одномерный массив, заполненный числами в диапазоне от 0 до 20, кратными 7
print ('---')
print (np.linspace(0, 1, 5))  # массив из пяти чисел, равномерно распределённых в интервале между 0 и 1 включительно
print ('---')
print (np.random.randint(0, 10, (3, 3)))  # массив размера 3х3, заполненный случайными числами из диапазона от 0 до 10
# в последнем случае ВАЖНО - верхнее значение диапазона цифр не включается в диапазон!

### Индексирование массивов
Массивы, как и другие итерируемые объекты Python, позволяют обращаться к элементам с помощью индексов и срезов. Рассмотрим некоторые особенности индексации массивов разной размерности. Приёмы работы с с одномерными массивами похожи на приёмы работы со списками. <b>Основные правила</b>:

- индекс первого элемента массива равен 0;
- для обращения к элементу массива по индексу надо указать имя, с которым связан массив, и индекс в - квадратных скобках;
- допускается использование отрицательных индексов;
- для обращения к нескольким идущим подряд элементам массива создаётся срез, в котором указывается индекс первого элемента среза и индекс элемента, следующего за последним, разделённые двоеточием;
- при создании среза можно задать шаг: в срез будут включены только элементы, отстоящие друг от друга на величину шага.

In [86]:
my_array = np.array([x for x in range(10)])
print (my_array)
print (my_array[5]) # 5-й элемент
print (my_array[-1]) # последний элемент
print (my_array[3:6]) # элементы с 3 (вкл) по 6 (искл)
print (my_array[1:8:3]) # элементы с 1 (вкл) по 8 (искл) с шагом 3

[0 1 2 3 4 5 6 7 8 9]
5
9
[3 4 5]
[1 4 7]


In [87]:
print (my_array[1:8:3]) # элементы с 1 (вкл) по 8 (искл) с шагом 3

[1 4 7]


При работе с двумерными массивами для обращения к элементу мы указываем <b>два индекса</b>, соответствующие номеру строки и номеру столбца. Каждый индекс можно указывать в отдельных квадратных скобках или внутри одной пары скобок через запятую:

In [88]:
my_array2 = np.array([[1,2,3,4], [10,11,12,13], [45,46,47,48]])
print (my_array2)
print('---')
print (my_array2[1][2])
print('---')
print (my_array2[1,2])

[[ 1  2  3  4]
 [10 11 12 13]
 [45 46 47 48]]
---
12
---
12


<b>Индексирование двумерных массивов</b>. При указании только одного индекса из массива будет выделена вся строка, соответствующая указанному индексу; можно указывать несколько индексов или срезов для каждой из осей:

In [89]:
print (my_array2)
print ('---')
print (my_array2[0])
print ('---')
print (my_array2[:, 2])
print ('---')
print (my_array2[1:, 1:3])

[[ 1  2  3  4]
 [10 11 12 13]
 [45 46 47 48]]
---
[1 2 3 4]
---
[ 3 12 47]
---
[[11 12]
 [46 47]]


### Особенности индексирования в NumPy
Важное отличие массивов NumPy от списков Python — при изменении среза или отдельных элементов все изменения касаются не только самого среза, но и <b>падают в исходный массив, даже если перед внесением изменений срез был сохранён в виде отдельной переменной!</b> Изначально NumPy проектировался для работы с большими массивами - при таком копировании просела бы производительнсть.

In [None]:
# Создадим массив 4 х 6:
my_array3 = np.random.randint(1, 100, (4, 6)) 
print (my_array3)
print ('---')
# Выделим квадрат 2 х 2, содержащий 4 элемента в центре:
my_slice = my_array3[1:3, 2:4]
print (my_slice)
print ('---')
# Заменим эти элементы на нули и посмотрим, как изменится содержимое исходной матрицы:
my_slice[:] = 0
print (my_slice)
print ('---')
print (my_array3)

### Операции с массивами
Возможности NumPy позволяют выполнять любые математические действия с массивами <b>без использования циклов</b>, поэтому вычисления производятся с большой скоростью. Операции выполняются поэлементно - для получения корректного результата размерность массивов должна быть одинаковой. Также можно производить математические операции между массивом и числом.
Есть два массива: найдём их сумму, разность, произведение, частное и умножим один из массивов на число:

In [90]:
a = np.array([3,6,9])
b = np.array([12,15,18])

result1 = a+b
result2 = b-a
result3 = a*b
result4 = a/b
result5 = a*2
print('Сумма: {}\nРазность: {}\nПроизведение: {}\nЧастное: {}\nУмножение на число: {}'.format(result1, result2, result3, result4, result5))

Сумма: [15 21 27]
Разность: [9 9 9]
Произведение: [ 36  90 162]
Частное: [0.25 0.4  0.5 ]
Умножение на число: [ 6 12 18]


<b>Универсальные функции</b>. Это функции, которые выполняют поэлементные операции над данными, хранящимися в объектах ndarray.  Большинство универсальных функций производят <b>унарные</b> операции (выполняются над каждым элементом массива по очереди). Список часто используемых универсальных функций NumPy. При вызове этих функций необходимо указывать название библиотеки NumPy: <b>np.func_name(array_name)</b>

![image.png](attachment:image.png)

<b>Изменение размерности массива</b>. В некоторых задачах машинного обучения для подготовки данных к обработке нужно изменить исходную форму массива, например, преобразовать многомерный массив в одномерный, поменять местами строки и столбцы. Замена местами строк и столбцов двумерного массива называется <b>транспонированием</b>. Для выполнения этой операции в NumPy используется метод <b>T</b>:

In [91]:
my_array = np.array([[1,2,3,4,5], [6,7,8,9,10]])
print (my_array)
print('---')
print (my_array.T)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
---
[[ 1  6]
 [ 2  7]
 [ 3  8]
 [ 4  9]
 [ 5 10]]


Для превращения массива одной размерности в массив другой (обычно для преобразования одномерного массива в многомерный) используется метод <b>reshape</b>. Изменить размернсть массива можно только в том случае, если число элементов в исходном и в целевом массиве <b>совпадает</b>:

In [95]:
my_array = np.random.randint(0, 10, 20)
print (my_array)
print('---')
print (my_array.reshape((4,5)))
my_array_r = my_array.reshape((4,5))

[9 3 8 7 1 9 4 7 0 3 6 0 9 2 8 0 5 0 2 7]
---
[[9 3 8 7 1]
 [9 4 7 0 3]
 [6 0 9 2 8]
 [0 5 0 2 7]]


In [96]:
my_array_r.shape

(4, 5)

In [97]:
my_array.size # функция size - проверка числа элементов массива

20

Для преобразования многомерного массива в одномерный используется метод <b>flatten</b>:

In [98]:
my_array = np.array([[1,2,3], [11,22,33], [111,222,333]])
print (my_array)
print('---')
print (my_array.flatten())

[[  1   2   3]
 [ 11  22  33]
 [111 222 333]]
---
[  1   2   3  11  22  33 111 222 333]


<b>Сравнения и маски</b>. Можно сравнивать элементы массива с числом и извлекать из него элементы, которые больше или меньше заданного числа. Создадим массив размера случайных чисел от 0 до 10, размером 3х4 (у вас получатся другие значения):

In [99]:
my_array = np.random.randint(0, 10, (3,4))
print (my_array)
print('---')
print (my_array < 5) # какие из элементов меньше 5

[[2 6 2 7]
 [5 0 3 4]
 [0 1 0 6]]
---
[[ True False  True False]
 [False  True  True  True]
 [ True  True  True False]]


Мы получили новый массив, <b>заполненный значениями True/False</b> в зависимости от того, меньше или больше 5 каждый элемент в исходном массиве (т.н. <b>"булевая маска"</b>). Для того, чтобы получить элементы массива my_array, которые меньше пяти:

In [100]:
my_array[my_array<5] # срез: отобранные элементы представляют собой одномерный массив

array([2, 2, 0, 3, 4, 0, 1, 0])

<b>Маска для строк и столбцов</b> нужна для выбора только определенных строк или столбцов из всего массива и скрытия остальных. Она задаётся при помощи булевых <b>0 (False)</b> и <b>1 (True)</b>, где 0 скрывает столбец или строку, а 1 оставляет ее на виду. Выведем первый и третий столбец массива:

In [101]:
mask = np.array([1, 0, 1, 0], dtype=bool)
mask

array([ True, False,  True, False])

In [102]:
my_array[:, mask]

array([[2, 2],
       [5, 3],
       [0, 0]])

<b>Сортировка двумерных массивов</b>. В двумерных массивах можно выполнять сортировку элементов строк и столбцов с помощью функции <b>sort</b>, в качестве параметров функция получает сам массив, а также номер оси (0 (для столбцов) или 1 (для строк)), элементы которой необходимо отсортировать:

In [103]:
my_array = np.random.randint(0, 10, (4, 6))
print (my_array)
print('---')
print (np.sort(my_array, axis=1)) # отсортируем элементы строк
print('---')
print (np.sort(my_array, axis=0)) # отсортируем элементы столбцов

[[6 0 9 0 0 8]
 [9 9 9 7 3 8]
 [7 5 7 5 4 7]
 [8 2 8 7 9 9]]
---
[[0 0 0 6 8 9]
 [3 7 8 9 9 9]
 [4 5 5 7 7 7]
 [2 7 8 8 9 9]]
---
[[6 0 7 0 0 7]
 [7 2 8 5 3 8]
 [8 5 9 7 4 8]
 [9 9 9 7 9 9]]


### Математические и статистические операции
NumPy содержит базовые статистические функции для описания данных: среднее арифметическое <b>(mean)</b>, медиана <b>(median)</b>, стандартное отклонение <b>(std)</b>, корреляция <b>(corrcoef)</b> и прочие. Для изучения функций используем набор данных, содержащих информацию в таблице об учениках шестого класса:

![image.png](attachment:image.png)

In [104]:
# массив students, одержащий эти данные:
id = [x for x in range(1,11)] # список номеров от 1 до 10
height = [135,160,163,147,138,149,136,154,137,165]
weight = [34,43,40,44,41,54,39,48,35,60]
grade = [4,5,4.3,5,4.7,3.9,4.2,4.9,3.7,4.6]
students = np.array ([id, height, weight, grade]).T
students

array([[  1. , 135. ,  34. ,   4. ],
       [  2. , 160. ,  43. ,   5. ],
       [  3. , 163. ,  40. ,   4.3],
       [  4. , 147. ,  44. ,   5. ],
       [  5. , 138. ,  41. ,   4.7],
       [  6. , 149. ,  54. ,   3.9],
       [  7. , 136. ,  39. ,   4.2],
       [  8. , 154. ,  48. ,   4.9],
       [  9. , 137. ,  35. ,   3.7],
       [ 10. , 165. ,  60. ,   4.6]])

<b>Средние величины</b>. Среднее арифметическое <b>(mean)</b> — сумма всех значений, делённая на их количество, показывает общую тенденцию и описывает данные одним числом. Средняя успеваемость школьников в классе:

In [105]:
mean = np.mean(students[:,-1]) # среднее считается по всем строкам и послденему столбцу
mean

4.430000000000001

<b>Медиана</b> — величина, у которой половина значений меньше выборки, а другая — больше. Если в выборке есть <b>выбросы</b> (значения существенно выше или ниже среднего, выделяющиеся из всей выборки), то медиана <b>лучше характеризует выборку</b>, чем среднее. Как учится средний ученик:

In [None]:
median = np.median(students[:,-1])
median

<b>Коэффициент корреляции</b>. Корреляция — статистическая связь случайных величин. Мерой корреляции служит одноименный коэффициент, он показывает, насколько сильно связаны величины (м.б. положительным или отрицательным, по модулю принимает значение от 0 до 1). Отрицательный коэффицинт говорит о том, что случайные величины связаны, но при увеличении одной из них вторая уменьшается. Если коэффициент положительный, то величины изменяются однонаправленно. Аналитики часто оперируют данной величиной. <b>ВАЖНО</b>: наличие корреляции между двумя показателями не гарантирует, что между ними есть причинно-следственная связь! Насколько связан рост и вес школьников:

In [106]:
corr = np.corrcoef(students[:,1], students[:,2])
corr

array([[1.        , 0.64314431],
       [0.64314431, 1.        ]])

Полученный коэффициент корреляции чуть больше <b>0.64</b>: между ростом и весом школьников существует <b>слабая положительная связь</b>: более рослые ученики обычно имеют более высокую массу тела.

<b>Показатели вариации</b>. Если число измерений сучайной величины конечно, то для оценки среднего значения величины используется среднее арифметическое. Cреднее значение случайной величины при стремлении числа её измерений к бесконечности называется <b>математическим ожиданием</b>. Мера разброса случайной величины относительно её математического ожидания называется <b>дисперсией</b>.

Дисперсия случайной величины X равна математическому ожиданию квадрата отклонения случайной величины от ее математического ожидания, это <b>"ожидание второго порядка"</b>. Т.е. если величина дисперсии небольшая - все числа в выборке имеют близкие друг к другу значения, а чем она больше — тем значительнее разброс значений выборки.

![image.png](attachment:image.png)

<b>Стандартное отклонение</b> — самый распространенный показатель рассеивания случайной величины относительно её математического ожидания: 

![image.png](attachment:image.png)

Стандартное отклонение равно квадратному корню из дисперсии. Низкое стандартное отклонение показывает, что все значения в выборке сгруппированы около среднего значения, высокое говорит о том, что разброс значений большой. Насколько разный у школьников рост? Посчитаем стандартное отклонение <b>std</b>:

In [None]:
std = np.std(students[:,1])
std

Разброс в росте большинства учеников составляет более 11 см от среднего арифметического: в этом классе одни дети уже начали активно расти, а другие ещё не вступили в период полового созревания. 

In [None]:
grade_std = np.std(students[:,3])
grade_std

In [None]:
w_std = np.std(students[:,2])
variance = w_std**2
print (variance)

### Unfortunately, no one can told what the Matrix is. You have to see it for yourself. (Morpheus)


Матричные вычисления необходимы для понимания таких алгоритмов, как линейная регрессия, градиентный спуск и линейная оптимизация. Операции с матрицами зашиты глубоко внутри алгоритмов: будет меньше контекстных задач и больше технических. Кроме того, мы уделим особое внимание тонкостям выполнения действий с матрицами в Python и возможным источникам ошибок.

<b>Матрица</b> - набор чисел, расположенных по строкам и столбцам, как в таблице.

B NumPy матрицу можно создать командой <b>.matrix</b> или <b>.array</b>. За размер матрицы отвечает команда <b>shape</b>. Помним, что матрицы, как и массивы, индексируются с <b>0</b>.
- Матрицы складываются и вычитаются поэлементно. Результат — матрица того же размера.
- Матрицы умножаются на число поэлементно. Результат — матрица того же размера.
- Матрицы могут умножаться поэлементно (скалярное произведение матриц)
- Матрицы обычно умножаются по строкам и столбцам, результаты перемножений элементов по каждой строке и столбцу суммитруются (тензорное произведение матриц). <b>Самое важное для дальнейшего изучения!</b>
- При транспонировании строки превращаются в столбцы. Размер прямоугольной матрицы меняется. 
- Инварианты (не изменяются при данной операции) транспонирования: симметричные матрицы.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### Тензорное умножение матриц

In [107]:
# Даны матрица A и вектор x. Найдите произведение матрицы A и вектора x в том порядке, в котором их можно умножить.
A=np.array( [ [5,-1,3,1,2] , [-2,8,5,-1,1] ] )
x=np.array( [1,2,3,4,5] )

np.dot(A,x)

array([26, 30])

In [109]:
# Найдите произведение матриц A и B в том порядке, в котором их можно умножить. Запишите элемент из 1 строки и 4 столбца
A=np.array( [ [1,9,8,5] , [3,6,3,2] , [3,3,3,3], [0,2,5,9], [4,4,1,2] ] )
B=np.array( [ [1,-1,0,1,1] , [-2,0,2,-1,1] ] )

np.dot(B,A)

array([[  2,   9,  11,  14],
       [  8, -10, -14, -11]])

In [110]:
np.shape(A) # размерность матрицы

(5, 4)

In [111]:
np.size(A) # число элементов матрицы

20

In [112]:
# вектор-строка и вектор-столбец
x=np.array([1,2,3])
print(x)
np.reshape(x,(3,1)) # важная функция - далее будет часто нужна

[1 2 3]


array([[1],
       [2],
       [3]])

In [113]:
# Порядок умножения AB != BA
B@A

array([[  2,   9,  11,  14],
       [  8, -10, -14, -11]])

In [114]:
A@B

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 2 is different from 4)

In [115]:
# умножение на одномерный массив numpy
A = np.array([[1,0,1],[1,1,1]])
b = np.array([-3,4,5])
print(A)
print('---')
print(b)

[[1 0 1]
 [1 1 1]]
---
[-3  4  5]


In [116]:
A@b

array([2, 6])

In [117]:
b@A

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 2 is different from 3)

### Как транспонировать вектор?

In [118]:
x=np.array([1,2,3])
print(x)
print('---')
print(x.T)
print('---')
print(x.shape)
print(x.T.shape)

[1 2 3]
---
[1 2 3]
---
(3,)
(3,)


In [119]:
x = np.reshape(x,(3,1))
print(x)
print('---')
print(x.shape) # вектор-столбец, технически (псевдо) двухмерный массив.

[[1]
 [2]
 [3]]
---
(3, 1)


In [120]:
print(x.T)
print(x.T.shape) # вектор-строка, также технически (псевдо) двухмерный массив.

[[1 2 3]]
(1, 3)


### Сжатие: удаление пустых размерностей
Важная функция, в реальных проектах будет часто необходима!

In [121]:
squeezed = np.squeeze(x.T) # сжатие тензоров - удаление пустых размерностей
print(squeezed)
print(squeezed.shape)

[1 2 3]
(3,)


In [122]:
squeezed_2 = np.squeeze(x) # сжатие тензоров - удаление пустых размерностей
print(squeezed_2)
print(squeezed_2.shape) # вектор-столбец сжимается также до вектор-строки

[1 2 3]
(3,)


# Дополнительный материал. Больше массивов Богу массивов!

<b>NumPy (acronym for 'Numerical Python')</b> is one of the most essential package for speedy mathematical computation on arrays and matrices in Python. It is also quite useful while dealing with multi-dimensional data. It is a blessing for integrating C, C++ and FORTRAN tools. It also provides numerous functions for Fourier transform (FT) and linear algebra.

<b>Why NumPy instead of lists?</b>

1. Numpy arrays have contiguous memory allocation. Thus if a same array stored as list will require more space as compared to arrays.
2. They are more speedy to work with and hence are more efficient than the lists.
3. They are more convenient to deal with.

<b>Pandas is built on top of NumPy</b>. In other words, *Numpy is required by pandas to make it work.* So Pandas is not an alternative to Numpy. Instead pandas offers additionalmethod or provides more streamlined way of working with numerical and tabular data in Python. 

<b>Fast guide on NumPy functions:</b>

In [None]:
import numpy as np
# commonly used np functions:

array
# Create numpy array
ndim
# Dimension of the array
shape
# Size of the array (Number of rows and Columns)
size
# Total number of elements in the array
dtype
# Type of elements in the array, i.e., int64, character
reshape
# Reshapes the array without changing the original shape
resize
# Reshapes the array. Also change the original shape
arange
# Create sequence of numbers in array
Itemsize
# Size in bytes of each item
diag
# Create a diagonal matrix
vstack
# Stacking vertically
hstack
# Stacking horizontally

<b>Examples:</b>

In [None]:
'''1D ARRAY''' 
# using numpy an array is created by using np.array:
a = np.array([15,25,14,78,96]) # Notice that in np.array square brackets are present. Absence of it leads to error!
a

# To print the array we can use print(a):
print(a)

'''DATATYPES'''
# np.array( ) has a parameter of dtype through which one can define type of elements (integers, floats, or complex)
a.dtype
a = np.array([15,25,14,78,96],dtype = "float")
a
a.dtype # Initially datatype of 'a' was 'int32' which on modifying becomes 'float64'

'''SEQUENCES'''
# If you want to create a sequence of numbers then using np.arange, we can get our sequence:
b = np.arange(start = 20,stop = 30, step = 1) # In np.arange the end point is always excluded!
b

# arithmetic progression with initial term 20 and common difference 2, upto 30; 30 being excluded:
c = np.arange(20,30,2) #30 is excluded.
c

'''INDEXING, SLICING'''
# It is important to note that Python indexing starts from 0. The syntax of indexing is as follows:
x[start:end:step] # Elements in array x start through the end (but the end is excluded), default step value is 1.
x[start:end] # Elements in array x start through the end (but the end is excluded)
x[start:] # Elements start through the end (but the end is excluded)
x[:end] # Elements from the beginning through the end (but the end is excluded)
x [::2] # Elements were taken from 0 with step 2

# change the value of all the elements from starting upto index 7,excluding 7, with a step of 3 as 123:
x[:7:3] = 123
x

# To reverse a given array we write:
x = np.arange(10)
x[ : :-1] # reversed x

# Note that the above command does not modify the original array!

'''RESHAPING'''
# To reshape the array we can use reshape( ):
f = np.arange(101,113)
f.reshape(3,4) # dimensions as args. Reshape() does not alter the shape of the original array

# to modify the original array we can use resize( ):
f.resize(3,4)
f

# If a dimension is given as -1 in a reshaping, the other dimensions are automatically calculated 
# provided that the given dimension is a multiple of total number of elements in the array.
f.reshape(3,-1)

# we only directed that we will have 3 rows, number of elements in other dimension i.e. 4 columns automatically calculated

'''MISSING DATA'''
# missing data is represented by NaN? use the command 'np.nan':
val = np.array([15,10, np.nan, 3, 2, 5, 6, 4])

# To ignore missing values, you can use np.nansum(val):
np.nansum(val)

# To check whether array contains missing value, you can use the function 'isnan()':
np.isnan(val)

'''2D ARRAYS'''
# A 2D array in numpy can be created in the following manner:
g = np.array([(10,20,30),(40,50,60)])

#Alternatively
g = np.array([[10,20,30],[40,50,60]])

# The dimension, total number of elements and shape can be ascertained by ndim, size and shape respectively:
g.ndim
g.size
g.shape

'''MATRICES'''
# numpy provides the utility to create some usual matrices which are commonly used for linear algebra.
# To create a matrix of all zeros of 2 rows and 4 columns we can use np.zeros( ):
np.zeros( (2,4) )

# Here the dtype can also be specified. For a zero matrix the default dtype is 'float'. 
# To change it to integer we write 'dtype = np.int16':
np.zeros([2,4],dtype=np.int16)

# To get a matrix of all random numbers from 0 to 1 we write np.empty:
np.empty( (2,3) ) # Note: The results may vary everytime you run np.empty.

# To create a matrix of unity we write np.ones( ):
np.ones([3,3])

# To create a diagonal matrix we can write np.diag( ). 
# To create a diagonal matrix where the diagonal elements are 14,15,16 and 17 we write:
np.diag([14,15,16,17])

# To create an identity matrix we can use np.eye( ):
np.eye(5,dtype = "int") # By default the datatype in np.eye( ) is 'float'

'''RESHAPING 2D ARRAYS'''
# To get a flattened 1D array we can use ravel( ):
g = np.array([(10,20,30),(40,50,60)])
g.ravel()

# To change the shape of 2D array we can use reshape. 
# Writing -1 will calculate the other dimension automatically and does not modify the original array:
g.reshape(3,-1) # returns the array with a modified shape
g.shape #It does not modify the original array

# Similar to 1D arrays, using resize( ) will modify the shape in the original array:
g.resize((3,2))
g #resize modifies the original array

'''MATRICES ALGEBRA'''
# Let us create some arrays A,b and B and they will be used for this section:
A = np.array([[2,0,1],[4,3,8],[7,6,9]])
b = np.array([1,101,14])
B = np.array([[10,20,30],[40,50,60],[70,80,90]])

# In order to get the transpose, trace and inverse we use A.transpose( ) , np.trace( ) and np.linalg.inv( ) respectively:
A.T #transpose, does not modify the original array
A.transpose() #transpose
np.trace(A) # trace
np.linalg.inv(A) #Inverse

# Matrix addition and subtraction can be done in the usual way:
A+B
A-B

# Matrix multiplication of A and B can be accomplished by A.dot(B). 
# Where A will be the 1st matrix on the left hand side and B will be the second matrix on the right side:
A.dot(B)

# To solve the system of linear equations: Ax = b we use np.linalg.solve( )^
np.linalg.solve(A,b)

# The eigen values and eigen vectors can be calculated using np.linalg.eig( ):
np.linalg.eig(A)

'''The first row are the various eigen values and the second matrix denotes the matrix 
of eigen vectors where each column is the eigen vector to the corresponding eigen value.'''

'''MATH FUNCS'''
# trigonometric functions like sin, cosine etc:
B = np.array([[0,-20,36],[40,50,1]])
np.sin(B)

# In order to get the exponents we use **:
B**2 # matrix of the square of all elements of B

# In order to obtain if a condition is satisfied by the elements of a matrix we need to write the criteria:
B>25 # returns matrix of Booleans

# In a similar manner np.absolute, np.sqrt and np.exp return the matrices of absolute numbers, squares and exponentials:
np.absolute(B)
np.sqrt(B)
np.exp(B)

# a matrix A of shape 3*3:
A = np.arange(1,10).reshape(3,3)
A

# Discreptive stats funcs:
A.sum()
A.min()
A.max()
A.mean()
A.std() #Standard deviation
A.var() #Variance

# indices of minimum and maximum elements we use argmin( ) and argmax( ):
A.argmin()
A.argmax()

# stats for each row or column then we need to specify the axis:
A.sum(axis=0) # sum of each column, it will move in downward 
A.mean(axis = 0)
A.std(axis = 0)
A.argmin(axis = 0)

'''By defining axis = 0, calculations will move in downward direction i.e. it will give the stats for each column. 
To find the min and index of maximum element for each row, we need to move in right-wise direction: axis = 1'''
A.min(axis=1) # min of each row, it will move in rightwise 
A.argmax(axis = 1)

# cumulative sum along each row we use cumsum( ):
A.cumsum(axis=1)

'''3D ARRAYS'''
# Numpy also provides the facility to create 3D arrays. A 3D array can be created as:
X = np.array( [[[ 1, 2,3], 
[ 4, 5, 6]],
[[7,8,9],
[10,11,12]]])
X.shape
X.ndim
X.size

# X contains two 2D arrays Thus the shape is 2,2,3. Totol number of elements is 12.
# To calculate the sum along a particular axis we use the axis parameter as follows:
X.sum(axis = 0)
X.sum(axis = 1)
X.sum(axis = 2)

'''axis = 0 returns the sum of the corresponding elements of each 2D array, axis = 1 
returns the sum of elements in each column in each matrix while axis = 2 returns the sum of each row in each matrix.'''

# ravel( ) writes all the elements in a single array:
X.ravel()

# To extract the 2nd matrix we write:
X[1,...] 
# same as 
X[1,:,:] or X[1]

# Indexing starts from 0 that is why we wrote 1 to extract the 2nd 2D array.
# To extract the first element from all the rows we write:
X[...,0] 
# same as 
X[:,:,0]

'''ELEMENTS POSITION'''
# Find out position of elements that satisfy a given condition -
# np.where locates the positions in the array where element of array is greater than 4.
a = np.array([8, 3, 7, 0, 4, 2, 5, 2])
np.where(a > 4)

'''INDEXING IN INDEX ARRAYS'''
# Consider a 1D array:
x = np.arange(11,35,2)
x

# subsets the elements of x:
i = np.array( [0,1,5,3,7,9 ] )
x[i]

# In a similar manner we create a 2D array j of indices to subset x:
j = np.array( [ [ 0, 1], [ 6, 2 ] ] )
x[j]

# Similarly we can create both i and j as 2D arrays of indices for x:
x = np.arange(15).reshape(3,5)
x
i = np.array( [ [0,1], [2,0] ] ) # indices for the first dim
j = np.array( [ [1,1], [2,0] ] ) # indices for the second dim

# To get the ith index in row and jth index for columns we write:
x[i,j] # i and j must have equal shape

# To extract ith index from 3rd column we write:
x[i,2]

# For each row if we want to find the jth index we write:
x[:,j]

# You can also use indexing with arrays to assign the values:
x = np.arange(10)
x
x[[4,5,8,1,2]] = 0 # 0 is assigned to 4th, 5th, 8th, 1st and 2nd indices of x
x

# When the list of indices contains repetitions then it assigns the last value to that index:
x = np.arange(10)
x
x[[4,4,2,3]] = [100,200,300,400] # Notice that for the 5th element(i.e. 4th index) the value assigned is 200, not 100!
x

# Caution: If one is using += operator on repeated indices then it carries out the operator only once on repeated indices:
x = np.arange(10)
x[[1,1,1,7,7]]+=1 # Although index 1 and 7 are repeated but they are incremented only once
x

'''BOOL ARRAYS INDEXING'''

# We create a 2D array and store our condition in b. If the condition is true it results in True otherwise False:
a = np.arange(12).reshape(3,4)
b = a > 4
b # it is the boolean mask of the 'a' with same shape as that of 'a'

# To select the elements from 'a' which adhere to condition 'b' we write:
a[b] # Now 'a' becomes a 1D array with the selected elements

# This property can be very useful in assignments:
a[b] = 0 
a

'''As done in integer indexing we can use indexing via Booleans:
Let x be the original matrix and 'y' and 'z' be the arrays of Booleans to select the rows and columns.'''
x = np.arange(15).reshape(3,5)
y = np.array([True,True,False]) # first dim selection
z = np.array([True,True,False,True,False]) # second dim selection

# We write the x[y,:] which will select only those rows where y is True:
x[y,:] # selecting rows
x[y] # same thing

# Writing x[:,z] will select only those columns where z is True:
x[:,z] # selecting columns

'''STATS ON PANDAS DF'''
# dummy data frame for illustration: 
np.random.seed(234)
mydata = pd.DataFrame({"x1" : np.random.randint(low=1, high=100, size=10),"x2"  : range(10)})

# column-wise functions:
np.mean(mydata)
np.median(mydata, axis=0) # axis = 0: the function would be run on each column, axis = 1: function to be run on each row

'''STACKING ARRAYS'''

# Let us consider 2 arrays A and B:
A = np.array([[10,20,30],[40,50,60]])
B = np.array([[100,200,300],[400,500,600]])

# To join them vertically we use np.vstack( ):
np.vstack((A,B)) #Stacking vertically

# To join them horizontally we use np.hstack( ):
np.hstack((A,B)) #Stacking horizontally

# newaxis helps in transforming a 1D row vector to a 1D column vector:
from numpy import newaxis
a = np.array([4.,1.])
b = np.array([2.,8.])
a[:,newaxis]

#The function np.column_stack( ) stacks 1D arrays as columns into a 2D array. It is equivalent to hstack for 1D arrays:
np.column_stack((a[:,newaxis],b[:,newaxis]))
np.hstack((a[:,newaxis],b[:,newaxis])) # same as column_stack

'''SPLITING ARRAYS'''
# Consider an array 'z' of 15 elements:
z = np.arange(1,16)

# Using np.hsplit( ) one can split the arrays:
np.hsplit(z,5) # Split a into 5 arrays

# On passing 2 elements we get:
np.hsplit(z,(3,5)) # It splits 'z' after the third and the fifth element

# For 2D arrays np.hsplit( ) works as follows:
A = np.arange(1,31).reshape(3,10)
A
np.hsplit(A,5) # A gets split into 5 arrays of same shape

# To split after the third and the fifth column we write:
np.hsplit(A,(3,5))

'''COPYING'''
x = np.arange(1,16)

# We assign y as x and then say 'y is x':
y = x 
y is x

# Let us change the shape of y:
y.shape = 3,5
# Note that it also alters the shape of x:
x.shape

# Let us store z as a view of x by:
z = x.view()
z is x

# Thus z is not x. Changing the shape of z:
z.shape = 5,3

# Creating a view does not alter the shape of x:
x.shape

# Changing an element in z:
z[0,0] = 1234

# Note that the value in x also get alters:
x

# Changes in the display does not hamper the original data but changes in values of view will affect the original data

# z as a copy of x, z is not x. Changing the value in z: no alterations are made in x:
z = x.copy()
z is x
z[0,0] = 9999
x

'''Python sometimes may give 'setting with copy' warning because it is unable to recognize whether the new df 
or array (created as a subset of another dataframe or array) is a view or a copy. Thus in such situations user 
needs to specify whether it is a copy or a view otherwise Python may hamper the results'''

In [None]:
# Exercises:

# 1. How to extract even numbers from array?
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
# Desired Output :array([0, 2, 4, 6, 8])

# 2. How to find out the position where elements of x and y are same
x = np.array([5,6,7,8,3,4]) 
y = np.array([5,3,4,5,2,4])
# Desired Output :array([0, 5]

# 3. How to standardize values so that it lies between 0 and 1
k = np.array([5,3,4,5,2,4])
# Hint :k-min(k)/(max(k)-min(k))

# 4. How to calculate the percentile scores of an array
p = np.array([15,10, 3,2,5,6,4])

# 5. Print the number of missing values in an array
p = np.array([5,10, np.nan, 3, 2, 5, 6, np.nan])

In [None]:
my_secret = [x for x in range(1, 301, 7) if x%10 == 7 or x%10 == 1]
print (my_secret)
arr4 = np.array([my_secret, [x/2 for x in my_secret], [x-100 for x in my_secret]]) # массив из list comprehensions
print (arr4)

In [None]:
# Масиив для упражнений:
first_line = [x*y for x in range(2, 100, 6) for y in range (7, 1, -2)]
second_line = [x ** 0.5 for x in range(1000, 1101, 2)]
third_line = [x**2 for x in range(51)]

big_secret = np.array([first_line, second_line, third_line, second_line, first_line], dtype=float)
big_secret

In [None]:
# ЗАДАЧИ
# 1. Замените на 1 все элементы big_secret, у которых оба индекса нечётные и на -1 - у которых чётные:
for i in range(0,5):
    for j in range(0,51):
        if i % 2 != 0 and j % 2 != 0:
            big_secret[i,j] = 1
        elif i % 2 == 0 and j % 2 == 0:
            big_secret[i,j] = -1
        j+=1
    i+=1

#print (big_secret)
print (big_secret[:, :5])

# Первые 5 элементов из каждой строки обновлённого массива big_secret: сумма элементов главной диагонали (не округлять)
prod2 = 1
for i in range(len(big_secret[:, :5])):
    for j in range(len(big_secret[:, :5])):
        if i==j:
            prod2*=big_secret[i, j]
        j+=1
    i+=1
        
print (prod2)

In [None]:
# 1 сумма элементов последнего столбца массива? (округлить до двух цифр после запятой)
print (np.shape(big_secret))

lst = []
total = 0
i = 0
while i < len (big_secret):
    lst.append(big_secret[i,-1])
    total += big_secret[i,-1]
    i += 1

print (lst)
print (total)
np.sum(big_secret[:,-1])

In [None]:
# 2 Выделить из каждой строки массива первые 5 элементов. Сумма элементов главной диагонали получившейся матрицы?
# (округлить до двух цифр после запятой)

# инициализируем пустой массив
small_secret = np.empty((5, 5))

# цикл для извлечения первых 5 элементов из каждой строки
i = 0
while i <= 4: 
    small_secret[i] = big_secret[i,:5]
    i += 1
print (small_secret)

# цикл для произведения элементов диагонали small_secret
# ВАЖНО! Вложенные циклы while будут работать "независимо" (без вложенности)! Циклы for работают штатно.
diag = []
i= 0
j = 0
sum = 0
for i in range(len(small_secret)):
    for j in range(len(small_secret)):
        if i==j:
            diag.append (small_secret[i,j])
            sum+=small_secret[i,j]
        j+=1
    i+=1

print (diag)
print (sum)

In [None]:
# 3 Выделить из каждой строки массива big_secret последние 5 элементов. Произведение элементов главной диагонали матрицы? 
# (без изменений и округлений)

# инициализируем пустой массив
small_secret2 = np.empty((5, 5))

# цикл для извлечения последних 5 элементов из каждой строки
i = 0
while i <= 4: 
    small_secret2[i] = big_secret[i,-5:]
    i += 1
print (small_secret2)

# цикл для произведения элементов диагонали small_secret2
diag2 = []
i= 0
j = 0
prod = 1
for i in range(len(small_secret2)):
    for j in range(len(small_secret2)):
        if i==j:
            diag2.append (small_secret2[i,j])
            prod*=small_secret2[i,j]
        j+=1
    i+=1

print (diag2)
print (prod)

In [None]:
small_secret2 = big_secret[:, -5:]
print (small_secret2)

# Последние 5 эл-тов из каждой строки обновлённого массива big_secret: сумма элементов главной диагонали (не округлять)
prod2 = 1
diag3 = []
for i in range(len(small_secret2)):
    for j in range(len(small_secret2)):
        if i==j:
            prod2*=small_secret2[i, j]
            diag3.append (small_secret2[i,j])
        j+=1
    i+=1
        
print (diag3)
print (prod2)

In [None]:
# массив для упражнений:
first = [x**(1/2) for x in range(100)]
second = [x**(1/3) for x in range(100, 200)]
third = [x/y for x in range(200,300,2) for y in [3,5]]

great_secret = np.array([first, second, third]).T
great_secret

In [None]:
# сумма косинусов элементов первой строки массива ? (округлить до двух знаков)
print (np.sum (np.cos(great_secret[0, :])))

# сумма элементов массива great_secret, значение которых больше 50 (ответ без изменений)?
print (np.sum (great_secret[great_secret>50]))

# Переведите массив great_secret в одномерный. Какое значение имеет элемент с индексом 150 (ответ без изменений)? 
print (great_secret.flatten()[150])

# Отсортируйте столбцы по возрастанию. Cумма элементов последней строки полученого массива? (округлить до двух цифр)?
a = np.sort(great_secret, axis=0)
print (np.sum (a[-1, :]))

In [None]:
my_array = np.array([[1,2,3,4,5],
                     [6,7,8,9,10],
                     [11,12,13,14,15],
                     [16,17,18,19,20],
                     [21,22,23,24,25]])
my_array[1:4,1:4]

my_sin = np.sin(my_array)
print (my_sin)
print (np.sum(my_sin))

my_sin[1:4,1:4] = 1
print (my_sin)
print (np.sum(my_sin))
print (round (np.sum (my_sin),3))

In [None]:
my_array = np.array([[1,2,3,4,5],
                     [6,7,8,9,10],
                     [11,12,13,14,15],
                     [16,17,18,19,20],
                     [21,22,23,24,25]])

my_sin = np.sin(my_array)
my_sin[1:4,1:4] = 1
print (my_sin)
a = my_sin[:, :4]
print (a)
a = a.reshape((10,2)) # Важно: метод reshape не inplaced работает. Писать "test = test.reshape(x,y)""
print (a)
print (round (np.sum (a[:, 0]),3))

In [None]:
bigdata = np.array ([x**2 for x in range(100,1000) if x % 2 != 0])
bigdata
np.shape (bigdata)
a = np.median(bigdata)
b = np.std(bigdata)

evens = []
odds = []
for i in range (len (bigdata)):
    if i % 2 == 0:
        evens.append (bigdata[i])
    else:
        odds.append (bigdata[i])
        
even_bigdata = np.array (evens)
odd_bigdata = np.array (odds)

print (even_bigdata)
print (odd_bigdata)

c = np.corrcoef((even_bigdata, odd_bigdata))
c