# Agenda
1. Environment
2. Numpy
3. Задачки

In [1]:
import numpy as np
import sys

Numpy - это библиотека Python, которая предоставляет поддержку многомерных массивов и высокоэффективные функции для работы с ними. Вот несколько преимуществ использования Numpy:

**Высокая производительность:** Numpy реализован на языке программирования C, что делает его очень быстрым и эффективным при выполнении операций над массивами данных. Он предоставляет возможность выполнять операции с массивами целочисленных данных гораздо быстрее, чем это было бы возможно с использованием стандартных списков Python.

**Массивы данных большого размера:** Numpy позволяет эффективно работать с многомерными массивами данных, что особенно полезно при обработке больших объемов данных в научных вычислениях, машинном обучении и других приложениях.

**Богатый функционал:** В Numpy встроено множество функций для работы с массивами, включая математические операции, логические операции, сортировку, фильтрацию, статистические операции и многое другое. Это делает работу с данными более удобной и эффективной.

**Интеграция с другими библиотеками:** Numpy является частью экосистемы Python для научных вычислений, которая включает также библиотеки как SciPy, Matplotlib, Pandas и другие. Он широко используется в научных и инженерных приложениях благодаря своей мощности и удобству использования.

**Поддержка броадкастинга:** Броадкастинг - это мощная функция Numpy, которая автоматически расширяет размеры массивов, чтобы они соответствовали друг другу при выполнении операций. Это позволяет писать более компактный и читаемый код без явного расширения массивов.

In [2]:
a = np.array(list(range(1_000_000)))
a2 = np.array(list(range(1_000_000)))

b = list(range(1_000_000))
b2 = list(range(1_000_000))

print(sys.getsizeof(a))
print(sys.getsizeof(b))

8000112
8000056


In [3]:
%timeit np.sum(a[1000:100_000])
%timeit sum(b[1000:100_000])

14 µs ± 6.62 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
494 µs ± 529 ns per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [4]:
%timeit a * a2
%timeit [i*j for i,j in zip(b, b2)]

846 µs ± 2.14 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
40.1 ms ± 15.5 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


## Numpy 101

In [5]:
# создание массива
data = np.array([[1,2,3], [4,5,6]])

display(data)
print(data)
print([[1,2,3], [4,5,6]])

array([[1, 2, 3],
       [4, 5, 6]])

[[1 2 3]
 [4 5 6]]
[[1, 2, 3], [4, 5, 6]]


In [6]:
# размерность должна быть одинаковой
np.array([[1,2,3], [4,5]])

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

In [7]:
# простые операции
display(data + 42)
display(data + data)
display(data * 3)
display(data @ data.T)

array([[43, 44, 45],
       [46, 47, 48]])

array([[ 2,  4,  6],
       [ 8, 10, 12]])

array([[ 3,  6,  9],
       [12, 15, 18]])

array([[14, 32],
       [32, 77]])

In [8]:
# размерность массива
print(data.shape)
print(data.ndim)

(2, 3)
2


In [9]:
# dtype
display(np.array([1, "1", ]))
display(np.array([1, "a", ]))
display(np.array([1, 2.5, ]))

data.dtype

array(['1', '1'], dtype='<U21')

array(['1', 'a'], dtype='<U21')

array([1. , 2.5])

dtype('int64')

In [10]:
# change type
a = np.array([1, "1"])
display(a)

display(a.astype(int))

array(['1', '1'], dtype='<U21')

array([1, 1])

In [11]:
# size
a = np.array(list(range(1_000_000)))
print(sys.getsizeof(a) / (1024*1024), a.dtype, end="\n\n")

a = np.array(list(range(1_000_000)), dtype=np.int32)
print(sys.getsizeof(a) / (1024*1024), a.dtype, end="\n\n")

a = np.array(list(range(1_000_000)), dtype=np.float16)
print(sys.getsizeof(a) / (1024*1024), a.dtype)
print(a)

7.6295013427734375 int64

3.8148040771484375 int32

1.9074554443359375 float16
[ 0.  1.  2. ... inf inf inf]


  a = np.array(list(range(1_000_000)), dtype=np.float16)


In [12]:
# специальные массивы
a = np.zeros((1,2,3))
display(a)
print(a.shape)

array([[[0., 0., 0.],
        [0., 0., 0.]]])

(1, 2, 3)


In [13]:
# специальные массивы
a = np.ones((3,2,1))
display(a)
print(a.shape)

array([[[1.],
        [1.]],

       [[1.],
        [1.]],

       [[1.],
        [1.]]])

(3, 2, 1)


In [14]:
# специальные массивы
a = np.empty((2,3))
display(a)
print(a.shape)

array([[1., 1., 1.],
       [1., 1., 1.]])

(2, 3)


In [15]:
# специальные массивы
a = np.full(2, fill_value=42)
display(a)
print(a.shape)

array([42, 42])

(2,)


In [16]:
# специальные массивы
a = np.identity(3)
display(a)
print(a.shape)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

(3, 3)


In [17]:
# специальные массивы
a = np.eye(3, 4)
display(a)
print(a.shape)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.]])

(3, 4)


In [18]:
# np.arange
display(np.arange(-2.5, 1.5, 0.5))
display(np.arange(-2.5, 1.5+1e-6, 0.5))
display(np.arange(-2.5, 1.5+1e-20, 0.5))

array([-2.5, -2. , -1.5, -1. , -0.5,  0. ,  0.5,  1. ])

array([-2.5, -2. , -1.5, -1. , -0.5,  0. ,  0.5,  1. ,  1.5])

array([-2.5, -2. , -1.5, -1. , -0.5,  0. ,  0.5,  1. ])

**функции создания массива**

|||
|---|---|
|array| копирует данные |
|asarray| не копирует данные |
|arange| аналог range, возвращает массив |
|ones, ones_like | возвращает массив из единиц, ones_like - "копирует" размероность другого массива |
|zeros, zeros_like | массив нулей |
|empty, empty_like | выделяют память под новые массивы |
|full, full_like | заполняет массив заданным значением |
|eye, identity | единичная матрица |

## Элементарные операции с массивами

In [19]:
# создадим массив
data = np.array([[1,2,3],
                 [4,5,6]])
data

array([[1, 2, 3],
       [4, 5, 6]])

In [20]:
# + - * / // % (скаляр) - применяются к каждому элементу массива
display(data + 3)
display(data - 3)
display(data * 3)
display(data / 3)
display(data // 3)
display(data % 3)

array([[4, 5, 6],
       [7, 8, 9]])

array([[-2, -1,  0],
       [ 1,  2,  3]])

array([[ 3,  6,  9],
       [12, 15, 18]])

array([[0.33333333, 0.66666667, 1.        ],
       [1.33333333, 1.66666667, 2.        ]])

array([[0, 0, 1],
       [1, 1, 2]])

array([[1, 2, 0],
       [1, 2, 0]])

In [21]:
# + - * / // % (массив) - применяется к каждой паре элементов массива
display(data + data)
display(data - data)
display(data * data)
display(data / data)
display(data // data)
display(data % data)

array([[ 2,  4,  6],
       [ 8, 10, 12]])

array([[0, 0, 0],
       [0, 0, 0]])

array([[ 1,  4,  9],
       [16, 25, 36]])

array([[1., 1., 1.],
       [1., 1., 1.]])

array([[1, 1, 1],
       [1, 1, 1]])

array([[0, 0, 0],
       [0, 0, 0]])

In [22]:
# > < >= <= !=
display(data >= 2)
display(data != 4)

array([[False,  True,  True],
       [ True,  True,  True]])

array([[ True,  True,  True],
       [False,  True,  True]])

In [23]:
# reshape
display(data.reshape(3,2))
display(data.reshape(1, -1))
display(data.flatten())
display(data.reshape(4,2))

array([[1, 2],
       [3, 4],
       [5, 6]])

array([[1, 2, 3, 4, 5, 6]])

array([1, 2, 3, 4, 5, 6])

ValueError: cannot reshape array of size 6 into shape (4,2)

In [24]:
# slices
display(data[0, 2]) # первая строка, третий элемент
display(data[0]) # первая строка
display(data[:, 1]) # второй столбец
display(data[:, 1:-1]) # второй столбец

3

array([1, 2, 3])

array([2, 5])

array([[2],
       [5]])

In [25]:
# slices
arr = np.array(range(12))
arr.resize(2,2,3)
display(arr)

display(arr[:, 0, :])
display(arr[..., 0])
display(arr[..., 1])

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

array([[0, 1, 2],
       [6, 7, 8]])

array([[0, 3],
       [6, 9]])

array([[ 1,  4],
       [ 7, 10]])

## Операции с массивами

In [26]:
data

array([[1, 2, 3],
       [4, 5, 6]])

In [27]:
# как считаются статистики
display(np.apply_along_axis(np.mean, 1, data))
display(np.apply_along_axis(np.mean, 0, data))

array([2., 5.])

array([2.5, 3.5, 4.5])

In [28]:
# расчет статистик
print(np.mean(data))
print(np.median(data, axis=0))
print(np.min(data, axis=1), np.max(data))
print(np.var(data, axis=1))

3.5
[2.5 3.5 4.5]
[1 4] 6
[0.66666667 0.66666667]


In [29]:
# broadcasting
arr1 = np.array([1, 2, 3])
arr2 = np.array([[4, 5, 6],
                 [7, 8, 9]])

display(arr1 + arr2)

array([[ 5,  7,  9],
       [ 8, 10, 12]])

In [30]:
# работа с множествами
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([4, 5, 6, 7, 8])

display(np.union1d(arr1, arr2))
display(np.intersect1d(arr1, arr2))
display(np.setdiff1d(arr1, arr2))
display(np.setxor1d(arr1, arr2))

array([1, 2, 3, 4, 5, 6, 7, 8])

array([4, 5])

array([1, 2, 3])

array([1, 2, 3, 6, 7, 8])

In [31]:
# генерация случайных чисел
display(np.random.rand(2, 2))  # Случайные числа из равномерного распределения на [0, 1)
display(np.random.randint(1, 10, size=(2, 2)))  # Целые числа в диапазоне [1, 10)

array([[0.28607373, 0.77635461],
       [0.72547589, 0.2553958 ]])

array([[9, 7],
       [2, 3]])

In [32]:
# np.unique
arr = np.array([1,2,1,3,4,4,-1])
display(np.unique(arr))
display(np.unique(arr, return_counts=True))

array([-1,  1,  2,  3,  4])

(array([-1,  1,  2,  3,  4]), array([1, 2, 1, 1, 2]))

In [33]:
# np.where
display(np.where(arr >= 3))
display(np.where(arr >= 3, 42, arr))

(array([3, 4, 5]),)

array([ 1,  2,  1, 42, 42, 42, -1])

## Задачки

In [34]:
from typing import Union, Optional, List, Tuple

In [35]:
# Написать класс для расчета статистик
# inp: 1D Union[List[int|float], Tuple[int|float], np.ndarray[int|float]]
class Statistics:
    def __init__(self, data: Union[List[int|float], Tuple[int|float], np.ndarray[int|float]]):
        # convert 
        self.data = data
        
    def calculate_mean(self) -> float | int:
        # считаем среднюю от self.data
        raise NotImplementedError("Надо написать расчет")
        
    def calculate_median(self) -> float | int:
        # считаем медиану от self.data
        raise NotImplementedError("Надо написать расчет")
        
    def calculate_mode(self) -> float | int:
        # считаем моду от self.data
        """
        в случае если два и более объекта встречаются одинаковое количество раз
        модой будет наибольший из них
        
        Пример1:
        data = [1,2,2,3]
        out: 2
        
        Пример2:
        data = [1,2,3]
        out: 3
        """
        raise NotImplementedError("Надо написать расчет")
        
# check
obj = Statistics([1,2,3])
obj.calculate_mean()

NotImplementedError: Надо написать расчет

In [36]:
class StatisticNew(Statistics):
    def calculate_mean(self):
#         return np.mean(self.data)
        return self.data.mean()
    
# check
obj = StatisticNew(np.array([1,2,3]))
obj.calculate_mean()

2.0

In [37]:
# check
obj = StatisticNew([1,2,3])
obj.calculate_mean()

AttributeError: 'list' object has no attribute 'mean'

**Задачки numpy**

I. Дан np.ndarray чисел, найти индексы всех максимальных элементов в массиве.

Пример:\
inp: np.asarray([1,2,3,3,2,-1])\
out: [2,3]

II. Найти второй максимальный элемент в массиве.


Пример:\
inp: np.asarray([1,2,3,3,2,-1])\
out: 2


III. Даны два N-мерных массива, найдите евклидово расстояние между ними. Ответ сократите используя round до 3 знаков после запятой.

Пример1:\
inp:\
    arr1=np.asarray([1,2,3])\
    arr2=np.asarray([2,3,42])\
out: [39.025]

Пример2:\
inp:
    arr1 = np.array([[1, 2], [3, 4], [5, 6]])\
    arr2 = np.array([[2, 3], [4, 5], [6, 7]])\
out: [1.41421356, 1.41421356, 1.41421356]

IV. Дан массив длины N, вывести массив длины N-1

In [38]:
def euclidean_distance(arr1: np.ndarray, arr2: np.ndarray) -> np.ndarray | list | tuple: pass

**Задачки на программирование**

I. Дан список чисел, найти два максимальных числа

Пример:\
inp: [1,2,4,4,2,-1]\
out: [2,4]

II. Дан список чисел, найти сколько элементов списка строго больше обоих своих соседей

Пример1:\
inp: [1,2,3,4,5]\
out: 0

Пример2:
inp: [1,42,3,42,5]\
out: 2

III. На вход подается список чисел и какое-то число, найдите элемент массива, максимально близкий к этому числу.

Пример1:\
inp: data=[1,2,3,4,5], k=3\
out: 3

Пример2:\
inp: data=[1,2,3,4,5], k=100\
out: 5