### Numpy Quick Start
* https://numpy.org/doc/stable/user/quickstart.html

In [2]:
import numpy as np
import pandas as pd

In [3]:
# Установка начального значения генератора случайных чисел
np.random.seed(123)

In [4]:
# create a vector with intergers from 1 to 100
population = np.arange(1, 101)

In [4]:
# generate a random sample of a size 10 from the population with replacement

sample = np.random.choice(population, size=10, replace=True)

sample

array([67, 93, 99, 18, 84, 58, 87, 98, 97, 48])

In [8]:
# сделали вектор в одну строку, а теперь его надо отрешейпить

sample_re = sample.reshape(2, 5)
sample_re

array([[67, 93, 99, 18, 84],
       [58, 87, 98, 97, 48]])

#### Что такое "seed"?

##### "Seed" (или "начальное значение") — это число, которое используется для инициализации генератора случайных чисел. Оно определяет начальное состояние генератора, что позволяет ему создавать последовательность случайных чисел, которую можно воспроизвести.

##### Для чего используется `np.random.seed(123)`?

Эта строка устанавливает начальное значение генератора случайных чисел в NumPy на 123. Это обеспечивает, что каждый раз при выполнении кода с этим значением "seed" генератор будет создавать одну и ту же последовательность случайных чисел.

Установка "seed" важна, когда вы хотите, чтобы результаты генерации случайных чисел были воспроизводимы. Например, если вы делаете эксперимент или тест, который требует случайных данных, установка "seed" гарантирует, что результаты будут одинаковыми при каждом запуске кода с этим значением.

In [5]:
random_numbers = np.random.rand(5)
random_numbers

array([0.39211752, 0.34317802, 0.72904971, 0.43857224, 0.0596779 ])

In [9]:
sample_re.shape

(2, 5)

In [10]:
sample_re.ndim

2

In [None]:
# WRONG
# a = np.array(1, 2, 3, 4)  # WRONG

# Функция np.array() ожидает либо один аргумент (например, список, кортеж и т. д.), который будет преобразован в массив NumPy, либо два аргумента (например, массив и dtype).
#
# Один аргумент: массив или последовательность данных, которую вы хотите преобразовать в массив NumPy.
# Два аргумента: массив или последовательность данных и опционально dtype (тип данных).
# В данном случае вы передали четыре позиционных аргумента (1, 2, 3, 4), что не соответствует ожидаемым аргументам функции.

# CORRECT

a = np.array([1, 2, 3, 4])  # RIGHT
# Правильное использование: np.array() принимает один аргумент — список или другую последовательность данных, которую вы хотите преобразовать в массив NumPy.
# Почему работает: Вы передали один аргумент, который является списком [1, 2, 3, 4]. Этот список правильно преобразуется в массив NumPy.

In [11]:
b = np.array([(1, 2, 3), (5, 6, 7)])
b

array([[1, 2, 3],
       [5, 6, 7]])

In [12]:
c = np.array([[1, 3], [3, 6]], dtype=complex)
c

array([[1.+0.j, 3.+0.j],
       [3.+0.j, 6.+0.j]])

In [13]:
d = np.array([[1, 4], [3, 6], [8, 7]], dtype=float)
d

array([[1., 4.],
       [3., 6.],
       [8., 7.]])

In [18]:
np.zeros((3, 4), dtype=complex)

# (3, 5) — кортеж, указывающий размер массива. Здесь это двумерный массив с двумя "слоями", каждый из которых имеет размер 3 x 4.

array([[0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j],
       [0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j]])

In [19]:
e = np.ones((3, 5, 6), dtype=float)
e
# (3, 5, 6) — кортеж, указывающий размер массива. Здесь это трёхмерный массив с 3 "слоями", каждый из которых имеет размер 5 x 6.

array([[[1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.]],

       [[1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.]],

       [[1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.]]])

In [21]:
# понять массив
e.shape

(3, 5, 6)

In [22]:
e.dtype
e.dtype

dtype('float64')

In [30]:
data = np.array([2, 4, 6, 8])
data

array([2, 4, 6, 8])

In [31]:
data[1:5]


array([4, 6, 8])

In [34]:
ones = np.ones(4)
data - ones

array([1., 3., 5., 7.])

In [35]:
l = [2, 8, 10, 18, 40, 22]
l

[2, 8, 10, 18, 40, 22]

In [40]:
np.median(l)

14.0

In [42]:
# Creating the data as a dictionary
# Изучите таблицу ниже. По данным таблицы вычислите среднее значение столбца Item_Total только для тех строк, для которых Quantity > 20.
data = {
    'Product_ID': ['21499', '22458', '22898', '22303', '22302', '22961', '22386', '85099B', '22862', '22896',
                   '22667', '22379', '20682', '20718', '21498', '22808', '85123A', '22062', '22644', '22508'],
    'Quantity': [25, 8, 8, 6, 6, 12, 10, 10, 4, 6, 6, 5, 6, 10, 25, 12, 12, 24, 60, 16],
    'Item_Total': [10.5, 20.4, 15.6, 15.3, 15.3, 17.4, 19.5, 19.5, 17, 15.3, 17.7, 10.5, 19.5, 12.5, 10.5, 35.4,
                   35.4, 70.8, 87, 54.24]
}
data

{'Product_ID': ['21499',
  '22458',
  '22898',
  '22303',
  '22302',
  '22961',
  '22386',
  '85099B',
  '22862',
  '22896',
  '22667',
  '22379',
  '20682',
  '20718',
  '21498',
  '22808',
  '85123A',
  '22062',
  '22644',
  '22508'],
 'Quantity': [25,
  8,
  8,
  6,
  6,
  12,
  10,
  10,
  4,
  6,
  6,
  5,
  6,
  10,
  25,
  12,
  12,
  24,
  60,
  16],
 'Item_Total': [10.5,
  20.4,
  15.6,
  15.3,
  15.3,
  17.4,
  19.5,
  19.5,
  17,
  15.3,
  17.7,
  10.5,
  19.5,
  12.5,
  10.5,
  35.4,
  35.4,
  70.8,
  87,
  54.24]}

In [45]:
# Creating the DataFrame
df = pd.DataFrame(data)

# Displaying the DataFrame
print(df)

   Product_ID  Quantity  Item_Total
0       21499        25       10.50
1       22458         8       20.40
2       22898         8       15.60
3       22303         6       15.30
4       22302         6       15.30
5       22961        12       17.40
6       22386        10       19.50
7      85099B        10       19.50
8       22862         4       17.00
9       22896         6       15.30
10      22667         6       17.70
11      22379         5       10.50
12      20682         6       19.50
13      20718        10       12.50
14      21498        25       10.50
15      22808        12       35.40
16     85123A        12       35.40
17      22062        24       70.80
18      22644        60       87.00
19      22508        16       54.24


In [61]:
list_s = []

# Используем zip для объединения столбцов Quantity и Item_Total в пары
for quantity, item_total in zip(df['Quantity'], df['Item_Total']):
    if quantity > 20:  # Проверяем, если количество больше 20
        list_s.append(item_total) # Если да, добавляем соответствующее Item_Total в список

print(list_s)

# Объяснение:

# zip(df['Quantity'], df['Item_Total']): Мы используем zip, чтобы объединить соответствующие значения из столбцов Quantity и Item_Total в пары. Это позволяет проверять каждую пару значений.
# if quantity > 20:: Условие теперь проверяется для каждого значения в столбце Quantity.
# list_s.append(item_total): Если условие выполнено (т.е. Quantity > 20), соответствующее значение Item_Total добавляется в список list_s.

The median value of Item_Total for quantities greater than 20 is: 40.65
[10.5, 10.5, 70.8, 87.0]


In [62]:
# Вычисляем медиану списка
median_value = pd.Series(list_s).median()
print(f"The median value of Item_Total for quantities greater than 20 is: {median_value}")

The median value of Item_Total for quantities greater than 20 is: 40.65


In [65]:
# Вычисляем медиану списка
mean_value = pd.Series(list_s).mean()
print(f"The median value of Item_Total for quantities greater than 20 is: {mean_value}")

The median value of Item_Total for quantities greater than 20 is: 44.7


In [56]:
# Фильтрация строк, где Quantity > 20
filtered_df = df[df['Quantity'] > 20]

In [63]:
df['Quantity'] > 20
#
# df['Quantity'] > 20: Эта часть кода создает булевскую маску (логический массив), где для каждой строки DataFrame df проверяется условие: является ли значение в столбце Quantity больше 20. Результатом будет серия True и False, где True соответствует строкам, которые удовлетворяют условию (т.е. где Quantity > 20), а False — тем, которые не удовлетворяют.

# Добавление df[] к булевой маске нужно для того, чтобы отфильтровать строки исходного DataFrame на основе условий, заданных в этой маске. Давайте рассмотрим, почему это необходимо и что происходит в процессе.

0      True
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14     True
15    False
16    False
17     True
18     True
19    False
Name: Quantity, dtype: bool

Когда мы пишем df[булева маска], мы используем синтаксис индексации DataFrame для фильтрации строк. Внутри квадратных скобок [] находится наша булева маска. Это приводит к следующему:

df[] — это способ доступа к строкам DataFrame, где [] внутри содержит либо индексы строк, либо булевы значения (True/False), указывающие, какие строки следует выбрать.

In [57]:
# Вычисление среднего значения столбца Item_Total для отфильтрованных строк
mean_item_total = filtered_df['Item_Total'].mean()

print(f"Среднее значение столбца Item_Total для строк, где Quantity > 20: {mean_item_total}")

Среднее значение столбца Item_Total для строк, где Quantity > 20: 44.7


In [64]:
data = {
    'Product_ID': ['21499', '22458', '22898', '22303', '22644'],
    'Quantity': [25, 8, 8, 6, 60],
    'Item_Total': [10.5, 20.4, 15.6, 15.3, 87.0]
}

df = pd.DataFrame(data)

# Создаем булеву маску
mask = df['Quantity'] > 20

# Применяем булеву маску для фильтрации строк
filtered_df = df[mask]

print(filtered_df)


  Product_ID  Quantity  Item_Total
0      21499        25        10.5
4      22644        60        87.0


#### Распределение бимодальное - так называются распределения с двумя локальными максимумами; суммарная вероятность принять значения 4-5 больше 0.2, тогда как суммарная вероятность принять значения 10-11 около 0.1

In [None]:
sorted([42, 123, 0]) # does not change the list
# sorted([42, 123, 0]): Эта функция создает новый отсортированный список и возвращает его, не изменяя оригинальный список.

[42, 123, 0].sort() # does change the list
# [42, 123, 0].sort(): Этот метод сортирует список на месте и не возвращает новый список, а изменяет существующий.

In [1]:
result = list(map(lambda x, y: x + y, [1, 2, 3], [4, 5, 6]))
print(result)

[5, 7, 9]


В этом коде происходит следующее:

* `map` функция: map применяется к двум спискам [1, 2, 3] и [4, 5, 6]. Она берет каждый элемент из обоих списков поочередно и применяет к ним функцию, указанную в lambda.

* `lambda` функция: lambda x, y: x + y — это анонимная функция, которая принимает два аргумента x и y и возвращает их сумму (x + y).

* `list(map(...))`: Результат работы map превращается в список с помощью функции list().

Что происходит шаг за шагом:

* При первом вызове lambda:

x = 1, y = 4, результат: 1 + 4 = 5

* При втором вызове lambda:
x = 2, y = 5, результат: 2 + 5 = 7

* При третьем вызове lambda:
x = 3, y = 6, результат: 3 + 6 = 9

**Результат:** Код складывает соответствующие элементы из двух списков и создает новый список с результатами.

In [5]:
A  = np.ones((4, 3)) *3

B = np.zeros((4,3)) + 3

In [6]:
A

array([[3., 3., 3.],
       [3., 3., 3.],
       [3., 3., 3.],
       [3., 3., 3.]])

In [7]:
B

array([[3., 3., 3.],
       [3., 3., 3.],
       [3., 3., 3.],
       [3., 3., 3.]])

In [8]:
C = 2 * B + A
C

array([[9., 9., 9.],
       [9., 9., 9.],
       [9., 9., 9.],
       [9., 9., 9.]])

In [9]:
C[3,2]

9.0

In [10]:
mat = np.array([[3, 2], [6, 5], [5, 9]])
mat

array([[3, 2],
       [6, 5],
       [5, 9]])

In [11]:
mat.max(axis=0) # aggregating by col

array([6, 9])

In [13]:
mat.max(axis=1) # aggregating by rows

array([3, 6, 9])

In [14]:
arr = np.array([2, 4, 6, 7])
arr

array([2, 4, 6, 7])

### Зачем использоваться NumPy, почему нельзя просто обойтись листом

Создание списка в Python, как в примере arr = [2, 4, 6, 7], и использование библиотеки NumPy для создания массива, как в arr = np.array([2, 4, 6, 7]), имеют разные цели и функциональные возможности. Вот основные причины, почему может понадобиться использование NumPy:

Операции с массивами: В NumPy можно выполнять арифметические операции непосредственно на массивах, что значительно упрощает и ускоряет вычисления. Например, если вы хотите умножить каждый элемент массива на 2, в NumPy это можно сделать так:

`arr = np.array([2, 4, 6, 7])`
`arr * 2`

Результатом будет новый массив [4, 8, 12, 14]. В обычном списке вам пришлось бы использовать цикл или list comprehension:

`arr = [2, 4, 6, 7]`
`arr = [x * 2 for x in arr]`

**Производительность:** NumPy написан на C, что делает его операции с массивами гораздо более быстрыми и эффективными по сравнению с аналогичными операциями на обычных списках Python.

**Многомерные массивы:** NumPy поддерживает работу с многомерными массивами (матрицами), что позволяет легко выполнять сложные математические операции, такие как линейная алгебра, операции с тензорами и т.д.

**Удобство работы с данными:** NumPy предлагает множество удобных функций и методов для работы с массивами, таких как вычисление средних значений, стандартного отклонения, сортировки, и многое другое. Это делает его незаменимым инструментом для научных вычислений, обработки данных и машинного обучения.

**Сопоставление данных:** Если вы работаете с большими объемами данных (например, в Data Science), использование списков может быть неудобным и неэффективным. NumPy позволяет эффективно управлять и обрабатывать большие массивы данных с минимальными затратами памяти.

In [15]:
arr * 2

array([ 4,  8, 12, 14])

In [16]:
# n-D Array = array with one or more dimensions