<div style="text-align: right"> Марина Архипцева </div>

### Основы Python для анализа данных
**План**

- Модуль Collections
- Работа с данными в Numpy

###  Модуль [Collections](https://docs.python.org/3/library/collections.html)

#### namedtuple

`namedtuple` — это подтип кортежа, который позволяет именовать поля и получать доступ к элементам через имена полей.

In [123]:
from collections import namedtuple

# Создаём класс Point с полями x и y
Point = namedtuple('Point', 'x y')
# так же имена полей можем задавать как ['x', 'y'] или 'x, y'

# Создаём экземпляр Point
p = Point(10, 20)

# Доступ к значениям через имена
print(p.x)  # 10
print(p.y)  # 20

# Можно и через индексы, как в обычном кортеже
print(p[0])  # 10
print(p[1])  # 20

# Namedtuple неизменяемый, как и обычный кортеж
# p.x = 30  # Это вызовет ошибку

10
20
10
20


In [124]:
# Распаковка
x, y = p
print(x)
print(y)

10
20


In [125]:
import csv
from collections import namedtuple

# Определяем структуру Employee с использованием namedtuple
Employee = namedtuple('Employee', ['name', 'position', 'salary'])

def read_employees_from_csv(filename):
    ''' Читает данные из csv файла и возвращает список сотрудников'''
    employees = []
    with open(filename, mode='r', newline='', encoding='utf-8') as file:
        reader = csv.reader(file)
        next(reader)  # Пропускаем заголовок
        for row in reader:
            # Преобразуем строку зарплаты в целое число и создаем namedtuple Employee
            name, position, salary = row
            employees.append(Employee(name, position, int(salary)))
    return employees

def average_salary(employees):
    ''' Возвращает среднюю зарплату сотрудников'''
    total_salary = sum(emp.salary for emp in employees)
    return total_salary / len(employees)

def find_by_position(employees, position):
    ''' Возвращает сотрудников с указанной должностью'''
    return [emp for emp in employees if emp.position == position]

In [126]:
employees = read_employees_from_csv('emp.csv')
employees

[Employee(name='Alice', position='Manager', salary=80000),
 Employee(name='Bob', position='Developer', salary=60000),
 Employee(name='Charlie', position='Designer', salary=55000),
 Employee(name='David', position='Developer', salary=65000),
 Employee(name='Eve', position='Manager', salary=90000)]

In [127]:
# Cписок всех сотрудников
print("Данные о сотрудниках:")
for emp in employees:
    print(f"{emp.name} -- должность: {emp.position}, оклад: {emp.salary}")

Данные о сотрудниках:
Alice -- должность: Manager, оклад: 80000
Bob -- должность: Developer, оклад: 60000
Charlie -- должность: Designer, оклад: 55000
David -- должность: Developer, оклад: 65000
Eve -- должность: Manager, оклад: 90000


In [128]:
# Cредняя зарплаты
avg_salary = average_salary(employees)
print(f"Средняя зарплата: {avg_salary:.2f}")

Средняя зарплата: 70000.00


In [129]:
# Поиск всех менеджеров
managers = find_by_position(employees, 'Manager')
print("Список менеджеров:")
for manager in managers:
    print(f"{manager.name}, оклад: {manager.salary}")

Список менеджеров:
Alice, оклад: 80000
Eve, оклад: 90000


In [130]:
managers

[Employee(name='Alice', position='Manager', salary=80000),
 Employee(name='Eve', position='Manager', salary=90000)]

#### Counter

`Counter` — это класс для подсчёта элементов, который автоматически создаёт словарь, где ключи — это объекты, а значения — их количество.

In [131]:
from collections import Counter
import re

blok = '''
Всё это было, было, было,
Свершился дней круговорот.
Какая ложь, какая сила
Тебя, прошедшее, вернет?
'''
my_dict = Counter(re.split(' |\n', re.sub(r'[^\w\s]', '', blok.lower()).strip('\n')))
my_dict

Counter({'было': 3,
         'какая': 2,
         'всё': 1,
         'это': 1,
         'свершился': 1,
         'дней': 1,
         'круговорот': 1,
         'ложь': 1,
         'сила': 1,
         'тебя': 1,
         'прошедшее': 1,
         'вернет': 1})

In [132]:
my_dict.most_common(3)

[('было', 3), ('какая', 2), ('всё', 1)]

In [133]:
# Cписок всех элементов
list(my_dict.elements())

['всё',
 'это',
 'было',
 'было',
 'было',
 'свершился',
 'дней',
 'круговорот',
 'какая',
 'какая',
 'ложь',
 'сила',
 'тебя',
 'прошедшее',
 'вернет']

In [134]:
import csv
from collections import Counter

def read_event_data_from_csv(filename):
    ''' Функция для чтения данных о событиях из CSV файла'''
    with open(filename, mode='r', newline='', encoding='utf-8') as file:
        reader = csv.DictReader(file)
        return Counter((row['тип'] for row in reader))

In [135]:
# Чтение данных о проданных билетах
ticket_sales_1 = read_event_data_from_csv('продажи_1.csv')
ticket_sales_2 = read_event_data_from_csv('продажи_2.csv')

In [136]:
ticket_sales_1

Counter({'концерт': 303, 'театр': 253, 'выставка': 79})

In [137]:
ticket_sales_2

Counter({'концерт': 317, 'театр': 247, 'выставка': 71})

In [138]:
# Суммируем продажи из обоих файлов
total_ticket_sales = ticket_sales_1 + ticket_sales_2

print("Общее количество проданных билетов по типам мероприятий:")
print(total_ticket_sales)
print("Общее количество проданных билетов:")
# действуем как с обычным словарем
print(sum(total_ticket_sales.values()))

Общее количество проданных билетов по типам мероприятий:
Counter({'концерт': 620, 'театр': 500, 'выставка': 150})
Общее количество проданных билетов:
1270


In [139]:
# Чтение данных о возвратах
ticket_returns = read_event_data_from_csv('возвраты.csv')
ticket_returns

Counter({'театр': 58, 'концерт': 52, 'выставка': 17})

In [140]:
# Корректируем общее количество проданных билетов с учетом возвратов
adjusted_sales = total_ticket_sales - ticket_returns

print("Количество проданных билетов после вычитания возвратов:")
print(adjusted_sales)
print("Общее количество проданных билетов:")
print(sum(adjusted_sales.values()))

Количество проданных билетов после вычитания возвратов:
Counter({'концерт': 568, 'театр': 442, 'выставка': 133})
Общее количество проданных билетов:
1143


In [141]:
ticket_returns['выставка'] = 151
ticket_returns

Counter({'выставка': 151, 'театр': 58, 'концерт': 52})

In [142]:
total_ticket_sales - ticket_returns

Counter({'концерт': 568, 'театр': 442})

In [143]:
# Вычитание с помощью метода subtract(), чтобы сохранить отрицательные значения
# subtract модифицирует исходный счётчик
adjusted_sales = total_ticket_sales.copy()  # Создаем копию, чтобы не менять оригинальные данные
adjusted_sales.subtract(ticket_returns)

print("Количество проданных билетов после вычитания возвратов (с отрицательными значениями):")
print(adjusted_sales)

Количество проданных билетов после вычитания возвратов (с отрицательными значениями):
Counter({'концерт': 568, 'театр': 442, 'выставка': -1})


#### defaultdict

`defaultdict` — это подкласс словаря, который позволяет автоматически создавать значения для несуществующих ключей, если к ним обращаются.

Главное преимущество defaultdict в том, что он упрощает работу с отсутствующими ключами и автоматически задает начальные значения, избегая ошибок KeyError.

In [144]:
from collections import defaultdict

d = defaultdict(list)

d['a'].append(1)
d['a'].append(2)
d['b'].append(3)

print(d)

defaultdict(<class 'list'>, {'a': [1, 2], 'b': [3]})


In [145]:
# Ключа 'c' ещё нет, но при обращении он создастся автоматически
print(d['c'])
d

[]


defaultdict(list, {'a': [1, 2], 'b': [3], 'c': []})

In [146]:
# Значение по умолчанию - 0 (целое число)
int_dict = defaultdict(int)

int_dict['a'] += 1

print(int_dict['b'])

0


In [147]:
print(int_dict)

defaultdict(<class 'int'>, {'a': 1, 'b': 0})


In [148]:
# Группируем студентов по курсам
students = [('Alice', 'Python'), ('Bob', 'SQL'), ('Charlie', 'Python'), ('David', 'SQL')]

# Используем defaultdict для группировки
courses = defaultdict(list)
for student, course in students:
    courses[course].append(student)

courses

defaultdict(list, {'Python': ['Alice', 'Charlie'], 'SQL': ['Bob', 'David']})

In [149]:
courses['Data analysis']

[]

In [150]:
courses

defaultdict(list,
            {'Python': ['Alice', 'Charlie'],
             'SQL': ['Bob', 'David'],
             'Data analysis': []})

При создании defaultdict указывают фабрику (функцию), которая будет генерировать значения по умолчанию для несуществующих ключей. 

В зависимости от того, какая функция передана в качестве фабрики, значения по умолчанию будут разными.

- int: Значение по умолчанию — 0. Используется для подсчета элементов.
- list: Значение по умолчанию — пустой список. Удобен для хранения нескольких значений по одному ключу.
- set: Значение по умолчанию — пустое множество. Полезен для хранения уникальных значений.
- str: Значение по умолчанию — пустая строка. Применяется для работы со строковыми данными.
- float: Значение по умолчанию — 0.0. Полезен для работы с числами с плавающей точкой.
- Пользовательская функция: Можно указать функцию для генерации произвольного значения по умолчанию.

In [151]:
from collections import defaultdict

# Фабрика, возвращающая значение по умолчанию "неизвестно"
def default_value():
    return "неизвестно"

custom_default_dict = defaultdict(default_value)

print(custom_default_dict['name'])

неизвестно


In [152]:
custom_default_dict

defaultdict(<function __main__.default_value()>, {'name': 'неизвестно'})

In [153]:
custom_default_dict = defaultdict(lambda : "неизвестно")

custom_default_dict['name']
custom_default_dict

defaultdict(<function __main__.<lambda>()>, {'name': 'неизвестно'})

#### OrderedDict

`OrderedDict` — это словарь, который запоминает порядок добавления элементов. 

** В Python 3.7+ встроенные словари уже сохраняют порядок.

In [154]:
from collections import OrderedDict

od = OrderedDict()
od['one'] = 1
od['two'] = 2
od['three'] = 3

print(od)

OrderedDict({'one': 1, 'two': 2, 'three': 3})


In [155]:
# Перемещение элемента в конец
od.move_to_end('one')
print(od)

OrderedDict({'two': 2, 'three': 3, 'one': 1})


In [156]:
# Реализация LRU-кэша (least recently used)
cache = OrderedDict()

def add_to_cache(key, value):
    if key in cache:
        cache.move_to_end(key)  # Обновляем позицию элемента
    cache[key] = value
    if len(cache) > 3:  # Ограничение на размер кэша
        cache.popitem(last=False)  # Удаляем первый (наименее используемый) элемент

add_to_cache('a', 1)
add_to_cache('b', 2)
add_to_cache('c', 3)
print(cache)

OrderedDict({'a': 1, 'b': 2, 'c': 3})


In [157]:
add_to_cache('a', 1)
print(cache)

OrderedDict({'b': 2, 'c': 3, 'a': 1})


In [158]:
add_to_cache('d', 4)
print(cache)

OrderedDict({'c': 3, 'a': 1, 'd': 4})


### Стек (Stack)
- **Описание**: Структура данных LIFO (Last In, First Out), где последний добавленный элемент извлекается первым.
- **Операции в Python**:
  - **`append()`**: Добавление элемента в стек.
  - **`pop()`**: Удаление и возврат последнего элемента.
- **Пример использования**: 
  - **Отмена действий** (Undo) в приложениях.
  - **Обратный обход данных**, например, разворачивание строки.

### Очередь (Queue)
- **Описание**: Структура данных FIFO (First In, First Out), где первый добавленный элемент извлекается первым.
- **Операции в Python**:
  - **`append()`**: Добавление элемента в конец очереди.
  - **`popleft()`**: Удаление и возврат элемента с начала очереди (если используется `deque`).
- **Пример использования**:
  - **Очередь задач** для обработки по порядку поступления.
  - **Обработка клиентов** в очереди обслуживания.

### Дек (Deque)
- **Описание**: Двусторонняя очередь, поддерживающая добавление и удаление элементов с обоих концов.
- **Операции в Python**:
  - **`append()`**: Добавление элемента в конец.
  - **`appendleft()`**: Добавление элемента в начало.
  - **`pop()`**: Удаление элемента с конца.
  - **`popleft()`**: Удаление элемента с начала.
- **Пример использования**:
  - **Кольцевой буфер** для хранения фиксированного количества последних элементов.
  - **Реализация очередей с приоритетом** или поддержка LIFO/FIFO очередей в зависимости от задачи.


#### deque

`deque (double-ended queue)` —  это двусторонняя очередь, которая позволяет добавлять и удалять элементы с обоих концов с высокой производительностью (O(1) для добавления и удаления).

In [159]:
from collections import deque

print('Создание deque')
d = deque([1, 2, 3])
print(d, end='\n\n')

print('Добавление элемента справа')
d.append(4)
print(d, end='\n\n')

print('Добавление элемента слева')
d.appendleft(0)
print(d, end='\n\n')

print('Удаление элемента справа')
d.pop()
print(d, end='\n\n')

print('Удаление элемента слева')
d.popleft()
print(d, end='\n\n')

Создание deque
deque([1, 2, 3])

Добавление элемента справа
deque([1, 2, 3, 4])

Добавление элемента слева
deque([0, 1, 2, 3, 4])

Удаление элемента справа
deque([0, 1, 2, 3])

Удаление элемента слева
deque([1, 2, 3])



In [160]:
# Очередь задач
tasks = deque()

# Добавляем задачи
tasks.append("Task 1")
tasks.append("Task 2")
tasks.append("Task 3")

# Работаем с задачами
while tasks:
    current_task = tasks.popleft()  # Берём задачу с начала очереди
    print(f"Выполняется: {current_task}")

Выполняется: Task 1
Выполняется: Task 2
Выполняется: Task 3


Параметр maxlen ограничивает максимальный размер очереди. Если размер очереди достигает указанного предела, при добавлении нового элемента происходит автоматическое удаление старейшего элемента (с противоположного конца).

Это полезно в ситуациях, когда нужно хранить ограниченное количество данных (например, для реализации кэша или для анализа скользящего окна данных).

In [161]:
# Кольцевой буфер — это структура данных, которая сохраняет только последние N элементов, удаляя самые старые при добавлении новых.

# Создаем deque с максимальной длиной 3
buffer = deque(maxlen=3)

# Добавляем элементы в deque
buffer.append(1)
buffer.append(2)
buffer.append(3)

print(buffer)

deque([1, 2, 3], maxlen=3)


In [162]:
# Добавляем новый элемент, первый элемент автоматически удаляется
buffer.append(4)
print(buffer)

# Добавляем еще один элемент
buffer.append(5)
print(buffer)

deque([2, 3, 4], maxlen=3)
deque([3, 4, 5], maxlen=3)


In [163]:
# Cкользящее окна
# Допустим, у нас есть поток чисел, и мы хотим отслеживать последние N чисел для вычисления среднего значения

# Создаем deque с максимальной длиной 5
window = deque(maxlen=5)

# Поток данных
data = [10, 20, 30, 40, 50, 60, 70]

# Проходим по данным и добавляем их в deque
for num in data:
    window.append(num)
    print(f"Текущее окно: {list(window)}")
    print(f"Среднее значение: {sum(window)/len(window):.2f}\n")

Текущее окно: [10]
Среднее значение: 10.00

Текущее окно: [10, 20]
Среднее значение: 15.00

Текущее окно: [10, 20, 30]
Среднее значение: 20.00

Текущее окно: [10, 20, 30, 40]
Среднее значение: 25.00

Текущее окно: [10, 20, 30, 40, 50]
Среднее значение: 30.00

Текущее окно: [20, 30, 40, 50, 60]
Среднее значение: 40.00

Текущее окно: [30, 40, 50, 60, 70]
Среднее значение: 50.00



In [164]:
# Кэш с фиксированным числом последних запросов
# Как только кэш заполнен, самые старые запросы будут автоматически удаляться

cache = deque(maxlen=3)

# Симуляция запросов
cache.append('request_1')
cache.append('request_2')
cache.append('request_3')

print(cache)

# Новый запрос — старейший запрос автоматически удаляется
cache.append('request_4')
print(cache)

# Добавляем еще один запрос
cache.append('request_5')
print(cache)

deque(['request_1', 'request_2', 'request_3'], maxlen=3)
deque(['request_2', 'request_3', 'request_4'], maxlen=3)
deque(['request_3', 'request_4', 'request_5'], maxlen=3)


In [165]:
dq = deque([1, 2, 3])
dq

deque([1, 2, 3])

In [166]:
# Добавить в конец
dq.append(4)
dq

deque([1, 2, 3, 4])

In [167]:
# Добавить в начало
dq.appendleft(0)
dq

deque([0, 1, 2, 3, 4])

In [168]:
# Добавить несколько элементов в конец
dq.extend([5, 6])
dq

deque([0, 1, 2, 3, 4, 5, 6])

In [169]:
# Добавить несколько элементов в начало (инвертированный порядок)
dq.extendleft([-2, -1])
dq

deque([-1, -2, 0, 1, 2, 3, 4, 5, 6])

In [170]:
# Удалить и вернуть элемент из конца
dq.pop()
dq

deque([-1, -2, 0, 1, 2, 3, 4, 5])

In [171]:
# Удалить и вернуть элемент из начала
dq.popleft()
dq

deque([-2, 0, 1, 2, 3, 4, 5])

In [172]:
# Сдвинуть элементы вправо
dq.rotate(1)
dq

deque([5, -2, 0, 1, 2, 3, 4])

In [173]:
# Удалить первое вхождение элемента 2
dq.remove(2)
dq

deque([5, -2, 0, 1, 3, 4])

In [174]:
# Подсчитать количество вхождений элемента 3
count_3 = dq.count(3)    
count_3

1

In [175]:
# Очистить deque
dq.clear()
dq

deque([])

### Работа с данными в [Numpy](https://numpy.org/doc/stable/user/absolute_beginners.html)

[Дополнительный материал](https://quantum-ods.github.io/qmlcourse/book/linalg/ru/vectors.html)

#### Типы данных

In [176]:
import numpy as np

In [177]:
print(np.__version__)

2.1.1


In [178]:
np.sctypeDict

{'bool': numpy.bool,
 'float16': numpy.float16,
 'float32': numpy.float32,
 'float64': numpy.float64,
 'longdouble': numpy.longdouble,
 'complex64': numpy.complex64,
 'complex128': numpy.complex128,
 'clongdouble': numpy.clongdouble,
 'bytes_': numpy.bytes_,
 'str_': numpy.str_,
 'void': numpy.void,
 'object_': numpy.object_,
 'datetime64': numpy.datetime64,
 'timedelta64': numpy.timedelta64,
 'int8': numpy.int8,
 'byte': numpy.int8,
 'uint8': numpy.uint8,
 'ubyte': numpy.uint8,
 'int16': numpy.int16,
 'short': numpy.int16,
 'uint16': numpy.uint16,
 'ushort': numpy.uint16,
 'int32': numpy.int32,
 'intc': numpy.int32,
 'uint32': numpy.uint32,
 'uintc': numpy.uint32,
 'int64': numpy.int64,
 'long': numpy.int64,
 'uint64': numpy.uint64,
 'ulong': numpy.uint64,
 'longlong': numpy.longlong,
 'ulonglong': numpy.ulonglong,
 'intp': numpy.int64,
 'uintp': numpy.uint64,
 'double': numpy.float64,
 'cdouble': numpy.complex128,
 'single': numpy.float32,
 'csingle': numpy.complex64,
 'half': numpy.

#### Типы данных в NumPy

##### 1. Целочисленные типы
- **`int8`**: 8-битное целое число со знаком, диапазон от -128 до 127.
- **`int16`**: 16-битное целое число со знаком, диапазон от -32,768 до 32,767.
- **`int32`**: 32-битное целое число со знаком, диапазон от -2,147,483,648 до 2,147,483,647.
- **`int64`**: 64-битное целое число со знаком, диапазон от -9,223,372,036,854,775,808 до 9,223,372,036,854,775,807.
- **`int_`**: Целое число, зависящее от платформы (обычно `int64` на 64-битных системах, `int32` на 32-битных).

##### Беззнаковые целые числа
- **`uint8`**: 8-битное беззнаковое целое число, диапазон от 0 до 255.
- **`uint16`**: 16-битное беззнаковое целое число, диапазон от 0 до 65,535.
- **`uint32`**: 32-битное беззнаковое целое число, диапазон от 0 до 4,294,967,295.
- **`uint64`**: 64-битное беззнаковое целое число, диапазон от 0 до 18,446,744,073,709,551,615.

In [179]:
# информации о диапазоне значений
np.iinfo(np.uint)

iinfo(min=0, max=18446744073709551615, dtype=uint64)

In [180]:
a = np.int16(146)
np.iinfo(a)

iinfo(min=-32768, max=32767, dtype=int16)

In [181]:
a = 146
np.iinfo(a)
# преобразование в тип по умолчанию - int64

iinfo(min=-9223372036854775808, max=9223372036854775807, dtype=int64)

In [182]:
a = np.int8(100)
a += 27
print(a)
print(type(a))

127
<class 'numpy.int8'>


In [183]:
a = np.int8(100)
b = a + 28
print(b)
print(type(b))

-128
<class 'numpy.int8'>


  b = a + 28


##### 2. Типы с плавающей запятой
- **`float16`**: 16-битное число с плавающей запятой, диапазон от -6.55e4 до 6.55e4, точность около 3 знаков после запятой.
- **`float32`**: 32-битное число с плавающей запятой, диапазон от -3.4e38 до 3.4e38, точность около 7 знаков.
- **`float64`**: 64-битное число с плавающей запятой, диапазон от -1.7e308 до 1.7e308, точность около 15 знаков.

In [184]:
np.finfo(np.half)

finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)

In [185]:
# np.finfo(np.float_)

In [186]:
# доступность зависит от платформы
np.finfo(np.float128)

finfo(resolution=1e-18, min=-1.189731495357231765e+4932, max=1.189731495357231765e+4932, dtype=float128)

In [187]:
n = 22/7
print(np.float16(n))
print(np.float32(n))
print(np.float64(n))

3.143
3.142857
3.142857142857143


##### 3. Комплексные числа
- **`complex64`**: Комплексное число, где реальная и мнимая части представлены как `float32`.
- **`complex128`**: Комплексное число, где реальная и мнимая части представлены как `float64`.

##### 4. Логический тип
- **`bool_`**: Логическое значение, которое может быть `True` или `False`. Тип bool не является подклассом типа int_ (bool даже не является числовым типом). Это отличается от стандартной реализации bool в Python как подкласса int.

In [188]:
print(np.bool_(1))

True


##### 5. Строковые типы
- **`str_`**: Строка Unicode фиксированной длины.
- **`bytes_`**: Байтовая строка фиксированной длины, аналог типа `bytes` в Python.

##### 6. Типы даты и времени
- **`datetime64`**: Представляет дату и время с поддержкой различных уровней точности (от года до наносекунды). Пример: `np.datetime64('2024-01-01')`.
- **`timedelta64`**: Представляет разницу во времени между двумя датами или временными значениями с такой же точностью, как у `datetime64`. Пример: `np.timedelta64(10, 'D')` (10 дней).

In [189]:
date = np.datetime64('2024-01-01')
print("Дата:", date)

new_date = date + np.timedelta64(10, 'D')
print("Новая дата после 10 дней:", new_date)

delta = date - new_date
print("Разница между датами:", delta)

Дата: 2024-01-01
Новая дата после 10 дней: 2024-01-11
Разница между датами: -10 days


##### 7. Тип объектов
- **`object_`**: Может хранить произвольные объекты Python.

##### 8. Специальные типы
- **`void`**: Тип данных для произвольной структуры, может использоваться для хранения необработанных данных или структур.

#### Массивы

Список в Python это такая коллекция из элементов, которая может включать элементы различных типов данные.

Массив – это коллекция элементов из одного типа данных. Для этих элементов выделяются смежные, прилегающие друг к другу ячейки памяти, что позволяет быстро добавлять, удалять и получать данные.

Массив в NumPy

Массив (`numpy.array`) — это основная структура данных в библиотеке NumPy, предназначенная для эффективного хранения и обработки числовых данных.

1. **Однородность**: Все элементы массива имеют один тип данных.
2. **Векторизация**: Операции применяются ко всем элементам массива одновременно.
3. **Размерность**: Массив может быть многомерным (векторы, матрицы и т.д.).
4. **Производительность**: Массивы быстрее и более эффективны по памяти по сравнению со списками Python.

In [190]:
import numpy as np
arr = np.array([1, 2, 3, 4])
print(arr)

[1 2 3 4]


In [191]:
type(arr)
# n-dimensional array, n-мерный массив

numpy.ndarray

Различия между массивами и списками

1. **Тип данных**:
   - **Массивы** (`numpy.array`): Все элементы имеют один и тот же тип, что повышает эффективность работы с памятью.
   - **Списки** (`list`): Могут содержать элементы разных типов, что делает их более гибкими.

2. **Операции**:
   - **Массивы**: Поддерживают векторные операции (например, арифметические действия сразу над всем массивом).
   - **Списки**: Требуют циклов для выполнения аналогичных операций.

3. **Производительность**:
   - **Массивы**: Быстрее при больших объемах данных.
   - **Списки**: Менее эффективны в числовых вычислениях.


In [192]:
# Двумерный массив (матрица)
arr2 = np.array([[1, 2], [3, 4]])
print(arr2)

[[1 2]
 [3 4]]


In [193]:
# Проверка размерности массива
print(arr2.shape)  
print(arr2.ndim) # количество измерений
print(arr2.size) # количество элементов

(2, 2)
2
4


In [194]:
# Явное указание типа
arr3 = np.array([1, 2, 3], dtype=np.float32)
print(arr3)

[1. 2. 3.]


In [195]:
# свойство dtype показывает тип данных в массиве
arr.dtype

dtype('int64')

In [196]:
arr3.dtype

dtype('float32')

In [197]:
# Векторные операции
arr4 = np.array([1, 2, 3])
arr5 = np.array([4, 5, 6])

# Сложение
result = arr4 + arr5
result

array([5, 7, 9])

In [198]:
# Умножение вектора на число
arr6 = arr5 * 10
arr6

array([40, 50, 60])

In [199]:
# Вычитание
arr4 - arr5

array([-3, -3, -3])

In [200]:
arr = np.array([1, 2, 3, 4])
result = np.mean(arr)
result

np.float64(2.5)

In [201]:
result = np.sum(arr)
result

np.int64(10)

In [202]:
arr = np.array([1, 4, 9, 16])
result = np.sqrt(arr)
result

array([1., 2., 3., 4.])

In [203]:
# Скалярное произведение
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])
result = np.dot(v1, v2)
result

np.int64(32)

In [204]:
# Поэлементное умножение
result = np.multiply(v1, v2)
result

array([ 4, 10, 18])

In [205]:
# Умножение матриц
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
result = np.matmul(A, B)
result

array([[19, 22],
       [43, 50]])

In [206]:
# Операции по осям
arr7 = np.array([[1, 2], [3, 4]])
print(arr7, end='\n\n')

# Сумма по строкам (ось 1)
print(np.sum(arr7, axis=1), end='\n\n')

# Сумма по столбцам (ось 0)
print(np.sum(arr7, axis=0))

[[1 2]
 [3 4]]

[3 7]

[4 6]


In [207]:
# Индексация
arr = np.array([1, 2, 3])
print(arr[0])

# Срезы
print(arr[1:3])

1
[2 3]


In [208]:
# Индексация и срезы для матриц
arr = np.array([[1, 2], [3, 4], [5, 6]])
arr

array([[1, 2],
       [3, 4],
       [5, 6]])

In [209]:
# прямой доступ к элементу с использованием двумерной индексации
arr[0, 1]

np.int64(2)

In [210]:
# последовательная индексация
arr[0][1]

np.int64(2)

In [211]:
# выбор строки
arr[1]

array([3, 4])

In [212]:
# выбор столбца
# : используется для выбора всех элементов вдоль оси
arr[:, 1]

array([2, 4, 6])

In [213]:
arr[0:2, :]

array([[1, 2],
       [3, 4]])

In [214]:
# Сортировка

# Одномерные массивы
arr = np.array([3, 1, 2])
sorted_arr = np.sort(arr)
sorted_arr

array([1, 2, 3])

In [215]:
arr

array([3, 1, 2])

In [216]:
arr.sort()

In [217]:
arr

array([1, 2, 3])

In [218]:
# возвращает индексы, которые отсортировали бы массив:

arr = np.array([3, 1, 2])
indices = np.argsort(arr)
indices

array([1, 2, 0])

In [219]:
# Двумерные массивы
matrix = np.array([[3, 2, 1], [6, 5, 4]])
sorted_matrix = np.sort(matrix)
sorted_matrix

array([[1, 2, 3],
       [4, 5, 6]])

In [220]:
# по столбцам
sorted_matrix_cols = np.sort(matrix, axis=0)
sorted_matrix_cols

array([[3, 2, 1],
       [6, 5, 4]])

In [221]:
# Генерация массивов

# np.arange([start, ]stop, [step, ], dtype=None)
# массив с равномерно распределёнными значениями в указанном диапазоне

np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [222]:
np.arange(1, 10)

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [223]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [224]:
np.arange(0, 1, 0.2)

array([0. , 0.2, 0.4, 0.6, 0.8])

In [225]:
np.arange(10, 0, -2)

array([10,  8,  6,  4,  2])

In [226]:
np.arange(0, 5, dtype=np.float32)

array([0., 1., 2., 3., 4.], dtype=float32)

In [227]:
# np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
# генерирует равномерно распределённые значения между двумя заданными числами

# Простое использование
arr = np.linspace(0, 1, 5)
print(arr)

# Без конечного значения
arr = np.linspace(0, 10, 5, endpoint=False)
print(arr)

#Возврат шага между элементами

arr, step = np.linspace(0, 1, 5, retstep=True)
print(arr)
print(step)

# np.linspace() лучше использовать, когда вам нужно создать массив с точным количеством элементов в заданном диапазоне

[0.   0.25 0.5  0.75 1.  ]
[0. 2. 4. 6. 8.]
[0.   0.25 0.5  0.75 1.  ]
0.25


In [228]:
# Нули
zeros = np.zeros((2, 3))
print(zeros)

# Единицы
ones = np.ones((3, 3))
print(ones)

# Диагональная единичная матрица
identity = np.eye(4)
print(identity)
# Диагональная матрица — квадратная матрица, все элементы которой, стоящие вне главной диагонали, равны нулю

[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [229]:
np.eye(3, k=1)
# параметр k задает номер диагонали

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.]])

In [230]:
np.eye(3, 2)

array([[1., 0.],
       [0., 1.],
       [0., 0.]])

In [231]:
# Изменение формы массива
arr6 = np.array([[1, 2, 3], [4, 5, 6]])
print(arr6)

[[1 2 3]
 [4 5 6]]


In [236]:
arr_reshaped = arr6.reshape(3, 2)
print(arr_reshaped)

[[1 2]
 [3 4]
 [5 6]]


In [238]:
arr6.reshape(1, 6)

array([[1, 2, 3, 4, 5, 6]])

In [239]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [240]:
reshaped_arr = arr.reshape(2, -1)  # NumPy сам вычислит вторую размерность
print(reshaped_arr)

[[0 1 2 3]
 [4 5 6 7]]


In [241]:
arr = np.arange(9).reshape(3, 3)
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [242]:
flattened_arr = arr.reshape(-1)
print(flattened_arr)

[0 1 2 3 4 5 6 7 8]


In [243]:
# Порядок 'C' по умолчанию, по строкам
arr = np.arange(6).reshape(2, 3, order='C')
arr

array([[0, 1, 2],
       [3, 4, 5]])

In [244]:
# Порядок 'F' - по столбцам
arr = np.arange(6).reshape(2, 3, order='F')
arr

array([[0, 2, 4],
       [1, 3, 5]])

In [271]:
# Транспонирование
# https://ru.wikipedia.org/wiki/Транспонированная_матрица
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)

[[1 2 3]
 [4 5 6]]


In [272]:
transposed_arr = np.transpose(arr)
transposed_arr

array([[1, 4],
       [2, 5],
       [3, 6]])

In [247]:
# Генерация случайных массивов

# Случайные числа от 0 до 1
random_arr = np.random.rand(3, 3)
print(random_arr)

[[0.92132386 0.85197096 0.18431889]
 [0.59841736 0.7516001  0.47327793]
 [0.78765713 0.99906408 0.46144708]]


In [249]:
# Случайные целые числа
random_ints = np.random.randint(1, 10, size=(4, 5))
print(random_ints)

[[5 3 3 9 4]
 [1 7 1 2 4]
 [9 4 9 4 7]
 [7 4 8 7 6]]


In [277]:
# Пустые значения
result = np.array([4.0, -9.0, 25, -81])
arr = np.sqrt(result)
arr

  arr = np.sqrt(result)


array([ 2., nan,  5., nan])

In [251]:
np.log(result)

  np.log(result)


array([1.38629436,        nan, 3.21887582,        nan])

In [275]:
import math
math.e ** 1.38629436

3.999999995520437

In [280]:
arr

array([ 2., nan,  5., nan])

In [279]:
arr[0]

np.float64(2.0)

In [252]:
np.sum(arr)

np.float64(nan)

In [253]:
arr

array([ 2., nan,  5., nan])

In [254]:
# Проверка на nan
is_nan = np.isnan(arr)
print("Это nan:", is_nan)

Это NaN: [False  True False  True]


In [283]:
# Сумма без учета nan
sum_ = np.nansum(arr)
sum_

np.float64(7.0)

In [256]:
np.mean(arr)

np.float64(nan)

In [257]:
# Среднее без учета nan
mean_ = np.nanmean(arr)
print("Среднее:", mean_)

Среднее: 3.5


In [259]:
# Замена nan на 0
arr_filled = np.nan_to_num(arr, nan=0)
print("Замена nan на 0:", arr_filled)

Замена nan на 0: [2. 0. 5. 0.]


In [261]:
np.mean(arr_filled)

np.float64(1.75)

In [262]:
np.sum(arr_filled)

np.float64(7.0)

In [263]:
# Удаление nan из массива
arr_cleaned = arr[~np.isnan(arr)]
print("Массив без nan:", arr_cleaned)

Массив без nan: [2. 5.]


In [264]:
~np.isnan(arr)

array([ True, False,  True, False])

In [265]:
np.isnan(arr)

array([False,  True, False,  True])

In [267]:
arr[[True, True, True, False]]

array([ 2., nan,  5.])

In [285]:
np.array([4, -9, 25, np.nan])

array([ 4., -9., 25., nan])