# Асимптотический анализ

Эффективность алгоритма зависит от следующих параметров: время выполнения, объем памяти и других ресурсов, необходимых для его выполнения. Эффективность измеряется с помощью асимптотических нотаций.

Производительность алгоритма может отличаться при работе с различными типами данных. С увеличением количества входных данных она также изменяется.

**Асимптотический анализ** – метод изучения производительности алгоритмов при различных объемах и типах входных данных.

В основном используются три нотации:

- Большое «О» (Big-O Notation (O-notation))
- Омега нотация (Omega Notation (Ω-notation))
- Тета нотация (Theta Notation (Θ-notation))

`O-нотация` или `Большое «О»` – используется для описания производительности алгоритмов в зависимости от размера входных данных. Она показывает, как изменяется время выполнения или использование памяти, по мере роста объёма данных. Так как эта нотация дает нам представления о верхней границе, т.е. худшей скорости выполнения алгоритма, то ее анализ обязателен – нам всегда интересна эта характеристика.

`Омега нотация` – противоположность большому «О». Она показывает нижнюю границу скорости выполнения алгоритма. Она описывает лучший случай выполнения алгоритма.

`Тета нотация` объединяет в себе сразу две функции – верхнюю и нижнюю. Эта нотация отражает и верхнюю, и нижнюю границу скорости выполнения алгоритма. Именно поэтому она используется для анализа средней скорости выполнения алгоритма.

Нас интересует, в большей степени, именно O-нотация, поэтому разбираться будем с ней.

`Линейный поиск` обозначается как O(n) – время выполнения зависит от количества элементов в списке. Если список увеличивается в два раза, время выполнения также увеличится в два раза.

`Бинарный поиск` обозначается как O(log n) – время выполнения зависит от логарифма количества элементов. Если список увеличивается в два раза, время выполнения увеличится незначительно.

### Виды О-нотаций

![Ошибка загрузки](https://github.com/akazachkov/ML_lesson_material/blob/main/_add_material_lesson_ML/O-notation.png?raw=true)

# Сравнение структур данных

![Ошибка загрузки](https://github.com/akazachkov/ML_lesson_material/blob/main/_add_material_lesson_ML/Compare_data_structures.png?raw=true)

Списки (Lists) – подходят для хранения упорядоченных коллекций элементов с быстрым доступом по индексу, но операции поиска и удаления могут быть медленными.

Кортежи (Tuples) – имеют те же преимущества и недостатки, что и списки, но неизменяемы.

Множества (Sets) – отлично подходят для хранения уникальных элементов и выполнения быстрых операций поиска, добавления и удаления.

Словари (Dictionaries) – идеальны для хранения пар ключ-значение с быстрым доступом, поиском, добавлением и удалением элементов.

## Практическая часть

Посмотрим на примере, разницу в скорости поиска информации в списке и словаре. Для этого сгенерируем данные и запустим поиск, с расчётом затраченного времени.

In [None]:
import time
import random
import string

# Создание тестовых данных

def generate_contacts_list(n):
    contacts = []
    for _ in range(n):
        name = ''.join(random.choices(string.ascii_letters, k=10))
        phone = ''.join(random.choices(string.digits, k=10))
        email = f'{name.lower()}@example.com'
        contacts.append([name, phone, email])
    return contacts

def generate_contacts_dict(n):
    contacts = {}
    for _ in range(n):
        name = ''.join(random.choices(string.ascii_letters, k=10))
        phone = ''.join(random.choices(string.digits, k=10))
        email = f'{name.lower()}@example.com'
        contacts[name] = {'phone': phone, 'email': email}
    return contacts

In [None]:
# Генерация данных (если сгенерировать меньшее число данных, разницу можно не увидеть. Больше - займёт время и может "подвесить" компьютер)

n = 1000000
contacts_list = generate_contacts_list(n)
contacts_dict = generate_contacts_dict(n)

In [None]:
# Выбор случайного имени, которое мы будем искать с помощью дальнейших функций

random_name = contacts_list[random.randint(0, n-1)][0]
random_name

In [None]:
%%time

# Время поиска в списке

def find_contact_list(contacts, name):
  for contact in contacts:
    if contact[0] == name:
      return contact
  return None

start_time = time.time()
find_contact_list(contacts_list, random_name)
list_search_time = time.time() - start_time
list_search_time

In [None]:
%%time

# Время поиска в словаре

def find_contact_dict(contacts, name):
    return contacts.get(name, None)

start_time = time.time()
find_contact_dict(contacts_dict, random_name)
dict_search_time = time.time() - start_time
dict_search_time

На моём компьютере, поиск по листу занимает 20-50 ms. По словарю поиск происходит настолько быстро, что в большинстве случаев выводится 0 ns. Лишь раз, за десятки итераций, на поиск по словарю ушло 998 µs. Разница значительна.

### Задание 1. Управление библиотекой книг

Создаём систему управления библиотекой, которая позволяет добавлять книги, удалять книги, искать книги по названию и автору.

In [None]:
library = {}  # Создаём пустой словарь и определяем функции

def add_book(title, author, year):
    '''Функция для добавления книги'''
    library[title] = {'author': author, 'year': year}

def remove_book(title):
    '''Функция для удаления книги'''
    if title in library:
        del library[title]

def find_book_by_title(title):
    '''Функция для поиска книги по названию'''
    return library.get(title, None)

def find_books_by_author(author):
    '''Функция для поиска книги по автору'''
    return {title: info for title, info in library.items()
        if info['author'] == author}

In [None]:
# Добавляем книгу и смотрим результат

add_book('Python 101', 'Andrew', 2029)
library

In [None]:
# Добавляем ещё книгу и смотрим результат

add_book('Python ML', 'Steve', 2024)
library

In [None]:
# Используем поиск по словарю

print(find_book_by_title('Python 101'))

In [None]:
print(find_books_by_author('Andrew'))

In [None]:
# Добавим ещё одну книгу уже известного автора и посмотрим что выдаст поиск

add_book('Python 102', 'Andrew', 2029)
find_books_by_author('Andrew')

In [None]:
# Удалим одну из книг из словаря

remove_book('Python 102')
library

### Задание 2. Аналитическая задача

Напишем программу для анализа данных о продажах, загружая их из Excel-файла. Программа должна уметь загружать данные, выполнять базовый анализ и выводить результаты.

In [None]:
import openpyxl  # Для установки в windows, ввести в терминале    py -m pip install openpyxl

def load_data(filename):
    workbook = openpyxl.load_workbook(filename)
    sheet = workbook.active
    data = []

    for row in sheet.iter_rows(min_row=2, max_row=sheet.max_row, values_only=True):
        data.append({'date': row[0], 'sales': row[1], 'category': row[2]})
    return data

In [None]:
data = load_data('_add_material_lesson_ML\\sales.xlsx')
data

In [None]:
total_sales = sum(item['sales'] for item in data)
total_sales

In [None]:
max_sales_day = max(data, key=lambda x: x['sales'])
print(f"День с максимальными продажами: {max_sales_day['date']} - {max_sales_day['sales']}")

In [None]:
# Подсчёт количества продаж по категориям

category_sales = {}
for item in data:
    category = item['category']
    sales = item['sales']
    if category in category_sales:
        category_sales[category] += sales
    else:
        category_sales[category] = sales

print('Продажи по категориям:')
for category, sales in category_sales.items():
    print(f'{category}: {sales}')

### Задание 3. Базовая статистика

Напишем программу для вывода среднего значения, моды и медианы.

In [None]:
data = [1, 1000, 3, 3, 13, 3, 6, 6, 7, 9, 9, 8, 9, 10, 10, 11, 12, 3, 14, 14, 14, 15, 15, 500]
print(type(data))

def calculate_mean(data):
    '''Расчёт среднего значения'''
    total = sum(data)
    count = len(data)
    mean = total/count
    return mean

def calculate_mode(data):
    '''Расчёт моды'''
    frequency={}
    for value in data:
        if value in frequency:
            frequency[value] += 1
        else:
            frequency[value] = 1
    max_freq = max(frequency.values())
    modes = [key for key, val in frequency.items() if val == max_freq]
    return modes

def calculate_median(data):

    data.sort()  # Для начала, сортируем данные по убыванию

    '''Расчёт медианы'''
    n = len(data)
    if n % 2 == 0:
        median = (data[n//2 - 1] + data[n//2]) / 2
    else:
        median = data[n//2]

    return median

In [None]:
calculate_mean(data)

In [None]:
calculate_mode(data)

In [None]:
calculate_median(data)

### Задание 4. Анализ текста

Напишем программу, которая анализирует текст, введенный пользователем, и выводит общее количество слов, количество уникальных слов и самое частое слово.

In [None]:
def analyze_text(text):

    # Разбиваем текст на слова
    words = text.split()

    # Считаем количество слов
    total_words = len(words)

    # Считаем количество уникальных слов
    unqiue_words = len(set(words))

    # Подсчёт частоты каждого слова
    word_frequency = {}
    for word in words:
        word = word.lower().strip(".,!?;:")  # Приведение к нижнему регистру и удаление знаков препинания
        if word in word_frequency:
            word_frequency[word] += 1
        else:
            word_frequency[word] = 1

    most_frequent_word = max(word_frequency, key=word_frequency.get)  # Самое частое слово
    most_frequent_word_count = word_frequency[most_frequent_word]  # Количество повторений самого частого слова

    return total_words, unqiue_words, most_frequent_word, most_frequent_word_count


# text = input("Введите текст: ")  # Можно раскомментировать и задать другой текст. Следующую строку тогда закомментировать
text = 'На лугу паслись три коровы белая корова кормила маленького теленка теленка все время бегал за коровой коровой за коровой три коровы красивые корова паслись красивой зеленой траве траве луга траве луга красивого красивого луга пришла дождя дождя начался дождь дождь ливень дождь лил как из ведра ведра все мокрые коровы бежали крыши дома дома крыши как бежали три коровы бежали как бежали как мычали коровы мычали коровы мычали мычали коровы'
analyze_text(text)


# Можно ещё поработать с кодом, чтобы удаление знаков препинания происходило до подсчёта уникальных слов.
# Если в тексте будут знаки, подсчёт частоты каждого слова работает корректно, а вот подсчёт количества уникальных слов уже не корректен.

# Numpy

### Сравнение производительности NumPy и списков Python

In [None]:
import numpy as np
import time

# Сравнение производительности сложения элементов в списках и массивах NumPy
size = 1000000

# Создание списков и массивов
list1 = list(range(size))
list2 = list(range(size))
array1 = np.array(list1)
array2 = np.array(list2)

# Сложение элементов в списках
start_time = time.time()
result_list = [x + y for x, y in zip(list1, list2)]
print('Сложение списков:', time.time() - start_time, 'секунд')

# Сложение элементов в массивах NumPy
start_time = time.time()
result_array = array1 + array2
print('Сложение массивов NumPy:', time.time() - start_time, 'секунд')

# Pandas

`Pandas` - это библиотека, которая позволяет удобно работать с таблицами. Как и в `numpy`, некоторые компоненты библиотеки `pandas` написаны на языке `C`, что ощутимо ускоряет работу с таблицами, содержащими большие объёмы данных.

## Series

`Series` - это одна из структур данных библиотеки `pandas`. Она представляет собой что-то вроде словаря, однако, является упорядоченной.

Создадим какой-нибудь список, а затем получим на его основе объект `Series`:

In [None]:
import pandas as pd  # Для установки в windows, ввести в терминале    pip install pandas

In [None]:
a = [1, 3, 5, 7, 2]

b = pd.Series(a)

print(b)

В результате такой операции получается объект `Series`, содержащий элементы из списка `a`. Здесь справа располагаются элементы из `a`, а слева - их индексы. Поскольку индексы для этих элементов мы явно не указали, используются стандартные.

Индексы можно также указать явно, для этого нужно подать в качестве аргумента `index` список из индексов. Данный список должен быть той же длины, что и список `a`.

В качестве индексов можно использовать что угодно: числа, строки и пр. Например, проиндексируем наш список `a` объектами типа `datetime.date`:

In [None]:
from datetime import date

In [None]:
index = [date(2019, 4, i) for i in a]

c = pd.Series(a, index=index)

print(c)

Индексы можно задать сразу, а можно и изменить позже:

In [None]:
b.index = ["a", "b", "c", "d", "e"]

print(b)

Рассмотрим индексы объекта `Series` поподробнее. Их можно получить с помощью атрибута `c.index`:

In [None]:
c.index

Мы видим, что в качестве индексов здесь используются объекты типа `object`. Этот тип объектов используется также в `numpy`. Он используется для объектов, для которых заранее не известно, сколько памяти они требуют (в отличие от, например, `numpy.int64`, для которого заранее известно, сколько памяти под него нужно).

Тип `object` в `numpy` и `pandas` приписывается, например, строкам, а также объектам из других библиотек. В массивы данных, состоящие из объектов типа `object` (например, в наш массив `c.index`), помещаются не сами объекты, а лишь указатели на них, а сами объекты хранятся в специально выделенном месте. Мы всё ещё можем использовать для этих объектов методы, присущие им (например, для каждого индекса из массива `c.index` мы можем посмотреть его год, месяц или день):

In [None]:
print(c.index[0].month)

Однако, это возможно делать лишь с отдельными элементами из индекса.

В `pandas`, как и в `numpy`, возможно выполнять различные операции с массивами целиком, но лишь когда эти массивы содержат объекты типов, поддерживаемых `numpy` и `pandas` (вроде `numpy.int32` или `numpy.float64`).

Для работы с датой и временем в `numpy` также есть специальный тип: `numpy.datetime64`. Приведём элементы нашего индекса к этому типу и посмотрим, что это нам позволит делать. Это можно сделать с помощью функции `pd.to_datetime`, которая получает на вход массив и возвращает новый массив, элементы которого приведены к типу `numpy.datetime64`:

In [None]:
c.index = pd.to_datetime(c.index)

Теперь мы можем, например, посмотреть атрибут `day` у всех элементов индекса одновременно:

In [None]:
print(c.index.day)

Индексы в `Series` не обязаны быть уникальными:

In [None]:
d = pd.Series(a, index=[0, 1, 0, 1, 0])

print(d)

Тип данных в `Series` можно также задать явно. Можно это сделать либо сразу же:

In [None]:
import numpy as np

In [None]:
e = pd.Series(a, dtype=np.float32)

print(e)

либо позже с помощью метода `.astype`:

In [None]:
e = pd.Series(a)

e = e.astype(np.float32)

print(e)

Создать массив `Series` можно не только из списка, но и из словаря. В таком случае, ключи этого словаря становятся индексами, а соответствующие значения словаря - значениями массива:

In [None]:
dict_ = {
    "1st": "a",
    "2nd": "b",
    "3rd": "c",
}

f = pd.Series(dict_)

print(f)

Значения массива `Series` можно получить с помощью атрибута `.values`. Значения массива представлены как `numpy.ndarray`.

In [None]:
f.values

### Выбор данных из массива Series

Для получения значений массива `Series` по индексу используется тот же синтаксис, что и с массивами в `numpy`:

* Чтобы получить значение или значения по одному индексу, достаточно поставить этот индекс в квадратные скобки после массива: `f["1st"]`.
* Если необходимо получить значения по нескольким индексам, в квадратные скобки массива подаётся список индексов: `f[["1st", "3rd"]]`.

У массивов `Series` также имеются методы `.head` и `.tail`, позволяющие посмотреть, соответственно, первые несколько или последние несколько значений массива. В каждом из этих методов можно указать, сколько именно значений нужно вернуть. По умолчанию возвращается 5 значений.

In [None]:
e.tail(3)

Для массивов `Series`, также как и для `numpy`-массивов, доступна булева индексация. С помощью неё можно получать значения массива, которые удовлетворяют некоторому условию:

In [None]:
e[e > 2]

Как и ранее, условия можно комбинировать, используя логические операторы "и" (обозначается символом $\&$), "или" (символ $\mid$) и оператор отрицания "не" (символ $\sim$). При этом каждое условие необходимо поставить в круглые скобки:

In [None]:
e[(e > 2) | (e == 1)]

Изменять массив `Series` можно теми же способами, что и при работе с обычными словарями. Например, команда `e[2] = 4` заменит значение массива `e` с индексом 2 на 4.

Однако, в массивах `Series` мы можем менять несколько значений одновременно. Например, с помощью тех же самых условий:

In [None]:
e[e > 2] = -1

print(e)

либо передав в массив какие-то конкретные индексы:

In [None]:
e[[1, 3]] = 5

print(e)

### Добавление и удаление данных в Series

С помощью метода `concat` мы можем добавлять к одному массиву `Series` другой:

In [None]:
g = pd.concat([e, f])

print(g)

С помощью метода `.drop` мы можем удалять из массива элементы с определёнными индексами. Эти индексы мы и подаём в метод в виде списка:

In [None]:
h = g.drop([0, 4, "2nd"])

print(h)

Обратите внимание, что эти методы, в отличие от аналогичных методов из стандартных библиотек питона, не изменяют исходный массив, но возвращают новый.

### Запись и чтение массивов Series из файла


Для записи массивов `Series` в файлы используется формат файлов под названием `pickle`. Этот формат позволяет полностью сохранять питоновские объекты, а затем загружать их в неизменном виде.

Для записи массива `Series` в файл используется метод `.to_pickle`, а для чтения - функция `np.read_pickle`:

In [None]:
h.to_pickle("h.pkl")

In [None]:
h = pd.read_pickle("h.pkl")

print(h)

## DataFrame

`DataFrame` - двумерная структура данных из библиотеки `pandas`, позволяющая удобно работать с таблицами.

Самый простой способ задать `DataFrame` - с помощью словаря, в котором каждый ключ отвечает за столбец, а соответствующее значение - это список из элементов данного столбца. Эти списки должны иметь одинаковую длину.

In [None]:
a = {
    "col1": [1, 2, 4, 5, 6, 7, 8],
    "col2": ["a", "c", "e", "g", "z", "x", "y"]
}

b = pd.DataFrame(a)

b

С помощью атрибута `.shape` можно посмотреть форму массива `DataFrame`. Атрибут `.columns` содержит массив из столбцов, а `.index`, как и ранее, содержит массив индексов.

In [None]:
print("Форма b: {}".format(b.shape))

print("Столбцы b: {}".format(b.columns))

print("Индексы b: {}".format(b.index))

Общую информацию о массиве можно запросить с помощью метода `.info`. Нам вернётся информация об индексах и столбцах данного массива, о том, какие типы данных хранятся в каждом из столбцов, а также информация о том, сколько памяти выделено под данный массив.

In [None]:
b.info()

С помощью метода `.describe` можно получить некоторые статистические характеристики по столбцам с числовыми значениями: среднее значение, среднее квадратическое отклонение, максимум, минимум, квантили и пр.

In [None]:
b.describe()

### Выбор данных из массива DataFrame

Для получения данных из массива `DataFrame` используется тот же синтаксис, что и для `Series`. Например, с помощью методов `.head` и `.tail` можно получить несколько первых или несколько последних строк таблицы.

Отдельный столбец можно получить, передав его название в квадратные скобки массива:

In [None]:
b["col1"]

Каждый отдельный столбец массива `DataFrame` возвращается как массив типа `Series`.

Если мы хотим указать несколько столбцов, в квадратные скобки нужно подать список из столбцов. Тогда нам вернётся подтаблица исходной таблицы опять в формате `DataFrame`.

Получить данные из строк таблицы `DataFrame` можно получить с помощью атрибута `.loc`. Этот атрибут представляет собой что-то вроде двумерного массива. Конкретное значение (или несколько значений) этого массива можно получить, указав нужный индекс строки и название колонки:

In [None]:
b

In [None]:
b.loc[2, "col1"]

Как и ранее, вместо каждого из ключей можно подать список ключей, чтобы вернуть несколько значений. Кроме того, второй аргумент можно не указывать, тогда будут возвращены значения из всех столбцов:

In [None]:
b.loc[[0, 2, 4]]

При использовании атрибута `.loc` мы должны указывать именно индекс нужной строки и название нужного столбца. Бывают ситуации, когда удобнее было бы получить значение по позиции (т.е., например, элемент из третьей строки и второго столбца). Для этого можно использовать атрибут `.iloc`:

In [None]:
b.iloc[2, 1]

Как и в `Series`, в массивах `DataFrame` есть возможность использовать булеву индексацию для указания строк. Причём, условия могут касаться любого столбца или набора столбцов. Как и ранее, условия можно комбинировать с помощью логических операторов.

Например, получим значения из второго столбца у всех строк, значение первого столбца для которых больше 3 или равно 1:

In [None]:
b.loc[(b["col1"] > 3) | (b["col1"] == 1), "col2"]

В `pandas` есть также несколько методов, упрощающих булеву индексацию:

* `b["col1"].between(1, 3)` - все строки, для которых значение в первом столбце лежит между 11 и 13 (включая оба конца)
* `b["col2"].isin(["a", "z"])` - все строки, для которых значение второго столбца содержится в списке `["a", "z"]`

Их также можно использовать вместе с логическими операторами. Например, получим все строки из таблицы `b`, для которых значение первого столбца лежит между 3 и 6, а значение второго столбца не равно `"a"` или `"z"`:

In [None]:
b[(b["col1"].between(3, 6)) & (~b["col2"].isin(["a", "z"]))]

Более короткий и удобный функционал для таких запросов реализован методом `.query`. В него подаётся строка, содержащая булевы условия на значения столбцов. При этом, переменную массива мы уже не пишем, а к столбцам обращаемся без кавычек. В остальном, допускается тот же синтаксис с использованием булевых операторов.

Пример:

In [None]:
b.query('(col1 < 6) & (col2 > "c")')

Как мы уже отмечали, выбирая один столбец из `DataFrame`, мы получаем массив `Series`. Если хочется получить столбец именно в виде `DataFrame`, можно запросить запросить его, подавая в квадратные скобки не название столбца, а список, содержащий только один этот столбец:

In [None]:
type(b["col1"])

In [None]:
type(b[["col1"]])

В любом случае, конвертировать `Series` в `DataFrame` можно и явно:

In [None]:
c = pd.Series([3, 1, 2])

d = pd.DataFrame(c)

d

Если требуется скопировать массив `Series` или `DataFrame`, это можно сделать с помощью метода `.copy`: `e = d.copy()`.

### Случайный выбор значений из DataFrame

Случайный выбор строк из массива `DataFrame` производится с помощью метода `.sample`. Вот несколько его важных параметров:

* `frac` - какую долю от общего числа строк нужно вернуть (число от 0 до 1)
* `n` - сколько строк нужно вернуть (число от 0 до числа строк в массиве)
* `replace` - индикатор того, производится ли выбор _с возвращением_, т.е. с возможным повторением строк в выборке, или _без возвращения_ (`True` или `False`)

Нельзя использовать параметры `frac` и `n` одновременно, нужно выбрать какой-то один.

In [None]:
b.sample(frac=0.5, replace=True)

Если требуется просто перемешать всю выборку, это также можно выполнить с помощью метода `.sample`, передав в него параметр `frac=1`.

### Запись и чтение DataFrame из файлов

Для хранения таблиц широко распространён формат файлов с расширением `.csv`.

Сохранить массив в файл можно с помощью метода `.to_csv`. Вот несколько важных параметров этого метода:

* `sep` - символ, который нужно использовать для разделения значения столбцов между собой. По умолчанию это `","`, но можно также использовать `";"`, `"\t"` и др.
* `index` - булево значение, индикатор того, нужно ли в файл сохранить также столбец индексов.


In [None]:
b.to_csv("test.csv", sep=";", index=False)

Прочитать массив из файла можно с помощью функции `pd.read_csv`. Здесь также можно указать разделитель столбцов в параметре `sep`.

In [None]:
b = pd.read_csv("test.csv", sep=";")

b

У данных команд для сохранения и чтения таблиц есть множество других важных и полезных параметров, поэтому рекомендуется также изучить их документацию: [to_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html), [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

В `pandas` также имеются аналогичные команды для сохранения и записи таблиц как `excel` и `pickle`.

## Работа с данными в Pandas

### Слияние данных

Рассмотрим следующий пример. Допустим, что мы работаем с небольшим отделом книжного магазина, в котором продаётся классическая литература на английском языке. Наша задача - систематизировать ассортимент отдела.

У нас есть таблица `authors`, содержащая данные об авторах: их идентификаторы (`author_id`) и имена (`author_name`):

In [None]:
authors = pd.DataFrame({
    'author_id': [1, 2, 3],
    'author_name': ['Pushkin', 'Tolstoy', 'Dostoevsky'],
})

authors

Кроме того, у нас есть таблица `books`, содержащая информацию о книгах этих авторов. В этой таблице также есть колонка `author_id`, а также колонка `book_title`, содержащая название книги:

In [None]:
books = pd.DataFrame({
    'author_id': [2, 3, 3, 4],
    'book_title': ['War and Peace', 'The Idiot', 'Crime and Punishment',
                   'Fathers and Sons'],
})

books

Что делать, если мы, например, захотим сопоставить названия книг именам их авторов? Для этого используется функция `pd.merge`: в эту функцию помещаются те таблицы, которые мы хотим соединить, а также несколько других важных аргументов:

* `on` - параметр, отвечающий за то, какой столбец мы будем использовать для слияния,
* `how` - каким образом производить слияние.

Опишем подробнее, какие значения может принимать параметр `how`:

* `"inner"` - внутреннее слияние. В этом случае в слиянии участвуют только те строки, которые присутствуют в обоих таблицах,
* `"left"` - в слиянии участвуют все строки из левой таблицы,
* `"right"` - то же самое, но для правой таблицы,
* `"outer"` - внешнее слияние, соединяются все строки как из левой, так и из правой таблицы.

In [None]:
pd.merge(authors, books, on='author_id', how='inner')

Если мы выбираем `"left"`, `"right"` или `"outer"`, может случиться так, что строку из одной таблицы будет невозможно соединить со второй. Например, мы видим, что в нашей таблице `books` нет произведений Пушкина (его `id` равен 1). В свою очередь, в таблице `books` есть книга, для которой `author_id` равен 4, хотя, в таблице `authors` нет записи с таким `author_id`. Рассмотрим внешнее слияние этих таблиц:

In [None]:
merged_df = pd.merge(authors, books, on='author_id', how='outer')

merged_df

Как мы видим, в получившейся таблице присутствуют пропущенные значения (`NaN`).

### Работа с пропущенными данными

Пропущенные значения в `Series` или `DataFrame` можно получить с помощью метода `.isnull`. Наоборот, все имеющиеся непустые значения можно получить с помощью метода `.notnull`:

In [None]:
merged_df[merged_df["author_name"].isnull()]

In [None]:
merged_df[merged_df["author_name"].notnull()]

Заполнить пропущенные значения каким-то своим значением можно с помощью метода `.fillna()`:

In [None]:
merged_df["author_name"] = merged_df["author_name"].fillna("unknown")

merged_df

### Добавление столбцов в `DataFrame`.

Допустим, каждая из наших книг имеется в единственном экземпляре. Мы хотели бы создать в таблице `merged_df` столбец `quantity`, который бы содержал количество экземпляров каждой книги.

Создание нового столбца в таблице `DataFrame` происходит аналогично созданию нового значения в словаре `dict`. Достаточно просто объявить значение `merged_df["quantity"]`. Если подать в это значение какое-нибудь число или строку, то все значения в данном столбце приравняются к этому числу или строке. Также можно подать сюда список, тогда значения из этого списка поступят в соответствующие строки этого столбца. В этом случае длина списка обязана совпадать с числом строк таблицы.

Итак, выберем все строки с непустым значением поля `book_title`, и для них запишем в столбец `quantity` число 1. Это можно сделать с помощью атрибута `.loc`:

In [None]:
merged_df.loc[merged_df["book_title"].notnull(), "quantity"] = 1

merged_df

Теперь заполним все пропуски в этом столбце числом 0:

In [None]:
merged_df["quantity"].fillna(0, inplace=True)

merged_df

Наконец, приведём значения в этом столбце к типу `int`. (Это сделать невозможно, если в столбце содержатся пропуски.)

In [None]:
merged_df["quantity"] = merged_df["quantity"].astype(int)

merged_df

В `DataFrame` можно использовать индексы по умолчанию, а можно и назначить свои. Например, в качестве индексов можно использовать какой-нибудь из столбцов:

In [None]:
merged_df.set_index("author_id", inplace=True)

merged_df

Если что, индексы всегда можно сбросить. Тогда текущие индексы становятся столбцом:

In [None]:
merged_df.reset_index(inplace=True)

merged_df

### Удаление данных

Для удаления данных из `DataFrame` используется метод `.drop`. В этот метод подаётся метка элемента, который необходимо удалить (индекс строки или название столбца), а также ось `axis`. При `axis=0` удаляется строка, при значении `axis=1` - столбец:

In [None]:
merged_df["price"] = 500

merged_df

In [None]:
merged_df.drop("price", axis=1, inplace=True)

merged_df

Теперь удалим строку с индексом 1:

In [None]:
merged_df.drop(1, axis=0, inplace=True)

merged_df

### Сортировка данных

Вернём только что удалённую строку. Напомним, что для этого используется метод `.concat`. Кстати, добавлять строки к `DataFrame` можно прямо в виде словарей `dict`:

In [None]:
merged_df = pd.concat([merged_df,
    pd.DataFrame({
        "author_id": [2],
        "author_name": ["Tolstoy"],
        "book_title": ["War and Peace"],
        "quantity": [1],
    })],ignore_index=True
)

merged_df

Параметр `ignore_index=True` подаётся сюда, чтобы индексы соединяемых таблиц не учитывались. В результирующей таблице будут использованы стандартные последовательные индексы, начинающиеся с 0.

Отсортируем эту таблицу по столбцу `author_id`. Это делается с помощью метода `.sort_values`:

In [None]:
merged_df.sort_values(by="author_id", inplace=True)

merged_df

Чтобы сбросить индексы, воспользуемся уже известным методом `.reset_index`. В нашем случае, стоит подать в него аргумент `drop=True`, который означает, что текущий столбец из индексов не нужно сохранять в таблице, а можно удалить.

In [None]:
merged_df.reset_index(drop=True, inplace=True)

merged_df

### Соединение таблиц

Для соединения таблиц можно пользоваться функцией `pd.concat`. С этой функцией мы уже знакомились, когда изучали библиотеку `numpy`. Здесь эта функция работает аналогичным образом: соединяет таблицы либо вертикально (если указан параметр `axis=0`), либо горизонтально (если `axis=1`).

Соединение происходит с сохранением индексов, если не указан параметр `ignore_index=True`.

In [None]:
df1 = pd.DataFrame({
    'author_id': [3, 5],
    'author_name': ['Dostoevsky', 'Chekhov'],
    'book_title': ['The Gambler', 'Three Sisters'],
    'quantity': [2, 3],
})

df2 = pd.concat([merged_df, df1], axis=0, ignore_index=True)

df2

In [None]:
df3 = pd.DataFrame(
    {'price': [700, 450, 500, 400, 350]},
    index=[1, 2, 3, 5, 6],
)

df4 = pd.concat([df2, df3], axis=1)

df4

### Операции над таблицами

Как и ранее с массивами `numpy` и `Series`, с таблицами `DataFrame` можно производить различные математические операции. Например, значения различных столбцов можно поэлементно перемножать, складывать и пр.

In [None]:
df4["total"] = df4["quantity"] * df4["price"]

df4

С помощью следующих методов можно посчитать основные статистики по желаемым столбцам:

* `df4["price"].max()` - максимум
* `df4["price"].min()` - минимум
* `df4["price"].mean()` - среднее
* `df4["price"].median()` - медиана
* `df4["price"].std()` - среднее квадратическое значение
* `df4["price"].var()` - дисперсия

С помощью метода `.nlargest` можно вывести несколько наибольших значений. Указывается то, сколько значений нужно вернуть, а также то, по какому именно значению нужно сортировать:

In [None]:
df4.nlargest(3, "price")

Имеется также аналогичный метод `.nsmallest`.

С помощью метода `.unique` можно получить уникальные значения заданного столбца:

In [None]:
df4["author_name"].unique()

Если нужно получить не уникальные значения, а лишь их количество, можно воспользоваться методом `.nunique`.

С помощью метода `.value_counts` можно получить информацию о том, сколько раз каждое уникальное значение появляется в данном столбце:

In [None]:
df4["author_name"].value_counts()

К значениям таблицы можно применять и функции, которые не имеются в библиотеках `pandas` и `numpy`. Делается это с помощью метода `.apply`:

In [None]:
df4["author_name"].apply(lambda x: x.upper())

### Группировка данных

Данные в таблице `DataFrame` можно группировать по повторяющимся значениям выбранного столбца. Группировка позволяет вычислять какие-то _агренированные_ значения, т.е. значения, полученные каким-то образом из групп других значений. Например, если мы захотим сгруппировать нашу таблицу по значениям `author_name`, то каждая группа будет содержать все строки с одинаковым значением `author_name`. По таким группам можно затем посчитать какую-нибудь агрегирующую функцию, например, сумму, среднее, минимум и др.

Вот несколько способов это сделать. В первом случае мы просто выбираем конкретный столбец из группировки и применяем к нему какую-то агрегирующую функцию:

In [None]:
groupby = df4.groupby("author_name")

In [None]:
groupby["price"].mean()

Второй способ - с помощью метода `.agg`. Данный метод является более гибким. Например, он позволяет вычислять одновременно несколько различных агрегирующих функций от разных столбцов:

In [None]:
groupby.agg({"price": "max", "total": "count"})

---

# Визуализация

In [None]:
import matplotlib.pyplot as plt  # Для установки в windows, ввести в терминале    pip install matplotlib
import numpy as np  # Для работы с массивами

Figure - это контейнер самого верхнего уровня, та область на которой все нарисовано. Таких областей может быть несколько, каждая из которых может содержать несколько контейнеров Axes.


Axes - это та область на которой чаще всего и отражаются графики (данные в виде графиков), а так же все вспомогательные атрибуты (линии сетки, метки, указатели и т.д.). Часто, установка этой области сопровождается с вызовом subplot, который и помещает Axes на регулярную сетку. Поэтому, так же часто Axes и Subplot можно считать синонимами. Но с тем что это за сетка и как это размещение работает, давайте разберемся чуть ниже.

In [None]:
# Создадим объекты Figure и Axes(subplot)

fig = plt.figure()
ax = fig.add_subplot()

fig.set(facecolor="green")
ax.set(facecolor = "red")

In [None]:
# Для наглядности создадим создадим Figure с 3-мя Axes

fig, axes = plt.subplots(1, 3)

In [None]:
# Построим линейный график

fig = plt.figure()
ax = fig.add_subplot()

x = np.linspace(0, 30, 10)
y = x

ax.plot(x, y, color="red", linestyle="--", label="legend_1")
ax.legend()
ax.grid()
ax.set(title="График 1", xlabel="Ось x", ylabel="Ось Y")

In [None]:
# Строим линейный график без явного создания объектов Figure и Axes

plt.plot(x, y)

In [None]:
# Построим несколько графиков

fig = plt.figure()
ax = fig.add_subplot()

x = np.linspace(0, 30, 10)
y1 = x
y2 = [i**2 for i in x]

ax.plot(x, y1, color="red", linestyle="--", label="legend_1")
ax.plot(x, y2, color="black", linestyle="-", label="legend_2")

ax.legend()
ax.grid()
ax.set(title="График 1", xlabel="Ось x", ylabel="Ось Y")

In [None]:
# Построение несколько графиков отдельно друг от друга (на разных полях)

fig, axes = plt.subplots(2, 2)

x = np.linspace(0, 30, 10)
y1 = x
y2 = [i**2 for i in x]
y3 = [-i**2 for i in x]
y4 = [np.sin(i) for i in x]

# axes[0, 0].plot(x, y1)
# axes[0, 1].plot(x, y2)
# axes[1, 0].plot(x, y3)
# axes[1, 1].plot(x, y4)

for ax, y in zip(axes.flatten(), [y1, y2, y3, y4]):
    ax.plot(x, y)

In [None]:
# Стековый график

"""
Для построения стекового графика используется функция stackplot().
Суть его в том, что графики отображаются друг над другом, и каждый следующий является суммой предыдущего и заданного:
"""

x = [1, 2, 3, 4, 5]
y1 = [1, 1, 2, 3, 5]
y2 = [0, 4, 2, 6, 8]
y3 = [1, 3, 5, 7, 9]

fig, ax = plt.subplots()

ax.stackplot(x, y1, y2, y3, labels=['y1', 'y2', 'y3'])
ax.legend(loc='upper left')

In [None]:
# Точечный график

fig, ax = plt.subplots()

x = np.arange(0, 10.5, 0.5)
y = np.cos(x)
ax.scatter(x, y)

In [None]:
# Столбчатые диаграммы

"""
Для визуализации категориальных данных хорошо подходят столбчатые диаграммы. Для их построения используются функции:
bar() — вертикальная столбчатая диаграмма;
barh() — горизонтальная столбчатая диаграмма;
"""

fig, ax = plt.subplots()

labels = [f'P{i}' for i in range(7)]

x = np.arange(len(labels))
counts = np.random.randint(3, 10, len(labels))

ax.bar(x, counts)
ax.set_xticks(x)
ax.set_xticklabels(labels)

In [None]:
# Групповые столбчатые диаграмма
# Используя определенным образом подготовленные данные, можно строить групповые диаграммы:

labels = [f'P{i}' for i in range(5)]
g1 = [10, 21, 34, 12, 27]
g2 = [17, 15, 25, 21, 26]
width = 0.3
x = np.arange(len(labels))

fig, ax = plt.subplots()

ax.bar(x , g1, width, label='g1')
ax.bar(x + width/2, g2, width, label='g2')

ax.set(title="Пример групповой диаграммы", xticks=x, xticklabels=labels)
ax.legend()

In [None]:
# Круговые диаграммы

"""
Это наглядный способ показать доли компонентов в наборе.
Они идеально подходят для отчётов, презентаций и т.п.
Для построения круговых диаграмм в Matplotlib используется функция pie().
"""

vals = [24, 17, 53, 21, 35]
labels = ['Ford', 'Toyota', 'BMW', 'AUDI', 'Jaguar']
fig, ax = plt.subplots()

ax.pie(vals, labels=labels)

# Быстрый старт в seaborn

In [None]:
import seaborn as sns  # Для установки в windows, ввести в терминале    pip install seaborn

In [None]:
sns.get_dataset_names()

In [None]:
# Загрузим датасет по автомобилям

mpg = sns.load_dataset("mpg")

In [None]:
mpg.head()

In [None]:
"""
Построим зависимость ускорения (acceleration) от количества лошадиных сил (horsepower),
при этом размер точки будет определяться количеством цилиндров
"""

sns.relplot(x="horsepower", y="acceleration", size="cylinders", kind="scatter", data=mpg)

In [None]:
"""
Для демонстрации работы функции построения линейного графика загрузим набор данных flights,
содержащий информацию о количестве пассажиров, которые воспользовались авиатранспортом:
"""

flights = sns.load_dataset("flights")
flights.head()

In [None]:
sns.relplot(x="year", y="passengers", kind="line", data=flights)

https://seaborn.pydata.org/tutorial.html

In [None]:
iris = sns.load_dataset("iris")
iris.head()

In [None]:
"""
Загруженный набор данных является эталонным для изучения алгоритмов классификации,
он представляет собой информацию о 150 экземплярах ириса по 50 на каждый отдельный вид:
Ирис щетинистый (setosa), Ирис Виргинский (virginica) и Ирис разноцветный (versicolor).
Для каждого экземпляра определены следующие параметры:
• Длина наружной доли околоцветника (sepal_length);
• Ширина наружной доли околоцветника (sepal_width);
• Длина внутренней доли околоцветника (petal_length);
• Ширина внутренней доли околоцветника (petal_width).
"""

sns.boxplot(x="species", y="sepal_length", data=iris)

# Практика

In [None]:
# Задание 1

import numpy as np

# Результаты бегунов (в секундах)
results = np.array([12.4, 11.8, 13.2, 12.1, 11.5, 12.7, 11.9, 12.3, 12.0, 11.7])

# Среднее время
mean_time = np.mean(results)
print(f"Среднее время: {mean_time} секунд")

# Медианное время
median_time = np.median(results)
print(f"Медианное время: {median_time} секунд")

# Стандартное отклонение
std_deviation = np.std(results)
print(f"Стандартное отклонение: {std_deviation} секунд")

# Лучший и худший результат
best_time = np.min(results)
worst_time = np.max(results)
print(f"Лучшее время: {best_time} секунд")
print(f"Худшее время: {worst_time} секунд")

In [None]:
# Задание 2

import pandas as pd

# Данные о недвижимости
data = {
    'Price': [300000, 450000, 350000, 500000, 400000],
    'Rooms': [3, 4, 3, 5, 4],
    'Area': [120, 200, 150, 250, 180],
    'Location': ['North', 'West', 'North', 'East', 'West']
}

# Создание DataFrame
df = pd.DataFrame(data)

# Средняя цена домов в каждом районе
mean_price_by_location = df.groupby('Location')['Price'].mean()
print("Средняя цена домов в каждом районе:\n", mean_price_by_location)

# Дом с самой высокой и самой низкой ценой
max_price_home = df.loc[df['Price'].idxmax()]
min_price_home = df.loc[df['Price'].idxmin()]
print("Дом с самой высокой ценой:\n", max_price_home)
print("Дом с самой низкой ценой:\n", min_price_home)

# Средняя площадь домов
mean_area = df['Area'].mean()
print(f"Средняя площадь домов: {mean_area} кв.м.")

In [None]:
# Задание 3

import pandas as pd
import matplotlib.pyplot as plt

# Данные о доходах и расходах
data = {
    'Year': [2020, 2020, 2020, 2021, 2021, 2021],
    'Month': ['January', 'February', 'March', 'January', 'February', 'March'],
    'Income': [5000, 5200, 5300, 5500, 5800, 6000],
    'Expense': [4000, 4100, 4200, 4300, 4400, 4500]
}

# Создание DataFrame
df = pd.DataFrame(data)

# Создание линейных графиков для отображения доходов и расходов по месяцам
plt.figure(figsize=(12, 6))

# Линейный график доходов
for year in df['Year'].unique():
    yearly_data = df[df['Year'] == year]
    plt.plot(yearly_data['Month'], yearly_data['Income'], marker='o', label=f'Доход {year}')

# Линейный график расходов
for year in df['Year'].unique():
    yearly_data = df[df['Year'] == year]
    plt.plot(yearly_data['Month'], yearly_data['Expense'], marker='x', label=f'Расход {year}', linestyle='--')

plt.xlabel('Месяц')
plt.ylabel('Сумма')
plt.title('Доходы и расходы по месяцам')
plt.legend()
plt.grid(True)
plt.xticks(rotation=45)
plt.show()

# Создание столбчатого графика для сравнения общего дохода и расхода за год
total_income = df.groupby('Year')['Income'].sum()
total_expense = df.groupby('Year')['Expense'].sum()

plt.figure(figsize=(8, 6))
width = 0.4  # Ширина столбцов
years = df['Year'].unique()

plt.bar(years - width/2, total_income, width=width, label='Доход')
plt.bar(years + width/2, total_expense, width=width, label='Расход')

plt.xlabel('Год')
plt.ylabel('Сумма')
plt.title('Общий доход и расход за год')
plt.legend()
plt.grid(True)
plt.xticks(years)  # Установка меток для оси X
plt.show()