# Python для сбора и обработки данных

Автор: Валентин Бирюков

# Алгоритмы, аналитика и жизнь

Знание алгоритмов и структур данных часто считается одним из ключевых преквезитов, при приеме на работу аналитиков/разработчиков/etc. Однако, нередко их изучение и дальнейшая работа кажется никак не связанной с этими навыками, а если и связанной - то все уже реализованно за нас. На этом занятии мы экскурсно рассмотрим типичные задачи, используемых в них трюки и попытаемся связать это с ситуациями, которые могут возникать в рядовой практике.

Материал задач частично позаимствован с ресурса https://leetcode.com/ - на котором собранны материалы различных "тестовых" заданий собеседовани.


Источник для куч алгоритмов любой сложности https://e-maxx.ru/algo/

## Немного матчасти

| Обозначение | Интуитивное объяснение | Определение |
| ----------- | ---------------------- | ----------- |
|$f(n) \in O(g(n))$|$f$ ограничена сверху функцией $g$ (с точностью до постоянного множителя) асимптотически|$\exists (C>0), n_0 : \forall(n>n_0) \; |f(n)| \leq |Cg(n)| $ или $  \exists (C>0), n_0 : \forall(n>n_0) \; f(n) \leq Cg(n)$|
|$f(n) \in \Omega(g(n))$|$f$ ограничена снизу функцией $g$ (с точностью до постоянного множителя) асимптотически|$\exists (C>0), n_0 : \forall (n>n_0) \; |Cg(n)| \leq |f(n)|$|
|$f(n) \in \Theta(g(n))$|$f$ ограничена снизу и сверху функцией $g$ асимптотически|$\exists (C,C'>0), n_0 : \forall (n>n_0) \; |Cg(n)| \leq |f(n)| \leq |C'g(n)| $|
|$f(n) \in o(g(n))$|$g$ доминирует над $f$ асимптотически|$\forall (C>0),\exists n_0 : \forall(n>n_0) \; |f(n)| < |Cg(n)|$|
|$f(n) \in \omega(g(n))$|$f$ доминирует над $g$ асимптотически|$\forall (C>0),\exists n_0 : \forall(n>n_0) \; |Cg(n)| < |f(n)|$|
|$f(n) \sim g(n)$|$f$ эквивалентна $g$ асимптотически|$\lim_{n \to \infty} \frac{f(n)}{g(n)} = 1$|

## Примеры в коде

In [2]:
import time

# наша некоторая функция, количество вызовов которой мы будем оценивать сложность
def do_something(param):
    pass

In [5]:
n = 100

# линейная сложность по параметру n
for i in range(n):
    do_something(1)

    
# константная сложность
for i in range(42):
    do_something(1)
    
    
# квадратичная сложность по параметру n
for i in range(n):
    for j in range(n):
        do_something(1)

# Задача 1 - Палиндром

Написать функцию, которая проверяет, является ли заданная строка палиндромом. Функция должна быть эффективна по времени и по памяти

# Задача 2 - Суммы двух

Вариация 1

Есть массив целых чисел. И есть заданное целевое значение. Нужно найти в массиве два числа которые равны заданному целевому

Вариация 2

Теперь массив сортированны. Но найти нужно значение которое ближе всего к целевому (по модулю разность минимальна).

Вариация 3

Снова забудем сортировку. На исходном массиве нужно найти два индекса, сумма значений между которыми равна целевому значению

# Задача 3 - Про строки

Вариация 1

Есть текст T, хотим найти в нем подстроку максимальной длины без повторяющихся символов в ней

Вариация 2

Снова текст, снова хотим найти подстроку в нем, но теперь так, чтобы количество различных символов в ней было не больше N.

Вариация 3

Есть текст, есть шаблон S, хотим найти в тексте равную шаблону подстроку с точностью до перестановки букв (анаграму)

# Задача 4 - про скобки

Вариация 1

На вход подана строка состоящая исключительно из скобок (,),\[,\],{,} необходимо проверить является ли эта последовательность правильной скобочной последовательностью.

Вариация 2

В файле (строке) записан json массив из словарей. необходимо обработать каждый словарь отдельно, не разворачивая всю строку в памяти (например, размер файла 1гб)