# Разные задачки

Попрактикуемся по разным темам

## Сумма цифр числа рекурсией

Дано число произвольного размера. Посчитайте рекурсивно сумму его цифр

In [6]:
value = 1233455610

In [10]:
def sum_of_digit(value: int): 
    return 0 if not value else value % 10 + sum_of_digit(value // 10)

In [11]:
sum_of_digit(value)

30

In [12]:
sum_value = 0
for elem in str(value):
    sum_value += int(elem)

sum_value

30

## Run-Length Encoding

RLE -- это один из алгоритмом сжатия последовательностей.

Пусть у вас есть строка `aaaaaabbbcbbdddeea`, ее можно представить в виде `[(a, 6), (b, 3), (c, 1), (b, 2), (d, 3), (e, 2), (a, 1)]` 

In [24]:
s = 'aaaaaabbbcbbdddeea'

In [17]:
# без сохранения порядка

from collections import Counter
Counter(s)

Counter({'a': 7, 'b': 5, 'c': 1, 'd': 3, 'e': 2})

**Напишем обычную версию**

In [20]:
def do_rle(s: str) -> list[tuple]:
    
    if not s:
        return []
    
    encoded_s = []
    
    k = 0
    for i in range(1, len(s)):
        
        if s[i - 1] != s[i]:
            encoded_s.append((s[i - 1], i - k))
            k = i
    
    encoded_s.append((s[k], len(s) - k))
    
    return encoded_s

In [21]:
do_rle(s)

[('a', 6), ('b', 3), ('c', 1), ('b', 2), ('d', 3), ('e', 2), ('a', 1)]

**Рекурсивная версия**

In [22]:
def do_rle_recursive(s: str, encoded_s: list[tuple]) -> list[tuple]:
    
    # your base case
    if not s:
        return encoded_s
    
    # your code
    i = 0
    while i < len(s) and s[i] == s[0]:
        i += 1
    
    encoded_s.append((s[0], i))
    
    return do_rle_recursive(s[i:], encoded_s)

In [25]:
do_rle_recursive(s, [])

[('a', 6), ('b', 3), ('c', 1), ('b', 2), ('d', 3), ('e', 2), ('a', 1)]

## Уникальные слова в тексте

Вывести самые популярные слова в тексте и их количество

Если дан не текст, а список из слов через запятую, то как можно решить задачу? А как превратить текст в список из слов?

In [28]:
splitted_text = ['word', 'word', 'a', 'a', 'b']

Counter(splitted_text)

Counter({'word': 2, 'a': 2, 'b': 1})

In [26]:
sample_text = "The secret menu reveals a business model that goes beyond a right to repair issue, Sullivan argues. It represents, as he describes it, nothing short of a milkshake shakedown: Sell franchisees a complicated and fragile machine. Prevent them from figuring out why it constantly breaks. Take a cut of the distributors’ profit from the repairs. “It’s a huge money maker to have a customer that’s purposefully, intentionally blind and unable to make very fundamental changes to their own equipment,” Sullivan says. And McDonald’s presides over all of it, he says, insisting on loyalty to its longtime supplier. (Resist the McDonald’s monarchy on decisions like equipment, and the corporation can end a restaurant’s lease on the literal ground beneath it, which McDonald's owns under its franchise agreement.)"

In [29]:
import re
from collections import Counter

In [32]:
word_counts = Counter(re.split('[,.():\s]+', sample_text.lower().strip()))
word_counts

Counter({'the': 6,
         'secret': 1,
         'menu': 1,
         'reveals': 1,
         'a': 8,
         'business': 1,
         'model': 1,
         'that': 1,
         'goes': 1,
         'beyond': 1,
         'right': 1,
         'to': 5,
         'repair': 1,
         'issue': 1,
         'sullivan': 2,
         'argues': 1,
         'it': 5,
         'represents': 1,
         'as': 1,
         'he': 2,
         'describes': 1,
         'nothing': 1,
         'short': 1,
         'of': 3,
         'milkshake': 1,
         'shakedown': 1,
         'sell': 1,
         'franchisees': 1,
         'complicated': 1,
         'and': 4,
         'fragile': 1,
         'machine': 1,
         'prevent': 1,
         'them': 1,
         'from': 2,
         'figuring': 1,
         'out': 1,
         'why': 1,
         'constantly': 1,
         'breaks': 1,
         'take': 1,
         'cut': 1,
         'distributors’': 1,
         'profit': 1,
         'repairs': 1,
         '“it’s': 1,
 

In [36]:
word_counts.most_common(10)

[('a', 8),
 ('the', 6),
 ('to', 5),
 ('it', 5),
 ('and', 4),
 ('of', 3),
 ('on', 3),
 ('sullivan', 2),
 ('he', 2),
 ('from', 2)]

## Общие элементы двух списков (однострочник)

Даны списки a и b. Вывести общие элементы в них

In [38]:
a = [1, 2, 3, 4, 7, 8, 9, 7, 7]
b = [5, 4, 6, 7, 10, 11, 12, 7, 7]

# your code
set(a).intersection(set(b)), set(a) & set(b)

({4, 7}, {4, 7})

In [42]:
Counter(a) & Counter(b)

Counter({4: 1, 7: 3})

## Номер появления слова

Дан список из слов. Получить список с их номерами по порядку их появления.

```
word_list = ['two', 'one', 'three', 'three', 'two', 'three']
fun(word_list) -> [1, 1, 1, 2, 2, 3]
```

In [50]:
word_list = ['two', 'one', 'three', 'three', 'two', 'three']

In [51]:
from collections import defaultdict

counts = defaultdict(int)
ans = []

for elem in word_list:
    counts[elem] += 1
    ans.append(counts[elem])
    
ans

[1, 1, 1, 2, 2, 3]

## Непрерывный массив суммой N

Дано: некоторый массив целых чисел и число N

Задача: Найти непрерывный подмассив, сумма элементов которого равна N. И вывести длину подмассива. Если таких несколько, то вывести максимальную длину. Если не существует, то вывести 0

```
Пример:

1.
Дано: [1, 2, 3, 4, -1, 2, -1, 4, 0], N = 4
Подмассивы с суммой 4: [4], [4, -1, 2, -1], [-1, 2, -1, 4, 0]
Ответ: 5

2.
Дано: [1, 2, 3], N = 10
Ответ: 0
```

**Квадратичное решение**

In [56]:
from itertools import accumulate

def find_n_subarray_quadratic(arr: list, n: int) -> int:
        
    prefix_sums = list(accumulate(arr))
    max_subarr_len = 0
    
    for i, acc in enumerate(prefix_sums):        
        for j in range(i + 1, len(prefix_sums)):
            if prefix_sums[j] - prefix_sums[i] == n:
                max_subarr_len = max(max_subarr_len, j - i)
            
    return max_subarr_len

In [59]:
arr = [1, 2, 3, 4, -1, 2, -1, 4, 0]

find_n_subarray_quadratic(arr, 0)

3

In [69]:
list(accumulate(arr))

[1, 3, 6, 10, 9, 11, 10, 14, 14]

**Делаем быстрее**

In [84]:
def find_n_subarray(arr: list, n: int) -> int:
        
    cumsums = {}
    prefix_sums = list(accumulate(arr))
    max_subarr_len = 0
    
    print('cumulative sums', prefix_sums)
    
    for i, acc in enumerate(prefix_sums):
        
        if acc not in cumsums:
            cumsums[acc] = i
            
        print(f'index {i}| cumsum {acc}, {cumsums}')
        
        if acc - n in cumsums:
            complement_cumsum_index = cumsums[acc - n]
            
            print(f'found cumsum acc - n = {acc} - {n} = {acc - n} with leftmost index {complement_cumsum_index}')

            max_subarr_len = max(max_subarr_len, i - complement_cumsum_index)
        
    return max_subarr_len

In [85]:
find_n_subarray(arr, 4)

cumulative sums [1, 3, 6, 10, 9, 11, 10, 14, 14]
index 0| cumsum 1, {1: 0}
index 1| cumsum 3, {1: 0, 3: 1}
index 2| cumsum 6, {1: 0, 3: 1, 6: 2}
index 3| cumsum 10, {1: 0, 3: 1, 6: 2, 10: 3}
found cumsum acc - n = 10 - 4 = 6 with leftmost index 2
index 4| cumsum 9, {1: 0, 3: 1, 6: 2, 10: 3, 9: 4}
index 5| cumsum 11, {1: 0, 3: 1, 6: 2, 10: 3, 9: 4, 11: 5}
index 6| cumsum 10, {1: 0, 3: 1, 6: 2, 10: 3, 9: 4, 11: 5}
found cumsum acc - n = 10 - 4 = 6 with leftmost index 2
index 7| cumsum 14, {1: 0, 3: 1, 6: 2, 10: 3, 9: 4, 11: 5, 14: 7}
found cumsum acc - n = 14 - 4 = 10 with leftmost index 3
index 8| cumsum 14, {1: 0, 3: 1, 6: 2, 10: 3, 9: 4, 11: 5, 14: 7}
found cumsum acc - n = 14 - 4 = 10 with leftmost index 3


5

Идея решения задачи похожа на 2-sum из прошлого семинара. По аналогии с квадратичным решением, мы хотим найти такую "дополняющую" префиксную сумму, разница с которой будет составлять N. Если такая сумма есть, значит массив между этими двумя префиксными суммами и есть наш ответ. 

В квадратичном решении мы искали дополняющие суммы с помощью цикла, что медленно. Здесь мы пользуемся свойством словаря как хеш-таблицы, которое позволяет проверить наличие элемента за O(1). Для этого храним самый левый индекс для каждой из префиксных сумм (потому что хотим найти именно самый длинный подмассив суммой N) в словаре cumsums. 

На каждой итерации цикла (имеет текущую префиксную сумму acc) проверяем, видели ли мы уже подходящий комплемент (префиксную сумму со значением acc - N) или нет. Эта проверка делается за O(1) по аналогии с парным числов в задаче 2-sum. Если сумму нашли, то разница между текущим индексом и индексом найденной кумулятивной суммы размера acc - N и есть наш ответ

**Еще одно решение**

Решение аналогично решению выше, только без использования accumulate

In [None]:
def find_n_subarray(arr: list, n: int) -> int:
    cumsums = {}
    
    acc = 0
    max_subarr_len = 0
    
    for index, elem in enumerate(arr):
        acc += elem
        if acc not in cumsums:
            cumsums[acc] = index + 1  # sum(arr[:index + 1]) == acc
        
        if elem == n and not max_subarr_len:
            max_subarr_len = 1
                
        if acc - n in cumsums:
            max_subarr_len = max(max_subarr_len, index - cumsums[acc - n] + 1)
            
    return max_subarr_len