Для следующих простых задач нужно привести 2-3 способа решения на python, сравнить
между собой эти способы по затрачиваемым времени и памяти и объяснить с чем это
может быть связано.
1. Чтение/запись в словарь. При попытке чтения несуществующего ключа возвращается
None.
2. К каждому элементу списка применить какуе-либо преобразование (например, для
числового списка - возвести в кавдрат, для строкового - привести к верхнему
регистру, отфильтровать определенные символы, и т.д.).
3. Отсортировать список.
4. Распаковать вложенный список.

##### Задание1.

In [33]:
# Функции записи в словарь
def add_1(dict_, new_item):
    dict_[new_item[0]] = new_item[1]
    return dict_

def add_2(dict_, new_item):
    dict_.setdefault(new_item[0], new_item[1])
    return dict_

In [54]:
# Функции чтения из словаря
def read_1(dict_, key):
    try:
        return dict_[key]
    except Exception:
        return None
    
def read_2(dict_, key):
    return dict_.get(key)

Проверка через %timeit

In [None]:
# Для проверки создаем список туплов
d3 = [(str(i),i*3) for i in range(50)]

In [42]:
# Создаем словари для проверки работы функций
d1 = {}
d2 = {}

In [44]:
# Замеряем время работы функции записи способ 1
%%timeit
for it in d3: add_1(d1, it)

11.8 µs ± 388 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [45]:
# Замеряем время работы функции записи способ 2
%%timeit
for it in d3: add_2(d2, it)

13.8 µs ± 421 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [47]:
# Создаем список ключей для чтения записей
d4 = [str(i) for i in range(20, 60)]

In [50]:
# Замеряем время работы функции чтения способ 1
%timeit d5 = {str(i): read_1(d1, i) for i in d4} 

18.4 µs ± 1.31 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [56]:
# Замеряем время работы функции чтения способ 2
%timeit d6 = {str(i): read_2(d2, i) for i in d4}

17.3 µs ± 1.03 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [62]:
# Функция для запуска всех функций
def manage_dict():
    d1 = {}
    d2 = {}
    d3 = [(str(i), i*3) for i in range (101)]
    d4 = [str(i) for i in range(50, 151)]
    for it in d3: add_1(d1, it) # Записываем свловарь методом 1
    for it in d3: add_2(d2, it) # Записываем словарь методом 2
    d5 = {str(i): read_1(d1, i) for i in d4} # Читаем записи словаря методом 1
    d6 = {str(i): read_2(d2, i) for i in d4} # Читаем записи словаря методом 2
    return d1, d2, d3, d4

Проверка по времени через line-profiler

In [63]:
%load_ext line_profiler

In [64]:
%lprun -f manage_dict manage_dict()

Timer unit: 1e-07 s

Total time: 0.0016981 s
File: <ipython-input-62-91d865a478f0>
Function: manage_dict at line 2

     Line      Hits         Time  Per Hit   % Time  Line Contents
 
     2                                           def manage_dict():
     3         1        186.0    186.0      1.1      d1 = {}
     4         1         31.0     31.0      0.2      d2 = {}
     5         1       1413.0   1413.0      8.3      d3 = [(str(i), i*3) for i in range (101)]
     6         1        961.0    961.0      5.7      d4 = [str(i) for i in range(50, 151)]
     7       102       4246.0     41.6     25.0      for it in d3: add_1(d1, it) # Записываем свловарь методом 1
     8       102       4915.0     48.2     28.9      for it in d3: add_2(d2, it) # Записываем словарь методом 2
     9         1       3143.0   3143.0     18.5      d5 = {str(i): read_1(d1, i) for i in d4} # Читаем записи словаря мет 1
    10         1       2056.0   2056.0     12.1      d6 = {str(i): read_2(d2, i) for i in d4} # Читаем записи словаря мет 2
    11         1         30.0     30.0      0.2      return d1, d2, d3, d4

Проверка расходования памяти через memory-profiler

In [65]:
%load_ext memory_profiler

In [70]:
%%writefile str_memory_consumption.py

from memory_profiler import profile

def add_1(dict_, new_item):
    dict_[new_item[0]] = new_item[1]
    return dict_

def add_2(dict_, new_item):
    dict_.setdefault(new_item[0], new_item[1])
    return dict_

def read_1(dict_, key):
    try:
        return dict_[key]
    except Exception:
        return None
    
def read_2(dict_, key):
    return dict_.get(key)

@profile
def manage_dict_memory():
    d1 = {}
    d2 = {}
    d3 = [(str(i), i*3) for i in range (101)]
    d4 = [str(i) for i in range(50, 151)]
    for it in d3: add_1(d1, it) # Записываем свловарь методом 1
    for it in d3: add_2(d2, it) # Записываем словарь методом 2
    d5 = {str(i): read_1(d1, i) for i in d4} # Читаем записи словаря методом 1
    d6 = {str(i): read_2(d2, i) for i in d4} # Читаем записи словаря методом 2
    return d1, d2, d3, d4

if __name__ == '__main__':
    manage_dict_memory()

Overwriting str_memory_consumption.py


In [71]:
!python str_memory_consumption.py

Filename: str_memory_consumption.py

Line #    Mem usage    Increment   Line Contents
    21     39.3 MiB     39.3 MiB   @profile
    22                             def manage_dict_memory():
    23     39.3 MiB      0.0 MiB       d1 = {}
    24     39.3 MiB      0.0 MiB       d2 = {}
    25     39.3 MiB      0.0 MiB       d3 = [(str(i), i*3) for i in range (101)]
    26     39.3 MiB      0.0 MiB       d4 = [str(i) for i in range(50, 151)]
    27     39.3 MiB      0.0 MiB       for it in d3: add_1(d1, it) # Записываем свловарь методом 1
    28     39.3 MiB      0.0 MiB       for it in d3: add_2(d2, it) # Записываем словарь методом 2
    29     39.3 MiB      0.0 MiB       d5 = {str(i): read_1(d1, i) for i in d4} # Читаем записи словаря методом 1
    30     39.4 MiB      0.1 MiB       d6 = {str(i): read_2(d2, i) for i in d4} # Читаем записи словаря методом 2
    31     39.4 MiB      0.0 MiB       return d1, d2, d3, d4




###### Вывод:
Первый способ записи в словарь выполняется быстрее, так как ему не приходится проверять словарь на наличие ключа, как в методе 2.
Первый способ чтения записи из словаря медленнее, так как применения конструкция try-except, а во втором методе используется оптимизированная стандартная функция get.
По потреблению памяти все способы записи и чтения одинаковы. Способ чтения с помощью стандартного метода get потребляет чуть больше, видимо внутри get использован алгоритм с промежуточными переменными, для ускорения работы.

##### Задание 2
Буду возводить в 5ю степень значения числового списка

In [112]:
# Функции возведения в 5ю степень
def func_1(l):
    for i in range(len(l)):
        l[i] = l[i]**5
    return l

def func_2(l):
    for i, item in enumerate(l):
        l[i] = item**5
    return l

def func_3(l):
    l = list(map(lambda x: x**5, l))
    return l

In [200]:
# Функция для запуска всех функций
def manage_lists(n):
    l1 = [i for i in range(n)]
    l2 = func_1([i for i in range(n)])
    l3 = func_2([i for i in range(n)])
    l4 = func_3([i for i in range(n)])
    return l1, l2, l3, l4

Проверка по времени через line-profiler

In [201]:
%lprun -f manage_lists manage_lists(10001)

Timer unit: 1e-07 s

Total time: 0.0600977 s
File: <ipython-input-200-54198ae42705>
Function: manage_lists at line 2

    Line      Hits     Time  Per Hit   % Time  Line Contents

     2                                           def manage_lists(n):
     3         1      46659.0  46659.0      7.8      l1 = [i for i in range(n)]
     4         1     158911.0 158911.0     26.4      l2 = func_1([i for i in range(n)])
     5         1     163198.0 163198.0     27.2      l3 = func_2([i for i in range(n)])
     6         1     232159.0 232159.0     38.6      l4 = func_3([i for i in range(n)])
     7         1         50.0     50.0      0.0      return l1, l2, l3, l4

Проверка по памяти через memory-profiler

In [198]:
%%writefile str_memory_consumption1.py

from memory_profiler import profile

def func_1(l):
    for i in range(len(l)):
        l[i] = l[i]**5
    return l

def func_2(l):
    for i, item in enumerate(l):
        l[i] = item**5
    return l

def func_3(l):
    l = list(map(lambda x: x**5, l))
    return l

@profile
def manage_lists_mem(n):
    l2 = func_1([i for i in range(n)])
    l3 = func_2([i for i in range(n)])
    l4 = func_3([i for i in range(n)])
    return l2, l3, l4

if __name__ == '__main__':
    manage_lists_mem(10001)

Overwriting str_memory_consumption1.py


In [199]:
!python str_memory_consumption1.py

Filename: str_memory_consumption1.py

Line #    Mem usage    Increment   Line Contents
    18     39.4 MiB     39.4 MiB   @profile
    19                             def manage_lists_mem(n):
    20     40.1 MiB      0.1 MiB       l2 = func_1([i for i in range(n)])
    21     40.6 MiB      0.2 MiB       l3 = func_2([i for i in range(n)])
    22     41.5 MiB      0.5 MiB       l4 = func_3([i for i in range(n)])
    23     41.5 MiB      0.0 MiB       return l2, l3, l4




Проверка по времени через timeit

In [113]:
%timeit l2=func_1([i for i in range(1001)])

639 µs ± 31.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [114]:
%timeit l3=func_2([i for i in range(1001)])

675 µs ± 19.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [115]:
%timeit l4=func_3([i for i in range(1001)])

644 µs ± 9.89 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


##### Выводы:
Самый быстрый способ это перебор элементов списка через индексы. Применить функцию ко всем элементами через map медленный способ, думаю, что из-за того, что каждый раз приходится создавать объект функции lambda. Хотя timeit показал, что enumerate самый медленный способ.
По расходу памяти способ через метод map так же оказался самым плохим. Видимо из-за создания дополнительных объектов при реализации этого метода.

##### Задание 3.
Буду сортировать список строк в зависимости от длины.

In [143]:
# Список строк для сортировки
import random
ls = ['sfd'*random.randint(3,10) for i in range(101)]

In [124]:
# Функции для сортировки
def sort_1(l):
    for k in range(len(l)):
        min_in=k
        min_s=len(l[k])
        a=l[k]
        for i in range(k, len(l)):        
            if len(l[i])<min_s:
                min_in=i
                min_s=len(l[i])
        l[k]=l[min_in]
        l[min_in]=a
    return l
    
def sort_2(l):
    l.sort(key=len)
    return l

Проверка по времени через timeit

In [141]:
%timeit s1=sort_1(['sfd'*random.randint(3,10) for i in range(101)])

973 µs ± 40.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [142]:
%timeit s2=sort_2(['sfd'*random.randint(3,10) for i in range(101)])

228 µs ± 28.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Проверка по времени через line-profiler

In [146]:
# Функция для запуска функций
def sort_all():
    l1 = sort_1(['sfd'*random.randint(3,10) for i in range(101)])
    l2 = sort_2(['sfd'*random.randint(3,10) for i in range(101)])
    return l1, l2

In [147]:
%lprun -f sort_all sort_all()

Timer unit: 1e-07 s

Total time: 0.0079044 s
File: <ipython-input-146-5e06037eb75f>
Function: sort_all at line 2

    Line        Hits       Time  Per Hit   % Time  Line Contents
 
     2                                           def sort_all():
     3         1      66112.0  66112.0     83.6      l1 = sort_1(['sfd'*random.randint(3,10) for i in range(101)])
     4         1      12907.0  12907.0     16.3      l2 = sort_2(['sfd'*random.randint(3,10) for i in range(101)])
     5         1         25.0     25.0      0.0      return l1, l2

Проверка по памяти через memory-profiler

In [152]:
%%writefile str_memory_consumption2.py

from memory_profiler import profile
import random

def sort_1(l):
    for k in range(len(l)):
        min_in=k
        min_s=len(l[k])
        a=l[k]
        for i in range(k, len(l)):        
            if len(l[i])<min_s:
                min_in=i
                min_s=len(l[i])
        l[k]=l[min_in]
        l[min_in]=a
    return l
    
def sort_2(l):
    l.sort(key=len)
    return l

@profile
def sort_all_mem(n):
    l1 = sort_1(['sfd'*random.randint(3,10) for i in range(n)])
    l2 = sort_2(['sfd'*random.randint(3,10) for i in range(n)])
    return l1, l2

if __name__ == '__main__':
    sort_all_mem(10001)

Overwriting str_memory_consumption2.py


In [153]:
!python str_memory_consumption2.py

Filename: str_memory_consumption2.py

Line #    Mem usage    Increment   Line Contents
    22     39.4 MiB     39.4 MiB   @profile
    23                             def sort_all_mem(n):
    24     40.2 MiB      0.1 MiB       l1 = sort_1(['sfd'*random.randint(3,10) for i in range(n)])
    25     41.1 MiB      0.1 MiB       l2 = sort_2(['sfd'*random.randint(3,10) for i in range(n)])
    26     41.1 MiB      0.0 MiB       return l1, l2




##### Выводы
Конечно же стандартный метод сортировки list.sort работает гораздо быстрее, так как реализован по быстрому алгоритму и оптимизирован внутри. Перебор каждого элемента списка как в первом способе очень долгий процесс.
По потреблению памяти оба способа сопоставимы, сортировка через sort потребляет чуть больше, наверное из-за способа реализации внутри этого метода.

##### Задание 4.

In [176]:
# Создадим список списков для экспериментов
ll = [[i for i in range(random.randint(1, 51))] for l in range(random.randint(1, 501))]

In [170]:
# Функции для распаковки списка списков в один список
def unpack_1(l):
    return [e for i in l for e in i]

def unpack_2(l):
    res = []
    for v in l:
        for i in v:
            res.append(i)
    return res

Проверка по времени через timeit

In [180]:
%timeit ll2=unpack_2(ll)

875 µs ± 59.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [181]:
%timeit ll1=unpack_1(ll)

378 µs ± 33.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Проверка по времени через line-profiler

In [183]:
# Функция для запуска функций
def unpack_all(ll):
    l1 = unpack_1(ll)
    l2 = unpack_2(ll)
    return l1, l2

In [184]:
%lprun -f unpack_all unpack_all(ll)

Timer unit: 1e-07 s

Total time: 0.0096876 s
File: <ipython-input-183-d0ca8a044cf8>
Function: unpack_all at line 2

    Line      Hits       Time  Per Hit   % Time  Line Contents

     2                                           def unpack_all(ll):
     3         1      21844.0  21844.0     22.5      l1 = unpack_1(ll)
     4         1      74990.0  74990.0     77.4      l2 = unpack_2(ll)
     5         1         42.0     42.0      0.0      return l1, l2

In [189]:
%%writefile str_memory_consumption3.py

from memory_profiler import profile
import random

def unpack_1(l):
    return [e for i in l for e in i]

def unpack_2(l):
    res = []
    for v in l:
        for i in v:
            res.append(i)
    return res

lll = [[i for i in range(random.randint(1, 101))] for l in range(random.randint(1, 1001))]

@profile
def unpack_all_mem(l):
    
    l1 = unpack_1(l)
    l2 = unpack_2(l)
    return l1, l2

if __name__ == '__main__':
    unpack_all_mem(lll)

Overwriting str_memory_consumption3.py


In [190]:
!python str_memory_consumption3.py

Filename: str_memory_consumption3.py

Line #    Mem usage    Increment   Line Contents
    17     39.8 MiB     39.8 MiB   @profile
    18                             def unpack_all_mem(l):
    19                                 
    20     40.6 MiB      0.8 MiB       l1 = unpack_1(l)
    21     40.6 MiB      0.0 MiB       l2 = unpack_2(l)
    22     40.6 MiB      0.0 MiB       return l1, l2




##### Выводы:
Способ с использованием генератора работает быстрее. Генераторы всегда работают быстрее.
По использованию памяти способ с генератором расходует ее больше. Объект генератор видимо забирает больше памяти. 