# Распаковка последовательности в отдельные переменные

In [1]:
#Задача: У Вас есть кортеж из N элементов или последовательность, которую Вы хотите распаковать в коллекцию из N переменных.

In [1]:
#Последовательность может быть распакована с помощью простого присваивания. 
#Количество и структура переменных должны совпадать с таковыми у последовательности.
p = (4,5)
x, y = p
x

4

In [2]:
y

5

In [3]:
#
data = ['ACME', 50, 90.1, (2012, 12, 21)]
name, shares, price, date = data
name

'ACME'

In [4]:
date

(2012, 12, 21)

In [5]:
price

90.1

In [6]:
shares

50

In [7]:
#
data = ['ACME', 50, 90.1, (2012, 12, 21)]
name, shares, price, (year, mon, day) = data
name

'ACME'

In [8]:
year

2012

In [9]:
mon

12

In [10]:
day

21

In [11]:
#Несовпадение количества элементов приводит к ошибке
p = (4, 5)
x, y, z = p

ValueError: not enough values to unpack (expected 3, got 2)

In [12]:
#Распаковка работает с любыми иерируемыми объектами (строки, файлы, генераторы, итераторы)
s = 'Hello'
a, b, c, d, e = s
a

'H'

In [13]:
b

'e'

In [14]:
e

'o'

In [15]:
#отбраковка некоторых значений
data = ['ACME', 50, 90.1, (2012, 12, 21)]
_, shares, price, _ = data
shares

50

In [16]:
price

90.1

# Распаковка элементов из последовательностей произвольной длинны

In [None]:
#нужно распаковать N элементов из итерируемого объекта, но этот объект может содержать больше N элементов (исключение: слишком
#много значений для распаковки)

In [1]:
#используем выражение со звездочкой
def drop_first_last(grades):
    first, *middle, last = grades
    avg_middle = sum(middle)/len(middle)
    return avg_middle


In [3]:
drop_first_last((2, 3, 3, 3, 5))

3.0

In [4]:
record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212')
name, email, *phone_numbers = record
name

'Dave'

In [5]:
email

'dave@example.com'

In [6]:
phone_numbers

['773-555-1212', '847-555-1212']

In [12]:
#есть последовательность  значений - продажи вашей компании за последние восемь кварталов
#как последний квартал соотносится со средним значением по первым семи

In [None]:
'''def get_avg_sales(sales_record):
    *trailing_qtrs, current_qts = sales_record
    trailing_avg = sum(trailing_qtrs) / len(trailing_qtrs)
    return avg_comparison(trailing_avg, current_qts)

get_avg_sales([10, 8, 7, 1, 9, 5, 10, 3])'''

In [7]:
#*trailing_qtrs, current_qts = sales_record
#trailing_avg = sum(trailing_qtrs) / len(trailing_qtrs)
#return avg_comparison(trailing_avg, current_qts)

*trailing, current = [10, 8, 7, 1, 9, 5, 10, 3]
trailing

[10, 8, 7, 1, 9, 5, 10]

In [8]:
current

3

In [9]:
trailing_avg = sum(trailing) / len(trailing)
trailing_avg

7.142857142857143

In [10]:
print('Семь кварталов среднее = ', trailing_avg, '   Последний квартал =', current)

Семь кварталов среднее =  7.142857142857143    Последний квартал = 3


In [11]:
#Итерирование по последовательности кортеджей переменной длинны
records = [
    ('foo', 1, 2),
    ('bar', 'hello'),
    ('foo', 3, 4),
]

In [12]:
def do_foo(x, y):
    print(('foo', x, y))
    
def do_bar(s):
    print('bar', s)
    
for tag, *args, in records:
    if tag == 'foo':
        do_foo(*args)
    elif tag == 'bar':
        do_bar(*args)

('foo', 1, 2)
bar hello
('foo', 3, 4)


In [13]:
#Распаковка со звездочкой  в комбинации с операциями обработки строк, такими как разрезание
line = 'jgdhgqjdg: 43 jhdqdjh:789hakjhd67: ukk' 
name, *fields, sh = line.split(':')
name

'jgdhgqjdg'

In [14]:
sh

' ukk'

In [15]:
fields

[' 43 jhdqdjh', '789hakjhd67']

In [18]:
#нужно распаковать значения и отбросить их
data = ['ACME', 50, 90.1, (2012, 12, 21)]
name, *_, (year, *_) = data
name

'ACME'

In [19]:
year

2012

In [20]:
#обработка списков разделить на "хвост" и "голову"
items = [1, 10, 7, 4, 5, 9]
head, *tail = items
head

1

In [21]:
tail

[10, 7, 4, 5, 9]

In [25]:
def summ(items):
    head, *tail = items
    print('items=', items)
    print('head=', head)
    print('tail=', tail)
    return head + sum(tail) if tail else head
summ(items)

items= [1, 10, 7, 4, 5, 9]
head= 1
tail= [10, 7, 4, 5, 9]
items= [10, 7, 4, 5, 9]
head= 10
tail= [7, 4, 5, 9]
items= [7, 4, 5, 9]
head= 7
tail= [4, 5, 9]
items= [4, 5, 9]
head= 4
tail= [5, 9]
items= [5, 9]
head= 5
tail= [9]
items= [9]
head= 9
tail= []


36

# Оставляем N последних элементов

In [None]:
#Хранение ограниченной истории из нескольких последних элементов, 
#полученных в ходе итерации или др процесса обработки данных

In [6]:
from collections import deque
def search(lines, pattern, history=5):
    previous_lines = deque(maxlen=history)
    for line in lines:
        if pattern in line:
            yield line, previous_lines
        previous_lines.append(line)

In [7]:
#Пример использования
with open('somefile.txt') as f:
    for line, prevlines in search(f, 'анализ', 5):
        for pline in prevlines:
            print(pline, end='')
            print('-'*20)

Способ изучения ИИ
--------------------
В приоритете 5 книг + документация по OpenCV
--------------------

--------------------

--------------------
1. Python для анализа данных (Маккини)
--------------------

--------------------
2. Введение в машинное обучение (Мюллер)
--------------------

--------------------


In [9]:
with open('somefile.txt') as f:
    for line, prevlines in search(f, 'анализ', 5):
        print(line)

1. Python для анализа данных (Маккини)

3. Прикладной анализ текстовых данных на Python



In [10]:
q = deque(maxlen=3)
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [11]:
q.append(4)
q

deque([2, 3, 4])

In [12]:
q = deque()
q.append(1)
q.append(2)
q.append(3)
q

deque([1, 2, 3])

In [13]:
q.appendleft(4)
q

deque([4, 1, 2, 3])

In [14]:
q.pop()

3

In [15]:
q.popleft()

4

# Поиск N максимальных и минимальных элементов

In [None]:
#Создать список N максимальных и минимальных элементов коллекции

In [2]:
import heapq
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
print('Максимальные 3 числа ', heapq.nlargest(3, nums))
print('Минимальные 3 числа ', heapq.nsmallest(3, nums))

Максимальные 3 числа  [42, 37, 23]
Минимальные 3 числа  [-4, 1, 2]


In [3]:
portfolio = [
    {'name': 'IBM', 'shares': 100, 'price': 91.1},
    {'name': 'AAPL', 'shares': 50, 'price': 543.22},
    {'name': 'FB', 'shares': 200, 'price': 21.09},
    {'name': 'HPQ', 'shares': 35, 'price': 31.75},
    {'name': 'YHOO', 'shares': 45, 'price': 16.35},
    {'name': 'ACME', 'shares': 75, 'price': 115.65}
    
]
cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price'])
expensive = heapq.nlargest(3, portfolio, key=lambda s: s['price'])
print('cheap', cheap)
print('expensive', expensive)

cheap [{'name': 'YHOO', 'shares': 45, 'price': 16.35}, {'name': 'FB', 'shares': 200, 'price': 21.09}, {'name': 'HPQ', 'shares': 35, 'price': 31.75}]
expensive [{'name': 'AAPL', 'shares': 50, 'price': 543.22}, {'name': 'ACME', 'shares': 75, 'price': 115.65}, {'name': 'IBM', 'shares': 100, 'price': 91.1}]


In [4]:
nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2]
import heapq
heap = list(nums)
heapq.heapify(heap)
print('heap = ', heap)

heap =  [-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8]


In [5]:
heapq.heappop(heap)

-4

In [6]:
heapq.heappop(heap)

1

In [7]:
heapq.heappop(heap)

2

In [10]:
print('весь список ', heap)
sorted(heap)[:5]

весь список  [2, 7, 8, 23, 42, 37, 18, 23]


[2, 7, 8, 18, 23]

# Реализация очереди с приоритетом

In [None]:
#Нужно реализовать очередь, которая сортирует элементы по заданному приоритету 
#и всегда возвращает элемент с наивысшим приоритетом при каждой операции получения или удаления элемента

In [1]:
import heapq
class PriorityQueue:
    def __init__(self):
        self._queue = []
        self._index = 0
        
    def push(self, item, priority):
        heapq.heappush(self._queue, (-priority, self._index, item))
        self._index += 1
        
    def pop(self):
        return heapq.heappop(self._queue)[-1]

In [2]:
class Item:
    def __init__(self, name):
        self.name = name
        
    def __repr__(self):
        return 'Item ({!r})'.format(self.name)

In [5]:
q = PriorityQueue()
q.push(Item('foo'), 1)
q.push(Item('bar'), 5)
q.push(Item('spam'), 4)
q.push(Item('grok'), 1)
print(q._queue)

[(-5, 1, Item ('bar')), (-1, 0, Item ('foo')), (-4, 2, Item ('spam')), (-1, 3, Item ('grok'))]


In [6]:
q.pop()

Item ('bar')

In [7]:
q.pop()

Item ('spam')

In [8]:
q.pop()

Item ('foo')

In [9]:
q.pop()

Item ('grok')

In [11]:
a = (1, Item('foo'))
b = (5, Item('bar'))
a < b

True

In [13]:
a = (1, 0, Item('foo'))
b = (5, 1, Item('bar'))
c = (1, 2, Item('grok'))
a < b

True

In [14]:
a < c

True

# Отображение ключей на несколько значений в словаре

In [None]:
#создание мульти словаря

In [1]:
d = {
    'a': [1, 2, 3],
    'b':[4, 5]
}

e = {
    'a': {1, 2, 3},
    'b':{4, 5}
}

In [5]:
from collections import defaultdict
d = defaultdict(list)
d['a'].append(1)
d['a'].append(2)
d['b'].append(4)

In [6]:
print('d', d)

d defaultdict(<class 'list'>, {'a': [1, 2], 'b': [4]})


In [7]:
d = defaultdict(set)
d['a'].add(1)
d['a'].add(2)
d['b'].add(4)

In [8]:
print('d', d)

d defaultdict(<class 'set'>, {'a': {1, 2}, 'b': {4}})


In [9]:
d = {}
d.setdefault('a', []).append(1)
d.setdefault('a', []).append(4)
d.setdefault('b', []).append(1)
print('d', d)

d {'a': [1, 4], 'b': [1]}


In [11]:
#запутанное создание словаря
d = {}
pairs = [('a', 1), ('b', 2), ('c', 'new')]
for key, value in pairs:
    if key not in d:
        d[key] = []
    d[key].append(value)
print('d', d)

d {'a': [1], 'b': [2], 'c': ['new']}


In [13]:
#чистый код при создании словаря
d = defaultdict(list)
for key, value in pairs:
    d[key].append(value)
        
print('d', d)

d defaultdict(<class 'list'>, {'a': [1], 'b': [2], 'c': ['new']})


# Поддержание порядка в словарях

In [None]:
#Создание словаря, который позволит контролировать порядок элементов при итерировании по нему или при сериализации

In [2]:
from collections import OrderedDict
d = OrderedDict()
d['foo'] = 1
d['bar'] = 2
d['spam'] = 3
d['grok'] = 4

print(d)

for key in d:
    print(key, d[key])


OrderedDict([('foo', 1), ('bar', 2), ('spam', 3), ('grok', 4)])
foo 1
bar 2
spam 3
grok 4


In [3]:
import json
json.dumps(d)

'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}'

# Вычисления со словорями

In [None]:
#Проведение вычислений(поиск минимального и максимального значений, сортировка) на словаре с данными

In [5]:
prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.2,
    'FB': 10.75
}
min_price = min(zip(prices.values(), prices.keys()))
max_price = max(zip(prices.values(), prices.keys()))
print('min_price = ', min_price)
print('max_price = ', max_price)

min_price =  (10.75, 'FB')
max_price =  (612.78, 'AAPL')


In [6]:
min_price1 = min([(3, 2), (1, 7), (4, 1), (1,3)], key=lambda x: x[1])
print('min_price1 =', min_price1)

min_price1 = (4, 1)


In [7]:
prices_sorted = sorted(zip(prices.values(), prices.keys()))
print('prices_sorted = ', prices_sorted)

prices_sorted =  [(10.75, 'FB'), (37.2, 'HPQ'), (45.23, 'ACME'), (205.55, 'IBM'), (612.78, 'AAPL')]


In [8]:
prices_and_names = zip(prices.values(), prices.keys())
print(min(prices_and_names))
#ошибка тк zipсоздает иттератор по которому можно пройти один раз
print(max(prices_and_names))                       

(10.75, 'FB')


ValueError: max() arg is an empty sequence

In [9]:
min((prices.values()))

10.75

In [10]:
max((prices.values()))

612.78

In [11]:
min(prices, key=lambda k: prices[k])

'FB'

In [12]:
max(prices, key=lambda k: prices[k])

'AAPL'

In [13]:
prices = {'AAA': 45.23, 'ZZZ': 45.23}
min(zip(prices.values(), prices.keys()))

(45.23, 'AAA')

In [14]:
max(zip(prices.values(), prices.keys()))

(45.23, 'ZZZ')

# Поиск общих элементов в двух словарях

In [None]:
#у Вас два словаря и Вы хотите выяснить, что у них общего (одинаковые ключи, значения)

In [1]:
a = {
    'x': 1,
    'y': 2,
    'z': 3
}

b = {
    'w': 10,
    'x': 11,
    'y': 2
}

In [2]:
#общие ключи
a.keys() & b.keys()

{'x', 'y'}

In [3]:
#ключи есть в а, но нет в b
a.keys() - b.keys()

{'z'}

In [4]:
#общие пары (keys, values)
a.items() & b.items()

{('y', 2)}

In [7]:
#Создаем новый словарь, из которого удалены некоторые ключи
c = {key: a[key] for key in a.keys() - {'z', 'w'}}
c

{'y': 2, 'x': 1}

# Удаление дубликатов из последовательности с сохранением порядка элементов

In [None]:
#исключить дублирующие значения из последовательности, но сохранить порядок следования оставшихся элементов

In [1]:
def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

In [2]:
a = [1, 5, 2, 1, 9, 1, 5, 10]
list(dedupe(a))

[1, 5, 2, 9, 10]

In [3]:
def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

In [5]:
a = [{'x':1, 'y':2}, {'x':1, 'y':3}, {'x': 1, 'y': 2}, {'x': 2, 'y':4}]
list(dedupe(a, key=lambda d: (d['x'], d['y'])))

[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

In [7]:
list(dedupe(a, key=lambda d: d['x']))

[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]

In [None]:
#чтение файла и удаление дублирующих строк
with open(somefile, 'r') as f:
    for line in dedupe(f):
        pass

# Присваивание имен срезам

In [None]:
#программа превратилась в нечитабельную массу индексов срезов, нужно расчистить

In [1]:
items = [0, 1, 2, 3, 4, 5, 6]
a = slice(2, 4)
items[2:4]

[2, 3]

In [2]:
items[a]

[2, 3]

In [3]:
items[a] = [10, 11]
items

[0, 1, 10, 11, 4, 5, 6]

In [4]:
del items[a]
items

[0, 1, 4, 5, 6]

In [5]:
a = slice(10, 50, 2)
a.start

10

In [6]:
a.stop

50

In [7]:
a.step

2

In [11]:
s = 'HelloWorld'*2
a.indices(len(s))

(10, 20, 2)

In [12]:
for i in range(*a.indices(len(s))):
    print(s[i])

H
l
o
o
l


# Определение наиболее часто встречающихся элементов в последовательности

In [19]:
from collections import Counter
words = [
    'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes',
    'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', 'around', 'the',
    'eyes', 'dont', 'look', 'around', 'the', 'eyes', 'look', 'into',
    'my', 'eyes', 'youre', 'under'
]

In [20]:
word_counts = Counter(words)

In [21]:
top_three = word_counts.most_common(3)
print(top_three)

[('eyes', 8), ('the', 5), ('look', 4)]


In [22]:
word_counts['not']

1

In [23]:
word_counts['eyes']

8

In [24]:
morewords = ['why', 'are', 'you', 'not', 'looking', 'in', 'my', 'eyes']

In [None]:
for word in morewords:
    word_counts[word] += 1
    
word_counts['eyes']

In [25]:
word_counts.update(morewords)

In [26]:
word_counts['not']

2

In [27]:
a = Counter(words)
b = Counter(morewords)

In [28]:
a

Counter({'look': 4,
         'into': 3,
         'my': 3,
         'eyes': 8,
         'the': 5,
         'not': 1,
         'around': 2,
         'dont': 1,
         'youre': 1,
         'under': 1})

In [29]:
b

Counter({'why': 1,
         'are': 1,
         'you': 1,
         'not': 1,
         'looking': 1,
         'in': 1,
         'my': 1,
         'eyes': 1})

In [30]:
c = a + b
c

Counter({'look': 4,
         'into': 3,
         'my': 4,
         'eyes': 9,
         'the': 5,
         'not': 2,
         'around': 2,
         'dont': 1,
         'youre': 1,
         'under': 1,
         'why': 1,
         'are': 1,
         'you': 1,
         'looking': 1,
         'in': 1})

In [31]:
d = a - b
d

Counter({'look': 4,
         'into': 3,
         'my': 2,
         'eyes': 7,
         'the': 5,
         'around': 2,
         'dont': 1,
         'youre': 1,
         'under': 1})

# Сортировка списка словарей по общему ключу

In [None]:
#Есть список словарей, 
#нужно отсортировать записи согласно одному или более значениям

In [10]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

In [11]:
from operator import itemgetter
row_by_fname = sorted(rows, key=itemgetter('fname'))
print(row_by_fname)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}]


In [3]:
row_by_fname = sorted(rows, key=lambda x: x['fname'])
print(row_by_fname)

[{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1002}]


In [6]:
row_by_uid = sorted(rows, key=itemgetter('uid'))
print(row_by_uid)

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


In [7]:
row_by_lfname = sorted(rows, key=itemgetter('lname', 'fname'))
print(row_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


In [8]:
row_by_lfname = sorted(rows, key=lambda x: (x['lname'], x['fname']))
print(row_by_lfname)

[{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}]


In [12]:
min(rows, key=itemgetter('uid'))

{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}

In [13]:
max(rows, key=itemgetter('uid'))

{'fname': 'Big', 'lname': 'Jones', 'uid': 1004}

# Сортировка oбъектов, не поддерживающих сравнение

In [None]:
#Вы хотите отсортировать объекты одного класса, 
#но они не поддерживают операции сравнения

In [1]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id
        
    def __repr__(self):
        return 'User({})'.format(self.user_id)
    
users = [User(23), User(3), User(99)]
users

[User(23), User(3), User(99)]

In [2]:
sorted(users, key=lambda x: x.user_id)

[User(3), User(23), User(99)]

In [3]:
from operator import attrgetter
sorted(users, key=attrgetter('user_id'))

[User(3), User(23), User(99)]

In [None]:
#by_name=sorted(users, key=attrgetter('last_name', 'first_name'))

In [4]:
min(users, key=attrgetter('user_id'))

User(3)

In [5]:
max(users, key=attrgetter('user_id'))

User(99)

# Группировка записей на основе полей

In [9]:
from operator import itemgetter
from itertools import groupby

In [12]:
rows = [
    {'address':'5412 N CLARK', 'date':'7/01/2012'},
    {'address':'5148 N CLARK', 'date':'7/04/2012'},
    {'address':'5800 E 58TH', 'date':'7/02/2012'},
    {'address':'2122 N CLARK', 'date':'7/03/2012'},
    {'address':'5645 N RAVENSWOOD', 'date':'7/02/2012'},
    {'address':'1060 W ADDISON', 'date':'7/02/2012'},
    {'address':'4801 N BROADWAY', 'date':'7/01/2012'},
    {'address':'GRANVILLE', 'date':'7/04/2012'}
]

In [13]:
#Сортируем по нужным полям
rows.sort(key=itemgetter('date'))

In [14]:
#Итерируем в группах
for date, items, in groupby(rows, key=itemgetter('date')):
    print(date)
    for i in items:
        print(' ',i)

7/01/2012
  {'address': '5412 N CLARK', 'date': '7/01/2012'}
  {'address': '4801 N BROADWAY', 'date': '7/01/2012'}
7/02/2012
  {'address': '5800 E 58TH', 'date': '7/02/2012'}
  {'address': '5645 N RAVENSWOOD', 'date': '7/02/2012'}
  {'address': '1060 W ADDISON', 'date': '7/02/2012'}
7/03/2012
  {'address': '2122 N CLARK', 'date': '7/03/2012'}
7/04/2012
  {'address': '5148 N CLARK', 'date': '7/04/2012'}
  {'address': 'GRANVILLE', 'date': '7/04/2012'}


In [15]:
#группировка
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
    rows_by_date[row['date']].append(row)
    
for r in rows_by_date['7/01/2012']:
    print(r)

{'address': '5412 N CLARK', 'date': '7/01/2012'}
{'address': '4801 N BROADWAY', 'date': '7/01/2012'}
