# 拆分赋值

序列或者可迭代对象可以通过简单的赋值操作进行分解，这些序列包含list，tuple，字符串，但要注意前后的变量数目要相等，需要丢弃的可以用*特殊占位符*赋值

In [None]:
data = [1,50,11,9,(1,2,3)];
a,b,c,_,e = data;
print(e);

(1, 2, 3)


python的*星号表达式*可以在赋值的时候，通配多项，进而保留有特征的值,对于不确定个数的匹配很有效，对于规则简单的正则匹配更简洁。星号本身代表的是*拆分序列*

In [None]:
data = [1,50,11,9,(1,2,3)];
a,*b,c = data;
print(b)
a,b,*c = data;
print(c);
a,b,*_ = data;
print(_);

[50, 11, 9]
[11, 9, (1, 2, 3)]
[11, 9, (1, 2, 3)]


In [None]:
records = [
    ("type1",1,2),
    ("type2","hello"),
    ("type1",3,4)
]

def do_type1(x,y):
    print("data x = %d, y = %d"%(x,y));

def do_type2(x):
    print("string is %s"%(x));

for type, *args in records: #unify the difference in one thread.
    if type == "type1":
        do_type1(*args);
    elif type == "type2":
        do_type2(*args);


data x = 1, y = 2
string is hello
data x = 3, y = 4


保证有限历史记录可以用collection.deque,deque(maxlen=N) 构造函数会生成一个固定大小的queue，当新元素加入，并且queue已满的时候，老元素会被自动移除。

在队列两端插入或删除元素时间复杂度都是 O(1) ，区别于列表，在列表的开头插入或删除元素的时间复杂度为 O(N) 。

In [None]:
from collections import deque;

q = deque(maxlen=3);
q.append(1);
q.append(2);
q.append(3);
print(q);
q.append(4);
print(q);
q.appendleft(1);
print(q);


deque([1, 2, 3], maxlen=3)
deque([2, 3, 4], maxlen=3)
deque([1, 2, 3], maxlen=3)


# 排序

找最大值，最小值分为几种情况，如果是找最大值，最小值，那么直接min(),max()即可。如果是找最大的三个数，或者最小的三个数，可以利用堆属性的heapq的nlargest和nsmallest来，如果最大最小的数目和queue大小相似，可以先用heapq排序，再用切片赋值的方式取出。

堆的属性是headq[0]永远是最小值

In [None]:
import heapq;

lists = [1,9,3,7,6,5,0,-6,-100];
heapq.heapify(lists); #convert lists to heap 
print(lists); #heap ensure heap[0] is the min value.

heapq.heappop(lists);
print(lists);

heapq.heappop(lists);
print(lists);

heapq.heappop(lists); # after each pop, heap ensure heap[0] is min value
print(lists);

large3 = heapq.nlargest(3,lists);
print(large3);

small3 = heapq.nsmallest(3,lists);
print(small3);

heapq_sort = [heapq.heappop(lists) for _ in range (len(lists))];
print(heapq_sort);



[-100, -6, 0, 1, 6, 5, 3, 9, 7]
[-6, 1, 0, 7, 6, 5, 3, 9]
[0, 1, 3, 7, 6, 5, 9]
[1, 6, 3, 7, 9, 5]
[9, 7, 6]
[1, 3, 5]
[1, 3, 5, 6, 7, 9]


In [None]:
import heapq;

priority_record = [[4,"e"],[0,"a"],[-1,"b"],[2,"c"],[3,"d"]];
for i in priority_record:
    i[0] = -i[0];
heapq.heapify(priority_record); 
print(priority_record);

for i in range (len(priority_record)):
    print(heapq.heappop(priority_record)[1]);

print ([4,'e'] > [3,'a']); #list是可以比较大小的，看的是[0],[0]相同看[1]，以此类推


[[-4, 'e'], [-3, 'd'], [1, 'b'], [-2, 'c'], [0, 'a']]
e
d
c
a
b
True


# DICT

1. dict key必须是不可变对象， dict是根据key来计算value的地址，所以key一旦确定就不能改变。字符串，整数都是不可变对象，list就是可变对象
2. set和dict都是用{}作为标识符，不同的是dict是key-value pair，set只有key， 同样要求key之间不能重复，同时key必须是不可变对象，这样才能确定是两个key是否相等
3. set可以做逻辑上的与或操作。

In [3]:
a = set([1,2,2,1,4,2,9,8]);
print(a);

b = set([1,2,3]);

c = a & b;
print(c);
c = a | b;
print(c);

{1, 2, 4, 8, 9}
{1, 2}
{1, 2, 3, 4, 8, 9}


In [16]:
# typical dict init 

pairs = [{1,2},{3,4},{5,6}];
d = {}; # init dict
for key, value in pairs:
    if key not in d: # judge of key exist
        d[key] = []  # if a new key, init value format 
    d[key].append(value)

print(d);

# defaultdict 

from collections import defaultdict;

d = defaultdict(list);
for key, value in pairs:
    d[key].append(value);

print(d);

{1: [2], 3: [4], 5: [6]}
defaultdict(<class 'list'>, {1: [2], 3: [4], 5: [6]})


In [11]:
from collections import defaultdict;

#no need to init dict, 
#just add key and append if value is a list, 
#if value is a single data, just assign it.

d = defaultdict(list); # no need d = {}; and judege if the key exists
print(d);
d['a'].append(1);
d['a'].append(2);
d['c'] = 9;
print(d);
print(d['a']);

s = defaultdict(set);
print(s);
s[1].add(6);
s[2].add(3);
s[1].add(7);
print(s);
print(s[1]);

defaultdict(<class 'list'>, {})
defaultdict(<class 'list'>, {'a': [1, 2], 'c': 9})
[1, 2]
defaultdict(<class 'set'>, {})
defaultdict(<class 'set'>, {1: {6, 7}, 2: {3}})
{6, 7}


4. 正常dict的key是乱序的，实际初始化的顺序和最终输出的顺序不一致。如果想得到一个保续的dict，就需要用到OrderedDict
5. 需要注意的是OrderedDict使用另一个链表来记录item插入顺序，所以占用内存是正常dict的两倍，如果dict内容本身很大，需要注意内存开销。

In [7]:
from collections import OrderedDict;
d = OrderedDict();
d['a'] = 1;
d['b'] = 2;
d['c'] = 3;
d['d'] = 4;
print(d);

import json;
s = json.dumps(d);
print(s);


OrderedDict([('a', 1), ('b', 2), ('c', 3), ('d', 4)])
{"a": 1, "b": 2, "c": 3, "d": 4}
[1, 2, 3, 4]


lambda function like 

```
lambda x : 2*x 
```
is equvalent to 

```
def func (x):
    return 2*x

```

你可以在 min() 和 max() 函数中提供 key 函数参数来获取最小值或最大值对应的键的信息：

In [14]:
dict = {
    "Helln" : 100,
    "Tom" : 98,
    "Jim" : 65,
    "Lucy" : 76 
};

print(max(dict, key=lambda x : dict[x])); 

# compare based on the return of lambda function

print(min(zip(dict.values(),dict.keys())));

# compare the first index data and if first index data is equal 
# then compare the 2nd. 



Helln
(65, 'Jim')
dict_keys(['Helln', 'Tom', 'Jim', 'Lucy'])


只有具有set属性的集合才能进行集合操作（&，|，-）即保证集合内部没有重复的部分。符合这个的有set, dict.keys(), dict.items()。

对于dict.values()不可以，原因还是因为其不能保证集合内没有重复元素，可能会导致某种集合操作出错。

In [23]:
from collections import defaultdict;

d1 = defaultdict();
d1['x'] = 1;
d1['y'] = 2;
d1['z'] = 3;

d2 = defaultdict();
d2['x'] = 9;
d2['y'] = 2;
d2['w'] = 3;

print(d1,d2);

print(d1.items() & d2.items());
print(d1.keys() - d2.keys());
print(d2.keys() - d1.keys());
print(d2.keys() | d1.keys());
print(set(d1.values()) & set(d2.values())); # convert to set and do operation


defaultdict(None, {'x': 1, 'y': 2, 'z': 3}) defaultdict(None, {'x': 9, 'y': 2, 'w': 3})
{('y', 2)}
{'z'}
{'w'}
{'y', 'w', 'z', 'x'}
{2, 3}


# sort
1. sorted()/min()/max() 提供了对输入的list或者dict,排序和大小比较的功能。
2. 但如果需要对相应的输入做一定的变换再进行排序或者比较，这些函数提供了一个叫key aruguement.ex:
    ```
    sorted(<callable obj>, key=func) # func的输入时前面的list或者dict，func的输出是要进行sort或者比较大小的对象

    ```
3. calllable obj 可以是dict, list, tuple 等等。
4. func 有两种style，
    - 一种是上面用过的lambda函数，key=lambda x : expression(x), x 是callable obj中的一个item，expression(x)是函数输出，也就是sorted作用对象
    - 一种是 operator.attrgetter() for class obj,  operator.itemgetter() for dict.
5. lambda 函数更加通用，不区分class还是dict，但更慢一点，operator的性能更好. 两者都可以利用先比较第一个元素的特性，完成多层次的比较

In [29]:
rows = [
    {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003},
    {'fname': 'David', 'lname': 'Beazley', 'uid': 1002},
    {'fname': 'John', 'lname': 'Cleese', 'uid': 1001},
    {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}
]

# sort using lambda 
rows_by_uid =  sorted(rows,key=lambda x : x['uid']);
rows_by_name = sorted(rows,key=lambda x : (x['fname'],x['lname'])) # first compare fname, if fname is equal, compare lname
print(rows_by_uid);

# sort using itemgetter
from operator import itemgetter;
rows_by_uid1 = sorted(rows,key=itemgetter('uid'));
rows_by_name1 = sorted(rows,key=itemgetter('fname','lname'));
print(rows_by_uid1);

[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]
[{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, {'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, {'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, {'fname': 'Big', 'lname': 'Jones', 'uid': 1004}]


In [27]:
class User:
    def __init__(self, user_id):
        self.user_id = user_id

    def __repr__(self):
        return 'User({})'.format(self.user_id)

users = [User(23), User(3), User(99)];

user_by_uid = sorted(users,key=lambda x : x.user_id);
print(user_by_uid);

from operator import attrgetter;
user_by_uid1 = sorted(users,key=attrgetter('user_id'));
print(user_by_uid1);

[User(3), User(23), User(99)]
[User(3), User(23), User(99)]


# 过滤 & 合并
1. 过滤意味着在原有的数据结构上进行筛选过滤出一个新的数据结构
2. 常见的过滤方式： 推导， 包括列表推导还有字典推导
3. 合并一般使用chainmap(), 重复值拿第一个，赋值也是影响第一个dict，原dict改动会影响到新merge dict，更像一个指针而非真实产生一个dict。

In [32]:
mylist = [1, 4, -5, 10, -7, 2, 3, -1];
newlist = [i for i in mylist if i > 0];
print(newlist);

prices = {
    'ACME': 45.23,
    'AAPL': 612.78,
    'IBM': 205.55,
    'HPQ': 37.20,
    'FB': 10.75
};

newprice = {key:value for key, value in prices.items() if value > 100};
print(newprice);


[1, 4, 10, 2, 3]
{'AAPL': 612.78, 'IBM': 205.55}


In [33]:
# merge two dic 
a = {'x': 1, 'z': 3 }
b = {'y': 2, 'z': 4 }

from collections import ChainMap;

c =  ChainMap(a,b);
print(c['x']);
print(c['y']);
print(c['z']); # return the value of first dict

a['x'] = 5;
print(c['x']); # orgin change can reflect in merged dict.


1
2
3
5
