#### 数据统计

In [5]:
# 数据处理的时候做数据的统计的时候 
# 方式一 defaultdict
from collections import defaultdict
strings = ('puppy', 'kitten', 'puppy', 'puppy',
   'weasel', 'puppy', 'kitten', 'puppy')
counts = defaultdict(int)   # counts = defaultdict(lambda: 0) # 使用lambda来定义简单的函数
for kw in strings:
    counts[kw] += 1
print(counts)
# 方式二 Counter
from collections import Counter
counts = Counter(strings)   # Counter({'puppy': 5, 'kitten': 2, 'weasel': 1})
print(counts)
# 方式三
strings = ('puppy', 'kitten', 'puppy', 'puppy',
   'weasel', 'puppy', 'kitten', 'puppy')
counts = {}
for kw in strings:
    counts[kw] = counts.setdefault(kw, 0) + 1
print(counts)

#  以上三种方法都是返回的字典类型，可直接使用字典类型操作

defaultdict(<class 'int'>, {'puppy': 5, 'kitten': 2, 'weasel': 1})
Counter({'puppy': 5, 'kitten': 2, 'weasel': 1})
{'puppy': 5, 'kitten': 2, 'weasel': 1}


In [None]:
"""
魔法函数是Python解释器可以直接调用的函数
"""

### `collections`模块实现

In [None]:
关于一些类型的位置  
collections 中的类型  其中导入了_collections_abc模块  Abstract Base Class（抽象基类）
__all__ = ['deque', 'defaultdict', 'namedtuple', 'UserDict', 'UserList',
            'UserString', 'Counter', 'OrderedDict', 'ChainMap']

'''此模块实现了专门的容器数据类型
Python的通用内置容器的替代品，dict，
list，set和tuple。

* namedtuple工厂函数，用于创建具有命名字段的元组子类
* deque list-like容器，两端都有快速附加和弹出
* ChainMap类似于dict的类，用于创建多个映射的单个视图
* Counter dict子类用于计算可哈希的对象
* OrderedDict dict子类记住了订单条目的添加的顺序 
* defaultdict dict子类调用工厂函数来提供缺失值   内部实现了__missing__方法
* UserDict包装字典对象，以便于dict子类化
* UserList包装列表对象，以便于列表子类化
* UserString包装字符串对象，以便更容易地进行字符串子类化

------------ 实际上是提供了对原有类型的增强------------------
namedtuple 
'''

_collections_abc 中 是一些抽象基类 各种类型的抽象基类 即 dict list 这些内置类型的抽象基类，实际上相当于代码说明书，告知内置类型的含有方法。
一般要自定义和内置类型一样的类，需要继承实现这些抽象基类（但一般不推荐这么用，都是利用鸭子类型，只具有内置类型的一些特性即可）

collections 中是数据结构  abc中是抽象基类--- Abstract Base Class（抽象基类）

In [None]:
重点是：'deque', 'defaultdict', 'namedtuple', 'Counter', 'OrderedDict', 'ChainMap'  其中最常用的又是'defaultdict', 'namedtuple'类型
'UserDict', 'UserList', 'UserString',是Python内置类型的包装类

collections.abc中abc的含义abstractbaseclass，抽象基类

In [3]:
'''
元组支持拆包，不能修改即tuple[1]=值 是不行的，但是可以用[]取值。

'''

# 拆包的高级用法 只取前几个值
user_tuple = ("xiaoming", 20, 175, "shanghai")
name, *other = user_tuple   # *为序列解包，得到的是list类型的对象
print(name)
print(other)

xiaoming
[20, 175, 'shanghai']


In [13]:
# tuple不可修改，但是当里面有list 这样的元素 是可修改的 是因为数组存的是id, id 没有变 
'''但是可变对象建议不要放在tuple中'''
name_tuple = ('bobby1', [27,175])
name_tuple[1].append(58)
name_tuple

('bobby1', [27, 175, 58])

In [20]:
# tuple比list好的地方 虽然没有list灵活
'''
1. immutable（不可变）的重要性： 
        性能优化：指出元素全部为immutable的tuple会作为常量在编译时确定（变成字节码），因此产生了如此显著的速度差异---Python字节码，速度比加载文件快
        线程安全：不可变对象，线程对其无法修改
        可以作为dict的key:不可变对象的id不变，所以可以hash，而dict的key要求是可哈希
        拆包特性: 可拆包
        
2. 如果要拿c语言来类比，Tuple对应的是struct，而List对应的是array
        
'''
# 元组作为字典的key
a = (1,)
print(dict([(a,1)]))



{(1,): 1}


#### `namedtuple`    ----  用以构建只有少数属性，但是没有方法的对象，比如数据库的条目   （相较于一般的类，`namedtuple`所占用的空间较小）

In [5]:
# namedtuple  namedtuple本身是个方法，其作用是返回一个tuple的子类
from collections import namedtuple

User1 = namedtuple("User", ["name", "age", "height"])
user = User1(name='bobby', age=29, height=175)
print(user.age, user.name, user.height)
print(user.__class__)   # 实际上创建的namedtuple类的名字是定义时设置的User，但是创建后仍需使用一个变量接受，且需要使用该变量名去创建类实例 ----   但是一般建议还是保持一致的好，即使用  User = namedtuple("User", ["name", "age", "height"]) 名字一致好

29 bobby 175
<class '__main__.User'>


In [35]:
# namedtuple使用文档
print(namedtuple.__doc__)

Returns a new subclass of tuple with named fields.

    >>> Point = namedtuple('Point', ['x', 'y'])
    >>> Point.__doc__                   # docstring for the new class
    'Point(x, y)'
    >>> p = Point(11, y=22)             # instantiate with positional args or keywords
    >>> p[0] + p[1]                     # indexable like a plain tuple
    33
    >>> x, y = p                        # unpack like a regular tuple
    >>> x, y
    (11, 22)
    >>> p.x + p.y                       # fields also accessible by name
    33
    >>> d = p._asdict()                 # convert to a dictionary
    >>> d['x']
    11
    >>> Point(**d)                      # convert from a dictionary
    Point(x=11, y=22)
    >>> p._replace(x=100)               # _replace() is like str.replace() but targets named fields
    Point(x=100, y=22)

    


In [45]:
'''
效果类似创建了一个自定义的类
class User:
    def __init__(self, name, age, height):
        pass
        
namedtuple相比于手动实现子类的好处， 
是tuple的子类，代码简单
namedtuple很省空间，少了class定义时的内部变量的消耗
所以在创建简单变量的时候会非常适用

将一张user表数据全部取出，然后加一个列
mysqlclient pymysql取出的数据就是一个tuple
使用namedtuple会很方便      
步骤如下  
'''
User = namedtuple("User", ["name", "age", "height", 'edu'])   # edu为新添的列
user_tuple = ("bobby", 29, 175)  # 实际上很多驱动，数据库查询出的数据都是元组类型，所以可以使用*user_tuple的方法直接整个传参，省事
user = User(*user_tuple,'master') # 可使用元组、列表进行传递 (最好元组，因为*args是元组)    *user_tuple
# 同理还可以使用以下的方式，只不过第二个参数edu需要写成关键字参数的形式, 
# 这是因为直接像之前那样写的话就是位置参数，位置参数一定要在关键字参数之前，
# 但是此处使用位置参数在关键字参数之前又是不行的，因为位置参数接受的值必定给了第一个name，而在*user_dict中已经给了name值了
# user_dict = {
#     name: 'bobby',
#     age : 29,
#     height : 175
# }
# user = User(**user_dict, edu='master')
# 应为是tuple的子类，所以tuple的方法也同样适用     不是tuple的子类，但是可以完全当做tuple使用
print(user[0])
print(user)


bobby
User(name='bobby', age=29, height=175, edu='master')


In [32]:
# 关键字参数一定要在位置参数之后    关键字参数一定在最后，且不能是已经传递过的位置参数
class a():
    def __init__(self,a,b,c):
        self.a = a 
        self.b = b
        self.c = c
        print(self.a,'----',self.b,'----',self.c)
A=a(a=1,1,1)

SyntaxError: positional argument follows keyword argument (<ipython-input-32-51fa3ec1eaf2>, line 8)

In [50]:
# 除了使用一般类实例的创建方法，还可以调用namedtuple的内置_make方法，该方法可接受iterable类型参数，此时

'''
使用_make()方法的灵活性不足，要求必须传入完整的参数的可迭代对象
'''

user_tuple = ("bobby", 29, 175,'master')  # 但是user_tuple中必须完整的值，完全能对照初始化参数
user = User._make(user_tuple) # 不用加*号了    
print(user)


User(name='bobby', age=29, height=175, edu='master')


In [49]:
user_info_dict = user._asdict()
print(user_info_dict)  # 得到一个OrderedDict对象

OrderedDict([('name', 'bobby'), ('age', 29), ('height', 175), ('edu', 'master')])


In [12]:
import collections

# 两种方法来给 namedtuple 定义方法名    字段名的使用方式可以是有多个字符串组成的可迭代对象，或者是有空格分隔开的字段名组成的字符串
#User = collections.namedtuple('User', ['name', 'age', 'id'])
User = collections.namedtuple('User', 'name age id')
user = User('tester', '22', '464643123')
print(user)
# print(user.__dict__)   # 报错  因为namedtuple中不使用__dict__存储实例属性 所以这个类跟普通的对象实例比起来也要小一些



User(name='tester', age='22', id='464643123')


In [13]:
# 具名元组的特有属性:

# 类属性 _fields：包含这个类所有字段名的元组 类方法 _make(iterable)：接受一个可迭代对象来生产这个类的实例 实例方法 _asdict()：把具名元组以 collections.OrdereDict 的形式返回，可以利用它来把元组里的信息友好的展示出来

from collections import namedtuple

# 定义一个namedtuple类型User，并包含name，sex和age属性。
User = namedtuple('User', ['name', 'sex', 'age'])

# 创建一个User对象
user = User(name='Runoob', sex='male', age=12)

# 获取所有字段名  ----  值为元组形式
print( user._fields )

# 也可以通过一个list来创建一个User对象，这里注意需要使用"_make"方法
user = User._make(['Runoob', 'male', 12])

print( user )
# User(name='user1', sex='male', age=12)

# 获取用户的属性
print( user.name )
print( user.sex )
print( user.age )

# 修改对象属性，注意要使用"_replace"方法
user = user._replace(age=22)
print( user )
# User(name='user1', sex='male', age=21)

# 将User对象转换成字典，注意要使用"_asdict"
print( user._asdict() )
# OrderedDict([('name', 'Runoob'), ('sex', 'male'), ('age', 22)])

('name', 'sex', 'age')
User(name='Runoob', sex='male', age=12)
Runoob
male
12
User(name='Runoob', sex='male', age=22)
OrderedDict([('name', 'Runoob'), ('sex', 'male'), ('age', 22)])


#### `defaultdict`    ----   实现了`__missing__`方法

In [52]:
# 使用 defaultdict实现 统计单词个数    ----   使用defaultdict，可以简化逻辑
from collections import defaultdict
strings = ('puppy', 'kitten', 'puppy', 'puppy',
   'weasel', 'puppy', 'kitten', 'puppy')
counts = defaultdict(int)   # counts = defaultdict(lambda: 0) # 使用lambda来定义简单的函数
for kw in strings:
    counts[kw] += 1
counts

defaultdict(int, {'puppy': 5, 'kitten': 2, 'weasel': 1})

In [58]:
# 还可以接受函数，构造更加复杂的字典
def gen_default():
    return {
        "name":'',
        "age":0 ,
    }
default_dict = defaultdict(gen_default)
default_dict["groupe1"]
print(default_dict)

defaultdict(<function gen_default at 0x000001F34BE43840>, {'groupe1': {'name': '', 'age': 0}})


#### `queue`

In [89]:
# list 中只有pop函数，用于将指定下标的数据弹出，并返回该值，没有指定index的时候，默认最后一个
from collections import deque

# 一个tuple中的内容我们一般当做是一个对象来使用的，即是一个有某种意义的整体
# 而list、deque我们当做容器，里面存储一类东西
# 所以deque也和list一样用来保存一种类型的数据 --- 良好的变成习惯
user_deque = deque(["a", "b"])  # 接受一个iterable作为初始化对象
# user_deque.appendleft("c")   # 放到队列头部
print(user_deque) # 得到一个双端列表   deque(['c', 'a', 'b'])

deque(['a', 'b'])


In [90]:
user_deque.appendleft("c")   # 放到队列头部
print(user_deque)

deque(['c', 'a', 'b'])


In [91]:
# copy  是一个浅拷贝 当某个元素是可变类型的时候，浅拷贝的时候就是指向给可变类型 如list
user_deque_copy = user_deque.copy()
print(id(user_deque), id(user_deque_copy))   # id不一样，copy成功



2144462950472 2144462950576


In [None]:
# insert   extend方法都和list一致 
# reverser()也是list一样，都是调用reverse是永久性的操作，但是调用reversed()方法的时候不是，调用该方法的时候实际上是调用的__reversed__魔法函数，
# 该方法内 返回得到的是可迭代对象

In [97]:
# rotate 翻转  向右旋转deque n步（默认n = 1）。 如果n为负数，则向左旋转
user_deque = deque(["a", "b", 'c']) 
user_deque.rotate(-1)
user_deque

deque(['b', 'c', 'a'])

In [None]:
# deque的具体应用场景
from queue import  Queue
# 其内部是使用双端队列queue实现的

# 特性：deque是线程安全的（GIL保护），list是线程不安全的

#### `Counter`

In [98]:
# 统计功能
from collections import Counter

users = ["xiaoming1", "xiaoming1", "xiaoming2", "xiaoming3"]
user_counter = Counter(users)  # 接受可迭代对象
print(user_counter)  #Counter({'xiaoming1': 2, 'xiaoming2': 1, 'xiaoming3': 1})直接完成统计，且按照个数从大到小排列

Counter({'xiaoming1': 2, 'xiaoming2': 1, 'xiaoming3': 1})


In [185]:
"""
注意，统计的时候因为其中的元素要作为统计后的字典的key，而字典的key又要求是
可哈希的，所以像下面这样就是不对的，[1,4]list对象是不可哈希的，所以不行
"""
Counter([1,[1,4]])  

TypeError: unhashable type: 'list'

In [176]:
# 当闯入字符串类型 str的时候也是可以统计字符串中各字母的数量的
letter_count = Counter("this is an apple")
print(letter_count)

Counter({' ': 3, 'i': 2, 's': 2, 'a': 2, 'p': 2, 't': 1, 'h': 1, 'n': 1, 'l': 1, 'e': 1})


In [177]:
# Counter可以使用update方法接受任何可迭代对象，但是不能添加字典，添加字典的时候则直接将字典添加现有的统计中 
# 因为在Counter的update的设计中，Counter本身也是dict对象，和添加的{1:2, 'f':4}就是同一个性质， 在处理Counter对象的时候都是直接加进去的
letter_count.update({1:2, 'f':4})
print(letter_count)


Counter({'f': 4, ' ': 3, 'i': 2, 's': 2, 'a': 2, 'p': 2, 1: 2, 't': 1, 'h': 1, 'n': 1, 'l': 1, 'e': 1})


In [179]:
# Counter的update的用法
c = Counter('which')
c.update('witch')           
d = Counter('watch')
c.update(d)                
c['h']                      

4

In [148]:
# Counter的update方法和dict类型的update方法可添加的内容不一样
# dict 的 update只能接受字典类型，像以下这样使用
dictA = dict({1:32})
dictA.update([(1,3)],a=4)
dictA

{1: 3, 'a': 4}

In [180]:
# Counter的update方法
def update(*args, **kwds):
    if not args:
        raise TypeError("descriptor 'update' of 'Counter' object "
                        "needs an argument")
    self, *args = args
    if len(args) > 1:
        raise TypeError('expected at most 1 arguments, got %d' % len(args))
    iterable = args[0] if args else None
    if iterable is not None:
        if isinstance(iterable, _collections_abc.Mapping):
            if self:
                self_get = self.get
                for elem, count in iterable.items():
                    self[elem] = count + self_get(elem, 0)
            else:
                super(Counter, self).update(iterable) # fast path when counter is empty
        else:
            _count_elements(self, iterable)
    if kwds:
        self.update(kwds)
                       
def _count_elements(mapping, iterable):
    'Tally elements from the iterable.'
    mapping_get = mapping.get
    for elem in iterable:
        mapping[elem] = mapping_get(elem, 0) + 1

In [214]:
# Counter.most_common(n) 返回个数最多的前n个元素
# top n 的问题
letter_count = Counter("this is an apple")
print(letter_count)
print("个数最多的前两个：")
print(letter_count.most_common(2))  # 返回值是list类型，为元组列表，这样的好处是可解包for循环

letter_count.items()

Counter({' ': 3, 'i': 2, 's': 2, 'a': 2, 'p': 2, 't': 1, 'h': 1, 'n': 1, 'l': 1, 'e': 1})
个数最多的前两个：
[(' ', 3), ('i', 2)]


dict_items([('t', 1), ('h', 1), ('i', 2), ('s', 2), (' ', 3), ('a', 2), ('n', 1), ('p', 2), ('l', 1), ('e', 1)])

In [200]:
# Counter的most_common方法
def most_common(self, n=None):   
    if n is None:  # most_count没有传递个数参数的时候，默认 返回所有的
        return sorted(self.items(), key=_itemgetter(1), reverse=True)  # items使用的是字典中定义的  
    # 此处的_itemgetter是从 from operator import itemgetter as _itemgetter 中来的
    return _heapq.nlargest(n, self.items(), key=_itemgetter(1))  # 使用的是Python的堆栈   import heapq as _heapq


"""
排序函数 sorted(iterable[, cmp[, key[, reverse]]])  https://www.cnblogs.com/100thMountain/p/4719503.html

sorted中的key是确定iterable参数排序的部分
cmp方法是定义比较的方法


itemgetter()方法  定义一个函数，该函数实现的功能是获得某个对象的指定域的值：
a = [1,2,3] 
>>> b=operator.itemgetter(1)      //定义函数b，获取对象的第1个域的值
>>> b(a) 
2 
>>> b=operator.itemgetter(1,0)  //定义函数b，获取对象的第1个域和第0个的值
>>> b(a) 
(2, 1)

要注意，operator.itemgetter得到的是一个函数，通过该函数作用到对象上才能获取值。
"""
from operator import itemgetter 
c = itemgetter('key')     # 即使字典也可以
c({"key":4})

4

In [None]:
"""
import heapq 是Python中的堆数据结构
在处理数据的过程中用的比较多   
是专门用来处理top n  的问题的 性能比我们自己自己遍历一遍的性能要高很多

Python手动实现队列和栈  https://www.cnblogs.com/shenbuer/p/7841626.html
"""

In [227]:
a = list()
b = list()
print(id(a))
print(id(b))
a == b
list.remove.__doc__

2144460679496
2144460680840


'Remove first occurrence of value.\n\nRaises ValueError if the value is not present.'

In [168]:
dict({1:2}).items()  # 字典的items得到的是元组列表   可以使用 for 循环 解包
for key, value in dict({1:2}).items():
    print(f"{key}:{value}")

1:2


In [42]:
list("12345").pop(29)

IndexError: pop index out of range

#### `OrderedDict`------  更加接近`dict`类型的实现，可以看到`dict`的实现原理    
不好说： dict字典是底层实现 OrderedDict是中有堆  再看

In [43]:
from collections import OrderedDict

# 继承自dict，是dict的子类，继承dict的全部方法
user_dict = OrderedDict()
user_dict["b"] = "bobby2"
user_dict["a"] = "bobby1"
user_dict["c"] = "bobby3"
print(user_dict)  # OrderedDict([('b', 'bobby2'), ('a', 'bobby1'), ('c', 'bobby3')])保留的是装载时的顺序

# dict的有序 是指 按照添加的顺序， 先添加在前面，后添加的在后面
# python3.6后dict和OrderedDict一样是有序的

last = user_dict.popitem(last=False) # 有默认参数last为True 从尾部开始删除 dict的popitem()没有该参数，只能从尾部删除
print(last)

poplast = user_dict.pop(4, "该项不存在")
print(poplast)

OrderedDict([('b', 'bobby2'), ('a', 'bobby1'), ('c', 'bobby3')])
('b', 'bobby2')
该项不存在


In [44]:
# OrderedDict的pop方法实现原理

__marker = object()
def pop(self, key, default=__marker):
    '''od.pop(k[,d]) -> v, remove specified key and return the corresponding
    value.  If key is not found, d is returned if given, otherwise KeyError
    is raised.
    '''
    if key in self:
        result = self[key]
        del self[key]
        return result
    if default is self.__marker:
        raise KeyError(key)
    return default

In [45]:
user_dict = OrderedDict()
user_dict["b"] = "bobby2"
user_dict["a"] = "bobby1"
user_dict["c"] = "bobby3"
print(f"没移动之前：{user_dict}")
user_dict.move_to_end("b") # 方法没有返回值
print(f"移动之后：{user_dict}")

没移动之前：OrderedDict([('b', 'bobby2'), ('a', 'bobby1'), ('c', 'bobby3')])
移动之后：OrderedDict([('a', 'bobby1'), ('c', 'bobby3'), ('b', 'bobby2')])


#### `ChainMap`   ------  让我们访问多个`dict`的时候能像访问一个`dict`一样来进行操作，因为对`ChainMap`的操作会直接反应到原始`dict`上。

In [46]:
from collections import ChainMap

user_dict1 = {"a": "bobby1", "b": "bobby2"}
user_dict2 = {"c": "bobby2", "d": "bobby3"}
new_dict = ChainMap(user_dict1, user_dict2)
# ChainMap({'a': 'bobby1', 'b': 'bobby2'}, {'c': 'bobby2', 'd': 'bobby3'})
# 得到的类型和dict的抽象基类一样，所以也具有一些dict类似的方法
print(new_dict)  # 两个dict合并为一个dict，当做一个dict处理

for key, value in new_dict.items():
    print(key, value)

ChainMap({'a': 'bobby1', 'b': 'bobby2'}, {'c': 'bobby2', 'd': 'bobby3'})
c bobby2
d bobby3
a bobby1
b bobby2


In [53]:
# 当两个待合并的dict中有一样的元素的时候，能够正常使用，但是for循环的时候，只会打印一个重复的那一项
user_dict1 = {"a": "bobby1", "b": "bobby3"}
user_dict2 = {"b": "bobby4", "d": "bobby3"}
new_dict = ChainMap(user_dict1, user_dict2)
print(new_dict)
for key, value in new_dict.items(): 
    print(key, value)

ChainMap({'a': 'bobby1', 'b': 'bobby3'}, {'b': 'bobby4', 'd': 'bobby3'})
b bobby3
d bobby3
a bobby1


In [3]:
# 动态添加新的字典，构成新的ChainMap，不改变原有的ChainMap
user_dict1 = {"a": "bobby1", "b": "bobby2"}
user_dict2 = {"b": "bobby3", "d": "bobby3"}
new_dict = ChainMap(user_dict1, user_dict2)
print(id(new_dict))
# 动态添加字典，在字典前插入一个新的字典，参数为空：插入一个空的字典。
# 参数不为空，插入第一个位置。但是只是生成一个新的ChainMap，不会改变原有的ChainMap
print(id(new_dict.new_child({"c":"cc"})))
print(id(new_dict))
print(new_dict.new_child({"c":"cc"}))

2681022571296
2681022541952
2681022571296
ChainMap({'c': 'cc'}, {'a': 'bobby1', 'b': 'bobby2'}, {'b': 'bobby3', 'd': 'bobby3'})


In [5]:
user_dict1 = {"a": "bobby1", "b": "bobby2"}
user_dict2 = {"b": "bobby3", "d": "bobby3"}
new_dict = ChainMap(user_dict1, user_dict2)
# maps属性 :把ChainMap对象转化为list对象，可以被访问和修改。
print(new_dict.maps)
# 注意maps是指向ChainMap中的数据的，而不是数据的拷贝，即对maps的列表进行改变会改变ChainMap中的数据
new_dict.maps[0]["a"] = "hahaha"
print(new_dict)
# 另外ChainMap()只是在user_dict1和user_dict2上加了一层迭代器，并不是对这两个数据的拷贝，对数据的操作，也会改变原始数据
print("原始数据发生了改变：",user_dict1)  # 可见，原始数据也发生了变化

# 总结：所以ChainMap的作用就是，让我们访问多个dict的时候能像访问一个dict一样来进行操作，
# 因为对ChainMap的操作会直接反应到原始dict上。


[{'a': 'bobby1', 'b': 'bobby2'}, {'b': 'bobby3', 'd': 'bobby3'}]
ChainMap({'a': 'hahaha', 'b': 'bobby2'}, {'b': 'bobby3', 'd': 'bobby3'})
原始数据发生了改变： {'a': 'hahaha', 'b': 'bobby2'}
