# Python中数据类型的拓展
> 在初步学习python后，我们已经掌握了基础的int,float,str,list,tuple,dict这些类型，接下来将介绍更多实用的类型

## 集合 (Set)
- 核心：
    1. 去重： 快速剔除**重复项**（就如数学中的定义）
    2. 关系： 快速实现数学中的包含关系的判断（交并补等）
- 特点：
    1. 无序性：不支持索引查找（_set[0]会报错）
    2. 唯一性
    3. 可变性： 如同没有重复项的list（不可哈希）
    4. 高效性： `in`的检索逻辑快于list
    5. 内部数据必须可哈希


In [None]:
my_set = set([1,1,4,7,8]) #快速去重
print(my_set)
'''建立空集合必须用set(),因为{}是字典'''

In [None]:
#增添删改元素
my_set = {"A","B","C","D"}
my_set.add("D")     #如果重复不添加
my_set.remove("A")  #如果元素不存在会报错
my_set.discard('F') #元素不存在不会报错
print(my_set)
item = my_set.pop() #随机弹出一个元素
print(my_set)
my_set.clear()

In [None]:
#集合的运算
set_a = {1, 2, 3, 4}
set_b = {3, 4, 5, 6}

print("并集 (Union): 存在于 A 或 B 中的所有元素")
print(set_a | set_b)        # 使用 | 运算符
print(set_a.union(set_b))   # 使用 union() 方法


print("交集 (Intersection): 同时存在于 A 和 B 中的元素")
print(set_a & set_b)              # 使用 & 运算符
print(set_a.intersection(set_b))  # 使用 intersection() 方法
# 输出: {3, 4}

print("差集 (Difference): 存在于 A 但不存在于 B 中的元素")
print(set_a - set_b)              # 使用 - 运算符
print(set_a.difference(set_b))    # 使用 difference() 方法
# 输出: {1, 2}

print("对称差集 (Symmetric Difference): 存在于 A 或 B 中，但不同时存在的元素")
print(set_a ^ set_b)                      # 使用 ^ 运算符
print(set_a.symmetric_difference(set_b))  # 使用 symmetric_difference() 方法
# 输出: {1, 2, 5, 6}

print("判断")
print(set_a.isdisjoint(set_b))  #共同元素,有则返回False
print(set_a.issubset(set_b))    #set_a <= set_b
print(set_a.issuperset(set_b))  #set_a >= set_b


## 空类型 (NoneType)
- 只有None这一个对象
- 不可变
- 在布尔判断中，None会被视为False

***特点***：明确表示空值，检查用`is None`和`is not None`

## Collections模块
### defaultdict
- 核心：会为不存在的键(key)创建默认的值(value)
> 避免了重复的 if key not in dict 检查
- 特点：
    1. 访问初始化
    2. 继承所有的字典方法和性能
    3. 类型安全

In [None]:
from collections import defaultdict

word_count = defaultdict(int)       #默认值为0

words = ["apple", "banana", "apple", "orange", "banana", "apple"]

for word in words:
    word_count[word] += 1

print(word_count)
print(dict(word_count))

defaultdict(<class 'int'>, {'apple': 3, 'banana': 2, 'orange': 1})
{'apple': 3, 'banana': 2, 'orange': 1}


In [None]:
list_dict = defaultdict(list)#默认值为空列表
set_dict = defaultdict(set)  #默认值为空集合
#使用lambda/函数来自定义默认值
custom_default = defaultdict(lambda: "None")
def __():
    return {"a":[],"b":[]}
_dict = defaultdict(__)


print(_dict.default_factory)
_dict.default_factory=set

<function __ at 0x0000020502D4AB60>


### Counter
- 核心：进阶的defaultdict，专门用于频次统计
- 特点：
    1. 自动处理缺失键：访问不存在的键返回0，不会报错
    2. 计数可为负：支持负数值（虽然不常见）
    3. 丰富的统计方法：特别是```most_common()``` 非常实用
    4. 集合运算支持：可以进行加、减、交、并等操作
    5. 字典子类：拥有字典的所有方法


In [37]:
from collections import Counter

words = ["apple", "banana", "apple", "orange", "banana", "apple"]
count = Counter(words)
print(dict(count))
text = "adslgijmclkajrlsfkl"
print(dict(Counter(text)))
print(Counter(a=4,b=3))

{'apple': 3, 'banana': 2, 'orange': 1}
{'a': 2, 'd': 1, 's': 2, 'l': 4, 'g': 1, 'i': 1, 'j': 2, 'm': 1, 'c': 1, 'k': 2, 'r': 1, 'f': 1}
Counter({'a': 4, 'b': 3})


In [38]:
#操作
print(count['apple'])
print(count['???'])     #不会报错，会返回默认值0
count['apple'] = 10     #k可以像字典一样修改

    #获得最常见的元素
print(count.most_common(1))
print(count.most_common())  #按最大频次排序
    #排序输出
print(list(count.elements()))

    #更新Counter
count.update(['watermelon'])
print(count)

    #减去计数
count.subtract(['apple','0']) #'0'不存在会显示-1，'apple'的计数会-1
print(count)

print("总计数值：",count.total())

3
0
[('apple', 10)]
[('apple', 10), ('banana', 2), ('orange', 1)]
['apple', 'apple', 'apple', 'apple', 'apple', 'apple', 'apple', 'apple', 'apple', 'apple', 'banana', 'banana', 'orange']
Counter({'apple': 10, 'banana': 2, 'orange': 1, 'watermelon': 1})
Counter({'apple': 9, 'banana': 2, 'orange': 1, 'watermelon': 1, '0': -1})
总计数值： 12


In [40]:
#集合运算
count1 = Counter(a=3,b=6,c=1)
count2 = Counter(a=1,b=9,d=3)

#合并
print(count1 + count2)

#减法（相减后显示正数）
print(count1 - count2)

#交&，后取最小数
print(count1 & count2)

#并|，取最大数
print(count1 | count2)

Counter({'b': 15, 'a': 4, 'd': 3, 'c': 1})
Counter({'a': 2, 'c': 1})
Counter({'b': 6, 'a': 1})
Counter({'b': 9, 'a': 3, 'd': 3, 'c': 1})


### deque(双端队列)
- 核心：特殊的数组容器
- 特点： 
    1. 实现了栈和队列
    2. 高效双端操作
        - 列表的端操作为$O(n)$
        - deque的端操作为$O(1)$
    3. 丰富的操作：可以限制长度，自动抛弃一端的元素；可以反转，扩展


In [43]:
from collections import deque

d = deque([1,2,3,4,5])

#添加元素
d.append(6)     #右侧添加
d.appendleft(0) #左侧添加
print(d)

#同理，弹出元素也遵循类似的规则
print("rightend:",d.pop())
print("leftend:",d.popleft())
print(d)


deque([0, 1, 2, 3, 4, 5, 6])
rightend: 6
leftend: 0
deque([1, 2, 3, 4, 5])


In [None]:
#限制队列的长度

d = deque(maxlen=3)     #自动挤出左端元素
for i in range(3):
    d.append(i)
print(d)
d.append(3)
print(d)

#如果要挤出右端元素
d.appendleft(0)
print(d)

deque([0, 1, 2], maxlen=3)
deque([1, 2, 3], maxlen=3)
deque([0, 1, 2], maxlen=3)


In [None]:
# 其他的操作
d = deque([1,2,3,4,5])

#扩展
d.extend([6,7])         #和list一样
d.extendleft([0,-1])    #在左端的扩展会反转
print(d)

#旋转
d.rotate(2)             #向右旋转2步
print(d)
d.rotate(-1)            #向左旋转1步
print(d)


print(d.count(1))       #计数

print(d.index(2))       #获取索引

d.reverse()             #反转

print(d)
d.clear()

deque([-1, 0, 1, 2, 3, 4, 5, 6, 7])
deque([6, 7, -1, 0, 1, 2, 3, 4, 5])
deque([7, -1, 0, 1, 2, 3, 4, 5, 6])
1
4
deque([6, 5, 4, 3, 2, 1, 0, -1, 7])


### OrderedDict
- 在python3.7以后，普通的dict也有顺序，但是ordereddict提供更加灵活的方法，且继承了dict的用法
- 核心：记录计入键值对顺序的字典
- 特点：pass


In [80]:
from collections import OrderedDict as odic
od = odic()
od["z"] = 1
od["y"] = 2
od["x"] = 3
def printdic(od,prompt:str =None):
    print(f"======\n{prompt}" if prompt else "======")
    for key,value in od.items():
        print(key,':',value)

printdic(od)
#普通的字典也会输出相同的结果

z : 1
y : 2
x : 3


In [None]:
#od 中的特殊操作
od = odic([('a', 1), ('b', 2), ('c', 3), ('d', 4)])

od.move_to_end('a')     #字面意思
printdic(od)
od.move_to_end('a',False)
printdic(od)


print(od.popitem())     #弹出最后一个元素
print(od.popitem(False))
printdic(od,'弹出后：')

b : 2
c : 3
d : 4
a : 1
a : 1
b : 2
c : 3
d : 4
('d', 4)
('a', 1)
弹出后：
b : 2
c : 3


In [89]:
od.update([("b",20)]) #不会改变顺序
printdic(od,"更新后：")
od.update([("d",4)])
printdic(od)

更新后：
b : 20
c : 3
b : 20
c : 3
d : 4


### namedtuple
- 核心： 给元组的每一个位置设定一个字符串代称，方便检索
- 特点： 
    1. 轻量化
    2. 提升代码的可读性
    3. 保持元组的`不变性/可哈希性`

In [93]:
from collections import namedtuple

Person = namedtuple('Person',['name','age','job'])
Person = namedtuple('Person','name age job')
Person = namedtuple('Person','name,age,job', defaults=['Unknown', 'Unknown'])


person1 = Person('Zhangzhuoxiao','18','Student')
person2 = Person('lover')
print(type(person1))
print(person1.name)
print(person2)

<class '__main__.Person'>
Zhangzhuoxiao
Person(name='lover', age='Unknown', job='Unknown')


In [97]:
dic = person1._asdict()
printdic(dic)
person2_updated = person2._replace(name=None)
print('======')
print(person2_updated)
print('======')
print(person1._fields)
print(person1._field_defaults)

name : Zhangzhuoxiao
age : 18
job : Student
Person(name=None, age='Unknown', job='Unknown')
('name', 'age', 'job')
{'age': 'Unknown', 'job': 'Unknown'}


## heap(heapq)
- 核心： 最小堆
- 特点： 
    1. $O(log_{}{n})$
    2. 原地操作
    3. 不完全排序

In [8]:
import heapq

heap = []
heapq.heappush(heap,5)      #自动维护列表的堆属性
heapq.heappush(heap,2)
heapq.heappush(heap,4)
heapq.heappush(heap,9)
heapq.heappush(heap,1)

print(heap)

[1, 2, 4, 9, 5]


In [2]:
# 弹出
numbers = [4,2,6,58,7,2,1,7]

heapq.heapify(numbers)  #原地修改转化为heap
print(numbers)

print(heapq.heappop(numbers))   #弹出第一个元素（最小值）

[1, 2, 2, 7, 7, 4, 6, 58]
1


In [None]:
# 其他操作

#heap以列表list的方式储存，可以使用列表的索引检索
print(heap)
result = heapq.heappushpop(heap,7)  #先插入再取首
print(heap)
print(result)
result = heapq.heapreplace(heap,7)  #先取在入
print(heap)
print(result)

largest = heapq.nlargest(3,heap)    #找到list中最大的三个元素
samllest = heapq.nsmallest(3,heap)  #找到最小的三个元素


[1, 2, 4, 9, 5]
[2, 5, 4, 9, 7]
1
[4, 5, 7, 9, 7]
2


> 跳过array
### datetime
- 顾名思义，这是管理时间的包
- 核心：时间
- 特点：
    pass

In [10]:
from datetime import datetime, date, time, timedelta

# datetime: 包含日期和时间
# date: 只包含日期
# time: 只包含时间  
# timedelta: 时间间隔

In [None]:
#当前日期时间
print(datetime.now())

#当前日期
print(date.today())

#当前时间
print(datetime.now().time())

2025-11-14 15:11:29.348831
2025-11-14
15:11:29.349833


In [13]:
# 创建特定日期
specific_date = date(2023, 12, 25)
print(specific_date)  # 输出: 2023-12-25

# 创建特定时间
specific_time = time(14, 30, 45)
print(specific_time)  # 输出: 14:30:45

# 创建特定的日期时间
specific_datetime = datetime(2023, 12, 25, 14, 30, 45)
print(specific_datetime)  # 输出: 2023-12-25 14:30:45

# 从时间戳创建
timestamp = 1696519825
dt_from_timestamp = datetime.fromtimestamp(timestamp)
print(dt_from_timestamp)  # 输出对应的日期时间

2023-12-25
14:30:45
2023-12-25 14:30:45
2023-10-05 23:30:25


In [17]:
Δ = timedelta(1,3,10)

now = datetime.now()

future = now + Δ        #可以直接相减
print(f"1天3小时10分钟后：{future}")

delta =date(2025,11,4) - date(2025,11,5)
print(delta.days)

1天3小时10分钟后：2025-11-15 15:19:16.528261
-1


In [20]:
print(datetime.weekday(datetime.now()))     #西历星期
print(datetime.isoweekday(datetime.now()))  #广义星期
print(datetime.timestamp(datetime.now()))

4
5
1763104927.341762


## Decimal
- 核心：实现精细的十进制运算，符合金融学标准
- 特点：
    1. 可以表示任何的十进制的数
    2. 没有浮点数的误差问题
    3. 性能弱于浮点数

In [21]:
from decimal import Decimal 

#可以由整数，字符串，浮点数，元组创建
a = Decimal(10)
b = Decimal('0.1')
c = Decimal(0.1)
d = Decimal((0,(1,2,3),-2))
print(a,b,c,d)



10 0.1 0.1000000000000000055511151231257827021181583404541015625 1.23


In [None]:
'''基本计算和int，flaot一样'''

In [None]:
# 复杂计算
from decimal import getcontext

# 设置精度(计算后的科学计数)
getcontext().prec = 2

print(Decimal('0.1243'))
print(Decimal('0.123') + Decimal('0.123'))

# 平方根
print(Decimal('2').sqrt())

# 指数运算
print(Decimal('1.2').exp())     #e^1.2
print(Decimal(1).ln())          #ln(1)
print(Decimal('10').log10())    #lg10

0.1243
0.25
1.4
3.3
0
1


In [None]:
# 四舍五入到指定小数位
a = Decimal('3.14159')
print(a.quantize(Decimal('0.01')))  # 输出: 3.14 (默认舍入模式)

# 使用不同的舍入模式
from decimal import ROUND_UP, ROUND_DOWN

print(a.quantize(Decimal('0.01'), rounding=ROUND_UP))    # 输出: 3.15
print(a.quantize(Decimal('0.01'), rounding=ROUND_DOWN))  # 输出: 3.14

# 舍入到整数
print(a.to_integral_value())  # 输出: 3

# 量化到特定的指数（用于调整精度）
b = Decimal('123.456')
print(b.quantize(Decimal('1e-2')))  # 输出: 123.46 (四舍五入到两位小数)