# 一、字典-dictionary

## 定义
* 字典是由一系列的键(key)-值(value)对组成
* 字典的每个键值(key=>value)对用冒号(:)分割，每个对之间用逗号(,)分割，整个字典包括在花括号({})中 ,格式如下所示：  
```dic = {key1 : value1, key2 : value2 }```
* 键必须是唯一的，但值则不必。
* 值可以取任何数据类型，但键必须是不可变的，如字符串，数字或元组。

## 特性
字典值可以是任何的 python 对象，既可以是标准的对象，也可以是用户定义的，但键不行。  
两个重要的点需要记住: 
1. 不允许同一个键出现两次。创建时如果同一个键被赋值两次，后一个值会被记住
2. 键必须不可变，所以可以用数字，字符串或元组充当，而用列表就不行

In [1]:
# name只有后一个被记住
dict = {'name':'magic','sex':'male','name':'fannie'}
print("dict['name']:",dict['name'])

# 将key定义为list无效
dict = {['name']:'magic','sex':'male','name':'fannie'}


dict['name']: fannie


TypeError: unhashable type: 'list'

## 创建
直接输入键值对即可

In [2]:
dict = {'name':'magic','sex':'male'}
dict

{'name': 'magic', 'sex': 'male'}

## 相关方法
* **访问字典元素**  
用方括号[]来输入key，以访问该key对应的value  
  
* **修改字典元素**  
在访问方法的基础上，直接给它赋值就可以修改对应的value  
  
* **删除字典元素**  
删除整个字典: del dict        
删除字典值：  del dict['key']  
清空字典：    dict.clear()  
删除字典后字典就不存在了；清空的字典依然存在，只不过字典里的内容是空的  
  
* **字典内置函数**
  
|函数|说明|
|:--- |---:|
|len(dict)|计算字典元素个数，即键的总数。	|
|str(dict)|输出字典，以可打印的字符串表示。|	
|type(variable)|返回输入的变量类型，如果变量是字典就返回字典类型。	|
  
* **字典方法**  
  
|方法|说明|
|:--- |---:|
|radiansdict.clear()|删除字典内所有元素|
|radiansdict.copy()|返回一个字典的浅复制|
|radiansdict.fromkeys()|创建一个新字典，以序列seq中元素做字典的键，val为字典所有键对应的初始值|
|adiansdict.get(key, default=None)|返回指定键的值，如果值不在字典中返回default值|
|key in dict|如果键在字典dict里返回true，否则返回false|
|radiansdict.items()|以列表返回可遍历的(键, 值) 元组数组|
|radiansdict.keys()|返回一个迭代器，可以使用 list() 来转换为列表|
|radiansdict.setdefault(key, default=None)|和get()类似, 但如果键不存在于字典中，将会添加键并将值设为default|
|radiansdict.update(dict2)|把字典dict2的键/值对更新到dict里|
|radiansdict.values()|返回一个迭代器，可以使用 list() 来转换为列表|
|pop(key[,default])|删除字典给定键 key 所对应的值，返回值为被删除的值。key值必须给出。 否则，返回default值。|
|popitem()|随机返回并删除字典中的一对键和值(一般删除末尾对)|

In [3]:
# 访问value
print(dict['name'])

# 修改value
dict['name'] = 'tony'
print(dict['name'])

# 删除
del dict['name']
print(dict)
dict.clear()
print(dict)
del dict
print(dict)

magic
tony
{'sex': 'male'}
{}
<class 'dict'>


In [4]:
# 函数
dict = {'name':'magic','sex':'male'}
print(len(dict))
print(str(dict))
print(type(dict))

2
{'name': 'magic', 'sex': 'male'}
<class 'dict'>


In [5]:
# 方法
dict2 = dict.copy()
print(dict2)

seq = ('name','age','sex')
dict2 = dict.fromkeys(seq)
print(dict2)
dict2 = dict.fromkeys(seq,10)
print(dict2)

print(dict.get('sex'))

print('name' in dict)

print(dict.items())

print(dict.keys())

print(dict.values())

dict2 = {'height':'10'}
dict.update(dict2)
print(dict)

print(dict.pop('name'))

print(dict.popitem())

{'name': 'magic', 'sex': 'male'}
{'name': None, 'age': None, 'sex': None}
{'name': 10, 'age': 10, 'sex': 10}
male
True
dict_items([('name', 'magic'), ('sex', 'male')])
dict_keys(['name', 'sex'])
dict_values(['magic', 'male'])
{'name': 'magic', 'sex': 'male', 'height': '10'}
magic
('height', '10')


# 二、集合-set

## 定义
* 集合（set）是一个无序的不重复元素序列。
* 和字典类似，集合也是用{}表示
* **特性**  
无序的：  所以不可以用位置索引来查找元素
不重复的：集合不能存在相同的元素，所以我们可以用集合来去重


## 创建
1. 直接在{}里面输入元素，用逗号隔开
2. 用set()方法来创建，注意不可以写逗号
3. 创建空集合只能用set()方法，因为{}代表是空字典

In [6]:
set1 = {1,2,3,4,5}
set2 = set()
set3 = set('abc')
print(set1)
print(set2)
print(set3)

{1, 2, 3, 4, 5}
set()
{'a', 'b', 'c'}


## 方法
  
|方法|描述|
|---|---|
|add()|为集合添加元素|
|clear()|移除集合中的所有元素|
|copy()|拷贝一个集合|
|difference()|返回多个集合的差集|
|difference_update()|移除集合中的元素，该元素在指定的集合也存在。|
|discard()|	删除集合中指定的元素|
|intersection()|返回集合的交集|
|intersection_update()|删除集合中的元素，该元素在指定的集合中不存在|
|isdisjoint()|判断两个集合是否包含相同的元素，如果没有返回 True，否则返回 False。|
|issubset()|	判断指定集合是否为该方法参数集合的子集。|
|issuperset()|判断该方法的参数集合是否为指定集合的子集|
|pop()|随机移除元素|
|remove()|移除指定元素|
|symmetric_difference()|返回两个集合中不重复的元素集合。|
|symmetric_difference_update()|移除当前集合中在另外一个指定集合相同的元素，并将另外一个指定集合中不同的元素插入到当前集合中。|
|union()|返回两个集合的并集|
|update()|	给集合添加元素|

In [7]:
set1 = {'a','b','c'}
set2 = {'c','d','e'}
set3 = {'a','b'}

set1.add('s')
print(set1)

set1.update({1,2})
print(set1)

set1.remove('s')
print(set1)

set1.discard('s')
print(set1)

set1.pop()
print(set1)

len(set1)

set1.clear()
print(set1)

set1 = {'a','b','c'}
print('a' in set1)

print(set1.difference(set2))
print(set1.intersection(set2))
print(set1.isdisjoint(set2))
print(set1.union(set2))

{'a', 'b', 'c', 's'}
{1, 'a', 2, 'b', 'c', 's'}
{1, 'a', 2, 'b', 'c'}
{1, 'a', 2, 'b', 'c'}
{'a', 2, 'b', 'c'}
set()
True
{'a', 'b'}
{'c'}
False
{'a', 'd', 'e', 'b', 'c'}


# 三、file文件读取

## 打开文件方式
* open()方法
用于打开一个文件，并返回文件对象，在对文件进行处理过程都需要使用到这个函数，如果该文件无法被打开，会抛出 OSError。  
    
注意：使用 open() 方法一定要保证关闭文件对象，即调用 close() 方法。  
  
open() 函数常用形式是接收两个参数：文件名(file)和模式(mode)。   
  
```
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

```

In [8]:
# 打开作业
plan1 = open('homework.txt', mode='r',encoding='UTF-8') # 只读
plan2 = open('homework.txt', mode='r+',encoding='UTF-8')# 读写

plan1.readline()

'python学习 咖喱 胡骞\n'

## 文件对象的操作方法
|方法|描述|
|---|---|
|file.close()|关闭文件。关闭后文件不能再进行读写操作。|
|file.flush()|刷新文件内部缓冲，直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。|
|file.fileno()|返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上。|
|file.next()|返回文件下一行。|
|file.read([size])|从文件读取指定的字节数，如果未给定或为负则读取所有。|
|file.readline([size])|读取整行，包括 "\n" 字符。|
|	
file.readlines([sizeint])|读取所有行并返回列表，若给定sizeint>0，返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。|
|file.write(str)|将字符串写入文件，返回的是写入的字符长度。|
|file.seek(offset[, whence])|设置文件当前位置|

## excel及csv文件操作
* excel或csv文件可以直接通过pandas库的方法实现。  
* read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None...)   
* read_excel(io, sheet_name=0, header=0, names=None...)
  
[read_csv] https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html  
[read_excel] https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html#pandas.read_excel  

# 四、作业

读取一个文件，将文件中的数据转换为字典，key值为学习项目，value值为一个负责人列表，并判断字典中是否有负责人负责多个学习项目。

In [9]:
# 打开文档,注意编码，需要指定UTF-8
homework = open('homework.txt', mode='r',encoding='UTF-8') # 只读

dict = {}
# 遍历txt里的每一行
# 每行第一个值是key，剩下的是value
# 数据比较规整，都是第二个和第三个值是value
# value用列表表示
# 思考？如何实现不论后面多少个值都写入value?
for line in homework.readlines():
    line = line.strip()
    dict[line.split()[0]] = [line.split()[1], line.split()[2]]
homework.close()
print(dict)

{'python学习': ['咖喱', '胡骞'], 'leetcode刷题': ['老表', '陈焕森'], '编程集训': ['孙超', '小熊'], '统计学': ['李奇峰', '蓝昔'], 'ML项目实践': ['杨冰楠', '孙涛'], '高级算法梳理': ['于鸿飞', '小雪'], '基础算法梳理': ['sm1les', '钱令武'], '知乎小组': ['李严', '黑桃'], '学习群': ['咖喱', '排骨']}


In [10]:
homework = open('homework.txt', mode='r',encoding='UTF-8')
dict2 = {}
# 读取每行第二个值 - 最后一个(即line的长度)
for line in homework.readlines():
    line = line.strip()
    dict2[line.split()[0]] = line.split()[1:len(line)]
homework.close()
print(dict2)

{'python学习': ['咖喱', '胡骞'], 'leetcode刷题': ['老表', '陈焕森'], '编程集训': ['孙超', '小熊'], '统计学': ['李奇峰', '蓝昔'], 'ML项目实践': ['杨冰楠', '孙涛'], '高级算法梳理': ['于鸿飞', '小雪'], '基础算法梳理': ['sm1les', '钱令武'], '知乎小组': ['李严', '黑桃'], '学习群': ['咖喱', '排骨']}


In [11]:
# 判断负责人是否负责多个项目

# 方法一 在所有的value里有重复值就说明有人负责多个项目
list = []
for v in dict.values():
    list.extend(v)

print('原始人数:',len(list),'去重后人数:', len(set(list)))    
    
if len(list) == len(set(list)):
    print('无人负责两个及以上项目')
else:
    print('有人负责两个及以上项目')

原始人数: 18 去重后人数: 17
有人负责两个及以上项目


In [12]:
# 方法二 可以显示出是谁负责多个项目
dupes = [x for n, x in enumerate(list) if x in list[:n]]
print('负责两个或以上的项目的人是：', ''.join(dupes))

负责两个或以上的项目的人是： 咖喱
