# 字符串和常用数据结构

## 使用字符串
第二次世界大战促使了现代电子计算机的诞生，当初的想法很简单，就是用计算机来计算导弹的弹道，因此在计算机刚刚诞生的那个年代，计算机处理的信息主要是数值，而世界上的第一台电子计算机ENIAC每秒钟能够完成约5000次浮点运算。随着时间的推移，虽然对数值运算仍然是计算机日常工作中最为重要的事情之一，但是今天的计算机处理得更多的数据都是以文本信息的方式存在的，而Python表示文本信息的方式我们在很早以前就说过了，那就是字符串类型。所谓字符串，就是由零个或多个字符组成的有限序列，一般记为$${\displaystyle s=a_{1}a_{2}\dots a_{n}(0\leq n \leq \infty)}$$
我们可以通过下面的代码来了解字符串的使用。

In [1]:
def main():
    str1 = 'hello, world!'
    
    # 通过len函数计算字符串的长度
    print(len(str1))  # 13
    
    # 获得字符串首字母大写的拷贝
    print(str1.capitalize())  # Hello, world!
    
    # 获得字符串变大写后的拷贝
    print(str1.upper())  # HELLO, WORLD!
    
    # 从字符串中查找子串所在位置
    print(str1.find('or'))  # 8
    print(str1.find('shit'))  # -1
    
    # 与find类似但找不到子串时会引发异常
    # print(str1.index('or'))
    # print(str1.index('shit'))
    
    # 检查字符串是否以指定的字符串开头
    print(str1.startswith('He'))  # False
    print(str1.startswith('hel'))  # True
    
    # 检查字符串是否以指定的字符串结尾
    print(str1.endswith('!'))  # True
    
    # 将字符串以指定的宽度居中并在两侧填充指定的字符
    print(str1.center(50, '*'))
    
    # 将字符串以指定的宽度靠右放置左侧填充指定的字符
    print(str1.rjust(50, ' '))
    
    str2 = 'abc123456'
    # 从字符串中取出指定位置的字符(下标运算)
    print(str2[2])  # c
    
    # 字符串切片(从指定的开始索引到指定的结束索引)
    print(str2[2:5])  # c12
    print(str2[2:])  # c123456
    print(str2[2::2])  # c246
    print(str2[::2])  # ac246
    print(str2[::-1])  # 654321cba
    print(str2[-3:-1])  # 45
    
    # 检查字符串是否由数字构成
    print(str2.isdigit())  # False
    
    # 检查字符串是否以字母构成
    print(str2.isalpha())  # False
    
    # 检查字符串是否以数字和字母构成
    print(str2.isalnum())  # True
    
    str3 = '  jackfrued@126.com '
    print(str3)
    
    # 获得字符串修剪左右两侧空格的拷贝
    print(str3.strip())


if __name__ == '__main__':
    main()

13
Hello, world!
HELLO, WORLD!
8
-1
False
True
True
******************hello, world!*******************
                                     hello, world!
c
c12
c123456
c246
ac246
654321cba
45
False
False
True
  jackfrued@126.com 
jackfrued@126.com


除了字符串，Python还内置了多种类型的数据结构，如果要在程序中保存和操作数据，绝大多数时候可以利用现有的数据结构来实现，最常用的包括列表、元组、集合和字典。

## 使用列表
下面的代码演示了如何定义列表、使用下标访问列表元素以及添加和删除元素的操作

In [4]:
def main():
    list1 = [1, 3, 5, 7, 100]
    print(list1)
    
    list2 = ['hello'] * 5
    print(list2)
    
    # 计算列表长度(元素个数)
    print(len(list1))
    
    # 下标(索引)运算
    print(list1[0])
    print(list1[4])
    # print(list1[5])  # IndexError: list index out of range
    print(list1[-1])
    print(list1[-3])
    list1[2] = 300
    print(list1)
    
    # 添加元素
    list1.append(200)
    list1.insert(1, 400)
    list1 += [1000, 2000]
    print(list1)
    print(len(list1))
    
    # 删除元素
    list1.remove(3)
    if 1234 in list1:
        list1.remove(1234)
    del list1[0]
    print(list1)
    
    # 清空列表元素
    list1.clear()
    print(list1)


if __name__ == '__main__':
    main()

[1, 3, 5, 7, 100]
['hello', 'hello', 'hello', 'hello', 'hello']
5
1
100
100
5
[1, 3, 300, 7, 100]
[1, 400, 3, 300, 7, 100, 200, 1000, 2000]
9
[400, 300, 7, 100, 200, 1000, 2000]
[]


和字符串一样，列表也可以做切片操作，通过切片操作我们可以实现对列表的复制或者将列表中的一部分取出来创建出新的列表，代码如下所示。

In [5]:
def main():
    fruits = ['grape', 'apple', 'strawberry', 'waxberry']
    fruits += ['pitaya', 'pear', 'mango']
    
    # 循环遍历列表元素
    for fruit in fruits:
        print(fruit.title(), end=' ')
    print()
    
    # 列表切片
    fruits2 = fruits[1:4]
    print(fruits2)
    
    # fruit3 = fruits  # 没有复制列表只创建了新的引用
    # 可以通过完整切片操作来复制列表
    fruits3 = fruits[:]
    print(fruits3)
    fruits4 = fruits[-3:-1]
    print(fruits4)
    
    # 可以通过反向切片操作来获得倒转后的列表的拷贝
    fruits5 = fruits[::-1]
    print(fruits5)


if __name__ == '__main__':
    main()

Grape Apple Strawberry Waxberry Pitaya Pear Mango 
['apple', 'strawberry', 'waxberry']
['grape', 'apple', 'strawberry', 'waxberry', 'pitaya', 'pear', 'mango']
['pitaya', 'pear']
['mango', 'pear', 'pitaya', 'waxberry', 'strawberry', 'apple', 'grape']


下面的代码实现了对列表的排序操作。

In [6]:
def main():
    list1 = ['orange', 'apple', 'zoo', 'internationalization', 'blueberry']
    list2 = sorted(list1)
    # sorted函数返回列表排序后的拷贝不会修改传入的列表
    # 函数的设计就应该像sorted函数一样尽可能不产生副作用
    list3 = sorted(list1, reverse=True)
    
    # 通过key关键字参数指定根据字符串长度进行排序而不是默认的字母表顺序
    list4 = sorted(list1, key=len)
    print(list1)
    print(list2)
    print(list3)
    print(list4)
    
    # 给列表对象发出排序消息直接在列表对象上进行排序
    list1.sort(reverse=True)
    print(list1)


if __name__ == '__main__':
    main()

['orange', 'apple', 'zoo', 'internationalization', 'blueberry']
['apple', 'blueberry', 'internationalization', 'orange', 'zoo']
['zoo', 'orange', 'internationalization', 'blueberry', 'apple']
['zoo', 'apple', 'orange', 'blueberry', 'internationalization']
['zoo', 'orange', 'internationalization', 'blueberry', 'apple']


我们还可以使用列表的生成式语法来创建列表，代码如下所示。

In [11]:
# import sys


# def main():
#     f = [x for x in range(1, 10)]
#     print(f)
#     f = [x + y for x in 'ABCDE' for y in '1234567']
#     print(f)
    
#     # 用列表的生成表达式语法创建列表容器
#     # 用这种语法创建列表之后元素已经准备就绪所以需要耗费较多的内存空间
#     f = [x ** 2 for x in range(1, 1000)]
#     print(sys.getsizeof(f))  # 查看对象占用内存的字节数
#     print(f)
    
#     # 请注意下面的代码创建的不是一个列表而是一个生成器对象
#     # 通过生成器可以获取到数据但它不占用额外的空间存储数据
#     # 每次需要数据的时候就通过内部的运算得到数据(需要花费额外的时间)
#     f = (x ** 2 for x in range(1, 1000))
#     print(sys.getsizeof(f))  # 相比生成式生成器不占用存储数据的空间
#     print(f)
#     for val in f:
#         print(val)


# if __name__ == '__main__':
#     main()

除了上面提到的生成器语法，Python中还有另外一种定义生成器的方式，就是通过yield关键字将一个普通函数改造成生成器函数。下面的代码演示了如何实现一个生成斐波拉切数列的生成器。所谓斐波拉切数列可以通过下面递归的方法来进行定义：

$${\displaystyle F_{0}=0}$$

$${\displaystyle F_{1}=1}$$

$${\displaystyle F_{n}=F_{n-1}+F_{n-2}}({n}\geq{2})$$

![斐波拉切数](https://github.com/LiuHH2018/Python-100-Days/raw/master/Day01-15/Day07/res/fibonacci-blocks.png)

In [9]:
def fib(n):
    a, b = 0, 1
    for _ in range(n):
        a, b = b, a + b
        yield a


def main():
    for val in fib(20):
        print(val)


if __name__ == '__main__':
    main()

1
1
2
3
5
8
13
21
34
55
89
144
233
377
610
987
1597
2584
4181
6765


## 使用元组
Python 的元组与列表类似，不同之处在于元组的元素不能修改，在前面的代码中我们已经不止一次使用过元组了。顾名思义，我们把多个元素组合到一起就形成了一个元组，所以它和列表一样可以保存多条数据。下面的代码演示了如何定义和使用元组。

In [11]:
def main():
    # 定义元组
    t = ('骆昊', 38, True, '四川成都')
    print(t)
    
    # 获取元组中的元素
    print(t[0])
    print(t[3])
    
    # 遍历元组中的值
    for member in t:
        print(member)
        
    # 重新给元组赋值
    # t[0] = '王大锤'  # TypeError
    # 变量t重新引用了新的元组原来的元组将被垃圾回收
    t = ('王大锤', 20, True, '云南昆明')
    print(t)
    
    # 将元组转换成列表
    person = list(t)
    print(person)
    
    # 列表是可以修改它的元素的
    person[0] = '李小龙'
    person[1] = 25
    print(person)
    
    # 将列表转换成元组
    fruits_list = ['apple', 'banana', 'orange']
    fruits_tuple = tuple(fruits_list)
    print(fruits_tuple)


if __name__ == '__main__':
    main()

('骆昊', 38, True, '四川成都')
骆昊
四川成都
骆昊
38
True
四川成都
('王大锤', 20, True, '云南昆明')
['王大锤', 20, True, '云南昆明']
['李小龙', 25, True, '云南昆明']
('apple', 'banana', 'orange')


这里有一个非常值得探讨的问题，我们已经有了列表这种数据结构，为什么还需要元组这样的类型呢？

1.元组中的元素是无法修改的，事实上我们在项目中尤其是多线程环境（后面会讲到）中可能更喜欢使用的是那些不变对象（一方面因为对象状态不能修改，所以可以避免由此引起的不必要的程序错误，简单的说就是一个不变的对象要比可变的对象更加容易维护；另一方面因为没有任何一个线程能够修改不变对象的内部状态，一个不变对象自动就是线程安全的，这样就可以省掉处理同步化的开销。一个不变对象可以方便的被共享访问）。所以结论就是：如果不需要对元素进行添加、删除、修改的时候，可以考虑使用元组，当然如果一个方法要返回多个值，使用元组也是不错的选择。  

2.元组在创建时间和占用的空间上面都优于列表。我们可以使用sys模块的getsizeof函数来检查存储同样的元素的元组和列表各自占用了多少内存空间，这个很容易做到。我们也可以在ipython中使用魔法指令%timeit来分析创建同样内容的元组和列表所花费的时间，下图是我的macOS系统上测试的结果。

![图片](https://raw.githubusercontent.com/LiuHH2018/Python-100-Days/master/Day01-15/Day07/res/ipython-timeit.png)

## 使用集合
Python中的集合跟数学上的集合是一致的，不允许有重复元素，而且可以进行交集、并集、差集等运算。

![斐波拉切数](https://raw.githubusercontent.com/LiuHH2018/Python-100-Days/master/Day01-15/Day07/res/python-set.png)

In [12]:
def main():
    set1 = {1, 2, 3, 3, 3, 2}
    print(set1)
    print('Length =', len(set1))
    set2 = set(range(1, 10))
    print(set2)
    set1.add(4)
    set1.add(5)
    set2.update([11, 12])
    print(set1)
    print(set2)
    set2.discard(5) #移出元素
    
    # remove的元素如果不存在会引发KeyError
    if 4 in set2:
        set2.remove(4)
    print(set2)
    
    # 遍历集合容器
    for elem in set2:
        print(elem ** 2, end=' ')
    print()
    
    # 将元组转换成集合
    set3 = set((1, 2, 3, 3, 2, 1))
    print(set3.pop())
    print(set3)
    
    # 集合的交集、并集、差集、对称差运算
    print(set1 & set2)
    # print(set1.intersection(set2))
    print(set1 | set2)
    # print(set1.union(set2))
    print(set1 - set2)
    # print(set1.difference(set2))
    print(set1 ^ set2)
    # print(set1.symmetric_difference(set2))
    
    # 判断子集和超集
    print(set2 <= set1)
    # print(set2.issubset(set1))
    print(set3 <= set1)
    # print(set3.issubset(set1))
    print(set1 >= set2)
    # print(set1.issuperset(set2))
    print(set1 >= set3)
    # print(set1.issuperset(set3))


if __name__ == '__main__':
    main()

{1, 2, 3}
Length = 3
{1, 2, 3, 4, 5, 6, 7, 8, 9}
{1, 2, 3, 4, 5}
{1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12}
{1, 2, 3, 6, 7, 8, 9, 11, 12}
1 4 9 36 49 64 81 121 144 
1
{2, 3}
{1, 2, 3}
{1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12}
{4, 5}
{4, 5, 6, 7, 8, 9, 11, 12}
False
True
False
True


>说明：Python中允许通过一些特殊的方法来为某种类型或数据结构自定义运算符（后面的章节中会讲到），上面的代码中我们对集合进行运算的时候可以调用集合对象的方法，也可以直接使用对应的运算符，例如&运算符跟intersection方法的作用就是一样的，但是使用运算符让代码更加直观。

## 使用字典
字典是另一种可变容器模型，类似于我们生活中使用的字典，它可以存储任意类型对象，与列表、集合不同的是，字典的每个元素都是由一个键和一个值组成的“键值对”，键和值通过冒号分开。下面的代码演示了如何定义和使用字典。

In [15]:
def main():
    scores = {'骆昊': 95, '白元芳': 78, '狄仁杰': 82}
    
    # 通过键可以获取字典中对应的值
    print(scores['骆昊'])
    print(scores['狄仁杰'])
    
    # 对字典进行遍历(遍历的其实是键再通过键取对应的值)
    for elem in scores:
        print('%s\t--->\t%d' % (elem, scores[elem]))
        
    # 更新字典中的元素
    scores['白元芳'] = 65
    scores['诸葛王朗'] = 71
    scores.update(冷面=67, 方启鹤=85)
    print(scores)
    if '武则天' in scores:
        print(scores['武则天'])
    print(scores.get('武则天'))
    
    # get方法也是通过键获取对应的值但是可以设置默认值
    print(scores.get('武则天', 60))
    
    # 删除字典中的元素
    print(scores.popitem())
    print(scores.popitem())
    print(scores.pop('骆昊', 100))
    
    # 清空字典
    scores.clear()
    print(scores)


if __name__ == '__main__':
    main()

95
82
骆昊	--->	95
白元芳	--->	78
狄仁杰	--->	82
{'骆昊': 95, '白元芳': 65, '狄仁杰': 82, '诸葛王朗': 71, '冷面': 67, '方启鹤': 85}
None
60
('方启鹤', 85)
('冷面', 67)
95
{}


## 练习
### 练习1：在屏幕上显示跑马灯文字

In [10]:
import time

def run_word(str_1):
    n = 0
    while n <10:# 防止程序跑死，所以设置数字10，无限循环的话“1==1”
        for i in str_1:
            time.sleep(0.4) # sleep函数支持小数,例如sleep(0.3),单位为秒
            n +=1
            print(i,end="")

run_word("北京欢迎你!!!")

北京欢迎你!!!北京欢迎你!!!

### 练习2：设计一个函数产生指定长度的验证码，验证码由大小写字母和数字构成。

In [9]:
#  可使用string.ascii_lowercase代替敲入的字母
import random

def code():
    a = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
    b = len(a)
    c = a[random.randint(0,b)]
    d = a[random.randint(0,b)]
    e = a[random.randint(0,b)]
    f = a[random.randint(0,b)]
    
    n = c+d+e+f
    return n

code()

'6aED'

### 附加练习1：判断一个用户输入的密码是否有效必须，至少一个大写字母，一个小写字母，一个特殊符号，一个数字，长度 不小于6位，不大于15位

In [8]:
import string

def is_code():
    m = str(input("请输入密码："))
    
    if len(m) >=6 and len(m)<=15:
        a = string.ascii_lowercase
        b = string.ascii_uppercase
        c = string.digits
        d = string.punctuation 
        
        i = [x for x in m if x in a]
        j = [x for x in m if x in b]
        h = [x for x in m if x in c]
        p = [x for x in m if x in d]
        if len(i)>0 and len(j) >0 and len(h)>0 and len(p)>0:
            print("您的密码有效，请登录！")
        else:
            print("您的密码无效，请重新输入！")
    else:
        print("您的密码无效，请重新输入！")
        
is_code()

请输入密码：wjejrke
您的密码无效，请重新输入！


### 附加练习2：随机生成一个密码生成器，至少一个大写字母，一个小写字母，一个特殊符号，一个数字，长度 不小于6位，不大于15位

In [57]:
import random
import string

def di_code():
    """
    随机生成函数
    """
    i=random.randint(6,15)
    a= string.printable
    b =a[0:len(a)-6]
    str_list = list(b) # 将字符串转换成列表
    random.shuffle(str_list) # 调用random模块的shuffle函数打乱列表
    c = ''.join(str_list)# 将列表转字符串
    m =c[0:i]
    return m


def is_code(m):
    """
    判断函数是否符合规则
    """
    if len(m) >=6 and len(m)<=15:
        a = string.ascii_lowercase
        b = string.ascii_uppercase
        c = string.digits
        d = string.punctuation 
        
        i = [x for x in m if x in a]
        j = [x for x in m if x in b]
        h = [x for x in m if x in c]
        p = [x for x in m if x in d]
        if len(i)>0 and len(j) >0 and len(h)>0 and len(p)>0:
            return True
        else:
            return False
    else:
        return False
        

if __name__ == '__main__':
    m = di_code()
    while 1==1:
        if is_code(m)==True:
            print(m)
            break
        else:
            continue

Y=8!4b'IG"E


In [3]:
import random
import string

d = string.digits
low = string.ascii_lowercase
up = string.ascii_uppercase
p = string.punctuation

def check_avaliable(s):
    if any({*s} & {*d}) ==False: #{*s}是把列表转成集合｛｝，print(a & b)     # a 和 b 的交集
        print('Please contain a digit')
    elif any({*s} & {*low}) ==False:
        print('Please contain a lower letter')
    elif any({*s} & {*up}) ==False:
        print('Please contain a upper letter')   
    elif any({*s} & {*p}) ==False:
        print('Please contain a punctuation')  
    else:
        print('Thank you for your password')
        return True

def psw_genertate():
    length = random.choice(range(5,16))
    res = []
    res.append(random.choice(d)) # 随机选取一个元素
    res.append(random.choice(low))
    res.append(random.choice(up))
    res.append(random.choice(p))
    res += random.sample(set(d + low + up + p),length -4) # 集合（set）是一个无序的不重复元素序列,没解读出来意思
    random.shuffle(res)
    
    return ''.join(res)

i = 0
while (i <10):
    ps = psw_genertate()
    print(ps)
    check_avaliable(ps) #这里是只有真的才输出吗？
    i +=1

iXpp0\;,
Thank you for your password
aHGeuEy!H6z'.
Thank you for your password
CKYjm9wO<0T
Thank you for your password
|x\Q4[S8JRSv6xW
Thank you for your password
8@I!&pnn~0_RXG
Thank you for your password
1OrvuK'CV6Q
Thank you for your password
5s<6*I^t
Thank you for your password
458%Z'$a
Thank you for your password
Nt08[ee9q
Thank you for your password
2g]xC
Thank you for your password


### 练习3：设计一个函数返回给定文件名的后缀名。

In [14]:
def extract_extension(fileName):
    # write your code here
    if fileName.rfind(".") > 0:
        rindex = fileName.rfind(".")
        return fileName[rindex + 1:]
    else:
        return " "

print(extract_extension('information.txt'))
# output should be: txt
print(extract_extension('My.heart.will.go.on.mp3'))
# output should be: mp3
print(extract_extension('data.md'))
# output should be: md
print(extract_extension('data'))

txt
mp3
md
 


In [4]:
import random
import string

d = string.digits
low = string.ascii_lowercase
up = string.ascii_uppercase
p = string.punctuation

def check_avaliable(s):
    if any({*s} & {*d}) ==False: 
        print('Please contain a digit')
        return False
    elif any({*s} & {*low}) ==False:
        print('Please contain a lower letter')
        return False
    elif any({*s} & {*up}) ==False:
        print('Please contain a upper letter')
        return False
    elif any({*s} & {*p}) ==False:
        print('Please contain a punctuation')
        return False
    elif len(s) < 5 or len(s) >15:
        print('Please enter a password lenght between 5 and 15')
        return False
    else:
        print('Thank you for your password')
        return True
    
pass_la = False
while(pass_la== False):
    print('-' * 30)
    psw = input('pls input your password:  ')
    pass_la = check_avaliable(psw)

print('-' * 30)
print('your password is: ', psw)

------------------------------
pls input your password:  1234jjklf
Please contain a upper letter
------------------------------
pls input your password:  1234jjkH.
Thank you for your password
------------------------------
your password is:  1234jjkH.


### 练习4：设计一个函数返回传入的列表中最大和第二大的元素的值。

In [7]:
import string

def top_two(l):
    set(l)
    l.sort(reverse = True)
    m = l[0:2]
    b = [str(i) for i in m]
    return ' '.join(b)
        
l = [12,34,56,78,56]
c = top_two(l)
print(c)

78 56


In [3]:
#  设计一个函数返回给定文件名的后缀名
def extract_extension(fileName):
    # write your code here
    if fileName.rfind(".") > 0:
        rindex = fileName.rfind(".")
        return fileName[rindex + 1:]
    else:
        return " "

print(extract_extension('information.txt'))
# output should be: txt
print(extract_extension('My.heart.will.go.on.mp3'))
# output should be: mp3
print(extract_extension('data.md'))
# output should be: md
print(extract_extension('data'))


def extract_extension2(fileName):
    l = fileName.split('.')
    last = l[-1]
    if last == fileName:
        return " "
    else:
        return last

print(extract_extension2('information.txt'))
# output should be: txt
print(extract_extension2('My.heart.will.go.on.mp3'))
# output should be: mp3
print(extract_extension2('data.md'))
# output should be: md
print(extract_extension2('data'))    
    


def extract_extension3(fileName):
    try:
        r_index = fileName.rindex('.')
        return fileName[r_index + 1:]
    except:
        return ' '
      
print(extract_extension3('information.txt'))
# output should be: txt
print(extract_extension3('My.heart.will.go.on.mp3'))
# output should be: mp3
print(extract_extension3('data.md'))
# output should be: md
print(extract_extension3('data'))    

txt
mp3
md
 
txt
mp3
md
 
txt
mp3
md
 
