# 列表和元组

列表和元组，都是一个可以放置任意数据类型的有序集合
在绝大多数编程语言中，集合的吧数据类型必须一致。不过，对于 Python无此要求

## 创建

In [2]:
l = [1, 2, 'hello', 'world'] # 列表中同时含有 int 和 string 类型的元素
print(l)
tup = ('jason', 22) # 元组中同时含有 int 和 string 类型的元素
print(tup)

[1, 2, 'hello', 'world']
('jason', 22)


列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）。
而元组是静态的，长度大小固定，无法增加删减或者改变（immutable）。

In [3]:
l = [1, 2, 3, 4]
l[3] = 40 # 和很多语言类似，python 中索引同样从 0 开始，l[3] 表示访问列表的第四个元素
print(l)
tup = (1, 2, 3, 4)
tup[3] = 40

[1, 2, 3, 40]


TypeError: 'tuple' object does not support item assignment

可是，如果你想对已有的元组做任何"改变"，该怎么办呢？那就只能重新开辟一块内存，创建新的元组了。

In [5]:
tup = (1, 2, 3, 4)
new_tup = tup + (5, ) # 创建新的元组 new_tup，并依次填充原元组的值
print(new_tup)

l = [1, 2, 3, 4]
l.append(5) # 添加元素 5 到原列表的末尾
l

(1, 2, 3, 4, 5)


[1, 2, 3, 4, 5]

## 查找、增加、删除、更新

Python 中的列表和元组都支持负数索引

In [6]:
l = [1, 2, 3, 4]
print(l[-1])
tup = (1, 2, 3, 4)
tup[-1]b

4


4

除了基本的初始化，索引外，列表和元组都支持切片操作：

In [11]:
l = [1, 2, 3, 4]
print(l[1:3]) # 返回列表中索引从 1 到 2 的子列表
tup = (1, 2, 3, 4)
tup[1:3] # 返回元组中索引从 1 到 2 的子元组

[2, 3]


(2, 3)

列表和元组都可以随意嵌套

In [9]:
l = [[1, 2, 3], [4, 5]] # 列表的每一个元素也是一个列表
tup = ((1, 2, 3), (4, 5, 6)) # 元组的每一个元素也是一元组
print(l)
print(tup)

[[1, 2, 3], [4, 5]]
((1, 2, 3), (4, 5, 6))


两者也可以通过 list() 和 tuple() 函数相互转

In [1]:
tup = (1, 2, 3, 4)
print(list(tup))           
tuple([1, 2, 3])

[1, 2, 3, 4]


(1, 2, 3)

## 内置count/index/reverse/sort

列表和元组常用的内置函数：    
count(item) 表示统计列表 / 元组中 item 出现的次数。     

index(item) 表示返回列表 / 元组中 item 第一次出现的索引。     
  
list.reverse() 和 list.sort() 分别表示原地倒转列表和排序（注意，元组没有内置的这两个函数)。     

reversed() 和 sorted() 同样表示对列表 / 元组进行倒转和排序，但是会返回一个倒转后或者排好序的新的列表 / 元组。

In [3]:
l = [3, 2, 3, 7, 8, 1]
print(l.count(3)) 
print(l.index(7))
l.reverse()
print(l)
l.sort()
print(l)

tup = (3, 2, 3, 7, 8, 1)
print(tup.count(3))
print(tup.index(7))
print(list(reversed(tup)))
print(sorted(tup))

2
3
[1, 8, 7, 3, 2, 3]
[1, 2, 3, 3, 7, 8]
2
3
[1, 8, 7, 3, 2, 3]
[1, 2, 3, 3, 7, 8]


In [4]:
#存储空间
l = [1, 2, 3]
print(l.__sizeof__())
tup = (1, 2, 3)
print(tup.__sizeof__())

64
48


In [5]:
l = []
print(l.__sizeof__()) # 空列表的存储空间为 40 字节
l.append(1)
print(l.__sizeof__()) 
#72 // 加入了元素 1 之后，列表为其分配了可以存储 4 个元素的空间 (72 - 40)/8 = 4
l.append(2) 
print(l.__sizeof__())
#72 // 由于之前分配了空间，所以加入元素 2，列表空间不变
l.append(3)
print(l.__sizeof__()) 
#72 // 同上
l.append(4)
print(l.__sizeof__()) 
7#2 // 同上
l.append(5)
print(l.__sizeof__()) 
#104 // 加入元素 5 之后，列表的空间不足，所以又额外分配了可以存储 4 个元素的空间


40
72
72
72
72
104


## 性能比较

In [7]:
!python3 -m timeit 'x=(1,2,3,4,5,6)'
#20000000 loops, best of 5: 9.97 nsec per loop
!python3 -m timeit 'x=[1,2,3,4,5,6]'
#5000000 loops, best of 5: 50.1 nsec per loop


100000000 loops, best of 3: 0.016 usec per loop
10000000 loops, best of 3: 0.108 usec per loop


# 字典和集合    
字典是一系列无序元素的组合，其长度大小可变，元素可以任意地删减和改变。不过要注意，这里的元素，是一对键（key）和值值（value）的配对。而集合和字典基本相同，唯一的区别，就是集合没有键和值的配对，是一系列无序的、唯一的元素组合。


## 创建

In [10]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male') 
print(d1 == d2 == d3 ==d4)
s1 = {1, 2, 3}
s2 = set([1, 2, 3])
print(s1 == s2)

True
True


In [11]:
#字典混合类型
s = {1, 'hello', 5.0}
print(s)

{1, 'hello', 5.0}


In [12]:
d = {'name': 'jason', 'age': 20}
print(d['name'])
print(d['location'])

jason


KeyError: 'location'

In [13]:
d = {'name': 'jason', 'age': 20}
print(d.get('name'))
print(d.get('location', 'null'))

jason
null


集合并不支持索引操作，因为集合本质上是一个哈希表，和列表不一样。

In [14]:
s = {1, 2, 3}
s[0]

TypeError: 'set' object does not support indexing

## 判断一个元素存在

In [15]:
## 想要判断一个元素在不在字典或集合内，我们可以用 value in dict/set 来判断。
s = {1, 2, 3}
print(1 in s)
print(10 in s)
d = {'name': 'jason', 'age': 20}
print('name' in d)
print('location' in d)


True
False
True
False


## 增加、删除、更新

In [16]:
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male' # 增加元素对'gender': 'male'
d['dob'] = '1999-02-01' # 增加元素对'dob': '1999-02-01'
print(d)
d['dob'] = '1998-01-01' # 更新键'dob'对应的值 
d.pop('dob') # 删除键为'dob'的元素对
print(d)
s = {1, 2, 3}
s.add(4) # 增加元素 4 到集合
print(s)
s.remove(4) # 从集合中删除元素 4
print(s)



{'age': 20, 'dob': '1999-02-01', 'name': 'jason', 'gender': 'male'}
{'age': 20, 'name': 'jason', 'gender': 'male'}
{1, 2, 3, 4}
{1, 2, 3}


## 排序

In [18]:
#字典排序
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序
print(d_sorted_by_key)
print(d_sorted_by_value)

[('a', 2), ('b', 1), ('c', 10)]
[('b', 1), ('a', 2), ('c', 10)]


In [19]:
#集合排序
s = {3, 4, 2, 1}
sorted(s) # 对集合的元素进行升序排序

[1, 2, 3, 4]

## 性能比较

In [2]:
# list version
def find_unique_price_using_list(products):
    unique_price_list = []
    for _, price in products: # A
        if price not in unique_price_list: #B
            unique_price_list.append(price)
    return len(unique_price_list)
products = [
    (143121312, 100), 
    (432314553, 30),
    (32421912367, 150),
    (937153201, 30)
]
print('number of unique price is: {}'.format(find_unique_price_using_list(products)))

number of unique price is: 3


In [3]:
# set version
def find_unique_price_using_set(products):
    unique_price_set = set()
    for _, price in products:
        unique_price_set.add(price)
    return len(unique_price_set)        
products = [
    (143121312, 100), 
    (432314553, 30),
    (32421912367, 150),
    (937153201, 30)
]
print('number of unique price is: {}'.format(find_unique_price_using_set(products)))

number of unique price is: 3


In [4]:
import time
id = [x for x in range(0, 100000)]
price = [x for x in range(200000, 300000)]
products = list(zip(id, price))
# 计算列表版本的时间
start_using_list = time.perf_counter()
print(find_unique_price_using_list(products))
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))
# 计算集合版本的时间
start_using_set = time.perf_counter()
print(find_unique_price_using_set(products))
end_using_set = time.perf_counter()
print("time elapse using set: {}".format(end_using_set - start_using_set))

100000
time elapse using list: 88.96206938289106
100000
time elapse using set: 0.016152977012097836


# 字符串

## 字符串基础

In [5]:
name = 'jason'
city = 'beijing'
text = "welcome to jike shijian"

In [6]:
s1 = 'hello'
s2 = "hello"
s3 = """hello"""
s1 == s2 == s3

True

In [7]:
#转义字符 
s = 'a\nb\tc'
print(s)

a
b	c


In [8]:
#长度
len(s)

5

## 索引/切片/遍历

In [10]:
name = 'jason'
print(name[0])
name[1:3]

j


'as'

In [11]:
for char in name:
    print(char)

j
a
s
o
n


## 改变值

In [12]:
#特别要注意，Python 的字符串是不可变的（immutable）。因此，用下面的操作，来改变一个字符串内部的字符是错误的，不允许的。

s = 'hello'
s[0] = 'H'

TypeError: 'str' object does not support item assignment

In [14]:
s = 'H' + s[1:]
s = s.replace('h', 'H')
s

'Hello'

## 拼接

In [15]:
s = ''
for n in range(0, 100000):
    s += str(n)
s

'012345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697989910010110210310410510610710810911011111211311411511611711811912012112212312412512612712812913013113213313413513613713813914014114214314414514614714814915015115215315415515615715815916016116216316416516616716816917017117217317417517617717817918018118218318418518618718818919019119219319419519619719819920020120220320420520620720820921021121221321421521621721821922022122222322422522622722822923023123223323423523623723823924024124224324424524624724824925025125225325425525625725825926026126226326426526626726826927027127227327427527627727827928028128228328428528628728828929029129229329429529629729829930030130230330430530630730830931031131231331431531631731831932032132232332432532632732832933033133233333433533633733833934034134234334434534634734834935035135235335435535635735835936036136236336436536636736836

In [16]:
l = []
for n in range(0, 100000):
    l.append(str(n))
l = ' '.join(l)
l

'0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 2

In [17]:
def query_data(namespace, table):
    """
    given namespace and table, query database to get corresponding
    data         
    """
    path = 'hive://ads/training_table'
    namespace = path.split('//')[1].split('/')[0] # 返回'ads'
    table = path.split('//')[1].split('/')[1] # 返回 'training_table'
data = query_data(namespace, table)

NameError: name 'namespace' is not defined

In [18]:
# string.strip(str)，表示去掉首尾的 str 字符串；
# string.lstrip(str)，表示只去掉开头的 str 字符串；
# string.rstrip(str)，表示只去掉尾部的 str 字符串。
s = ' my name is jason '
s.strip()

'my name is jason'

## 格式化输出

In [23]:
id =19
name = 'yoyo'

In [24]:
print('no data available for person with id: {}, name: {}'.format(id, name))

no data available for person with id: 19, name: yoyo


In [25]:
print('no data available for person with id: %s, name: %s' % (id, name))

no data available for person with id: 19, name: yoyo


## 性能比较

In [None]:
s = ''
start_using_set = time.perf_counter()
for n in range(0, 100000):
    s += str(n)
end_using_set = time.perf_counter()

l = []
start_using_set = time.perf_counter()
for n in range(0, 100000):
    l.append(str(n))
s = ' '.join(l)