# Python变量和数据类型

## 字符串

Python中对字符串的定义：

> Textual data in Python is handled with `str` objects, or **strings**. Strings are immutable sequences of Unicode code points.

Python中的文本数据是通过`str`对象或字符串来处理的，字符串是由一系列Unicode码位（code point）所组成的**不可变序列**。

In [None]:
('S' 'T' 'R' 'I' 'N' 'G')

Unicode 暂时可以看作一张非常大的地图，这张地图里面记录了世界上所有的符号，而码位则是每个符号所对应的坐标。

In [None]:
ascii

In [2]:
s = '中国'
print(s)
print(len(s))

中国
2


In [3]:
s.encode()

b'\xe4\xb8\xad\xe5\x9b\xbd'

使用内建函数`len()`可以获得字符串的长度。

**不可变**是指无法对字符串本身进行更改操作：

In [4]:
s = 'abc'

In [6]:
s[0] = 'd'

TypeError: 'str' object does not support item assignment

而**序列（sequence）**则是指字符串继承序列类型（`list/tuple/range`）的通用操作。

### 字符串的创建

In [7]:
'string'

'string'

In [8]:
"string2"

'string2'

In [9]:
'say:"hello"'

'say:"hello"'

In [10]:
"he's cat"

"he's cat"

In [11]:
'''string3'''

'string3'

In [15]:
'''this
    is   
a
long
long
string'''

'this\n    is   \na\nlong\nlong\nstring'

In [4]:
'' in ''

True

In [5]:
s = 'a''b'

In [6]:
s

'ab'

3种方式创建字符串字面量：

1. 单引号：`'allows embedded "double" quotes'`
2. 双引号：`"allows embedded 'single' quotes"`
3. 三引号：`'''Three single quotes'''` `"""Three double quotes"""`

其中，三引号创建的字符串可以跨越多行，其中的空白（例如每行的换行符以及行首或行末的空格）会被包含进所创建的字符串字面量。

Python允许空字符串`''`，它不包含任何字符但完全合法。空字符串是其他任何字符串的子串。

字符串字面量是一个单独的表达式，如果多个字符串字面量中间仅包含空白，则它们将被隐性地转换为一个单一的字符串字面量。所以，`("spam" "eggs") == "spameggs"`。

另外，你还可以使用`str`构造器将其它对象转换为字符串。

In [None]:
str(98.6)  # '98.6'
str(True)  # 'True'

### 使用`\`转义

常见的转义符：`\n`（换行符）、`\t`（Tab制表符）、`\'`（单引号）、`\"`（双引号）、`\\`（反斜线）

In [21]:
print('a\tbc')

a	bc


In [22]:
print('abc\t')

abc	


In [23]:
print('\tabc')

	abc


In [7]:
print('/a')

/a


### 用于字符串的内建函数

* `input()` 获取用户输入，返回一个字符串

In [27]:
name = input("请输入用户名：")
print('用户名是：%s' % name)

请输入用户名：user
用户名是：user


* `chr()` 接受一个整数，返回对应的Unicode字符
* `ord()` 功能与`chr()` 相反

In [8]:
chr(10086)

'❦'

In [32]:
ord(chr(30002))

30002

In [9]:
ord('甲')

30002

### 字符串方法

In [10]:
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',


In [14]:
name = 'Lily Lucy Meimei Lilei'

In [15]:
name.split() # 默认是按照空格分割

['Lily', 'Lucy', 'Meimei', 'Lilei']

In [16]:
name = ['Lily', 'Lucy', 'Meimei', 'Lilei']

In [19]:
' '.join(name)

'Lily Lucy Meimei Lilei'

In [43]:
''.join('abc')

'abc'

In [20]:
story = '''This is a story
a story for python
this is the end of the story'''

In [22]:
story[:10] # 使用了分片过后，会从新创建一个新的对象

'This is a '

In [23]:
len(story)

63

In [25]:
story.startswith('This') # 字符串是否以'This'开头

True

In [26]:
story.endswith('story') # 字符串是否以'story'结尾

True

In [50]:
story.find('story') # 第一次出现'story'的下标位置

10

In [51]:
story.rfind('story') # 最后一次出现'story'的下标位置

58

In [29]:
story.count('story') # 统计出现'story'的次数

3

In [35]:
story.isalnum() # 如果字符串中都是数字，则返回true

False

In [40]:
setup = 'this is.. a story...'

In [41]:
setup.strip?

In [43]:
setup.capitalize() # 将字符串的首字母大写

'This is.. a story...'

In [59]:
setup.title() # 将每个字母的首字母大写

'This Is.. A Story...'

In [60]:
setup.upper() # 将所有字母大写

'THIS IS.. A STORY...'

In [44]:
setup.lower() # 将所有字母小写

'this is.. a story...'

In [45]:
setup.swapcase() # 将大小写互换

'THIS IS.. A STORY...'

In [46]:
setup.center(30) # 将字符串放在30字符大小的框里，并居中

'     this is.. a story...     '

In [47]:
setup.rjust(30) # 将字符串放在30字符大小的框里，并靠右对齐

'          this is.. a story...'

In [68]:
print(story)

This is a story
a story for python
this is the end of the story


In [48]:
story.replace('story','poem',1) # 把字符串中的 story 替换成 poem 只替换一次

'This is a poem\na story for python\nthis is the end of the story'

用法:`string_object.method(arguments)`

字符串方法比较多，可以通过`help(str)`或者`dir(str)`获取帮助。

以下是一些常用的方法：

* `split()` 基于**分隔符**将字符串分割成由若干子串组成的列表，如果不指定分割符，默认使用空白字符进行分割。
* `join()` 与`split()`功能相反，将包含若干子串的列表分解，并将这些子串通过指定的**粘合用的字符串**合并成一个完整的大的字符串。
* `find()` 查找返回字符串中第一次出现子串的位置（偏移量），失败时返回`-1`。
* `index()` 与`find()`类似，但是查找失败时将触发`ValueError`异常。
* `rfind()` 与`find()`类似，但返回最后一次子串出现的位置。
* `startswith()` 判断字符串是否以特定前缀开头。
* `endswith()` 判断字符串是否以特定后缀结尾。
* `count()` 统计子串在字符串中出现的次数。
* `is*` 判断字符串中字符是否符合某种类型或者规则。
* `strip()` 返回移除开始和结尾空白字符的字符串，如果指定参数，将在字符串的开始和结尾移除参数中所包含的字符。
* `upper()` `lower()` `swapcase()` 分别将字符串所有字母转换成大写、转换成小写、大小写转换。
* `title()` 将字符串中所有单词的开头字母变成大写。
* `capitalize()` 将字符串首字母变成大写。
* `center()` `ljust()` `rjust()` 分别将字符串根据指定长度居中对齐、左对齐、右对齐。
* `replace()` 进行简单的子串替换，需要传入的参数：需要被替换的子串，用于替换的新子串，以及需要替换多少处。

### 字符串操作符

回来说说**序列类型**。

**序列**是容器类型，“成员”们站成了有序的队列，我们从0开始进行对每个成员进行标记，0, 1, 2, 3…，这样，便可以通过**下标**访问序列的一个或几个成员，就像C语言中的数组一样。接下来，我们先来了解一下序列。

### 序列类型操作符

**注：以下操作符对所有序列类型都适用。**

#### 成员关系操作符（`in`、`not in`）

#### 连接操作符（`+`）

注：只可用于同种类型序列连接。

#### 重复操作符（`*`）

用法：`s * n` 或 `n * s`

`*`用以将序列重复指定次数，如：

**当`n`的值小于0的时候都按照`n = 0`对待（结果将返回一个和`s`类型相同的空序列）。**

#### 切片操作符（`[]`、`[:]`、`[::]`）

通过切片功能可以访问序列的一个或者多个成员。和C一样，在访问单个成员时你要保证你访问下标的成员是存在的，否则会引发`IndexError`异常（C中叫做数组越界）。

##### 索引——访问单个成员`[]`

注意，因为`-0`等于`0`，负数的索引从`-1`开始。

##### 切片——访问连续的多个成员`[starting_index : ending_index]`

切片索引有默认值，默认的起始索引是`0`，默认的终止索引是所要切片的字符串的长度。
参考[Common Sequence Operations](https://docs.python.org/3/library/stdtypes.html#common-sequence-operations) Notes 4:
> The slice of <em>s</em> from <em>i</em> to <em>j</em> is defined as the sequence of items with index <em>k</em> such that `i <= k < j`. 
> If <em>i</em> or <em>j</em> is greater than `len(s)`, use `len(s)`. If <em>i</em> is omitted or `None`, use `0`. 
> If <em>j</em> is omitted or `None`, use `len(s)`. 
> If <em>i</em> is greater than or equal to <em>j</em>, the slice is empty.

注意起始索引是包含进来的，终止索引是排除在外的。所以，**`s[:i] + s[i:]`永远等于`s`。**

记住切片如何工作的一种方法是将索引看作是字符间的点，第一个字符的左侧的位置为`0`，最后一个字符的右侧的位置为字符的长度。比如：

```
 +---+---+---+---+---+---+
 | P | y | t | h | o | n |
 +---+---+---+---+---+---+
 0   1   2   3   4   5   6
-6  -5  -4  -3  -2  -1
```

另外需要注意的是，当使用切片访问连续的多个成员时超出索引范围将被很好的处理。

In [1]:
astr = 'python'
astr[0:4:-3]

''

In [2]:
astr[1:-2]

'yth'

##### 以等差数列形式的下标进行访问 `[starting_index : ending_index : step_length]`

`step_length` 为正表示从左到右切片，反之为右到左，然后根据index依次切片。

* `step_length`为正，则从左到右切片，如果 `starting_index > ending_index`，则为空
* `step_length`为负，则从右到左切片，如果 `starting_index < ending_index`，则为空
* `starting_index` 和 `ending_index` 填空，前者表示**最开始**，后者表示**最后一个**, 同时为空的时候，表示取所有。
  至于方向，取决于 `step_length` 。


参考[Common Sequence Operations](https://docs.python.org/3/library/stdtypes.html#common-sequence-operations) Notes 5：

> The slice of <em>s</em> from <em>i</em> to <em>j</em> with step <em>k</em> is defined as the sequence of items with index `x = i + n*k` 
> such that `0 <= n < (j-i)/k`. In other words, the indices are `i`, `i+k`, `i+2*k`, `i+3*k` and so on, 
> stopping when <em>j</em> is reached (but never including </em>j</em>). When <em>k</em> is positive, <em>i</em> and <em>j</em> are reduced to 
> `len(s)` if they are greater. When <em>k</em> is negative, <em>i</em> and <em>j</em> are reduced to `len(s) - 1` if they are greater. 
> If <em>i</em> or <em>j</em> are omitted or `None`, they become “end” values (which end depends on the sign of <em>k</em>). 
> Note, <em>k</em> cannot be zero. If <em>k</em> is `None`, it is treated like `1`.

### 思考

如何拼接字符执行效率更高？

In [51]:
import string 
#parts = (string.ascii_letters)

In [52]:
string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [53]:
parts = (string.ascii_letters,)*3
print(parts)
s = ''
for p in parts:
    s += p

('abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ', 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ')


In [54]:
' '.join(parts)

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

*当大量的字符串的拼接时，使用join会更高效一些*