# String
## I. 基本特征
1. string本质上是：positionally ordered collection of one-character strings
2. 从功能上看，string可以用来表达任意可以encode成text，或者bytes的东西。
   - text对应symbol和words
   - bytes包括media files，network transfers，encoded和decoded形式的non-ASCII Unicode text

## II. 两种主要的string类型：str和byte
- **string有两种主要类型：str和byte。**此外还有一些特定用途的类型，比如用于print的format string。
  - <font color=blue>**str**</font>：用<code>""</code>, <code>''</code>, <code>""" """</code>生成的都是str类型的string。通常的unicode text都用str类型表示。
  - <font color=blue>**byte**</font>：用<code>b''</code>生成的是byte string。encoded text是byte类型。
- **两种string类型分别处理两类不同的files类型。**
  - 一类是文本类的files，比如html，txt等。文本的内容可以用unicode编码表示。在python中这类files的内容用str来处理。<font color=red>str类型可能涉及不同编码形态的变换。</font>
  - 一类文本的内容是binary raw bytes，比如图片，视频，音频和网络数据包等。在python中，这类files用byte类型来处理。<font color=red>这类文件通常直接处理row bytes，不涉及不同编码性形态之间的转换。</font>

## III. str类型的string
### III.1 直接创建str literals的3种方法
1. 用<code>""</code>和<code>''</code>
   - 如果文本中有character是<code>"</code>或者<code>'</code>的其中一种，只要把最外层的引号用另一种来标记str类型就可以了。
   - 如果两种都有，则用<code>\\</code>来escape

In [1]:
a = '"h", "w"'
b = "'h', 'w'"
a == b, a, b

(False, '"h", "w"', "'h', 'w'")

In [2]:
c = "she said, \"the best word is 'love'.\"" 
print(c), c # 注意区别

she said, "the best word is 'love'."


(None, 'she said, "the best word is \'love\'."')

2. 在单、双引号前面加r的就是raw string，raw string不会识别escape符号<code>\\</code>，会将它视为一个普通character
   - raw string实际上就是python把text中所有<code>\\</code>自动做了escape然后存成str
   - <font color=blue>raw string最常见的用途是作为<code>open()</code>的参数处理files</font>
   - <font color=red>注：raw string中引号不会被视为character，规则和前面一样没有变化</font>

In [3]:
e = r'I\'m'
print(len(e), [i for i in e])  # 实际存储的str类型将'\'做了escape
print(e)                       # print(e) 和raw string形态相同
e                              # e的输出是python实际存储的character形态

4 ['I', '\\', "'", 'm']
I\'m


"I\\'m"

3. 3个连续双引号<code>""" """</code>表示跨行string，虽然有多行，但整体是1个string
   - 此时每行结尾会被自动加上换行符'\n'

In [4]:
a = """
aa
b'c""d'e
"""
print(a)
print([i for i in a])


aa
b'c""d'e

['\n', 'a', 'a', '\n', 'b', "'", 'c', '"', '"', 'd', "'", 'e', '\n']


### III.2 str支持的基本操作
主要有3类：
1. str作为sequence类型支持sequence的操作
2. str自己的method
3. 第三方扩展库提供的操作，如：re可以对str做pattern match

#### 1. sequence类操作
- cantenate：<code> s1 + s2</code>
- repeat：<code> s1 * s2</code>
- indexing和slicing: <code>s[]</code>
- <code>len(s)</code>
- 另外做为collection还支持iteration：<code>for i in s: ...</code>

#### 2. str自己的method
常见的有：
- search: <code>s.find('sub_s')</code>
- remove whitespace:<code>s.rstrip()</code>
- split on delimiter: <code>s.split(',')</code> # use , as delimiter
- replacement: <code>s.replace('sub_s', 'xx')</code>
- lower/cap: <code>s.lower()</code>, <code>s.capitaolize()</code>
- encode/decode: <code>s.encode('utf-8')</code>, <code>s.decode()</code>
- content test: <code>s.isdigit()</code>, <code>s.isalpha()</code>, <code>s.isdecimal()</code>

### III.3 str中的escape sequence
略

### III.4 str string的编码方式
1. python中，str string用unicode编码，因此可以表达各种类型的文本数据。
  - 每个str string都是一个sequence of unicode code points.python在内存中将每个character存成它对应的Unicode codepoint。
2. 与编码方式对应，<code>len(s)</code>返回的不是str string在内存中占用的bytes数量，而是str string对应的unicode编码的code points数量。
   - <font color=red>注意区分python表达文本数据的编码方式(unicode)和python存储数据的方式(不是unicode)。</font>
3. python会根据它的escape规则来读取string中的code point
   - 比如：<code>'\u'</code>会连读后面4个digits；<code>'\U'</code>会连读后面8个digits；<code>'\x'</code>会连读后面2个digits

In [5]:
# 含有non-ACSII的string
x = '\na中国'
print([i for i in x])  # 输出的是这些character对应的unicode code points

['\n', 'a', '中', '国']


In [6]:
# 直接用unicode的码值来定义str string
y = '\u018e = Ǝ'
print([i for i in y])  # python会将unicode码值转变成对应的symbol输出
print(len(y))          # ‘\u018e’是1个escape sequence，对应unicode编码中的1个code point
                       # 所以它的长度是1，而不是5

['Ǝ', ' ', '=', ' ', 'Ǝ']
5


In [7]:
# python会根据它的escape规则来读取string中的code point
z = '\x56366'   # 按照escape sequence规则，看到'\x'就将后面2个digits读成1个escape sequence
len(z), z

(4, 'V366')

- python给str提供了将unicode转变成其他编码的method：<code>str.encode('encode_method')</code>。经过编码之后，得到的string就成了byte类型，而不再是str类型。
  - 比如：<code>s.encode('utf-8')</code>

In [8]:
en_y = y.encode('utf-8')
print(type(en_y), en_y)

<class 'bytes'> b'\xc6\x8e = \xc6\x8e'


### III.5 区分Python 3在不同场景下处理strings的方式
Key points:
- UTF-8 is an encoding format used when reading/writing files or network communication
- Unicode is the in-memory representation Python uses
- Python automatically chooses the most memory-efficient representation based on the actual characters in the string

#### 1. 表示string
- str类型用unicode编码方式来表示text，它从输入终端读取的是symbol或者unicode的码值，但处理都统一用unicode。
- 所有的这些unicode都要存到memory中，因此python定义了一套存储这些unicode的策略。<font color=red>**基于算法效率考虑而没有用utf-8**</font>

#### 2. python在memory中存储unicode的storage strategy
- Python用一种称为"flexible string representation"的方式来存储unicode的不同部分:
  - Latin-1 (1 byte per character) for ASCII strings
  - UCS-2 (2 bytes per character) for Basic Multilingual Plane
  - UCS-4 (4 bytes per character) for characters outside the BMP
- <font color=green>当string中有不同size level的character时，则string中的所有character都用bytes最长的那个character的byte size来存储</font>
- <font color=norange>**python为什么没有直接用utf-8作为存储策略**</font>
  - 因为utf-8虽然可以压缩编码长度，但是由于不同的code point编码长度不同，所以indexing,slicing,统计string length这些操作的效率很低，而这些method在编程中使用频繁。python根据编程中对这些method的效率考虑改用了自己的存储策略。这个策略在index和length calculation的时间复杂度都是O(1)。因为characters are stored in fixed-width units in memory, not in variable-width UTF-8 encoding.

In [9]:
# Python uses different storage strategies depending on the characters:
import sys
s1 = 'a'              # ASCII characters - 1 byte per char
s12 = 'ah'            # s1和s2的长度差异体现char耗用的byte数，s1值体现overhead
print(len(s1), sys.getsizeof(s1))
print(len(s12), sys.getsizeof(s12))  

1 50
2 51


In [10]:
s2 = 'и'         # Unicode characters - 2 bytes per char
s22 = 'пи'
print(len(s2), sys.getsizeof(s2))
print(len(s22), sys.getsizeof(s22)) 

1 76
2 78


In [11]:
s3 = '🐍'                # Characters outside BMP - 4 bytes per char
s32 = '🐍🐍'  
print(len(s3), sys.getsizeof(s3))
print(len(s32), sys.getsizeof(s32)) 

1 80
2 84


In [12]:
s4 = 'a🐍'               # 当string中有不同size level的character时
s42 = 'ah🐍'             # 全都用最长的那个character的size来存储
print(len(s4), sys.getsizeof(s4))
print(len(s42), sys.getsizeof(s42))

2 84
3 88


In [13]:
# 与utf-8的差异
s = '你好'
print(len(s))                      # 2 (two Unicode characters)
print(len(s.encode('utf-8')))      # 6 (six bytes in UTF-8)

print(sys.getsizeof('hello'))      # More than 5 bytes due to overhead
print(sys.getsizeof('你好'))        # More than 6 bytes (UTF-8 would be)

2
6
54
78


#### 3. python用utf-8作为reading/writing files和network communication的编码方式
- 以读写文件(file I/O)为例：
   - <font color=blue>**读文件**</font>
     - python从文件中读取文本data时(注，图片这些非文本data不需要解码成string)，需要根据文件本身的编码方式来指定python读入该文件时用什么decode方法，python需要将file中的内容decode成unicode才能作为str处理。
       - python的built-in函数<code>open('file_name', encoding='encoding_method')</code>就是具有解码能力的文件读取方法。
     - 一个特殊的文件类型是python源代码文件：
       - 如果一个.py文档没有特殊的标记编码方式，那么默认它的编码方式是utf-8，在将它读入memory在运行的时候，interpreter会先用decode('utf-8')的方式将它转化为unicode。
       - 可以在源代码文件的顶部用<code># -\*- coding: latin-1 -\*- </code>，或者<code># coding: latin-1</code>来指定编码方式，这里的<code>'-\*-'</code>不是必须的，只是从Emacs编辑器规则沿用下来的习惯
    - <font color=blue>**写文件**</font>
      - 当python将一段str string写入外部文件时，默认写进去的是文本内容对应的UTF-8 encoded bytes而不是Unicode representation。

In [14]:
# 新建一个含有non-ASCII characters的str string
s = "Hello 你好"                             # in memory: s is stored as Unicode
print(s.encode('utf-8'))                     # 打印每个character对应的utf-8的码值
print(list(s.encode('utf-8')))               # 打印每个码值的10进制值大小

# 以可写方式打开文件，并用utf-8的编码方式将字符串s写入file
# with open('string_sample.txt', 'w', encoding='utf-8') as f:  
with open('string_sample.txt', 'w') as f:   # utf-8是默认encoding方法，所以可以不写该参数
    f.write(s)

# 用binary mode来查看文本中的raw bytes
with open('string_sample.txt', 'rb') as f:  # open in  to see raw bytes
    content = f.read()
print(content)                              # byte string打印时0-127内值会输出对应ASCII字符

# 直接在文本中打开会看到"Hello 你好"，这是因为使用的文本编辑器自动做了解码

b'Hello \xe4\xbd\xa0\xe5\xa5\xbd'
[72, 101, 108, 108, 111, 32, 228, 189, 160, 229, 165, 189]
b'Hello \xe4\xbd\xa0\xe5\xa5\xbd'


## IV. byte类型的string
### IV.1 python中bytes string的基本特点
1. python用byte string来表示raw binary data(而不是text).也因此，<font color=red>python限制byte string只能包含ASCII characters。如果用non-ASCII characters来定义byte string会报错</font>
   - <code>x = b'\na中国'</code> 这个语句会报错
   - 如果含有non-ASCII的text想用byte来处理，可以先创建str类型的object，然后通过encode将他们转化成byte string

In [15]:
x = 'abc中国'
bin_x = x.encode('utf-8')
print(bin_x)
[(bin(i), int(i)) for i in bin_x]  # byte值在128以内的对应ASCII，超过的用十六进制显示

b'abc\xe4\xb8\xad\xe5\x9b\xbd'


[('0b1100001', 97),
 ('0b1100010', 98),
 ('0b1100011', 99),
 ('0b11100100', 228),
 ('0b10111000', 184),
 ('0b10101101', 173),
 ('0b11100101', 229),
 ('0b10011011', 155),
 ('0b10111101', 189)]

### IV.1 创建bytes的方法
1. 用<code>b''</code>
2. 通过<code>s.encode('encode_type')</code>，它的方向操作<code>s.decode('encode_type')</code>可以将bytes转化成string
   - encode method的参数指定对string进行编码的类型，比如utf-8。python支持100多重编码
   - decode method的参数指定byte本身的编码类型，method会用它对应的规则来进行解码

In [16]:
# 直接定义bytes
x = b'\na'
print([i for i in x])  # 输出的是这些character对应的ASCII码值

[10, 97]


In [17]:
# 用encode来将text转换成bytes
text_bytes = "\ni中国".encode('utf-8')
print(text_bytes)

b'\ni\xe4\xb8\xad\xe5\x9b\xbd'


In [18]:
# 用decode来将bytes转换成text string
orig_string = text_bytes.decode('utf-8')   # 这里的参数要与实际的编码类型一致
wrong_string = text_bytes.decode('utf-16') # 错误的参数
print(orig_string, wrong_string)


i中国 椊룤붛
