# String #

## encoding ##

在Python 中，有两种常用的字符串类型：
1. str
  * str表示Unicode字符(ASCII或其他)
2. byte
  * byte表示二进制数据(包括编码的文本)
  
 `note`: str 在内存中以Unicode表示，1个字符对应若干字节。
   在__网络__上或__磁盘__上，需要把**str**转换成**byte(字节)**.
### encoding protocol ##

1. ASCII
2. GBK (中文标准，2字节/中文)
3. GB2312(中文标准，2字节/中文)
4. UTF-8(国际通用标准，3字节/中文，1字节/英文)

 |str     |我 |爱 |p|y|t|h|o|n|3|
 |----------|---|---|-|-|-|-|-|-|-|
 |str index |0  |1  |2|3|4|5|6|7|8|
 |utf-8 byte|012|345|6|7|8|9|10|11|12|

在python程序中可以指定编码格式。语法：
```python
# -*- coding: utf-8 -*-

print("hello world")
```
* python 3 代码缺省是Unicode, utf-8
 


In [47]:
#example string encoding
verse='我爱python3'
print(len(verse))

byte=verse.encode('GBK') # 采用GBK编码转换成二进制，不处理异常
print("原字符串：",verse)
print("GBK转换后：",byte)
print("GBK转换后长度:",len(byte))

byte=verse.encode() # 采用UTF-8编码转换成二进制，不处理异常,default protocol
print("原字符串：",verse)
print("UTF-8转换后：",byte)
print("UTF-8转换后长度:",len(byte))

print("UTF-8汉字字符字节数:(",verse[0],')',len(verse[0].encode()))
print("GBK  汉字字符字节数:(",verse[0],')',len(verse[0].encode('GBK')))
print("UTF-8英文字符字节数:(",verse[2],')',len(verse[2].encode()))


9
原字符串： 我爱python3
GBK转换后： b'\xce\xd2\xb0\xaepython3'
GBK转换后长度: 11
原字符串： 我爱python3
UTF-8转换后： b'\xe6\x88\x91\xe7\x88\xb1python3'
UTF-8转换后长度: 13
UTF-8汉字字符字节数:( 我 ) 3
GBK  汉字字符字节数:( 我 ) 2
UTF-8英文字符字节数:( p ) 1


In [48]:
#example string decoding
verse='我爱python3'
print(len(verse))

byte=verse.encode('GBK') # 采用GBK编码转换成二进制，不处理异常

print("解码后:",byte.decode('GBK'))
print('length:',len(byte.decode('GBK')))

9
解码后: 我爱python3
length: 9


## 截取字符 ##
字符串也属于序列，所以可以用切片方法截取字符
* syntax
```python
  string[start:end:step]
```

    - [x] string: 要截取的字符串
    - [x] start: 要截取的第一个字符索引(包括该字符),不指定为默认值0
    - [x] end: 要截取的最后一个字符索引(不包括该字符),不指定，则位默认字符串长度
    - [x] step: 切片步长，默认为1

In [49]:
# example of str slicing

str1='人生苦短，我用python'
print(str1[1])
print(str1[5:])
print(str1[:5])
print(str1[2:5])
print(str1[1::2])

生
我用python
人生苦短，
苦短，
生短我pto


## 查找位置 ##
find()
rfind() ： 右查找

index()
rindex()：右查找

> prefer index()/rindex(), 运算效率更高。

In [2]:
print(r'hello \teacher')
print(r'c:\users\administrator\ ')
      


hello \teacher
c:\users\administrator\ 


In [84]:
str1='abcdefccgh'
str2='c'
print(str1.find(str2))
print(str1.rfind(str2))
print(str1.index(str2))
print(str1.rindex(str2))

str2='cda'
print(str1.find(str2))
print(str1.rfind(str2))

try:
    print(str1.index(str2))
except:
    print("%s is not found in %s"%(str2,str1))

# need process exception
#print(str1.rindex(str2))
try:
    print(str1.rindex(str2))
except:
    print("%s is not found by rindex in %s"%(str2,str1))


2
7
2
7
-1
-1
cda is not found in abcdefccgh
cda is not found by rindex in abcdefccgh


## format ##

### 使用 % ###
* Syntax
  + '%\[-\]\[+\]\[0\]\[m\]\[.n\]format'**%**exp
  
  
   - [x] __-__:可选参数，指定左对齐，正数前方无符号，负数前方加负号
   - [x] __+__:可选参数，指定右对齐，正数前方加正号，负数前方加负号
   - [x] __0__:可选参数，指定右对齐，正数前方无正号，负数前方加负号，用0填空白(一般与m参数一起用)
   - [x] __m__:可选参数，指定占用宽度
   - [x] __+__:可选参数，指定小数点后保留位数
   - [x] __format__:指定类型
 
 常用格式化字符(format)
 |格式化字符|说明          |
 |:---------|:-----------------|
 |%s     |字符串(采用str()显示)|
 |%c     |单个字符 char    |
 |%d , %i  | 十进制整数     |
 |%x     | 十六进制整数    |
 |%r     |字符串(采用repr()显示)|
 |%o     | 八进制整数     |
 |%e     | 指数(基底为e)    |
 |%E     | 指数(基底为E)    |
 |%%     | 字符%         |
 
 >note: 在x,o前面加#，显示为0x，0O
 
 ### 使用字符串对象的format()方法 ###
 * syntax
   str.format(args)
   - str: 指定字符串的显示样式(模板)
   - agrs: 指定要转换的项，多项用','分割
   
   模板语法(formatting syntax)
   ```
   {[index][:[[fill]align][sign][#][width][.precision][type]]}
   ```
     + [x] **index**: optional, 指定设置格式的对象在参数列表中的索引位置，从0 开始，默认按值先后顺序自动分配。
     + [x] **fill**: optional,指定空白处填充的字符
     + [x] **align**: optional,对齐方式
         - < : 左对齐
         - \> : 右对齐
         - = ：右对齐，符号放在填充内容的最左侧
         - ^ : 居中对齐，与width 一起用
     + [x] **sign**: optional, 用于指定有符号数
     + [x] **#**: optional,对二/八/十六进制数，加'#'会显示0b/0o/0x前缀
     + [x] **width**: optional,指定占据宽度
     + [x] **.precision**: optional,指定小数位数
     + [x] **type**: optional,指定类型
 常用格式化字符(format)
 |格式化字符|说明          |
 |:---------|:-----------------|
 |s     |字符串(采用str()显示)|
 |c     |单个字符 char    |
 |d     | 十进制整数     |
 |x     | 十六进制整数    |
 |b     | 二进制整数    |
 |o     | 八进制整数     |
 |e，E   | 指数(基底为e或E)    |
 |f,F   | 浮点型    |
 |g,G   |自动在e,f或E，F之间切换|
 |%     | 显示百分比(默认小数点后6位)         |
 
 > NOTE: dangerous！  当用g/G并指定精度时，精度变成了输出数值的总位数。！见下例

In [77]:
a = 15
ss ='test'

str1='test multi args string ss=%s, a=%#x, (%#o),(%#i)'%(ss,a,a,a)
print(str1)
print('float value %-010.3F'%(a/7))
print('指数 value %-010.3e'%(a/-700))

print('ss format:{0:*^20s}'.format(ss))
print('ss format:\n{0:x^20s}\n{1:*>+20.4F}'.format(ss,a/7))
print('ss format:\n{0:x^20s}\n{1:*>+20.4E}'.format(ss,a/7))

# 当用g/G并指定精度时，精度变成了输出数值的总位数。！！！！
print('{0:+^20s}'.format('G format test'))

print('{0:*=20.4G}'.format(a/7))
print('{0:*<-20.4G}'.format((a/7)*10000))
print('{0:*>20G}'.format(a/7))
print('{0:*>20G}'.format((a/7)*10000))


test multi args string ss=test, a=0xf, (0o17),(15)
float value 2.143     
指数 value -2.143e-02
ss format:********test********
ss format:
xxxxxxxxtestxxxxxxxx
*************+2.1429
ss format:
xxxxxxxxtestxxxxxxxx
*********+2.1429E+00
+++G format test++++
***************2.143
2.143E+04***********
*************2.14286
*************21428.6


## 字符串分割 ##
* split()
* rsplit()
* partition()
* rpartition()

## 字符串拼接 ##
str1 + str2

In [80]:
str1='hello,'
str2='dummy!'
print(str1+str2)

hello,dummy!


## 连接 ##
'\<join char\>'.join(\<stringlist\>)

In [11]:
ll =[20, 1, 6]
ss = map(str,ll)
ss = '-'.join(ss)
print('covertated to string list:',ss)

date = '21-1-16'

year,mon,day=date.split('-')
listdate = date.split('-')
print(list(map(int,listdate)))
print(listdate)
print('/'.join(listdate))


20-1-6
[21, 1, 16]
['21', '1', '16']
21/1/16


## startswith(),endswith()


In [14]:
s = 'Beautiful string'
print(s.startswith('Be'))
print(s.startswith('Be',5))
print(s.endswith('ing'))
print(s.endswith('ing',5))
print(s.endswith('ing',-2))


True
False
True
True
False


## is* check #
* isalnum()
* isalpha()
* isdigit()
* isspace()
* isupper()
* islower()

In [17]:
s ='123abcd'

print(s.isalnum())
print(s.isalpha())
print(s.isdigit())
print(s.isupper())
print(s.islower())


True
False
False
False
True


## 对齐 ##
* center()
* ljust()
* rjust()

In [16]:
s='Hello world'
print(s.center(20,'-'))
print(s.ljust(20,'='))
print(s.rjust(20,'*'))


----Hello world-----
*********Hello world


##字符串的集合操作
* syntax
  s in s2

In [21]:
s='Hello world'
print(('H' in s))
print(('He' not in s))

True
False


## example check illegal containts ##

In [30]:
words = ('测试',
         '非法',
         '暴力')
text ='这句话里有非法内容'
text = input('请输入检查内容：')
for word in words:
    if word in text:
        print('非法')
        break
else: # else of for loop
    print('正常')
    

请输入检查内容：这句话里有非法内容
这句话里有**内容


## replace

In [32]:
words = ('测试',
         '非法',
         '暴力',
        '黄瓜')
text ='这句话里有非法内容'

text = input('请输入检查内容：')

for word in words:
    if word in text:
        text=text.replace(word,'**')
        #break

print(text)

请输入检查内容：这句话里有非法内容，黄色的瓜很暴力
这句话里有**内容，黄色的瓜很**


In [None]:
x='hello world'

sorted(x)
list(reversed(x))
#eval 把任意字符串转成python表达式计算
eval('3+4')

In [33]:
## 中英文分词

In [34]:
#中英文分词

import jieba
x='分词的准确度直接影响后续文本处理精度'

jieba.x.cut()


ModuleNotFoundError: No module named 'jieba'

In [None]:
# example

from collections import Counter
from jieba import cut

def feq(text):
    return Counter(cut(text))

x = '''
 八百标兵奔北坡，北坡八百炮兵炮。
 标兵怕碰炮兵炮，炮兵怕把标兵碰
 '''

print(freq(x))

## 加密解密 ##
crypt()

## string的集合
* string.digits
* string.ascii_lowercase
* string.ascii_uppercase

In [None]:
# example password weakness check
