# 第六课 字符串数据

关键在于如何建立一组数据的模型，一组数据的结构。

找到合适的方法来解决这个问题，寻找合适的数据结构，是问题最基础的部分。

## python 基础数据类型

基本数据类型：

1. 整数 小数，浮点数。
2. 逻辑变量，真假。
3. 字符和字符串。

datetime 日期时间。

用字符串来表达数据。

数据容器：list tuple dictionary set。

自定义的数据结构。例如，树形图。树状结构。

数据持久化。保存为数据文件或保存到数据库中。

学完这一部分的目标：知道，面对一个现实世界的问题，如何去建立一个数据结构、数据模型，然后去处理它，得到我们想要的结果，解决问题。

## 字符串数据

> 一切都是字符串。

字符串可以用来表达任何数据。

脑中的思想，除了用文字表达出来，还能用什么表达出来？


用字符串表达数据的好处：

1. persistence。数据持久化。把内存中的数据保存在硬盘上。

serialization：内存数据保存到数据文件。

- **formating**：内存到字符串，需要自己设置、设计。
- unicode encoding：字符串到二进制数据
- saving：到文件

deserialization：从数据文件读取数据到内存。

- loading：载入数据文件到二进制数据
- unicode decoding：二进制数据到字符串数据
- **parsing**：解析，许村自己设计、设置。

2. 互操作 interoperation。不同程序之间传递数据。不同程序之间，不同主机之间，同一个网络中不同主机之间。


两个程序之间，互操作的时候本身是不同的。这时用字符串是最好的办法。


内存数据和字符串数据转换的核心关键问题是格式/协议。format/protocol。



## 数值 <==> 字符串

https://nteract.io/kernels

一个工具，感觉和vscode加上插件差不多。

### 数值转换为字符串

In [1]:
n = 42
f = 3.14

In [3]:
s1 = f'{n}'
s2 = f'{f}'

print(s1, type(s1))
print(s2, type(s2))

42 <class 'str'>
3.14 <class 'str'>


In [4]:
s1 = str(n)
s2 = str(f)
print(type(s1))
print(type(s2))

<class 'str'>
<class 'str'>


### 读一个字符串转换为浮点数或整数

麻烦很多

In [5]:
s1 = '42'
s2 = '3.1415926'

In [9]:
n = int(s1)
print(type(n), n)

<class 'int'> 42


In [10]:
f = float(s2)
print(type(f), f)

<class 'float'> 3.1415926


In [11]:
n = int(s2)
print(type(n), n)

ValueError: invalid literal for int() with base 10: '3.1415926'

In [12]:
n = int(float(s2))  # 取整，直接把小数部分拿掉，不是四舍五入
print(type(n), n)

<class 'int'> 3


In [13]:
s3 = '42ab42'
s4 = '3.1415g26'

In [14]:
int(s3)

ValueError: invalid literal for int() with base 10: '42ab42'

In [15]:
float(s4)

ValueError: could not convert string to float: '3.1415g26'

使用异常处理判断字符串是不是合法的数字

In [20]:
def is_float(s):
    try:
        float(s)
        return True
    except ValueError:
        return False

def is_int(s):
    try:
        int(s)
        return True
    except ValueError:
        return False

In [17]:
is_float(s2)

True

In [18]:
is_float(s3)

False

In [19]:
is_float(s4)

False

In [21]:
is_int(s1)

True

In [22]:
is_int(s2)

False

In [23]:
is_int(s3)

False

In [24]:
is_int(s4)

False

In [25]:
# 一个相对安全的转化方法

def parse_num(s):
    if is_int(s):
        return int(s)
    elif is_float(s):
        return float(s)
    else:
        return "数据类型错误"

In [27]:
parse_num(s1)

42

In [28]:
parse_num(s2)

3.1415926

In [29]:
parse_num(s3)

'数据类型错误'

In [30]:
parse_num(s4)

'数据类型错误'

灵活性也有相应的麻烦。

关注稳定性的话，可以用到第三方库。

In [None]:
from fastnumbers import fast_float

## 日期 时间的数据类型转换

不同国家日期时间表示的顺序习惯。

01022020

时区 不同时区的同一个时间是不同的概念。

历史原因，unix 和 C 语言。unix 时间戳。

自1970年1月1日零时零分零秒开始流失的秒数。timestamp 时间戳。

    1. 这个时间之前的时间成为负数。
    2. 没有内置时区。
    
千年虫问题：用两位数存储年份的隐含问题。


In [31]:
from datetime import datetime

t = datetime.now()

In [32]:
t

datetime.datetime(2022, 2, 12, 12, 13, 44, 679649)

In [33]:
print(t)

2022-02-12 12:13:44.679649


In [34]:
type(t)

datetime.datetime

In [35]:
print(t.year)
print(t.month)
print(t.day)
print(t.minute)
print(t.second)
print(t.hour)
print(t.microsecond)
print(t.tzinfo)

2022
2
12
13
44
12
679649
None


In [36]:
t2 = datetime(1949, 10, 1, 0, 0)
print(t2)

1949-10-01 00:00:00


In [37]:
t = datetime.now().astimezone()

print(t.year)
print(t.month)
print(t.day)
print(t.minute)
print(t.second)
print(t.hour)
print(t.microsecond)
print(t.tzinfo)

2022
2
12
52
19
17
250931
ÖÐ¹ú±ê×¼Ê±¼ä


### 把日期类型变成字符串

In [57]:
from datetime import datetime

t = datetime.now().astimezone()

In [40]:
t.strftime("%Y-%m-%d %H:%M:%S")  
#  百分号+字母 是一个格式码

'2022-02-12 17:59:36'

In [41]:
t.strftime("%Y-%m-%d %a %H:%M:%S")

'2022-02-12 Sat 17:59:36'

In [42]:
t.strftime("%Y-%m-%d %A %H:%M:%S")

'2022-02-12 Saturday 17:59:36'

platform specific

代码对平台的依赖。不同平台的效果不同

In [44]:
t.strftime("%Y-%-m-%d %A %H:%M:%S")
# %-m

ValueError: Invalid format string

In [53]:
import locale

locale.setlocale(locale.LC_CTYPE, "chinese")

'Chinese_China.936'

In [54]:
t.strftime("%Y年-%m月-%d日 %A %H:%M:%S")

'2022年-02月-12日 Saturday 17:59:36'

In [58]:
t.tzinfo

datetime.timezone(datetime.timedelta(seconds=28800), '中国标准时间')

In [55]:

t.strftime("%Y{year}-%m{month}-%d{day} %A %H:%M:%S".format(year='年', month='月', day='日'))

'2022年-02月-12日 Saturday 17:59:36'

In [59]:
s = '2022年-02月-12日 Saturday 17:59:36'

In [61]:
t3 = datetime.strptime(s, "%Y年-%m月-%d日 %A %H:%M:%S")
t3

datetime.datetime(2022, 2, 12, 17, 59, 36)

日期时间类型进行 互操作。尽量采用标准化格式。

ISO8061 

In [62]:
s = t.isoformat()
s

'2022-02-12T18:11:42.986005+08:00'

In [63]:
print(s)

2022-02-12T18:11:42.986005+08:00


In [64]:
t5 = datetime.fromisoformat(s)
print(t5)

2022-02-12 18:11:42.986005+08:00


In [65]:
print(type(t5))

<class 'datetime.datetime'>


## 第四节 用正则表达式验证特定格式数据
https://www.bilibili.com/video/BV1CJ411r7j9?p=4

正则表达式

In [1]:
import re

In [4]:
def is_valid_cellpone(s):
    pattern = re.compile(r'^[1]([3-9])[0-9]{9}$')
    if pattern.match(s):
        return True
    else:
        return False

# 一个八股格式

In [5]:
is_valid_cellpone('18146275556')

True

In [6]:
is_valid_cellpone('12146275556')

False

In [7]:
is_valid_cellpone('1814627s556')

False

In [10]:
def is_valid_email(s):
    pattern = re.compile(r'(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)')
    if pattern.match(s):
        return True
    else:
        return False

# 一个八股格式

In [11]:
is_valid_email('leeyy0711@pku.edu.cn')

True

In [13]:
is_valid_email("foo@bar.com")

True

In [16]:
# 处理用户输入邮件地址合法性的问题

while True:
    email = input("Please input your mail address: ")
    
    if is_valid_email(email):
        break
    else:
        print("Not a valid email address, input again: ")

print(f"Your email address: {email}.")

Your email address: leeyy0711@pku.edu.cn.
