# How to pack and unpack data 
- 内置标准方法输出输入txt,csv
- numpy / pandas 等输出输入文件单独介绍
- pickle 用于python特有的类型和python的数据类型间进行转换  
（cPickle 向 Python 提供了 pickle 支持。后者是用 C 编码的，它具有更好的性能，对于大多数应用程序，推荐使用该模块。）
- json 用于字符串和Python数据类型间进行转换
- joblib 用于打包模型一类的，和Pickle类似

## 标准库内置方法

- read()一次性读取文本中全部的内容，以字符串的形式返回结果
- readline()只读取文本第一行的内容，以字符串的形式返回结果
- readlines() 

In [None]:
with open("test.txt", "r") as f:  # 打开文件
    data = f.read()  # 读取文件
    print(data)

In [None]:
with open("test.txt", "r") as f:
    data = f.readline()
    print(data)

In [None]:
with open("test.txt", "r") as f:
    for line in f.readlines():
        line = line.strip('\n')  #去掉列表中每一个元素的换行符
        print(line)

### 编码问题

debug: gbk can't be .... 

这是文本编码方式问题，可能是中文  

with open("test.txt", "r", encoding='UTF-8') as f:
    pass

检查中英文
https://blog.csdn.net/xc_zhou/java/article/details/100186159

In [None]:
#检验中文字符
if '\u4e00' <= s <= '\u9fa5':
    pass
# 英文
if (u'\u0041'<= s <= u'\u005a') or (u'\u0061'<= s <= u'\u007a'):
    pass
#判断数字,空格
s.isdigit()
s.isspace()

In [None]:
# 中文
import re
key='123中文'
zhPattern = re.compile(u'[\u4e00-\u9fa5]+')
match = zhPattern.search(key)
if match:
    print("存在中文")
# 数字
re.match(r'[+-]?\d+$', s) #s 为数字， 返回数字位置 ，
not re.match(r'[+-]?\d+$', s) #返回为True说明不含有数字 
# 英文
re.match(r'[a-z]+',s) #返回小写字母位置
re.match(r'[a-z]+',s,re.I) #对大小写敏感。返回字母位置
not re.match(r'[a-z]+',s,re.I) #返回为True说明没有英文字符

### 读写模式
要了解文件读写模式，需要了解几种模式的区别，以及对应指针

r :   读取文件，若文件不存在则会报错

w:   写入文件，若文件不存在则会先创建再写入，会覆盖原文件

a :   写入文件，若文件不存在则会先创建再写入，但不会覆盖原文件，而是追加在文件末尾

rb,wb：  分别于r,w类似，但是用于读写二进制文件

r+ :   可读、可写，文件不存在也会报错，写操作时会覆盖

w+ :   可读，可写，文件不存在先创建，会覆盖

a+ :  可读、可写，文件不存在先创建，不会覆盖，追加在末尾

## CSV 

一般导入csv库处理数据文件

In [None]:
# 读取csv文件
import csv  
with open('test.csv','r') as myFile:  
    lines=csv.reader(myFile)  
    for line in lines:  
        print (line)
with open('test.csv','w+') as myFile:      
    myWriter=csv.writer(myFile)  
    # writerrow一行一行写入
    myWriter.writerow([7,8,9])  
    myWriter.writerow([8,'h','f'])  
    # writerow多行写入
    myList=[[1,2,3],[4,5,6]]  
    myWriter.writerows(myList)

## pickle

pickle把数据加载为dict, pickle中最主要的两个函数对为dump()和load()，分别用来进行对象的序列化和反序列化。

`pickle.dump(obj, file[, protocol])`：序列化数据到一个文件描述符（一个打开的文件、套接字等）

`load(file)`: 反序列化

- 通用性（linux-windows）
- 数据类型广泛（可序列化的元组、字典、列表、非嵌套函数、类）
- 可拓展
- 维护对象引用关系

可序列化的数据
- 所有python支持的原生类型：布尔值，整数，浮点数，复数，字符串，字节，None。
- 由任何原生类型组成的列表，元组，字典和集合。
- 函数，类，类的实例

[PIckle Document]: https://docs.python.org/zh-cn/3/library/pickle.html




In [15]:
import pickle
mydata={
    "a":1,
    "b":2
}
# to file
with open("1.pk","wb") as f:
    pickle.dump(mydata,f)
with open("1.pk","rb") as f:
    pstr = pickle.load(f)
print(pstr)

# to screen
pstr = pickle.dumps(mydata)
print(pickle.loads(pstr))



{'a': 1, 'b': 2}
{'a': 1, 'b': 2}


python读取文件时提示"UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multibyte sequence"

解决办法1.
FILE_OBJECT= open('order.log','r', encoding='UTF-8')

解决办法2.
FILE_OBJECT= open('order.log','rb')
 

## Json

Json是文本的，输出unicode，pickle是二进制的。
注意：

- fp必须支持.write 和str输入

[Json Python Document]: https://docs.python.org/zh-cn/3/library/json.html

In [16]:
json.dump(obj, fp, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)

# 序列化obj到fp

json.load(fp/s, *, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)

# 反序列化为obj

json.dumps([1, 2, 3, {'4': 5, '6': 7}],separators=(',', ':'))
>>>'[1,2,3,{"4":5,"6":7}]'

SyntaxError: invalid syntax (<ipython-input-16-3b59ed44b6d6>, line 1)

## Joblib

这个库是由scikit-learn外带的，scikit-learn库是机器学习的一个库，打包为pkl文件，只需一行代码

In [None]:
joblib.dump(svm,'svm.pkl')
new_svm2 = joblib.load('svm.pkl')