# 1 csv

## 1.1 df.to_csv():保存csv文件

df.to_csv(save_path,sep,index,encoding)

- save_path:保存路径
- sep:分隔符
    -  ,:默认逗号
    - \t:
    - ;
- index:是否保存行索引，默认保存
- encoding:编码，gbk，utf-8默认

In [3]:
import random
import pandas as pd
import numpy as np

In [5]:
data_extended = {
    "Name":random.choices('qwertyuiopasdf',k=10),
    "Age":np.random.randint(20,50,size=10),
    "City":random.choices('qwertyuopqeew',k=10),
}
df = pd.DataFrame(data_extended)
df

Unnamed: 0,Name,Age,City
0,s,24,p
1,q,46,w
2,a,33,r
3,e,40,q
4,f,33,r
5,a,39,r
6,o,45,e
7,i,36,e
8,w,26,t
9,p,29,p


In [8]:
df.to_csv(path_or_buf="../test/df.csv",index=False,sep='\t')

## 1.2 pd.read_csv()读取csv文件

pd.read_csv(path,sep,names,header,nrows,encoding)

- path:文件路径
- sep:分隔符，逗号制表符分号或其他自定义符合等
- names:自定义列名
- header:整数，从0开始，说明把前面都看作列名
- nrows:读取文件前n行，默认None全读
- encoding:编码默认utf-8

In [None]:
%%sql


In [19]:
pd.read_csv(filepath_or_buffer="../test/df.csv",sep='\t',names=['name','age','city'],header=0,
            nrows=3)

Unnamed: 0,name,age,city
0,s,24,p
1,q,46,w
2,a,33,r


# 2 excel

## 2.1 pd.read_excel():读取excel文件

pd.read_excel(file_path,sheet_name,header,names,nrows)

- file_path:读取文件路径
- sheet_name:指定要读取的工作表
- header:标题行
- names:指定自定义列名
- nrows:指定读几行
- 如果一个excel有多个工作表，写入操作即使只针对一个工作表也会导致其他表被覆写

In [20]:
pd.read_excel('../test/df.xlsx',sheet_name='df',header=0,nrows=3,names=['name','age','city'])

Unnamed: 0,name,age,city
0,s,24,p
1,q,46,w
2,a,33,r


## 2.2 pd.to_excel():保存excel文件

pd.to_excel(save_path,sheet_name,index)

- save_path:保存路径
- sheet_name:工作表名称
- index:是否写入行索引，默认True

In [None]:
!pip install openpyxl

In [16]:
df.to_excel('../test/df.xlsx',index=False,sheet_name='df')

# 3 json

用于表示键值对字典数据或数组数据的文件，基本单位是对象（{}）和数组（[]）

## 3.1 json数据结构

大括号表示一个对象，包含键值对

- 键：必须是字符串，必须用双引号括起来
- 值：可以是字符串、数字，布尔值、对象、数组或Null

示例
```json
{
"name":"Alice",
"age":23,
"skills":['python','sql','flask','kafka'],
"address":{'city':"N.Y.",'tel':114514}
}
```

### 3.1.2 json数组

中括号表示数组，里面包含多个值，可以是数组、对象或简单值（字符、数字、布尔）

示例
```json

[
{
"name":"Alice",
"age":23,
"skills":['python','sql','flask','kafka'],
"address":{'city':"N.Y.",'tel':114514}
},
{
"name":"Blice",
"age":24,
"skills":['python','sql','flask','kafka'],
"address":{'city':"L.G.",'tel':114514926}
}
]

```

## 3.2 json数据的保存与读取

### 3.2.1 json.dumps()保存json对象，输出**字符串**

json.dumps(obj,ensure_ascii,indent):序列化json对象，输出*字符串*

- obj:要序列化的python对象
- ensure_ascii:如果为True，所有非ascii字符都会转义，默认；False则保留原字符
- indent:指定缩进级别，生成更加美观的json格式

In [22]:
import json
data = {
"name":"Alice",
"age":23,
"skills":['python','sql','flask','kafka'],
"address":{'city':"N.Y.",'tel':114514}
}
json_str = json.dumps(data,indent=4,ensure_ascii=False)
print(json_str)

{
    "name": "Alice",
    "age": 23,
    "skills": [
        "python",
        "sql",
        "flask",
        "kafka"
    ],
    "address": {
        "city": "N.Y.",
        "tel": 114514
    }
}


### 3.2.2 json.dump()保存json对象，输出**文件**

json.dump(obj,fp,ensure_ascii,indent):序列化json对象，输出*字符串*

- obj:要序列化的python对象
- fp:文件IO对象
- ensure_ascii:如果为True，所有非ascii字符都会转义，默认；False则保留原字符
- indent:指定缩进级别，生成更加美观的json格式

In [25]:
with open(file='../test/df.json',mode='w',encoding='utf-8') as f:
    json.dump(data,fp=f,indent=4,ensure_ascii=False)

### 3.2.3 json.loads()从**字符串**读取json对象

json.loads(s):从字符串读取json对象

In [26]:
data = {
"name":"Alice",
"age":23,
"skills":['python','sql','flask','kafka'],
"address":{'city':"N.Y.",'tel':114514}
}
json_str = json.dumps(data,indent=4,ensure_ascii=False)
print(json_str)

{
    "name": "Alice",
    "age": 23,
    "skills": [
        "python",
        "sql",
        "flask",
        "kafka"
    ],
    "address": {
        "city": "N.Y.",
        "tel": 114514
    }
}


In [28]:
type(json.loads(json_str))

dict

### 3.2.4 json.load()从**文件**读取json对象

json.loads(fp):从文件读取json对象

- fp:文件IO对象

In [31]:
with open(file='../test/df.json',mode='r',encoding='utf-8') as f:
    data = json.load(fp=f)
    print(data)

{'name': 'Alice', 'age': 23, 'skills': ['python', 'sql', 'flask', 'kafka'], 'address': {'city': 'N.Y.', 'tel': 114514}}


# 4 txt文件

保存与读取和pd.to_csv共用

In [33]:
df.to_csv(path_or_buf="../test/df.txt",index=False,sep='\t',encoding='utf-8')

In [34]:
pd.read_csv('../test/df.txt',sep='\t',header=0,names=['name','age','city'],nrows=4)

Unnamed: 0,name,age,city
0,s,24,p
1,q,46,w
2,a,33,r
3,e,40,q


# 5 pickle文件（二进制文件）

pickle用于序列化保存python对象的文件，主要用于保存模型参数、结构

## 5.1 保存（序列化）对象到文件

pickle.dump(obj,file)

- obj:要保存的对象
- file:保存路径，文件IO对象

In [35]:
import pickle
with open('../test/df.pkl','wb') as f:
    pickle.dump(df,f) # wb表示写入二进制文件

## 5.2 加载（反序列化）文件到对象

pickle.load(fp),从pickle文件加载对象

- fp:保存路径，文件IO对象

In [36]:
with open('../test/df.pkl','rb') as f:
    df = pickle.load(f)
    print(df)

  Name  Age City
0    s   24    p
1    q   46    w
2    a   33    r
3    e   40    q
4    f   33    r
5    a   39    r
6    o   45    e
7    i   36    e
8    w   26    t
9    p   29    p


# 6 with open()保存/读取文件

## 6.1 基本用法

with open(file,mode,encoding='utf-8')

- file:文件路径
- mode:打开模式

文件操作模式

| 模式 | 描述                               |
|----|----------------------------------|
| r  | 只读方式打开，默认，文件必须存在                 |
| w  | 以写入方式打开，如果文件存在则清空内容，不存在则创建       |
| a  | 以追加方式打开文件，如果文件不存在则创建新文件          |
| r+ | 以读和写方式打开文件，文件必须存在                |
| w+ | 以写和读方式打开文件，情况内容后写入，如果文件不存在则创建新文件 |
| a+ | 以追加读写方式打开文件，如果不存在则创建             |
| wb | 以二进制写模式打开文件（适合非文本的图片、音频）         |
| rb | 以二进制读模式打开文件（适合非文本的图片、音频）         |
| ab | 以二进制追加模式打开文件                     |



## 6.2 with open实战技巧

### 6.2.1 f.read()读取整个文件内容

In [37]:
with open('../test/df.txt','r') as f:
    print(f.read())

Name	Age	City
s	24	p
q	46	w
a	33	r
e	40	q
f	33	r
a	39	r
o	45	e
i	36	e
w	26	t
p	29	p



### 6.2.2 逐行读取文件内容

file是一个可迭代对象，可以用for循环逐行读取

In [40]:
with open('../test/df.txt','rb') as f:
    for index, line in enumerate(f):
        print(line)

b'Name\tAge\tCity\r\n'
b's\t24\tp\r\n'
b'q\t46\tw\r\n'
b'a\t33\tr\r\n'
b'e\t40\tq\r\n'
b'f\t33\tr\r\n'
b'a\t39\tr\r\n'
b'o\t45\te\r\n'
b'i\t36\te\r\n'
b'w\t26\tt\r\n'
b'p\t29\tp\r\n'


### 6.2.3 f.readlines()读取文件所有行到一个列表

In [39]:
with open('../test/df.txt','rb') as f:
    da = f.readlines()
print(da)

[b'Name\tAge\tCity\r\n', b's\t24\tp\r\n', b'q\t46\tw\r\n', b'a\t33\tr\r\n', b'e\t40\tq\r\n', b'f\t33\tr\r\n', b'a\t39\tr\r\n', b'o\t45\te\r\n', b'i\t36\te\r\n', b'w\t26\tt\r\n', b'p\t29\tp\r\n']


### 6.2.4 f.write(str)保存文件

In [49]:
ls = [1,2,3,4,5]
with open('../test/ls.txt','w') as f:
    f.write(str(ls))

with open('../test/ls.txt','r') as f:
    ls = f.read()
ls.strip(' [ ]').split(sep=',')

['1', ' 2', ' 3', ' 4', ' 5']