# csv文件

csv文件是一种逗号分隔值文件，主要用于存储表格类型数据。

## 保存csv文件

**df.to_csv(save_path, sep, index, encoding)**：
   - save_path：保存文件路径
   - sep：分隔符
        - ','：默认值，逗号分隔符
        - '\t'：制表符
        - ‘；’:分号分隔符
        - 其他自定义分割符，比如'&'、'%'、'qaq'等
   - index：是否写入行索引，True则写入（默认），False则不写入
   - encoding：指定文件编码方式，比如utf-8（默认）、gbk等

In [30]:
import numpy as np
import pandas as pd
data_extended = {
    "Name": ["Alice", "Bob", "Charlie", "David", "Eva", "Frank", "Grace", "Helen", "Ian", "Jack", 
             "Kate", "Liam", "Mona", "Nina", "Oscar"],
    "Age": np.random.randint(20, 50, size=15),
    "City": ["New York", "Los Angeles", "Chicago", "Houston", "Phoenix", "Philadelphia", "San Antonio", 
             "San Diego", "Dallas", "San Jose", "Austin", "Jacksonville", "Fort Worth", "Columbus", "Charlotte"]
}
df = pd.DataFrame(data_extended)
df

Unnamed: 0,Name,Age,City
0,Alice,31,New York
1,Bob,22,Los Angeles
2,Charlie,29,Chicago
3,David,40,Houston
4,Eva,26,Phoenix
5,Frank,25,Philadelphia
6,Grace,22,San Antonio
7,Helen,34,San Diego
8,Ian,42,Dallas
9,Jack,46,San Jose


In [34]:
# 保存为 CSV 文件
df.to_csv("./data/csv_example.csv", sep=',', index=False)

## 读取csv文件

**pd.read_csv(filepath, sep, header, encoding)**
   - filepath：文件路径
   - sep：分隔符，需要与读入的文件对应
        - ','：默认值，逗号分隔符
        - '\t'：制表符
        - ‘；’:分号分隔符
        - 其他自定义分割符，比如'&'、'%'、'qaq'等
   - names：自定义列名
   - nrows：读取文件的前n行。默认值为None（读取所有行），在读取大文件时特别有用
   - encoding：指定文件编码方式，比如utf-8（默认）、gbk等
    

In [39]:
# pd.read_csv("./data/csv_example.csv", sep=',', names=["姓名", "年龄", "城市"], nrows=3)
pd.read_csv("./data/csv_example.csv", sep=',', names=['姓名','年龄','城市'], nrows=3)

Unnamed: 0,姓名,年龄,城市
0,Name,Age,City
1,Alice,31,New York
2,Bob,22,Los Angeles


# excel文件

excel文件是我们日常使用的Excel表格文件，python支持对excel文件的读取、写入操作

In [40]:
import numpy as np
import pandas as pd
data_extended = {
    "Name": ["Alice", "Bob", "Charlie", "David", "Eva", "Frank", "Grace", "Helen", "Ian", "Jack", 
             "Kate", "Liam", "Mona", "Nina", "Oscar"],
    "Age": np.random.randint(20, 50, size=15),
    "City": ["New York", "Los Angeles", "Chicago", "Houston", "Phoenix", "Philadelphia", "San Antonio", 
             "San Diego", "Dallas", "San Jose", "Austin", "Jacksonville", "Fort Worth", "Columbus", "Charlotte"]
}
df = pd.DataFrame(data_extended)
df

Unnamed: 0,Name,Age,City
0,Alice,35,New York
1,Bob,25,Los Angeles
2,Charlie,38,Chicago
3,David,27,Houston
4,Eva,42,Phoenix
5,Frank,40,Philadelphia
6,Grace,32,San Antonio
7,Helen,45,San Diego
8,Ian,24,Dallas
9,Jack,47,San Jose


## 保存excel文件

**df.to_excel(save_path, sheet_name, index)**：
   - save_path：保存文件路径
   - sheet_name：指定写入的sheet名称
   - index：是否写入行索引

In [44]:
df.to_excel('./data/excel_example.xlsx', sheet_name='sheet1', index=False)

## 读取excel文件

pd.read_excel(file_path, sheet_name, names, nrows)：
   - file_path：指定要读取的文件路径
   - sheet_name：指定要读取的sheet名称
   - names：自定义列名
   - nrows：读取文件的前n行。默认值为None（读取所有行），在读取大文件时特别有用

In [51]:
# pd.read_excel('./data/excel_example.xlsx', sheet_name='Sheet1', names=["姓名", "年龄", "城市"], nrows=5)
pd.read_excel('./data/excel_example.xlsx', sheet_name='sheet1', names=["姓名", "年龄", "城市"], nrows=5)

Unnamed: 0,姓名,年龄,城市
0,Alice,35,New York
1,Bob,25,Los Angeles
2,Charlie,38,Chicago
3,David,27,Houston
4,Eva,42,Phoenix


# json文件

json文件是一种用于表示键值对字典数据或数组数据的文件，基本单位是对象（{}）和数组（[]）

## JSON数据结构

### JSON对象
用 大括号 {} 表示一个对象，包含键值对：
  - 键（key）：必须是字符串，使用双引号括起来。
  - 值（value）：可以是字符串、数字、布尔值、数组、对象或 null

In [53]:
# 示例
{
  "name": "Alice",
  "age": 25,
  "is_student": False,
  "skills": ["Python", "SQL", "Machine Learning"],
  "address": {
    "city": "New York",
    "zip_code": "10001"
  }
}

{'name': 'Alice',
 'age': 25,
 'is_student': False,
 'skills': ['Python', 'SQL', 'Machine Learning'],
 'address': {'city': 'New York', 'zip_code': '10001'}}

### JSON 数组
用 中括号 [] 表示一个数组，包含多个值（可以是对象、数组或简单值）

In [54]:
[
  {"name": "Alice", "age": 25},
  {"name": "Bob", "age": 30},
  {"name": "Charlie", "age": 35}
]


[{'name': 'Alice', 'age': 25},
 {'name': 'Bob', 'age': 30},
 {'name': 'Charlie', 'age': 35}]

## JSON数据保存与读取

### 保存JSON对象

**json.dumps(obj, ensure_ascii, indent)**：序列化python对象，输出为**字符串**
   - obj：要序列化为 JSON 格式字符串的 Python 对象
   - ensure_ascii：如果为True则所有非ASCII字符都会被转义（默认）；如果为False则输出原始字符
   - indent：指定缩进级别，生成更加美观的JSON格式。

In [63]:
import json
data = {"name": "Alice", "age": 25, "skills": ["Python", "SQL"]}
json_str = json.dumps(data, ensure_ascii=False, indent=3)
json_str

'{\n   "name": "Alice",\n   "age": 25,\n   "skills": [\n      "Python",\n      "SQL"\n   ]\n}'

**json.dump(obj, fp, ensure_ascii, indent)**：序列化python对象，写入文件
   - obj：被存储对象
   - fp：文件存储路径
   - ensure_ascii：如果为True则所有非ASCII字符都会被转义（默认）；如果为False则输出原始字符
   - indent：指定缩进级别，生成更加美观的JSON格式。

In [64]:
import json
# 生成一个字典
data = {
    "name": "Alice",
    "age": 25,
    "is_student": False,
    "skills": ["Python", "SQL", "Machine Learning"]
}
data

{'name': 'Alice',
 'age': 25,
 'is_student': False,
 'skills': ['Python', 'SQL', 'Machine Learning']}

In [68]:
with open('./data/JSON_example.json', 'w') as file:
    json.dump(data, file, indent=4)

**json.dump()与json.dumps()的核心差别**：
- json.dump()：序列化python对象，写入文件
- json.dumps()：序列化python对象，输出为字符串

### 读取JSON对象

**json.loads(s)**：从字符串中读取JSON数据
  - s：要解析的JSON字符串

In [71]:
json_str = '{"name": "Alice", "age": 25, "skills": ["Python", "SQL"]}'
data = json.loads(json_str)
data

{'name': 'Alice', 'age': 25, 'skills': ['Python', 'SQL']}

**json.load(fp)**：从文件对象中读取JSON数据
  - fp：可读的文件对象

In [72]:
import json
# 从文件读取 JSON 数据
with open('./data/JSON_example.json', 'r') as file:
    data = json.load(file)
data

{'name': 'Alice',
 'age': 25,
 'is_student': False,
 'skills': ['Python', 'SQL', 'Machine Learning']}

**json.load()与json.loads()的核心差别**：
- json.loads()：从字符串中读取JSON数据
- json.load()：从文件对象中读取JSON数据

# txt文件

txt文件是我们日常使用的TXT文件，是一种最基本的文本文件格式。python支持对txt文件的读写操作

txt文件的读取、保存与csv文件相同：
   - 读取txt文件使用pd.read_csv()
   - 保存txt文件使用df.to_csv()

In [73]:
import numpy as np
import pandas as pd
data_extended = {
    "Name": ["Alice", "Bob", "Charlie", "David", "Eva", "Frank", "Grace", "Helen", "Ian", "Jack", 
             "Kate", "Liam", "Mona", "Nina", "Oscar"],
    "Age": np.random.randint(20, 50, size=15),
    "City": ["New York", "Los Angeles", "Chicago", "Houston", "Phoenix", "Philadelphia", "San Antonio", 
             "San Diego", "Dallas", "San Jose", "Austin", "Jacksonville", "Fort Worth", "Columbus", "Charlotte"]
}
df = pd.DataFrame(data_extended)
df

Unnamed: 0,Name,Age,City
0,Alice,46,New York
1,Bob,39,Los Angeles
2,Charlie,29,Chicago
3,David,45,Houston
4,Eva,36,Phoenix
5,Frank,22,Philadelphia
6,Grace,47,San Antonio
7,Helen,33,San Diego
8,Ian,49,Dallas
9,Jack,21,San Jose


In [75]:
# 保存txt文件
df.to_csv("./data/txt_example.txt", sep="\t", index=False)

In [74]:
# 读取txt文件
df_txt = pd.read_csv("./data/txt_example.txt", sep="\t")
df_txt

Unnamed: 0,Name,Age,City
0,Alice,43,New York
1,Bob,33,Los Angeles
2,Charlie,27,Chicago
3,David,48,Houston
4,Eva,35,Phoenix
5,Frank,39,Philadelphia
6,Grace,26,San Antonio
7,Helen,25,San Diego
8,Ian,33,Dallas
9,Jack,47,San Jose


# pickle文件

pickle是一种用于序列化保存python对象的文件，主要用于保存模型参数、结构。

## 保存（序列化）对象到文件

**pickle.dump(obj, file)**：
   - obj：要被序列化的 Python 对象
   - file：文件存储对象

In [76]:
import pickle
# 创建一个 Python 对象
data = {"Name": "Alice", "Age": 25, "Skills": ["Python", "SQL"]}

# 将对象保存到 pickle 文件
with open("./data/pickle_example.pkl", "wb") as file:
    pickle.dump(data, file)  # "wb" 表示写入二进制文件

##  加载（反序列化）文件到对象

**pickle.load(fp)**：从 pickle 文件中加载对象
   - fp：可读的文件对象

In [77]:
import pickle

# 从 pickle 文件中加载对象
with open("./data/pickle_example.pkl", "rb") as file:
    loaded_data = pickle.load(file)  # "rb" 表示读取二进制文件
loaded_data

{'Name': 'Alice', 'Age': 25, 'Skills': ['Python', 'SQL']}

# with open保存/读取文件

在python中 with open 是一种简洁高效的处理文件操作，可以对文件进行读取和保存操作。

与上述基于pandas的文件操作方法相比，with open可以提供更加丰富灵活的操作方法。

## with open 基本语法

with open(file, mode, encoding=None) as f:
    # 文件操作
  - file：文件路径，可以是相对路径或绝对路径。
  - mode：文件操作模式（详见下表）。
  - encoding：文件编码（如 utf-8、gbk）

**文件操作模式**

| 模式 | 描述 |
| --- | --- |
| 'r' | 以只读模式打开文件（默认），文件必须存在。 |
| 'w' | 以写入模式打开文件，如果文件存在则清空内容；如果文件不存在则新建文件。 |
| 'a' | 以追加模式打开文件，如果文件不存在则新建文件。 |
| 'r+' | 以读写模式打开文件，文件必须存在。 |
| 'w+' | 以写读模式打开文件，清空内容后写入；如果文件不存在则新建文件。 |
| 'a+' | 以追加读写模式打开文件，如果文件不存在则新建文件。 |
| 'rb' | 以二进制只读模式打开文件（适用于非文本文件，如图片、音频）。 |
| 'wb' | 以二进制写入模式打开文件（适用于非文本文件，如图片、音频）。 |
| 'ab' | 以二进制追加模式打开文件。 |

## with open实战技巧

### 读取整个文件内容

In [82]:
with open('./data/txt_example.txt', 'r', encoding='utf-8') as file:
    content = file.read()  # 读取整个文件内容
print(content)

Name	Age	City
Alice	46	New York
Bob	39	Los Angeles
Charlie	29	Chicago
David	45	Houston
Eva	36	Phoenix
Frank	22	Philadelphia
Grace	47	San Antonio
Helen	33	San Diego
Ian	49	Dallas
Jack	21	San Jose
Kate	47	Austin
Liam	42	Jacksonville
Mona	47	Fort Worth
Nina	22	Columbus
Oscar	47	Charlotte



### 逐行读取文件并操作

In [83]:
with open('./data/txt_example.txt', 'r', encoding='utf-8') as file:
    for idx,line in enumerate(file):  # 逐行读取文件
        print(line)

Name	Age	City

Alice	46	New York

Bob	39	Los Angeles

Charlie	29	Chicago

David	45	Houston

Eva	36	Phoenix

Frank	22	Philadelphia

Grace	47	San Antonio

Helen	33	San Diego

Ian	49	Dallas

Jack	21	San Jose

Kate	47	Austin

Liam	42	Jacksonville

Mona	47	Fort Worth

Nina	22	Columbus

Oscar	47	Charlotte



### 读取文件的所有行到列表

In [85]:
with open('./data/txt_example.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()  # 每行作为列表中的一个元素
lines

['Name\tAge\tCity\n',
 'Alice\t46\tNew York\n',
 'Bob\t39\tLos Angeles\n',
 'Charlie\t29\tChicago\n',
 'David\t45\tHouston\n',
 'Eva\t36\tPhoenix\n',
 'Frank\t22\tPhiladelphia\n',
 'Grace\t47\tSan Antonio\n',
 'Helen\t33\tSan Diego\n',
 'Ian\t49\tDallas\n',
 'Jack\t21\tSan Jose\n',
 'Kate\t47\tAustin\n',
 'Liam\t42\tJacksonville\n',
 'Mona\t47\tFort Worth\n',
 'Nina\t22\tColumbus\n',
 'Oscar\t47\tCharlotte\n']

### 保存文件

In [45]:
import json
# 生成一个字典
data = {
    "name": "Alice",
    "age": 25,
    "is_student": False,
    "skills": ["Python", "SQL", "Machine Learning"]
}
with open('./data/JSON_example.json', 'w') as file:
    json.dump(data, file, indent=4)