# **4.30_save_cleaned_data**

当我们完成数据清洗后，可以把干净整洁的版本先保存一下，假如会进行多次数据分析，可以有效节约下一次分析的时间，因为不需要再重复评估和清洗步骤了

保存数据，本质上就是把DataFrame，写入到一个新建的空白文件里

### 写入CSV文件

DataFrame的to_csv方法，参数传入文件路径，调用后就能把DataFrame转换成CSV格式，并且保存在路径对应的文件里面

**如果那个文件本身不存在，新文件会自动帮我们创建出来；但如果路径对应的文件已经存在，方法运行后，就会把原始内容给覆盖掉**

to_csv方法，会默认吧DataFrame的列名和索引都写入到文件里

In [1]:
import pandas as pd
import numpy as np

# 创建示例 DataFrame
df1 = pd.DataFrame({
    '日期': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04'],
    '销售额': [1000, 1500, 800, 1200],
    '销售人员': ['Alice', 'Bob', 'Charlie', 'David'],
    '城市': ['New York', 'San Francisco', 'New York', 'San Francisco']
})
df1 = df1.rename(index={
    0: '38H9',
    1: 'W9F1',
    2: 'KD82',
    3: '004U'
})
df1

Unnamed: 0,日期,销售额,销售人员,城市
38H9,2022-01-01,1000,Alice,New York
W9F1,2022-01-02,1500,Bob,San Francisco
KD82,2022-01-03,800,Charlie,New York
004U,2022-01-04,1200,David,San Francisco


In [2]:
df1.to_csv('cleaned_sales_data.csv')
cleaned_df = pd.read_csv('cleaned_sales_data.csv')
cleaned_df

Unnamed: 0.1,Unnamed: 0,日期,销售额,销售人员,城市
0,38H9,2022-01-01,1000,Alice,New York
1,W9F1,2022-01-02,1500,Bob,San Francisco
2,KD82,2022-01-03,800,Charlie,New York
3,004U,2022-01-04,1200,David,San Francisco


以上运行结果是因为，to_csv方法会默认帮我们把索引进行保存，但读取的时候，read_csv不知道那是索引，所以它们又被当成了第一列数据，而且因为这列上面没有名字，列名变成Unnamed: 0，表示那是没有名字的第一列。

调整方法

1. 默认to_csv和read_csv后

   先调用4.27所学的rename方法，给列换一个有意义的名字

In [3]:
cleaned_df.rename(columns={'Unnamed: 0': '销售ID'}, inplace=True)
cleaned_df

Unnamed: 0,销售ID,日期,销售额,销售人员,城市
0,38H9,2022-01-01,1000,Alice,New York
1,W9F1,2022-01-02,1500,Bob,San Francisco
2,KD82,2022-01-03,800,Charlie,New York
3,004U,2022-01-04,1200,David,San Francisco


然后调用4.27所学的set_index方法，吧那一列设置为DataFrame的索引

In [4]:
cleaned_df.set_index('销售ID', inplace=True)
cleaned_df

Unnamed: 0_level_0,日期,销售额,销售人员,城市
销售ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
38H9,2022-01-01,1000,Alice,New York
W9F1,2022-01-02,1500,Bob,San Francisco
KD82,2022-01-03,800,Charlie,New York
004U,2022-01-04,1200,David,San Francisco


2. 写入CSV文件时，不保存DataFrame的索引

   to_csv方法，放入可选参数index=False，写入时会自动忽略索引

   **如果DataFrame的索引，只是位置索引，一般我们不会专门写入，也就是说会指定index=False；但如果是有关键信息的标签索引，就写入到CSV文件里**

In [5]:
df1.to_csv('cleaned_sales_data2.csv', index=False)
cleaned_df_without_index = pd.read_csv('cleaned_sales_data2.csv')
cleaned_df_without_index

Unnamed: 0,日期,销售额,销售人员,城市
0,2022-01-01,1000,Alice,New York
1,2022-01-02,1500,Bob,San Francisco
2,2022-01-03,800,Charlie,New York
3,2022-01-04,1200,David,San Francisco


3. 读取CSV文件时，放入可选参数index_col=0，表示把CSV第一列数据作为索引

In [7]:
cleaned_df2 = pd.read_csv('cleaned_sales_data.csv', index_col=0)
cleaned_df2

Unnamed: 0,日期,销售额,销售人员,城市
38H9,2022-01-01,1000,Alice,New York
W9F1,2022-01-02,1500,Bob,San Francisco
KD82,2022-01-03,800,Charlie,New York
004U,2022-01-04,1200,David,San Francisco
