# 读写 CSV

CSV 是数据表的常用存储方式。除第一行外，每行表示一条信息，行内各字段用英文逗号分隔开。

本例介绍了从读取 CSV 文件，修改 CSV 文件，到重新写入 CSV 文件的一般流程。

本文目录：

1. 读取 CSV 文件
2. 用 DataFrame 展示数据
3. 处理数据
4. 导出数据到 CSV 文件
5. 用 pandas 读 CSV 文件
6. 用 pandas 随机读取 CSV 文件


## 1. 读取 CSV 文件

In [1]:
with open('./data/test.csv', encoding="utf8") as cur_file:
    txt = cur_file.read()
    ln = txt.split('\n')
    labels = ln.pop(0).split(',')
    
    data_list = []
    for i in ln:
        temp = i.split(',')
        data_list.append(temp)
        
data_list

[['1', 'Alex', 'F', '19', '99'],
 ['2', 'Bob', 'M', '21', '100'],
 ['3', 'Carter', 'F', '17', '81'],
 ['4', 'Davis', 'F', '19', '93'],
 ['5', 'Edwards', 'F', '22', '95'],
 ['6', 'Fitz', 'M', '14', '88'],
 ['7', 'Gay', 'M', '24', '83'],
 ['8', 'Harry', 'F', '20', '84'],
 ['9', 'Idle', 'M', '23', '92'],
 ['10', 'Edwards', 'M', '23', '92']]

## 2. 用 DataFrame 展示数据

In [2]:
import pandas as pd
import numpy as np


values = np.array(data_list)
x_label = [data_list[i][0] for i in range(len(data_list))]
data = pd.DataFrame(values, x_label, columns=labels)

data

Unnamed: 0,id,name,gender,age,score
1,1,Alex,F,19,99
2,2,Bob,M,21,100
3,3,Carter,F,17,81
4,4,Davis,F,19,93
5,5,Edwards,F,22,95
6,6,Fitz,M,14,88
7,7,Gay,M,24,83
8,8,Harry,F,20,84
9,9,Idle,M,23,92
10,10,Edwards,M,23,92


## 3. 处理数据

以去重为例。去除名字相同的人。

In [3]:
temp_list = []
dedup_list = []

for i in data_list:
    if not i[1] in temp_list:
        temp_list.append(i[1])
        dedup_list.append(i)

dedup_list

[['1', 'Alex', 'F', '19', '99'],
 ['2', 'Bob', 'M', '21', '100'],
 ['3', 'Carter', 'F', '17', '81'],
 ['4', 'Davis', 'F', '19', '93'],
 ['5', 'Edwards', 'F', '22', '95'],
 ['6', 'Fitz', 'M', '14', '88'],
 ['7', 'Gay', 'M', '24', '83'],
 ['8', 'Harry', 'F', '20', '84'],
 ['9', 'Idle', 'M', '23', '92']]

## 4. 导出数据到 CSV 文件

在运行以下代码前，请确保已经安装 `csv` 模块。

In [4]:
import csv


with open('./data/output.csv', 'w', encoding="utf8") as csvFile:
    writer = csv.writer(csvFile)
    writer.writerow(labels)
    
    for i in dedup_list:
        writer.writerow(i)
csvFile.close()

## 5. 用 pandas 读 CSV 文件

In [5]:
import pandas as pd

df = pd.read_csv('./data/test.csv')

In [6]:
df

Unnamed: 0,id,name,gender,age,score
0,1,Alex,F,19,99
1,2,Bob,M,21,100
2,3,Carter,F,17,81
3,4,Davis,F,19,93
4,5,Edwards,F,22,95
5,6,Fitz,M,14,88
6,7,Gay,M,24,83
7,8,Harry,F,20,84
8,9,Idle,M,23,92
9,10,Edwards,M,23,92


## 6. 用 pandas 随机读取 CSV 文件

对于超大 CSV 文件，有时需要随机读取部分数据。

In [7]:
import pandas as pd
import numpy as np

n_df = pd.read_csv('./data/test.csv', skiprows=lambda x:np.random.rand() > .5 and x > 0)

In [8]:
n_df

Unnamed: 0,id,name,gender,age,score
0,1,Alex,F,19,99
1,2,Bob,M,21,100
2,3,Carter,F,17,81
3,4,Davis,F,19,93
4,6,Fitz,M,14,88
5,7,Gay,M,24,83
6,8,Harry,F,20,84
7,9,Idle,M,23,92


什么是 `skiprows`，试验一下：

In [9]:
n_df = pd.read_csv('./data/test.csv', skiprows=[1,3,5])

In [10]:
n_df

Unnamed: 0,id,name,gender,age,score
0,2,Bob,M,21,100
1,4,Davis,F,19,93
2,6,Fitz,M,14,88
3,7,Gay,M,24,83
4,8,Harry,F,20,84
5,9,Idle,M,23,92
6,10,Edwards,M,23,92
