# 处理 CSV 数据
在之前的几次学习中，我们学到了list、dict、for、while、if、else、函数等程序的基础构造。

本节我们会使用这些基础构造来书写更有趣、更多功能的代码。

In [1]:
# 首先，我们先来回顾之前学到的分词

words = "This is an apple. I like apples. I would like to eat this apple."

import string

words_without_punc = []
for char in words:
    if char not in string.punctuation:
        words_without_punc.append(char)
words_without_punc = ''.join(words_without_punc).split()
print(words_without_punc)

['This', 'is', 'an', 'apple', 'I', 'like', 'apples', 'I', 'would', 'like', 'to', 'eat', 'this', 'apple']


以上代码将标点符号过滤掉，然后将每个词分开了。

In [2]:
word_count = {}
for word in words_without_punc:
    if word in word_count:
        word_count[word] += 1
    else:
        word_count[word] = 1
print(word_count)

{'This': 1, 'is': 1, 'an': 1, 'apple': 2, 'I': 2, 'like': 2, 'apples': 1, 'would': 1, 'to': 1, 'eat': 1, 'this': 1}


这段代码将每个词出现的次数计算了出来。

能够用dict处理如上问题之后，我们便拥有了处理excel表格类数据的基础。

请看如下数据
```
age,name,gender
18,mike,m
19,jordan,f
18,mia,f
20,dali,m
21,mike,m
```
这种数据表示方式叫做csv，comma separated values，字面意思是用逗号`,`隔开的数据。

显示成类似excel表格的话，大致如下

age|name|gender
-|-|-
18|mike|m
19|jordan|f
18|mia|f
20|dali|m
21|mike|m

第一行`age,name,gender`表示抬头，headers。接下来的每一行就是一组数据，每一个竖列用逗号隔开。

这个表格有5个人，分别记录了他们的年龄、名字、性别。m（male）表示男，f（female）表示女。

但
```
age,name,gender
18,mike,m
19,jordan,f
18,mia,f
20,dali,m
21,mike,m
```
只是一个string，或者说文本。如何用Python的数据结构来记录呢？

我们可以用五个dict来记录同样的信息。

In [3]:
person1 = {"age": 18, "name": "mike",   "gender": "m"}
person2 = {"age": 19, "name": "jordan", "gender": "f"}
person3 = {"age": 18, "name": "mia",    "gender": "f"}
person4 = {"age": 20, "name": "dali",   "gender": "m"}
person5 = {"age": 21, "name": "mike",   "gender": "m"}

那么，将这5个dict合并，就是可以表示一样的表格。

In [4]:
table = [person1, person2, person3, person4, person5]

现在，我们需要写一个函数将string转化为一个由dict组成的list。

In [5]:
def load_csv_from_string(data):
    csv = []
    lines = data.split("\n")
    lines = list(filter(lambda line: line != "", lines,))
    headers = lines[0].split(",")
    for line in lines[1:]:
        row = {}
        for header, record in zip(headers, line.split(",")):
            row[header] = record
        csv.append(row)
    return csv

In [6]:
data = """
age,name,gender
18,mike,m
19,jordan,f
18,mia,f
20,dali,m
21,mike,m
"""
load_csv_from_string(data)

[{'age': '18', 'name': 'mike', 'gender': 'm'},
 {'age': '19', 'name': 'jordan', 'gender': 'f'},
 {'age': '18', 'name': 'mia', 'gender': 'f'},
 {'age': '20', 'name': 'dali', 'gender': 'm'},
 {'age': '21', 'name': 'mike', 'gender': 'm'}]

我们成功了。仔细看看如上的代码，理解其逻辑。

除了`zip`以外，其他语法都是学过的。

In [7]:
# zip 是一个函数，用处是同时loop两个序列。
# 比如有两个序列
a = [1, 2, 3]
b = ["x", "y", "z"]

# 分别循环很简单
for element in a:
    print(element)
for element in b:
    print(element)

1
2
3
x
y
z


In [8]:
# 一般而言，同时循环这两个序列的方法是
for i in range(len(a)):
    print(a[i], b[i])

1 x
2 y
3 z


In [9]:
# 因为这个操作很常用，所以Python自带了zip
for ele1, ele2 in zip(a, b):
    print(ele1, ele2)

1 x
2 y
3 z


In [10]:
# 你可以理解为，zip将两个序列中的元素一一对应地合并了。
result_of_zip = zip(a, b)
# 将这个结果作为list打印
list(result_of_zip)

[(1, 'x'), (2, 'y'), (3, 'z')]

今天的课程就到这里，你学会了吗？