# 文本类数据

今天我们主要学习用Python语言在平台上对xlsx，以及txt与csv进行读取和写入操作。  
我们主要使用python自带的一种基本操作，即`open()`。我们也可以用工具包来打开，例如我们用`pandas`工具包来打开数据。

## 1 .txt
这里我们主要练习如何打开、关闭txt文件和在其末尾追加内容

**（1）首先我们用`open`打开一个txt文件**

这个txt文件是从[GRDC全球径流数据网站](https://portal.grdc.bafg.de/applications/public.html?publicuser=PublicUser#dataDownload/Stations)上选择一个站点，把txt下载下来的。这里我们选择了长江流域上的一个小流域杂谷脑（ZAGUNAO）流域。

我们通过以下命令来打开文件:

```Python
file_object = open(filename, mode)
```

- filename ： 文件路径名 
- mode ：告诉python我们对文件将执行读、写与追加等操作
这里我们用最简单的r模式来读取下载后简单处理的txt，我们会演示写内容到文件中，但一般不修改原始文件，所以我们接下来操作的是一个文件副本

In [1]:
#打开txt文件
file = open('../earth-analytics/data/2181200_Q_Day.Cmd.txt','r')

**(2) 关闭txt文件** 

In [2]:
#关闭文件
file.close()

我们关闭一个文件后，就不能再访问它了，除非重新打开它。关闭后未重新打开，我们再读取的话，将出现一个异常：ValueError

In [3]:
file.read()

ValueError: I/O operation on closed file.

**在python中，打开和关闭文件的最佳做法是使用 with 关键字。**

这个关键字会在嵌套的代码块**完成后**自动关闭文件。

In [4]:
#读取文件
with open("../earth-analytics/data/2181200_Q_Day.Cmd.txt", "r") as work_data:
    file = work_data.read()

**（3）如果我们想要写数据到txt文件中，可以用"a+"模式，即在末尾加内容。**

但是通常我们不直接修改原始数据文件，所以如果我们想写入一些内容，比较好的做法是重新copy一个文件，然后在新文件里做修改。

In [8]:
import shutil

In [9]:
shutil.copy("../earth-analytics/data/2181200_Q_Day.Cmd.txt", "../earth-analytics/data/2181200_Q_Day.Cmd_modified.txt")

'../earth-analytics/data/2181200_Q_Day.Cmd_modified.txt'

现在我们可以将`Above is the full data`追加到txt中

In [11]:
with open("../earth-analytics/data/2181200_Q_Day.Cmd_modified.txt", "a+") as work_data:
    file = work_data.write("\nAbove is the full data")

`\n`另起一行的意思

打开txt文件，下拉到最后一行，会发现我们写入的字句

## 2.csv
接下来看看CSV (Comma Separated Values)，CSV即逗号分隔值（也称字符分隔值，因为分隔符可以不是逗号），是一种常用的文本格式，用以存储表格数据，包括数字或者字符。

我们在[国家地球系统科学信息中心](http://www.geodata.cn/data/datadetails.html?dataguid=111466280813929&docid=15803)下载黄河流域主要水文站汛期次降水数据集的样本，用于读写演示。

这里我们使用pandas包来帮助我们读取数据

In [15]:
import pandas as pd

In [16]:
csv_file = '../earth-analytics/data/pre_test.csv'
csv_data = pd.read_csv(csv_file)
csv_data

Unnamed: 0,站名,年-月-日,起,止,降雨量（mm)
0,北洛河大荔站,1990/6/7,1:00,2:00,0.1
1,北洛河大荔站,1990/6/7,2:00,8:00,8.6
2,北洛河大荔站,1990/6/7,8:00,11:00,0.6
3,北洛河大荔站,1990/6/10,19:00,20:00,0.1
4,北洛河大荔站,1990/6/10,20:00,1:00,2.6
5,北洛河大荔站,1990/6/14,7:00,8:00,1.5
6,北洛河大荔站,1990/6/14,8:00,9:00,3.6
7,北洛河大荔站,1990/6/14,9:00,14:00,0.5
8,北洛河大荔站,1990/6/14,14:00,18:00,0.2
9,北洛河大荔站,1990/6/17,11:00,14:00,3.4


## 3 .xlsx文件

excel文件是大家最熟悉的了，用Pandas读取xlsx非常轻松，xlsx内容被读取并打包到一个DataFrame中，然后我们可以通过`head()`函数进行预览。现在我们读取我们下载好的.xlsx文件

In [None]:
!pip install openpyxl

In [21]:
import pandas as pd
df = pd.read_excel("../earth-analytics/data/pre_test.xlsx")
df.head()

Unnamed: 0,站名,年-月-日,起,止,降雨量（mm)
0,北洛河大荔站,1990-06-07,01:00:00,02:00:00,0.1
1,北洛河大荔站,1990-06-07,02:00:00,08:00:00,8.6
2,北洛河大荔站,1990-06-07,08:00:00,11:00:00,0.6
3,北洛河大荔站,1990-06-10,19:00:00,20:00:00,0.1
4,北洛河大荔站,1990-06-10,20:00:00,01:00:00,2.6


**读取指定列**

我们给`read_excel()`函数传递一个`usecols`参数，这个参数将根据选择的列进行读取文件

In [22]:
cols = [0, 1, 4]
students_grades = pd.read_excel('../earth-analytics/data/pre_test.xlsx', usecols=cols)
students_grades.head()

Unnamed: 0,站名,年-月-日,降雨量（mm)
0,北洛河大荔站,1990-06-07,0.1
1,北洛河大荔站,1990-06-07,8.6
2,北洛河大荔站,1990-06-07,0.6
3,北洛河大荔站,1990-06-10,0.1
4,北洛河大荔站,1990-06-10,2.6


读取过后，我们也可将 DataFrame 写入 xlsx 文件中。

In [23]:
import pandas as pd
df = pd.read_excel("../earth-analytics/data/pre_test.xlsx")
df.to_excel("../earth-analytics/data/pre_test_modified.xlsx", sheet_name="Sheet1", index=False, engine="openpyxl")

In [24]:
df_new = pd.read_excel("../earth-analytics/data/pre_test_modified.xlsx")
df_new == df

Unnamed: 0,站名,年-月-日,起,止,降雨量（mm)
0,True,True,False,False,True
1,True,True,False,False,True
2,True,True,False,False,True
3,True,True,False,False,True
4,True,True,False,False,True
5,True,True,False,False,True
6,True,True,False,False,True
7,True,True,False,False,True
8,True,True,False,False,True
9,True,True,False,False,True
