# 文件的使用

## 文件概述

<font size=4>文件是一个存储在辅助存储器上的数据序列，可以包含任何数据内容。概念上，<b>文件是数据的集合和抽象</b>，类似地，<b>函数是程序的集合和抽象</b>。用文件形式组织和表达数据更有效也更为灵活。文件包括两种类型：<b>文本文件和二进制文件</b>。</font>

<font size=4>二进制文件直接由比特0和比特1组成，没有统一字符编码，文件内部数据的组织格式与文件用途有关。<br>
<b>二进制文件和文本文件最主要的区别在于是否有统一的字符编码</b><br>
    无论文件创建为文本文件或者二进制文件，都可以用<b>“文本文件方式”和“二进制文件方式”打开</b>，打开后的操作不同。</font>

<font size=4>微实例7.1：理解文本文件和二进制文件的区别!</font>

In [4]:
textFile = open("7.1.txt","rt") #t表示文本文件方式
print(textFile.readline())
textFile.close()
binFile = open("7.1.txt","rb")   #r表示二进制文件方式
print(binFile.readline())
binFile.close()

中国是个伟大的国家abcdef
b'\xd6\xd0\xb9\xfa\xca\xc7\xb8\xf6\xce\xb0\xb4\xf3\xb5\xc4\xb9\xfa\xbc\xd2abcdef'


<font size=4>采用文本方式读入文件，文件经过编码形成字符串，打印出有含义的字符；<br>采用二进制方式打开文件，文件被解析为字节（byte）流。由于存在编码，字符串中的一个字符由2个字节表示。</font>

## 文件的打开关闭

<font size=4>Python对文本文件和二进制文件采用统一的操作步骤，即<b>“打开-操作-关闭”</font>


<img src="figs/fig7-1.jpg" />

<font size=4>Python通过解释器内置的open()函数打开一个文件，并实现该文件与一个程序变量的关联，open()函数格式如下：<br>
    <p></p>
    <b><变量名> = open(<文件名>, <打开模式>)</font>

<font size=4>open()函数有两个参数：文件名和打开模式。文件名可以是文件的实际名字，也可以是包含完整路径的名字 </font>

<div align="center"><font size=4><b>open()函数提供7种基本的打开模式</b></font></div><p></p>
<img src="figs/fig7-2.jpg" />   

## 文件的读写

<div align="center"><font size=4><b>Python提供4个常用的文件内容读取方法</b></font></div><br>
<img src="figs/fig7-3.jpg" />

<font size=4><b>微实例7.2：文本文件逐行打印</b></font>

In [None]:
fname = input("请输入要打开的文件: ")
fo = open(fname, "r")
for line in fo.readlines():
    print(line)
fo.close()

In [None]:
# 遍历文件的所有行可以直接这样完成 
fname = input("请输入要打开的文件: ")
fo = open(fname, "r")
for line in fo:
    print(line)
fo.close()


<font size=4>如果程序需要逐行处理文件内容，建议采用上述代码格式：<p/>
fo = open(fname, "r")<br>
for line in fo:<br>
&nbsp;&nbsp;&nbsp;&nbsp;# 处理一行数据<br>
fo.close()
</font>

<div align="center"><font size=4><b>Python提供3个与文件内容写入有关的方法</b></font></div>
<img src="figs/fig7-4.jpg" />

In [None]:
fname = input("请输入要写入的文件: ") 
fo = open(fname, "w+")
ls = ["唐诗", "宋词", "元曲"]
fo.writelines(ls)
for line in fo:
    print(line)
fo.close()

# 一二维数据格式化和处理

## 数据组织的维度

<font size=4><b>一维数据</b>由对等关系的有序或无序数据构成，采用<b><font color="red">线性方式组织</font></b>，对应于数学中的<b>数组和集合</b>等概念。</font>

<font size=4><b>二维数据</b>，也称<b>表格数据</b>，由关联关系数据构成，采用<b><font color="red">表格方式组织</font></b>，对应于数学中的<b>矩阵</b>，<font color="blue"><b>常见的表格都属于二维数据</b></font>。</font>

<font size=4><b>高维数据</b>由键值对类型的数据构成，采用<b><font color="red">对象方式组织</font></b>，属于整合度更好的数据组织方式。高维数据在网络系统中十分常用，<b><font color="blue">HTML、XML、JSON等都是高维数据组织的语法结构</font></b>。</font>

<img src="figs/fig7-5.jpg" />

<img src="figs/fig7-6.jpg" />

<img src="figs/fig7-7.jpg" />

## 一二维数据的存储格式

###  一维数据是最简单的数据组织类型，有多种存储格式，常用特殊字符分隔

<font size=4><b>1）用一个或多个空格分隔</b>，例如：<br>
中国  美国  日本  德国  法国  英国  意大利

<font size=4><b>2）用逗号分隔</b>，例如：<br>
中国,美国,日本,德国,法国,英国,意大利

<font size=4><b>3）用其他符号或符号组合分隔</b>，建议采用不出现在数据中的特殊符号<br>
中国; 美国; 日本; 德国; 法国; 英国; 意大利</font>

### CSV格式

<font size=4><b>逗号分割数值</b>的存储格式叫做<b>CSV格式（Comma-Separated Values，即逗号分隔值）</b>，它是一种通用的、相对简单的文件格式，在商业和科学上广泛应用，<font color="blue">尤其应用在程序之间转移表格数据</font>。</font>

<font size=4><b>CSV格式应用规则:</b><br>
（1）纯文本格式，通过单一编码表示字符；<br>
（2）以行为单位，开头不留空行，行之间没有空行；<br>
（3）每行表示一个一维数据，多行表示二维数据；<br>
（4）以逗号分隔每列数据，列数据为空也要保留逗号；<br>
（5）可以包含或不包含列名，包含时列名放置在文件第一行。</font>

<font size=4>城市,环比,同比,定基<br>
北京,101.5,120.7,121.4<br>
上海,101.2,127.3,127.8<br>
广州,101.3,119.4,120<br>
深圳,102,140.9,145.5<br>
沈阳,100.1,101.4,101.6</font>

<font size=4>CSV格式存储的文件一般采用.csv为扩展名，可以通过Windows平台上的记事本或微软Office Excel工具打开，也可以在其他操作系统平台上用文本编辑工具打开。</font>

## 一二维数据的表示和读写

<font size=4>CSV文件的每一行是一维数据，可以使用Python中的列表类型表示，整个CSV文件是一个二维数据，由表示每一行的列表类型作为元素，组成一个二维列表。</font>

<img src="figs/fig7-8.jpg" />

<font size=4>微实例7.5：导入CSV格式数据到列表</font>

In [10]:
fo = open("price2016.csv", "r")
ls = []
for line in fo:
    line = line.replace("\n","")
    ls.append(line.split(","))
    print(ls)
fo.close()


[['城市', '环比', '同比', '定基']]
[['城市', '环比', '同比', '定基'], ['北京', '101.5', '120.7', '121.4']]
[['城市', '环比', '同比', '定基'], ['北京', '101.5', '120.7', '121.4'], ['上海', '101.2', '127.3', '127.8']]
[['城市', '环比', '同比', '定基'], ['北京', '101.5', '120.7', '121.4'], ['上海', '101.2', '127.3', '127.8'], ['广州', '101.3', '119.4', '120.0']]
[['城市', '环比', '同比', '定基'], ['北京', '101.5', '120.7', '121.4'], ['上海', '101.2', '127.3', '127.8'], ['广州', '101.3', '119.4', '120.0'], ['深圳', '102.0', '140.9', '145.5']]
[['城市', '环比', '同比', '定基'], ['北京', '101.5', '120.7', '121.4'], ['上海', '101.2', '127.3', '127.8'], ['广州', '101.3', '119.4', '120.0'], ['深圳', '102.0', '140.9', '145.5'], ['沈阳', '100.1', '101.4', '101.6']]
[['城市', '环比', '同比', '定基'], ['北京', '101.5', '120.7', '121.4'], ['上海', '101.2', '127.3', '127.8'], ['广州', '101.3', '119.4', '120.0'], ['深圳', '102.0', '140.9', '145.5'], ['沈阳', '100.1', '101.4', '101.6'], ['', '', '', '']]


In [15]:
fo = open("price2016.csv", "r")
ls = []
for line in fo:
    line = line.replace("\n","")
    line = line.split(",")
    ls.append(line)
lns = ""
for s in ls:
    lns += "{}\t".format(s)
print(lns)
fo.close()

['城市', '环比', '同比', '定基']	['北京', '101.5', '120.7', '121.4']	['上海', '101.2', '127.3', '127.8']	['广州', '101.3', '119.4', '120.0']	['深圳', '102.0', '140.9', '145.5']	['沈阳', '100.1', '101.4', '101.6']	['', '', '', '']	


<font size=4>微实例7.8：二维数据写入CSV文件。<br>
城市,环比,同比,定基<br>
北京,1.0%,1.2%,1.2%<br>
上海,1.0%,1.3%,1.3%<br>
广州,1.0%,1.2%,1.2%<br>
深圳,1.0%,1.4%,1.5%<br>
沈阳,1.0%,1.0%,1.0%</font>


In [None]:
fr = open("price2016.csv", "r")
fw = open("price2016out.csv", "w")
ls = []
for line in fr:     #将CSV文件中的二维数据读入到列表变量
    line = line.replace("\n","")
    ls.append(line.split(","))
for i in range(len(ls)):   #遍历列表变量计算百分数
    for j in range(len(ls[i])):
        if ls[i][j].replace(".","").isnumeric():
            ls[i][j] = "{:.2}%".format(float(ls[i][j])/100)
for row in ls:    #将列表变量中的二位数据输出到CSV文件
   print(row)
    fw.write(",".join(row)+"\n")
fr.close()
fw.close()

## 高维数据的格式化

<font size=4>JSON格式可以对高维数据进行表达和存储。JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于阅读和理解。JSON格式表达键值对<key, value>的基本格式如下，键值对都保存在双引号中：
"key" : "value"
    </font>

<font size=4>当多个键值对放在一起时，JSON有如下一些约定：</font><br>
<font size=4>1. 数据保存在键值对中；</font><br>
<font size=4>2. 键值对之间由逗号分隔；</font><br>
<font size=4>3. 括号用于保存键值对数据组成的对象；</font><br>
<font size=4>4. 方括号用于保存键值对数据组成的数组。
</font>

"本书作者" : [	
{   "姓氏" : "嵩",
"名字" : "天",
"单位" : "北京理工大学"   }, 
{	"姓氏" : "礼",
"名字" : "欣",
"单位" : "北京理工大学"   },
{   "姓氏" : "黄",
"名字" : "天羽",
"单位" : "北京理工大学"   }  
]