### 文件操作

#### 文件与文件路径

1. 文件有两个关键属性：“文件名”（通常写成一个单词）和“路径”。路径指明了文件在计算机上的位置。例如，我的笔记本上有一个文件名为projects.docx，它的路径在C:\Users\huggs\Documents。文件名中，点号之后的部分称为文件的“扩展名”，它指出了文件的类型。需要注意的是，文件的扩展名是可以任意改变的，windows会为某些特定的扩展名指定默认打开程序。
2. 在 Windows 上，路径书写使用倒斜杠作为文件夹之间的分隔符。但在 OS X 和Linux 上，使用正斜杠作为它们的路径分隔符。

实际上，扩展名与文件本身的类型没有什么关系，改变扩展名不会改变文件的类型，故扩展名是可以任意改变的。在windows中扩展名会影响文件的打开方式而已。
在windows上，用\作为文件夹之间的分隔符，其他两种操作系统用/

In [54]:
import os  #操作系统接口

In [55]:
os.path.join('usr', 'bin', 'spam')
#返回路径名，这个函数在不同操作系统上的运行结果不同，会去迎合操作系统的路径

'usr\\bin\\spam'

注意：如果在 OS X 或 Linux 上调用这个函数，该字符串就会是'usr/bin/spam'

In [56]:
myFiles = ['accounts.txt', 'details.csv', 'invite.docx']
for filename in myFiles:
    print(os.path.join('C:\\Users\\asweigart', filename))

C:\Users\asweigart\accounts.txt
C:\Users\asweigart\details.csv
C:\Users\asweigart\invite.docx


In [57]:
os.path.splitext('C:\\Users\\asweigart\\accounts.txt')

('C:\\Users\\asweigart\\accounts', '.txt')

##### 当前工作目录

In [58]:
import os
os.getcwd() #得到当前工作目录

'C:\\Users\\huggs\\Desktop\\统计与大数据处理软件'

In [59]:
os.chdir('C:\\Windows\\System32')  #改变当前工作目录
os.getcwd()

'C:\\Windows\\System32'

In [60]:
os.chdir('C:\\Users\\huggs\\Desktop\\统计与大数据处理软件')
os.getcwd()

'C:\\Users\\huggs\\Desktop\\统计与大数据处理软件'

#### 绝对路径与相对路径

有两种方法指定一个文件路径。
1. “绝对路径”，总是从根文件夹开始。
2. “相对路径”，它相对于程序的当前工作目录。
3. 还有点（.）和点点（..）文件夹。它们不是真正的文件夹，而是可以在路径中使用的特殊名称。单个的句点（“点”）用作文件夹目名称时，是“这个目录”的缩写。两个句点（“点点”）意思是父文件夹。

![title](dir.PNG)

In [61]:
#os.makedirs('C:\\Users\\huggs\\Desktop\\统计与大数据处理软件\\test')
#创建一个文件夹

In [62]:
os.listdir('.')

['.ipynb_checkpoints',
 'books',
 'capitalsquiz1.txt',
 'capitalsquiz2.txt',
 'capitalsquiz3.txt',
 'capitalsquiz35.txt',
 'capitalsquiz_answers1.txt',
 'capitalsquiz_answers2.txt',
 'capitalsquiz_answers3.txt',
 'Car1.py',
 'dir.PNG',
 'mydata.bak',
 'mydata.dat',
 'mydata.dir',
 'numbers.json',
 'pet',
 'pet.json',
 'pet.pickle',
 'pi_digits.txt',
 'programming.txt',
 'pythonclassfour.ipynb',
 'pythonclassthree.ipynb',
 'pythonclasstwo.ipynb',
 'pythonclass_one.ipynb',
 'spam.txt',
 'test',
 'test1',
 'Untitled.ipynb',
 'Untitled1.ipynb',
 'username.json',
 '__pycache__',
 '上机作业提交说明.pdf',
 '作业3.txt',
 '作业4.txt',
 '第二次作业.txt',
 '统计与大数据处理软件.pptx']

#### 检查路径有效性

如果你提供的路径不存在，许多 Python 函数就会崩溃并报错。os.path 模块提供了一些函数，用于检测给定的路径是否存在，以及它是文件还是文件夹。

In [63]:
os.path.exists('C:\\Windows')

True

In [64]:
os.path.exists('C:\\some_made_up_folder')

False

In [65]:
os.path.isdir('C:\\Windows\\System32')

True

In [66]:
os.path.isfile('C:\\Windows\\System32')

False

In [67]:
os.path.isdir('C:\\Windows\\System32\\calc.exe')

False

In [68]:
os.path.isfile('C:\\Windows\\System32\\calc.exe')

True

#### 文本文件读写

在 Python 中，读写文件有 3 个步骤：
1. 调用 open()函数，返回一个 File 对象。
2. 调用 File 对象的 read()或 write()方法。
3. 调用 File 对象的 close()方法，关闭该文件。

In [69]:
file_object=open('pi_digits.txt')

In [70]:
contents = file_object.read()   #读进来，存在一个变量里头

In [71]:
print(contents)

3.1415926535
  8979323846
  2643383279



In [72]:
file_object.closed

False

In [73]:
file_object.close()  #关掉

In [74]:
file_object.closed

True

In [75]:
with open('pi_digits.txt') as file_object:    #使用with自动开关
#调用 open()函数，返回一个 File 对象
#关键字with在不再需要访问文件后将其关闭
    contents = file_object.read()
#调用 File 对象的 read()方法
    print(contents)

3.1415926535
  8979323846
  2643383279



注意：我们并没有调用close()

In [76]:
print(file_object.closed)

True


#### 逐行读取

In [77]:
filename = 'pi_digits.txt'
with open(filename) as file_object:
    for line in file_object:        #是一个可迭代对象，以行为迭代单位
        print(line)

3.1415926535

  8979323846

  2643383279



#### 创建一个包含文件各行内容的列表

In [78]:
filename = 'pi_digits.txt'
with open(filename) as file_object:
    lines = file_object.readlines()   #按行读取，这样会自动忽略行尾回车
for line in lines:
    print(line.rstrip())  #rstrip消除这些多余的空白行

3.1415926535
  8979323846
  2643383279


In [79]:
pi_string = ''
for line in lines:
    pi_string += line.strip() #strip消除这些多余的空格（左右两端的）
print(pi_string)

3.141592653589793238462643383279


注意：读取文本文件时，Python将其中的所有文本都解读为字符串。如果你读取的是数字，并要将其作为数值使用，就必须使用函数int()将其转换为整数，或使用函数float()将其转换为浮点数。

#### 写入文件

In [80]:
filename = 'programming.txt'
with open(filename, 'w') as file_object:
    '''打开文件时，可指定读取模式（'r'）、
    写入模式（'w'）、附加模式（'a'）或        #想往里面追加内容用a，若要覆盖之前有的内容用w
    让你能够读取和写入文件的模式（'r+'）'''
    file_object.write("I love programming.")

#### 写入多行

In [107]:
filename = 'programming.txt'
with open(filename, 'w') as file_object:
    file_object.write("I love programming.")
    file_object.write("I love creating new games.")
    #是一行一行写的，后面这个write不会覆盖上一个write。除非close再重新打开这个文本文件再用w来写则会覆盖

In [108]:
filename = 'programming.txt'
with open(filename, 'w') as file_object:
    file_object.write("I love programming.\n")
    file_object.write("I love creating new games.\n")

#### 附加到文件

In [109]:
filename = 'programming.txt'
with open(filename, 'a') as file_object:  #从文件末尾继续写
    file_object.write("I also love finding meaning in large datasets.\n")
    file_object.write("I love creating apps that can run in a browser.\n")

#### 存储数据

JSON（JavaScript Object Notation）格式最初是为JavaScript开发的，但随后成了一种常见格式，被包括Python在内的众多语言采用。
（是一种文本格式，可以被记事本打开）

In [1]:
import json   #先导入一个包
numbers = [2, 3, 5, 7, 11, 13]
filename = 'numbers.json'
with open(filename, 'w') as f_obj:
    json.dump(numbers, f_obj)  #倒入json里面去

In [111]:
with open(filename) as f_obj:
    numbers1 = json.load(f_obj)     #加载进来
print(numbers1)

[2, 3, 5, 7, 11, 13]


In [86]:
username = input("What is your name? ")  #返回一个字符串
filename = 'username.json'
with open(filename, 'w') as f_obj:
    json.dump(username, f_obj)
    print("We'll remember you when you come back, " + username + "!")

What is your name?  Gang


We'll remember you when you come back, Gang!


In [87]:
with open(filename) as f_obj:
    username = json.load(f_obj)
    print("Welcome back, " + username + "!")

Welcome back, Gang!


In [2]:
class Animal():
    def __init__(self, name, age):
        self.name = name
        self.age = age
    def sounds(self):
        print(self.name, '会叫')
mypet=Animal("Tom",19)

In [3]:
filename = 'pet.json'
with open(filename, 'wb') as f_obj:
    json.dump(mypet, f_obj)    #这个存储对象太复杂了，存不了了

TypeError: Object of type 'Animal' is not JSON serializable

In [90]:
import pickle  #导入一个包
filename = 'pet'
with open(filename, 'wb') as f_obj:
    pickle.dump(mypet,f_obj)   #pickle可以存（python专用，且为binary格式的，如word文件也是二进制）

In [91]:
with open(filename, 'rb') as f_obj:
    newpet=pickle.load(f_obj)

In [92]:
newpet.sounds()

Tom 会叫


In [93]:
def foo():
    print("Hi Python!")

In [94]:
filename = 'pet'
with open(filename, 'wb') as f_obj:
    pickle.dump(foo,f_obj)         #导入一个函数对象

In [95]:
with open(filename, 'rb') as f_obj:
    newfun=pickle.load(f_obj)       #相当于foo的一个新名字，用它来调用foo

In [96]:
newfun()    

Hi Python!


如上一个个对象往里面丢太麻烦了，用shelve

shelve 模块

In [97]:
import shelve      
shelfFile = shelve.open('mydata')
cats = ['Zophie', 'Pooka', 'Simon']
shelfFile['cats'] = cats    #一个key一个value
shelfFile.close()

调用函数shelve.open()并传入一个文件名，然后将返回的值保存在一个变量中。可以对这个变量的 shelf 值进行修改，就像它是一个字典一样。当你完成时，在这个值上调用close()。这里，我们的shelf值保存在shelfFile中。我们创建了一个列表cats，并写下shelfFile['cats'] =cats，将该列表保存在shelfFile 中，作为键'cats'关联的值（就像在字典中一样）。然后我们在shelfFile上调用close()。

In [98]:
shelfFile = shelve.open('mydata')
shelfFile['cats']    #用key来调用value

['Zophie', 'Pooka', 'Simon']

In [99]:
shelfFile.close()

就像字典一样，shelf 值有 keys()和 values()方法，返回 shelf 中键和值

In [100]:
shelfFile = shelve.open('mydata')
list(shelfFile.keys())    #返回所有的键

['cats']

In [101]:
list(shelfFile.values())   #返回所有的值

[['Zophie', 'Pooka', 'Simon']]

In [102]:
shelfFile.close()

生成随机测试的卷子

In [103]:
import random
capitals = {'Alabama': 'Montgomery', 'Alaska': 'Juneau', 'Arizona': 'Phoenix',
'Arkansas': 'Little Rock', 'California': 'Sacramento', 'Colorado': 'Denver',
'Connecticut': 'Hartford', 'Delaware': 'Dover', 'Florida': 'Tallahassee',
'Georgia': 'Atlanta', 'Hawaii': 'Honolulu', 'Idaho': 'Boise', 'Illinois':
'Springfield', 'Indiana': 'Indianapolis', 'Iowa': 'Des Moines', 'Kansas':
'Topeka', 'Kentucky': 'Frankfort', 'Louisiana': 'Baton Rouge', 'Maine':
'Augusta', 'Maryland': 'Annapolis', 'Massachusetts': 'Boston', 'Michigan':
'Lansing', 'Minnesota': 'Saint Paul', 'Mississippi': 'Jackson', 'Missouri':
'Jefferson City', 'Montana': 'Helena', 'Nebraska': 'Lincoln', 'Nevada':
'Carson City', 'New Hampshire': 'Concord', 'New Jersey': 'Trenton', 
'New Mexico': 'Santa Fe', 'New York': 'Albany', 'North Carolina': 'Raleigh',
'North Dakota': 'Bismarck', 'Ohio': 'Columbus', 'Oklahoma': 'Oklahoma City',
'Oregon': 'Salem', 'Pennsylvania': 'Harrisburg', 'Rhode Island': 'Providence',
'South Carolina': 'Columbia', 'South Dakota': 'Pierre', 'Tennessee':
'Nashville', 'Texas': 'Austin', 'Utah': 'Salt Lake City', 'Vermont':
'Montpelier', 'Virginia': 'Richmond', 'Washington': 'Olympia', 
'West Virginia': 'Charleston', 'Wisconsin': 'Madison', 'Wyoming': 'Cheyenne'}

In [104]:
for quizNum in range(3):   #出三份卷子
    # Create the quiz and answer key files.
    quizFile = open('capitalsquiz%s.txt' % (quizNum + 1), 'w')  #新建文件
    answerKeyFile = open('capitalsquiz_answers%s.txt' % (quizNum + 1), 'w')
    # Write out the header for the quiz.
    quizFile.write('Name:\n\nDate:\n\nPeriod:\n\n')    
    quizFile.write((' ' * 20) + 'State Capitals Quiz (Form %s)' % (quizNum + 1)) #str*20表示str重复20次
    quizFile.write('\n\n')
    # Shuffle the order of the states.
    states = list(capitals.keys())   #州名列表
    random.shuffle(states)    #打乱、重排
    for questionNum in range(50):   #出50道题
        # Get right and wrong answers.
        correctAnswer = capitals[states[questionNum]]  #用键名调用对应的值
        wrongAnswers = list(capitals.values())
        del wrongAnswers[wrongAnswers.index(correctAnswer)]   #在所有州名中删去正确答案
        wrongAnswers = random.sample(wrongAnswers, 3)    #随机抽取3个，返回一个列表
        answerOptions = wrongAnswers + [correctAnswer]    #长度为4的列表，但正确答案始终为D
        random.shuffle(answerOptions)        #打乱此列表的顺序
        quizFile.write('%s. What is the capital of %s?\n' % (questionNum + 1,states[questionNum])) #问题  
        for i in range(4):
            quizFile.write(' %s. %s\n' % ('ABCD'[i], answerOptions[i]))  #字符串可以如数组般调用
        quizFile.write('\n')
        answerKeyFile.write('%s. %s\n' % (questionNum + 1, 'ABCD'[answerOptions.index(correctAnswer)]))  #答案
        #list.index(val)找到val在list中的位置
    quizFile.close()
    answerKeyFile.close()

#### 组织文件

In [4]:
import shutil, os   #导入包
os.chdir('C:\\Users\\huggs\\Desktop\\统计与大数据处理软件')
shutil.copy('pi_digits.txt', 'test')
shutil.copy('pi_digits.txt', '.\\test\\test1.txt')

FileNotFoundError: [WinError 2] 系统找不到指定的文件。: 'C:\\Users\\huggs\\Desktop\\统计与大数据处理软件'

In [106]:
shutil.copytree('test', 'test1')  #拷贝一个目录，把test拷贝到test1

FileExistsError: [WinError 183] 当文件已存在时，无法创建该文件。: 'test1'

In [None]:
shutil.move('test\\test1.txt', 'test1\\test2.txt')  #从一个文件剪切到另一个位置

#### 遍历目录树

In [1]:
import os
for folderName, subfolders, filenames in os.walk('test1'):   # os.walk('.')则是访问当前目录，会遍历整个目录树，进入每个子目录
    #foldername：目录名，subfolders：子目录，filenames：文件名
    print('The current folder is ' + folderName)
    for subfolder in subfolders:
        print('SUBFOLDER OF ' + folderName + ': ' + subfolder)
    for filename in filenames:
        print('FILE INSIDE ' + folderName + ': '+ filename)

The current folder is test1
SUBFOLDER OF test1: tt
FILE INSIDE test1: pi_digits.txt
FILE INSIDE test1: test1.txt
FILE INSIDE test1: test2.txt
The current folder is test1\tt
FILE INSIDE test1\tt: tt1.txt
FILE INSIDE test1\tt: tt2.txt


os.walk()函数被传入一个字符串，即一个文件夹的路径。你可以在一个 for
循环语句中使用 os.walk()函数，遍历目录树，就像使用 range()函数遍历一个范围的数字一样。不像 range()，os.walk()在循环的每次迭代中，返回 3 个值：
1. 当前文件夹名称的字符串。
2. 当前文件夹中子文件夹的字符串的列表。
3. 当前文件夹中文件的字符串的列表.

#### 删除文件
1. 用 os.unlink(path)将删除 path 处的文件。
2. 调用 os.rmdir(path)将删除 path 处的文件夹。该文件夹必须为空，其中没有任何文件和文件夹。
3. 调用 shutil.rmtree(path)将删除 path 处的文件夹，它包含的所有文件和文件夹都会被删除。