## 使用內建功能讀取 txt 檔

# [教學目標]
- 示範 Pandas 各種 讀取 / 寫入 檔案的方式

# [範例重點]
- 讀取 txt 檔 (In[2], Out[2])
- 存取 json 檔 (In[4], In[5], In[7], In[8])
- 存取 npy 檔 (numpy專用檔, In[10], In[11])
- 讀取 Pickle 檔 (In[12], In[13])

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
with open("/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example.txt", 'r') as f:
    data = f.readlines()
print(data)

['id,sex,age,score\n', '001,F,20,77\n', '002,F,25,90\n', '003,M,22,80\n', '004,F,30,66\n', '005,M,40,60\n', '006,M,29,87']


## 將 txt 轉成 pandas dataframe

In [3]:
import pandas as pd

data = [] #data為list
with open("/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example.txt", 'r') as f:
    for line in f:
        line = line.replace('\n', '').split(',') # 將每句最後的 /n 取代成空值後，再以逗號斷句
        data.append(line) #每次加入一line進data中
#with_open_as語法會在自動調用close()
data

[['id', 'sex', 'age', 'score'],
 ['001', 'F', '20', '77'],
 ['002', 'F', '25', '90'],
 ['003', 'M', '22', '80'],
 ['004', 'F', '30', '66'],
 ['005', 'M', '40', '60'],
 ['006', 'M', '29', '87']]

In [4]:
df = pd.DataFrame(data[1:]) #將第1列到最後一列的資料做成DataFrame
df.columns = data[0]    #將第0列設定為DataFrame的label
#df.set_index('id',inplace = False)
#df.set_index('id',inplace = True)
df

Unnamed: 0,id,sex,age,score
0,1,F,20,77
1,2,F,25,90
2,3,M,22,80
3,4,F,30,66
4,5,M,40,60
5,6,M,29,87


## 將資料轉成 json 檔後輸出
將 json 讀回來後，是否與我們原本想要存入的方式一樣? (以 id 為 key)

In [5]:
import json
df.to_json('/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example01.json')
#將上面做好的DataFrame轉為json檔儲存

In [6]:
# 上面的存入方式，會將 column name 做為主要的 key, row name 做為次要的 key
with open('/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example01.json', 'r') as f:
    print(type(f))  #f的type:<class '_io.TextIOWrapper'>
    j1 = json.load(f) #將jason檔轉為python的dict  #只要是"dict"就可以用pd.DataFrame轉為表格!!!!!!
print(type(j1))
print(pd.DataFrame(j1))

<class '_io.TextIOWrapper'>
<class 'dict'>
    id sex age score
0  001   F  20    77
1  002   F  25    90
2  003   M  22    80
3  004   F  30    66
4  005   M  40    60
5  006   M  29    87


In [7]:
df.set_index('id', inplace=True)  #設定其中一個label為列索引
df

Unnamed: 0_level_0,sex,age,score
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,F,20,77
2,F,25,90
3,M,22,80
4,F,30,66
5,M,40,60
6,M,29,87


In [8]:
df.to_json('/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example02.json', orient='index')
#轉為json檔並儲存
#orien:用來設定json檔的形式

In [9]:
with open('/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example02.json', 'r') as f:
    j2 = json.load(f)
j2

{'001': {'sex': 'F', 'age': '20', 'score': '77'},
 '002': {'sex': 'F', 'age': '25', 'score': '90'},
 '003': {'sex': 'M', 'age': '22', 'score': '80'},
 '004': {'sex': 'F', 'age': '30', 'score': '66'},
 '005': {'sex': 'M', 'age': '40', 'score': '60'},
 '006': {'sex': 'M', 'age': '29', 'score': '87'}}

## 將檔案存為 npy 檔
一個專門儲存 numpy array 的檔案格式
使用 npy 通常可以讓你更快讀取資料喔!  
[建議閱讀](https://towardsdatascience.com/why-you-should-start-using-npy-file-more-often-df2a13cc0161)

In [10]:
import numpy as np  #numpy檔案讀取非常快速
# 將 data 的數值部分轉成 numpy array
array = np.array(data[1:])
array

array([['001', 'F', '20', '77'],
       ['002', 'F', '25', '90'],
       ['003', 'M', '22', '80'],
       ['004', 'F', '30', '66'],
       ['005', 'M', '40', '60'],
       ['006', 'M', '29', '87']], dtype='<U3')

In [11]:
np.save(arr=array, file='/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example.npy')

In [12]:
array_back = np.load('/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example.npy')
array_back

array([['001', 'F', '20', '77'],
       ['002', 'F', '25', '90'],
       ['003', 'M', '22', '80'],
       ['004', 'F', '30', '66'],
       ['005', 'M', '40', '60'],
       ['006', 'M', '29', '87']], dtype='<U3')

## Pickle
存成 pickle 檔  
什麼都包，什麼都不奇怪的 [Pickle](https://docs.python.org/3/library/pickle.html)  
比如說 [CIFAR10](https://www.cs.toronto.edu/~kriz/cifar.html) 的資料集就是用 pickle 包的喔!

In [13]:
import pickle
with open('/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example.pkl', 'wb') as f:
    pickle.dump(file=f, obj=data)
    #pickle.dump:
      #file:被封裝的object
      #obj:要被寫入的文件
      #wb:寫成二進制對象,write byte

In [14]:
with open('/content/drive/MyDrive/機器學習百日馬拉松/D5_如何新建一個dataframe_/範例檔案/data/example.pkl', 'rb') as f:
    pkl_data = pickle.load(f) #pickle.load()的參數須是二進制對象
pkl_data

[['id', 'sex', 'age', 'score'],
 ['001', 'F', '20', '77'],
 ['002', 'F', '25', '90'],
 ['003', 'M', '22', '80'],
 ['004', 'F', '30', '66'],
 ['005', 'M', '40', '60'],
 ['006', 'M', '29', '87']]