# IO Tools

### 說明

1. _根據 [官網說明](https://pandas.pydata.org/docs/user_guide/io.html)_ 。

2. 讀取文件時透過 `pandas` 調用對應的方法如 `read_csv()` 進行文件讀取，寫入文件時，透過 `DataFrame` 物件調用方法如 `to_csv()`   進行資料的寫入。

3. 具體的方法可參考官網。

    ![](images/img_02.png)

___

建立資料

In [8]:
import pandas as pd

# 建立字典
data = {
    'data2': [13, 22, 43, 18, 66],
    'data1': [33, 27, 65, 29, 1],
    'data3': [11, 9, 13, 63, 5],
    'data4': [12, 4, 3, 17, 38],
    'data5': [31, 44, 23, 4, 51]
}

# 轉換
data_df = pd.DataFrame(data)
print('原始資料：')
print(data_df, '\n')

原始資料：
   data2  data1  data3  data4  data5
0     13     33     11     12     31
1     22     27      9      4     44
2     43     65     13      3     23
3     18     29     63     17      4
4     66      1      5     38     51 



輸出為 csv，未指定檔案名稱時會輸出為字串

In [9]:
# 沒有指定等案名稱會傳回字串
_str = data_df.to_csv()
print(_str)
# 觀察資料型別
print(type(_str), '\n')

,data2,data1,data3,data4,data5
0,13,33,11,12,31
1,22,27,9,4,44
2,43,65,13,3,23
3,18,29,63,17,4
4,66,1,5,38,51

<class 'str'> 



將字串轉換為文件物件

In [10]:
# 導入 io 的 StringIO
from io import StringIO

# 可將字串轉換為文件物件進行讀取
_doc = StringIO(_str)
df = pd.read_csv(_doc)
print(df)

   Unnamed: 0  data2  data1  data3  data4  data5
0           0     13     33     11     12     31
1           1     22     27      9      4     44
2           2     43     65     13      3     23
3           3     18     29     63     17      4
4           4     66      1      5     38     51


輸出為 csv 並指定檔案名稱

In [11]:
# 指定檔名後會寫入
# 透過變數取值可知成功寫入時是不會有回傳值的
_result = data_df.to_csv('data.csv')
print(f'回傳值是：{_result}')

回傳值是：None


加入日期索引

In [12]:
# 建立索引
date_index = pd.date_range('1/1/2024', periods=5)

# 指派索引
data_df.index = date_index

# 輸出
print(data_df)


            data2  data1  data3  data4  data5
2024-01-01     13     33     11     12     31
2024-01-02     22     27      9      4     44
2024-01-03     43     65     13      3     23
2024-01-04     18     29     63     17      4
2024-01-05     66      1      5     38     51


存入 CSV

In [13]:
data_df.to_csv('data_df.csv', index=True)

讀取 CSV

In [14]:
# 讀取資料
_csv = pd.read_csv('data_df.csv')
_csv

Unnamed: 0.1,Unnamed: 0,data2,data1,data3,data4,data5
0,2024-01-01,13,33,11,12,31
1,2024-01-02,22,27,9,4,44
2,2024-01-03,43,65,13,3,23
3,2024-01-04,18,29,63,17,4
4,2024-01-05,66,1,5,38,51


連續建立

In [15]:
import pandas as pd

# 建立字典
data = {
    'data2': [13, 22, 43, 18, 66],
    'data1': [33, 27, 65, 29, 1],
    'data3': [11, 9, 13, 63, 5],
    'data4': [12, 4, 3, 17, 38],
    'data5': [31, 44, 23, 4, 51]
}

# 轉換為 pd，並添加日期索引，注意索引數量要能匹配數據
data_df = pd.DataFrame(
    data,
    index=pd.date_range('1/1/2024', periods=5)
)

# 儲存到 CSV
print('儲存到 CSV：')
data_df.to_csv('data_df_2.csv', index=True)

# 讀取 CSV，未指定參數時會產生序號索引
data_csv = pd.read_csv('data_df_2.csv')
print(data_csv, end='\n\n')

# 讀取 CSV，透過參數「index_col」指定以第一個欄位作為索引，也就是寫入的時間
data_csv = pd.read_csv('data_df_2.csv', index_col=0)
print(data_csv)

儲存到 CSV：
   Unnamed: 0  data2  data1  data3  data4  data5
0  2024-01-01     13     33     11     12     31
1  2024-01-02     22     27      9      4     44
2  2024-01-03     43     65     13      3     23
3  2024-01-04     18     29     63     17      4
4  2024-01-05     66      1      5     38     51

            data2  data1  data3  data4  data5
2024-01-01     13     33     11     12     31
2024-01-02     22     27      9      4     44
2024-01-03     43     65     13      3     23
2024-01-04     18     29     63     17      4
2024-01-05     66      1      5     38     51


# 儲存為 Excel

安裝套件

```bash
pip install openpyxl
```

In [16]:
# 儲存 DataFrame 到 Excel
# engine 參數指定使用 openpyxl
df.to_excel(
    'data.xlsx',
    index=False,
    engine='openpyxl'
)
