# レッスン5



## 5.1 データ処理

プログラムで処理したデータを残したい場合はファイルとして出力し、保存することがあります。  
* txt
* csv
* xml
* json
* yml

などの様々な形式で保存することができます。もし、バイナリデータとして保存したい場合はバイナリに変換する処理が必要です。

## 補足(ディレクトリの操作)  
google colaboratoryではこのJupyterノートブック上でLinuxコマンドが実行可能です。  
先頭に「!」を付けることで実行します。

In [0]:
!ls

これが今いる階層です。  
ここに新しいディレクトリを作成してみましょう

In [0]:
!mkdir kis

これでkisというディレクトリができたはずです。lsコマンドで見てみてください

In [0]:
!ls

ではディレクトリを移動してみましょう  
ディレクトリ移動の時は%を先頭に付けます。

In [0]:
%cd kis

これでkidというディレクトリに移動できました。今回はここで作業していきます。



## 5.2 ファイルの書き込み

ファイルをの読み書きするには対象ファイルをopenします。

fobj = open(filename, mode)

- *fobj*はopen()関数が返したファイルオブジェクトです。
- *filename*はファイル名、場所が分かるようにパスも必要な場合があります。
- *mode*はファイルのタイプや操作モード
   + 第一文字
     * ``r`` => 読み出し:ファイルが存在しない場合はエラー
     * ``w`` => 書き込み:ファイルが存在しない場合は新しく作り、存在する場合は上書き
     * ``x`` => 書き込み:ファイルが存在する場合はエラー（上書きミスを防ぐため）
     * ``a`` => 書き込み:ファイルの後ろに追記
   + 第二文字
     * ``t`` => テキスト
     * ``b`` => バイナリ
- デフォルトは``rt``:テキストの読み出し

最後にファイルを閉じる必要があります。  
fobj.close()



In [0]:
texts = """むかしむかし、あるところに、おじいさんとおばあさんが住んでいました。
おじいさんは山へしばかりに、おばあさんは川へせんたくに行きました。
おばあさんが川でせんたくをしていると、ドンブラコ、ドンブラコと、大きな桃が流れてきました。
"""

f = open('momotaro.txt', 'w', encoding="utf-8") # ファイルを開く 
# encoding="utf-8", "shift_jis", "euc_jp"
f.write(texts) # 書き込み
f.close() # 閉じる

kisディレクトリの配下に「momotaro.txt」が作成されていることを確認してください。  
ダブルクリックするか、ダウンロードして中身を確認してください。


## 5.3 ファイルの読み込み

In [0]:
f = open('momotaro.txt', 'r')
texts = f.read() # 一気でファイルを読み出す、ファイルが大きい場合はメモリ不足の注意が必要
f.close()
print(texts)

ファイルサイズが大きい場合は、イテレータを使って一行ずつを読み出すこともできます。

In [0]:
f = open('momotaro.txt', 'r')
for line in f: # 毎回一行だけ
    line = line.strip() # 行末の改行を消す
    print(line) # 改行が入る
f.close()

改行表示せずに、リストで返すことも可能です。

In [0]:
f = open('momotaro.txt', 'r')
texts = f.readlines() # ファイルが大きい場合はメモリの注意が必要
f.close()
print(texts)

## 5.4 自動的クローズ

開いたファイルを閉じ忘れると、参照されなくなるまでは開いたままになるためメモリが無駄に消費されます。  
複数のプログラムがアクセスし更新する場合、ロックがかかって書き込めなくなる可能性があります。  
それを防ぐためにwithを使って、自動的にクローズするようにします。


In [0]:
with open('momotaro.txt', 'r') as f:
    texts = f.readlines()
# ファイルは自動的に閉じされた
# そのあと保存されたテキストを処理してもいい
for line in texts:
    line = line.strip()
    print(line)

## 問題

### Q1

momotaro.txtに下記2行の続きを書き込んでください。  

「おや、これは良いおみやげになるわ」  
　おばあさんは大きな桃をひろいあげて、家に持ち帰りました。

In [0]:
# コードを書いてください


### Q2

ファイルが更新されたことを確認するために、ファイルに書かれたテキストを読みだしてください。  
withを使って、自動でクローズされるようにしてください。  
1行ずつではなく、read関数を使って一気に読みだしてください。

In [0]:
# コードを書いてください


## 5.5 CSV形式

苗字、名前、性別をカンマ区切りでファイルに保存します。

In [0]:
import csv

namelist = [['Sato','Taro','M'],
['Suzuki','Hanako','F'],
['Takahashi','Akiko','F'],
['Tanaka','Kentaro','M']]

# CSV形式のファイルを書き込む
with open('data.csv', 'w') as f:
    writer = csv.writer(f, delimiter=',', quotechar='"',lineterminator='\n') # コーテーションを使う #ラインターミネータを指定しないと改行がはいる
    for row in namelist:
        writer.writerow(row)

コーテーションを使うと特殊文字（区切り子、タブ、改行、コーテーションなど）が入っても大丈夫です。

In [0]:
# CSV形式のファイルを読み出す
with open('data.csv', 'r') as f:
    reader = csv.reader(f, delimiter=',', quotechar='"')
    namelist = [row for row in reader]
    
print(namelist)

## 5.6 XML形式

CSV形式では二次元（行と列）のデータしか作れないため、階層構造にはXMLが扱いやすいです。

ここでは、会社に３つの部門があって、それぞれ二人の社員がいるとします。
下記のXMLデータを``company.xml``というファイルに保存します。  
下記をコピーしてXMLファイルを作成し、アップロードしてください。

In [0]:
<?xml version="1.0"?>
<company>
  <department name="技術部門" floor='3rd'>
    <person position="部長">佐藤 太郎</person>
    <person position="プログラマ">鈴木 花子</person>
  </department>
  <department name="人事部門" floor='2nd'>
    <person position="部長">鈴木 隆史</person>
    <person position="システム管理者">田中 康介</person>
  </department>
  <department name="営業部門" floor='1st'>
    <person position="部長">斎藤 次郎</person>
    <person position="営業担当">木村 美冬</person>
  </department>
</company>

ファイルをアップロードしましょう。  
/contentにアップロードされるはずなので、ファイルを移動させます。

In [0]:
%cd ..
!mv company.xml kis/company.xml
%cd kis

lsコマンドでXMLがあることを確認しましょう。右のファイル階層からドラッグアンドドロップでも良いです。

In [0]:
!ls

- 開始タグ`<company>`、終了タグ`</company>`、あるいは`<department>`と`</department>`、`<person>`と`</person>`が必要
- 開始タグには、オプションの属性（attribute）を組み込める。例：`name`は`department`の属性である
- タグは値（value）を持つことができる。例：`Sato Taro`は`person`の値である
- PythonのXMLデータ処理のパッケージ``xml.etree.ElementTree``を使う

In [0]:
import xml.etree.ElementTree as et
tree = et.parse('company.xml')
root = tree.getroot()
print(root.tag)

for child in root:
    print('[tag]:', child.tag, '[attributes]', child.attrib)
    for grandchild in child:
        print('\t|--> [tag]:', grandchild.tag, '[attributes]', \
            grandchild.attrib, '[text]', grandchild.text)         

iter関数を使用することで要素を検索することもできます。

In [0]:
# 会社全員の名前
for item in root.iter('person'):
    print(item.text)
print("end")

# 直接の子要素のみ検索
# 部門の部長など
for item in root.findall('department'):
    name = item.get('name')
    for person in item:
        if person.get('position') == '部長':
            manager = person.text
    print(name, '==>', manager)

- XMLのデータ編集もできる
- 例：新しい要素を追加

In [0]:
# 新しい部門
new_department = et.SubElement(root, 'department')
new_department.set('name', 'R&D')
new_department.set('floor', '3rd')
# 新しい部長
new_manager = et.SubElement(new_department, 'person')
new_manager.set('position', '部長')
new_manager.text = '中村 健太'
# こういうふうに属性を入れることもできる
new_person = et.SubElement(new_department, 'person', position='エンジニア')
new_person.text = '安田 ひろ子'

- 全体の構造を見る

In [0]:
et.dump(root)

<company>
  <department floor="3rd" name="技術部門">
    <person position="部長">佐藤 太郎</person>
    <person position="プログラマ">鈴木 花子</person>
  </department>
  <department floor="2nd" name="人事部門">
    <person position="部長">鈴木 隆史</person>
    <person position="システム管理者">田中 康介</person>
  </department>
  <department floor="1st" name="営業部門">
    <person position="部長">斎藤 次郎</person>
    <person position="営業担当">木村 美冬</person>
  </department>
<department floor="3rd" name="R&amp;D"><person position="部長">中村 健太</person><person position="エンジニア">安田 ひろ子</person></department></company>


新しいファイルに書き込んでみましょう

In [0]:
# 新しいファイルに書き込む
tree.write('new_company.xml', xml_declaration=True, encoding='utf-8')

機械が処理する分には問題ないが、人が読めるように綺麗に出力するためには少し手間をかける必要があります。

In [0]:
from xml.dom import minidom # 違うライブラリで処理
s = et.tostring(root).decode('utf-8')
s = ''.join([a.strip() for a in s.split('\n')]) # 改行とスペースを取り除く
xmlstr = minidom.parseString(s).toprettyxml(indent="   ", encoding='UTF-8')
with open('new_company_pretty.xml', "w") as f:
    f.write(str(xmlstr.decode('UTF-8')))

また、組織変更によって体制が変わった場合、部門を削除することもできます。

In [0]:
for item in root.findall('department'):
    if item.get('name') == 'R&D': # 条件をつけて
        root.remove(item)
et.dump(root)

## 5.7 JSON形式

他の言語でも扱っているデータ形式なので、互換性は高いです。
JSONのデータ型はPythonで非常に取り扱いやすいものです。

| JSON         | Python       | 表現方法 | 例 |
| ------------ | ------------ | --- | --- |
| object       | dict         | {"key":value, "key": value ...}のように記述 | {"apple":150, "orange":120} |
| array        | list / tuple | [1, 2, 3 ...]のように記述 | ["apple", 100] |
| string       | str          | ダブルクォートで括る | "apple" |
| number       | int / float  | 数字 | 25 |
| true / false | True / False | trueかfalse | true |
| null         | None         | null | null |

- 前の会社の例をJSONに変えると

In [0]:
# 辞書型の階層的なデータ
company = \
{
"department": { 
        "技術部門": {
            "floor": "3rd",
            "person": {
                "佐藤 太郎": "部長",
                "鈴木 花子": "プログラマ"
            }
        },
        "人事部門": {
            "floor": "2nd",
            "person": {
                "鈴木 隆史": "部長",
                "田中 康介": "システム管理者"
            }
        },
        "営業部門": {
            "floor": "1st",
            "person": {
                "斎藤 次郎": "部長",
                "木村 美冬": "営業担当"   
            }
        }
    }
}

import json
company_json = json.dumps(company)
company_json # jsonフォーマットの文字列になる
print(type(company_json))

ファイルに保存についてはほかの形式と同じように書きこみができます。

In [0]:
with open("company.json", "w") as f: # ファイルcompany.jsonに保存
    json.dump(company, f)

保存したファイルから読み込んでみます。

In [0]:
with open("company.json", "r") as f: # ファイルcompany.jsonから読み込む
    company = json.load(f)
print(company)
type(company) # ちゃんと辞書型になっている

読み込んだ後は普通にPythonのデータ型で処理可能です。

In [0]:
# 階層的に表示する
for c in company:
    print(c)
    for d in company[c]:
        print('\t|-->', d)
        for i in company[c][d]:
            if i == 'floor':
                print('\t\t|-->', i, company[c][d][i])
            else:
                print('\t\t|-->', i)
                for j in company[c][d][i]:
                    print('\t\t\t|-->', j, company[c][d][i][j])


## 問題



### Q3

company.xmlに

1. 新しい職員が技術部門に入りましたので加えてください。（person: あなたの名前, position: あなたのポジション）
2. 木村 美冬が会社を退職したのでその情報を削除してください。
3. 残ったデータをcompany_kadai.xmlに出力してください。

In [0]:
# ここでコードを書いてください

