補足資料 csvの作り方

1、csvライブラリ

※この資料は、icrawlerで犬と猫の画像を集めた方のみを対象にしています。もし、画像を用意できていなければ、「icrawler_base」に取り組むように。

データセットを作るには、画像を用意するだけではいけません。画像の種類を示すラベルが必要です。pytorchでは、この画像とラベルの紐付けにcsvというファイルを用います。

csvとは、あるデータのもつ情報をカンマ（,）で区切ったものの集合のことで、excelシートに似ています。例として、「人.csv」というファイルが用意されているはずです。確認してみてください。

見ていただけたら分かるように、csvの行が、一つのデータを示しており、列にそのデータに関する情報が示されています。この列に示された情報の種類のことを、フィールドといいます。

csvはファイルの一番上にフィールドが示されており、「Name,age,address」がそれになります。つまり、"Shin"さんのデータの場合だと、"Shin"さんの年齢(age)は18歳、住所は"usa"であることを示しています。

それでは、Pythonを用いて、csvを作ってみましょう。

In [1]:
import csv

with open("test.csv","w") as csv_file: #csvを書き込みモードで新規作成し、csv_fileという変数で読み込めるようにする
    
    #csvのフィールドを決める
    field=["path","label"]

    #csvに記入を行うためのクラスのインスタンスを
    writer=csv.DictWriter(csv_file,field) #csvを示す変数と、フィールドを代入する

    #csvに書き込み{フィールド名:データ,・・・}のように書く
    writer.writeheader()
    writer.writerow({"path":"image/dog.jpg","label":0})
    writer.writerow({"path":"image/cat.jpg","label":1})

pythonでcsvを作るにはcsvライブラリをインポートする必要があります。こいつは標準でpythonに入ってるのでインストール不要です。

withという見慣れない表現が出てきましたね。これはファイル処理をより簡単にする為のpythonの文の一つです(他にも使い道はあります)。このwith文のインデントの中では、open()関数で開いたor作ったファイルをcsv_fileという変数として読み込めるようになっています。

また、このopen()関数は、開くor作るファイルの名前と、書き込みを行うか("w")、読み込みを行うか("r")などのモード選択を行う文字列を引き数とします。この場合、test.csvというファイルを書き込みモードで生成しているのがわかりますね。

pytorchでは、画像のパスと、ラベルをフィールドに分けて、一つのcsvに示すという作業を、「すべての画像について行う必要があります」。はい、めんどくさいですね。よってpythonで自動化しちゃいましょう。

2、csv作成の自動化

今回は犬のラベルを0、猫のラベルを1としてラベル付けを行っていきます。以下はそのコードです。

In [2]:
import csv
import glob

#犬の画像たちのパスを取得
dog=glob.glob("images/dog/*")
#猫の分も
cat=glob.glob("images/cat/*")

paths=[dog,cat]

#rラベルを示す為の変数
label_cnt=0

with open("dog_cat.csv","w") as csv_file:
    field=["path","label"]
    writer=csv.DictWriter(csv_file,field)
    writer.writeheader()
    for i in paths:
        for j in i:
            writer.writerow({"path":j,"label":label_cnt})
        label_cnt+=1

作られたcsvファイルを確認してみてください。パスとラベルがしっかり記入されているでしょうか?

これで、今回は終了です。お疲れ様でした。次は、dataset_loader_base.ipynbに取り組んでください。