<a href="https://colab.research.google.com/github/SotaYoshida/Lecture_DataScience/tree/2021/notebooks/Python_chapter5_handling_files.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ファイル操作

[この章の目的]
text,csvやxlsx形式のデータをプログラムでサクッと扱えるようになる。

この章では、テキストファイルやcsvファイル(excelファイル)を  
Pythonで操作する簡単な方法を学習します。  

これまでの章では、データはリストとして既に与えられた状態から解析を行いましたが、  
実際にデータを扱う際は既に誰かが作成した何らかのファイルを  
プログラムで読み込んで操作する場合も多くあります。

この章の内容は、データ解析というよりは、  
Pythonでデータ解析をするための下準備に相当するかと思います。  

愚直にコードを書いている事もあり少々泥臭い部分が多いですが、  
この章のような操作のエッセンスを抑えておけば、  
普通にやると膨大な時間がかかる様々な処理を  
高速化することができると思うので、頑張りましょう。


##授業で使うファイルの準備

ファイルをアップしてColab.から読み込むまでに時間がかかるので  
予め以下のリンクをクリックして、ファイルをダウンロードし、  
ご自身のGoogle Driveにアップロードしておいてください。

* [test.txt](https://drive.google.com/file/d/1xhTpHVi3BanXJwF2GLzUEty17CEeFy1Q/view?usp=sharing) (テキストファイル)

* [python_handling_test.csv](https://drive.google.com/file/d/1bYJNWdtujcQWfSBAa1UeXi2ZzJRJktil/view?usp=sharing) (csv, カンマ区切りのテキストファイル)

* [kakei.xlsx](https://drive.google.com/file/d/1gJMVHivmP7R9Qf4LdqRhdPVc3x0IzD8v/view?usp=sharing) (エクセルファイル)


以下のコードをそのまま使いたいという方は、  
マイドライブ直下にAdDS2020というフォルダを作成し、  
その中にファイルをいれてください。

## テキストファイルの操作

膨大な行のテキストファイルに対して、  
人間が手で操作をするというのは時として非現実的です。  

誤変換を置換するくらいなら、  
どのテキスト/メモ帳アプリやwordでもできますが、  
全行(数千とか数万)に対して、決まった操作が必要な場合、  
プログラムにしてしまったほうが遥かに便利です。

以下では、google driveのマイドライブの```AdDS2020```というフォルダに  
ファイルを保存したと仮定して話を進めますので、  
**適宜皆さんの場合に置き換えて使用してください**。


まずはgoogle driveに保存した```test.txt```という名前のファイルを読み込んでみましょう。  
既に何回かやったようにgoogle driveをマウントします。




In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
!ls /content/drive/My\ Drive/AdDS2020/*.txt        # ターミナルコマンドでspaceを表現するときはバックスラッシュを入れるか、
#!ls /content/drive/"My Drive"/AdDS2020/*  # これでもOK

'/content/drive/My Drive/AdDS2020/test_replace.txt'
'/content/drive/My Drive/AdDS2020/test.txt'


とするとgoogle driveのマイドライブ/AdDS2020にあるファイルの一覧を表示させることができます。

*はワイルドカード記号で、対象を任意とする命令に相当します。  
*.拡張子などとして使うのも便利です。

In [None]:
!ls /content/drive/My\ Drive/AdDS2020/*txt ## /content/drive/AdDS2020以下の.txtファイルを全て表示

'/content/drive/My Drive/AdDS2020/test_replace.txt'
'/content/drive/My Drive/AdDS2020/test.txt'


test.txtが見つかったでしょうか？  
(アップロードしてから読み込みできるまでに少し時間がかかる場合があります)

ファイルパスの概念に不慣れな方は、このノートの後半を参照してください



では次に、このファイルに書かれているテキストを取得してみましょう。  
方法はいくつかありますが、最もポピュラーなものとして、  
ファイルを開いてテキストを取得する方式を採用します。

In [None]:
filename = "/content/drive/My Drive/AdDS2020/test.txt" 
inp = open(filename,"r") # "r"はread(読み出し)を意味するオプション
lines = inp.readlines()
inp.close()

1行目でファイル名(正確にはファイルのパス)を指定し、  
```filename```という名前に格納しました。  

2行目では、指定したパスにあるファイルを開いています。  
今はファイルに書き込むのではなく、既にあるファイルを開いて読み込むので  
"r"というオプションを指定します。  
他には"w"(書き出し,上書き), "a"(書き出し,追記)などがあります。  
新しく上書きでファイルを作成したい場合は"w",  
すでにあるファイルの内容は消さずに追記したい場合は"a"を指定します。

3行目では、inpという名前をつけたファイルに対して、  
```readlines```という操作を適用しています。
これは、ファイルに書かれているテキストを[全行に渡って]読み込む関数です。  
実際、


In [None]:
print(lines)

['これは講義用のテキストファイルです。\n', '書かれていることには特に意味はないですが、\n', 'ファイル操作に慣れていきましょう。\n', '### data\n', '1, 2, 3, 4, 5, 6\n', '11, 12, 13, 14, 15, 16\n', '21, 22, 23, 24, 25, 26\n', 'Aさん:\t180cm 65kg A型\n', 'Bさん:\t165cm 56kg B型\n', 'Zさん:  150cm 50kg AB型\n']


とすると、全ての行が読み込まれ、変数```lines```に格納されていることがわかります。

ここで```\n```は改行記号を意味します。
ループを回して一行ずつ表示させると

In [None]:
for line in lines:
    print(line)

これは講義用のテキストファイルです。

書かれていることには特に意味はないですが、

ファイル操作に慣れていきましょう。

### data

1, 2, 3, 4, 5, 6

11, 12, 13, 14, 15, 16

21, 22, 23, 24, 25, 26

Aさん:	180cm 65kg A型

Bさん:	165cm 56kg B型

Zさん:  150cm 50kg AB型



といった感じです(改行については後で説明します)。

特定の1行しか必要がなければ、  
複数形ではなく```readline()```としてforループを回しても構いませんし、  
必要な行番号が分かっている場合は、  
nlines = lines[2:10]などとして要らないところは捨てて解析・操作してもOKです。  
(やっぱり０から数えることに注意)

次に、もう少し具体的なテキスト操作をしてみましょう。  
まず、上の1行ずつ表示するコードでは、  
改行コードを明示的に含む文字列を一行ずつ表示したため、  
改めてprintすると余分なスペースが空いてしまいました。  
(これは、print関数がデフォルトで末尾に改行```\n```を挿入するため、  
ファイルにある改行記号と合わさってしまうためです→[参考リンク](https://docs.python.org/ja/3/library/functions.html#print))

たとえば```strip()```関数を使うと、  
文字列に含まれる空白や改行コードを消去することができます。

In [None]:
a = "test character\t\n"

print("a", a)
print("a.strip()", a.strip())

a test character	

a.strip() test character


In [None]:
for line in lines:
    print(line.strip())

これは講義用のテキストファイルです。
書かれていることには特に意味はないですが、
ファイル操作に慣れていきましょう。
### data
1, 2, 3, 4, 5, 6
11, 12, 13, 14, 15, 16
21, 22, 23, 24, 25, 26
Aさん:	180cm 65kg A型
Bさん:	165cm 56kg B型
Zさん:  150cm 50kg AB型


文字列の右側に空白や改行コードが入っていることが明確な場合は、  
stripの代わりにrstripを使ってもOKです(rstripのrはrightの意味)。

In [None]:
for line in lines:
    print(line.rstrip())

これは講義用のテキストファイルです。
書かれていることには特に意味はないですが、
ファイル操作に慣れていきましょう。
### data
1, 2, 3, 4, 5, 6
11, 12, 13, 14, 15, 16
21, 22, 23, 24, 25, 26
Aさん:	180cm 65kg A型
Bさん:	165cm 56kg B型
Zさん:  150cm 50kg AB型


としても同じ結果が得られます。  
ファイルによってはインデントをするために左側にタブ```\t```が含まれる場合もあります  
(Pythonのコードをテキストとして読むときなどがこれに該当)  
そのような場合に空白やタブを取り除きたければ、  
```strip()```や```lstrip()```を使って取り除くことができます。

上のファイルの文字列で、  
たとえば#記号を含む行以降だけが必要な場合はどうすればいいでしょうか？

最も単純(？)な実装は

In [None]:
hit = 0 #
for line in lines:
    if "###" in line:
        hit += 1 
        continue
    if hit == 0 :
        continue #hitが0の状態では何もしない
    print(line.rstrip())

1, 2, 3, 4, 5, 6
11, 12, 13, 14, 15, 16
21, 22, 23, 24, 25, 26
Aさん:	180cm 65kg A型
Bさん:	165cm 56kg B型
Zさん:  150cm 50kg AB型


といったところでしょうか。

以下では、###dataまでの行が必要ないので、  
必要なところまでを変数に格納してしまいましょう。



In [None]:
hit = 0 #
nlines = []
for line in lines:
    if "###" in line:
        hit += 1 
        continue
    if hit == 0 :
        continue #hitが0の状態では何もしない
    nlines += [line]
print(nlines)

['1, 2, 3, 4, 5, 6\n', '11, 12, 13, 14, 15, 16\n', '21, 22, 23, 24, 25, 26\n', 'Aさん:\t180cm 65kg A型\n', 'Bさん:\t165cm 56kg B型\n', 'Zさん:  150cm 50kg AB型\n']


また、1,2,3,4,5,6といったコンマやスペースで区切られたものをリストに格納したい場合には、```split```関数が便利です。

引数に何も指定しなければ、スペースもしくはタブごとに文を区切ったリストを返します。

In [None]:
for line in nlines:
    print(line.split())

['1,', '2,', '3,', '4,', '5,', '6']
['11,', '12,', '13,', '14,', '15,', '16']
['21,', '22,', '23,', '24,', '25,', '26']
['Aさん:', '180cm', '65kg', 'A型']
['Bさん:', '165cm', '56kg', 'B型']
['Zさん:', '150cm', '50kg', 'AB型']


カンマがあるときはカンマで分割する、という約束を表現したければ

In [None]:
for line in nlines:
    if "," in line :
        print(line.rstrip().split(","))
    else :
        print(line.rstrip().split())

['1', ' 2', ' 3', ' 4', ' 5', ' 6']
['11', ' 12', ' 13', ' 14', ' 15', ' 16']
['21', ' 22', ' 23', ' 24', ' 25', ' 26']
['Aさん:', '180cm', '65kg', 'A型']
['Bさん:', '165cm', '56kg', 'B型']
['Zさん:', '150cm', '50kg', 'AB型']


などとすることができます。たとえばこれを利用すれば、
空のリストにファイルから読んだ要素を詰めていくといった操作が実現できます。


In [None]:
nums = [] #数字のリストなのでnumsとした
profs = [] #プロフィールのリストなのでprofsとした

for line in nlines:
    if "," in line :
        nums += [ line.rstrip().split(",") ]
    else :
        profs += [ line.rstrip().split()]
print("nums", nums)
print("profs", profs)

nums [['1', ' 2', ' 3', ' 4', ' 5', ' 6'], ['11', ' 12', ' 13', ' 14', ' 15', ' 16'], ['21', ' 22', ' 23', ' 24', ' 25', ' 26']]
profs [['Aさん:', '180cm', '65kg', 'A型'], ['Bさん:', '165cm', '56kg', 'B型'], ['Zさん:', '150cm', '50kg', 'AB型']]


上のnumsの様に、予め全ての要素が整数だと分かっていて、  
整数に対する演算(四則演算など)を後でするのなら、  
str(文字列)型ではなく、int型にしておくほうが良いでしょう。

In [None]:
nums = []
for line in nlines:
    if "," in line : 
        nums += [ list(map(int, line.rstrip().split(",") )) ]
print(nums)

[[1, 2, 3, 4, 5, 6], [11, 12, 13, 14, 15, 16], [21, 22, 23, 24, 25, 26]]


map関数はmap(操作,対象)という風に使って、  
対象の各要素に対して操作を適用することができます。  
今の場合、['1', ' 2', ' 3', ' 4', ' 5', ' 6']などの文字列のリストに対して、  
整数型に変換する```int```関数を作用させるという操作を一度に行います。

注: map関数の返り値はmap objectと呼ばれるものなので、  
元のようなリストの形で使いたい場合はlist()を使ってリストに変換するステップが必要です。

世の中には、アンケート結果や産業データなどが  
csv(カンマ区切りのテキスト)ファイルで公開されている場合が多いですが、  
その場合は上で説明したような手順でリストなどに格納すれば、  
今まで行ったような解析が実行できる、といったわけです。

次に、テキストファイルを書き込んで保存してみます。  
上の文字列で、敬称を"さん"から"様"に置換したテキストを作成して、  
それを別ファイルとして保存してみましょう。


In [None]:
filename = "/content/drive/My Drive/AdDS2020/test_replace.txt" 
oup = open(filename,"w")  ## oup は"output"の気持ち...
for line in lines:
    print(line.rstrip().replace("さん","様"), file=oup) # file=[openしたファイル]にすることで、printする先をファイルに指定できます。
oup.close() #ファイルはきちんと閉じる.

Google Driveで、作成されたファイルをチェックしてみましょう。

なお、filenameに元ファイルと同じものを指定すると  
```open(filename,"w")```を読んだ時点で、  
ファイルが上書きされて空ファイルになるので注意しましょう。

今の例ではもちろん、手で置き換えたりするほうが遥かに速いですが、  
こうしたPythonによるファイル操作を覚えておくと

* ファイル自体が大量にあり、同じ操作を繰り返す場合
* 単一のテキストファイルに大量の行に渡って情報がある場合

など、手作業が非現実的な様々な状況でも、  
楽ちんに作業を終わらせることができる(かもしれません)。

上の内容や、これまでに学習した並列処理を駆使すると、  
数万人のデータが1行ずつ記載されたテキストファイルから  
条件にヒットする人の情報だけを抽出して小さなファイルにまとめる。  
といったことが皆さん既にできるようになっているはずです。

> **文字コードに関連した注**  
Windows環境で作成されたテキストファイルを扱う際は  
読み込みで、文字コードによるエラーが出るかもしれない。  
最近ではメモ帳でもUTF-8(世界標準)を採用しているよう(→[MicrosoftのWindows blogの記事](https://blogs.windows.com/japan/2020/02/20/about-windows-and-japanese-text/))  
だけれど、古いテキストファイルだとShift-JISになっているかも。  
そういうときは、```open(file, "r", encoding = "shift_jis")```など、  
ファイルを開くときにencodingを明示的に指定する必要があります。  
UTF-8で保存したいときは```open(file, "w", encoding = "utf-8")```などとする。  
参考: [公式ドキュメント](https://docs.python.org/ja/3/howto/unicode.html#reading-and-writing-unicode-data)  
ここまで勉強してきた皆さんには  
「そんなの、パソコンに存在するShift-JISで書かれたテキストファイルを   
全て  UTF-8に変換するPythonスクリプト書けばいいんじゃね？」  
という発想があることを期待しています。


## csv,エクセルファイルの操作

### アンケート分析

冒頭の二番目のファイル```pyhon_handling_test.csv```は  
あるアンケート結果をまとめたファイルになっています。

これは、Google フォームで作成したアンケート[(リンクはこちら)](https://docs.google.com/forms/d/1XU5yEoLzd-Jvcba7GaHhMGAZDzDd_Cpl0Jylvullc28/edit?usp=sharing)で、  
国数英社理(中学の５科目)に対する得意/苦手意識の調査を想定した疑似アンケートです。

このようなアンケート調査は事務作業や卒業研究などで頻繁に見られ、  
会社や大学など所属コミュニティで何らかの意思決定に用いられることも多いことでしょう。

こうしたアンケート分析を行っていると、

*   各回答項目同士の関係が知りたい
*   明示的な項目以外の情報も抽出したい

といった要望が出てきます。

今の場合でいうと、
* 各科目ごとの得意・苦手意識の相関を調べたい
* 夜中(あるいは日中)にアンケートを回答した夜型(昼型)の人に見られる特徴がなにかないか？

といったイメージです。そんなとき、

> 国語が得意(どちらかというと得意)と回答した方に質問です。  
英語についてはどうでしょうか？

などと新たに設問を増やしてアンケートをやり直すというのは得策では有りません。  
Pythonを使って、すでに得られた情報からさらなる情報を引き出すことを考えてみましょう。  
まずは、csvファイルに記載された情報を整理してプログラムで扱いやすくすることを考えます。


> 余談: このcsvファイルをExcelで開こうとするとお使いの環境によって文字化けを起こすかと思います。これはgoogleフォームで作成されたcsvファイルの文字コードが世界標準のutf-8を使用しているのに対し、ExcelがShift-JISという時代遅れな文字コードでcsvファイルを開こうとするためです。
Googleのスプレッドシートや、Macに標準で搭載されているNumbersで開くと文字化けしません。

> 2000件の回答は、もちろん私が手作業で入力したわけでも誰かに協力してもらったわけでもなく、一定のルール(傾向)を勝手に設定した上でランダムに回答を作成しフォームから自動回答するPythonスクリプトを書きました。時間に余裕があれば、こうしたWeb操作を自動化する方法も授業で扱います。 c.f. ブラウザ操作, Webスクレイピング

In [None]:
filename = "/content/drive/My Drive/AdDS2020/python_handling_test.csv" #読み込むファイルのパスの指定

とりあえずファイルの中身を数行表示してみる。

csvファイル(コンマ区切りのテキスト)なので、テキストファイルと同じ方法をとる(他の方法ももちろんある)

In [None]:
inp=open(filename,"r")
csv_lines=inp.readlines() 
inp.close()
print("行数は",len(csv_lines))
for i in range(5):
    print(csv_lines[i].rstrip())

行数は 2001
"タイムスタンプ","性別","国語が","数学が","英語が","社会が","理科が"
"2020/09/09 12:59:25 午後 GMT+9","女","+2 得意","-1 どちらかというと苦手","+2 得意","+2 得意","-1 どちらかというと苦手"
"2020/09/09 12:59:27 午後 GMT+9","男","+2 得意","-1 どちらかというと苦手","+2 得意","+2 得意","+0 どちらでもない"
"2020/09/09 12:59:29 午後 GMT+9","女","+1 どちらかというと得意","-2 苦手","+1 どちらかというと得意","+0 どちらでもない","-2 苦手"
"2020/09/09 12:59:31 午後 GMT+9","男","+0 どちらでもない","-2 苦手","-1 どちらかというと苦手","+0 どちらでもない","-1 どちらかというと苦手"


ちなみに...```pandas```ライブラリを使うと  
csvをサクッと読み込むことができる

(授業で```pandas```の説明はしませんが是非使ってみてください。)

In [None]:
import pandas as pd 
df = pd.read_csv(filename)
print(df)

                           タイムスタンプ 性別  ...            社会が            理科が
0     2020/09/09 12:59:25 午後 GMT+9  女  ...          +2 得意  -1 どちらかというと苦手
1     2020/09/09 12:59:27 午後 GMT+9  男  ...          +2 得意     +0 どちらでもない
2     2020/09/09 12:59:29 午後 GMT+9  女  ...     +0 どちらでもない          -2 苦手
3     2020/09/09 12:59:31 午後 GMT+9  男  ...     +0 どちらでもない  -1 どちらかというと苦手
4     2020/09/09 12:59:34 午後 GMT+9  男  ...  -1 どちらかというと苦手  -1 どちらかというと苦手
...                            ... ..  ...            ...            ...
1995   2020/09/10 3:35:51 午前 GMT+9  男  ...  +1 どちらかというと得意          +2 得意
1996   2020/09/10 3:35:53 午前 GMT+9  男  ...  +1 どちらかというと得意  +1 どちらかというと得意
1997   2020/09/10 3:35:55 午前 GMT+9  男  ...  -1 どちらかというと苦手          +2 得意
1998   2020/09/10 3:35:57 午前 GMT+9  男  ...  -1 どちらかというと苦手          +2 得意
1999   2020/09/10 3:35:59 午前 GMT+9  男  ...          -2 苦手  +1 どちらかというと得意

[2000 rows x 7 columns]


さて、```csv_lines```に格納したデータをもう少し扱いやすいように変更しよう。  
最初の0行目はどういうデータが入っているか(データの項目)を表している。  
1-2000行目には2000人分の回答が詰まっている。  
(*Pythonでのインデックス指定と整合するように０からカウントすることにした)

これによると、  
> 0列目: 回答した時刻  
> 1列目: 性別  
> 2列目: 国語  
> 3列目: 数学  
> 4列目: 英語  
> 5列目: 社会  
> 6列目: 理科  

らしい。いろいろなデータの整理方法があると思うがここでは、
* 処理A 0列目の時刻を２４時間表記にして表示する  
* 処理B 2-6列目の各科目の得意・苦手意識を、文字列を除去して数値[-2,-1,0,1,2]として扱う

をまずやってみよう。






In [None]:
#処理Aのための関数
#input_strが、"年月日 時刻(h:m:s) 午前/午後 GMT+9" という文字列である、という文字列の[構造]を知った上での実装になっていることに注意
def make_time_24h(input_str):        
    time  = input_str.split()[1]
    AMPM = input_str.split()[2]
    hms = time.split(":")
    h = int(hms[0])
    if AMPM == "午前":
        output_str = time 
    else :
        if h != 12:
            output_str = str(h +12)+":"+hms[1]+":"+hms[2]
        else:
            output_str = str(h)+":"+hms[1]+":"+hms[2] # 12時xx分だけは別の取り扱いが必要
    return output_str

nlines=[] #整理したものをリストとしてまとめるための空のリスト
for nth,line in enumerate(csv_lines[1:]): 
    nline = line.rstrip().replace('"','').split(",") # 改行文字の除去、ダブルクォーテーションの除去, カンマで分割    
    # この時点でnlineは0:時刻 1:性別, ...のリストとなっているはず print()でcheckしてみよう
    # 処理A)
    time = make_time_24h(nline[0])
    #print("nline[0]", nline[0], "time", time)
    M_or_F = nline[1] #性別

    #　処理B)
    points = [ int(nline[k].split()[0]) for k in range(2,7)] #各科目の値だけのリスト(points)を作成
    # 上記をmap関数にしてみよう。

    nline = [time, M_or_F]+points  #リストを連結(時刻,性別と各科目の値を同じ階層で結合)して、nlineという名前で上書き
    nlines += [ nline ]

    # うまく編集できたか400行おきほどでprintしてチェックしてみる
    if nth % 400 == 0 :
        print("編集前", line.rstrip())
        print("編集後", nline)
        print("")

編集前 "2020/09/09 12:59:25 午後 GMT+9","女","+2 得意","-1 どちらかというと苦手","+2 得意","+2 得意","-1 どちらかというと苦手"
編集後 ['12:59:25', '女', 2, -1, 2, 2, -1]

編集前 "2020/09/09 1:13:03 午後 GMT+9","男","+1 どちらかというと得意","-1 どちらかというと苦手","+1 どちらかというと得意","+0 どちらでもない","+0 どちらでもない"
編集後 ['13:13:03', '男', 1, -1, 1, 0, 0]

編集前 "2020/09/09 1:26:25 午後 GMT+9","男","+0 どちらでもない","+0 どちらでもない","+0 どちらでもない","+0 どちらでもない","+0 どちらでもない"
編集後 ['13:26:25', '男', 0, 0, 0, 0, 0]

編集前 "2020/09/10 3:08:57 午前 GMT+9","男","+0 どちらでもない","+1 どちらかというと得意","+2 得意","+1 どちらかというと得意","+1 どちらかというと得意"
編集後 ['3:08:57', '男', 0, 1, 2, 1, 1]

編集前 "2020/09/10 3:22:30 午前 GMT+9","女","+0 どちらでもない","+0 どちらでもない","+0 どちらでもない","+0 どちらでもない","+1 どちらかというと得意"
編集後 ['3:22:30', '女', 0, 0, 0, 0, 1]



最後に、各項目の得点を適当なリスト(あるいはnp.array)に整形しておけば、種々の分析を行うことができます。



In [None]:
import numpy as np
points = [ [] for i in range(5)]
for tmp in nlines:
    for i in range(5):
        points[i]+=[tmp[2+i]]
print("points", np.array(points))
print("各科目の平均スコア:", [np.mean(points[i]) for i in range(5)])

points [[ 2  2  1 ... -1 -1 -1]
 [-1 -1 -2 ...  1  1  1]
 [ 2  2  1 ...  0  0  0]
 [ 2  2  0 ... -1 -1 -2]
 [-1  0 -2 ...  2  2  1]]
各科目の平均スコア: [-0.0005, 0.0035, 0.687, -0.0085, 0.237]


相関分析は以降の章で扱うので具体例は省略します。


## 複雑なエクセルファイルの操作

```kakei.xlsx```はエクセルファイルで  
以降では、2020年度前期のデータサイエンス入門(一部学科を除く)の  
相関分析で使用されたエクセルファイル、[kakei.xlsx](https://drive.google.com/file/d/1gJMVHivmP7R9Qf4LdqRhdPVc3x0IzD8v/view?usp=sharing)を使用します。  



以下では、google driveのマイドライブ直下のAdDs2020というフォルダに  
ファイルを置いたと思って処理を行いますので、適宜ご自身の環境に置き換えてください。



In [None]:
filename = "/content/drive/My Drive/AdDS2020/kakei.xlsx" #読み込むファイルのパスの指定

まずはxlsxファイルをPythonで読み込んで、どんな"シート"があるのかを確認してみましょう。

In [None]:
import xlrd #xlrd(excel read)モジュールをimportする
wb = xlrd.open_workbook(filename) #作業するbook(excelファイル)を開いてwbという変数名をつける
print("シート名のリスト", wb.sheet_names())

シート名のリスト ['サンプルデータ', '課題（データベース）', '課題（解答）', 'Sheet1', 'Sheet2', 'Sheet3', 'Sheet4', 'Sheet5', 'Sheet6', 'Sheet7', 'Sheet8', 'Sheet9', 'Sheet10', 'Sheet11', 'Sheet12', 'S1', 'S2', 'S3', 'S4', 'S5', 'S6', 'S7', 'S8', 'S9', 'S10', 'S11', 'S12']


たくさんシートがあることが分かります。 


Sheet1の中身をのぞいてみましょう。まずは行と列の数を取得してみます。

In [None]:
Sheet1 = wb.sheet_by_name("Sheet1")
print("行の数", Sheet1.nrows)
print("列の数", Sheet1.ncols)

行の数 716
列の数 114


0-9番目の行にはどんな値がセルに入っているのかな...と思ったら

In [None]:
for i in range(0,10):
    print(Sheet1.row_values(i))

['', '', '', '', '', '', '', '', '', '', 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 13.0, 14.0, 15.0, 16.0, 17.0, 18.0, 19.0, 20.0, 21.0, 22.0, 23.0, 24.0, 25.0, 26.0, 27.0, 28.0, 29.0, 30.0, 31.0, 32.0, 33.0, 34.0, 35.0, 36.0, 37.0, 38.0, 39.0, 40.0, 41.0, 42.0, 43.0, 44.0, 45.0, 46.0, 47.0, 48.0, 49.0, 50.0, 51.0, 52.0, 53.0, 54.0, 55.0, 56.0, 57.0, 58.0, 59.0, 60.0, 61.0, 62.0, 63.0, 64.0, 65.0, 66.0, 67.0, 68.0, 69.0, 70.0, 71.0, 72.0, 73.0, 74.0, 75.0, 76.0, 77.0, 78.0, 79.0, 80.0, 81.0, 82.0, 83.0, 84.0, 85.0, 86.0, 87.0, 88.0, 89.0, 90.0, 91.0, 92.0, 93.0, 94.0, 95.0, 96.0, 97.0, 98.0, 99.0, 100.0, 101.0, 102.0, 103.0, 104.0]
['', '', '', '', '', '', '', '', '', '', 1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 13.0, 14.0, 15.0, 16.0, 17.0, 18.0, 19.0, 20.0, 21.0, 22.0, 23.0, 24.0, 25.0, 26.0, 27.0, 28.0, 29.0, 30.0, 31.0, 32.0, 33.0, 34.0, 35.0, 36.0, 37.0, 38.0, 39.0, 40.0, 41.0, 42.0, 43.0, 44.0, 45.0, 46.0, 47.0, 48.0, 49.0, 50.0, 51.0, 5

このように、エクセルシートの[構造]を知ることで、    
やりたい操作を系統的に実行することができます。  

予めファイルを開いて[構造]を確認するのも良いでしょう。  
このエクセルを実際に開くと、  
Sheet1からSheet12までが複数都市の家計調査のデータで、  
S1からS12までが気候データになっていて、  
1-12までの数字が2017年の1月から12月までに対応していることが分かります。

実際のデータを触っていると、  
「2006年までとそれ以降とでデータファイル(.xlsx)の"構造"が違う」  
といったことも出てきます。  
最初は特定のものに合わせたコードを作り、  
徐々に"汎用性の高い"コードにしていくのがよいでしょう。

このエクセルを使って実際に作業をするには、  
[細かいライブラリの使い方]などを説明することになるため   
授業ではやらず、以下の"おまけ"にいれておきます。  
この作業や実践DSに限らず
* 自分がやりたい操作をきちんと言語化する
* 公式ドキュメントやWebから情報を探す
* とにかく試してみる

という意識が重要です。


### おまけ

以下のコードは、プログラミングの"ありがたみ"を感じてもらうためのお試し用です。   
昔書いたコードなのですが、かなり読みにくいコードなのであまり真剣に読まないでください.

**大量の画像ファイルをドライブに生成するので、以下を読んだ上で実行してください**

以下のコードたちを何もいじらずに実行すると、  
全都市の月別平均気温と全品目の世帯平均支出のうち、  
相関係数の絶対値が0.9以上のもの(291通り)をプロットして画像として保存します。  
```pthre```の値を小さくすると、生成される画像の数がべらぼうに増えるので注意してください。  
(0.9 =>  291通り, 0.8 => 1234通り, 0.7 => 2871通り, 0.6 => 5233通り, 0.5 => 8375通り, 0.0 => 32876通り)

Google Colab上で実行して291枚の画像が生成されるまでに110秒程度かかりました  
(私の手元のPCでは通信がない分か、数十秒-90秒くらい).  
この時間未満でエクセルで操作をして同様の処理を完了出来るという方は...  
おそらく地球上にいないでしょう(要出典)



In [None]:
!mkdir /content/drive/My\ Drive/AdDS2020/kakei_cor_pic # 画像がいっぱい生成されると面倒なので画像を保存するフォルダを作成しておく

mkdir: cannot create directory ‘/content/drive/My Drive/AdDS2020/kakei_cor_pic’: File exists


In [None]:
!pip install japanize_matplotlib #japanize_matplotlibモジュールのインストール. 一度実行すれば良い

Collecting japanize_matplotlib
[?25l  Downloading https://files.pythonhosted.org/packages/aa/85/08a4b7fe8987582d99d9bb7ad0ff1ec75439359a7f9690a0dbf2dbf98b15/japanize-matplotlib-1.1.3.tar.gz (4.1MB)
[K     |████████████████████████████████| 4.1MB 2.7MB/s 
Building wheels for collected packages: japanize-matplotlib
  Building wheel for japanize-matplotlib (setup.py) ... [?25l[?25hdone
  Created wheel for japanize-matplotlib: filename=japanize_matplotlib-1.1.3-cp36-none-any.whl size=4120275 sha256=99ba18f56cc73c5c34b25d80ecc96b7f6e1033f5c4a97379eec6f6ed1f4f7c22
  Stored in directory: /root/.cache/pip/wheels/b7/d9/a2/f907d50b32a2d2008ce5d691d30fb6569c2c93eefcfde55202
Successfully built japanize-matplotlib
Installing collected packages: japanize-matplotlib
Successfully installed japanize-matplotlib-1.1.3


In [None]:
import xlrd
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import japanize_matplotlib
import time

class ebook:
    def __init__(self,inpf):
        self.inpf = inpf
        self.wb = xlrd.open_workbook(inpf)
        self.sheets = self.wb.sheets
        self.ns,self.sname = self.wb.nsheets, self.wb.sheet_names()
        s_kikou=[]; s_kakei=[]
        for i, sheetname in enumerate(self.sname):
            if "Sheet" in sheetname :
                s_kakei += [ i ]
            elif "S" in sheetname :
                s_kikou += [ i ]
        self.s_kakei,self.s_kikou = s_kakei,s_kikou
    def indices(self):
        return self.s_kakei, self.s_kikou
    def readkakei(self,ikakei) :
        ws = self.wb.sheet_by_index(ikakei)
        nr = ws.nrows; nc=ws.ncols
        premode = True
        items = []
        for ii in range(nr): 
            trow = ws.row_values(ii)
            hit = 0
            if premode == True:
                for jj,tmp in enumerate(trow):
                    try :
                        if "市" in tmp:
                            hit += 1
                    except:
                        hit = hit
                if hit > 5:
                    premode=False
                    i_kakei=[];p_kakei=[]
                    for jj,tmp in enumerate(trow):
                        if "市" in tmp:
                            i_kakei += [jj]
                            p_kakei +=[ tmp ] 
                    v_kakei = [ ]
            else:                    
                if ii >= 22:
                    if type(trow[8]) is str and trow[8] != "":
                        v_kakei += [ [trow[jj+1] for jj in i_kakei] ]
                        items += [trow[8]]                         
        return i_kakei, p_kakei, v_kakei,items
    def readkikou(self,ikikou):
        ws = self.wb.sheet_by_index(ikikou)
        nr = ws.nrows; nc=ws.ncols
        quantities = [];v_kikou=[]
        premode=True
        for ii in range(nr): 
            trow = ws.row_values(ii)
            if premode :
                if any(["市" in tmp for tmp in trow]):
                    Tplaces = trow[1:]
                    premode=False
            else:
                quantities += [ trow[0] ]
                v_kikou += [ trow[1:] ]
        return Tplaces, v_kikou,quantities

def seasoncolor(month):
    if month <= 2 or month ==12:
        return "blue"
    elif 3 <= month <=5:
        return "green"
    elif 6 <= month <=8:
        return "red"
    elif 9<= month <=11:
        return "orange"
    return tcol

def plot_cor(x,y,item,quantity,place,corrcoef):    
    fig = plt.figure(figsize=(4,4))
    ax = fig.add_subplot(1,1,1)
    ax.set_facecolor("#e0e0e0")
    ax.set_title(place+"   r="+str("%8.2f" % corrcoef).strip())
    ax.set_xlabel(item);ax.set_ylabel(quantity)
    ax.grid(True,axis="both",color="w", linestyle="dotted", linewidth=0.8)
    for i in range(len(x)):
        tcol=seasoncolor(i+1)
        ax.scatter(x[i],y[i],marker="o",s=5,color=tcol,zorder=20000,alpha=0.7)
        ax.text(x[i],y[i],str(i+1)+"月",color="k",fontsize=8)
    plt.savefig(oupdir + "corr_"+item+"vs"+quantity+"_at_"+place+".png",dpi=300) 
    plt.close()

def calcor(date,places,items, Vs_kakei,Tplaces,quantities,Vs_kikou):
    hit = 0; num_pic=0
    Vs = [] 
    for j_K,place in enumerate(places):
        for j_T, Tplace in enumerate(Tplaces):
            if place != Tplace :
                continue
            for ik,item in enumerate(items):
                kvalue = np.array([ Vs_kakei[i][ik][j_K] for i in range(len(Vs_kakei))])
                quantity=quantities[iT]
                Tvalue = np.array([ Vs_kikou[i][iT][j_T] for i in range(len(Vs_kikou))])
                if all(Tvalue) == 0.0: ## missing value in climate data
                    continue
                if printlog:
                    print("@", place," ",item,kvalue," VS ",quantity, ",",Tvalue)
                corrcoef=np.corrcoef(kvalue,Tvalue)[0][1]
                Vs += [ [ corrcoef, item, quantity, place] ]
                if abs(corrcoef) > pthre:
                    hit += 1
                    if pltmode==True:
                        plot_cor(kvalue,Tvalue,item,quantity,place,corrcoef)                       
                        num_pic += 1
    print("hit:",hit, " number of picture", num_pic)

if __name__ == "__main__":
    ti=time.time()
    T=True; F=False
    global oupdir #保存するディレクトリ名
    global iT 

    inpf = "/content/drive/My Drive/AdDS2020/kakei.xlsx"
    oupdir = "/content/drive/My Drive/AdDS2020/kakei_cor_pic/" #適宜置き換える
    iT = 6  # iT=6: 日平均気温
    printlog= F #条件にhitした都市の品目と気候データを逐次printするかどうか. (Fを推奨)
    pthre= 0.90 ## corrplotを描く相関係数のthreshold 
    pltmode = T ## T:plotする F:計算のみ ** 画像をいちいちplotして保存する必要がない場合Fを推奨
    year="2017" 

    wb=ebook(inpf)
    s_kakei,s_kikou=wb.indices()   
    Vs_kakei=[]; Vs_kikou=[];dates=[]
    for i,ind_kakei in enumerate(s_kakei):
        i_places,places, v_kakei,items = wb.readkakei(ind_kakei)
        Tplaces, v_kikou, quantities  = wb.readkikou(s_kikou[i])
        if i+1 < 10:
            date=year+"0"+str(i+1)
        else:
            date=year+str(i+1)
        dates += [date]
        Vs_kakei += [ v_kakei ]
        Vs_kikou += [ v_kikou ]
    calcor(dates,places,items,Vs_kakei,Tplaces,quantities,Vs_kikou)    

    tf=time.time()
    print("Elapced time[sec]:", tf-ti)

  c /= stddev[:, None]
  c /= stddev[None, :]


hit: 32  number of picture 32
Elapced time[sec]: 46.80077767372131


## パスの指定

ファイルがコンピュータ上でどこにあるかを指し示す文字列はファイルパス(path)と呼ばれる。  
上の```"/content/drive/My Drive/XXX.png"```もファイルパスの一例になっている。

たとえば...  
>[Sota]というユーザの[ドキュメント] (あるいは[書類])フォルダに  
[csv_file]というフォルダがあり  
[test.csv]というcsvファイルが入っている

とするとそのファイルを指し示すパスは  
Windowsの場合→ ```C:\Users\Sota\Douments\csv_file\test.csv```  
macOSの場合→ ```/Users/Sota/Documents/csv_file/test.csv```
となる。

注:  
* Cドライブかどうかは皆さんのディスク環境に依存
* Google Colab.環境では、Unix(Mac)やLinuxと同様の方式(スラッシュを使用)  
* バックスラッシュ\はWindowsの日本語環境では¥円記号で表示される  
(プログラムなどを書く人には厄介な仕様だったりする)  

コンピュータには、ホームディレクトリというものが指定されており、  
Windowsなら ```C:\Users\ユーザー名```  
Macなら ```/Users/ユーザー名```  
に通常設定されていて、ユーザーがよく使うデスクトップや  
写真・ドキュメントなどのフォルダはホームディレクトリ直下に配置されている。  
また、ホームディレクトリは```~/```で簡略化して指定することもできる。  

OSにもよるが...ライトユーザーは、  
ホームディレクトリより上の階層をあまり触らないことが推奨されている(と思う)。  
理由は、システムファイルが入っていることが多いため。

パスの指定の仕方にはその他にも方法があり、  
ピリオドやスラッシュを駆使して  
現在のディレクトリからの[相対パス]で指定する事もできる。


たとえば...   
Home  
├ Documents  
│└─ AdDS2020  
││   　└─ Report1  
││   　│　 └─ StudentA  
││   　│　 └─ StudentB  
││   　└─ Report2  
│└─ AdDS2019  
├ Picures  
︙

こういう階層構造になっていて、現在```Home/Documents/AdDS2020/Report1```という
ディレクトリにいるとすると、
そこから
* StudentAへの相対パスは ```./StudentA```
* Report2への相対パスは ```../Report2```
* AdDS2019への相対パスは ```../../AdDS2019```
* Pictureへの相対パスは```../../../Pictures```

といった感じ。


前述のように愚直にReport1フォルダを指定するときは  
```/Users/Sota/Documents/AdDS2020/Report1```  
といった感じで、これを相対パスと対比させて絶対パスと呼んだりする。

## 余談: ファイル名に使用すべきでない文字

授業で公開しているノートブックの名前は基本的に  
半角英数字とアンダースコアのみで構成されている。   
これは別に吉田がイキってる訳ではない。  

* 半角スペース(以下␣という記号で表現する)
* 各種括弧 (),{},[]
* カンマ ,
* ピリオド .
* ハイフン -
* スラッシュ /
* エクスクラメーションマーク !
* 円記号(バックスラッシュ) ¥
* その他、機種依存文字などはもちろん、全角記号等

などは、(プログラムで扱う予定がある)ファイルの名前には使用しないことが推奨される。  
理由は色々あるが

1. 機械の解釈にambiguityが生じる
2. (1.により人間側の操作が増えて)面倒

というところに尽きると思う。

例を示そう。  
Google Colab.上では冒頭に!を付けることで、  
以下に例を示すようなLinuxコマンドを実行できる。

```!ls hogehoge.pdf``` #← lsコマンド　リスト(該当ファイル等)を表示  
```!mkdir hogehoge``` #← make directoryコマンド  
```!rm hogehoge``` #←remove(削除)コマンド  

たとえば半角スペースが入った```test␣.pdf```というファイルがあったとする。  
これをlsコマンドで表示させようとして

In [None]:
!ls test .pdf

ls: cannot access 'test': No such file or directory
ls: cannot access '.pdf': No such file or directory


という命令を行うと、```test␣.pdf```という指定ではなく  
```test```と```.pdf```が存在するかどうかを尋ねる命令になってしまう。  
これは、機械にとっては半角スペースはコマンド文の区切りを意味するためである。

この場合、```test␣.pdf```の有無を調べたければ。
別途バックスラッシュを入れて「記号としての空白です」と機械に教えなくてはならない。

In [None]:
!ls test\ .pdf

ls: cannot access 'test .pdf': No such file or directory


といった具合に、人間側の手間が必要になってしまう。

たとえばスラッシュ```/```記号も、  
ディレクトリ階層を指定する記号として通常使われる。  
たとえばMacで```/```という名前のディレクトリを作って  
(Unix)ターミナルからそのディレクトリを覗こうとすると  
フォルダ名は```Desktop:```となる。

人間が目で見るフォルダ名と機械に与えるべきパスが異なるというのは...  
やっぱり色んな場面で不便が生じる。

上記の記号や"２バイト文字"はファイル(フォルダ)名に使わないのが  
コンピューターにとっては無難なのだ。

こういうことは小中高や大学でも理由付きで教えてくれなかったりするので、  
プログラミングをやって初めて気がつく(気にするようになった)という人も多いかも。
