## ファイル操作
データ分析を行う際、本来はデータベースという専用のデータ格納システムを用いますが、csvファイルやエクセルからデータを読み込んで分析することもあります。ここでは、様々なファイルの扱い方（読み込み方・書き込み方）について記述します

**ファイル操作の基本**

    ファイルは開いたら閉じる

**プログラミング全般の基本**

    何かを開いたら閉じる
    ファイル操作だけでなく、「データベースとの接続」「ドライバーの起動」など、プログラムがプログラム外部と何らかの「つながり」を持つことを「XXXを開く/起動する/起こす」などと表現しますが、外部と何らかの「つながり」を持ったら、一連の処理が終わったら、必ず「つながり」を閉じてください

In [1]:
"""テキストデータ
"""
file = open(r'./data/test_read.txt',encoding="utf8")
data = file.read() 
file.close()
print(data)

試し読み用


## パス(ファイルの場所)の指定の仕方
**パスの種類**

絶対パス：コンピュータ「頭」から順番に指定する方法

相対パス：現在の位置から指定する方法

In [2]:
"""絶対パス
"""
# osライブラリを使って現在のディレクトリのフルパスを取得します
import os
print(os.path.abspath("."))

C:\Users\root\Desktop\a_作業場\e_programing-school\e_教材\Python_Tutorial


すると、今は、Cディレクトリの頭から順番にたどってきて、「PythonTutrial」ディレクトリにいることがわかります
よって、先ほどのテキストファイルの絶対パスは
C:\Users\root\Desktop\a_作業場\e_programing-school\e_教材\Python_Tutorial\data\test_read.txt
となることがわかります
ファイルパスの記述方法は、区切りに「\」を使う表記法と「/」を使う表記法があります。

In [25]:
"""絶対パスへの書き換え
"""
file = open(r'C:\Users\root\Desktop\a_作業場\e_programing-school\e_教材\Python_Tutorial\data\test_read.txt',encoding="utf8")
data = file.read() 
file.close()
print(data)

試し読み用


## with句
open-closeは一連の流れですが、closeをし忘れてしまうことがあります。
短いプログラムなら何の問題もありませんが、大きなプログラムになると、一つのファイルの締め忘れが重大な事故を招くことがあります

そこでwith句というものを用います。これは決まった書き方をすると自動的にファイルを閉じてくれる便利な奴です

    file = open('./data/11_ファイル操作/test.txt',encoding="utf8")
    data = file.read() 
    file.close()
    print(data)
    print(type(data))

In [26]:
with open('./data/test_read.txt',encoding="utf8") as file:
    data = file.read() 
print(data)

試し読み用


## 文字コード

プログラムには「文字コード」という厄介な奴があります。
コンピュータには「あ」が「あ」と登録されているわけではありません。記号で登録されています。「あ」なら「0xE3」という記号が割り振られています。

しかし、この文字コードは、統一的なものではありません。IT技術は、全世界で同時多発的に発達してきたので、このような文字コードが統一されないまま、現在に至っています。文字コードには
* UTF8
* SHIFT-JIS
* ASCII
など様々な規格があります。

ファイルやOSによって、文字コードが違うことがあります。

**「このファイルは、この文字コードを使って開きます」**というのを適切に指定しなければ、ファイルを読むことはできません

Windowsの場合は大体UTF8で開きます

In [27]:
with open('./data/test_read.txt',encoding="utf8") as file:
    data = file.read() 
print(data)

試し読み用


In [28]:
with open('./data/test_read.txt',encoding="shift-jis") as file:
    data = file.read() 
print(data)

隧ｦ縺苓ｪｭ縺ｿ逕ｨ


## バイナリデータ
**テキストデータ以外のデータ**もしくは**文字や改行以外の情報を含んでいるデータ**を通常「**バイナリデータ**」と呼びます。画像データはバイナリデータに当たります

## openのモード
本来は、ファイルを開くとき、**「このファイルは、この文字コードを使って、このモードで開きます**」という風に指定してあげる必要がある場合があります。

モードは下記のモードがあります

* r : 読み込み
* w : 書き込み
* b : バイナリモード

In [29]:
"""読み込み
"""
with open("./data/test_read.txt",encoding="utf8",mode="r") as file:
    data = file.read() 
print(data)

試し読み用


In [30]:
"""書き込み
"""
with open("./data/test_write.txt",encoding="utf8",mode="w") as file:
    file.write("書き込み用") 

In [31]:
"""バイナリ形式で開く
「読み込みか or 書き込みか」＋「バイナリ」を指定する
例：　mode="rb"　
例：　mode="wb"
バイナリ形式の場合、エンコード方式は指定できない
"""
with open("./data/test_read.txt",mode="rb") as file:
    data = file.read() 
print(data)

b'\xe8\xa9\xa6\xe3\x81\x97\xe8\xaa\xad\xe3\x81\xbf\xe7\x94\xa8'


## 色んなファイルを読み書きしてみます

### CSV

In [32]:
"""csvファイルの読み込み
"""
import csv
with open("./data/test_read.csv",encoding="utf8",mode="r") as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

['1', '2', '3']
['4', '5', '6']
['7', '8', '9']


In [33]:
"""csvファイルの書き込み
"""
import csv
x=[1,2,3]
with open("./data/test_write.csv",encoding="utf8",mode="w") as file:
    writer = csv.writer(file, lineterminator='\n')
    writer.writerow(x) 

In [34]:
"""csvファイルの書き込み
"""
import csv
x=[[1,2,3],[4,5,6],[7,8,9]]
with open("./data/test_write.csv",encoding="utf8",mode="w") as file:
    writer = csv.writer(file, lineterminator='\n')
    writer.writerows(x) 

### Excel

In [35]:
"""エクセルファイルの読み込み
"""
import xlrd
wb = xlrd.open_workbook("./data/test_read.xlsx")
#シートの種類出力
print(wb.sheet_names())
#どのシートを読み込むか決定
sheet = wb.sheet_by_name('Sheet1')
#どこのセルを読み込むか
cell = sheet.cell(1, 2)
print(cell)

['Sheet1', 'Sheet2', 'Sheet3']
empty:''
