## SECTION 03 Pythonで⽇本語の⽂字列を扱う
- このセクションで学ぶこと
  - ⽂字コードとは
  - プログラムファイルの⽂字コード
  - コラム: python2の⽂字コード
  - 様々な⽂字コードのファイルの読み書き

## ⽂字コードとは
- テキストファイル内の⽂字列も01で構成されている
- 特定の01の組み合わせが「a」や「あ」と解釈されている
- 同じ⽂字でも「⽂字コード」によって01の組み合わせが異なる
- 16進数(0,1,...9,A,B,C,D,E)の1桁で2進数4桁「0000-1111」を表現できるため、読みやすさで⽂字コードを含むバイナリ表記には16進数を使うのが⼀般的

|⽂字コード| 「a」の⽂字コード| 「あ」の⽂字コード|
|---|---|---|
|UTF-8| 0x61| 0x82A0|
|Shift-JIS| 0x61| 0xA4A2|
|EUC-JP| 0x61| 0xE38182|

## プログラムファイルの⽂字コード
- Pythonの標準⽂字コードはUTF-8。これを使うのが基本
- 諸事情で他の⽂字コードを使う場合はプログラムの冒頭で「どの⽂字コードでプログラムを書いているか」を宣⾔する

In [1]:
# -*- coding: shift-jis -*-
print('こんにちは')

こんにちは


## コラム: python2の⽂字コード
- Python2のデフォルト⽂字コードはASCII(アルファベットのみ)
- ⽇本語及びマルチバイト⽂字を使うのであれば⽂頭での⽂字コードの宣⾔がUTF-8でも必要
- ⾊々と⾯倒なので⽇本語を使うのであればPython3を使うべき

## 様々な⽂字コードのファイルの読み書き
- OSによってopen関数が想定するデフォルト⽂字コードが異なる
  - Windows(⽇本語環境): Shift-JIS
  - Mac: UTF-8
- デフォルト⽂字コードと異なるファイルを⽂字コード指定なしにopenするとエラー

In [2]:
fin_sjis = open('sjis.txt', 'r')
print(fin_sjis.read())
fin_sjis.close()
fin_utf8 = open('utf8.txt', 'r')
print(fin_utf8.read())
fin_utf8.close()

FileNotFoundError: [Errno 2] No such file or directory: 'sjis.txt'

## 様々な⽂字コードのファイルの読み書き
- open関数のencode引数で⽂字コードを指定可能
- マルチプラットフォーム環境も考慮すると以下を推奨
- テキストファイルの⽂字コードにはUTF-8を利⽤
- 移植性を考えてMacであってもファイル読み込み時のencodeオプションにUTF-8を指定しておく
- writeモードではopen時に指定した⽂字コードでファイルが書き出される

In [3]:
fin_sjis = open('sjis.txt', 'r', encoding='shift-jis')
print(fin_sjis.read())
fin_sjis.close()
fin_utf8 = open('utf8.txt', 'r', encoding='utf-8')
print(fin_utf8.read())
fin_utf8.close()

FileNotFoundError: [Errno 2] No such file or directory: 'sjis.txt'

## 演習
- 中に書かれている⽂字コードが不明なファイルの⽂字コードを特定するプログラムを作成してください
  - UTF-8, Shift-JIS, EUC-JPの3つを判定するものとします
  - AsciiのテキストはUTF-8に分類されるとします
  - ヒント: 指定した⽂字コードで読み込めればその⽂字コード、エラーがおきればその⽂字コードでないと分かります
- 本書籍で提供されているUTF-8とShift-Jisのサンプルファイルを使って正しく判別できるか確認してください