# コンピュータの言語2025：課題6：文字コード

授業では様々な文字コードを紹介しましたが，あまり深くは触れられませんでした．興味のある人は [Wikipedia](http://ja.wikipedia.org/wiki/文字コード) や[参考書](http://www.amazon.co.jp/gp/product/477414164X/ref=pd_lpo_sbs_dp_ss_1?pf_rd_p=466449256&pf_rd_s=lpo-top-stripe&pf_rd_t=201&pf_rd_i=4774107808&pf_rd_m=AN1VRQENFRJN5&pf_rd_r=1TDX5NYT9T0H4C2NP59Q) を読んでより深く勉強してください．また Python3 の入門である [Dive Into Python3 日本語版　第４章　文字列](http://diveintopython3-ja.rdy.jp/strings.html)や，[Python 公式ドキュメント：Unicode HOWTO](https://docs.python.jp/3/howto/unicode.html)にも，UTF-8 という文字コードがどのような経緯で出てきたのか，ということがわかりやすく解説されています．

今回の課題では文字コードに関連したプログラムです．

## ASCII

以下は ASCII の表です．(Terminal で ```man ascii``` とするとみることができます）

```
       0 nul    1 soh    2 stx    3 etx    4 eot    5 enq    6 ack    7 bel
       8 bs     9 ht    10 nl    11 vt    12 np    13 cr    14 so    15 si
      16 dle   17 dc1   18 dc2   19 dc3   20 dc4   21 nak   22 syn   23 etb
      24 can   25 em    26 sub   27 esc   28 fs    29 gs    30 rs    31 us
      32 sp    33  !    34  "    35  #    36  $    37  %    38  &    39  '
      40  (    41  )    42  *    43  +    44  ,    45  -    46  .    47  /
      48  0    49  1    50  2    51  3    52  4    53  5    54  6    55  7
      56  8    57  9    58  :    59  ;    60  <    61  =    62  >    63  ?
      64  @    65  A    66  B    67  C    68  D    69  E    70  F    71  G
      72  H    73  I    74  J    75  K    76  L    77  M    78  N    79  O
      80  P    81  Q    82  R    83  S    84  T    85  U    86  V    87  W
      88  X    89  Y    90  Z    91  [    92  \    93  ]    94  ^    95  _
      96  `    97  a    98  b    99  c   100  d   101  e   102  f   103  g
     104  h   105  i   106  j   107  k   108  l   109  m   110  n   111  o
     112  p   113  q   114  r   115  s   116  t   117  u   118  v   119  w
     120  x   121  y   122  z   123  {   124  |   125  }   126  ~   127 del
```

これを見るとわかる通り，ASCII ではアルファベットの大文字 A〜Z は 65〜90 番に，小文字 a〜z は　97〜122 番に割り当てられていることがわかります．

Python では，```ord``` という命令によって，文字から ASCII の番号に変換することができます．

In [None]:
ord('A')

In [None]:
ord('a')

また，```chr```　という命令によって，ASCII の番号から文字に変換することができます．

In [None]:
print(chr(65), chr(97))

## for と文字列

フローチャートの回で，for 文を使った繰り返しを学びましたが，for は文字列のそれぞれの文字を一つずつ順番に取ってくる時にも使えます．

In [None]:
for c in "あいうえお":
    print(c)

上のプログラムで，c には"あいうえお"の文字列が一つずつ入っていきます．

文字列を変数にすることもできます．

In [None]:
text = "abcde"
for c in text:
    print(c)

## 練習1

ASCIIコードでは大文字と小文字の番号の差はちょうど 97-65 = 32 です．これを利用して，大文字を小文字に，小文字を大文字に変換するプロウグラムを作成しました．以下の __##(1)##__, __##(2)##__ に当てはまるものを考えてプログラムを完成させてください．

In [None]:
text = "MasakiOgino"

for c in text:
    if ord(c)< 96:
        print( chr(##(1)##) )
    else:
        print( chr(##(2)##) )

## 練習2

「[２００１年宇宙の旅](http://ja.wikipedia.org/wiki/2001年宇宙の旅)」という映画がありますが，その映画には HAL9000 というコンピュータが登場します．HAL はその当時（そして今も）有名なコンピュータの企業であった IBM を１文字ずつずらして名付けられたという[説](http://ja.wikipedia.org/wiki/HAL_9000)があります．


In [None]:
from IPython.display import HTML
HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/_N3HTGrbgw0" frameborder="0" allowfullscreen></iframe>')

さて，IBM をずらして HAL という文字を表示するプログラムを作成したい時，以下の __##(1)##__ に適切な命令を入れてプログラムを完成させてください．

In [None]:
text = "IBM"

for i in text:
    print( chr(##(1)##) )

## 練習3
実際に大文字と小文字を変換する時には，コード番号ではなく，メソッドを利用します．Python には文字列の大文字，小文字への変換命令として，```.upper()```, ```.lower()``` などがあります．

In [None]:
text = "ThiS Is A Pen."
print(text.upper())
print(text.lower())

あるアンケートの回答で，Yes, No を答えてもらいましたが，"YES", "Yes", "yes" など，様々な回答がありました．大文字を小文字に変換して，Yes と答えた人の割合を求めてください．

In [None]:
# アンケート結果のリスト
answers = ["YES", "No", "yes", "Yes", "no", "yEs", "NO", "YeS"]

# すべての回答を小文字に変換
lowered = [__________ for a in answers]

# "yes" と答えた人の数を数える
yes_count = lowered.__________("yes")

# 割合（％）を計算
ratio = (__________ / len(answers)) * 100

print(f"Yes と答えた人の割合は {ratio:.1f}% です。")

## 文字コード

Python3 では文字列型は Unicode として扱われています．文字をバイトの集まりとして表現することを__エンコード__，逆にバイト列から文字に直すことを __デコード__ といいます．

文字列は ```encode``` メソッドを使ってバイト列に直すことが出来ます．それでは，まず「あ」を Unicode の最も一般的なエンコード方式である UTF-8 でエンコードして見ましょう．

In [None]:
text = "あ"
text.encode('utf-8')

```b``` はバイト列であること，```\x``` は16進数表現であることを示しています．

これをみると「あ」はUTF-8形式では e3 81 81 という３つのバイトで表現されていることがわかります

（1バイトは2桁の16進数で表現されることを覚えていますか？）．

__encode 命令は ascii に対しては，１６進数表現ではなくそのままの文字を返します．__

In [None]:
text = "a"
text.encode('ascii')

```len()``` はバイト列を与えると，バイト列に含まれているバイトの数を返してくれる命令です．これを使って「あいうえお」が何バイトか調べて見ましょう．

In [None]:
text = "あいうえお"
textb= text.encode('utf-8')
len(textb)

1文字あたり3バイトで表現されているので，５文字では ３X５＝１５バイトであることがわかりましたね．

授業では様々なエンコード方式について学びました．代表的なものは ISO-2022, SJIS, EUC, UTF-8 です．これらについて，以下のようなエンコードの特徴がありました．

| 文字コード| 特徴|
|--|--|
|ASCII | 英語圏でよく使われる文字など128文字を１バイトで表現 |
|ISO-2022| ASCIIとその他言語は特別な記号（エスケープシーケンス）で切り替え．ASCIIは１バイト，それ以外は２バイトで表現|
|SJIS, EUC| 英語文字と日本語文字の最初のバイトが異なる．英語は１バイト，それ以外は２バイト |
|UTF-8|ASCII 以外は多バイトで表現 |

* python には他にも多くの codec が実装されています．[ここ](https://docs.python.jp/3/library/codecs.html#standard-encodings)を参照．

encode 命令を使って日本語と英語が混在した文字列「あいうabcあいう」をバイト列に変換し，上記の違いを見てみましょう．

In [None]:
text = "あいうabcあいう"
print("ISO-2022：", text.encode('iso2022_jp'))
print("sjis：", text.encode('sjis'))
print("utf-8：", text.encode('utf-8'))

ISO-2022-JP では 「\x1b $ B」 の３バイトが英語から日本語への切り替え， 「\x1b ( B」 の３バイトが日本語から英語への切り替えの印（エスケープシーケンス）になっています．それ以外の文字コードでは，そのような切り替え記号は必要ありません．

## 練習4

上記のプログラムを改変して，「あいうえおabcdeあいうえお」に対するそれぞれの文字コードのバイト列について ```len``` 命令を使ってバイト数を調べて下のXXXを埋めてください．（ダブルクリックして編集してください）

1. ISO-2022-JP では日本語文字はXXXバイトがXXX個，英語文字がXXXバイトでXXX個，文字の切り替え記号がXXXバイトでXXX個あるので，合計 XXX バイト．
2. SJIS では日本語文字はXXXバイトがXXX個，英語文字はXXXバイトがXXX個あるので，合計XXXバイト．
3. UTF-8 では日本語文字はXXXバイトがXXX個，英語文字はXXXバイトがXXX個あるので，合計XXXバイト

### 挑戦

文字コード表を見ると様々な文字が登録されていることに驚かされます．
Unicode の U+1F0A1 から続く番号にはトランプカードまで登録されています．
このトランプのカードの一覧を出してみましょう．このUnicode の番号に対応する UTF-8 のコードは ```F0  9F 82 A1``` です．この番号を表示してみましょう．
そのためにコード番号から文字に変換してくれる binascii というモジュールを使います．


In [None]:
import binascii

binascii.unhexlify('f09f82a1').decode('utf-8')

'🂡'

小さくて見えないですが，♠️の１のカードです．
それでは，続く１２枚を含めて，スペードのカードの１から１３までを以下のプログラムを改変して表示してみてください．

In [None]:
bangou = 'f09f82a'
for i in range(1,15):
    p = str(hex(i))
    q = p.replace('0x','')
    print(q)
    #xxxxxxxxxxxxxxxxx
    #t = binascii.unhexlify(xxxxxxx).decode('utf-8')
    #print(t)

1
2
3
4
5
6
7
8
9
a
b
c
d
e


## python で web ページ情報を取得する

授業では Webページを見るときにも，文字コードは重要であるということを説明しました．
Web ページでは

```html
<meta charset='UTF-8'>
```

という命令でブラウザに読み込み時の文字コードを指定します．

もとの html ファイルの文字コードと charset で指定した文字コードが異なると文字化けが起こります．以下で見てみてください．

* [文字コードが正しく設定されたページ](http://ogilab.kutc.kansai-u.ac.jp/downloads/complang/kadai7/page1.html)
* [文字コードが誤って設定されたページ](http://ogilab.kutc.kansai-u.ac.jp/downloads/complang/kadai7/page3.html)

２つ目のページは指定した文字コードと，ファイルで利用されている文字コードが異なるために，日本語が正しく表示されず__文字化け__が起こります．

Python プログラムの応用でよく用いられるのが，Python を使ってインターネット上の情報を自動的に収集することです．Web ページから必要な情報だけを抽出して利用することを __スクレイピング__ といいます．そのスクレイピングでよく使われるライブラリの一つに ```requests``` があります．

例えば，[このページ](http://ogilab.kutc.kansai-u.ac.jp/complang/kadai7/page1.html) の内容を ```requests``` を使って取得するには，以下のようにします．

In [None]:
import requests

url = "http://ogilab.kutc.kansai-u.ac.jp/downloads/complang/kadai7/page1.html" #調べたいページのURL

r = requests.get(url)             # 指定した URL のページの情報を取得
r.encoding = r.apparent_encoding  # ページの文字コードを調べて，読み込んだページへ適用する文字コードとして指定する
print("文字コードは", r.encoding)
print("----------------------")
print(r.text)                     # 読み込んだページを表示

```r.apparent_encoding``` という命令は，自動的にページに含まれた文字情報から文字コードを解析し，その結果を返してくれます．今回の場合は 「utf-8」という結果が出ていますね．そして，読み込んだページのhtmlを ```print(r.text)``` で表示させて見ると，ちゃんと

```html
<meta charset="UTF-8">
```

という行で UTF-8 が指定されていることがわかります．

## 練習5
それでは，上記で文字化けしたページ(URL: http://ogilab.kutc.kansai-u.ac.jp/downloads/complang/kadai7/page3.html) について，HTMLファイルの文字コードと，指定された文字コード charset を調べてみてください．

HTMLファイルとしては文字コードは XXXX であるが，charset で指定された文字コードは XXXX になっている．

## 練習6

関西大学のホームページ，文字コードを調べてください．


In [None]:
import requests

url_kandai = "http://www.kansai-u.ac.jp/index.html" #関西大学のホームページ


XXXXXXXX
X      X
X x  x X
X      X
X  --  X
X      X
XXXXXXXX

関西大学のページの文字コード: XXXXXX

ANAのページの文字コード： XXXXXX

実際には「[スラド：世界のWebサイトで文字コードがUTF-8のページが90%を超える](https://srad.jp/story/17/10/18/0413249/)」とい記事の通り，UTF-8 が標準的に使われるようになってきています．

## 課題提出

名前：

学籍番号：

感想：

ファイルを保存したら，このファイルをファイルメニューの「.ipynbをダウンロード」からダウンロードし，関大LMSで提出してください．