<a href="https://colab.research.google.com/github/YokoyamaLab/PythonBasics/blob/main/day01_03DataStructure.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Day1-03 データ構造

変数にデータを割り当てる方法は学びました。この資料では、複数のデータを一塊として扱うデータ構造を学びます。

## 🌀リスト (List) ##


「配列」の英訳は「Array」で、多くの言語でArrayと表現されていますが、Pythonでは「List」と呼びます。厳密に言うとArrayや後述するNumPy配列(Array)があるのですが、Java等で配列として知られているような機能はPythonではListで実装できます。

では、ある変数をListとして定義しましょう。

In [None]:
my_list = []
print(len(my_list))

これで**長さ0**のListが、変数**my_list**として定義されます。なお```len(LIST)```でLISTの長さを得る事ができます。

定義と同時に初期値を入れる方法もあります。

In [None]:
my_list= [0, 1, 2.0, 3.5, '要素', 5j, 0]
print(my_list[3])
print(my_list)
print(len(my_list))

Javaやその他の多くの言語同様、添え字は0から始まり、```list[n]```の形で参照します。`

### 💮通番のListを作る

0からの連番からなるリストを作るには```range()```を用います。後で制御構文として習う**for文**が入っていますが、この時点ではこういうもんだと思っておいてください。

In [None]:
seq_list = [i for i in range(10)]
print(seq_list)

これを少し変えると例えば、こんな事もできます。

In [None]:
seq_list = [i+5 for i in range(10)]
print(seq_list)
seq_list = [i*i for i in range(10)]
print(seq_list)

### 💮要素の操作

Listには、すでに定義されたListに対して、新たな要素を追加・削除したり連結したりするメソッドが多数用意されています。

【追加削除系】
*  ```list.append(x)```
  * **list**の末尾に**x**を追加
  * **x**がListの場合は**list**と**x**が連結される
*   ```list.insert(i, x)```
  * **list**の**i**番目(0スタートなのを忘れずに)**x**を追加
  * ```list.insert(0, x)```で先頭に追加
*   ```list.pop()```
  * **list**の末尾から要素を**取り除いて**返す
*   ```list.pop(i)```
  * **list**の**i**番目の要素を**取り除いて**返す
  * ```list.pop(0)```で先頭の要素を**取り除いて**返す
*   ```list.clear()```
  * **list**の全ての要素を削除する
*   ```list.remove(x)```
  * **list**の中の要素**x**を削除
  * その要素が無い時はエラーを返す

【 一部を**返す**系】
*   ```list.index(i)```
  * **list**の**i**番目の値を返す
*   ```list[i,i+l]```
  * **lisr**の**i**番目から**l**要素文返す
  * メソッドではなくて添え字として書く事ができます

【並び順の変更系】
*   ```list.reverse()```
  * **list**の並び順を逆にする
*   ```list.sort()```
  * **list**をソートする

【その他】
*  ```list.count(x)```
  * **list**中にある要素**x**の個数を返す
*  ```list.copy()```
  * **list**のコピーを返す

ではこれらを使った実際のコードを見てみましょう。実行したり改変したりして、それぞれのメソッドがどのように動いているのか理解をしてください。

In [None]:
print('配列を定義する')
fruits = ['Cherry','Banana','Elderberry','Dragon Fruits']
print(fruits)

print('配列をソートする')
fruits.sort()
print(fruits)

print('末尾にFigを追加')
fruits.append('Fig')
print(fruits)

print('先頭にAppleを追加')
fruits.insert(0,'Apple')
print(fruits)

print('順番を逆にする')
fruits.reverse()
print(fruits)

print('Cherryが何番目にあるか探してiに入れる')
i = fruits.index('Cherry')
print('i = ', i)

print('i番目の値を取り除く')
print('返された値: ', fruits.pop(3))
print('配列に残った値', fruits)

print('i番目にCranberryを挿入')
fruits.insert(i,'Cranberry')
print(fruits)

print('2番目から3個(つまり5番目の要素の前(つまり4番目))までを返す')
print('返された値: ', fruits[2:5])
print('配列に残った値: ', fruits)

print('fruitsをコピーしてfruits_copyに代入')
fruits_copy = fruits.copy()
print("fruits:",fruits);
print("fruits_copy:",fruits_copy);

print('コピーと代入の違いを知るためにfruitsをfruits_2に代入しておく')
fruits_2 = fruits
print("fruits:",fruits);
print("fruits_2:",fruits_2);

print('fruitsをクリア')
fruits.clear()
print(fruits)

print('fruits_copyは？')
print(fruits_copy)

print('fruits_2は？')
print(fruits_2)

命令一つ一つのソースコードと実行結果を見比べてリストの機能を理解してください。コードをいじって再実行してみても良いでしょう。リストは実装の基礎になりますので、習得しておく事が重要です。

１点だけ、最後に```fruits_coopy```には配列の値が残っていますが、```fruits_2``は空っぽになっていますが、これは何故でしょうか？

```clear()```で空にしたのは```fruits_2```ではなくて```fruits```だけなはずです。

実はこれはPythonだけでなく、JavaScript等最近のモダンなプログラミング言語を扱うにあたり、非常に重要なポイントです。```fruits_copy```は```frutis_copy = frutis```というコードで作成されました。Listだとややこしいので、普通の変数で考えてみましょう。

In [None]:
val_a = 1
val_b = val_a
val_a = 0
print("val_a: ",val_a)
print("val_b: ",val_b)

この様に```val_b```に```val_a```の値を代入した後で```cal_a```の値を更新したとしても、```val_b```の値は、当然代入時の```val_a```の値のままです。

ところが先ほどのListの例ではそうはなりませんでした。もう一度その部分のコードだけ見てみましょう。

In [None]:
list_a = ['Fig', 'Elderberry', 'Dragon Fruits', 'Cranberry', 'Banana', 'Apple'];
list_b = list_a
list_c = list_a.copy()
list_a.clear()
print("list_a: ", list_a)
print("list_b: ", list_b)
print("list_c: ", list_c)

```list_a```だけクリアしたはずなのに、list_bも消えています。これは、数値や文字列と違てListは値そのものではなくて、値が格納されているメモリ番地が変数に格納されているから起こります。つまり```list_a```と```list_b```は同じメモリ番地を指しています。```list_a```が指し示すメモリ番地にあるListを更新すれば、当然```list_b```は同じ所を指していますので、```list_b```も更新されます。

一方で```list_c```は**copyメソッド**で作り出されました。**copyメソッド**はListの内容をメモリの別の部分にコピーし、その番地を返す関数です。なので```list_c```は```list_a```や```list_c```と異なる番地にあるデータを見ていますので、```list_a```からクリアされても影響を受けません。

この事を頭の片隅に置いておかないと、今後、複雑なプログラムを実装する際に、思わぬバグを生み出す事になりますので、気を付けましょう。

### 💮多次元リスト ###

Listの要素としてListを持つこともできます。これを多次元配列と呼びます。

In [None]:
matrix = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
]
print(matrix)

## 🌀タプル (Tuple) ##

Listと似たデータ構造にTupleというのもがあります。以下の様に定義します。

In [None]:
my_tuple= (0, 1, 2.0, 3.5, '要素', 5j, 0)
print(my_tuple)
print(my_tuple[3])
print(len(my_tuple))

定義の角括弧が丸括弧に変更しただけで、使い方はListと同じです。では何が違うのでしょうか。以下のコードを実行してください。

In [None]:
my_tuple[0] = 10

このコードは0番目の値を更新しようとしていますが、エラーが発生してしまいます。ListとTupleの最大の違いはここで、Tupleは値の更新が出来ません。

## 🌀セット (Set) ##

もうひとつ似たようなデータ構造にSetがあります。

In [None]:
my_set= {0, 1, 2.0, 3.5, '要素', 5j, 0}
print(my_set)
print(len(my_set))

SetはListやTupleと何が違うでしょうか。上記のコードの実行結果にそのヒントがあります。

In [None]:
print("List:", len(my_list))
print("Tuple:", len(my_tuple))
print("Set:", len(my_set))

同じデータで初期化しているのに、Setだけ**長さが6**です。これは、**Setは重複を許さない**という制約によるものです。初期化に使ったデータには0が2回登場しています。これが排除されるので長さが1少ない6になるのです。

もう一つの大きな違いは**順序が無い**という事です。Setはすなわち数学で習う集合の事です。集合の要素に順序がないように、PythonのSetにも順序がありません。なので以下の様なコードはエラーを吐きます。

In [None]:
print(my_set[3])

## 🌀辞書 (Dictionary) ##

Dictionary型、ここまで紹介したList、Tuple、Setとは少し異なったデータ型です。まずは初期化コードを見てみましょう。

In [None]:
my_dict = {
    '講義番号':'CS3070',
    '講義名':'情報科学C',
    '担当者':'横山昌平'
}
print(my_dict)
print(len(my_dict))

これは別名、連想配列やハッシュテーブルとも呼ばれるデータ構造で、**Key**と**Value**のペアの羅列を保持します。上記の例では**講義番号**、**講義名**、**担当者**が**Key**で、**講義番号**に対応する**Value**が**CS307**、**講義名**に対応する**Value**が**情報科学C**、**担当者**に対応する**Value**が**横山昌平**となります。

Valueは何も文字列や数値のような一つの値だけでなく、ListやDictionaryを格納する事ができます。

In [None]:
my_dict['参考書'] = [
    'Python 1年生 プログラミングのしくみ',
    'Python 2年生 データ分析のしくみ',
    'Python 3年生 機械学習のしくみ'
]
my_dict['講義日'] = {
    'day1' : '4/19',
    'day2' : '4/26',
    'day3' : '5/10',
    'day4' : '5/17',
    'day5' : '5/24',
    'day6' : '5/31',
    'day7' : '6/7',
    'day8' : '6/14',
    'day9' : '6/21'
}
print(my_dict)

長くてちょっと見づらいですね。そんな時は[**pprint**](https://docs.python.org/ja/3/library/pprint.html)を使います。```print```は標準機能ではないのでまず```import```してから使います。PythonはJavaに比べると呪文の少ない言語ですが、とりあえずこの時点では１行目と２行目は呪文だと思って使ってください。

In [None]:
import pprint
pp = pprint.PrettyPrinter(indent=4,compact=True)
pp.pprint(my_dict);

きちんと改行されて分かりやすく表示されました。ListやTupleも出せます。このノートの前半で作ったList、Tuple、Setだと短すぎてpprintの効能は見えにくいですが、長い配列だと、ちょうど良いところで改行してくれるので、効果は大きいです。

In [None]:
pp.pprint(my_list)
pp.pprint(my_tuple)
pp.pprint(my_set)
pp.pprint( [i for i in range(100)] )

### 💮JSON (JavaScript Object Notation) ###

少しばかり余談になりますが、Dictionary型と一緒に覚えておいた方が良いのが**JSON**というデータ形式です。正式名称は**JavaScript Object Notation**といい、JavaScriptの文法に則った、文字列としてDictionary(JavaScriptではObject形と呼びます)を表現する形式の事です。殆どPythonのList型やDictionary型を定義する時の右辺と同じなので、一緒に覚えておくと手間が省けます。

なぜここで**JavaScript**の話がでてきたかというと、JavaScriptはWeb界隈で最もよく使われている言語というだけでなく、Web界隈だけでなく世界で最も使われている言語です(GitHub調べ、2022年)。インターネット上でプログラムとプログラムの間でデータを通信する際に、共通したデータ形式としてJavaScriptに限らず多くの言語でJSON形式のデータが使われています。Pythonもメモリ上のデータをJSON形式の文字列に変換する機能を持っています。

In [None]:
# json機能を使うためにimportします
import json

# my_dictをJSON形式にしてみましょう
my_json = json.dumps(my_dict,ensure_ascii=False)
# 出力して確認します
print(my_json)
# JSONは文字列型なので、そのまま文字列として通信する事ができます
print(type(my_json))

# JSON文字列を受け取ったら、Dictionary形式へ戻してやります
my_decode = json.loads(my_json)
# 整形して出力してみましょう
pp.pprint(my_decode)
# データ型が文字列型からDictionaryに戻ったか確認しましょう
print(type(my_decode))
# 無事、普通のDictionaryのように使えるようになりました
print(my_decode['講義名'])

## 🌀まとめ ##

このノートブックでは、複数の値をまとめて管理するために**List**、**Tuple**、**Set**、**Dictionary**を学びました。またそれらのデータを通信するためにJSON形式へ変換・復元する仕組みを学びました。

[講義サポートページ](https://github.com/YokoyamaLab/PythonBasics/)に戻り課題Q1に進んでください。