## 変数と代入、データ型、データ構造
どのプログラミング言語でも重要な変数と代入について説明する。Pythonでは様々なデータ型、データ構造を扱うことができる。またデータへのアクセスを容易に記述することができる。

## 変数
変数は入れ物である。プログラムで計算をしている途中の値や初期の値を入れておく箱と考える。

（＊＊注意＊＊）これはプログラミング言語の一般的な変数の捉え方、Pythonでは厳密には箱ではない。


## 代入
プログラムで x = 1 と書いてあったら、数値の1をxという変数（箱）に代入する、という意味である。
数学の「=」は「等しい」という意味であるが、プログラムの「=」は一般に「代入」を意味するから全く意味が違うことに気をつけよう。
Pythonではないがプログラム（やアルゴリズム表記法）によっては「x←1」と書く場合もある。
ちなみに、プログラム（python）で、数値の「等しい」を表すのは「==」である。

In [1]:
# 変数
x = 1
x

1

## 数値 (と代入の例)

数値からなるデータ型である。整数と実数を扱うことができる。

型。type()で見ることができる。
- int型：整数型
- float型：浮動小数点型
- complex型：複素数型
数値を表す表記のことを数値リテラルという。

In [2]:
# int型 (整数)
x = 1

In [3]:
x # xを表示

1

In [4]:
type(x) # xのデータ型

int

In [5]:
# 実数
x = 3.14
x  # xを表示

3.14

In [6]:
type(x)

float

In [1]:
# 複素数 complex
x = 3 + 2j
x

(3+2j)

In [2]:
type(x)

complex

In [7]:
x = 'takayuki ito'
type(x)

str

In [8]:
# 計算を少し
x = 10
y = 5
print('x+y=',x + y)
print('x*y=',x * y)
print('x/y=',x / y)
print('x**y=',x ** y)

x+y= 15
x*y= 50
x/y= 2.0
x**y= 100000


In [9]:
# 変数同士を計算し、他の変数に代入
x = 1
y = 2
z = x + y 
print(z)

3


In [10]:
# Pythonらしい一括代入
x, y, z = 1, 2, 3
print(x)
print(y)
print(z)

1
2
3


## 文字列リテラル（文字列）
文字からなるデータ型である。
厳密には文字列は文字の並びをいい、その綴りを表記するのが文字列リテラル。
単一引用符「'」か二重引用符「"」で囲む。

In [11]:
x = 'artificial intelligence'
y = "artificial intelligence"

In [12]:
x

'artificial intelligence'

In [13]:
y

'artificial intelligence'

特殊文字はバックスラッシュを使う。   
バックスラッシュそのものを文字として使う場合はr""を使う（RAW表現）。
(参考文献：https://docs.python.org/ja/3/reference/lexical_analysis.html#index-19, https://note.nkmk.me/python-raw-string-escape/)

下の例では"\t"が特殊文字(タブを挿入)なので、1つ目はタブが挿入された「   hello」という出力となったが、2つ目では"\\"を文字として使用しているため「\thello」という出力が出た。

In [14]:
tab = "\thello"

In [15]:
print(tab)

	hello


In [16]:
nontab = r"\thello"

In [17]:
print(nontab)

\thello


複数行文字列は３つ二重引用符を重ねる。

In [18]:
multiline = """おはよう
こんにちは
こんばんわ"""

In [19]:
multiline

'おはよう\nこんにちは\nこんばんわ'

In [20]:
print(multiline)

おはよう
こんにちは
こんばんわ


## リスト
Pythonの最も基本的なデータ構造である。
リストは単純な順序であり、コレクションである。
intやstrなどの型は単一の値を保持する一方、コレクションは複数の値を保持する。
本章では、リスト、タプル、辞書、集合を扱う。
リストの作成は\[要素1, 要素2, ...\]で行う。

In [2]:
aList = [1, 2, 3, 4, 5]

In [3]:
aList

[1, 2, 3, 4, 5]

In [10]:
aList[0]

1

各要素はデータ型が異なっても良い。

In [16]:
hList = ["string", 0.1] # 文字列、実数からなるリスト

In [17]:
hList

['string', 0.1]

In [18]:
fList = [4, "a", [1, 2.4]] # リストを要素として持つリスト

In [19]:
fList

[4, 'a', [1, 2.4]]

リストの長さはlen(list)で取得する。

In [20]:
length = len(fList)
length

3

### リストの要素の取得

In [23]:
x = [0,"Kyoto","University",5.2,"Corona",5,6,7,8,9]

first = x[0]       # 1番目の要素: index（添字）が 0
second = x[1] # 2番目の要素: index（添字）が1
third = x[2]     # 3番目の要素: index（添字）が2
fifth = x[4]
last = x[9]       # 10番目の要素: index（添字）が9

print("x = ", x)
print("x[0] = ", first)
print("x[1] = ", second)
print("x[2] = ", third)
print("x[4] = ", fifth)
print("x[9] = ", last)

x =  [0, 'Kyoto', 'University', 5.2, 'Corona', 5, 6, 7, 8, 9]
x[0] =  0
x[1] =  Kyoto
x[2] =  University
x[4] =  Corona
x[9] =  9


リストの特殊な要素の取得もできる（Python特有）。

In [25]:
last = x[-1]                    # 最後の要素
onebeforelast = x[-2]  # 最後から一つ前の要素
item = x[-6]
print("x[-1] = ", last)
print("x[-2] = ", onebeforelast)
print("item = ", item)

x[-1] =  9
x[-2] =  8
item =  Corona


### Python特有のリストのスライス（部分的なリスト）の取り出し方
Pythonではリストから部分的な取り出しを行うことができる。  

x\[n:\]で、nから最後までの要素を取り出す。
x\[:m\]で、最初からmの手前(mは含まない)までの要素を取り出す。

またx\[n:m\]でnからmの手前までの要素を取り出すことができる。

In [29]:
print(x) # リストxを表示

firstToThird = x[:5]  # x[0],x[1],x[2]、３つ目まで
print(firstToThird)

firstToThird = x[0:5] #  上記と同じ
print(firstToThird)

[0, 'Kyoto', 'University', 5.2, 'Corona', 5, 6, 7, 8, 9]
[0, 'Kyoto', 'University', 5.2, 'Corona']
[0, 'Kyoto', 'University', 5.2, 'Corona']


In [30]:
print(x)

thirdToEnd = x[3:]    # x[3]から最後まで
print(thirdToEnd)

noFirstLast = x[1:-1] # 2番目から最後手前まで
print(noFirstLast)

[0, 'Kyoto', 'University', 5.2, 'Corona', 5, 6, 7, 8, 9]
[5.2, 'Corona', 5, 6, 7, 8, 9]
['Kyoto', 'University', 5.2, 'Corona', 5, 6, 7, 8]


In [31]:
y = x[:] # 全部をとりだす。
print(y)

[0, 'Kyoto', 'University', 5.2, 'Corona', 5, 6, 7, 8, 9]


### in 演算子
in演算子により、リスト内に特定の要素があるかを判定できる。

In [40]:
1 in [1,2,3]  # リスト[1,2,3]の中に1があるかどうか

True

In [38]:
"hello" in ["hello", "hi", "bye"] # リスト["hello", "hi", "bye"]の中に"hello"があるかどうか

True

In [35]:
5 in [1,2,3] # リスト[1,2,3]の中に5があるかどうか

False

### リストの連結、要素の追加、展開

extendでリストの末尾に別のリストを追加(連結)ができる。

In [36]:
x = [1, 2, 3, 4, 5]
x.extend([6, 7, 8, 9]) # xにリスト[6,7,8,9]を連結する
print(x)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


+演算子でもリストの連結ができる。

In [37]:
x = [1,2,3,4,5]
y = x + [6,7,8,9] # リストの加算
print(y)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


appendで要素の追加を行うことができる。

In [43]:
x = [1,2,3,4,5]
x.append(6) # 要素を追加
print(x)

[1, 2, 3, 4, 5, 6]


リストの要素をxとyに分配(展開)が行うことができる(Python特有）。

In [45]:
x,y = [1,9] #展開 
print("x=",x)
print("y=",y)

x= 1
y= 9


左辺とリストの要素数が合わないとエラーとなる。

In [40]:
x,y,z = [1,2]  # リストに対して、左辺が多い

ValueError: not enough values to unpack (expected 3, got 2)

In [41]:
x, y = [1, 2, 3, 4] # 左辺に対して、リストの要素数が多い

ValueError: too many values to unpack (expected 2)

展開する必要がない要素は、_(アンダーバー)で受け取る。

In [42]:
x,_,y = [1,2,3] # リスト内の2を受け取らない
print(x)
print(y)

1
3


In [43]:
_, x, y, _, _ = [1, 2, 3, 4, 5] # _が複数あっても良い
print(x)
print(y)

2
3


## タプル
リストに似ているが、要素を変更できない。  
小カッコを使う「(a,b)」か、何も使わずに記述する「a,b」。

In [44]:
aList = [1,2]        # リスト  (要素が変更可能)
aTuple = (1,2)    # タプル (要素が変更不可能)
bTuple = 3,4       # タプル (要素が変更不可能)

print(aList)
print(aTuple)
print(bTuple)

[1, 2]
(1, 2)
(3, 4)


In [45]:
aList[0] = 2  # 変更可能
aList

[2, 2]

In [46]:
aTuple[0] = 2 # 変更不可能(エラー)

TypeError: 'tuple' object does not support item assignment

In [47]:
bTuple[0] = 2 # 変更不可能(エラー)

TypeError: 'tuple' object does not support item assignment

In [48]:
x, y = aTuple #  展開は可能
print(x, y)

1 2


In [46]:
# タプルを使って、関数から複数の値を返す為に使う
def fun(x,y):
    return ((x+y),(x*y))
fun(2,5)

(7, 10)

上で定義した関数funの返り値(タプル)を展開する。

In [50]:
f_sum, f_product = fun(2,5)

In [51]:
f_sum

7

In [52]:
f_product

10

In [53]:
# 多重割り当て
x,y=1,2 # x = 1, y = 2

In [54]:
#とてもPython特有の書き方で、他の言語では使ってはいけない！
#python的な値の交換。普通はこう考えるのはだめ。

x = 2
y = 1

#一般的な変数の値の入れ替え（swap）の方法：一時変数tmpを用いる
tmp = x
x = y
y = tmp

# Pythonではこのように書くことができる
x,y = y,x

print(x)
print(y)

2
1


## 辞書(dictionary)
辞書とは、キーと値でデータを補完するデータ構造である。

作成方法
- d = {}
- d = dict()
- d = {key1: value1, key2: value2, ...}

In [47]:
aDict = {} 
bDict = dict()
cDict = {"Ito": 80, "Otsuka":90} # "ito"というキーに対して80という値、"Otsuka"というキーに対して90という値を持つ　

In [52]:
# "ito"というキーに対して80という値、"Otsuka"というキーに対して90という値を持つ　
cDict = {"Ito": 80, "Otsuka":90, "Arisaka":100, "Okuhara":100}

In [53]:
cDict

{'Ito': 80, 'Otsuka': 90, 'Arisaka': 100, 'Okuhara': 100}

In [54]:
score = cDict["Okuhara"]  # キーが"ito"である値を取得
print(score)

100


In [55]:
score = cDict["Hayashi"] # "Yoshino"というキーはないのでエラー

KeyError: 'Hayashi'

In [58]:
"Arisaka" in cDict # in 演算子でキーがあるかどうか調べられる

True

In [59]:
"Hayashi" in cDict # "Yoshino"というキーはない

False

x.get(key, 0)は、辞書xからkeyのデータを取得するが、keyが存在しない時はデフォルトとして0を返す。

In [61]:
cDict.get("Yoshino",50) # キーがないのでデフォルトの0を返す

50

In [62]:
cDict.get("Ito",50) # キーが存在するので、そのキーの値を返す

80

In [63]:
cDict.get("Otsuka") # デフォルトを指定しなくても良い

90

In [65]:
dst = cDict.get("Yoshino","nothing") # デフォルト指定なしでキーが存在しない時はNoneを返す
print(dst)

nothing


In [66]:
len(cDict) # lenで辞書のキーの個数を取得できる

4

## 辞書の値の追加
x\[key\] = value で辞書を追加できる。

In [67]:
cDict

{'Ito': 80, 'Otsuka': 90, 'Arisaka': 100, 'Okuhara': 100}

In [68]:
cDict["Yoshino"] = 100

In [69]:
cDict

{'Ito': 80, 'Otsuka': 90, 'Arisaka': 100, 'Okuhara': 100, 'Yoshino': 100}

In [70]:
cDict.get("Yoshino")

100

In [71]:
len(cDict)

5

### 辞書の使い方

In [79]:
#　辞書の定義
tweet = {
    "user" : "takayuki",
    "text"  : "Hello, I am Takayuki Ito",
    "retweet_count" : 100,
    "hashtags" : ["#data","#science","#datascience","#awesome"]
}

In [80]:
keys = tweet.keys() # keyのリストを取得。データ型はdict_keysというものになる。
keys

dict_keys(['user', 'text', 'retweet_count', 'hashtags'])

In [81]:
values = tweet.values() # valuesのリストを取得。データ型はdict_valuesというものになる。
values

dict_values(['takayuki', 'Hello, I am Takayuki Ito', 100, ['#data', '#science', '#datascience', '#awesome']])

In [82]:
items = tweet.items() # key-valueのリスト。データ型はdict_itemsというものになる。
items

dict_items([('user', 'takayuki'), ('text', 'Hello, I am Takayuki Ito'), ('retweet_count', 100), ('hashtags', ['#data', '#science', '#datascience', '#awesome'])])

In [83]:
keys_list = list(keys) # dict_keysをリストに変換する
keys_list

['user', 'text', 'retweet_count', 'hashtags']

In [84]:
values_list = list(values) # dict_valuesをリストに変換する
values_list

['takayuki',
 'Hello, I am Takayuki Ito',
 100,
 ['#data', '#science', '#datascience', '#awesome']]

In [85]:
items_list = list(items) # itemsをリストに変換する
items_list

[('user', 'takayuki'),
 ('text', 'Hello, I am Takayuki Ito'),
 ('retweet_count', 100),
 ('hashtags', ['#data', '#science', '#datascience', '#awesome'])]

### in演算子
辞書はin演算子を使うことができる。  
in演算子を使用すると、あるkeyが含まれているかを判定できる。

In [86]:
"user" in tweet 

True

dict_keysに対してのin演算子も有効。

In [87]:
"user" in tweet.keys() 

True

In [88]:
"user" in list(tweet.keys())  # dict_keysをlistにしてから、in演算子

True

In [89]:
"user" in tweet.values() # dict_valuesにキーは存在しないので、このinはFalse

False

In [90]:
100 in tweet.values() # あるvalueが存在しているかは確認できる

True

## Counterクラス
リスト内のデータの出現回数を数えてくれるクラスである。

In [75]:
x = [10, 14, 20, 10, 25, 10, 32, 20, 45]
x

[10, 14, 20, 10, 25, 10, 32, 20, 45]

In [76]:
from collections import Counter # Counterをインポート(使えるようにする)
c = Counter(x) # Counterクラスの作成

In [77]:
c  # {データ1:出現回数, ...}　という形で表示

Counter({10: 3, 14: 1, 20: 2, 25: 1, 32: 1, 45: 1})

### 使用例　 文章内の単語の数を数える

In [94]:
# 文章
document = """The Road Not Taken
BY ROBERT FROST
Two roads diverged in a yellow wood,
And sorry I could not travel both
And be one traveler, long I stood
And looked down one as far as I could
To where it bent in the undergrowth;
Then took the other, as just as fair,
And having perhaps the better claim,
Because it was grassy and wanted wear;
Though as for that the passing there
Had worn them really about the same,
And both that morning equally lay
In leaves no step had trodden black.
Oh, I kept the first for another day!
Yet knowing how way leads on to way,
I doubted if I should ever come back.
I shall be telling this with a sigh
Somewhere ages and ages hence:
Two roads diverged in a wood, and 
I took the one less traveled by,
And that has made all the difference."""

In [95]:
print(document)

The Road Not Taken
BY ROBERT FROST
Two roads diverged in a yellow wood,
And sorry I could not travel both
And be one traveler, long I stood
And looked down one as far as I could
To where it bent in the undergrowth;
Then took the other, as just as fair,
And having perhaps the better claim,
Because it was grassy and wanted wear;
Though as for that the passing there
Had worn them really about the same,
And both that morning equally lay
In leaves no step had trodden black.
Oh, I kept the first for another day!
Yet knowing how way leads on to way,
I doubted if I should ever come back.
I shall be telling this with a sigh
Somewhere ages and ages hence:
Two roads diverged in a wood, and 
I took the one less traveled by,
And that has made all the difference.


In [96]:
document = document.replace('\n',' ')  # 改行(\n)を削除('\n'を''(何も無し)に置き換えている)
document = document.replace('.',' ')     # 「.」を削除
document = document.replace(',',' ')     # 「,」を削除
print(document)

The Road Not Taken BY ROBERT FROST Two roads diverged in a yellow wood  And sorry I could not travel both And be one traveler  long I stood And looked down one as far as I could To where it bent in the undergrowth; Then took the other  as just as fair  And having perhaps the better claim  Because it was grassy and wanted wear; Though as for that the passing there Had worn them really about the same  And both that morning equally lay In leaves no step had trodden black  Oh  I kept the first for another day! Yet knowing how way leads on to way  I doubted if I should ever come back  I shall be telling this with a sigh Somewhere ages and ages hence: Two roads diverged in a wood  and  I took the one less traveled by  And that has made all the difference 


In [97]:
# 文字列を空白で区切ってリスト化 (単語毎に分ける)
document_list = document.split()
print(document_list)

['The', 'Road', 'Not', 'Taken', 'BY', 'ROBERT', 'FROST', 'Two', 'roads', 'diverged', 'in', 'a', 'yellow', 'wood', 'And', 'sorry', 'I', 'could', 'not', 'travel', 'both', 'And', 'be', 'one', 'traveler', 'long', 'I', 'stood', 'And', 'looked', 'down', 'one', 'as', 'far', 'as', 'I', 'could', 'To', 'where', 'it', 'bent', 'in', 'the', 'undergrowth;', 'Then', 'took', 'the', 'other', 'as', 'just', 'as', 'fair', 'And', 'having', 'perhaps', 'the', 'better', 'claim', 'Because', 'it', 'was', 'grassy', 'and', 'wanted', 'wear;', 'Though', 'as', 'for', 'that', 'the', 'passing', 'there', 'Had', 'worn', 'them', 'really', 'about', 'the', 'same', 'And', 'both', 'that', 'morning', 'equally', 'lay', 'In', 'leaves', 'no', 'step', 'had', 'trodden', 'black', 'Oh', 'I', 'kept', 'the', 'first', 'for', 'another', 'day!', 'Yet', 'knowing', 'how', 'way', 'leads', 'on', 'to', 'way', 'I', 'doubted', 'if', 'I', 'should', 'ever', 'come', 'back', 'I', 'shall', 'be', 'telling', 'this', 'with', 'a', 'sigh', 'Somewhere', '

In [98]:
# 単語毎に分けられたリストにCounterクラスを使用して、各単語の出現回数を数える
word_count = Counter(document_list)
word_count

Counter({'The': 1,
         'Road': 1,
         'Not': 1,
         'Taken': 1,
         'BY': 1,
         'ROBERT': 1,
         'FROST': 1,
         'Two': 2,
         'roads': 2,
         'diverged': 2,
         'in': 3,
         'a': 3,
         'yellow': 1,
         'wood': 2,
         'And': 6,
         'sorry': 1,
         'I': 8,
         'could': 2,
         'not': 1,
         'travel': 1,
         'both': 2,
         'be': 2,
         'one': 3,
         'traveler': 1,
         'long': 1,
         'stood': 1,
         'looked': 1,
         'down': 1,
         'as': 5,
         'far': 1,
         'To': 1,
         'where': 1,
         'it': 2,
         'bent': 1,
         'the': 8,
         'undergrowth;': 1,
         'Then': 1,
         'took': 2,
         'other': 1,
         'just': 1,
         'fair': 1,
         'having': 1,
         'perhaps': 1,
         'better': 1,
         'claim': 1,
         'Because': 1,
         'was': 1,
         'grassy': 1,
         'and': 3,
   

In [99]:
word_count.most_common(5) # 一番多い５つを出す

[('I', 8), ('the', 8), ('And', 6), ('as', 5), ('in', 3)]

## 集合
重複のないデータ構造であり、順序関係を持たない。

In [100]:
aSet = set()  # 集合を作成
aSet.add(2)  # 2を集合に追加
aSet.add(3)  # 3を集合に追加
aSet.add(1)  # 1を集合に追加
aSet

{1, 2, 3}

もう一度2を追加するが、既に存在するので中身は変わらない。(集合の特徴）

In [101]:
aSet.add(2)
aSet               

{1, 2, 3}

文字列も追加可能である。  

In [102]:
aSet.add("aa") 
aSet              

{1, 2, 3, 'aa'}

リストを用いて集合を作成することもできる。

In [73]:
aList = [1, 2, 3, 4, 5, 4, 3, 2, 1]
aSet = set(aList)
aSet

{1, 2, 3, 4, 5}

in演算子を使うことができる。  
リストで使用するin演算よりも高速に計算可能である。

In [104]:
1 in aSet 

True

In [105]:
10 in aSet

False