# Pythonプログラミング入門 第2回
セットについて説明します

# ▲セット

**セット**は、要素となるデータを集めて作られるデータであり、セットの中の要素は並んでいるわけではありません。そのため、同じデータは高々1つしか同じセットに属することは出来ません。

セットを作成するには、次のように波括弧で値をくくります。

In [1]:
set1 = {2, 1, 2, 3, 2, 3, 1, 3, 3, 1}
set1 

{1, 2, 3}

In [2]:
type(set1)

set

組み込み関数 **`set`** を用いてもセットを作成することができます。

In [3]:
set([2, 1, 2, 3, 2, 3, 1, 3, 3, 1])

{1, 2, 3}

空集合を作成する場合、次のようにします。（ `{}` では空の辞書が作成されます。）

In [4]:
set2 = set() # 空集合
set2

set()

In [5]:
set2 = {} # 空の辞書
set2

{}

`set` を用いて、文字列、リストやタプルなど（iterativeオブジェクトと呼ばれています）からセットを作成することができます。

In [6]:
set([1,1,2,2,2,3])

{1, 2, 3}

In [7]:
set((1,1,2,2,2,3))

{1, 2, 3}

In [8]:
set('aabdceabdae')

{'a', 'b', 'c', 'd', 'e'}

In [9]:
set({'apple' : 3, 'pen' : 5})

{'apple', 'pen'}

## セットの組み込み関数
リストなどと同様に、次の関数などはセットにも適用可能です。

In [10]:
len(set1) # 集合を構成する要素数

3

In [11]:
x,y,z = set1 # 多重代入
x

1

In [12]:
2 in set1 # 指定した要素を集合が含むかどうかの判定

True

In [13]:
10 in set1 # 指定した要素を集合が含むかどうかの判定

False

セットの要素は、順序付けられていないのでインデックスを指定して取り出すことはできません。

In [14]:
set1[0]

TypeError: 'set' object does not support indexing

## **集合演算**
複数のセットから、**和集合**・**積集合**・**差集合**・**対称差**を求める集合演算が存在します。

In [15]:
set1 = {1, 2, 3, 4}
set2 = {3, 4, 5, 6}

In [16]:
set1 | set2 # 和集合 or

{1, 2, 3, 4, 5, 6}

In [17]:
set1 & set2 # 積集合 and

{3, 4}

In [20]:
set1 - set2 # 差集合 set1 - (set1 and set2)

{1, 2}

In [21]:
set1 ^ set2 # 対称差 set1 +set2 - (set1 and set2)

{1, 2, 5, 6}

## **比較演算**
数値などを比較するのに用いた比較演算子を用いて、2つのセットを比較することもできます。

In [22]:
print({1, 2, 3} == {1, 2, 3})
print({1, 2} == {1, 2, 3})

True
False


In [23]:
print({1, 2, 3} != {1, 2, 3})
print({1, 2} != {1, 2, 3})

False
True


In [24]:
print({1, 2, 3} <= {1, 2, 3})
print({1, 2, 3} < {1, 2, 3})
print({1, 2} < {1, 2, 3})

True
False
True


## セットのメソッド
セットにも様々なメソッドが存在します。なお、以下のメソッドは全て破壊的です。

### **add**
指定した要素を新たにセットに追加します。

In [25]:
set1 = {1, 2, 3}
set1.add(4)
set1

{1, 2, 3, 4}

### **remove**
指定した要素をセットから削除します。
その要素がセットに含まれていない場合、エラーになります。

In [26]:
set1.remove(1)
set1

{2, 3, 4}

In [27]:
set1.remove(10)

KeyError: 10

### **discard**
指定した要素をセットから削除します。
その要素がセットに含まれていなくともエラーになりません。

In [28]:
set1 = {1, 2, 3, 4}
set1.discard(1)
set1

{2, 3, 4}

In [29]:
set1.discard(5)

### **clear**
全ての要素を削除して対象のセットを空にします。

In [30]:
set1 = {1, 2, 3, 4}
set1.clear()
set1

set()

### **pop**
セットからランダムに1つの要素を取り出します。

In [31]:
set1 = {1, 2, 3, 4}
print(set1.pop())
print(set1)

1
{2, 3, 4}


### **union**, **intersection**, **difference**
**和集合**・**積集合**・**差集合**・**対称差**を求めるメソッドも存在します。

In [32]:
set1 = {1, 2, 3, 4}
set2 = {3, 4, 5, 6}
set1.union(set2) # 和集合

{1, 2, 3, 4, 5, 6}

In [33]:
set1.intersection(set2) # 積集合

{3, 4}

In [34]:
set1.difference(set2) # 差集合

{1, 2}

In [35]:
set1.symmetric_difference(set2) # 対称差

{1, 2, 5, 6}

## 練習

文字列 `str1` が引数として与えられたとき、`str1` に含まれる要素（サイズ1の文字列）の種類を返す関数 `check_characters` を作成して下さい（大文字と小文字は区別し、スペースや句読点も1つと数えます）。

以下のセルの `...` のところを書き換えて `check_characters(str1)` を作成して下さい。

In [41]:
def check_characters(str1):
    set1 = set(str1)
    return len(set1)

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [42]:
print(check_characters("Onde a terra acaba e o mar começa") == 13)
print(check_characters("Onde a terra acaba e o mar começa"))

True
13


## 練習

英語の文章からなる文字列 `str_engsentences` が引数として与えられたとき、`str_engsentences` 中に含まれる単語の種類数を返す関数 `count_words2` を作成して下さい。

以下のセルの `...` のところを書き換えて `count_words2(str_engsentences)` を作成して下さい。

In [48]:
def count_words2(str_engsentences): #難
    str1 = str_engsentences.replace(".", "")
    #.以外にも、,!?:;とかを除く
    list1 = str1.split(" ")
    set1 = set(list1)
    return len(set1)

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [49]:
print(count_words2("From Stettin in the Baltic to Trieste in the Adriatic an iron curtain has descended across the Continent.") == 15)
print(count_words2("From Stettin in the Baltic to Trieste in the Adriatic an iron curtain has descended across the Continent."))

True
15


## 練習

辞書 `dic1` が引数として与えられたとき、`dic1` に登録されているキーの数を返す関数 `check_dicsize` を作成して下さい。

以下のセルの `...` のところを書き換えて `check_dicsize(dic1)` を作成して下さい。

In [59]:
def check_dicsize(dic1):
    return len(set(dic1)) #set(dic1)で、dic1内のkeyのsetを作る

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認して下さい。

In [60]:
print(check_dicsize({'apple': 0, 'orange': 2, 'pen': 1}) == 3) #この例だと、return len(dic1)でもTrue

True


## 練習の解答

In [None]:
def check_characters(str1):
    set1 = set(str1)
    return len(set1)
#check_characters("Onde a terra acaba e o mar começa") 

In [None]:
def count_words2(str_engsentences):
    str1 = str_engsentences.replace(".", "") # 句読点を削除する
    str1 = str1.replace(",", "")
    str1 = str1.replace(":", "")
    str1 = str1.replace(";", "")
    str1 = str1.replace("!", "")
    str1 = str1.replace("?", "")
    list1 = str1.split(" ") # 句読点を削除した文字列を、単語ごとにリストに格納する
    set1 = set(list1) # リストを集合に変換して同じ要素を1つにまとめる
    return len(set1)
count_words2("From Stettin in the Baltic to Trieste in the Adriatic an iron curtain has descended across the Continent.")

In [None]:
def check_dicsize(dic1):
    return len(set(dic1))
#check_dicsize({'apple': 0, 'orange': 2, 'pen': 1})