# ▲セット (set)
セットについて説明します。

参考

- https://docs.python.org/ja/3/tutorial/datastructures.html#sets

**セット**（**集合**）は、リストと同様に複数の要素から構成されるデータです。
セットでは、リストと異なり要素の重複がありません、また要素の順番もありません。

セットを作成するには、次のように波括弧で要素を囲みます。
辞書と似ていますが、辞書では `:` でキーと値を対応させる必要がありました。

In [None]:
set1= {2, 1, 2, 3, 2, 3, 1, 3, 3, 1}
set1 

In [None]:
type(set1)

セットのデータ型は **`set`** であり、`set` は組み込み関数でもあります。

組み込み関数 `set` を用いてもセットを作成することができます。

In [None]:
set([2, 1, 2, 3, 2, 3, 1, 3, 3, 1])

空のセットを作成する場合、次のようにします。（ `{}` では空の辞書が作成されます。）

In [None]:
set2 = set() # 空のセット
set2

In [None]:
set2 = {} # 空の辞書
set2

`set` を用いて、文字列、リストやタプルなどからセットを作成することができます。

In [None]:
set([1,1,2,2,2,3])

In [None]:
set((1,1,2,2,2,3))

In [None]:
set('aabdceabdae')

In [None]:
set({'apple' : 3, 'pen' : 5})

## セットの組み込み関数
リストなどと同様に、次の関数などはセットにも適用可能です。

In [None]:
len(set1) # 集合を構成する要素数

In [None]:
x,y,z = set1 # 多重代入
x

In [None]:
2 in set1 # 指定した要素を集合が含むかどうかの判定

In [None]:
10 in set1 # 指定した要素を集合が含むかどうかの判定

In [None]:
10 not in set1

セットの要素は、順序付けられていないのでインデックスを指定して取り出すことはできません。

In [None]:
set1[0]

## 練習

文字列 `str1` が引数として与えられたとき、`str1` に含まれる要素（文字、すなわち長さ1の文字列）の種類を返す関数 `check_characters` を作成してください（大文字と小文字は区別し、スペースや句読点も1つと数えます）。
たとえば、`'aabccc'` には `'a'` と `'b'` と `'c'` が含まれるので、
`check_characters('aabccc')` は 3 を返します。

以下のセルの `...` のところを書き換えて `check_characters(str1)` を作成してください。

In [None]:
def check_characters(str1):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認してください。

In [None]:
print(check_characters('Onde a terra acaba e o mar começa') == 13)

## 練習

辞書 `dic1` が引数として与えられたとき、`dic1` に登録されているキーの数を返す関数 `check_dicsize` を作成してください。

以下のセルの `...` のところを書き換えて `check_dicsize(dic1)` を作成してください。

In [None]:
def check_dicsize(dic1):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認してください。

In [None]:
print(check_dicsize({'apple': 0, 'orange': 2, 'pen': 1}) == 3)

## **集合演算**
複数のセットから、**和集合**・**積集合**・**差集合**・**対称差**を求める集合演算が存在します。

In [None]:
set1 = {1, 2, 3, 4}
set2 = {3, 4, 5, 6}

In [None]:
set1 | set2 # 和集合

In [None]:
set1 & set2 # 積集合

In [None]:
set1 - set2 # 差集合

In [None]:
set1 ^ set2 # 対称差

## **比較演算**
数値などを比較するのに用いた比較演算子を用いて、2つのセットを比較することもできます。

In [None]:
print({1, 2, 3} == {1, 2, 3})
print({1, 2} == {1, 2, 3})

In [None]:
print({1, 2, 3} != {1, 2, 3})
print({1, 2} != {1, 2, 3})

`<=` や `<` は、集合の間の包含関係を判定します。

In [None]:
print({1, 2, 3} <= {1, 2, 3})
print({1, 2, 3} < {1, 2, 3})
print({1, 2} < {1, 2, 3})

In [None]:
print({1, 2} <= {2, 3, 4})

## セットのメソッド
セットにも様々なメソッドが存在します。なお、以下のメソッドは全て破壊的です。

### **add**
指定した要素を新たにセットに追加します。

In [None]:
set1 = {1, 2, 3}
set1.add(4)
set1

### **remove**
指定した要素をセットから削除します。
その要素がセットに含まれていない場合、エラーになります。

In [None]:
set1.remove(1)
set1

In [None]:
set1.remove(10)

### **discard**
指定した要素をセットから削除します。
その要素がセットに含まれていなくともエラーになりません。

In [None]:
set1 = {1, 2, 3, 4}
set1.discard(1)
set1

In [None]:
set1.discard(5)

### **clear**
全ての要素を削除して対象のセットを空にします。

In [None]:
set1 = {1, 2, 3, 4}
set1.clear()
set1

### **pop**
セットからランダムに1つの要素を取り出します。

In [None]:
set1 = {1, 2, 3, 4}
print(set1.pop())
print(set1)

### **union**, **intersection**, **difference**
**和集合**・**積集合**・**差集合**・**対称差**を求めるメソッドも存在します。

In [None]:
set1 = {1, 2, 3, 4}
set2 = {3, 4, 5, 6}
set1.union(set2) # 和集合

In [None]:
set1.intersection(set2) # 積集合

In [None]:
set1.difference(set2) # 差集合

In [None]:
set1.symmetric_difference(set2) # 対称差

## 練習

英語の文章からなる文字列 `str_engsentences` が引数として与えられたとき、`str_engsentences` 中に含まれる単語の種類数を返す関数 `count_words2` を作成してください。

以下のセルの `...` のところを書き換えて `count_words2(str_engsentences)` を作成してください。

In [None]:
def count_words2(str_engsentences):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が `True` になることを確認してください。

In [None]:
print(count_words2('From Stettin in the Baltic to Trieste in the Adriatic an iron curtain has descended across the Continent.') == 15)

## 練習の解答

In [None]:
def check_characters(str1):
    set1 = set(str1)
    return len(set1)
#check_characters('Onde a terra acaba e o mar começa') 

In [None]:
def check_dicsize(dic1):
    return len(set(dic1))
#check_dicsize({'apple': 0, 'orange': 2, 'pen': 1})

実は `len` は辞書に対してキーの数を返すので、セットを使う必要はありません。

In [None]:
def check_dicsize(dic1):
    return len(dic1)

In [None]:
def count_words2(str_engsentences):
    str1 = str_engsentences.replace('.', '') # 句読点を削除する
    str1 = str1.replace(',', '')
    str1 = str1.replace(':', '')
    str1 = str1.replace(';', '')
    str1 = str1.replace('!', '')
    str1 = str1.replace('?', '')
    list1 = str1.split(' ') # 句読点を削除した文字列を、単語ごとにリストに格納する
    set1 = set(list1) # リストを集合に変換して同じ要素を1つにまとめる
    return len(set1)
#count_words2('From Stettin in the Baltic to Trieste in the Adriatic an iron curtain has descended across the Continent.')