<a href="https://colab.research.google.com/github/vitroid/PythonTutorials/blob/master/2%20Advanced/022%E9%9B%86%E5%90%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 集合 Set
集合はリストと同じく複数のデータを集めたものですが、集合には順序がなく、同じデータを複数含みません。

A set, like a list, is a collection of multiple data, but sets are unordered and do not contain multiple instances of the same data.

In [None]:
s = set([3,1,4,1,5,9,2,6,5,3,5,8,9,7,9,3,2])
s

Pythonの文字列は文字のリストとみなすことができますので、こんな風にして文字列から文字の集合を作ることもできます。

In [None]:
t = set("A set, like a list, is a collection of multiple data, but sets are unordered and do not contain multiple instances of the same data.")
t

こういう書き方もできます。

In [None]:
s = {3,1,4,1,5,9,2,6,5,3,5,8,9,7,9,3,2}
s


空の集合を作りたいときは、`set()`と書きます。`{}`でもよさそうに思えますが、これは空の辞書を作るので誤解をまねきます。

In [None]:
a = set()
b = {}
type(a), type(b)

文字列を与える場合もちょっと挙動が違うので注意が必要ですね。集合を作る時は、set()を利用したほうが安全そうです。

In [None]:
# 前者は文字のリストが与えられたとみなされるが、後者は文字列が集合の1要素だとみなされる。

set("abc"), {"abc"}

集合に1つ要素を追加するにはaddを使います。

`add` adds an item to the set.

In [None]:
s.add(10)
s

集合の演算を試してみましょう。

Here are operators for sets.

In [None]:
a = {2,4,6,8,10,12,14,16,18,20}
b = set([3,6,9,12,15,18])       # こちらの書き方を推奨
a | b                           # a or b; union 和集合

In [None]:
a & b                           # a and b; intersection 交差

In [None]:
a - b                           # difference 差集合

In [None]:
b - a                           # difference 差集合

In [None]:
a ^ b                           # exclusion 排他

In [None]:
((a^b) | (a&b)) - (a|b)

すべてのアルファベットのうち、ある文章に使われて**いない**文字を知りたいなら、こんな感じで書けます。

If you want to know which of alphabets are **not used** in a given sentence:

In [None]:
set("abcdefghijklmnopqrstuvwxyz") - set("If you want to know which of alphabets are not used in a given sentence:".lower())

もしリストしか知らないと、同じことをどう書くでしょうか。AIに書いてもらいます。

In [None]:
# prompt: 与えられた文字列に使われていないアルファベットを列挙する関数を、set()やdict()を使わずに書いて。

def unused_alphabets(string):
  alphabets = "abcdefghijklmnopqrstuvwxyz"
  string_lower = string.lower()
  for letter in alphabets:
    if letter not in string_lower:
      print(letter, end=" ")
  print()

unused_alphabets("If you want to know which of alphabets are not used in a given sentence:")


集合は、値のない辞書と思ってほぼ間違いありません。新しいPythonでは、集合演算の演算子`|`を辞書にも使えるようになりました。

In [None]:
d1 = {"a":1, "b":2}
d2 = dict(c=3,d=4)
d1 | d2

かけ算や足し算演算子は何に使えるのでしょうか。マニュアルを読む限り、+と\*は使えないようです。

According to the Python manual, the operators "*" and "+" are not available for sets.

In [None]:
s+11

ある要素が集合に含まれるかどうかは、in演算子で調べます。

`in` operator is useful to test the existence of a member.

In [None]:
if 2 in a:
    print("yes")

集合には数字だけでなく文字列も入れられます。

A set can also contain strings.

集合の要素を使ったループができます。

An example of the iteration over members of a set.

In [None]:
for e in a:
    print(e,e*e)

リスト内包記法で集合aの要素をそれぞれ2乗したリストを作り、それを集合にします。

The list comprehension creates a list of elements of set a, each of which is squared, and makes it a set.

In [None]:
L = [e*e for e in a]
a2 = set(L)
a2

集合をリストに変換するには`list`関数を使います。はじめにも書いたように、集合型ではデータの順序は維持されないので、リストに変換すると並び順はランダムになります。

To convert a set to a list, use the `list` function. As mentioned in the first frame, the order of data is not preserved in a set type, so when converted to a list, the order becomes random.

In [None]:
L = list(a2)
L

In [None]:
a = set([i for i in range(0,100,2)]) # even numbers
b = set([i for i in range(0,100,3)]) # multiple of three
print(a|b) # even numbers or mult of three
print(a-b) # even numbers but not mult of three
print(a&b) # mult of 6

辞書や集合と、リストの大きな違いは、検索の速さです。

リストの中を検索するためには、先頭から順番に調べる必要があり、index命令を使ったとしてもそれなりの時間がかかります。たくさんのデータの中から検索する必要がある場合には、辞書や集合のほうが極めて高速になります。

次の例では、1000万個の整数乱数のなかに、特定の数値が含まれるかどうかを調べます。

In [None]:
import numpy as np

numbers = list(np.random.randint(10000000, size=[10000000]))
numset = set(numbers)
numbers

In [None]:
# 10000000個の乱数の中に0〜9が含まれているかどうかを知りたい。
# リストを使う場合。
%%time
for i in range(10):
    print(i, i in numbers)


In [None]:
# 10000000個の乱数の中に0〜9が含まれているかどうかを知りたい。
# 集合を使う場合。
%%time
for i in range(10):
    print(i, i in numset)


## 練習問題 Exercise
### Exercise 1
100未満の整数の集合`n1`, 100未満の偶数の集合`n2`, 100未満の3の倍数の集合`n3`, 100未満の5の倍数の集合`n5`などを作り、集合演算で素数の集合を作って下さい。(素数に1を含んでも構いません)

Create a set `n1` of integers less than 100, a set `n2` of even numbers less than 100, a set `n3` of multiples of 3 less than 100, a set `n5` of multiples of 5 less than 100, etc., and use set operations to create a set of prime numbers. (Prime numbers may include 1).

In [None]:
n1=set([x for x in range(100)])
n1

### Exercise 2
てきとうな文字列を入力させ、その文字列の中で使われたアルファベット(A〜Z、a〜z)と使われなかったアルファベットをそれぞれ表示するプログラムを作って下さい。

Create a program that prompts the user to enter a string and displays the letters of the alphabet (A to Z, a to z) used in the string and the letters not used in the string.

In [None]:
# すべてのアルファベット文字の集合
alphabet = set("ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz")
alphabet

In [None]:
s = input("Input a string:")