# Space-Saving (Algorithm 3.3)

目的: 常に `k` 個のカウンタで頻出要素を追跡。最小カウンタの要素を新規要素で置換し、カウントは `min+1`。

処理:
1. 既存なら +1  
2. 空きがあれば新規で1  
3. それ以外では、最小カウンタ `j` を見つけ、 `c[i] = c[j] + 1` として `i` で置換

性質: トップ頻出に鋭い。MGより高精度なことが多い。


In [1]:
from collections import Counter

def space_saving(stream, k):
    T = {}          # element -> (count)
    n = 0
    for i in stream:
        n += 1
        if i in T:
            T[i] += 1
        elif len(T) < k:
            T[i] = 1
        else:
            # find key with minimum count
            j = min(T, key=T.get)
            minc = T[j]
            # replace
            del T[j]
            T[i] = minc + 1
    return T, n

# demo
import pandas as pd
df = pd.read_csv("/content/sample_data/california_housing_test.csv", encoding="utf-8", engine="python")
stream = df["median_house_value"].astype(str).tolist()
k = 20
T, n = space_saving(stream, k)

true = Counter(stream)
cands = {u: true[u] for u in T}
print("n=", n, "candidates=", len(T))
print(sorted([(u, T[u], cands[u]) for u in T], key=lambda t: -cands[t[0]])[:20])
print("\\nTop-20 ground truth:")
print(true.most_common(20))

n= 3000 candidates= 20
[('500001.0', 153, 125), ('162500.0', 150, 21), ('225000.0', 150, 17), ('150000.0', 150, 11), ('109400.0', 150, 5), ('139700.0', 149, 4), ('171300.0', 150, 3), ('253800.0', 150, 3), ('185400.0', 149, 2), ('370000.0', 150, 2), ('62000.0', 150, 2), ('75100.0', 149, 1), ('182000.0', 150, 1), ('107000.0', 150, 1), ('85400.0', 150, 1), ('300300.0', 150, 1), ('260900.0', 150, 1), ('149600.0', 150, 1), ('182500.0', 150, 1), ('237200.0', 150, 1)]
\nTop-20 ground truth:
[('500001.0', 125), ('137500.0', 23), ('162500.0', 21), ('225000.0', 17), ('350000.0', 14), ('187500.0', 13), ('100000.0', 13), ('87500.0', 13), ('112500.0', 12), ('275000.0', 11), ('175000.0', 11), ('150000.0', 11), ('156300.0', 9), ('125000.0', 8), ('200000.0', 8), ('75000.0', 8), ('143800.0', 8), ('250000.0', 7), ('90600.0', 7), ('450000.0', 7)]


## Space-Savingアルゴリズム コード、デモ実行、結果出力の説明

### コードの説明 (Code Explanation):

*   `space_saving(stream, k)` 関数がSpace-Savingアルゴリズムを実装しています。
    *   `stream`: 処理するデータのリストまたはイテラブルです。
    *   `k`: 追跡する頻出要素の最大数（カウンタの数）です。
    *   `T = {}`: 要素とそのカウントを格納する辞書です。
    *   `n = 0`: ストリーム内の要素の総数をカウントします。
    *   ストリームの各要素 `i` に対して以下の処理を行います。
        *   `n` をインクリメントします。
        *   もし要素 `i` が `T` に既に存在すれば、そのカウントをインクリメントします。
        *   もし `T` のサイズが `k` 未満であれば、要素 `i` を `T` に追加し、カウントを1とします。
        *   それ以外の場合（`T` が `k` 個の要素で埋まっている場合）、最もカウントが小さい要素 `j` を見つけます。
        *   最もカウントが小さい要素 `j` を `T` から削除します。
        *   要素 `i` を `T` に追加し、そのカウントを削除した要素 `j` のカウントに1を加えた値とします。
    *   最終的に、追跡された要素とそのカウントを含む辞書 `T` と、ストリームの総要素数 `n` を返します。

### デモの実行 (Demo Execution):

*   `import pandas as pd`: pandasライブラリをインポートします。
*   `df = pd.read_csv("/content/sample_data/california_housing_test.csv", encoding="utf-8", engine="python")`: 指定されたCSVファイルを読み込み、pandas DataFrame `df` に格納します。
*   `stream = df["median_house_value"].astype(str).tolist()`: DataFrameから"median\_house\_value"列を選択し、各値を文字列に変換してからリスト `stream` に格納します。これがSpace-Savingアルゴリズムへの入力ストリームとなります。
*   `k = 20`: 追跡する頻出要素の数 `k` を20に設定します。
*   `T, n = space_saving(stream, k)`: Space-Savingアルゴリズムを実行し、結果を `T` (追跡された要素とカウントの辞書) と `n` (ストリームの総要素数) に格納します。
*   `true = Counter(stream)`: ストリーム全体の正確な要素の出現頻度を計算するために、`collections.Counter` を使用します。
*   `cands = {u: true[u] for u in T}`: Space-Savingによって追跡された要素 `T` について、実際の出現頻度を `true` から取得し、`cands` 辞書に格納します。

### 結果の出力 (Result Output):

*   `print("n=", n, "candidates=", len(T))`: ストリームの総要素数 `n` と、Space-Savingによって追跡された要素の数（`T` のサイズ）を出力します。
*   `print(sorted([(u, T[u], cands[u]) for u in T], key=lambda t: -cands[t[0]])[:20])`:
    *   `[(u, T[u], cands[u]) for u in T]`: Space-Savingによって追跡された各要素 `u` に対して、`(要素, Space-Savingでのカウント, 実際のカウント)` のタプルのリストを作成します。
    *   `sorted(..., key=lambda t: -cands[t[0]])`: このリストを、実際のカウント (`cands[t[0]]`) の降順でソートします。
    *   `[:20]`: ソートされたリストの最初の20個の要素（上位20個）を表示します。これにより、Space-Savingが追跡した要素と実際の頻度を比較できます。
*   `print("\\nTop-20 ground truth:")`: 正確な上位20個の頻出要素のリストであることを示すヘッダーを出力します。
*   `print(true.most_common(20))`: `collections.Counter` で計算した正確な出現頻度に基づいて、上位20個の最も頻繁に出現する要素とそのカウントを出力します。

この出力により、Space-Savingアルゴリズムが限られたカウンタ数 (`k=20`) で、実際の頻出要素（特に上位の要素）をどの程度正確に追跡できているかを確認することができます。Space-Savingのカウント (`T[u]`) は実際のカウント (`cands[u]`) よりも大きい場合があることがわかります。これは、Space-Savingが最小カウントの要素を置き換える際にカウントをインクリメントする性質によるものです。