In [None]:
import pandas as pd

import duckdb

con = duckdb.connect(database=":memory:")

In [None]:
model_name = "ja_ginza_electra"
db = pd.read_csv(f"../data/ted_npvs_{model_name}.csv")
db = pd.concat([db, pd.read_csv(f"../data/jnlp_npvs_{model_name}.csv")])
# NPV＋コーパスごとに集計したいので，Pandasのvalue_counts()を利用し，その結果 (Seriesオブジェクト) をDataFrameに戻す
db = db.value_counts().to_frame(name="frequency").reset_index()
db

In [None]:
# コーパス間の頻度が比べるために一番小さいコーパスのNPVの数で正規化する
corpus_freqs: dict[str, int] = {
    corpus: db[db.corpus == corpus]["frequency"].sum() for corpus in db.corpus.unique()
}
min_count = min(corpus_freqs.values())
min_count

In [None]:
corpus_norm = {
    corpus: min_count / frequency for corpus, frequency in corpus_freqs.items()
}

print(corpus_norm)

In [None]:
db["norm_frequency"] = db.apply(
    lambda r: r["frequency"] * corpus_norm[r["corpus"]], axis=1
)
db

In [None]:
db[db.n == "変化"].drop(columns=["n"]).to_dict("records")

In [None]:
con.execute(
    """
SELECT * FROM db
WHERE n = ?
GROUP BY p, n, v, corpus, frequency, norm_frequency
ORDER BY p, norm_frequency DESC, n
""",
    ["変化"],
).df()

各種の共起尺度の計算：
-   [Relational cooccurrences and contingency tables](http://collocations.de/AM/index.html)


共起尺度を計算するには，contingency tableの作成が必要です。

単語（共起）ペア$(u,v)$において

期待値（Expected frequencies）:

|       |$V = v$|$V \ne v$|
|:-----:|:-----:|:-------:|
|$U = u$  |$E_{11} = \frac{R_1 C_1}{N}$|$E_{12} = \frac{R_1 C_2}{N}$|
|$U \ne u$|$E_{21} = \frac{R_2 C_1}{N}$|$E_{22} = \frac{R_2 C_2}{N}$|


実現値（Observed frequencies）:

|       |$V = v$|$V \ne v$|   |
|:-----:|:-----:|:-------:|:-:|
|$U = u$  |$O_{11}$|$O_{12}$|$=R_1$|
|$U \ne u$|$O_{21}$|$O_{22}$|$=R_2$|
|         |$C_1$|$C_2$|$=N$|

ここは$N$はコーパス全体の共起の延べ数で，$R_1$は$u$の延べ数$R_2$は$u$以外の単語の延べ数，$C_1$は$v$の延べ数$C_2$は$v$以外の単語の延べ数になっている。
