In [1]:
import pandas as pd
import numpy as np
import gc
import seaborn as sns

In [2]:
df = sns.load_dataset('titanic')
df.head(2)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False


In [3]:
def calc_cramersV(x, y):
    '''
    クラメールの連関係数を算出する関数
    
    Parameters
      x: ndarray or series
      y: ndarray or series
    '''
    # xとyのクロス集計表を作成
    array_crosstab = np.array(pd.crosstab(x, y))
    # クロス集計表の全件数を取得
    n = array_crosstab.sum()
    # 列毎の合計を取得
    array_colsum = array_crosstab.sum(axis=0)
    # 行毎の合計を取得
    array_rowsum = array_crosstab.sum(axis=1)
    
    # すべての列毎の合計値とすべての行毎の合計値を乗算し、全件数で除算
    ## numpy.outer :2つのベクトルの要素の全ての掛け合わせる
    array_expect = np.outer(array_rowsum, array_colsum) / n
    # カイ2乗値を算出
    chi2 = np.sum((array_crosstab - array_expect) ** 2 / array_expect)
    # クラメールの連関係数を算出
    v = np.sqrt(chi2 / n * (np.min(array_crosstab.shape) - 1))
    return v   

In [4]:
df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [5]:
calc_cramersV(df['class'], df['embarked'])

0.5276428674463042

In [6]:
gc.collect()

63

参考
- https://qiita.com/canard0328/items/5ea4115d964b448903ba
- https://www.rm48.net/post/python-%E3%82%AB%E3%83%86%E3%82%B4%E3%83%AA%E5%A4%89%E6%95%B0%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E3%82%82%E7%9B%B8%E9%96%A2%E3%82%92%E6%B1%82%E3%82%81%E3%82%8B%E6%96%B9%E6%B3%95