# SPSSブログ Python実装

## 共通事前処理

In [None]:
# 必要ライブラリのimport
import pandas as pd
import numpy as np

# データフレーム表示用関数
from IPython.display import display

# データフレームですべての項目を表示
pd.set_option("display.max_columns",None)

## データ読み込み

In [None]:
# データ読み込み
url = 'https://raw.githubusercontent.com/yoichiro0903n/blue/main/sampledatacross2.csv'
df = pd.read_csv(url, index_col='ID')

display(df.head())

In [None]:
# 'T'-> True, 'F'-> Falseに変換
df2 = df.replace({'T': True, 'F': False})

# 結果確認
display(df2.head())

## 例題1

### 初期設定

In [None]:
#  項目のリスト
I = df2.columns

# 項目数
N = len(I)

# 結果表の初期設定
S = pd.DataFrame(np.zeros((N, N)), 
    columns=I, index=I, dtype='int64')

### 集計処理

In [None]:
# 3重ループで該当要素値をカウントアップ
for i in df2.values:
    # 要素がTrueの項目のみ抽出
    x1 = I[i].tolist()
    
    # 要素数が１以下の場合は何もしない
    if len(x1) <= 1:
        continue
    
    # 項目ペアの生成
    for x2 in x1:
        x3 = x1.copy()
        x3.remove(x2)
    
        # x3は更に各要素に分解
        for x4 in x3:
        
        # DataFrameの該当要素値をカウントアップ
            S.loc[x2, x4] += 1
        
# 結果確認
display(S)

## 例題2

### 関数定義

In [None]:
# 1次元化したインデックスを2次元に戻し
# 該当項目名をタプルで戻す関数

def getitem(x, I):
    N = len(I)
    x1, x2 = (x % N), (x // N)
    return(I[x1], I[x2])

### 項目ペアのリスト作成

In [None]:
# 上位5個の項目ペアを取得

# 結果リスト初期化
cols_list = []

# 行列の項目値を抜き出し1次元化
w1 = S.values.reshape(-1)

# 上位5個のインデックス値取得
w2 = np.argsort(-w1)[:10:2]

# getitem関数を使って項目名ペアのリスト作成
for i in w2:
    x, y = getitem(i, I)
    cols_list.append([x, y])

# 結果確認
for cols in cols_list:
    print(cols)

### 該当データの抽出

In [None]:
# 空のデータフレーム作成
target_df = pd.DataFrame()

# 先頭行から順にループ処理
for i in range(len(df2)):
    
    # 要素がTrueの項目のみ抽出
    item = df2.iloc[i]
    
    # 抽出結果を集合化
    x1 = set(I[item.values].tolist())
    for j in cols_list:
        
        # cols_listの各要素も集合化
        x2 = set(j)
        
        # 集合同士の比較で条件を満たしているかチェック
        if x2 <= x1:
            target_df = target_df.append(df.iloc[i])
            break
        # 以下の実装は2重ループで最初のループにcontinueをかけるためのテクニック
        else:
            continue

In [None]:
# 結果確認
display(target_df.head(6))

# 結果件数確認
count = len(target_df)
print(f'結果件数: {count}')