In [1]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

In [2]:
text_data = [
    "私は朝食にパンを食べました",
    "彼は昨日、映画を見に行きました",
    "今日はとても良い天気ですね"
]

In [5]:
# CountVectorizerのインスタンス化（Bigramを抽出する設定）
vectorizer = CountVectorizer(ngram_range=(2, 2), analyzer='char_wb', token_pattern=None)

# テキストデータに適用
X = vectorizer.fit_transform(text_data)

# DataFrameへの変換（列名にBigram、行名に文書番号を設定）
bigram_df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out(), index=[f"文書{i+1}" for i in range(len(text_data))])

# 結果の出力
print(bigram_df)

      今   彼   私  、映  い天  きま  した  すね  た   ても  ...  昨日  朝食  気で  画を  私は  良い  行き  \
文書1   0   0   1   0   0   0   1   0   1   0  ...   0   1   0   0   1   0   0   
文書2   0   1   0   1   0   1   1   0   1   0  ...   1   0   0   1   0   0   1   
文書3   1   0   0   0   1   0   0   1   0   1  ...   0   0   1   0   0   1   0   

     見に  食に  食べ  
文書1   0   1   1  
文書2   1   0   0  
文書3   0   0   0  

[3 rows x 41 columns]


In [6]:
# データフレームをテキストファイルに書き出す
bigram_df.to_csv("output.txt", sep='\t', index=True, encoding='utf-8')

In [7]:
# 各バイグラムの総出現回数を計算
total_counts = bigram_df.sum(axis=0)

# 総出現回数で降順に列を並び替え
sorted_columns = total_counts.sort_values(ascending=False).index
sorted_bigram_df = bigram_df[sorted_columns]

# 結果の出力
print(sorted_bigram_df)

     まし  した  た    今  昨日  ンを  今日  天気  彼は  日、  ...  です  とて  にパ  に行  ね   はと  は昨  \
文書1   1   1   1   0   0   1   0   0   0   0  ...   0   0   1   0   0   0   0   
文書2   1   1   1   0   1   0   0   0   1   1  ...   0   0   0   1   0   0   1   
文書3   0   0   0   1   0   0   1   1   0   0  ...   1   1   0   0   1   1   0   

     は朝  べま  食べ  
文書1   1   1   1  
文書2   0   0   0  
文書3   0   0   0  

[3 rows x 41 columns]


In [8]:
# データフレームをテキストファイルに書き出す
sorted_bigram_df.to_csv("sorted_output.txt", sep='\t', index=True, encoding='utf-8')