In [726]:
import pandas as pd
import numpy as np

# ファイルの読み込み
df_c = pd.read_csv('outputC_3.csv', sep=';')
df_d = pd.read_csv('outputD_3.csv', sep=';')

In [727]:
def combine_columns_containing_keyword(df, keyword):
    # キーワードを含むカラム名のリスト
    columns_with_keyword = [col for col in df.columns if keyword in col]
    
    # これらのカラムの値を合計する
    df[keyword] = df[columns_with_keyword].fillna(0).sum(axis=1)
    
    # キーワードを含む元のカラムを削除
    df.drop(columns=columns_with_keyword, inplace=True)

# '隣'という文字を含むカラムを統合
combine_columns_containing_keyword(df_c, '隣')
combine_columns_containing_keyword(df_d, '隣')

# 不要なカラムの削除
columns_to_drop = ['二人', '前進', '全く', '使い分け', '項目', '線分', '各項', '最善', '事項', '素早く', '全般', '最長', '引き分け', '最新', '深め', 'キューブ', '右辺', '等分', '分数', '調和', '分線', '分野']
df_c.drop(columns=columns_to_drop, inplace=True)
columns_to_drop = ['項数', '分裂', '進行', '全然', '何分', '完全', '余分', '精進', '進ん', 'ランプ', '全員', '色分け', '多項', '分布', '最右', '分別', '多分', '分岐', 'ベルトランチェビシェフ', '塗り分け', '進む', '分間', '最上', '全問', '大幅', '進み', 'ランダム', '分かれる']
df_d.drop(columns=columns_to_drop, inplace=True)

# df_cにのみ存在するカラム
unique_columns_c = set(df_c.columns) - set(df_d.columns)

# df_dにのみ存在するカラム
unique_columns_d = set(df_d.columns) - set(df_c.columns)

print("df_cにのみ存在するカラム:", unique_columns_c)
print("df_dにのみ存在するカラム:", unique_columns_d)


df_cにのみ存在するカラム: {'隣'}
df_dにのみ存在するカラム: {'ワーシャルフロイド', 'XOR', 'union', 'UF', '素数', 'セグ', '素因', '二進', 'エラトステネス', '和が'}


In [728]:
# 共通のカラムがない場合はエラー
if len(set(df_c.columns) & set(df_d.columns)) == 0:
    raise ValueError("共通のカラムがありません。結合キーを指定してください。")

# 共通カラムに基づいてデータフレームを水平方向に結合
merged_df = pd.merge(df_c, df_d, how='outer')


# 片方にしかないカラムの集合
unique_columns_c = set(df_c.columns) - set(df_d.columns)
unique_columns_d = set(df_d.columns) - set(df_c.columns)

# df_cにしかないカラムのNaNを0に変更
for col in unique_columns_c:
    merged_df[col].fillna(0, inplace=True)

# df_dにしかないカラムのNaNを0に変更
for col in unique_columns_d:
    merged_df[col].fillna(0, inplace=True)


# 'classifier'カラムを追加し、すべての値をNaNで初期化
merged_df['classifier'] = np.nan


print("統合が完了しました。")


統合が完了しました。


  merged_df['classifier'] = np.nan


In [729]:
merged_df.shape

(359, 148)

In [730]:
delete_list = ['全点', '分かっ', '分かれ', '初項', '最近', '最適', '最速', '分かり', '分かる', '差分', '全て', '深く', '辺り', '分配', '全体', '進め', '素直', '青木', '分母', '分子', '分ける', '左辺', '自分', '分け', '両辺', '最終', '最低', '最悪', '時分', '全部', '分離', '最も', '分から', '分割', '半分', '最初', '最後', '要素', '進塁', '最', '分類', '各辺', 'C', '和が', '項']
merged_df.drop(columns=delete_list, inplace=True)

# '全'と'探索'の両方が正である場合、'classifier'カラムに1を設定
merged_df.loc[(merged_df['全'] > 0) & (merged_df['探索'] > 0), 'classifier'] = 1

merged_df.loc[(merged_df['包'] > 0) & (merged_df['原理'] > 0), 'classifier'] = 14

# '幅', '優先', '探索'がすべて正であるか、'dfs'または'BFS'が正である行に対して、'classifier'カラムに7を設定
merged_df.loc[((merged_df['幅'] > 0) & (merged_df['優先'] > 0) & (merged_df['探索'] > 0)) | (merged_df['bfs'] > 0) | (merged_df['BFS'] > 0), 'classifier'] = 7

# '深', '優先', '探索'がすべて正であるか、'dfs'または'DFS'が正である行に対して、'classifier'カラムに7を設定
merged_df.loc[((merged_df['深'] > 0) & (merged_df['優先'] > 0) & (merged_df['探索'] > 0)) | (merged_df['dfs'] > 0) | (merged_df['DFS'] > 0), 'classifier'] = 15

# '尺取り'または'尺取'が正である行に対して、'classifier'カラムに6を設定
merged_df.loc[(merged_df['尺取り'] > 0) | (merged_df['尺取'] > 0), 'classifier'] = 6

# 上記のいずれかのカラムが正である行に対して、'classifier'カラムに10を設定
merged_df.loc[(merged_df['ユークリッド'] > 0) | (merged_df['互除'] > 0) | (merged_df['公約'] > 0) | (merged_df['約数'] > 0) | (merged_df['gcd'] > 0) | (merged_df['GCD'] > 0), 'classifier'] = 10

# 上記のいずれかのカラムが正である行に対して、'classifier'カラムに2を設定
merged_df.loc[((merged_df['累積'] > 0) & (merged_df['和'] > 0)) | (merged_df['単調'] > 0) | (merged_df['imos'] > 0) | (merged_df['lower_bound'] > 0), 'classifier'] = 2

# 上記のいずれかのカラムが正である行に対して、'classifier'カラムに3を設定
merged_df.loc[((merged_df['二'] > 0) & (merged_df['分'] > 0) & (merged_df['探索'] > 0)) | (merged_df['分木'] > 0), 'classifier'] = 3

# 'ラン'、'レングス'、'圧縮'のすべてが正である場合、または'座標'と'圧縮'の両方が正である場合、'classifier'カラムに4を設定
merged_df.loc[((merged_df['ラン'] > 0) & (merged_df['レングス'] > 0)) | ((merged_df['座標'] > 0) & (merged_df['圧縮'] > 0)), 'classifier'] = 4

# '連結'、'成分'、'分解'のすべてが正であるか、'Find'、'UF'、'union'のいずれかが正である場合、'classifier'カラムに8を設定
merged_df.loc[((merged_df['連結'] > 0) & (merged_df['成分'] > 0) & (merged_df['分解'] > 0)) | (merged_df['Find'] > 0) | (merged_df['UF'] > 0) | (merged_df['union'] > 0), 'classifier'] = 8

# '動的'と'計画'の両方が正であるか、'DP'または'dp'が正である場合、'classifier'カラムに5を設定
merged_df.loc[((merged_df['動的'] > 0) & (merged_df['計画'] > 0)) | (merged_df['DP'] > 0) | (merged_df['dp'] > 0), 'classifier'] = 5

# '最短'と'経路'の両方が正であるか、'貪欲'または'ワーシャルフロイド'が正である場合、'classifier'カラムに9を設定
merged_df.loc[((merged_df['最短'] > 0) & (merged_df['経路'] > 0)) | (merged_df['貪欲'] > 0) | (merged_df['ワーシャルフロイド'] > 0), 'classifier'] = 9

# '論理'または'XOR'のカラムが正である場合、'classifier'カラムに13を設定
merged_df.loc[(merged_df['論理'] > 0) | (merged_df['XOR'] > 0), 'classifier'] = 13

# 'セグ'または'セグメント'と'木'が正である場合、'classifier'カラムに12を設定
merged_df.loc[((merged_df['セグ'] > 0) | (merged_df['セグメント'] > 0)) & (merged_df['木'] > 0), 'classifier'] = 12

# 'mod'または'エラトステネス'または'素数'が正である場合、'classifier'カラムに11を設定
merged_df.loc[(merged_df['mod'] > 0) | (merged_df['エラトステネス'] > 0) | (merged_df['素数'] > 0), 'classifier'] = 11


In [731]:
columns_to_remove = ['全', '探索', '包', '原理', '幅', '優先', 'bfs', 'BFS', '深', 'dfs', 'DFS', '尺取り', '尺取',
                     'ユークリッド', '互除', '公約', '約数', 'gcd', 'GCD', '累積', '和', '単調', 'imos', 'lower_bound',
                     '二', '分', '分木', 'ラン', 'レングス', '座標', '圧縮', '連結', '成分', '分解', 'Find', 'UF', 'union',
                     '動的', '計画', 'DP', 'dp', '最短', '経路', '貪欲', 'ワーシャルフロイド', '論理', 'XOR', 'セグ', 'セグメント',
                     '木', 'mod', 'エラトステネス', '素数']

cols = [col for col in merged_df.columns if col != 'Title']
merged_df[cols] = merged_df[cols].astype(float)

merged_df = merged_df.drop(columns=columns_to_remove)

In [732]:
merged_df.shape

(359, 50)

In [733]:
# # 削除するべきTitleのリスト
# titles_to_remove = ['C178', 'C179', 'C183', 'C193', 'C240', 'D186', 'D218', 'D307']

# # Titleカラムの値が上記リストに含まれる行を削除
# merged_df = merged_df[~merged_df['Title'].isin(titles_to_remove)]

In [734]:
merged_df.to_csv('merged_output.csv', index=False)

In [735]:
# 各カラムにおける欠損値の数を確認
missing_values = merged_df.isnull().sum()
print("各カラムにおける欠損値の数:")
print(missing_values)

各カラムにおける欠損値の数:
Title               0
頂点                  0
時計                  0
総和                  0
最高                  0
素                   0
区間                  0
遷移                  0
最小                  0
キュー                 0
ハッシュ                0
最大                  0
クエリ                 0
部分                  0
進                   0
グラフ                 0
十分                  0
辺                   0
倍数                  0
回転                  0
再帰                  0
if                  0
abs                 0
top                 0
find                0
rep                 0
length              0
max                 0
push                0
empty               0
sort                0
swap                0
%                   0
map                 0
priority_queue      0
pop                 0
bit                 0
tuple               0
min                 0
while               0
push_back           0
Union               0
vector              0
que                 0
reverse          

In [736]:
# Title列を除外
tfidf_df = merged_df.drop(columns=['Title', 'classifier'])

# TFの計算
epsilon = 1e-10
tf = tfidf_df.div(tfidf_df.sum(axis=1) + epsilon, axis=0)

# IDFの計算
idf = np.log((1 + len(tfidf_df)) / (1 + (tfidf_df > 0).sum())) + 1

# TF-IDFの計算
tfidf = tf * idf

# 結果を元のDataFrameに追加
merged_df[tfidf.columns] = tfidf

In [737]:
print((tfidf_df.sum(axis=1) == 0).sum())


24


In [738]:
# 各カラムにおける欠損値の数を確認
missing_values = merged_df.isnull().sum()
print("各カラムにおける欠損値の数:")
print(missing_values)

各カラムにおける欠損値の数:
Title               0
頂点                  0
時計                  0
総和                  0
最高                  0
素                   0
区間                  0
遷移                  0
最小                  0
キュー                 0
ハッシュ                0
最大                  0
クエリ                 0
部分                  0
進                   0
グラフ                 0
十分                  0
辺                   0
倍数                  0
回転                  0
再帰                  0
if                  0
abs                 0
top                 0
find                0
rep                 0
length              0
max                 0
push                0
empty               0
sort                0
swap                0
%                   0
map                 0
priority_queue      0
pop                 0
bit                 0
tuple               0
min                 0
while               0
push_back           0
Union               0
vector              0
que                 0
reverse          

In [739]:
merged_df.to_csv('TfIdf_output.csv', index=False)

In [740]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [741]:
# classifierが欠損していないものは訓練データ
train_data = merged_df[merged_df['classifier'].notna()]

# classifierが欠損しているものは予測データ
predict_data = merged_df[merged_df['classifier'].isna()]


In [742]:
train_data['classifier'].value_counts()

classifier
5.0     38
1.0     34
2.0     27
3.0     24
9.0     22
11.0    19
10.0    12
15.0    12
8.0     10
7.0      7
4.0      5
12.0     5
13.0     5
6.0      2
14.0     1
Name: count, dtype: int64

In [743]:
predict_data.drop(columns=['classifier'])
missing_values = merged_df.isnull().sum()
missing_columns = missing_values[missing_values > 0]
print("\n欠損値を持つカラム:")
print(missing_columns)

# missing_rows = predict_data[predict_data.isnull().any(axis=1)]
# print("\n欠損値を持つ行:")
# print(missing_rows)


欠損値を持つカラム:
classifier    136
dtype: int64


In [744]:
# Titleカラムの保存
title_train = train_data['Title']
title_predict = predict_data['Title']

# 特徴量とラベルの分割
X_train = train_data.drop(columns=['classifier', 'Title'])
y_train = train_data['classifier']

# モデルの訓練
classifier_model = RandomForestClassifier(n_estimators=100, random_state=42)
classifier_model.fit(X_train, y_train)

# 予測用データの特徴量（'Title'も削除）
X_predict = predict_data.drop(columns=['classifier', 'Title'])

# 予測
predictions = classifier_model.predict(X_predict)
check = classifier_model.predict(X_train)

# 予測結果をDataFrameに追加
predict_data['classifier'] = predictions

# Titleカラムを再結合
train_data['Title'] = title_train
predict_data['Title'] = title_predict

# 訓練データと予測データを再結合
final_df = pd.concat([train_data, predict_data])



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  predict_data['classifier'] = predictions
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_data['Title'] = title_train
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  predict_data['Title'] = title_predict


In [745]:
# タイトルの最後の三文字（数字部分）と最初の一文字（CまたはD）を取り出して並び替え
final_df['title_order'] = final_df['Title'].apply(lambda x: (x[0], int(x[1:])))
final_df = final_df.sort_values(by='title_order')

# title_orderカラムを削除して元のデータフレームの形に戻す
final_df = final_df.drop(columns=['title_order'])



In [746]:
final_df.to_csv('final_output.csv', index=False)

In [747]:
accuracy = accuracy_score(y_train, check)
print(f"予測精度: {accuracy * 100:.2f}%")

予測精度: 96.86%
