情報システム分析論のDocument Analysisの課題の提出フォルダ
- 正規表現
- Clustering
- tf-idf
- K-means
- Principal Component Analysis (PCA)
./Data内にある文書(301個)をクラスタリング。 正規表現や置換により記号や数字の前処理を行った後、tf-idfでベクトル化。その後、K-meansで文書をクラスタリング。 K-meansは以下の2通りで計算している。
- scikit-learn (距離:Euclid Distance)
- nltk (距離:Cosine Distance)
分析として主成分分析による可視化やKの値を変更した時の比較も行なっている。(scikit-learnでのK-meansを使用)
jupyter-notebookによる実行ファイル
各文書のtf-idfの値の一覧
- 正規表現
- LDA
./Data2内にある文書(1001個)をトピック分析。 正規表現や置換により記号や数字の前処理を行った後、 LDAを用いてトピック分析をし、 その後に可視化を行った。
分析としてトピック数を変えた時の結果の比較も行なっている。
jupyter-notebookによる実行ファイル
データ(1000個)は以下のサイトから取得:
Assignment1では、 Business, Entertainment, Food, Politics, Sport, Technologieから50個ずつ(1-50)文書を取得。 加えて、オリジナルのテキスト一つ(music)を追加し、計301個使用。
Assignment2では、 Business, Entertainment, Food, Graphics, Historical, Medical, Politics, Space, Sport, Technologieの各ジャンルから100個ずつ文書を取得。 加えて、オリジナルのテキスト一つ(music)を追加し、計1001個使用。