# K3

### 課題
教師なしテキストクラスタリング

### 方針
- データクリーニング
    - 重複行の確認と削除
    - トークナイズ(Text -> Numbers)
- それぞれのTextの類似度を計算
    - X-axis: doc_id, Y-axis: Textの類似度のPlot
- トレーニングモデル
    - Plotを元にトレーニングするモデルを決定する。<br>
    参考: https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68
- ハイパーパラメーターチューニング
    - Optunaでパラメーターサーチを行う。<br>Optuna: https://github.com/pfnet/optuna

In [1]:
from pathlib import Path
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
csv_path = Path("../data/Sample.csv")

# Import the data as Pandas df

In [3]:
df = pd.read_csv(str(csv_path), index_col=0)
df.head()

Unnamed: 0_level_0,doc_text
doc_id,Unnamed: 1_level_1
3666,電通総研メディアイノベーション研究部は、メディアや情報通信環境の変化、そしてオーディエンス（...
3587,前回からすっかり連載の時間が空いてしまいました（汗）。連載を続けるのって難しいですね。メディ...
4285,電通社員たちが“謎の紙上研究員”として、世の中のキザシ（SYMPTOM）をあれこれ探っていく...
4523,に掲載された「Challenge to THE NEW VALUE OF TV/ RADIO...
5717,このシリーズでのコラムもいよいよ最終回となりました。これまで、顧客、組織、社会などのさまざま...


In [4]:
print("The shape of the data frame: {}".format(df.shape))

The shape of the data frame: (2378, 1)


In [5]:
# See if there is any duplicated rows in the df
df.duplicated().any()

True

In [6]:
# Check the duplicated rows
df[df.duplicated()]

Unnamed: 0_level_0,doc_text
doc_id,Unnamed: 1_level_1
2092,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2108,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2111,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2110,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2114,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2113,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2080,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2103,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2102,2020年とその先に向けて、日本の魅力や強みの研究チームを電通総研に設立しました。国内外の様...
2964,電通総研メディアイノベーション研究部では、メディアや情報通信環境の変化を着実に捉え、進化し続...


In [7]:
# Drop the rows from the df
df = df.drop_duplicates()
print("The shape of new df: {}".format(df.shape))

The shape of new df: (2361, 1)


In [8]:
# Check the `doc_id`s are unique.
print(len(df.index.unique()))

2361


In [9]:
print(df["doc_text"].iloc[0])

電通総研メディアイノベーション研究部は、メディアや情報通信環境の変化、そしてオーディエンス（視聴者）の動向を探ることをミッションとするシンクタンクです。,このたび、IT起業家で情報学研究者のドミニク・チェンさんをアドバイザリーに招いて、10代後半～20代半ばの男女スマホユーザーの「ビジュアルコミュニケーション」をテーマにした調査プロジェクトを実施しました。,当連載ではその結果をひもとき、若年層が写真や動画アプリを通じたビジュアル中心のコミュニケーションへシフトする理由を探ってきました。,
前回までは、よく使われる写真や動画アプリとその使われ方、それがもたらしたコミュニケーションのかたちの変化にフォーカスしながら、若者たちがビジュアルで投稿する心理やマーケティング的な示唆の読み解きも行いました。,最終回は引き続き、ビジュアルコミュニケーションの浸透によって私たちの価値観や文化はどう変わっていくのか、俯瞰的な視点から議論をラップアップします。,今の若い人たちのビジュアルコミュニケーションを通じた憧れや欲望について、もう少し細かく分析してみると、不特定多数にどう見られるかに加えて、狭いコミュニティーの中でも自分の見られ方をとても気にしています。,まさにそこにおいて、Instagramでよくみられる「ほのめかし」がTwitterなどのリテラルコミュニケーション（文字のコミュニケーション）ではやりにくいという差異が際立ちます。ヘビーなInstagramユーザーの女性に教えてもらうと、気になる彼にアカウントを見られる時に私ってこういうイケてる感じに演出できる、みたいな欲望導線がしっかり設計されていることに気づく。それは言葉で言ったらおしまいで、野暮になってしまう。そういう欲望の導線をしっかりつかんでいるという話は本質的ですね。,女性ユーザーが主導権を握ることにも納得がいきますよね。,そうですね。締め出される男性が続出するかもしれません。,あるSnapchatユーザーは、Instagramを見ているとみんな「○○ブランディング」をしているように見えてくると言います。「この子は幸せブランディング」「この子はリア充ブランディング」と。,ほんと、そこだと思うんですよね。まさにセルフブランディングとしてのビジュアルコミュニケーション。だけど個人を強く押し出そうという肩ひじ張った感じでは