In [42]:
import pandas as pd 
import numpy as np 
import json 
from pathlib import Path 
import matplotlib.pyplot as plt 
from datetime import datetime
from typing import List, Dict, Any, Union 

datapath = Path.cwd().parent / 'data/chat.json'

In [5]:
data = json.load(
    open(datapath, 'r', encoding='utf-8')
)

In [17]:
df = pd.DataFrame.from_records(
    data, columns=[
        'author', 'message', 'time_in_seconds', 'timestamp'
    ]
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832 entries, 0 to 1831
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   author           1832 non-null   object 
 1   message          1832 non-null   object 
 2   time_in_seconds  1832 non-null   float64
 3   timestamp        1832 non-null   int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 57.4+ KB


In [41]:
to_dt = np.vectorize(lambda x: datetime.utcfromtimestamp(x/1e6))
df.loc[:, 'timestamp'] = to_dt(df.timestamp.values)

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832 entries, 0 to 1831
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   author           1832 non-null   object        
 1   message          1832 non-null   object        
 2   time_in_seconds  1832 non-null   float64       
 3   timestamp        1832 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 57.4+ KB


In [50]:
uq_msg = df.message.unique().astype(np.str_)
uq_msg.shape

(1452,)

In [97]:
import re 
oreapo_pattern = re.compile(
    r"(オレオ|アポロ|おれお|あぽろ|オレアポ|おれあぽ|アポレオ)+"
)

In [96]:
oreapo = df.loc[
    df.message.str.contains(oreapo_pattern), :
]

  df.message.str.contains(oreapo_pattern), :


In [94]:
ihf_pattern = re.compile(r"(1時間|1H|いちフレ)+(フレンズ|Friends])*", re.IGNORECASE)
ihf = df.loc[
    df.message.str.contains(ihf_pattern), :
]
ihf.message

  df.message.str.contains(ihf_pattern), :


174          1時間フレンズww
182       1時間で終わるつもりww
201      1時間フレンズｗｗｗｗｗｗ
218      1時間だけの友達みたいなw
223     1時間で記憶消えるやんけww
             ...      
1041           1時間たった？
1042           1時間ごとに？
1049         1時間たったのか？
1052         1時間たったからｗ
1280             1時間予想
Name: message, Length: 62, dtype: object


- ロリとロリコン
- ひーちゃん、かーくん
- プロポーズ
- 頻尿フレンド
- ハーフandハーフ
- 一時間カップル
- 1エッチフレンド
- かみひなの1HF
- レンタルフレンド
- レンタルひなの
- カラダフレンズ
- アポロカラーズ
- ツートンフレンド
- オレオとアポロ
- H&H
- ツートンズ
- オセロカラー
- h&f
- 半分友達
- オタク×オタク
- パスとアポロ
- ハーフアンドハーフ
- 1時間フレンド〜ロリとロリコンの物語〜
- 30分フレンズ
- 週１フレンズ
- 1half
- 色違いヘアーズ
- ゲーマーズ＆キーマーズ
- エンゼルフレンチ
- 1WF
- ワンフレ
- ヘアーハーフフレンズ
- two hair friends
- Ｍasterキートン
- アポレオン
- two head one black

In [99]:
collab_names = [
    "ロリとロリコン",   
    "ひーちゃん、かーくん",
    "プロポーズ",
    "頻尿フレンド",
    "ハーフandハーフ",
    "一時間カップル",
    "1エッチフレンド",
    "かみひなの1HF",
    "レンタルフレンド",
    "レンタルひなの",
    "カラダフレンズ",
    "アポロカラーズ",
    "ツートンフレンド",
    "オレオとアポロ",
    "H&H",
    "ツートンズ",
    "オセロカラー",
    "h&f",
    "半分友達",
    "オタク×オタク",
    "パスとアポロ",
    "ハーフアンドハーフ",
    "1時間フレンド〜ロリとロリコンの物語〜",
    "30分フレンズ",
    "週１フレンズ",
    "1half",
    "色違いヘアーズ",
    "ゲーマーズ＆キーマーズ",
    "エンゼルフレンチ",
    "1WF",
    "ワンフレ",
    "ヘアーハーフフレンズ",
    "two hair friends",
    "Ｍasterキートン",
    "アポレオン",
    "two head one black"
]
