In [42]:
import pandas as pd 
import numpy as np 
import json 
from pathlib import Path 
import matplotlib.pyplot as plt 
from datetime import datetime
from typing import List, Dict, Any, Union 

datapath = Path.cwd().parent / 'data/chat.json'

In [5]:
data = json.load(
    open(datapath, 'r', encoding='utf-8')
)

In [17]:
df = pd.DataFrame.from_records(
    data, columns=[
        'author', 'message', 'time_in_seconds', 'timestamp'
    ]
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832 entries, 0 to 1831
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   author           1832 non-null   object 
 1   message          1832 non-null   object 
 2   time_in_seconds  1832 non-null   float64
 3   timestamp        1832 non-null   int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 57.4+ KB


In [41]:
to_dt = np.vectorize(lambda x: datetime.utcfromtimestamp(x/1e6))
df.loc[:, 'timestamp'] = to_dt(df.timestamp.values)

In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832 entries, 0 to 1831
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   author           1832 non-null   object        
 1   message          1832 non-null   object        
 2   time_in_seconds  1832 non-null   float64       
 3   timestamp        1832 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 57.4+ KB


In [50]:
uq_msg = df.message.unique().astype(np.str_)
uq_msg.shape

(1452,)

In [51]:
def find_substr(word: str, arr=uq_msg) -> np.ndarray:
    mask = np.flatnonzero(
        np.core.defchararray.find(
            arr, word 
        ) > 0
    )
    return mask 

In [64]:
ore = find_substr('オレオ')
apo = find_substr('アポロ')
oreapo_mask = np.union1d(ore, apo)
oreapo_msgs = uq_msg[oreapo_mask]

In [78]:
import re 
oreapo_pattern = re.compile(
    r"(オレオ|アポロ|おれお|あぽろ)+"
)

In [80]:
oreapo = df.loc[
    df.message.str.contains(oreapo_pattern), :
]

  df.message.str.contains(oreapo_pattern), :


In [84]:
1時間フレンズ

[':face_with_hand_over_mouth:',
 'わざとやってるのかと思えてくるww',
 'なんか空気感リセットしてて草',
 '頑張れかみとさん〜',
 'そろぼち仲良くなってもいいぜ',
 'あー毎日このコラボしてくんねえかな',
 '距離詰めたかと思ったら別マップまで引くじゃん',
 'そこの女、でいこう',
 'ひーたんが、ひっぱってくれる。ありがてぇ',
 'ギルルか',
 'あったかくなってきたｗ',
 'ああｗ',
 'そして。。。強い二人',
 'ないすぅ',
 'かっけえ',
 'ないす',
 'おお！',
 ':_nice:',
 'ナイス！！',
 'つよ',
 'かわいい',
 '草',
 '唐突ｗ',
 '突然のかわいい',
 'また山下のデッキ持ってきてぇー',
 '突然イケメンムーブすんのやめてww',
 '急なんよw',
 '突然剛速球なげるところある',
 'いま？笑',
 '急なんだよなw',
 '急にｗ',
 '距離の詰め方がプレデターw',
 'キュンとするなー',
 'ひーちゃんもたまに女の子になっちゃうの草',
 '距離の詰め方トリッキーで草',
 '連携うまいな',
 '2人とも強いんよ',
 'つよｗｗｗ',
 '武器構成尖った',
 'ないすー',
 'つっよ',
 'ないすう',
 'うっまい',
 'うま',
 '武器の構成バグってねwwww',
 '武器やば',
 '2020かっけぇ',
 'ないすー！',
 'マスティフはんぽw',
 '戦闘に集中できねえww',
 'うめー',
 'うまーい',
 'ヤンキー。',
 'たちばなかわいいってはなし',
 '作戦成功してて草',
 '会話に四苦八苦してるコンビとはおもえねぇ',
 'まだグダグダじゃねぇか！www',
 'マスティフ20ハンポは猛者構成',
 '呼び方',
 '忘れようとしてて草',
 '女性やめてもろて',
 'ひなのちゃん良い子；；',
 '戦い始めるといい感じなのになぁ',
 '自分も頑張りますでええんやでww',
 'リセットにはまだ早いぞ',
 '性別関係ないんよ',
 '唐突やん',
 'いいね',
 '急にw',
 '向こうギルくん来てて草',
 'お？',
 'そう思うならがんばってもろてｗ',
 'きちゃ！