# 6. 토큰 정규화 Normalizing tokens
- 토큰 분포를 확인한다
- 정규화해야할 리스트를 작성한다
- 정규화 진행

## 6-a. 토큰 분포 확인

### 6-a-1. 파일 불러오기

In [20]:
import pandas as pd
fpath = "5_tokenized_ecopro_text.csv"
df = pd.read_csv(fpath, encoding="utf-8")
df.head(30)

Unnamed: 0,community,gall_id,search_keyword,number,date_created,time_created,author,is_reply,text_length,spaced_text,tokens
0,dcinside,snp500,에코,832014,2023-10-27,15:50:34,ㅇㅇ(58.78),0,56,국연 에코프로 퍼이상 투자해야한다 전국민 자산증발에 앞서야 추후 글로벌 시장에 조선...,"['국연', '에코프로', '이상', '투자', '국민', '자산', '증발', '..."
1,dcinside,snp500,에코,831598,2023-10-26,21:13:32,슨붕이(106.101),0,11,에코푸로 손절 ㄷㄷㄷ,"['에코푸로', '손절', 'ㄷㄷㄷ']"
2,dcinside,snp500,에코,831598,2023-10-26,21:14:04,모든주식을소유하라,1,9,알빠노? 캬ㅋㅋㅋ,"['알빠노', '?', '캬ㅋㅋㅋ']"
3,dcinside,snp500,에코,831598,2023-10-26,21:15:57,ㅇㅇ,1,23,그냥업황나빠진건데사ㅇㅈㄹ잘못ㅇㅈㅈㅓ대안ㅋㅋ,"['그냥', '황나', '빠진', '건데', 'ㅇㅈㄹ', '잘못']"
4,dcinside,snp500,에코,831598,2023-10-26,21:22:49,ㅇㅇ,1,20,오근디돈 억넘게 에코프로에박앗네상남ㅇㅂ,"['근디', '에코프로', '상남']"
5,dcinside,snp500,에코,831560,2023-10-26,20:17:39,ㅇㅇ,0,20,에코프로 마십쩌둥 머임 먼일이 난거임,"['에코프로', '마십']"
6,dcinside,snp500,에코,831560,2023-10-26,20:20:36,슨피한접시,1,6,평범한 국장,['국장']
7,dcinside,snp500,에코,831459,2023-10-26,17:04:31,원화=휴지/달러=신,0,117,에코프로는 진지하게 주당 만원이 적정가임 현재 모든 지표와 기대감까지 종합해봤을때 ...,"['에코프로', '적정', '가임', '현재', '모든', '지표', '기대감', ..."
8,dcinside,snp500,에코,831459,2023-10-26,17:05:41,ㅇㅇ(58.78),1,40,코리안 디스카운트 반영해서 원정도가 적정가다 만원이면 나스닥 상장해야한다,"['코리안', '디스카운트', '반영', '정도', '적정', '만원', '나스닥'..."
9,dcinside,snp500,에코,831459,2023-10-26,17:06:29,돌려돌려돌림판,1,23,원이 적정가임 내가 보유하지 않았기 때문에,"['적정', '가임', '보유', '때문']"


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 108945 entries, 0 to 108944
Data columns (total 11 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   community       108945 non-null  object
 1   gall_id         108945 non-null  object
 2   search_keyword  108945 non-null  object
 3   number          108945 non-null  int64 
 4   date_created    108945 non-null  object
 5   time_created    108945 non-null  object
 6   author          108945 non-null  object
 7   is_reply        108945 non-null  int64 
 8   text_length     108945 non-null  int64 
 9   spaced_text     108945 non-null  object
 10  tokens          108945 non-null  object
dtypes: int64(3), object(8)
memory usage: 9.1+ MB


### 6-a-2. 'tokens' 열의 문자열을 실제 리스트로 변환

In [22]:
import ast
# 'tokens' 열의 문자열을 실제 리스트로 변환
df['tokens'] = df['tokens'].apply(ast.literal_eval)

### 6-a-3. 토큰 분포를 딕셔너리로 만들기

#### 함수 제작

In [26]:
"""
주어진 데이터프레임의 지정된 열에 대해 토큰의 등장 빈도를 계산하고, 
빈도가 높은 순으로 정렬된 전체 토큰과 그 빈도를 딕셔너리로 반환하는 함수입니다. 

:param dataframe: pandas 데이터프레임
:param column_name: 토큰이 포함된 열의 이름
:return: 토큰과 그 빈도를 포함하는 딕셔너리
"""

from collections import Counter

def make_tokens_count_dict(dataframe, column_name):

    # 토큰별로 각 행에서의 출현 여부를 체크
    token_presence = dataframe[column_name].apply(lambda tokens: set(tokens))

    # 모든 행에 대해 토큰의 출현 횟수를 세기
    token_count = Counter()
    for tokens in token_presence:
        token_count.update(tokens)

    # 빈도가 높은 순으로 토큰 정렬
    sorted_tokens = dict(sorted(token_count.items(), key=lambda item: item[1], reverse=True))

    return sorted_tokens

#### 함수 실행

In [27]:
# 함수를 사용하여 딕셔너리를 생성
sorted_tokens_dict = make_tokens_count_dict(df, 'tokens')

#### 결과 딕셔너리 출력

In [28]:
sorted_tokens_dict

{'에코프로': 31113,
 '?': 19667,
 'ㅋㅋㅋ': 16522,
 '에코': 10603,
 '에코호로': 8497,
 'ㅋㅋ': 7732,
 '지금': 5041,
 '주식': 4943,
 '오늘': 4214,
 '만원': 3980,
 '에코프로비엠': 3794,
 '진짜': 3659,
 '새끼': 3543,
 '오르': 2753,
 '차전지': 2681,
 '!': 2639,
 '매수': 2477,
 '생각': 2439,
 '존나': 2435,
 '사람': 2422,
 '그냥': 2406,
 'ㄹㅇ': 2322,
 '개미': 2288,
 '근데': 2285,
 'ㅇㅇ': 2271,
 '종목': 2189,
 '시발': 2102,
 '공매도': 2007,
 'ㄷㄷ': 1979,
 '캬ㅋㅋㅋ': 1927,
 '병신': 1918,
 '아직': 1882,
 '이제': 1864,
 '수익': 1834,
 '코스닥': 1788,
 '내일': 1772,
 '신성': 1764,
 '정도': 1645,
 '다시': 1618,
 'ㄷㄷㄷ': 1600,
 '시총': 1578,
 '고점': 1576,
 '프로': 1535,
 '나오': 1500,
 '씨발': 1452,
 '모르': 1451,
 '가능': 1450,
 '이유': 1436,
 '회사': 1428,
 '이상': 1402,
 '매도': 1394,
 '국장': 1375,
 '너무': 1344,
 '테슬라': 1343,
 '주주': 1310,
 '이런': 1307,
 'ㅅㅂ': 1306,
 '계속': 1293,
 '포스코': 1274,
 '많이': 1266,
 '시작': 1220,
 '주가': 1208,
 '상승': 1201,
 '실적': 1201,
 '어제': 1181,
 '투자': 1180,
 '다른': 1163,
 '비엠': 1163,
 '금양': 1163,
 '들어가': 1123,
 '간다': 1122,
 '차트': 1107,
 '이미': 1048,
 '시장': 1030,
 '배터리': 1021,
 '하락

### 6-a-4. 토큰 분포 검색하여, 정규화 해야할 단어 리스트 만들기

#### 6-a-4-1. 토큰 분포 검색

In [39]:
    """
    주어진 딕셔너리에서 입력된 텍스트를 포함하는 모든 키를 찾아 리스트로 반환하는 함수입니다.

    :param input_dict: 검색할 딕셔너리
    :param search_text: 찾고자 하는 텍스트
    :return: 입력된 텍스트를 포함하는 키들의 리스트
    """

def find_keys_containing_text(input_dict, search_text):
  # 입력된 텍스트를 포함하는 키를 찾기
  keys_with_text = [key for key in input_dict if search_text in key]

  return keys_with_text

In [247]:
search_text = "모르"
keys_with_text = find_keys_containing_text(sorted_tokens_dict, search_text)
keys_with_text

['모르', '모르노', '멋모르', '모르쇠', '모르나', '모르자나', '아모르파티']

#### 6-a-4-2. df 에서 특정 token 을 포함하는 row 찾아서 출력

In [36]:
    """
    주어진 데이터프레임에서 특정 열에 입력된 토큰을 포함하는 모든 행을 찾아 반환하는 함수입니다.

    :param dataframe: 검색할 데이터프레임
    :param column_name: 토큰이 포함된 열의 이름
    :param search_token: 찾고자 하는 토큰
    :return: 입력된 토큰을 포함하는 모든 행
    """

def find_rows_containing_token(dataframe, column_name, search_token):
  # 입력된 토큰을 포함하는 행을 필터링
  filtered_rows = dataframe[dataframe[column_name].apply(lambda tokens: search_token in tokens)]

  return filtered_rows

In [250]:
# 특정 token 을 포함하는 row 출력
search_token = "멋모르"
result_df = find_rows_containing_token(df, "tokens", search_token)
print(result_df)

     community gall_id search_keyword   number date_created time_created  \
8428  dcinside  dow100             에코  1011019   2023-04-07     13:48:54   

          author  is_reply  text_length  \
8428  ㅇㅇ(223.39)         0          155   

                                            spaced_text  \
8428  수많은 주식갤 경험상 에코프로같은건 디시 투자갤러리에서 뛰어들면 고점임요즘은 많이 ...   

                                                 tokens  
8428  [수많, 주식, 경험, 에코프로, 디시, 투자, 갤러리, 뛰어들, 고점, 요즘, 많...  


#### 6-a-4-3. 정규화 리스트
- '주식':

 '장주',
 '이식',
 '주식',
 주식비',
'신주식', '입주식',
 '민주식'
 '성주식- '이차전지': '차전지', '좆차전지', '차전지주', '차전자', '전지', '전지용'
- '지금': '지금껏', '지금이라도', '지금도'
- '오늘':'오늘도', '나오늘'
- '만원일때': '만원때'
- '시총': '시가총액'
',
 '주주식'

- 매수 : '풀매수', '매수세', '순매수', '종가매수', '매수한', '공매수', '공개매수', '매수인'
- 매도 : '순매도', '매도질'
- 인버스 :  '닥버스',
 '곱스',

- 에코프로 : 에코호로, 에코프로비엠, 에코호로비엠, 에코비엠, 에코후로, 에코형제, 에코푸로, 에코호, 에코다
- 시발 : ㅅㅂ, ㅆㅂ, ㅅㅂㅋㅋ, 씨발, 씨발년, 씨발련, 씨팔, 씨부리, 씨발놈, 씨부랄, 씨부럴, 씨이팔, 씨발씨발, 시벌, 개씹
- 병신 : ㅂㅅ, 븅신, 개병, 빙신, 등신
- 새끼 : 새끼들, 새기, 새낀, 새리, 새꺄, 애새끼, 이새끼, 저새끼, 세끼, 개새끼, 호로새끼, 십새끼, 씹새끼, 씹새끼들
- 고점 : 전고점, 최고점
- "오르": '오르네', '오르노', '오르면',
 '오르냐'
 '떠오르,
 '날아오리',
 '르고',
 '르내리락', '타오르', '기어오르', 오르는거오르',
 '오내릴',
 차오르',
 나오르',
 뛰어오르', '솟아오르'
 '오르는
  
- "올라" : '올리',
 '올랐'
 '올라'',
 올라',
'올려', '올린', '올라서',
 '올라갈,
 '올',
 '이올',
 '라도',
 올라오', '올라타',
 '올인',
 '들어',
 '올간',
 '라감',
 올려서',
 쳐올리',
'올라갔', '올라간다',

 '올린다,
 '끌어리',
 '올으니',
 '라온',
 내려올',
'들어올리',
 '올린다고,
 '올라라',
 '올옴',
 '라탄',
 올려야',
'나올까', '끌어올린,
 '올라올,
 '쳐올',
 '쳐릴',
 '나올라갈지',
 ',
 '올까요',
 '거',
 '올간'올려놓', '올꺼',
'올라라', '올려도',,
 '돌아올',
 '올라탄',
 '올린'에탄올',
'끌어올려'
 '올매',
',
   '들어올려',
 '올른',
'올라온다', '올라고', 
 '올려놨'
 '올려치,
 '올린다까린다',
  '올라와야',다는',
 '올라',
 '올다면',
 나올까봐',
'올려야지',
 '다가올'면픽',
 올게요',
 '올걸',
 '라갔으면',,
 '올릴까 렸었',
 올라가',
 올'올러',
  '올라갈까',

 '올랐올데',
 '라돌아올까',
 따라올',
'뛰어올랐', '올려나', '올렸으, 라',
 '어올려야',
 '기어올라'
 '올라봐라,
 '올려붙',
 '날아올,
 '도올',,
 '올라프'
 '올루',
 '올바른,

 '올린다구'올려줄',

 '떠올라야'
 '들어올라고 ,
 '개올'리올려놔서',
 '끌어올린다는'와어나올',
'놀러올',
 리올린다느니',

- "내리": '내리',
 '내려가'부자',

 '내용'
 '내려,
 '내렸갈',
 '내',
  '내린',,
 '끝내'내연',
 '내재', '내려갔',
 '인터내널',
 '
 '박살내'
 '내역'수',
 '흘
 '빚내'리',
 '내',
 '장',
 '내외다',
 '라',
 '면',
 '려와',
 '인내심',아들',
  '내기',
다는', '내리',
 ',
 '오르,
 '뛰어내가',
 '
 '내려온내',
 '안',
 '처내'려치',
 '찾
 '내도',',
 '내다도려내',
 곧내',
 ' '내거'
 '내놔라',
내봤',
 '내내',
 '떠 '내려찍',
'내소',
 '
 '내세운',내려놓',
 '내차',
 
 '시내',야',
 ''내음',
 '내세워서',
 '겁내',막무가내',
  '내버리',,
 '끌어 '끌어내릴',어주',
 '내
 '내치',만내',
 '내버렸',
 
 '내려갈까
 '흘러내빼내',
 '',
 '빛내',
 '내려
 '전내',
 '내준다는'내루',
 '돌려보내',
 '내려왔었',
 '내후',
 '내사랑',
 '내려보',
 '내예',
 '돌려내',
 '쳐내려갔',
 '흘러내린',
 '끄집어내리',
 '봄내',
 '내건',
 '국내외',
 '안내서',
 '내려간다구',
 '국내법',
 '차내',
 '흘러내렸',
 '안내원',
 '내쉬',
 '흉내내',
 '내리찍',
 '내민',
 '집내',
 '잡아내',
 '끌어내려',
 '내려놨',
 '내려처',
 '내준',
 '내궁',
 '내장재',
 '내이',
 '다이내믹한',
 '내립시다',
 '뛰어내려',
 '뿜어내',
 '내려갈수록'뛰어올라',
 '올가',
 '올테니',
 '올라와도',
 '올려고',
 '기어올라왔',
 '끌어올려준',
 '떠올렸',
 '올라간다면',
 '올하',
 '올소',
 '올까봐',
 '끌어올렸으면',
 '올라설',
 '떠올라서',
 '올러가',
 '올릴수록',
 '따라올라갔',
 '올릭',
 '올라간다니까'
- ,
 '오르길',
 '달아오르']

## 6-b. 토큰 정규화

### 6-b-1. 토큰 정규화 함수

In [102]:
def normalize_tokens_with_dict(dataframe, column_name, normalization_dict):
    """
    데이터프레임 내에서 지정된 열의 토큰들을 주어진 정규화 딕셔너리에 따라 변경하는 함수입니다.

    :param dataframe: 정규화할 데이터프레임
    :param column_name: 토큰이 포함된 열의 이름
    :param normalization_dict: 정규화를 위한 딕셔너리. 예: {"에코프로": ["에코호로", ...], "시발": ["ㅅㅂ", ...]}
    :return: 정규화된 데이터프레임
    """
    # 토큰 정규화 함수
    def normalize(token_list):
        return [next((key for key, values in normalization_dict.items() if token in values), token) for token in token_list]

    # 정규화 적용
    dataframe[column_name] = dataframe[column_name].apply(normalize)

    return dataframe

### 6-b-2. 정규화 목록 딕셔너리 만들기

In [179]:
# 정규화 목록 딕셔너리
normalization_dict = {
    "에코프로": ['에코호로', '에코프로비엠', '에코호로비엠', '에코비엠', '에코후로', '에코형제', '에코푸로', '에코호', '에코다']
    , "시발": ['ㅅㅂ', 'ㅆㅂ', 'ㅅㅂㅋㅋ', '씨발', '씨발년', '씨발련', '씨팔', '씨부리', '씨발놈', '씨부랄', '씨부럴', '씨이팔', '씨발씨발', '시벌', 
             '개씹']
    , "병신": ['ㅂㅅ', '븅신', '개병', '빙신', '등신']
    , "새끼": ['새끼들', '새기', '새낀', '새리', '새꺄', '애새끼', '이새끼', '저새끼', '세끼', '개새끼', '호로새끼', '십새끼', '씹새끼', '씹새끼들']
    , "고점" : ['전고점', '최고점']
    , "오르": ['오르네', '오르노', '오르면', '오르냐', '떠오르', '날아오르', '오르고', '오르는데', '타오르', '기어오르', '불타오르', '오르는거', 
              '차오르', '나오르', '뛰어오르', '솟아오르', '오르는', '오르길', '달아오르', '올리', '올랐', '올라가', '올라', '올려', '올린', '올라서', 
              '올라갈', '올릴', '올렸', '올라도', '올라오', '올라타', '올림', 
              '올라야', '올라간', '올라감', '올려서', '쳐올리', '올라갔', '올라간다', '올라왔', '올린다', '끌어올리', '올랐으니', '올라온', 
              '들어올리', '올린다고', '올라탈', '올려라', '올라옴', '올라탄', '올려야', '끌어올린', '올라올', '쳐올라', '쳐올릴', '나올지', 
              '올르', '올라갈지', '올라탔', '올랐었', '올라와서', '올라간다고', '올라라', '올려도', '끌어올렸', '올라탄다', '올린다는', 
              '올라와', '쳐올림', '끌어올려', '끌어올려서', '끌어올릴', '들어올려', '올른', '올라온다', '올름', '올린다니까', '끌어올린다', 
              '올립니다', '올라와야', '올라간다는', '올릴라', '올린다면', '올려야지', '올려준다', '올라갔으면', '올랐는데', '올릴까', '날아올라', 
              '올렸었', '퍼올려', '올라요', '기어올라가', '올렸으니', '올러', '올라갈까', '올랐으나', '뛰어올랐', '올라갈수록', '날아올랐', 
              '올렸으며', '올려요', '끌어올려야', '올라봐라', '올려붙이', '날아올', '올루', '올려둔', '올릴려면', '올라갔었', '올린다구', 
              '올려줘도', '끌어올려줄', '올라온다는', '밀어올리기', '올려놔서', '끌어올린는', '뛰어올라', '올라와도', '기어올라왔', '끌어올려준', 
              '올라간다면', '올까봐', '끌어올렸으면', '올릴수록', '따라올라갔', '올라간다니까']
    , "내리": ['내리', '내려가', '내릴', '내려', '내렸', '내려갈', '내려오', '내린', '내림', '내려감', '내려올', '내려갔', '내려야', '내려도', 
             '내려서', '흘러내리', '쳐내리', '끌어내리', '내린다', '내린다고', '내려간', '내려간다', '내려왔', '내려와', '내려온', '내려라', 
             '내릴지', '내려옴', '내린다는', '내려와', '내리막', '내려온다', '내려와라', '내릴까', '내려앉', '내려야지', '내려간다고', 
             '내려온다고', '내립니다', '내리막길', '흘러내릴', '내릴라고', '내려갑다', '녹아내리', '내려간다면', '내려와야', '흘러내린다', 
             '내려간다는', '내리락하', '내려줘야', '끌어내린', '내려줄', '내릴래', '끌어내려서', '끌어내릴', '내려버렸', '흘러내려도', 
             '내렸으니', '내려지', '내려졌었', '내려왔으니', '내려갈까', '흘러내려', '쳐내려가', '내려져', '내려졌', '내려왔었', '쳐내려갔',
             '내려다', '내려간다구', '흘러내렸', '끌어내려', '내려갈수록']
    , "매수": ['풀매수', '매수세', '순매수', '종가매수', '매수한', '공매수', '공개매수', '매수인']
    , "매도": ['순매도', '매도질']
    , "인버스": ['닥버스', '곱버스']
}

### 6-b-3. df의 토큰 정규화시키기

In [180]:
# df에 적용하여 새로운 df 생성
normalized_df = normalize_tokens_with_dict(df, 'tokens', normalization_dict)
print(normalized_df)

       community    gall_id search_keyword  number date_created time_created  \
0       dcinside     snp500             에코  832014   2023-10-27     15:50:34   
1       dcinside     snp500             에코  831598   2023-10-26     21:13:32   
2       dcinside     snp500             에코  831598   2023-10-26     21:14:04   
3       dcinside     snp500             에코  831598   2023-10-26     21:15:57   
4       dcinside     snp500             에코  831598   2023-10-26     21:22:49   
...          ...        ...            ...     ...          ...          ...   
108940  dcinside  tenbagger             에코   32744   2020-04-13     19:22:20   
108941  dcinside  tenbagger             에코   32744   2020-04-13     19:22:23   
108942  dcinside  tenbagger             에코   32744   2020-04-13     19:22:48   
108943  dcinside  tenbagger             에코   32744   2020-04-13     19:23:35   
108944  dcinside  tenbagger             에코   32744   2020-04-13     19:24:25   

              author  is_reply  text_le

### 6-b-4. 토큰 정규화 잘 되었는지 확인
- 기존의 토큰들이 전부 대체된 것을 확인할 수 있다

In [181]:
normalized_tokens_dict = make_tokens_count_dict(normalized_df, 'tokens')

search_text = "매수"
keys_with_text = find_keys_containing_text(normalized_tokens_dict, search_text)
keys_with_text

['매수']

In [112]:
# 정규화된 토큰 분포
normalized_tokens_dict

{'에코프로': 44575,
 '?': 19667,
 'ㅋㅋㅋ': 16522,
 '에코': 10603,
 'ㅋㅋ': 7732,
 '시발': 5311,
 '지금': 5041,
 '주식': 4943,
 '오늘': 4214,
 '새끼': 4185,
 '만원': 3980,
 '진짜': 3659,
 '오르': 2753,
 '차전지': 2681,
 '!': 2639,
 '병신': 2540,
 '매수': 2477,
 '생각': 2439,
 '존나': 2435,
 '사람': 2422,
 '그냥': 2406,
 'ㄹㅇ': 2322,
 '개미': 2288,
 '근데': 2285,
 'ㅇㅇ': 2271,
 '종목': 2189,
 '공매도': 2007,
 'ㄷㄷ': 1979,
 '캬ㅋㅋㅋ': 1927,
 '아직': 1882,
 '이제': 1864,
 '수익': 1834,
 '코스닥': 1788,
 '내일': 1772,
 '신성': 1764,
 '정도': 1645,
 '다시': 1618,
 'ㄷㄷㄷ': 1600,
 '시총': 1578,
 '고점': 1576,
 '프로': 1535,
 '나오': 1500,
 '모르': 1451,
 '가능': 1450,
 '이유': 1436,
 '회사': 1428,
 '이상': 1402,
 '매도': 1394,
 '국장': 1375,
 '너무': 1344,
 '테슬라': 1343,
 '주주': 1310,
 '이런': 1307,
 '계속': 1293,
 '포스코': 1274,
 '많이': 1266,
 '시작': 1220,
 '주가': 1208,
 '상승': 1201,
 '실적': 1201,
 '어제': 1181,
 '투자': 1180,
 '다른': 1163,
 '비엠': 1163,
 '금양': 1163,
 '들어가': 1123,
 '간다': 1122,
 '차트': 1107,
 '이미': 1048,
 '시장': 1030,
 '배터리': 1021,
 '하락': 1011,
 '떨어지': 997,
 '세력': 991,
 '기업': 981,
 '운지': 981,


In [160]:
# 정규화된 토큰 분포
normalized_tokens_dict

{'에코프로': 44575,
 '?': 19667,
 'ㅋㅋㅋ': 16522,
 '에코': 10603,
 'ㅋㅋ': 7732,
 '시발': 5311,
 '지금': 5041,
 '주식': 4943,
 '올라': 4702,
 '오늘': 4214,
 '새끼': 4185,
 '만원': 3980,
 '진짜': 3659,
 '오르': 3009,
 '차전지': 2681,
 '!': 2639,
 '병신': 2540,
 '매수': 2477,
 '생각': 2439,
 '존나': 2435,
 '사람': 2422,
 '그냥': 2406,
 'ㄹㅇ': 2322,
 '개미': 2288,
 '근데': 2285,
 'ㅇㅇ': 2271,
 '종목': 2189,
 '공매도': 2007,
 'ㄷㄷ': 1979,
 '캬ㅋㅋㅋ': 1927,
 '아직': 1882,
 '이제': 1864,
 '수익': 1834,
 '코스닥': 1788,
 '내일': 1772,
 '신성': 1764,
 '내리': 1679,
 '정도': 1645,
 '다시': 1618,
 'ㄷㄷㄷ': 1600,
 '시총': 1578,
 '고점': 1576,
 '프로': 1535,
 '나오': 1500,
 '모르': 1451,
 '가능': 1450,
 '이유': 1436,
 '회사': 1428,
 '이상': 1402,
 '매도': 1394,
 '국장': 1375,
 '너무': 1344,
 '테슬라': 1343,
 '주주': 1310,
 '이런': 1307,
 '계속': 1293,
 '포스코': 1274,
 '많이': 1266,
 '시작': 1220,
 '주가': 1208,
 '상승': 1201,
 '실적': 1201,
 '어제': 1181,
 '투자': 1180,
 '다른': 1163,
 '비엠': 1163,
 '금양': 1163,
 '들어가': 1123,
 '간다': 1122,
 '차트': 1107,
 '이미': 1048,
 '시장': 1030,
 '배터리': 1021,
 '하락': 1011,
 '떨어지': 997,
 '세력': 991

In [164]:
# 정규화된 토큰 분포
normalized_tokens_dict

{'에코프로': 44575,
 '?': 19667,
 'ㅋㅋㅋ': 16522,
 '에코': 10603,
 'ㅋㅋ': 7732,
 '오르': 7397,
 '시발': 5311,
 '지금': 5041,
 '주식': 4943,
 '오늘': 4214,
 '새끼': 4185,
 '만원': 3980,
 '진짜': 3659,
 '차전지': 2681,
 '!': 2639,
 '병신': 2540,
 '매수': 2477,
 '생각': 2439,
 '존나': 2435,
 '사람': 2422,
 '그냥': 2406,
 'ㄹㅇ': 2322,
 '개미': 2288,
 '근데': 2285,
 'ㅇㅇ': 2271,
 '종목': 2189,
 '공매도': 2007,
 'ㄷㄷ': 1979,
 '캬ㅋㅋㅋ': 1927,
 '아직': 1882,
 '이제': 1864,
 '수익': 1834,
 '코스닥': 1788,
 '내일': 1772,
 '신성': 1764,
 '내리': 1679,
 '정도': 1645,
 '다시': 1618,
 'ㄷㄷㄷ': 1600,
 '시총': 1578,
 '고점': 1576,
 '프로': 1535,
 '나오': 1500,
 '모르': 1451,
 '가능': 1450,
 '이유': 1436,
 '회사': 1428,
 '이상': 1402,
 '매도': 1394,
 '국장': 1375,
 '너무': 1344,
 '테슬라': 1343,
 '주주': 1310,
 '이런': 1307,
 '계속': 1293,
 '포스코': 1274,
 '많이': 1266,
 '시작': 1220,
 '주가': 1208,
 '상승': 1201,
 '실적': 1201,
 '어제': 1181,
 '투자': 1180,
 '다른': 1163,
 '비엠': 1163,
 '금양': 1163,
 '들어가': 1123,
 '간다': 1122,
 '차트': 1107,
 '이미': 1048,
 '시장': 1030,
 '배터리': 1021,
 '하락': 1011,
 '떨어지': 997,
 '세력': 991,
 '기업': 981,

In [182]:
# 정규화된 토큰 분포
normalized_tokens_dict

{'에코프로': 44575,
 '?': 19667,
 'ㅋㅋㅋ': 16522,
 '에코': 10603,
 'ㅋㅋ': 7732,
 '오르': 7397,
 '시발': 5311,
 '지금': 5041,
 '주식': 4943,
 '오늘': 4214,
 '새끼': 4185,
 '만원': 3980,
 '진짜': 3659,
 '매수': 3212,
 '차전지': 2681,
 '!': 2639,
 '병신': 2540,
 '생각': 2439,
 '존나': 2435,
 '사람': 2422,
 '그냥': 2406,
 'ㄹㅇ': 2322,
 '개미': 2288,
 '근데': 2285,
 'ㅇㅇ': 2271,
 '종목': 2189,
 '공매도': 2007,
 'ㄷㄷ': 1979,
 '고점': 1936,
 '캬ㅋㅋㅋ': 1927,
 '아직': 1882,
 '이제': 1864,
 '수익': 1834,
 '코스닥': 1788,
 '내일': 1772,
 '신성': 1764,
 '내리': 1679,
 '정도': 1645,
 '다시': 1618,
 'ㄷㄷㄷ': 1600,
 '시총': 1578,
 '프로': 1535,
 '나오': 1500,
 '모르': 1451,
 '가능': 1450,
 '이유': 1436,
 '회사': 1428,
 '매도': 1419,
 '이상': 1402,
 '국장': 1375,
 '너무': 1344,
 '테슬라': 1343,
 '주주': 1310,
 '이런': 1307,
 '계속': 1293,
 '포스코': 1274,
 '많이': 1266,
 '시작': 1220,
 '주가': 1208,
 '상승': 1201,
 '실적': 1201,
 '어제': 1181,
 '투자': 1180,
 '다른': 1163,
 '비엠': 1163,
 '금양': 1163,
 '들어가': 1123,
 '간다': 1122,
 '차트': 1107,
 '이미': 1048,
 '시장': 1030,
 '배터리': 1021,
 '하락': 1011,
 '떨어지': 997,
 '세력': 991,
 '기업': 981,

In [167]:
search_token = "프로"
result_df = find_rows_containing_token(normalized_df, "tokens", search_token)
print(result_df)

       community    gall_id search_keyword   number date_created time_created  \
172     dcinside     snp500             에코   779500   2023-08-01     14:19:29   
272     dcinside     snp500             에코   775807   2023-07-28     09:08:43   
304     dcinside     snp500             에코   775345   2023-07-27     18:48:22   
321     dcinside     snp500             에코   775241   2023-07-27     16:57:39   
475     dcinside     snp500             에코   774983   2023-07-27     10:59:15   
...          ...        ...            ...      ...          ...          ...   
108374  dcinside  tenbagger             에코  4458141   2022-05-19     18:13:04   
108433  dcinside  tenbagger             에코  3977890   2021-10-06     03:15:26   
108487  dcinside  tenbagger             에코  3715314   2021-07-08     08:45:27   
108819  dcinside  tenbagger             에코   618736   2020-07-11     11:31:22   
108903  dcinside  tenbagger             에코   282447   2020-05-25     11:12:34   

             author  is_rep