# 6. 토큰 정규화 Normalizing tokens
- 토큰 분포를 확인한다
- 정규화해야할 리스트를 작성한다
- 정규화 진행

# 토큰 정규화 목적
- 이 프로젝트의 목적은, "감정표현으로 주가 흐름을 예측"하는 것이다.
- 고로 단어의 디테일이 중요한 것이 아닌, "어떤 의도이 이 단어가 표출 되었는가"가 중요하다.
- 변형/줄임이 있는 단어들을 하나의 단어로 통합한다.
- ex) 매수 <- '풀매수', '매수세', '순매수'
- 이렇게 해야 데이터 분석을 쉽게 할 수 있다

## 6-a. 파일 불러오기

In [1]:
import pandas as pd
fpath = "5_tokenized_data.csv"
df = pd.read_csv(fpath, encoding="utf-8")
df.head(30)

Unnamed: 0,community,gall_id,search_keyword,number,date_created,time_created,author,is_reply,text_length,spaced_text,tokens
0,dcinside,snp500,jyp,746844,2023-06-13,12:50:42,ㅇㅇ,0,42.0,jyp가반년만에 배가 올랏네 근디보니는인적자원위주로 하는 사업은먼ㅂㄹ걍제조업이조음,"['반년', '근디', '보니', '자원', '위주', '사업']"
1,dcinside,snp500,jyp,730087,2023-05-16,17:52:40,ㅇㅇ(118.34),0,91.0,야 개보지년들아 jyp 주가 봤냐 미쳣다 지금 개잡주 오르는건 그러려니 하는데 와 ...,"['개보', '지금', '개잡주', '오르', '그러', '진짜', '시발', '오..."
2,dcinside,snp500,jyp,730087,2023-05-16,17:52:48,ㅇㅇ(118.34),1,2.0,ㅠㅠ,['ㅠㅠ']
3,dcinside,snp500,jyp,730087,2023-05-16,18:04:04,ㅇㅇ(203.227),1,2.0,ㅠㅠ,['ㅠㅠ']
4,dcinside,snp500,jyp,714904,2023-04-17,22:00:45,설묘.,0,34.0,니들 jyp 어케 생각해? ㄹㅇ 개미 너무 많이 붙는거 같은데,"['어케', '생각', '?', 'ㄹㅇ', '개미', '너무', '많이']"
5,dcinside,snp500,jyp,714904,2023-04-17,22:01:10,ㅇㅇ(175.116),1,3.0,조용필,['조용필']
6,dcinside,snp500,jyp,714904,2023-04-17,22:01:17,영차추종,1,4.0,신포도야,"['신포', '도야']"
7,dcinside,snp500,jyp,714904,2023-04-17,22:01:32,영차추종,1,14.0,난 뉴턴이 될 생각 없으야,"['뉴턴', '생각']"
8,dcinside,snp500,jyp,714904,2023-04-17,22:01:42,새우고래,1,4.0,제왚ㅣ!,['!']
9,dcinside,snp500,jyp,714904,2023-04-17,22:01:43,부랄턱과500개의스캠들,1,20.0,에코프로를 보고도 급등주를 타려하느냐,"['에코', '프로', '급등주', '타려']"


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1053236 entries, 0 to 1053235
Data columns (total 11 columns):
 #   Column          Non-Null Count    Dtype  
---  ------          --------------    -----  
 0   community       1053236 non-null  object 
 1   gall_id         1053236 non-null  object 
 2   search_keyword  1053236 non-null  object 
 3   number          1053236 non-null  int64  
 4   date_created    1053236 non-null  object 
 5   time_created    1053236 non-null  object 
 6   author          1053236 non-null  object 
 7   is_reply        1053236 non-null  int64  
 8   text_length     1053236 non-null  float64
 9   spaced_text     1053236 non-null  object 
 10  tokens          1053236 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 88.4+ MB


## 6-b. 'tokens' 열의 문자열을 실제 리스트로 변환
- 결과 : df

In [4]:
import ast
# 'tokens' 열의 문자열을 실제 리스트로 변환
df['tokens'] = df['tokens'].apply(ast.literal_eval)

## 6-c. 토큰이 비어있는 열 없애기
- 결과 : df
- 1053236 개 -> 1013893 개(39343 개 삭제)

In [25]:
df = df[df['tokens'].map(bool)]
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1013893 entries, 0 to 1053235
Data columns (total 11 columns):
 #   Column          Non-Null Count    Dtype  
---  ------          --------------    -----  
 0   community       1013893 non-null  object 
 1   gall_id         1013893 non-null  object 
 2   search_keyword  1013893 non-null  object 
 3   number          1013893 non-null  int64  
 4   date_created    1013893 non-null  object 
 5   time_created    1013893 non-null  object 
 6   author          1013893 non-null  object 
 7   is_reply        1013893 non-null  int64  
 8   text_length     1013893 non-null  float64
 9   spaced_text     1013893 non-null  object 
 10  tokens          1013893 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 92.8+ MB


## 6-d. 토큰 분포를 딕셔너리로 만들기

### 6-d-1. 함수 제작

In [7]:
"""
주어진 데이터프레임의 지정된 열에 대해 토큰의 등장 빈도를 계산하고, 
빈도가 높은 순으로 정렬된 전체 토큰과 그 빈도를 딕셔너리로 반환하는 함수입니다. 

:param dataframe: pandas 데이터프레임
:param column_name: 토큰이 포함된 열의 이름
:return: 토큰과 그 빈도를 포함하는 딕셔너리
"""

from collections import Counter

def make_tokens_count_dict(dataframe, column_name):

    # 토큰별로 각 행에서의 출현 여부를 체크
    token_presence = dataframe[column_name].apply(lambda tokens: set(tokens))

    # 모든 행에 대해 토큰의 출현 횟수를 세기
    token_count = Counter()
    for tokens in token_presence:
        token_count.update(tokens)

    # 빈도가 높은 순으로 토큰 정렬
    sorted_tokens = dict(sorted(token_count.items(), key=lambda item: item[1], reverse=True))

    return sorted_tokens

### 6-d-2.  함수 실행

In [26]:
# 함수를 사용하여 딕셔너리를 생성
sorted_tokens_dict = make_tokens_count_dict(df, 'tokens')

### 6-d-3. 결과 딕셔너리 출력

In [27]:
sorted_tokens_dict

{'?': 196686,
 'ㅋㅋ': 142131,
 '카카오': 58490,
 '에코': 51069,
 '주식': 45109,
 'ㅋㅋㅋ': 42721,
 '하이닉스': 42582,
 '지금': 42326,
 '프로': 40144,
 '셀트': 37868,
 '셀트리온': 36556,
 '삼전': 35697,
 '오늘': 31911,
 '현대차': 30578,
 '하닉': 30272,
 '생각': 27400,
 '진짜': 27211,
 'ㄷㄷ': 25795,
 '새끼': 24680,
 '!': 24493,
 '그냥': 23812,
 '근데': 23101,
 '펄어비스': 22380,
 '존나': 22284,
 'ㅇㅇ': 22249,
 '만원': 21920,
 '사람': 20318,
 '회사': 20309,
 '오르': 20168,
 'ㄹㅇ': 19305,
 '정도': 18888,
 '기업': 18870,
 '매수': 17946,
 '종목': 17907,
 '투자': 17505,
 '한국': 17240,
 '네이버': 16587,
 '가능': 16289,
 '모르': 16083,
 '많이': 15675,
 '시총': 15399,
 '너무': 15265,
 '나오': 15190,
 '이제': 15082,
 '이런': 15046,
 '주가': 14856,
 '내일': 14856,
 '이마트': 14806,
 '아직': 14732,
 '병신': 14719,
 '이유': 14441,
 '엔솔': 14398,
 '게임': 14296,
 '엔씨': 14190,
 '시발': 14098,
 '수익': 13890,
 '개미': 13692,
 '미국': 13640,
 '반도체': 13225,
 'ㅠㅠ': 13202,
 '이상': 12934,
 '다시': 12872,
 '시장': 12538,
 '삼성': 12480,
 '코스피': 12329,
 '실적': 12065,
 '계속': 11784,
 '테슬라': 11738,
 '다른': 11708,
 '때문': 11548,
 '들어가'

## 6-e. 토큰 분포 검색하여, 정규화 해야할 단어 리스트 만들기

### 6-e-1. 토큰 분포 검색

In [12]:
    """
    주어진 딕셔너리에서 입력된 텍스트를 포함하는 모든 키를 찾아 리스트로 반환하는 함수입니다.

    :param input_dict: 검색할 딕셔너리
    :param search_text: 찾고자 하는 텍스트
    :return: 입력된 텍스트를 포함하는 키들의 리스트
    """

def find_keys_containing_text(input_dict, search_text):
  # 입력된 텍스트를 포함하는 키를 찾기
  keys_with_text = [key for key in input_dict if search_text in key]

  return keys_with_text

In [48]:
search_text = "씨"
keys_with_text = find_keys_containing_text(sorted_tokens_dict, search_text)
keys_with_text

['엔씨',
 '씨발',
 '엔씨소프트',
 '씨젠',
 '아저씨',
 '비엔씨',
 '개씨발',
 '엔씨발',
 '씨팔',
 '씨부리',
 '에프엔씨',
 '엔씨랑',
 '씨드',
 '디피씨',
 '씨티',
 '날씨',
 '씨에스윈드',
 '지엔씨에너지',
 '씨아이에스',
 '엑사이엔씨',
 '엠씨넥스',
 '에이블씨엔씨',
 '씨발놈',
 '구씨',
 '이씨',
 '씨제이',
 '씨이',
 '씨부랄',
 '아씨',
 '씨부려',
 '씨엔씨',
 '씨방',
 '엠씨',
 '비씨',
 '글씨',
 '배터리아저씨',
 '이엠씨',
 '아자씨',
 '불씨',
 '솜씨',
 '모씨',
 '씨씨',
 '제이씨',
 '밧데리아저씨',
 '씨알',
 '씨앗',
 '씨익',
 '씨엘',
 '씨발씨발',
 '아가씨',
 '씨도',
 '씨부렸',
 '허씨',
 '씨아',
 '얼씨구나',
 '얼씨구',
 '씨부럴',
 '성씨',
 '아이씨',
 '손씨',
 '씨이팔',
 '마음씨',
 '에이씨',
 '우씨',
 '열씨',
 '씨네',
 '씨비',
 '억씨',
 '씨트리',
 '함씨',
 '임씨',
 '씨름',
 '씨눈',
 '씨마',
 '씨이잉',
 '글씨체',
 '씨버럴',
 '창씨개명',
 '양씨',
 '씨래',
 '미씨',
 '비씨카드',
 '팔씨름',
 '씨엔블루',
 '남씨',
 '씨킹',
 '씨소',
 '수씨',
 '씨스타',
 '어이씨',
 '창씨',
 '해씨',
 '씨부렁거리',
 '씨모',
 '맘씨',
 '자씨',
 '아짐씨',
 '씨갈',
 '애씨',
 '배씨',
 '씨세',
 '옥씨',
 '씨보',
 '씨리',
 '삼씨',
 '빈씨',
 '매씨',
 '줄씨',
 '절씨구',
 '정씨',
 '씨드림',
 '씨벌놈',
 '말씨',
 '화씨',
 '소씨',
 '겨자씨',
 '씨벌이',
 '담배씨',
 '셈씨',
 '씨오',
 '씨물',
 '을씨년스러웠',
 '씨시',
 '동씨',
 '꼬부랑글씨',
 '제수씨',
 '씨뿌리',
 '숙씨',
 '씨받',
 '씨부렁대

### 6-e-2. df 에서 특정 token 을 포함하는 row 찾아서 출력

In [15]:
    """
    주어진 데이터프레임에서 특정 열에 입력된 토큰을 포함하는 모든 행을 찾아 반환하는 함수입니다.

    :param dataframe: 검색할 데이터프레임
    :param column_name: 토큰이 포함된 열의 이름
    :param search_token: 찾고자 하는 토큰
    :return: 입력된 토큰을 포함하는 모든 행
    """

def find_rows_containing_token(dataframe, column_name, search_token):
  # 입력된 토큰을 포함하는 행을 필터링
  filtered_rows = dataframe[dataframe[column_name].apply(lambda tokens: search_token in tokens)]

  return filtered_rows

In [47]:
# 특정 token 을 포함하는 row 출력
search_token = "에코"
result_df = find_rows_containing_token(df, "tokens", search_token)
print(result_df)

        community       gall_id search_keyword   number date_created  \
9        dcinside        snp500            jyp   714904   2023-04-17   
82       dcinside  koreafutures            jyp    36754   2023-08-11   
306      dcinside       stockus            jyp  5851640   2023-06-14   
4276     dcinside         jusik            jyp  1128491   2018-10-22   
6177     dcinside         jusik            jyp   586341   2018-03-26   
...           ...           ...            ...      ...          ...   
1036270  dcinside         kospi            현대차   463482   2020-07-19   
1036275  dcinside         kospi            현대차   463482   2020-07-19   
1036276  dcinside         kospi            현대차   463482   2020-07-19   
1039661  dcinside     tenbagger            현대차  4392675   2022-04-07   
1052369  dcinside        jaetae             휴젤   979114   2021-10-11   

        time_created        author  is_reply  text_length  \
9           22:01:43  부랄턱과500개의스캠들         1         20.0   
82          1

## 6-f. 토큰 정규화

### 6-f-1. 토큰 정규화 함수

In [18]:
def normalize_tokens_with_dict(dataframe, column_name, normalization_dict):
    """
    데이터프레임 내에서 지정된 열의 토큰들을 주어진 정규화 딕셔너리에 따라 변경하는 함수입니다.

    :param dataframe: 정규화할 데이터프레임
    :param column_name: 토큰이 포함된 열의 이름
    :param normalization_dict: 정규화를 위한 딕셔너리. 예: {"에코프로": ["에코호로", ...], "시발": ["ㅅㅂ", ...]}
    :return: 정규화된 데이터프레임
    """
    # 토큰 정규화 함수
    def normalize(token_list):
        return [next((key for key, values in normalization_dict.items() if token in values), token) for token in token_list]

    # 정규화 적용
    dataframe[column_name] = dataframe[column_name].apply(normalize)

    return dataframe

### 6-b-2. 정규화 목록 딕셔너리 만들기

In [191]:
# 정규화 목록 딕셔너리
normalization_dict = { 
    "시발": [
        'ㅅㅂ', 'ㅆㅂ', 'ㅅㅂㅋㅋ', '씨발', '씨발년', '씨발련', '씨팔', '씨부리', '씨발놈', '씨부랄', '씨부럴', '씨이팔', '씨발씨발', '시벌', '개씹'
        '개씨발', '엔씨발', '씨부렁거리'
    ],
    "병신": [
        'ㅂㅅ', '븅신', '개병', '빙신', '등신', '좆병신', '병신임', '염병', '정신병자', '병신짓', '병시', '병신이라', '병신이네',
        '병신이지', '병신드라', '반병신', '븅신새끼', '밥병신', '다리병신', '배냇병신', '병신춤'
    ],
    "새끼": [
        '새끼들', '새기', '새낀', '새리', '새꺄', '애새끼', '이새끼', '저새끼', '세끼', '개새끼', '호로새끼', '십새끼', '씹새끼', '씹새끼들'
        '새기노', '보새기', '새끼들임', '거지새끼', '틀딱새끼', '쥐새끼', '종자새끼', '새끼틀', '오른새끼',
    ],
    "미친": [
        '미친놈', '미친년', '미친듯이', '미치', '미쳐', '미쳐서', '미쳐야', '미쳐도', '미칠', '미칠려면', '미쳤', '미쳤네', '미쳤다', '미쳤었',
        '미친다', '미친개', '미친다고', '미친다는'
    ],
    "애미": [
        '에미', '니미'
    ],
    "오르": [
        '오르네', '오르노', '오르면', '오르냐', '떠오르', '날아오르', '오르고', '오르는데', '타오르', '기어오르', '불타오르', '오르는거', 
        '차오르', '나오르', '뛰어오르', '솟아오르', '오르는', '오르길', '달아오르', '올리', '올랐', '올라가', '올라', '올려', '올린', '올라서', 
        '올라갈', '올릴', '올렸', '올라도', '올라오', '올라타', '올림', 
        '올라야', '올라간', '올라감', '올려서', '쳐올리', '올라갔', '올라간다', '올라왔', '올린다', '끌어올리', '올랐으니', '올라온', 
        '들어올리', '올린다고', '올라탈', '올려라', '올라옴', '올라탄', '올려야', '끌어올린', '올라올', '쳐올라', '쳐올릴', '나올지', 
        '올르', '올라갈지', '올라탔', '올랐었', '올라와서', '올라간다고', '올라라', '올려도', '끌어올렸', '올라탄다', '올린다는', 
        '올라와', '쳐올림', '끌어올려', '끌어올려서', '끌어올릴', '들어올려', '올른', '올라온다', '올름', '올린다니까', '끌어올린다', 
        '올립니다', '올라와야', '올라간다는', '올릴라', '올린다면', '올려야지', '올려준다', '올라갔으면', '올랐는데', '올릴까', '날아올라', 
        '올렸었', '퍼올려', '올라요', '기어올라가', '올렸으니', '올러', '올라갈까', '올랐으나', '뛰어올랐', '올라갈수록', '날아올랐', 
        '올렸으며', '올려요', '끌어올려야', '올라봐라', '올려붙이', '날아올', '올루', '올려둔', '올릴려면', '올라갔었', '올린다구', 
        '올려줘도', '끌어올려줄', '올라온다는', '밀어올리기', '올려놔서', '끌어올린는', '뛰어올라', '올라와도', '기어올라왔', '끌어올려준', 
        '올라간다면', '올까봐', '끌어올렸으면', '올릴수록', '따라올라갔', '올라간다니까',
        '오르더라', '오르는중', '오르니까', '오르겠네', '오르던데', '오르겠지', '오르길래', '오르냐고', '오르막', '끓어오르', '오르는건',
        '물오르', '오르로', '마이오르', '오르르',  '오르반', '오르막길', '올랐음', '올랐네', '올랐어', '달아올랐', '부풀어올랐',
        '차올랐', '올랐으면', '올랐으며', '불타올랐', '올랐을지도', '기어올랐', '올랐던데', '올라갈때', '올라타라', '올라갈듯', '올라갑니다',
        '올라가네', '올라섰', '기어올라', '올라선', '올라오면', '올라온다고', '올라갈려고', '기어올라오', '올라왔으니', '올라간단', '올라탈까',
        '올라간다니', '올라설', '올라갑시다', '올라온다면', '올라자', '기어올라갈', '끓어올라', '올라붙', '올라가는데', '케올라', '올라올거고',
        '올라선다', '기어올라와서', '기어올라갔', '메올라', '사올라', '뛰어올라가', '올라앉', '올라갈만', '불타올라서',
        '들어올렸', '떠올렸', '올렸으나', '올렸는데', '퍼올렸', '올려놓', '올려주세요', '올려놨',
    ],
    "내리": [
        '내리', '내려가', '내릴', '내려', '내렸', '내려갈', '내려오', '내린', '내림', '내려감', '내려올', '내려갔', '내려야', '내려도', 
        '내려서', '흘러내리', '쳐내리', '끌어내리', '내린다', '내린다고', '내려간', '내려간다', '내려왔', '내려와', '내려온', '내려라', 
        '내릴지', '내려옴', '내린다는', '내려와', '내리막', '내려온다', '내려와라', '내릴까', '내려앉', '내려야지', '내려간다고', 
        '내려온다고', '내립니다', '내리막길', '흘러내릴', '내릴라고', '내려갑다', '녹아내리', '내려간다면', '내려와야', '흘러내린다', 
        '내려간다는', '내리락하', '내려줘야', '끌어내린', '내려줄', '내릴래', '끌어내려서', '끌어내릴', '내려버렸', '흘러내려도', 
        '내렸으니', '내려지', '내려졌었', '내려왔으니', '내려갈까', '흘러내려', '쳐내려가', '내려져', '내려졌', '내려왔었', '쳐내려갔',
        '내려다', '내려간다구', '흘러내렸', '끌어내려', '내려갈수록', '내리고', '내리기'

    ],
    "들어오": [
        '들어오', '들어온', '들어왔', '들어올', '들어와서', '들어옴', '들어와', '들어온다', '들어와야', '들어와라', '들어옵니다', 
        '들어온다고', '들어와도', '들어온다는', '들어올까', '쳐들어와서', '들어온지', '들어왔으니', '들어온대', '들어올라고', '들어온다면',
        '들어와요', '들어와두', '쳐들어와', '쳐들어와라', '기어들어오', '쳐들어오', '들어오면', '뛰어들어오', '들어오는데'
    ],
    "들어가": [
        '들어가', '들어갔', '들어간', '들어갈', '들어감', '들어간다', '들어갈까', '들어간다고', '들어갔었', '들어갑니다', '들어갈려고', 
        '들어간다는', '들어갈지', '들어간단','기어들어가', '들어간대', '들어간다니', '들어간다네', '들어간단다', '들어가서','쳐들어간',
        '들어가라', '들어가야지', '들어가볼까', '들어가지', '쳐들어가', '들어가기', '들어가고'
    ],
    "떨어지": [
        '떨어질', '떨구', '떨어졌', '떨어진', '떨어짐', '떨어져', '떨굴', '떨어져도', '떨어진다', '떨어져서', '떨어져야', '떨궈', 
        '떨어진다고', '떨궜', '떨군', '떨어', '떨어질지', '떨어질까', '떨어졌으면', '떨어진다는', '떨군다', '떨어져라', '떨어지면', 
        '떨어질까봐', '떨어지', '떨어졌었', '떨어집니다', '떨어뜨리', '떨어트리', '떨어트려', '떨어뜨릴', '떨어졌으니', '떨어져요', 
        '떨어진다며', '떨어진단', '떨어진단다', '굴러떨어지', '떨어트린', '떨어져나간', '떨어질수록', '떨어질래야', '떨궈진', '떨어졌으나', 
        '떨여지', '떨어져나감', '굴러떨어져', '떨어지네', '떨어지노', '떨어지는데', '뒤떨어지', '떨어지니까',
        '떨어지고', '외떨어지'
    ],
    "매수": [
        '풀매수', '매수세', '순매수', '종가매수', '매수한', '공매수', '공개매수', '매수인', '분할매수', '매수함', '매수해라', '저점매수',
        '매수타이밍', '매수해라', '추가매수', '매수중', '재매수', '신용풀매수', '풀매수각', '풀매수한', '풀매수함', '매수할', '매수타점',
        '신규매수', '매수가', '매수해서', '매수하라', '매수하면', '매수했는데', '매수하고', '매수리'
    ],
    "매도": [
        '순매도', '매도질', '분할매도', '매도리포트', '매도타이밍', '매도가', '매도우', '매도인', '매도환', '매도해서', '매도어', '매도래'
    ],
    "인버스": [
        '닥버스', '곱버스'
    ],
    "주식": [
        '장주식', '이주식', '지주식', '주식비', '신주식', '입주식', '민주식', '성주식', '주주식'
    ],
    "지금": [
        '지금껏', '지금이라도', '지금도', '지금보니'
    ],
    "오늘": [
        '오늘도', '나오늘'
    ],
    "만원일때": [
        '만원때'
    ],
    "시총": [
        '시가총액'
    ],
    "모르": [
        '모르노', '모르쇠', '모르나', '모르자나', '몰라', '몰라도', '몰랐', '몰라서', '몰랑', '몰라요', '몰랐다', '몰루', '몰르', '몰러', 
        '아몰', '몰라유', '모르겠음', '모르네', '모르면', '모르는데', '모르시', '모르잔', '모르간', '남모르',
        '모르겠네요', '모르겠는데', '모르겠네'
    ],
    "손절": [
        '손절매'
    ],
    "존나": [
        'ㅈㄴ', '존나게', '졸라', '죤나', '줜나'
    ],
    "호재": [
        '호재성', '이호재', '호재임', '호재라고', '김호재', '신호재'
    ],
    "미장": [
        '미장가', '미장이'
    ],

    "하락": [
        '하락장', '하락세'
    ],
    "상승": [
        '상승세', '급상승', '상승각', '상승기', '배상승'
    ],
    "운지": [
        '운지하', '운지하면'
    ],
    "거품": [
        '개거품', '거품이라', '게거품', '거품기', '물거품'
    ],
    "가능": [
        '가능성'
    ],
    "너무": [
        '너무나', '너무너무'
    ],
    "에코프로": [
        '에코', '에코호로', '에코프로비엠', '에코호로비엠', '에코비엠', '에코후로', '에코형제', '에코푸로', '에코호', '에코다', '비엠', 
        '에코바이오'
    ], 
    "이차전지": [
        '차전', '차전지', '좆차전지', '차전지주', '차전자', '전지', '전지용'
    ],
    "초전도체": [
        '초전도치', '초전', '초전도', '전도체'
    ],
    "현대": [
        '횬다이', '현대차', '현대모비스', '현대차랑', '현대자동차', '현대기아차', '현대차그룹', '현대중공업', '현대제철', '현대차우',
        '현대에너지솔루션', '현대백화점', '현대로템', '현대글로비스', '현대차증권', '현대산업개발', '현대그룹', '조현대', '현대홈쇼핑',
        '현대판', '현대인', '현대캐피탈', '현대증권', '현대전', '현대사', '현대아산', '현대시', '현대식', '신현대', '이현대', '김현대',
        '현대호', '현대요트', '현대건설그룹'
    ],       
    "삼성전자": [
        '삼전', '안삼성', '삼성암', '박삼성', '삼성부', '삼성전자랑'
    ],        
    "엔비디아": [
        '엔비'
    ],
    "sk하이닉스": [
        '하이닉스', '하이닉스랑', '하닉', 'sk하닉', '하닉이랑'
    ],
    "카카오": [
        'ㅋㅋㅏ카오', '카카오', '카카오게임즈', '카카오페이', '카카오뱅크', '카카오톡', '카카오랑', '카카오스탁', '카카',
        '카카오증권', '카카오택시', '카카오페이지', '카카오엔터', '카카오페이증권', '카카오모빌리티', '카카오스토리',
    ],
    "셀트리온": [
        '셀트'
    ],
    "lg에너지솔루션": [
        '엔솔', 'lg엔솔', '엘엔솔', '엘지엔솔', '엔솔이랑', '에너지솔루션', '엘지에너지솔루션'
    ],
    "lg화학": [
        '엘화', '엘화우', '엘화랑', '엘지화학',
    ],
    "ㅋㅋ": [
        'ㅋㅋㅋ'
    ],
    "ㄷㄷ": [
        'ㅎㄷㄷ'
    ],
    "?": [
        '몰?루', '!?', '!?!', '!?!?', '?!', '!?!?!?!', '?!?', '!?!?!', '?!?!?', '!?!?!?', '?!?!?!', '!?!?!?!?!?!?!?!?!?!', '!?!?!?!?!', '!?!?!?!?'
    ],
    "몰빵": [
        '몰빵한', '미수몰빵', '몰빵함', '신용몰빵', '몰빵해서', '몰빵해라', '몰빵했는데', '몰빵하면', '몰빵하고'
    ],
    "개미": [
        '독개미', '슈퍼개미', '불개미', '여왕개미', '개미군단', '왕개미', '개미탑', '개미굴', '개미핥기', '밥개미',
        '개미집', '개미풀', '일개미', '개미귀신', '자개미', '개미피', '수개미', '보개미', '지개미', '물개미', '날개미', '개미산', '개미장',
        '불독개미', '모개미', '병정개미', '개미총', '비개미'
    ],
    "기관": [
        '개관'
    ],
    "실적": [
        '실적주', '실적주의'
    ],
    "좋아": [
        '좋아함', '좋아보임', '좋아하', '운좋게', '좋겠음', '좋아할', '좋아해서', '좋네요', '좋더라', '좋아해', '좋아요', '사이좋', '좋아한다',
        '좋긴한데', '좋으면', '좋아합니다', '좋아한', '좋아보이는데', '좋을듯', '좋던데', '좋아했', '보기좋', '나좋', '좋찮', '좋아허', '좋아한다구요',
    ],
    "괜찮": [
        '괜찮음', '괜찮네', '괜찮을듯', '괜찮아', '괜찮은데'
    ],
    "그냥": [
        '그냥저냥',
    ],
    "반도체": [
        '반도제', '반도체주', '반도체쪽', '반도체랑', '시스템반도체', '메모리반도체',
    ],
    "진짜": [
        '진짜면', '진짜로', '진짜배기', '진짜루'
    ],
    "근데": [
        '근데도'
    ],
    "추천": [
        '추천좀', '추천주', '종목추천', '추천함', '추천해준', '추천자', '추천요', 
    ],
    "개잡주": [
        '잡주'
    ],
    "고점": [
        '전고점', '최고점', '고점신호', '고점임', '고점찍고', '응고점', '고점이라고'
    ],
    "저점": [
        '저점이라고'
    ],
}

### 6-b-3. df의 토큰 정규화시키기

In [189]:
# df에 적용하여 새로운 df 생성
normalized_df = normalize_tokens_with_dict(df, 'tokens', normalization_dict)
normalized_tokens_dict = make_tokens_count_dict(normalized_df, 'tokens') 
print(normalized_df)

        community    gall_id search_keyword  number date_created time_created  \
0        dcinside     snp500            jyp  746844   2023-06-13     12:50:42   
1        dcinside     snp500            jyp  730087   2023-05-16     17:52:40   
2        dcinside     snp500            jyp  730087   2023-05-16     17:52:48   
3        dcinside     snp500            jyp  730087   2023-05-16     18:04:04   
4        dcinside     snp500            jyp  714904   2023-04-17     22:00:45   
...           ...        ...            ...     ...          ...          ...   
1053231  dcinside  tenbagger             휴젤  137263   2020-04-30     20:08:57   
1053232  dcinside  tenbagger             휴젤  137263   2020-04-30     20:09:36   
1053233  dcinside  tenbagger             휴젤  125127   2020-04-29     11:55:10   
1053234  dcinside  tenbagger             휴젤  125127   2020-04-29     11:56:16   
1053235  dcinside  tenbagger             휴젤  125127   2020-04-29     11:56:38   

               author  is_r

In [38]:
normalized_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1013893 entries, 0 to 1053235
Data columns (total 11 columns):
 #   Column          Non-Null Count    Dtype  
---  ------          --------------    -----  
 0   community       1013893 non-null  object 
 1   gall_id         1013893 non-null  object 
 2   search_keyword  1013893 non-null  object 
 3   number          1013893 non-null  int64  
 4   date_created    1013893 non-null  object 
 5   time_created    1013893 non-null  object 
 6   author          1013893 non-null  object 
 7   is_reply        1013893 non-null  int64  
 8   text_length     1013893 non-null  float64
 9   spaced_text     1013893 non-null  object 
 10  tokens          1013893 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 92.8+ MB


### 6-b-4. 토큰 정규화 잘 되었는지 확인
- 기존의 토큰들이 전부 대체된 것을 확인할 수 있다

In [194]:
search_text = "빠지"
keys_with_text = find_keys_containing_text(normalized_tokens_dict, search_text)
keys_with_text

['빠지',
 '빠지네',
 '빠지면',
 '빠지냐',
 '빠지고',
 '자빠지',
 '빠지니까',
 '빠지는데',
 '나자빠지',
 '나빠지',
 '빠지는건',
 '맥빠지',
 '잘빠지',
 '흔해빠지']

In [179]:
# df 에서 특정 token 을 포함하는 row 찾아서 출력
search_token = "추천인"
result_df = find_rows_containing_token(normalized_df, "tokens", search_token)
print(result_df)

        community   gall_id search_keyword   number date_created time_created  \
632      dcinside   stockus            jyp  1524294   2021-06-10     16:43:53   
83224    dcinside     jusik             기아  3871636   2022-04-14     19:25:41   
119965   dcinside  neostock            넷마블    67257   2020-09-09     16:49:08   
119975   dcinside  neostock            넷마블    67234   2020-09-09     15:58:43   
241457   dcinside  neostock             셀트    67898   2020-09-10     17:19:23   
282775   dcinside  neostock            아모레    67257   2020-09-09     16:49:08   
288823   dcinside     jusik            에스엠    22748   2017-01-08     22:51:49   
505575   dcinside     jusik            이마트  1921083   2019-08-10     15:33:10   
508642   dcinside     jusik            이마트  1659495   2019-05-13     15:17:20   
571128   dcinside   stockus            카카오   983074   2021-03-20     10:00:20   
571386   dcinside   stockus            카카오   903051   2021-03-12     03:47:34   
571387   dcinside   stockus 

In [196]:
# 정규화된 토큰 분포
normalized_tokens_dict

{'?': 196837,
 'ㅋㅋ': 173190,
 'sk하이닉스': 76604,
 '셀트리온': 72411,
 '카카오': 71243,
 '에코프로': 59610,
 '오르': 55017,
 '주식': 45209,
 '삼성전자': 42825,
 '지금': 42395,
 '프로': 40144,
 '현대': 39878,
 '시발': 37048,
 '오늘': 31912,
 '존나': 29502,
 '새끼': 29488,
 'ㄷㄷ': 28467,
 '진짜': 27542,
 '생각': 27400,
 '매수': 27386,
 '!': 24493,
 '그냥': 23884,
 '병신': 23488,
 '근데': 23146,
 '펄어비스': 22380,
 'ㅇㅇ': 22249,
 '만원': 21920,
 '모르': 21176,
 '떨어지': 20437,
 '사람': 20318,
 '회사': 20309,
 'lg에너지솔루션': 19743,
 'lg화학': 19690,
 'ㄹㅇ': 19305,
 '들어가': 19192,
 '정도': 18888,
 '기업': 18870,
 '종목': 17907,
 '투자': 17505,
 '한국': 17240,
 '네이버': 16587,
 '시총': 16508,
 '가능': 16323,
 '많이': 15675,
 '너무': 15494,
 '나오': 15190,
 '이제': 15082,
 '이런': 15046,
 '주가': 14856,
 '내일': 14856,
 '이마트': 14806,
 '아직': 14732,
 '개미': 14590,
 '이유': 14441,
 '게임': 14296,
 '엔씨': 14190,
 '수익': 13890,
 '반도체': 13870,
 '미국': 13640,
 'ㅠㅠ': 13202,
 '이상': 12934,
 '다시': 12872,
 '시장': 12538,
 '삼성': 12480,
 '내리': 12457,
 '코스피': 12329,
 '실적': 12321,
 '계속': 11784,
 '테슬라': 11738,
 '다른':

In [197]:
normalized_df.head()

Unnamed: 0,community,gall_id,search_keyword,number,date_created,time_created,author,is_reply,text_length,spaced_text,tokens
0,dcinside,snp500,jyp,746844,2023-06-13,12:50:42,ㅇㅇ,0,42.0,jyp가반년만에 배가 올랏네 근디보니는인적자원위주로 하는 사업은먼ㅂㄹ걍제조업이조음,"[반년, 근디, 보니, 자원, 위주, 사업]"
1,dcinside,snp500,jyp,730087,2023-05-16,17:52:40,ㅇㅇ(118.34),0,91.0,야 개보지년들아 jyp 주가 봤냐 미쳣다 지금 개잡주 오르는건 그러려니 하는데 와 ...,"[개보, 지금, 개잡주, 오르, 그러, 진짜, 시발, 오르, 지수추종, 시발, 이러..."
2,dcinside,snp500,jyp,730087,2023-05-16,17:52:48,ㅇㅇ(118.34),1,2.0,ㅠㅠ,[ㅠㅠ]
3,dcinside,snp500,jyp,730087,2023-05-16,18:04:04,ㅇㅇ(203.227),1,2.0,ㅠㅠ,[ㅠㅠ]
4,dcinside,snp500,jyp,714904,2023-04-17,22:00:45,설묘.,0,34.0,니들 jyp 어케 생각해? ㄹㅇ 개미 너무 많이 붙는거 같은데,"[어케, 생각, ?, ㄹㅇ, 개미, 너무, 많이]"


### 6-b-5. 파일로 저장하기

In [198]:
save_file_path = "6_normalized_data.csv"
normalized_df.to_csv(save_file_path, index=False, encoding="utf-8")