<a href="https://colab.research.google.com/github/Kimhansav/everynocode_search_engine/blob/main/BP_preprocess.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
#모두의노코드 게시글, 한국 버블 사용자 커뮤니티 오픈톡방 내용 전처리 코드(로컬)

In [2]:
import pandas as pd
import numpy as np
import re
import os
import tensorflow as tf
import urllib.request
from tqdm import tqdm
from transformers import shape_list, BertTokenizer, TFBertModel
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.preprocessing.sequence import pad_sequences


## 카카오톡 대화내용 전처리

In [3]:
#카카오톡 텍스트 로드 후 정규표현식으로 메시지 구분
#C:\Users\벅성현\Desktop
from google.colab import drive
drive.mount('/content/drive')
file_path = '/content/drive/My Drive/KakaoTalkChats-1.txt'
with open(file_path, 'r', encoding = 'utf-8') as f:
  file_content = f.read()
  # "https"를 포함하는 모든 링크 삭제(https 발견 시 그 다음에 나타나는 공백 바로 전까지의 문자열을 링크로 간주)
  file_content = re.sub(r'https?:\/\/\S+', '', file_content)

Mounted at /content/drive


In [4]:
date_pattern = re.compile(r'\d{4}년 \d{1,2}월 \d{1,2}일')

def split_messages_by_date(text):
    # 날짜 위치를 찾아 리스트로 저장
    dates = [match.start() for match in date_pattern.finditer(text)]
    messages = []
    send_dates = []

    # 각 날짜 위치를 기준으로 메시지 분리
    for i in range(len(dates)):
        start = dates[i]
        # 마지막 날짜라면, 텍스트의 끝까지를 메시지로 추출
        end = dates[i + 1] if i + 1 < len(dates) else len(text)
        message = text[start:end].strip()
        idx_dot = message.find(':') #시간 사이에 있는 : 위치 찾아내기
        idx_comma, idx_dot = message.find(','), message.find(':', idx_dot + 1)
        if (idx_dot == -1): #누군가 메시지를 보낸 줄이 아닌 경우를 모두 포함, 이때는 메시지를 추가하지 않고 넘어간다.
          continue
        else:
          #메시지 보낸 사람, 메시지 내용, 보낸 날짜로 message 구성
          message = [message[idx_comma + 1 : idx_dot - 1], message[idx_dot + 1 :], message[0 : idx_comma]]
        messages.append(message)

    return messages

messages = split_messages_by_date(file_content)
print(messages[:5])

[[' 조용찬 / 백엔드 개발자', ' <사진 읽지 않음>', '2023년 6월 15일 오후 2:14'], [' 조용찬 / 백엔드 개발자', ' deltaPercent의 절대값이 큰 값부터 데이터를 정렬하고 싶은데.\ndeltaPercent가 양수, 음수 모두 존재할 때 절대값으로 바꾸는 방법 아시는 분 있으실까요?', '2023년 6월 15일 오후 2:15'], [' 조용찬 / 백엔드 개발자', ' 예를 들어 deltaPercent 값이 -1, -3, 2, 5 이렇게 존재할 때, 이를 모두 절대값으로 바꾼 후 5, 3, 2, 1 순서로 정렬하려고 합니다!', '2023년 6월 15일 오후 2:19'], [' 배문형 / 프리랜스', ' 익스프레션 내에서 조건식을 사용할 수가 없어서 condition을 사용하는 수밖에 없겠는데요.. 쩝', '2023년 6월 15일 오후 2:26'], [' 배문형 / 프리랜스', ' condition으로 0보다 작으면 -1 곱하면 되겠습니다', '2023년 6월 15일 오후 2:27']]


In [21]:
#첫 번째 요소는 사람 이름, 두 번째 요소는 텍스트 내용을 가지고 있는 리스트를 묶은 리스트를 pandas로 읽기
df = pd.DataFrame(messages, columns = ['name', 'text', 'date'])

#메시지에 .png, jpg, 삭제된 메시지입니다, 사진 읽지 않음, 동영상 읽지 않음 포함하면 삭제
del_ids = df[df['text'].str.contains('\.png|\.jpg|삭제된 메시지입니다|사진 읽지 않음|동영상 읽지 않음')].index #df[df['text'].str.contains('<사진 읽지 않음>') | df['text'].str.contains('.png') | df['text'].str.contains('삭제된 메시지입니다') | df['text'].str.contains('<동영상 읽지 않음>')].index
df = df.drop(del_ids)

#메시지에 '사진'이나 '사진 2장'이나 '동영상'만 포함하는 행을 찾아 삭제
df = df[~df['text'].str.match(r'^(사진|사진 \d+장|동영상)$')]

#메시지에 유니코드에 해당하는 이모티콘이 포함되어 있으면 삭제
def remove_emojis(text):
    # 이모티콘에 해당하는 유니코드 패턴
    emoji_pattern = re.compile("["
                               "\U0001F600-\U0001F64F"  # emoticons
                               "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', text)

df['text'] = df['text'].apply(remove_emojis)

#메시지에 '@이름' 형식으로 태그한 내용이 있으면 삭제
names = set(df['name'].to_list())

# '@이름' 제거 함수
def remove_names(text):
  for name in names:
    text = re.sub(r'@' + re.escape(name[1:]), '', text) #df['name'] 열을 보면 각 행의 맨 처음에 공백이 하나 있음
  return text

# 데이터프레임 열에 함수 적용
df['text'] = df['text'].apply(remove_names)

#메시지 첫 글자가 [면 해당 메시지 삭제, 홍보글의 형식임.
df = df[~df['text'].str.startswith(' [')]

#똑같은 사람이 연속적으로 메시지를 보냈다면 메시지들을 하나의 행으로 통합해서 문맥정보 담기
# 'name' 열이 이전 행과 다른지 여부를 나타내는 불리언 시리즈 생성
name_changed = df['name'] != df['name'].shift(1)

# 'name_changed'의 누적합을 통해 'group' 열 생성
df['group'] = name_changed.cumsum()

# 'group'과 'name' 열을 기준으로 그룹화하고, 'text' 열의 값 합치기
df = df.groupby(['group', 'name'])['text'].agg('\n'.join).reset_index()
df = df.drop(['group'], axis = 1)

#줄바꿈 문자(\n) 제거하기
pattern = r'\n'
df = df.replace(pattern, '', regex = True)

#결측치 제거. 확인해보니 한 행에 링크만 존재했던 경우 링크를 삭제하니 결측치(빈 문자열)가 되었다.
#빈 문자열을 nan으로 변환하고 제거
df = df.replace('', np.nan).dropna()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['group'] = name_changed.cumsum()


In [22]:
text = df['text'].to_list()

#결측치 검증
print(type(text[:5]))
print(all(isinstance(item, str) for item in text))
for i, item in enumerate(text):
  if not isinstance(item, str):
    print(f"Index {i}: {item} (Type: {type(item)})")

<class 'list'>
True


In [23]:
for i, item in enumerate(df):
  if not isinstance(item, str):
    print(f"Index {i}: {item} (Type: {type(item)})")

In [24]:
df['text']

0        deltaPercent의 절대값이 큰 값부터 데이터를 정렬하고 싶은데.deltaP...
1        익스프레션 내에서 조건식을 사용할 수가 없어서 condition을 사용하는 수밖에...
2        유저의 input url에 따른 rss 피드 긁어오기를 하고 싶은데 헷갈리는 부분...
3        혹시 버블 워크로드 최적화하는 
팁이 있을까요? 아직 레거시 요금제 쓰고 있긴 한...
4                        으헉 .. 백엔드만 사용하셔도 그렇게 많이 나오는군요 ..
                              ...                        
7879     겪은 적은 없는데 hard limit이 저 값으로 있어서 그런 것 같습니다. 처리...
7880     db의 필드를 list로 했을 경우 그 리스트 안에 들어갈 수 있는 최대 수가 1...
7881     설명만주셨는데 왜 그랬는지 바로 이해되네요명쾌한 설명 감사합니다 앞으로도 디비 설...
7882                             DB설계 시 이 글이 도움이 많이 될겁니다.
7883                          저도 바로 이해가네요. 재은님 설명감사합니다 :)
Name: text, Length: 7859, dtype: object

In [25]:
print(len(df))

7859


In [26]:
# 제어 문자 제거 함수
def remove_control_characters(s):
    return ''.join(char for char in s if ord(char) >= 32 or char in '\t\n\r')

# 문자열 열에 함수 적용
df['text'] = df['text'].apply(remove_control_characters)

In [27]:
#.csv 파일로 google drive에 저장
talk_save_path = '/content/drive/My Drive/talk_preprocess_result_short.xlsx'

df.to_excel(talk_save_path)

## 모두의노코드 커뮤니티 게시글 전처리

In [31]:
#커뮤니티 글 로드
qna_path = '/content/drive/My Drive/community_qna.xlsx'
all_contents_path = '/content/drive/My Drive/community_all_contents.csv'
all_comments_path = '/content/drive/My Drive/community_all_comments.csv'

df_qna = pd.read_excel(qna_path)

#_x1008_같은 기호를 자동으로 삭제하기 위해 cp949 인코딩으로 읽은 뒤 utf-8 인코딩으로 재처리
df_all_contents_cp949 = pd.read_csv(all_contents_path, encoding = 'cp949')
df_all_contents_cp949.to_csv('/content/drive/My Drive/community_all_contents_utf8.csv', encoding = 'utf-8')
df_all_contents = pd.read_csv('/content/drive/My Drive/community_all_contents_utf8.csv', encoding = 'utf-8')

df_all_comments_cp949 = pd.read_csv(all_comments_path, encoding = 'cp949')
df_all_comments_cp949.to_csv('/content/drive/My Drive/community_all_comments_utf8.csv', encoding = 'utf-8')
df_all_comments = pd.read_csv('/content/drive/My Drive/community_all_comments_utf8.csv', encoding = 'utf-8')

print(df_qna)
print(df_all_contents)
print(df_all_comments)

                                                    내용  \
0    안녕하세요! 우선 모두의노코드 사이트 런칭을 축하드립니다.\n\n이렇게 첫번째 질문...   
1    저도 궁금해져서 열심히 찾아봤는데 콜아웃 같은 블록을 넣는 명령어나 함수는 찾지 못...   
2    안녕하세요.\n모두의 노코드 런칭을 축하드립니다. 앞으로 좋은 활동 기대합니다. \...   
3    [color=rgb(6, 40, 61)]헤더그룹 안에 로고와 CTA를 넣으시고 ma...   
4    안녕하세요.\n제주도에서 노션으로 동네 친구 매칭 서비스를 만들고 있습니다.\n어제...   
..                                                 ...   
573  정보 구조나 와이어 프레임을 그릴 때 보통 피그마를 쓰시는 분이 많은데 한글로 된 ...   
574  [img width=100%]//3146248aee8f8e5c27832897c3a0...   
575  안녕하세요!\n \n현재 사업을 진행하면서 앱 서비스를 메인 비즈니스로 잡고 진행하...   
576  안녕하세요! 버블로 외주개발하고 있는 리트머스팀입니다.\n\nyongjun@cigr...   
577  안녕하세요~\n\n아래 링크로 톡 남겨놓으시면 견적 도와드리겠습니다!\n\nhttp...   

                                                    답변  \
0    저도 궁금해져서 열심히 찾아봤는데 콜아웃 같은 블록을 넣는 명령어나 함수는 찾지 못...   
1                                                  NaN   
2    [color=rgb(6, 40, 61)]헤더그룹 안에 로고와 CTA를 넣으시고 ma...   
3                                                  NaN   
4    충분히 버블로 

In [32]:
#[img = ...]와 같은 태그 종류 구하기

# 괄호 안의 문자열을 찾아 집합에 추가하는 함수
def find_brackets(text):
    pattern = r'\[([^\]]+)\]'
    matches = re.findall(pattern, text)
    pattern_set = set(matches)
    return pattern_set
# 전체 데이터프레임에 대해 함수 적용
string = ', '.join(df_qna['내용'].dropna(axis = 0).to_list())
pattern_set = find_brackets(string)

# 결과 출력
print("Found bracketed text:", pattern_set)

Found bracketed text: {'/center', '폴더', '마요', '/code', '/ml', 'index', 'data1, data2, data3, data4, data5', 'indent data=2', 'url=https://www.youtube.com/c/Buildcamp', '타입', 'landing_page', 'url=https://manual.bubble.io/help-guides/data/the-database/using-algolia', 'h4', '/size', '/color', 'ml', '/u', 'Add font', '0', 'youtube', 'url=https://everynocode.org/profile/%EC%A0%95%EC%9A%A9%EC%A4%8050', 'url=https://www.privacy.go.kr/front/per/inf/perInfStep01.do', 'color=rgb(161, 0, 0)', 'url=https://thecube.cubeapps.co/pwa/1', 'url=https://01022694274a.bubbleapps.io/sell/product_83LVzgVpT#error=login_required&state=a276be4b-3659-4da0-8a4e-57f427ccdbd5', 'ul', '처리완료', 'url=https://nlife-sojung.tistory.com/24', 'color=rgb(15, 15, 15)', 'url=https://www.youtube.com/c/BubbleIO', 'highlight=rgb(246, 248, 250)', '문제', '필드', 'url=https://www.airdev.co/post/how-customizable-is-bubble-web-app', '화면 내 작업 메뉴창', 'color=var(--primary-medium)', 'url=https://www.epochconverter.com/ ', 'url=https://www.you

In [33]:
#데이터프레임 모든 셀에서 [ul], [ol] 등과 같은 태그 삭제, 이때 pattern_set에서 참조해서 직접 삭제([] 안에 유의미한 정보가 들어가있기도 하기 때문)
# + url 형식, 이미지 형식, 줄바꿈 텍스트 삭제
# + 이모티콘 인식 못해서 ??로 출력된 것들 다 삭제
#삭제할 패턴 : [url=https ...],[size=정수],[/size],[ol data=정수],[/ol],[index],[/h3],[b],[/url],[color=rgb(정수, 정수, 정수)],[/b],[/img],[highlight=rgb(정수, 정수, 정수)],[ol],[color=var(--tertiary)],[indent data=정수],[/indent],[/i],[/h4],[/ul],[li indent=정수 align=left 또는 right 또는 등등?],[/color],[h4],[/code],[h3],[/highlight],[ul],[ul data=정수],[highlight=rgba(정수, 정수, 정수, 정수)],[u],[/color],[center],[i],[color=inherit],[/li],[/ml],[code],[/youtube],[youtube],[img width=정수%],[/u],[color=var(--primary-medium)],[ml],[/center],[highlight=var(--primary-low)]

pattern = r'\n|\?\?|\S+\.jpeg|\S+\.png|https:\/\/[^\s]+|\[url=https[^\]]*\]|\[\/url\]|\[size=\d+\]|\[\/size\]|\[b\]|\[\/b\]|\[color=rgb\(\d+,\s*\d+,\s*\d+\)\]|\[\/color\]|\[color=[^\]]*\]|\[highlight=rgb\(\d+,\s*\d+,\s*\d+\)\]|\[\/highlight\]|\[highlight=rgba\(\d+,\s*\d+,\s*\d+,\s*\d+\)\]|\[ol data=\d+\]|\[\/ol\]|\[index\]|\[\/index\]|\[h3\]|\[\/h3\]|\[h4\]|\[\/h4\]|\[ul\]|\[ul data=\d+\]|\[\/ul\]|\[li[^\]]*\]|\[\/li\]|\[indent data=\d+\]|\[\/indent\]|\[ml\]|\[\/ml\]|\[code\]|\[\/code\]|\[youtube\]|\[\/youtube\]|\[img[^\]]*\]|\[u\]|\[\/u\]|\[center\]|\[\/center\]|\[i\]|\[\/i\]|\[highlight=[^\]]*\]|\[ol\]|\[\/img]'

df_qna = df_qna.replace(pattern, '', regex = True)
df_all_contents = df_all_contents.replace(pattern, '', regex = True)
df_all_contents = df_all_contents.replace(pattern, '', regex = True)

# print(df_qna['내용'])

In [34]:
#결측치 제거
df_qna = df_qna.dropna(axis = 0)
df_all_contents = df_all_contents.dropna(axis = 0)
df_all_comments = df_all_comments.dropna(axis = 0)

In [35]:
#유니코드에 해당하는 이모티콘 제거
df_qna['내용'] = df_qna['내용'].apply(remove_emojis)
df_qna['답변'] = df_qna['답변'].apply(remove_emojis)
df_qna['댓글'] = df_qna['댓글'].apply(remove_emojis)

In [36]:
df_all_contents['내용'] = df_all_contents['내용'].apply(remove_emojis)
df_all_contents['답변'] = df_all_contents['답변'].apply(remove_emojis)
df_all_contents['댓글'] = df_all_contents['댓글'].apply(remove_emojis)

In [37]:
df_all_comments['내용'] = df_all_comments['내용'].apply(remove_emojis)
df_all_comments['대댓글'] = df_all_comments['대댓글'].apply(remove_emojis)
df_all_comments['댓글'] = df_all_comments['댓글'].apply(remove_emojis)

In [38]:
# print(df_qna.iloc[4]['내용'])

In [39]:
#전처리된 세 파일을 .csv로 저장
df_qna.to_excel('/content/drive/My Drive/community_qna_preprocessed.xlsx')
df_all_contents.to_excel('/content/drive/My Drive/community_all_contents_preprocessed.xlsx')
df_all_comments.to_excel('/content/drive/My Drive/community_all_comments_preprocessed.xlsx')