# **전처리**
기호가 붙은 키워드 분석

In [1]:
import numpy as np
import pandas as pd
import re
import os
from collections import Counter

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [7]:
train_df = pd.read_csv('/content/drive/MyDrive/GBT 해커톤/data/train.csv')
test_df = pd.read_csv('/content/drive/MyDrive/GBT 해커톤/data/test.csv')

In [8]:
df_combined = pd.concat([train_df, test_df], axis=0)

In [9]:
# 기호를 추출하는 함수
def extract_symbols(text):
    return re.findall(r'[^\w\s,]', text)  # 알파벳, 숫자, 공백, 쉼표를 제외한 모든 기호

# '키워드' 열에서 기호 추출
symbols = df_combined['키워드'].apply(extract_symbols)

# 기호 리스트 출력
unique_symbols = set([symbol for sublist in symbols for symbol in sublist])
print(unique_symbols)

{'∙', '㈜', '→', ')', ':', '/', '•', '⋯', ';', '“', '・', '&', '(', '.', '~', '■', '‧', '*', '?', '▷', '㎡', '⋅', '․', '○', '!', '=', '·', '˙', '-', '’', '%', '▲'}


기호+숫자 포함

In [10]:
# 기호 집합 정의
symbols_to_remove = {'∙', '㈜', '→', ')', ':', '/', '•', '⋯', ';', '“', '・', '&', '(', '.', '~', '■', '‧', '*', '?', '▷', '㎡', '⋅', '․', '○', '!', '=', '·', '˙', '-', '’', '%', '▲'}

# 키워드에서 기호가 포함된 것 찾기
filtered_keywords = []

for keywords in df_combined['키워드']:
    # 쉼표로 분리하여 각 키워드에 대해 검사
    for keyword in keywords.split(','):
        for symbol in symbols_to_remove:
            if symbol in keyword:
                filtered_keywords.append(keyword)
                break  # 하나의 기호라도 있으면 해당 키워드를 추가하고 넘어감

# 빈도수 계산
keyword_counts = Counter(filtered_keywords)

# 빈도수 높은 순서대로 정렬하고 상위 100개 추출
top_100_keywords = keyword_counts.most_common(100)

# 결과 출력
for keyword, count in top_100_keywords:
    print(f"{keyword}: {count}")

50%: 2476
R&D: 2368
10%: 2018
30%: 1806
100%: 1647
20%: 1613
GTX-A: 1518
70%: 1236
3.3: 1210
80%: 1122
Gwi-seon: 1112
60%: 1061
Sang-il: 1037
40%: 1020
Gyeonggi-do: 1009
said.: 800
Cheoin-gu: 784
90%: 784
Translator.: 782
Yongin-si: 776
0.01%: 727
Jong-un: 714
Giheung-gu: 645
5%: 606
0.02%: 595
59~84: 542
Jeong-eun: 535
0.03%: 507
0.04%: 485
COVID-: 484
15%: 458
25%: 455
1.5: 431
0.05%: 379
Suji-gu: 374
www.dnews.co.kr: 364
2.0: 361
95%: 350
0.08%: 347
GTX-C: 336
75%: 329
0.07%: 329
0.06%: 327
12%: 301
2.5: 296
0.09%: 293
1%: 291
1:1: 289
35%: 288
Rep.: 287
R&D센터: 285
3.5: 273
0.11%: 272
GTX-A노선: 268
Gun-ki: 263
0.13%: 259
6%: 237
3%: 236
year.: 228
1.7: 225
2%: 225
0.10%: 214
U-: 210
Gun-gi: 209
14%: 208
www.yongin.go.kr: 207
7%: 202
10:00: 201
16%: 192
low-income: 191
55%: 190
0.8%: 190
0.12%: 189
65%: 188
0.15%: 180
3.5%: 178
0.92: 177
2.5%: 175
17%: 175
0.19%: 173
45%: 172
2.5단계: 171
180%: 168
0.1%: 167
0.18%: 167
0.17%: 166
98.1: 165
etc.: 164
high-tech: 164
Co.: 160
on-site: 160


기호+숫자 제외

In [11]:
# 기호 집합 정의
symbols_to_remove = {'∙', '㈜', '→', ')', ':', '/', '•', '⋯', ';', '“', '・', '&', '(', '.', '~', '■', '‧', '*', '?', '▷', '㎡', '⋅', '․', '○', '!', '=', '·', '˙', '-', '’', '%', '▲'}

# 키워드에서 기호가 포함된 것 찾기
filtered_keywords = []

for keywords in df_combined['키워드']:
    # 쉼표로 분리하여 각 키워드에 대해 검사
    for keyword in keywords.split(','):
        # 기호가 포함되어 있는지 확인
        if any(symbol in keyword for symbol in symbols_to_remove):
            # 기호와 숫자로만 이루어진 키워드인지 확인
            if not all(char in symbols_to_remove or char.isdigit() for char in keyword):
                filtered_keywords.append(keyword)

# 빈도수 계산
keyword_counts = Counter(filtered_keywords)

# 빈도수 높은 순서대로 정렬하고 상위 100개 추출
top_100_keywords = keyword_counts.most_common(100)

# 결과 출력
for keyword, count in top_100_keywords:
    print(f"{keyword}: {count}")

R&D: 2368
GTX-A: 1518
Gwi-seon: 1112
Sang-il: 1037
Gyeonggi-do: 1009
said.: 800
Cheoin-gu: 784
Translator.: 782
Yongin-si: 776
Jong-un: 714
Giheung-gu: 645
Jeong-eun: 535
COVID-: 484
Suji-gu: 374
www.dnews.co.kr: 364
GTX-C: 336
Rep.: 287
R&D센터: 285
GTX-A노선: 268
Gun-ki: 263
year.: 228
U-: 210
Gun-gi: 209
www.yongin.go.kr: 207
low-income: 191
2.5단계: 171
etc.: 164
high-tech: 164
Co.: 160
on-site: 160
medium-sized: 157
2~3년: 153
Q.: 151
R&amp: 144
citizens.: 143
city.: 142
Pogok-eup: 138
eco-friendly: 137
to-face: 134
Wonsam-myeon: 134
non-face: 128
1.5단계: 125
GTX-C노선: 123
Namsa-eup: 122
GTX-D: 120
Gwi-sun: 118
S-OIL: 118
City.: 114
Won-gyun: 113
month.: 107
Center.: 105
Farm&Forest: 105
M&A: 103
Ltd.: 98
monica-writing: 98
large-scale: 96
win-win: 95
long-term: 94
first-come: 94
K-반도체: 91
first-served: 90
No.: 89
apply.jobaba.net: 88
7~8일: 88
7~8월: 86
Dongcheon-dong: 86
28~31일: 84
K-POP: 83
1.5배: 83
Mohyeon-eup: 80
Bojeong-dong: 80
EX-HUB: 79
Mabuk-dong: 78
Baekam-myeon: 78
C&C: 78
A.: 78

In [12]:
# 영문 번역 제거 데이터
train_df2 = pd.read_csv('/content/drive/MyDrive/GBT 해커톤/data/train_df_translate_del.csv')
test_df2 = pd.read_csv('/content/drive/MyDrive/GBT 해커톤/data/test_df_translate_del.csv')

In [13]:
df_combined2 = pd.concat([train_df2, test_df2], axis=0)

In [14]:
# 기호 집합 정의
symbols_to_remove = {'∙', '㈜', '→', ')', ':', '/', '•', '⋯', ';', '“', '・', '&', '(', '.', '~', '■', '‧', '*', '?', '▷', '㎡', '⋅', '․', '○', '!', '=', '·', '˙', '-', '’', '%', '▲'}

# 키워드에서 기호가 포함된 것 찾기
filtered_keywords = []

for keywords in df_combined2['키워드']:
    # 쉼표로 분리하여 각 키워드에 대해 검사
    for keyword in keywords.split(','):
        # 기호가 포함되어 있는지 확인
        if any(symbol in keyword for symbol in symbols_to_remove):
            # 기호와 숫자로만 이루어진 키워드인지 확인
            if not all(char in symbols_to_remove or char.isdigit() for char in keyword):
                filtered_keywords.append(keyword)

# 빈도수 계산
keyword_counts = Counter(filtered_keywords)

# 빈도수 높은 순서대로 정렬하고 상위 100개 추출
top_100_keywords = keyword_counts.most_common(100)

# 결과 출력
for keyword, count in top_100_keywords:
    print(f"{keyword}: {count}")

R&D: 2316
GTX-A: 1501
www.dnews.co.kr: 364
GTX-C: 336
R&D센터: 285
GTX-A노선: 268
www.yongin.go.kr: 207
U-: 201
2.5단계: 171
2~3년: 153
R&amp: 144
Q.: 144
1.5단계: 125
GTX-C노선: 123
COVID-: 121
GTX-D: 120
S-OIL: 118
M&A: 103
Farm&Forest: 103
K-반도체: 91
7~8일: 88
apply.jobaba.net: 87
7~8월: 86
28~31일: 84
1.5배: 83
K-POP: 81
C&C: 78
EX-HUB: 77
lib.yongin.go.kr: 73
korea.kr: 72
A.: 72
www.yicf.or.kr: 69
E-순환거버넌스: 69
K-water: 69
Y-Trade: 69
B-: 68
2.5배: 66
GTX-B: 66
F&B: 64
1~3일: 62
10%p: 58
3~4개월: 58
2~3일: 55
3~4월: 53
70%가량: 52
EMU-: 52
GTX-F: 51
1.4배: 50
20~30대: 50
2.4배: 47
28~30일: 46
25~27일: 46
G-뮤지엄파크: 45
www.yylab.kr: 42
G-FAIR: 42
lll.yongin.go.kr: 41
원&uarr: 41
14~16일: 40
30%가량: 40
index.do: 40
Sports-City: 40
30%대: 40
3~4년: 40
국?도비: 40
11~12월: 39
GTX-D노선: 39
19~34세: 38
AW-: 38
2021~2023년: 37
2%대: 37
0%대: 37
DA-: 37
1~3위: 37
9~10월: 36
ytn.co.kr: 36
1~2년: 36
GTX-E: 36
2~3개월: 35
1~3월: 35
20%가량: 35
D-: 35
A-: 35
1~6월: 34
2~3배: 34
4~5년: 33
3.5배: 33
23~24일: 33
10~11월: 33
K-캐릭터: 33
1.8배: 33
Aero-K: 33


In [16]:
# 특정 키워드가 있는 행의 전체 키워드 출력
filtered_rows = df_combined2[df_combined2['키워드'].str.contains('A-', na=False)]

# 결과 출력
for index, row in filtered_rows.iterrows():
    print(f"ID: {row['ID']}, 키워드: {row['키워드']}")

ID: TRAIN_01027, 키워드: 현존,상용,위성,최고,해상,자랑,지구,관찰,한화에어로스페이스,쎄트렉아,인공위성,조립,현장,스페이스아이,내년,발사,스페이스,아이,0.3,조립,해상도,0.3,m급,카메라,장착,국산,한화시스템선,순수,국산,영상레이더,야간,촬영,영상,레이더,제작,장착,위성,21일,대전,쎄트렉아이,연구소,조립,시설,파란색,방진복,연구원들,분주,자신들,지름,1.5,기계,육각,형태,근처,드라이버,기계,각종,부품,조립시설,2m,,1m,드럼통,형태,검은색,원통,위성,제작,기업,쎄트렉아이,한화에어로스페이스,협력,제작,인공위성,스페이스아이,SpaceEye-T,모습,스페이스아이,내년,민간,우주,기업,스페이스,로켓,지구,궤도,투입,예정,조립시설,육각,형태,기계,스페이스아이,검은색,원통,장착,카메라,지상,관측,카메라,지상,관측,가시광선,이용,촬영,광학,카메라,스페이스아이,해상,0.3,m급,초고해상,카메라,장착,등장,상용,위성,카메라,해상도,해상도,인공위성,카메라,0.3,지상,가로,세로,0.3,면적,인식,지상,자동차,소형차,중형차인지,구별,쎄트렉아이,스페이스아이,사업,위성,사진,판매,계획,사업개발실장,김도형,쎄트렉아이,사업,실장,우주,지상,촬영,사진,다량,저장,고객,요청,특정,지역,시점,사진,제공,광학,카메라,위성,촬영,지역,사진,구름,영상레이더,SAR,SAR,레이더,전파,지상,촬영,위성,지상,전파,굴곡,위성,전파,시간차,계산,지상,형태,한화시스템,경기,용인시,SAR,장착,위성,조립,시험,한화시스템,우주,위성,소형,SAR,성공적,발사,순수,국산,소형,SAR,위성,모습,특이,이날,공개,모형,실물,크기,성인,정도,직육면체,태양광,전지판,날개,일반,위성,소형,SAR,위성,지구,궤도,평균,특정,지역,관측,한화시스템,위성들,우주,발사체,한국,자체,누리호,누리호,엔진,6기,조립,한화에어로스페이스,한화에어로스페이스,누리호,제작,노하우,체계종합기업,선정,한화에어로스페이스,공개,창원사업장,엔진조립동,FA-,국산,FA-,한국,구축함,정조,대왕,가스터빈엔진,제작,우주사업부장,이준원,

In [None]:
# 제거할 기호 리스트
symbols_to_remove = {'∙', '㈜', '→', ')', ':', '/', '•', '⋯', ';', '“', '・', '&', '(', '.', '~', '■', '‧', '*', '?', '▷', '㎡', '⋅', '․', '○', '!', '=', '·', '˙', '-', '’', '%', '▲'}

# 기호를 제거하는 함수
def remove_symbols(text):
    pattern = '[' + re.escape(''.join(symbols_to_remove)) + ']'  # 제거할 기호 패턴 생성
    return re.sub(pattern, '', text)

# '키워드' 열에서 기호 제거
train_df['키워드'] = train_df['키워드'].apply(remove_symbols)
test_df['키워드'] = test_df['키워드'].apply(remove_symbols)