# User filtering
특정 직업과 관련된 해시태그 검색 후, 해당 직업이 아닌 유저를 필터링하는 과정이 필요하다.

In [None]:
import pandas as pd
import numpy as np
from collections import Counter

In [None]:
# 예제 데이터
path = 'C:/Users/bogyung/Downloads/crawling/test/'
df0 = pd.read_json(path + 'tags_goonin.json')
df1 = pd.read_json(path + 'tags_gyosa.json')
df2 = pd.read_json(path + 'tags_joong2.json')
df = [df0, df1, df2]

In [None]:
print('제거 전: 군인')
display(df0.head())
print('제거 전: 교사')
display(df1.head())
print('제거 전: 중학생')
display(df2.head())

제거 전: 군인


Unnamed: 0,freq,tags,user_id,user_name
0,"{'23': 1, '24': 1}","[23, 24]",24895167311,hye_lim._.eee
1,"{'25': 5, '천안': 4, '22': 1, '군대': 1, '선임': 1, ...","[25, 천안, 22, 군대, 선임, 후임, 남자랑, 데이트, 운동, 웨이트, 군인...",4648813963,96_ugi
2,"{'셀카': 84, '맞팔': 84, '인친': 84, '소통': 84, '꿈': ...","[셀카, 맞팔, 인친, 소통, 꿈, 자부심, 팔로우, 선팔, 데일리, 여행스타그램,...",7806334927,soonshin_
3,"{'산책': 1, '여유': 1}","[산책, 여유]",37806496856,dong_bz
4,"{'여기조기요기': 1, '굿모닝': 1, '나온다나온다나이나온다': 1, '유노앤...","[여기조기요기, 굿모닝, 나온다나온다나이나온다, 유노앤드요, 컴백, 웃음욕심, 노력...",5641751675,_andyon_


제거 전: 교사


Unnamed: 0,freq,tags,user_id,user_name
0,{'범계': 1},[범계],30033400542,d_jshin
1,"{'쌤스타그램': 21, '교사스타그램': 23, '교사': 19, '선생님': 2...","[쌤스타그램, 교사스타그램, 교사, 선생님, 선생님스타그램, 중학교, 노보텔앰배서더...",3033063913,iam_minthyun
2,"{'25': 24, '쌩얼인거비밀': 1, '25살': 21, '일상': 32, '...","[25, 쌩얼인거비밀, 25살, 일상, 코로나19, 마스크필수, 어린이집, 출근, ...",2241028185,90lka11
3,"{'대구교총': 10, '교총': 6, '한국교총': 10, '이벤트': 2, '선...","[대구교총, 교총, 한국교총, 이벤트, 선생님, 교사, 교수, 유치원선생님, 쌤스타...",5571560038,cheerup_2680
4,"{'제주대학교': 12, '수시모집요강': 1, '제주대학교2021학년도수시모집요강...","[제주대학교, 수시모집요강, 제주대학교2021학년도수시모집요강, 전형일정, 모집단위...",5863131290,jejunu_ibsi


제거 전: 중학생


Unnamed: 0,freq,tags,user_id,user_name
0,"{'모트트레인9월1일차': 1, '모트트레인': 1, '고려대학교': 2, '공스타...","[모트트레인9월1일차, 모트트레인, 고려대학교, 공스타소통]",40090360824,t.memory_0
1,"{'칼단발': 1, '단발': 1, '집콕중': 1, '놀러가고싶어요': 1}","[칼단발, 단발, 집콕중, 놀러가고싶어요]",9632681759,hye0njiye0n
2,{},[],15470222343,shinchaehee06
3,"{'열공': 38, '인스': 4, '엉망진창': 1, '실수때매': 1, '망함'...","[열공, 인스, 엉망진창, 실수때매, 망함, 공부, 공스타그램, 초6, 예비중, 중...",25539217889,yeowon_study
4,"{'06': 20, '0606': 9, '공부인증그램': 2, '공부인증': 5, ...","[06, 0606, 공부인증그램, 공부인증, 공부인증샷, 공부인증계정, 공스타그램,...",27400344693,_medic.__.kim


## 검색 해시태그 제거

In [None]:
# 각 직업별 검색 해시태그 (여러 개 가능)
hashtags = [["군인"], ["교사"], ["중2"]]
N_category = 3 # 직업 카테고리 수

def del_tags(tags, hashtag):
    lst = []
    for tag in tags:
        if tag not in hashtag:
            lst.append(tag)
    return lst

def del_freq(freq, hashtag):
    dic = {}
    for (w, i) in freq.items():
        if w not in hashtag:
            dic[w] = i
    return dic

def del_hashtag(num_df, hashtag):
    df = globals()['df{}'.format(num_df)]
    tags = df.tags.apply(lambda x: del_tags(x, hashtag))
    freq = df.freq.apply(lambda x: del_freq(x, hashtag))
    df['tags'] = tags
    df['freq'] = freq
    return df

for i in range(N_category):
    globals()['df{}'.format(i)] = del_hashtag(i, hashtags[i])

In [None]:
print('제거 후: 군인')
display(df0.head())
print('제거 후: 교사')
display(df1.head())
print('제거 후: 중학생')
display(df2.head())

제거 후: 군인


Unnamed: 0,freq,tags,user_id,user_name
0,"{'23': 1, '24': 1}","[23, 24]",24895167311,hye_lim._.eee
1,"{'25': 5, '천안': 4, '22': 1, '군대': 1, '선임': 1, ...","[25, 천안, 22, 군대, 선임, 후임, 남자랑, 데이트, 운동, 웨이트, 속초...",4648813963,96_ugi
2,"{'셀카': 84, '맞팔': 84, '인친': 84, '소통': 84, '꿈': ...","[셀카, 맞팔, 인친, 소통, 꿈, 자부심, 팔로우, 선팔, 데일리, 여행스타그램,...",7806334927,soonshin_
3,"{'산책': 1, '여유': 1}","[산책, 여유]",37806496856,dong_bz
4,"{'여기조기요기': 1, '굿모닝': 1, '나온다나온다나이나온다': 1, '유노앤...","[여기조기요기, 굿모닝, 나온다나온다나이나온다, 유노앤드요, 컴백, 웃음욕심, 노력...",5641751675,_andyon_


제거 후: 교사


Unnamed: 0,freq,tags,user_id,user_name
0,{'범계': 1},[범계],30033400542,d_jshin
1,"{'쌤스타그램': 21, '교사스타그램': 23, '선생님': 22, '선생님스타그...","[쌤스타그램, 교사스타그램, 선생님, 선생님스타그램, 중학교, 노보텔앰배서더용산, ...",3033063913,iam_minthyun
2,"{'25': 24, '쌩얼인거비밀': 1, '25살': 21, '일상': 32, '...","[25, 쌩얼인거비밀, 25살, 일상, 코로나19, 마스크필수, 어린이집, 출근, ...",2241028185,90lka11
3,"{'대구교총': 10, '교총': 6, '한국교총': 10, '이벤트': 2, '선...","[대구교총, 교총, 한국교총, 이벤트, 선생님, 교수, 유치원선생님, 쌤스타그램, ...",5571560038,cheerup_2680
4,"{'제주대학교': 12, '수시모집요강': 1, '제주대학교2021학년도수시모집요강...","[제주대학교, 수시모집요강, 제주대학교2021학년도수시모집요강, 전형일정, 모집단위...",5863131290,jejunu_ibsi


제거 후: 중학생


Unnamed: 0,freq,tags,user_id,user_name
0,"{'모트트레인9월1일차': 1, '모트트레인': 1, '고려대학교': 2, '공스타...","[모트트레인9월1일차, 모트트레인, 고려대학교, 공스타소통]",40090360824,t.memory_0
1,"{'칼단발': 1, '단발': 1, '집콕중': 1, '놀러가고싶어요': 1}","[칼단발, 단발, 집콕중, 놀러가고싶어요]",9632681759,hye0njiye0n
2,{},[],15470222343,shinchaehee06
3,"{'열공': 38, '인스': 4, '엉망진창': 1, '실수때매': 1, '망함'...","[열공, 인스, 엉망진창, 실수때매, 망함, 공부, 공스타그램, 초6, 예비중, 중...",25539217889,yeowon_study
4,"{'06': 20, '0606': 9, '공부인증그램': 2, '공부인증': 5, ...","[06, 0606, 공부인증그램, 공부인증, 공부인증샷, 공부인증계정, 공스타그램,...",27400344693,_medic.__.kim


In [None]:
# 군인
freq_whole0.most_common(10)

[('일상', 7),
 ('휴가', 6),
 ('맞팔', 5),
 ('서울', 5),
 ('힐링', 5),
 ('좋아요', 5),
 ('대학생', 5),
 ('강원도', 4),
 ('코로나', 4),
 ('셀카', 4)]

## 새로운 voca dict 생성
단어의 등장 문서수가 직업군의 절반을 넘을 경우, 해당 단어를 제거한 새로운 딕셔너리 생성(각 직업군에 대표성 있다고 판단)

In [None]:
for i in range(N_category):
    globals()['voca{}'.format(i)] = {}
    globals()['freq_other{}'.format(i)] = {}

for num in range(N_category):
    for (w, n) in globals()['freq_whole{}'.format(num)].items():
        w_freq = 1
        for i in range(N_category):
            if i != num:
                if w in globals()['freq_whole{}'.format(i)]:
                    w_freq += 1
        globals()['freq_other{}'.format(num)][w] = w_freq
        if w_freq <= N_category//2:
            globals()['voca{}'.format(num)][w] = n

In [None]:
# 각 직업의 대표성을 띠는 단어들
# voca0, voca1, voca2

# 등장한 문서 수
# freq_other0, freq_other1, freq_other2

In [None]:
N = 10 # 상위 몇 개를 뽑아낼지 지정
for i in range(N_category):
    globals()['voca{}_top'.format(i)] = dict(Counter(globals()['voca{}'.format(i)]).most_common(N))

In [None]:
# 상위 N개의 voca dict
voca0_top, voca1_top, voca2_top

({'속초': 3,
  '부사관': 3,
  '24': 2,
  '천안': 2,
  '고성': 2,
  '보내줘': 2,
  '1943': 2,
  '웃자': 2,
  '난': 2,
  '장교': 2},
 {'교사스타그램': 14,
  '쌤스타그램': 8,
  '원격수업': 6,
  '학부모': 6,
  '고등학교': 5,
  '스타벅스': 5,
  '어린이집': 4,
  '힐링타임': 4,
  '스승의날': 4,
  '책': 4},
 {'06': 12,
  '06년생': 11,
  '중2공스타그램': 8,
  '공스타그램맞팔': 7,
  '모트모트': 6,
  '모트모트플래너': 6,
  '중2공스타': 5,
  '15살': 5,
  '공부하자': 5,
  '중간피드': 5})

## negative dict 생성
- 타 직업군의 voca를 다 더한다.
- 처음에 지웠던 검색 해시태그도 추가해주기(빈도수는 df 길이, 즉 최대값으로)

In [None]:
for i in range(N_category):
    globals()['neg{}'.format(i)] = Counter()

for i in range(N_category):
    for j in range(N_category):
        if j != i:
            globals()['neg{}'.format(i)] += Counter(globals()['voca{}_top'.format(j)])

In [None]:
# 타 직업군에서의 단어 목록
# neg0, neg1, neg2

## neg voca에 많이 등장할수록 중요도를 낮추는 방법 고찰
### negative voca에 sigmoid 적용하기
- 목표: 다른 직업군을 대표하는 단어가 등장할수록 0에 가깝고 그 외의 경우에는 1에 가깝게
- 상-하 뒤집은 후 x축으로 +N_sigmoid만큼 평행이동한 sigmoid 적용 (0~1사이 값, 변곡점은 N_sigmoid에 위치)
- N_sigmoid는 neg 단어의 빈도수 보고 조정해야 함(상위 200개의 중위값?)
- 상위 N개의 평균 값 정도가 적절할듯

In [None]:
for i in range(N_category):
    n_job = len(globals()[f'df{i}'])
    for j, tag in enumerate(hashtags):
        if j != i:
            for t in tag:
                globals()[f'neg{i}'][t] = n_job

In [None]:
def mysigmoid(x, N_sigmoid):
    return 1 / (1 + np.exp(x - N_sigmoid))

for i in range(N_category):
    globals()['neg{}_sig'.format(i)] = {}

for i in range(N_category):
    neg = globals()['neg{}'.format(i)]
    N_sigmoid = neg.most_common(N)[N//2][1] # neg 상위 N개의 중위값
    for (w, n) in neg.items():
        globals()['neg{}_sig'.format(i)][w] = mysigmoid(n, N_sigmoid)

In [None]:
# neg0_sig, neg1_sig, neg2_sig

# scoring
### score = 평균( 해시태그 사용 빈도수 x tf-idf x neg_sig )

- 주부, 백수는 계산할 필요 없음
- 카테고리별 해시태그 단어 중요도: negative 변수를 곱한 tf-idf
- 각 유저의 해시태그 사용 총 빈도수로 나눈 값을 최종 스코어로 활용

In [None]:
for i in range(N_category):
    globals()['df{}'.format(i)]['score'] = 0

In [None]:
# 카테고리별 단어들의 tf-idf
for i in range(N_category):
    globals()['tf_idf{}'.format(i)] = {}
    for (w, n) in globals()['freq_whole{}'.format(i)].items():
        tf = n
        idf = np.log( N_category / (1 + globals()['freq_other{}'.format(i)][w]) )
        globals()['tf_idf{}'.format(i)][w] = tf * idf

In [None]:
def scoring(freq_row, num_df):
    score = 0
    N_tags = sum(freq_row.values())
    ti = globals()[f'tf_idf{num_df}']

    for (w, n) in freq_row.items():
        tf_idf = ti[w]
        try:
            neg = globals()['neg{}_sig'.format(num_df)][w]
        except:
            neg = 1
        score += tf_idf * neg / N_tags
    
    return score

In [None]:
# 실제로 돌릴때는 N_category-2 (주부, 백수)

for i in range(N_category):
    globals()['df{}'.format(i)]['score'] = globals()['df{}'.format(i)]['freq'].apply(lambda x: scoring(x, i))

# Filtering Result

### 1. 해당 직업군이 맞다.

In [None]:
print('군인')
display(df0.sort_values(by='score', ascending=False).head(10))
print('교사')
display(df1.sort_values(by='score', ascending=False).head(10))
print('중2')
display(df2.sort_values(by='score', ascending=False).head(10))

군인


Unnamed: 0,freq,tags,user_id,user_name,score
10,"{'정복': 1, '군스타그램': 1}","[정복, 군스타그램]",8523336865,nan__jinyoung,0.81093
0,"{'23': 1, '24': 1}","[23, 24]",24895167311,hye_lim._.eee,0.608198
19,"{'3년째': 1, '연애중': 1}","[3년째, 연애중]",1556311885,seol_h16_,0.405465
18,"{'창선동먹자골목': 1, '유럽여행': 1, '속옷쇼핑몰': 1, '초가을': 1...","[창선동먹자골목, 유럽여행, 속옷쇼핑몰, 초가을, 내장산, 일본야동, 만남섹스, 야...",40704112925,cvbdbcvnd,0.317865
4,"{'여기조기요기': 1, '굿모닝': 1, '나온다나온다나이나온다': 1, '유노앤...","[여기조기요기, 굿모닝, 나온다나온다나이나온다, 유노앤드요, 컴백, 웃음욕심, 노력...",5641751675,_andyon_,0.314886
12,"{'고맙다': 1, '아사도': 1, '바베큐': 2, '홀푸드마켓': 1, '갈비...","[고맙다, 아사도, 바베큐, 홀푸드마켓, 갈비, 주말, 스모크, 텍사스, 브리스킷,...",21740141066,citihunter88,0.267508
7,"{'태풍뒤맑음': 1, '러닝': 4, '딥스': 1, '싯업': 1, '난': 1...","[태풍뒤맑음, 러닝, 딥스, 싯업, 난, 넉다운, 신체검사, 말라깽이, 벌크업, 살...",6733917822,yolo_youonlyliveonce_95,0.258696
15,"{'여자숏컷': 1, '블론드': 1, '디자이너강철': 3, '미용실': 2, '...","[여자숏컷, 블론드, 디자이너강철, 미용실, 신촌미용실, 서대문구미용실, 마포구미용...",40276026268,riahn_shinchon,0.244473
21,"{'군대선물': 1, '군인스타그램': 2, '말년병장': 1, '전역전휴가': 1...","[군대선물, 군인스타그램, 말년병장, 전역전휴가, 집으로, 경찰공무원, 경찰공무원시...",2354879232,ryuji_1225__,0.235456
16,"{'리그램': 9, '생각의차이가미래를바꾼다': 5, '과거사진': 1, '챔프지점...","[리그램, 생각의차이가미래를바꾼다, 과거사진, 챔프지점장, 신라호텔, 더파크뷰, 우...",2015100987,az_one1,0.229176


교사


Unnamed: 0,freq,tags,user_id,user_name,score
20,"{'마카롱': 1, '케이크': 1, '앙샤르': 1, '입생로랑': 1, '입생로...","[마카롱, 케이크, 앙샤르, 입생로랑, 입생로랑립스틱, 스벅, 스타벅스, 스타벅스다...",2073873648,g_0on_,0.608198
7,"{'특수교사': 4, '장애': 1, '장애학': 1, '인식개선': 1, '부모교...","[특수교사, 장애, 장애학, 인식개선, 부모교육, 소통, 학급밴드, 2년차, 학부모...",25969033493,sped.learner,0.409328
25,"{'20200901': 1, '20200831': 1, '20200830': 1, ...","[20200901, 20200831, 20200830, 20200827, 20200...",27060861703,xxpeukxx,0.405465
0,{'범계': 1},[범계],30033400542,d_jshin,0.405465
4,"{'제주대학교': 12, '수시모집요강': 1, '제주대학교2021학년도수시모집요강...","[제주대학교, 수시모집요강, 제주대학교2021학년도수시모집요강, 전형일정, 모집단위...",5863131290,jejunu_ibsi,0.359126
15,"{'온라인수업': 1, '원격수업': 1, '준비': 1, '2': 1, '호텔수성...","[온라인수업, 원격수업, 준비, 2, 호텔수성, 수성호텔수영장, 헬린이, 헬린이의하...",1104816726,__j.kwang,0.29337
34,"{'싱글오리진': 1, '콜드브루': 1, '2': 4, '힐링': 5, '1': ...","[싱글오리진, 콜드브루, 2, 힐링, 1, 이게바로찐행복, 여유, 조명이다함, 많이...",1582106312,sangik_kkkkk,0.282269
9,"{'정리컨설턴트': 1, '심플라이프': 1, '미니멀라이프': 1, '신박한정리'...","[정리컨설턴트, 심플라이프, 미니멀라이프, 신박한정리, 정리방법, 수납방법, 수납꿀...",8540797781,vs_tschool,0.268618
3,"{'대구교총': 10, '교총': 6, '한국교총': 10, '이벤트': 2, '선...","[대구교총, 교총, 한국교총, 이벤트, 선생님, 교수, 유치원선생님, 쌤스타그램, ...",5571560038,cheerup_2680,0.234067
14,"{'생일선물': 1, '인스탁스': 1, '미니11': 1, '폴라로이드': 1, ...","[생일선물, 인스탁스, 미니11, 폴라로이드, 카메라, 친구가찍어준, 이벤트제조기,...",1315607116,hi_sunset.k,0.222743


중2


Unnamed: 0,freq,tags,user_id,user_name,score
9,"{'중간피드': 1, '20203월모의고사': 1}","[중간피드, 20203월모의고사]",30961379040,_lovewesxt,1.216395
5,"{'06년생': 3, '15살': 3, '전신샷': 1, '색칠스타그램': 1, '...","[06년생, 15살, 전신샷, 색칠스타그램, 소녀, 취미생활, 취미스타그램, 소확행...",40532744267,isy._.06,0.592603
8,"{'중간피드': 2, '제품제공': 2, '제브라': 1, '열공인증이벤트': 1,...","[중간피드, 제품제공, 제브라, 열공인증이벤트, 제브라방구석열공인증]",31709879503,1221_wish_,0.521312
13,"{'공스타': 4, '공스타그램맞팔': 4, '공스타맞팔': 4, '공부': 7, ...","[공스타, 공스타그램맞팔, 공스타맞팔, 공부, 공스타그램, 모트모트스터디플래너, 모...",26012283906,naeun.__.06,0.446839
6,"{'청남대': 1, '영남대학교': 1, '시골소녀': 1}","[청남대, 영남대학교, 시골소녀]",3765300236,yunji_1701,0.405465
18,{'삭제피드': 1},[삭제피드],38992930746,gmldnjss._.1,0.405465
31,"{'06': 2, '공스타그램': 5, '열공인증': 1, '사진태그': 2, '토...","[06, 공스타그램, 열공인증, 사진태그, 토이스토리, 포키, 좋아요테러, 댓글환영...",39499839360,happysh_8686,0.343607
12,"{'06': 3, '15': 2, '06년생': 1, '중딩': 1, '셀스타그램'...","[06, 15, 06년생, 중딩, 셀스타그램, 같은사람, 다른느낌, 친구들이, 좋아...",7989354612,amj0624,0.342442
4,"{'06': 20, '0606': 9, '공부인증그램': 2, '공부인증': 5, ...","[06, 0606, 공부인증그램, 공부인증, 공부인증샷, 공부인증계정, 공스타그램,...",27400344693,_medic.__.kim,0.289618
25,"{'중딩': 11, '중학생': 5, '중학교2학년': 2, '중학생2학년': 1,...","[중딩, 중학생, 중학교2학년, 중학생2학년, 중학생공부, 중학교공부, 중2공부, ...",40159949686,hyisu__x__x_06,0.232078


### 2. 해당 직업군이 아니다.

In [None]:
print('군인')
display(df0.sort_values(by='score', ascending=True).head(10))
print('교사')
display(df1.sort_values(by='score', ascending=True).head(10))
print('중2')
display(df2.sort_values(by='score', ascending=True).head(10))

군인


Unnamed: 0,freq,tags,user_id,user_name,score
3,"{'산책': 1, '여유': 1}","[산책, 여유]",37806496856,dong_bz,-0.287682
29,"{'대한민국': 1, '국방의': 1, '폭염주의보': 1, '남해': 1, '힐링...","[대한민국, 국방의, 폭염주의보, 남해, 힐링, 코로나19]",3494313245,shim9893,-0.248421
23,"{'해군': 2, '첫줄': 1, '팔로워': 1, '부사관': 1, '맞팔': 2...","[해군, 첫줄, 팔로워, 부사관, 맞팔, 선팔하면, 맞팔선팔, 맞팔해요, 소통, 대...",2204270708,hmmmm._.1120,-0.240569
30,"{'하늘': 1, '구름': 1, '여름': 1, '거울셀카': 1, '셀카놀이':...","[하늘, 구름, 여름, 거울셀카, 셀카놀이, 오늘, 오늘인척, 제주, 제주도, 호텔...",40274969790,10_yoomm_04,-0.154332
14,"{'오오티디': 2, '셀피': 7, '골프': 3, '골프선수': 6, '골프스윙...","[오오티디, 셀피, 골프, 골프선수, 골프스윙, 웨지샷, 운동선수, 대학생, 용인대...",11868515736,_hyunii____,-0.050642
20,{},[],2286824803,mj__j01,0.0
11,{},[],23069095654,leesussam_,0.0
22,{},[],1636081854,c.seong,0.0
2,"{'셀카': 84, '맞팔': 84, '인친': 84, '소통': 84, '꿈': ...","[셀카, 맞팔, 인친, 소통, 꿈, 자부심, 팔로우, 선팔, 데일리, 여행스타그램,...",7806334927,soonshin_,0.011711
6,"{'그림쟁이': 137, '그림계정맞팔': 128, '그림': 178, '그림그리기...","[그림쟁이, 그림계정맞팔, 그림, 그림그리기, 그림스타그램, 일러스트레이터, 일러스...",11109557740,kkoyu123,0.015115


교사


Unnamed: 0,freq,tags,user_id,user_name,score
24,"{'여름': 1, '방학': 2, '여름방학': 2, '휴가': 2, '왜벌써': ...","[여름, 방학, 여름방학, 휴가, 왜벌써, 월요일, 주말, 돌아와, 공감, 글귀, ...",33938103350,maru_story87,-0.088658
28,{},[],31943748504,kkang.aji,0.0
8,"{'기상인증': 35, '스터디플래너': 27, '공부기록': 32}","[기상인증, 스터디플래너, 공부기록]",34439057360,youknowjeonghyun___,0.008627
6,"{'건물주': 2, '강릉맛집': 1, '찐': 1, '찐맛집': 1, '미친맛':...","[건물주, 강릉맛집, 찐, 찐맛집, 미친맛, 이강주, 수업, 주문진, 주문진어민수산...",4776346805,2030developer,0.010509
27,"{'공스타그램': 18, '스터디플래너': 15, '플랜비': 15, '7321':...","[공스타그램, 스터디플래너, 플랜비, 7321, 열품타, 열공시간]",31813609498,s2.00000.s2,0.015017
29,"{'협찬': 12, '승무원팔뚝주사': 3, '톡스미': 3, '순플러스': 1, ...","[협찬, 승무원팔뚝주사, 톡스미, 순플러스, 순플러스민트실, 아산카페, 웜싸이트, ...",1446887286,som__bly,0.015908
12,"{'깡보람': 5, '임보람': 4, '틱톡커': 13, '틱톡': 9, '연기':...","[깡보람, 임보람, 틱톡커, 틱톡, 연기, 인스타그램, 셀스타그램, 맞팔, 선팔, ...",1815428234,forvision77_br,0.030777
13,"{'서봄': 45, '서봄어린이집': 59, '공동육아어린이집': 56, '공동육아...","[서봄, 서봄어린이집, 공동육아어린이집, 공동육아현장, 공동육아, 협동조합어린이집,...",7145448194,seobom_we_grow_together,0.057021
30,{'선생님딸내미': 7},[선생님딸내미],40034827235,teachers__daughter,0.057924
37,"{'일러스트': 21, '작품': 23, '그림': 21, '포토샵': 21, '작...","[일러스트, 작품, 그림, 포토샵, 작업, 로고, 디자인, 로고디자인, 브랜드로고,...",7862422845,jyh_0320,0.063904


중2


Unnamed: 0,freq,tags,user_id,user_name,score
16,"{'뚱뚱한마카롱': 1, '좋아요반사': 11, '인스타푸드': 1, '베프': 2...","[뚱뚱한마카롱, 좋아요반사, 인스타푸드, 베프, 19, 17, 패션, 아웃핏, 오오...",1314775199,cocoro26,-0.008471
2,{},[],15470222343,shinchaehee06,0.0
30,{},[],40473986414,euphori_a__7,0.0
26,{},[],8506987194,gahyeon11206,0.0
33,{},[],11853499656,3501_oy,0.0
24,"{'모트트레인9월1일차': 1, '공스타그램': 86, '공스타': 85, '15살...","[모트트레인9월1일차, 공스타그램, 공스타, 15살, 중2공스타그램, 중3공스타그램...",34164285683,medico_haeun,0.012251
14,"{'공스타': 26, '공부스타그램': 26, '공스타그램': 26, '공스타그램맞...","[공스타, 공부스타그램, 공스타그램, 공스타그램맞팔, 플래너, 공부자극, 공스타만맞...",33416104506,092binnn,0.033794
21,"{'외대부고캠프': 21, '용인외고캠프': 5, '외대부고': 21, '용인외고'...","[외대부고캠프, 용인외고캠프, 외대부고, 용인외고, 외대부고기숙캠프, 외대부고영어캠...",5375673573,hafscamp,0.039908
3,"{'열공': 38, '인스': 4, '엉망진창': 1, '실수때매': 1, '망함'...","[열공, 인스, 엉망진창, 실수때매, 망함, 공부, 공스타그램, 초6, 예비중, 중...",25539217889,yeowon_study,0.041169
32,"{'06': 30, '추억팔이': 2, '단발안해': 1, '장발할래': 1, '선...","[06, 추억팔이, 단발안해, 장발할래, 선팔하면맞팔, 장발, 머리기르자, 06년생...",9488010942,k_yuwon_06,0.05207


# Class
Colab에서 파일 불러오기

In [None]:
import pandas as pd
import numpy as np
from collections import Counter

class UserFiltering:
    def __init__(self, hashtags, N_category, df):
        self.hashtags = hashtags
        self.N_category = N_category
        self.df = df

    def del_tags(self, tags, hashtag):
        lst = []
        for tag in tags:
            if tag not in hashtag:
                lst.append(tag)
        return lst

    def del_freq(self, freq, hashtag):
        dic = {}
        for (w, i) in freq.items():
            if w not in hashtag:
                dic[w] = i
        return dic

    def del_hashtag(self, num_df, hashtag):
        df = self.df[num_df]
        tags = df.tags.apply(lambda x: self.del_tags(x, hashtag))
        freq = df.freq.apply(lambda x: self.del_freq(x, hashtag))
        df['tags'] = tags
        df['freq'] = freq
        return df
    
    # 1) 검색 해시태그 제거
    def delete_hashtag(self):
        df = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            df[i] = self.del_hashtag(i, self.hashtags[i])
        return df

    def filtering(self, N): # N: 각 직업을 대표하는 voca에서 상위 몇 개를 뽑아낼지
        df = self.delete_hashtag()

        # 2) unique tags의 빈도수
        freq_whole = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            tmp = []
            for t in df[i].tags:
                tmp.extend(t)
            freq_whole[i] = Counter(tmp)

        # 3) 단어의 등장 문서수가 직업군의 절반을 넘을 경우, 해당 단어를 제거한 새로운 voca dictionary 생성
        voca = [0 for i in range(self.N_category)]
        freq_other = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            voca[i] = {}
            freq_other[i] = {}

        for num in range(self.N_category):
            for (w, n) in freq_whole[num].items():
                w_freq = 1
                for i in range(self.N_category):
                    if i != num:
                        if w in freq_whole[i]:
                            w_freq += 1
                freq_other[num][w] = w_freq
                if w_freq <= self.N_category//2:
                    voca[num][w] = n
        
        voca_top = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            voca_top[i] = dict(Counter(voca[i]).most_common(N))

        # 4) negative dictionary 생성: 타 직업군을 대표하는 단어
        neg = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            neg[i] = Counter()

        for i in range(self.N_category):
            for j in range(self.N_category):
                if j != i:
                    neg[i] += Counter(voca_top[j])

        # 5) negative voca에 변형된 sigmoid 적용: neg voca에 많이 등장할수록 중요도를 낮춤
        for i in range(self.N_category):
            n_job = len(df[i])
            for j, tag in enumerate(self.hashtags):
                if j != i:
                    for t in tag:
                        neg[i][t] = n_job
        
        neg_sig = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            neg_sig[i] = {}

        for i in range(self.N_category):
            nega = neg[i]
            point = nega.most_common(N)[N//2][1] # sigmoid 변곡점: neg 상위 N개의 중위값에 해당하는 빈도수
            for (w, n) in nega.items():
                neg_sig[i][w] = 1 / (1 + np.exp(n) - point)

        # 6) scoring: score = 평균(해시태그 사용 빈도수 x tf-idf x neg_sig)
        for i in range(self.N_category):
            df[i]['score'] = 0

        tf_idf = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            tf_idf[i] = {}
            for (w, n) in freq_whole[i].items():
                tf = n
                idf = np.log( self.N_category / (1 + freq_other[i][w]) )
                tf_idf[i][w] = tf * idf
        
        def scoring(freq_row, num_df):
            score = 0
            N_tags = sum(freq_row.values())
            ti = tf_idf[num_df]

            for (w, n) in freq_row.items():
                tf_idf_score = ti[w]
                try:
                    nega = neg_sig[num_df][w]
                except:
                    nega = 1
                score += tf_idf_score * nega / N_tags
            
            return score

        for i in range(self.N_category - 2): # 주부, 백수 제외
            df[i]['score'] = df[i]['freq'].apply(lambda x: scoring(x, i))

        return df, voca_top

# 개선해보기
1. 해시태그 제거 과정 빼고 해보기 -> 망함
2. N과 len의 연관성 고찰 -> 없음
3. 스코어 개선해보자 -> 어짜피 다 해당 해시태그 검색한 사람들이니까, score 계산할 때 해시태그 적게 건 사람들 score 크게 주는 식으로
- ex) 의사: {코로나: 1} 이 사람은 의사일 확률이 크다.

In [2]:
# 개선 후 바뀐점: filtering 하이퍼파라미터

import pandas as pd
import numpy as np
from collections import Counter

class UserFiltering:
    def __init__(self, hashtags, N_category, df):
        self.hashtags = hashtags
        self.N_category = N_category
        self.df = df

    def del_tags(self, tags, hashtag):
        lst = []
        for tag in tags:
            if tag not in hashtag:
                lst.append(tag)
        return lst

    def del_freq(self, freq, hashtag):
        dic = {}
        for (w, i) in freq.items():
            if w not in hashtag:
                dic[w] = i
        return dic

    def del_hashtag(self, num_df, hashtag):
        df = self.df[num_df]
        tags = df.tags.apply(lambda x: self.del_tags(x, hashtag))
        freq = df.freq.apply(lambda x: self.del_freq(x, hashtag))
        df['tags'] = tags
        df['freq'] = freq
        return df
    
    # 1) 검색 해시태그 제거
    def delete_hashtag(self):
        df = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            df[i] = self.del_hashtag(i, self.hashtags[i])
        return df

    def filtering(self, N_top, N_neg): # N_top: 각 직업을 대표하는 voca에서 상위 몇 개를 뽑아낼지
                                       # N_neg: 변곡점 조정 파라미터, 타 직업군 상위 몇개 뽑아낼건지
        df = self.delete_hashtag()

        # 2) unique tags의 빈도수
        freq_whole = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            tmp = []
            for t in df[i].tags:
                tmp.extend(t)
            freq_whole[i] = Counter(tmp)

        # 3) 단어의 등장 문서수가 직업군의 절반을 넘을 경우, 해당 단어를 제거한 새로운 voca dictionary 생성
        voca = [0 for i in range(self.N_category)]
        freq_other = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            voca[i] = {}
            freq_other[i] = {}

        for num in range(self.N_category):
            for (w, n) in freq_whole[num].items():
                w_freq = 1
                for i in range(self.N_category):
                    if i != num:
                        if w in freq_whole[i]:
                            w_freq += 1
                freq_other[num][w] = w_freq
                if w_freq <= self.N_category//2:
                    voca[num][w] = n
        
        voca_top = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            voca_top[i] = dict(Counter(voca[i]).most_common(N_top[i]))

        # 4) negative dictionary 생성: 타 직업군을 대표하는 단어
        neg = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            neg[i] = Counter()

        for i in range(self.N_category):
            for j in range(self.N_category):
                if j != i:
                    neg[i] += Counter(voca_top[j])

        # 5) negative voca에 변형된 sigmoid 적용: neg voca에 많이 등장할수록 중요도를 낮춤
        for i in range(self.N_category):
            n_job = len(df[i])
            for j, tag in enumerate(self.hashtags):
                if j != i:
                    for t in tag:
                        neg[i][t] = n_job
        
        neg_sig = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            neg_sig[i] = {}

        for i in range(self.N_category):
            nega = neg[i]
            point = nega.most_common(N_neg)[N_neg//2][1] # sigmoid 변곡점: neg 상위 N개의 중위값에 해당하는 빈도수 # N 등장!!!!!!!!!!!!!!!!!!!1
            for (w, n) in nega.items():
                neg_sig[i][w] = 1 / (1 + np.exp(n) - point)

        # 6) scoring: score = 평균(해시태그 사용 빈도수 x tf-idf x neg_sig)
        for i in range(self.N_category):
            df[i]['score'] = 0

        tf_idf = [0 for i in range(self.N_category)]
        for i in range(self.N_category):
            tf_idf[i] = {}
            for (w, n) in freq_whole[i].items():
                tf = n
                idf = np.log( self.N_category / (1 + freq_other[i][w]) )
                tf_idf[i][w] = tf * idf
        
        def scoring(freq_row, num_df):
            score = 0
            N_tags = sum(freq_row.values())
            ti = tf_idf[num_df]

            for (w, n) in freq_row.items():
                tf_idf_score = ti[w]
                try:
                    nega = neg_sig[num_df][w]
                except:
                    nega = 1
                score += tf_idf_score * nega / N_tags
            
            return score

        for i in range(self.N_category - 2): # 주부, 백수 제외
            df[i]['score'] = df[i]['freq'].apply(lambda x: scoring(x, i))

        return df, voca_top, neg

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [14]:
N_category = 9
hashtags = [
    ["간호사", "나이팅게일선서식", "널스타그램", "응급실간호사", "간호사그램"],
    ["경찰", "경찰스타그램", "중앙경찰학교"],
    ["교사", "교사스타그램", "쌤스타그램"],
    ["군인", "군스타그램", "군인스타그램"],
    ["소방관", "소방공무원", "소방스타그램"],
    ["의사", "의사스타그램"],
    ["고1", "고2", "고3", "중1", "중2", "중3"],
    ["딸맘그램", "맘일상", "아들맘그램"], # 주부
    ["백수"]
]

path = '/content/drive/My Drive/twitter2/아이디로유저의과거태그가져오기/'

nurse = pd.concat([pd.read_json(path + "간호사/간호사그램_1314.json"),
                   pd.read_json(path + "간호사/나이팅게일선서식_64.json"),
                   pd.read_json(path + "간호사/널스타그램_tags_freq.json"),
                   pd.read_json(path + "간호사/응급실간호사_106.json")]
                #    pd.read_json(path + "간호사/간호사_4984.json")]
                  ).drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

police = pd.concat([pd.read_json(path + "경찰/경찰_3840.json"),
                    pd.read_json(path + "경찰/경찰스타그램_63.json"),
                    pd.read_json(path + "경찰/중앙경찰학교_508.json")]
                   ).drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

teacher = pd.concat([pd.read_json(path + "교사/교사_2155.json"),
                     pd.read_json(path + "교사/교사스타그램_1410.json"),
                     pd.read_json(path + "교사/쌤스타그램_2264.json")]
                    ).drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

soldier = pd.concat([pd.read_json(path + "군인/군스타그램_tags_freq.json"),
                     pd.read_json(path + "군인/군인_tags_freq.json"),
                     pd.read_json(path + "군인/군인스타그램_tags_freq.json")]
                    ).drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

fire = pd.concat([pd.read_json(path + "소방관/소방공무원_1136.json"),
                     pd.read_json(path + "소방관/소방관_3156.json"),
                     pd.read_json(path + "소방관/소방스타그램_115.json")]
                    ).drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

doctor = pd.concat([pd.read_json(path + "의사/의사_tags_freq.json"),
                     pd.read_json(path + "의사/의사스타그램_tags_freq.json")]
                    ).drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

student = pd.concat([pd.read_json(path + "중고생/tags_go1.json"),
                     pd.read_json(path + "중고생/tags_go2.json"),
                     pd.read_json(path + "중고생/tags_go3.json"),
                     pd.read_json(path + "중고생/tags_joong1.json"),
                     pd.read_json(path + "중고생/tags_joong2.json"),
                     pd.read_json(path + "중고생/tags_joong3.json")
                     ]).drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

me = pd.read_json(path + "백수/tags_baeksoo.json").drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

mom = pd.concat([pd.read_json(path + "주부/딸맘그램_1665.json"),
                pd.read_json(path + "주부/맘일상_1080.json"),
                pd.read_json(path + "주부/아들맘그램re_3149.json")
                ]).drop_duplicates(subset=['user_name']).reset_index().drop('index', axis=1)

df = [nurse, police, teacher, soldier, fire, doctor, student, me, mom]

In [15]:
uf = UserFiltering(hashtags, N_category, df)

In [16]:
N = [19, 40, 100, 40, 60, 19, 100, 10, 60]
data, top_word, neg_word = uf.filtering(N, 50)



In [8]:
# 필터링 head, tail 결과 보기
def filtered_table(job_name, job_num, view_num):
    print(job_name + "O")
    display(data[job_num].sort_values(by='score', ascending=False).head(view_num))
    print('\n')
    print(job_name + "X")
    display(data[job_num].sort_values(by='score', ascending=True).head(view_num))

In [9]:
# N 고르기: 각 직업별 빈도수 높은 단어보기
def word_of_job(job_num, N_top):
    return sorted(top_word[job_num].items(), key=lambda x: x[1], reverse=True)[:N_top]

# 0. 간호사

In [17]:
len(nurse)

4036

In [18]:
word_of_job(0, 20) # N = 20 정도가 적절

[('나이트오프', 57),
 ('쓰리오프', 54),
 ('꿀오프', 52),
 ('오프즐기기', 49),
 ('간호사일상', 47),
 ('원오프', 46),
 ('수술실간호사', 45),
 ('네임드', 43),
 ('인스타포토', 43),
 ('나이트근무중', 42),
 ('데이근무', 41),
 ('샤넬귀걸이', 40),
 ('나이트출근전', 39),
 ('대구속눈썹펌', 39),
 ('클럽매스', 38),
 ('강남여성시대', 38),
 ('경마장', 38),
 ('토토사이트', 38),
 ('중환자실간호사', 37)]

In [19]:
filtered_table("간호사", 0, 10)

간호사O


Unnamed: 0,user_id,user_name,tags,freq,score
2217,520242426,j._.h093,"[주말오프, 나이트근무, 날씨좋아서기분좋은발걸음, 흰눈내리던2월, 꿀오프]","{'주말오프': 1, '나이트근무': 1, '날씨좋아서기분좋은발걸음': 1, '흰눈...",25.185417
115,3295036770,dlchae,"[보륜, 몸무게는왜그대로니, 나이트근무]","{'보륜': 1, '몸무게는왜그대로니': 1, '나이트근무': 1}",19.013586
2819,12847641021,hye_ong2,"[첫줄, 나이트근무, 안녕2020]","{'첫줄': 2, '나이트근무': 1, '안녕2020': 1}",9.583471
3714,1325266648,kiyoung11,"[1일차, 게임스타그램, 너티독, 라스트오브어스2, 내나이, 나이트근무, 남자간호사]","{'1일차': 1, '게임스타그램': 1, '너티독': 1, '라스트오브어스2': ...",8.67911
795,1714396866,kkabchang,"[쓰나끝, 쓰리오프, 양팡, 펀치, 13학번, 동기, 속초여행, 속초중앙시장, 나이...","{'쓰나끝': 1, '쓰리오프': 1, '양팡': 1, '펀치': 1, '13학번'...",7.540426
1787,1429460158,d_yeon__25,"[원오프, 응원, 어때, 예쁜나이25살]","{'원오프': 1, '응원': 1, '어때': 1, '예쁜나이25살': 1}",7.070014
929,24975463753,hye_dongg,"[신규간호사, 간호학과, 학생간호사]","{'신규간호사': 1, '간호학과': 1, '학생간호사': 1}",7.050218
2785,2197154564,ls_zzong,"[화분, 밥도둑갈비찜, 나이트근무중, 롤, 영동대로카운트다운, 코엑스]","{'화분': 1, '밥도둑갈비찜': 1, '나이트근무중': 1, '롤': 1, '영...",6.899595
1368,1974372313,c.protect_treasure,"[동기사랑, 513, 25, 오늘아님, 꿀오프, 유니의바다]","{'동기사랑': 1, '513': 1, '25': 1, '오늘아님': 1, '꿀오프...",6.42947
2465,5549598867,jji__euuuun,"[멍뭉이그램, 출근극혐, 오프7개실화, 오프끝, 순삭, 인턴십평가담당, 뿌듯]","{'멍뭉이그램': 1, '출근극혐': 1, '오프7개실화': 1, '오프끝': 1,...",5.113998




간호사X


Unnamed: 0,user_id,user_name,tags,freq,score
3620,2266547085,6_26am,[코로나],{'코로나': 1},-70.696906
3070,4560251994,han.hj_310,"[일상, 럽스타그램, 집앞, 봄, 벚꽃]","{'일상': 1, '럽스타그램': 1, '집앞': 1, '봄': 1, '벚꽃': 1}",-54.429242
125,2137050022,aquarius___moon,"[카페, 퇴근, 벚꽃]","{'카페': 1, '퇴근': 1, '벚꽃': 1}",-47.201511
3135,25006061378,more_s2ome,"[데일리, 데일리룩, 일상, 일상스타그램, 소통, 여행스타그램, 여행, 셀카, 셀스...","{'데일리': 1, '데일리룩': 1, '일상': 1, '일상스타그램': 1, '소...",-45.805484
2793,2994060849,jongmanheo,"[일상, 살빠짐, 수원]","{'일상': 1, '살빠짐': 1, '수원': 1}",-44.637738
1692,1465440328,soul___92,"[대구, 스타벅스, 수성구, 일상]","{'대구': 1, '스타벅스': 1, '수성구': 1, '일상': 1}",-44.277757
3581,2366990700,jeminimouse,"[코로나, 일상, 친스타그램, 미국간호사, 대전]","{'코로나': 1, '일상': 1, '친스타그램': 1, '미국간호사': 1, '대...",-43.372227
3221,1595701261,ahriming0111,"[닌텐도스위치, 아리미의하루, 일상, 먹스타그램, 쉑쉑버거]","{'닌텐도스위치': 1, '아리미의하루': 1, '일상': 1, '먹스타그램': 1...",-39.040801
1186,1457486816,lily_947,[2020],{'2020': 1},-38.983391
3020,31793975621,yubn2_4,"[맞팔선팔환영, 맞팔, 좋아요]","{'맞팔선팔환영': 1, '맞팔': 1, '좋아요': 1}",-38.491708


# 1. 경찰

In [None]:
len(police)

4041

In [None]:
word_of_job(1, 40) # N = 40 정도가 적절

[('303기', 160),
 ('301기', 152),
 ('경단기', 67),
 ('300기', 67),
 ('경스타그램', 66),
 ('경찰학', 49),
 ('형소법', 45),
 ('운동하는경찰', 44),
 ('296기', 42),
 ('경찰학개론', 41),
 ('기동대', 40),
 ('서울지방경찰청', 35),
 ('경시생일기', 34),
 ('302기', 34),
 ('298기', 33),
 ('경찰행정', 31),
 ('부산경찰', 29),
 ('경찰공무원시험', 29),
 ('해양경찰특공대', 27),
 ('서울청', 26),
 ('경찰학원', 26),
 ('경찰체력학원', 25),
 ('적보산', 24),
 ('순찰차', 24),
 ('유도장', 23),
 ('경행', 23),
 ('실용글쓰기', 22),
 ('경위', 22),
 ('경간부', 22),
 ('공무원체력학원', 22),
 ('경찰인재개발원', 22),
 ('민중의지팡이', 21),
 ('서울경찰', 20),
 ('소방체력학원', 20),
 ('젊은경찰관이여조국은그대를믿노라', 20),
 ('교통경찰', 19),
 ('신광은', 19),
 ('경찰학과', 19),
 ('경행특채', 18),
 ('경찰승진', 18)]

In [None]:
filtered_table("경찰", 1, 10)

경찰O


Unnamed: 0,user_id,user_name,tags,freq,score
3381,1281420053,minjung_kim_v,[303기],{'303기': 1},129.748835
3769,650574540,iamyunani,"[부산경찰, 303기]","{'부산경찰': 1, '303기': 1}",73.397324
4149,650574540,iamyunani,"[부산경찰, 303기]","{'부산경찰': 1, '303기': 1}",73.397324
3967,2231420799,u_sun02,"[303기, 303]","{'303기': 1, '303': 1}",69.173498
2637,2231420799,u_sun02,"[303기, 303]","{'303기': 1, '303': 1}",69.173498
4165,3461616970,ssanyon30,"[301기, 23학급]","{'301기': 1, '23학급': 1}",66.894967
267,1435935244,pyoham,"[61학급, 303기]","{'61학급': 1, '303기': 1}",66.378495
4272,1435935244,pyoham,"[61학급, 303기]","{'61학급': 1, '303기': 1}",66.378495
1448,1441572704,parkseongyong_,"[296기, 300기, 301기, 정복]","{'296기': 1, '300기': 1, '301기': 1, '정복': 1}",55.388864
4242,3187689402,h_ongpol,"[서울청, 303기]","{'서울청': 2, '303기': 1}",48.343763




경찰X


Unnamed: 0,user_id,user_name,tags,freq,score
1150,8438955534,gumi_dent,[코로나19],{'코로나19': 1},-67.32537
2547,3123230100,m_zygmant,[바다],{'바다': 1},-51.732013
4089,3547940291,j03299_,"[중경, 충주, 일상]","{'중경': 1, '충주': 1, '일상': 1}",-39.123871
3506,3547940291,j03299_,"[중경, 충주, 일상]","{'중경': 1, '충주': 1, '일상': 1}",-39.123871
4136,1130730890,k__ws_94,"[데일리, 일상, 여유, 좋아요, 팔로우, 팔로미, 소통, 푸른색, 하늘, 인스타그...","{'데일리': 1, '일상': 1, '여유': 1, '좋아요': 1, '팔로우': ...",-36.757202
2474,1622798164,yetssur,"[일상, 맞팔, 선팔, 인친, 좋아요, 대전, 둔산동, 인계동, 강남, 이태원, 승...","{'일상': 1, '맞팔': 1, '선팔': 1, '인친': 1, '좋아요': 1,...",-35.295773
3395,7700841631,jodalbong,"[영화, 히트맨, 셀스타, 셀스타그램, 인스타그램, 인스타, 셀카, 데일리, 좋아요...","{'영화': 1, '히트맨': 1, '셀스타': 1, '셀스타그램': 1, '인스타...",-34.880916
3639,5659426343,ty.shin93,"[5, 목요일, 셀스타그램, 셀카, 좋아요, 일상, 데일리, 소통, 좋아요반사, 좋...","{'5': 1, '목요일': 1, '셀스타그램': 2, '셀카': 1, '좋아요':...",-31.803824
1311,3219879823,hobbang_pol,[공스타그램],{'공스타그램': 1},-30.449189
2032,1627878187,jinsun923,[사회적거리두기],{'사회적거리두기': 1},-28.974142


# 2. 교사
- 정확도가 상당히 높음
- score가 낮은 유저도 교사가 많은 것을 보니, 이미 검색 태그 자체가 필터링 역할을 잘 한것으로 보임

In [None]:
len(teacher)

4679

In [None]:
word_of_job(2, 200) # 정확도가 상당히 높음!

[('신규교사', 123),
 ('학급운영', 107),
 ('교실꾸미기', 103),
 ('놀이중심교육과정', 93),
 ('예비교사', 91),
 ('교단일기', 82),
 ('학급경영', 81),
 ('특수교육', 80),
 ('교실환경', 79),
 ('교사그램', 77),
 ('개정누리과정', 76),
 ('교사연수', 75),
 ('공립유치원교사', 68),
 ('교사일상', 64),
 ('미리캔버스', 64),
 ('보건교사', 62),
 ('중학교교사', 62),
 ('구글클래스룸', 60),
 ('티처빌', 60),
 ('공립유치원', 59),
 ('전문적학습공동체', 54),
 ('교사일기', 54),
 ('직무연수', 51),
 ('수업영상', 50),
 ('원격연수', 50),
 ('생활지도', 49),
 ('유치원환경구성', 48),
 ('쌍방향수업', 47),
 ('비주얼씽킹', 43),
 ('신학기환경구성', 43),
 ('놀이기록', 43),
 ('인디스쿨', 43),
 ('몽당분필', 42),
 ('교실환경구성', 41),
 ('특수학급', 41),
 ('칠판그림', 40),
 ('혁신학교', 39),
 ('교사모집', 38),
 ('체육쌤', 38),
 ('초등임용', 38),
 ('계기교육', 37),
 ('자료공유', 37),
 ('전학공', 37),
 ('누리놀이', 37),
 ('고3담임', 36),
 ('초등교사그램', 36),
 ('담임교사', 36),
 ('수업나눔', 35),
 ('고등교사', 35),
 ('선생님그램', 34),
 ('날짜판', 33),
 ('새학기환경구성', 33),
 ('역사교사', 33),
 ('위클래스', 33),
 ('고등학교교사', 33),
 ('등교준비', 32),
 ('수학교사', 32),
 ('학급일지', 31),
 ('창체', 31),
 ('스마트쿠키', 31),
 ('웅진공부방', 31),
 ('교실놀이', 31),
 ('교사모임', 31),
 ('투약함', 30),
 ('창의

In [None]:
filtered_table("교사", 2, 10)

교사O


Unnamed: 0,user_id,user_name,tags,freq,score
4766,978100562,_ssunjjoooo,[교실꾸미기],{'교실꾸미기': 1},60.542026
4263,16131463063,chaminglish,"[안내사항, 참쌤스쿨, 참쌤스쿨콘텐츠축제, 참쌤스쿨아카데미]","{'안내사항': 1, '참쌤스쿨': 1, '참쌤스쿨콘텐츠축제': 1, '참쌤스쿨아카...",24.660365
2994,8105883347,hnhn_______,"[미리캔버스, 시간표, 학교일기, 수업고민, 음악수업, 음악교사, 수업나눔]","{'미리캔버스': 1, '시간표': 1, '학교일기': 1, '수업고민': 1, '...",21.231888
5445,24814039853,belle._.ssam,"[사회, 참쌤스쿨]","{'사회': 1, '참쌤스쿨': 1}",21.17659
2501,24814039853,belle._.ssam,"[사회, 참쌤스쿨]","{'사회': 1, '참쌤스쿨': 1}",21.17659
3764,5048189329,haenppiness,"[초등교사, 합격]","{'초등교사': 1, '합격': 1}",20.759266
3859,33026755777,jjimi_ssam,"[환경구성, 교원연구회, 놀이연구회, 전문적학습공동체, 경상북도교육청, 유치원교사,...","{'환경구성': 1, '교원연구회': 1, '놀이연구회': 1, '전문적학습공동체'...",17.025785
748,1206610439,tteo.aa,[초수합격],{'초수합격': 1},15.87024
4925,11361250209,hxxje__,"[중등임용, 임용합격, 도덕윤리]","{'중등임용': 1, '임용합격': 1, '도덕윤리': 1}",15.844016
3013,24964770134,teacher_sunsammi,[교사다움],{'교사다움': 1},15.040774




교사X


Unnamed: 0,user_id,user_name,tags,freq,score
5154,4518018866,iamdongdongee,[감사합니다],{'감사합니다': 1},-95.140546
4409,5461668757,_ln_9,[온라인개학],{'온라인개학': 1},-89.767159
318,3765407652,xxkkang,"[일상, 주말, 군산, 카페, 오산상회]","{'일상': 1, '주말': 1, '군산': 1, '카페': 1, '오산상회': 1}",-82.398314
5296,963726432,shinssol,[2020],{'2020': 1},-76.386374
753,13360184913,yjjstudy123,"[선생님, 학생]","{'선생님': 1, '학생': 1}",-68.010213
1436,6842772765,jin.__.98,"[일상, 2, 진도, 설날]","{'일상': 1, '2': 1, '진도': 1, '설날': 1}",-65.32352
509,1358886049,hyun___sil,"[사진, 인스타그램, 오랜만에, 일상, 찰칵, 코로나, 조심]","{'사진': 1, '인스타그램': 2, '오랜만에': 1, '일상': 1, '찰칵'...",-61.530541
5715,5734091888,me_950214,[여름],{'여름': 1},-59.844773
1693,8087362790,creativemaker_,[1],{'1': 1},-55.841073
3774,11904127211,greatart____,"[마스크걸이, 코로나, 사라져요]","{'마스크걸이': 1, '코로나': 1, '사라져요': 1}",-54.702225


# 3. 군인
- '곰신' 단어 제거 필요
- '휴가' 라는 단어가 대표성을 띠지 못함

In [None]:
len(soldier)

9043

In [None]:
word_of_job(3, 40)

[('전역하고싶다', 121),
 ('휴가통제', 97),
 ('구닌', 92),
 ('휴가나가고싶다', 88),
 ('출타제한', 74),
 ('신병위로휴가', 68),
 ('짬찌', 65),
 ('말년병장', 63),
 ('출타', 61),
 ('휴가제한', 59),
 ('조기전역', 50),
 ('곰신일기', 50),
 ('이병', 47),
 ('복귀임박', 45),
 ('뜀걸음', 45),
 ('전역의해', 41),
 ('포병', 40),
 ('대민지원', 40),
 ('말출', 39),
 ('분대장', 38),
 ('곰신일상', 37),
 ('군화곰신커플', 36),
 ('임관식', 35),
 ('군인들', 35),
 ('휴가좀', 35),
 ('특급전사', 34),
 ('곰신택배', 34),
 ('전역복', 33),
 ('복귀날', 33),
 ('휴가보내줘', 33),
 ('휴가때', 32),
 ('1사단', 32),
 ('인편', 32),
 ('곧전역', 32),
 ('전문하사', 32),
 ('상병곰신', 31),
 ('장기복무', 31),
 ('지행', 29),
 ('군인아빠', 28),
 ('와수리', 28)]

In [None]:
filtered_table("군인", 3, 10)

군인O


Unnamed: 0,user_id,user_name,tags,freq,score
1379,2930892460,mk.j_97,"[우울해, 전역하고싶다]","{'우울해': 1, '전역하고싶다': 1}",89.468955
2539,3117672939,jeong0809,"[언제, 전역하고싶다]","{'언제': 1, '전역하고싶다': 1}",84.780412
3989,1764214674,jong.hyuk_00,[휴가보내줘],{'휴가보내줘': 1},36.254206
9290,4961559511,dooyoung_0,"[모르겠다, 술이다, 죽자, 휴가나가고싶다]","{'모르겠다': 1, '술이다': 1, '죽자': 1, '휴가나가고싶다': 1}",32.913626
7087,4961559511,dooyoung_0,"[모르겠다, 술이다, 죽자, 휴가나가고싶다]","{'모르겠다': 1, '술이다': 1, '죽자': 1, '휴가나가고싶다': 1}",32.913626
8042,3619748129,beerois,"[스물셋, 구닌]","{'스물셋': 1, '구닌': 1}",27.038187
468,10734684057,17.11.11__s2,[인편],{'인편': 1},25.949767
1122,1520929438,s0u0.h,"[벌써토말림, 군대, 전역하고싶다]","{'벌써토말림': 1, '군대': 1, '전역하고싶다': 1}",25.764681
9217,1905344518,kk_ryun99,[예비역],{'예비역': 1},14.596744
10129,3027036521,alex.lee_94,"[형제, 임관, 육군3사관학교, 소위]","{'형제': 1, '임관': 1, '육군3사관학교': 1, '소위': 1}",12.610876




군인X


Unnamed: 0,user_id,user_name,tags,freq,score
10443,1540711306,log_park,[일상],{'일상': 1},-329.356972
5187,2575714774,hwanfluenza_130mood,"[휴가, 일상]","{'휴가': 1, '일상': 1}",-320.664729
2629,1593989658,kkirae96,[휴가],{'휴가': 1},-311.972487
116,3075075371,w00njoy,[휴가],{'휴가': 1},-311.972487
4433,2042726880,vincent__burce,[휴가],{'휴가': 1},-311.972487
10486,5513006788,y.g.goo,"[맞팔, 휴가]","{'맞팔': 1, '휴가': 1}",-278.783924
6995,5854961171,k.dh98,[좋아요],{'좋아요': 1},-256.342135
7753,3219262415,_y_ubin_,"[친구, 휴가]","{'친구': 1, '휴가': 1}",-216.357819
1887,1508841441,romantic__moment_it,[코로나],{'코로나': 1},-205.874448
4647,2026925834,nohyoon_,"[휴가, 사랑해]","{'휴가': 1, '사랑해': 1}",-203.345795


# 4. 소방관

In [None]:
len(fire)

3761

In [None]:
word_of_job(4, 60) # 50-60 정도

[('경북소방', 79),
 ('서울소방', 76),
 ('중앙소방학교', 69),
 ('경남소방', 52),
 ('경북소방학교', 48),
 ('전남소방', 46),
 ('하트세이버', 45),
 ('방화복', 42),
 ('대구소방', 41),
 ('강원소방', 40),
 ('경기소방학교', 39),
 ('전북소방', 39),
 ('충북소방', 36),
 ('배근력', 34),
 ('공무원체력학원', 34),
 ('부산소방', 34),
 ('주택용소방시설', 34),
 ('대한민국소방관', 34),
 ('소방체력학원', 32),
 ('119구급대', 31),
 ('충청소방학교', 31),
 ('몸짱소방관', 28),
 ('오늘도구하겠습니다', 28),
 ('의용소방대', 28),
 ('부산소방학교', 27),
 ('주간근무', 25),
 ('단독경보형감지기', 25),
 ('화재대응능력2급', 24),
 ('서울소방학교', 24),
 ('경찰체력학원', 24),
 ('화재현장', 24),
 ('의무소방', 23),
 ('71기', 23),
 ('소방교', 23),
 ('소방시험', 23),
 ('소방실기', 23),
 ('소방헬기', 23),
 ('운동하는소방관', 22),
 ('경기도소방학교', 22),
 ('충남소방', 22),
 ('최강소방', 21),
 ('왕복오래달리기', 21),
 ('수난구조훈련', 21),
 ('소방공무원준비', 21),
 ('소방기술경연대회', 21),
 ('최강소방관', 21),
 ('체클튜브', 20),
 ('속도방수', 20),
 ('소방시설', 20),
 ('임용식', 20),
 ('강원소방학교', 19),
 ('소방공무원합격', 19),
 ('당근복', 18),
 ('산불예방', 18),
 ('명예소방관', 18),
 ('대한민국소방', 18),
 ('소방관처우개선', 18),
 ('소방학개론', 18),
 ('중앙119구조본부', 18),
 ('강남소방서', 18)]

In [None]:
filtered_table("소방관", 4, 10)

소방관O


Unnamed: 0,user_id,user_name,tags,freq,score
2845,1950169371,d0__0_,"[강원소방학교, 강원소방]","{'강원소방학교': 1, '강원소방': 1}",26.655421
30,1950169371,d0__0_,"[강원소방학교, 강원소방]","{'강원소방학교': 1, '강원소방': 1}",26.655421
324,1338504252,for10_mhs,[소방체력],{'소방체력': 1},17.843324
3071,1130370313,popo8884,"[만삭촬영, 아빠되기, 전남소방]","{'만삭촬영': 1, '아빠되기': 1, '전남소방': 1}",17.211593
272,1540208842,lsj809,[경기소방],{'경기소방': 1},16.586752
1864,1751562340,jeong_tigger,"[지방종, 구급대원]","{'지방종': 1, '구급대원': 1}",16.332233
3237,4000161562,yijin1250,"[구급대원, 3등, 하트세이버]","{'구급대원': 2, '3등': 1, '하트세이버': 1}",14.504063
4104,2148747723,kim_dongjoon,"[경북소방학교, 11년, 김동준교수, 소방학교]","{'경북소방학교': 1, '11년': 1, '김동준교수': 1, '소방학교': 1}",14.006445
2799,1492113731,kwang.mo.kim,"[경북소방학교, 경북소방]","{'경북소방학교': 2, '경북소방': 1}",12.982288
1070,4666170254,ffkteel_,"[하트세이버, 대한민국소방관, 소방청, 2020년, 4월1일, 국가직전환, 소방공무...","{'하트세이버': 1, '대한민국소방관': 1, '소방청': 1, '2020년': ...",11.823758




소방관X


Unnamed: 0,user_id,user_name,tags,freq,score
981,2035781239,lim_seok_hwan,[코로나],{'코로나': 1},-119.689546
869,1814603121,jinhwan1367,"[주렁주렁경주보문점, 코로나, 코로나조심, 화이팅]","{'주렁주렁경주보문점': 1, '코로나': 1, '코로나조심': 1, '화이팅': 1}",-48.748321
3965,1415083013,jaeyeol3746,"[합격, 감사합니다]","{'합격': 1, '감사합니다': 1}",-47.201511
2686,17624114,mizz_hwa,"[2020, 아디다스, 오오티디, 일상, 셀스타그램]","{'2020': 1, '아디다스': 1, '오오티디': 1, '일상': 1, '셀스...",-41.469899
1981,6876659224,jooon___jun,"[경북소방, 일상, 씁쓸, 운동하는남자, 코로나, 코로나19, 조심, 나가고싶다, 대구]","{'경북소방': 1, '일상': 2, '씁쓸': 1, '운동하는남자': 1, '코로...",-40.803906
2602,2136045183,cc.hjhj,"[브라더, 119, 화이팅]","{'브라더': 1, '119': 1, '화이팅': 1}",-40.77452
1962,4082629099,119_hyunbin,[럽스타그램],{'럽스타그램': 1},-35.085052
708,8100624667,119hyuk,"[여행, 여행스타그램, 프랑스, 파리, 유럽여행, 힐링여행, 119, 선팔, 선팔하...","{'여행': 1, '여행스타그램': 1, '프랑스': 1, '파리': 1, '유럽여...",-31.827656
1591,8100624667,119hyuk,"[여행, 여행스타그램, 프랑스, 파리, 유럽여행, 힐링여행, 119, 선팔, 선팔하...","{'여행': 1, '여행스타그램': 1, '프랑스': 1, '파리': 1, '유럽여...",-31.827656
2046,618844683,dear__4.19,"[셀카, 사랑해, 사랑니]","{'셀카': 1, '사랑해': 1, '사랑니': 1}",-30.097987


# 5. 의사

In [None]:
len(doctor)

3026

In [None]:
word_of_job(5, 20) # 마지막 꺼 빼야함

[('젊은의사단체행동', 122),
 ('2020젊은의사단체행동', 84),
 ('대한전공의협의회', 80),
 ('의사파업이유', 69),
 ('대전협', 63),
 ('젊은의사가알려드립니다', 41),
 ('젊은의사', 37),
 ('의거일', 31),
 ('서거일', 28),
 ('운동하는의사', 27),
 ('공공재', 26),
 ('덕분이라며챌린지', 25),
 ('성형외과전문의', 25),
 ('공공의대설립반대', 24),
 ('의사파업지지', 24),
 ('의과대학', 22),
 ('젊은의사자가격리', 22),
 ('전공의파업이유', 21),
 ('성형외과의사', 21),
 ('서면핫플레이스', 18)]

In [None]:
filtered_table("의사", 5, 10)

의사O


Unnamed: 0,user_id,user_name,tags,freq,score
249,31567574262,interns_diary,[젊은의사단체행동],{'젊은의사단체행동': 1},71.709973
149,2713949094,simbak__,"[여의도가자, 젊은의사단체행동, 2020젊은의사단체행동, 대한전공의협의회, 삼성서울...","{'여의도가자': 1, '젊은의사단체행동': 1, '2020젊은의사단체행동': 1,...",27.261499
105,2103958142,yyeochan,"[2020젊은의사단체행동, 젊은의사가알려드립니다, 의사파업이유, 전공의, 온기정, ...","{'2020젊은의사단체행동': 2, '젊은의사가알려드립니다': 2, '의사파업이유'...",18.456386
205,1712218396,taehyun_gwon,"[젊은의사단체행동, 의사파업, 의사파업이유, 리그램, 2020젊은의사단체행동, 대한...","{'젊은의사단체행동': 2, '의사파업': 2, '의사파업이유': 2, '리그램':...",16.093323
220,1649084492,nayoi__,"[리그램, 젊은의사단체행동, 대한전공의협의회, 전공의, 의사파업이유, 의협, 전공의...","{'리그램': 2, '젊은의사단체행동': 6, '대한전공의협의회': 3, '전공의'...",10.261094
32,3276061884,jaeho6176,"[의사파업, 의사파업지지, 젊은의사단체행동, 문재인, 문재인대통령, 문재인대통령님,...","{'의사파업': 2, '의사파업지지': 2, '젊은의사단체행동': 3, '문재인':...",8.451549
186,2296551587,cho_sy08,"[젊은의사단체행동, 2020젊은의사단체행동, 젊은의사, 전공의, 인턴, 의사파업, ...","{'젊은의사단체행동': 5, '2020젊은의사단체행동': 5, '젊은의사': 3, ...",7.673095
257,2927016112,eulstagram,"[정책철회, 원점에서전면재논의, 더분해]","{'정책철회': 1, '원점에서전면재논의': 1, '더분해': 1}",5.667477
192,8602102933,geori_at_92,"[전공의파업, 2020젊은의사단체행동, 한번도경험해보지못한나라, 대한전공의협의회, ...","{'전공의파업': 3, '2020젊은의사단체행동': 5, '한번도경험해보지못한나라'...",5.625074
2629,1550669907,heeyeo_ny,"[코로나, 코로나위기, 코로나절호의기회, 코로나호기, 공공의대게이트, 의사파업, 의...","{'코로나': 1, '코로나위기': 1, '코로나절호의기회': 1, '코로나호기':...",5.333484




의사X


Unnamed: 0,user_id,user_name,tags,freq,score
2382,2087292114,anjikyoon,"[코로나, 코로나19]","{'코로나': 1, '코로나19': 1}",-102.09434
515,3657973371,youngmin2703,[2020],{'2020': 1},-48.887279
3032,7800582445,cheonsagun,[2020],{'2020': 1},-48.887279
1010,7800582445,cheonsagun,[2020],{'2020': 1},-48.887279
1871,1832425472,ilyas.kurmanalin,[건강],{'건강': 1},-40.77452
1005,37447649295,hyunm_iny,"[마스크, 필수, 장난감]","{'마스크': 1, '필수': 1, '장난감': 1}",-29.992627
2601,8749017853,justremember11,"[2019, 2020]","{'2019': 1, '2020': 1}",-29.237543
2573,29440381150,doo_dlelife,"[우한폐렴, 중국, 우한, 코로나바이러스, 코로나, 코로나19, 안녕, 하시길, 화...","{'우한폐렴': 1, '중국': 1, '우한': 1, '코로나바이러스': 1, '코...",-29.082881
621,26251954177,t.lee_dentist,"[좋아요, 팔로우, 유튜브, 블로그, 육아, 치과의사, 데일리, 셀피, 소통, 가족...","{'좋아요': 2, '팔로우': 2, '유튜브': 1, '블로그': 1, '육아':...",-29.030874
2639,10697012574,131k_m,"[인스타그램, 좋아요, 가족, 일상, 아이, 아빠, 엄마, 러시아, 팔로우, 셀카,...","{'인스타그램': 2, '좋아요': 1, '가족': 1, '일상': 2, '아이':...",-27.687634


# 6. 중고등학생
- '모트모트' 관련 태그가 엄청 많음

In [None]:
len(student)

14058

In [None]:
word_of_job(6, 100)

[('중3공스타', 494),
 ('중2공스타', 425),
 ('모트모트스터디플래너', 371),
 ('05공스타그램', 364),
 ('고1공스타', 351),
 ('모트트레인8월2일차', 320),
 ('중1공스타', 286),
 ('모트트레인7월1일차', 281),
 ('중학생공스타그램', 280),
 ('모트트레인7월2일차', 279),
 ('모트트레인8월3일차', 263),
 ('모트독서실', 260),
 ('모트트레인7월3일차', 246),
 ('모트트레인7월6일차', 239),
 ('모트트레인8월4일차', 237),
 ('모트트레인7월5일차', 233),
 ('모트트레인8월5일차', 223),
 ('모트트레인5월1일차', 216),
 ('모트트레인8월7일차', 214),
 ('모트트레인8월6일차', 206),
 ('03공스타그램', 204),
 ('모트트레인6월1일차', 203),
 ('예비고1공스타그램', 203),
 ('모트트레인4월1일차', 199),
 ('모트모트노트', 198),
 ('04공스타그램', 195),
 ('모트트레인6월2일차', 186),
 ('모트모트100', 182),
 ('모트트레인5월2일차', 181),
 ('모트트레인4월2일차', 180),
 ('06공스타그램', 177),
 ('모트트레인4월3일차', 174),
 ('모트트레인6월3일차', 172),
 ('모트트레인5월4일차', 171),
 ('모트트레인4월4일차', 170),
 ('모트트레인6월4일차', 167),
 ('모트트레인4월5일차', 158),
 ('모트트레인5월5일차', 156),
 ('중3공부', 156),
 ('모트트레인6월5일차', 155),
 ('중2공부', 152),
 ('05년생공스타', 151),
 ('06공스타', 151),
 ('05공스타', 149),
 ('국어필기', 147),
 ('모트트레인4월7일차', 146),
 ('모트트레인5월6일차', 144),
 ('태스크매니저', 142),
 ('공스타그래머', 142),
 ('모트트레인

In [None]:
filtered_table("학생", 6, 10)

학생O


Unnamed: 0,user_id,user_name,tags,freq,score
12409,39161518913,st_gram11,[모트트레인8월3일차],{'모트트레인8월3일차': 1},288.935032
989,38536935154,bbangwri_,"[모트트레인8월6일차, 모트트레인8월5일차, 모트트레인8월4일차, 모트트레인8월2일차]","{'모트트레인8월6일차': 1, '모트트레인8월5일차': 1, '모트트레인8월4일차...",270.807929
16447,40092513057,cloud_o_x,"[모트트레인8월7일차, 모트트레인8월6일차, 모트트레인8월5일차, 모트트레인8월4일...","{'모트트레인8월7일차': 1, '모트트레인8월6일차': 1, '모트트레인8월5일차...",249.130217
8848,38666971021,studyunji,"[모트트레인8월6일차, 모트트레인8월5일차, 모트트레인8월4일차, 모트트레인8월3일...","{'모트트레인8월6일차': 1, '모트트레인8월5일차': 1, '모트트레인8월4일차...",231.450512
8818,17208191538,en_yung_,"[모트트레인9월3일차, 모트트레인9월2일차, 모트트레인9월1일차, 모트트레인8월7일...","{'모트트레인9월3일차': 1, '모트트레인9월2일차': 1, '모트트레인9월1일차...",197.276396
8839,38419899926,yeojin_can_be_anything,[모트트레인7월5일차],{'모트트레인7월5일차': 1},188.94674
14962,38419899926,yeojin_can_be_anything,[모트트레인7월5일차],{'모트트레인7월5일차': 1},188.94674
12092,38419899926,yeojin_can_be_anything,[모트트레인7월5일차],{'모트트레인7월5일차': 1},188.94674
12063,17208191538,en_yung_,"[모트트레인9월4일차, 모트트레인9월3일차, 모트트레인9월2일차, 모트트레인9월1일...","{'모트트레인9월4일차': 1, '모트트레인9월3일차': 1, '모트트레인9월2일차...",184.728075
1551,29586639917,fleuve._.study,"[모트트레인9월4일차, 모트트레인9월3일차, 모트트레인9월2일차, 모트트레인9월1일...","{'모트트레인9월4일차': 1, '모트트레인9월3일차': 1, '모트트레인9월2일차...",183.000109




학생X


Unnamed: 0,user_id,user_name,tags,freq,score
4250,8158775273,uzumaki_gwon_ss,[공스타그램],{'공스타그램': 1},-452.734136
12467,35805273761,ily_eunchae,"[좋반, 좋아요반사]","{'좋반': 1, '좋아요반사': 1}",-410.958691
7270,37394149315,study_kr_educ,"[팔로우, 좋아요]","{'팔로우': 1, '좋아요': 1}",-375.399517
3212,31269684009,kkuxoxo,[공부],{'공부': 1},-349.48083
8375,31269684009,kkuxoxo,[공부],{'공부': 1},-349.48083
4780,37272597011,dh__k_129,"[좋반, 맞팔, 맞팔해용]","{'좋반': 1, '맞팔': 1, '맞팔해용': 1}",-314.114817
7860,15399564614,s_y02____,"[졸업, 학교, 일상, 팔로우, 맞팔]","{'졸업': 1, '학교': 1, '일상': 1, '팔로우': 1, '맞팔': 1}",-285.822007
5458,3954595639,03_jongbeom,"[좋반, 인천, 벚꽃, 맞팔]","{'좋반': 1, '인천': 1, '벚꽃': 1, '맞팔': 1}",-266.957207
4841,3222939874,yujin__215,"[03, 18살, 기분, 일상, 소통, 좋반, 좋아요, 하트, 팔로우, 맞팔]","{'03': 1, '18살': 1, '기분': 1, '일상': 1, '소통': 1,...",-258.575778
1324,3541164216,haa_g_111,"[좋아요반사, 맞팔환영]","{'좋아요반사': 1, '맞팔환영': 1}",-256.974298


# 주부, 백수(카테고리 포함 x)

In [None]:
word_of_job(7, 10) # 백수

[('백수의일상', 19),
 ('백수1일차', 19),
 ('로열연합', 16),
 ('백수들', 14),
 ('돈많은', 14),
 ('퇴사스타그램', 13),
 ('곧백수', 12),
 ('백수는', 12),
 ('백수생활중', 12),
 ('백수끝', 12)]

In [20]:
word_of_job(8, 50) # 주부

[('주먹고기촵촵', 79),
 ('아기있는집', 78),
 ('육아맘일기', 68),
 ('딸랑구맘', 67),
 ('딸맘육아', 63),
 ('아기장난감추천', 63),
 ('딸룩', 63),
 ('터미타임연습', 60),
 ('예비맘일상', 59),
 ('초기이유식1단계', 57),
 ('떡뻥입문', 56),
 ('아들육아그램', 54),
 ('엄마심쿵', 54),
 ('귀염둥이아들', 54),
 ('쌀미음1일차', 53),
 ('모윰치발기', 50),
 ('아기일상기록', 48),
 ('육아맘소통해요', 48),
 ('황금돼지띠아가', 47),
 ('생후55일', 47),
 ('아들소통', 46),
 ('생후32일', 45),
 ('제대탈락', 45),
 ('초딩맘일상', 45),
 ('흥많은아기', 44),
 ('아기치즈', 44),
 ('아기일상그램', 43),
 ('생후89일', 43),
 ('사랑해아가', 43),
 ('아기랑카페', 42),
 ('그로미미빨대컵', 42),
 ('딸코디', 42),
 ('아기외출복', 42),
 ('생후129일', 42),
 ('이유식스푼', 41),
 ('돌아기장난감', 41),
 ('육아뎀', 41),
 ('더바더', 40),
 ('딸맘맞팔', 40),
 ('로코유', 40),
 ('쥐띠아들맘', 40),
 ('초기이유식2단계', 39),
 ('생후42일', 39),
 ('예비맘그램', 39),
 ('낮잠이불세트', 39),
 ('엄마도엄마가처음이야', 39),
 ('꼬꼬맘', 39),
 ('젖병추천', 38),
 ('엄마목소리주의', 38),
 ('이유식일기', 38)]

# 최종 필터링
- 7개의 직업당 스코어 상위 1000명
- 구글 드라이브 라벨링된유저 폴더에 저장

In [39]:
new0 = data[0].sort_values(by='score', ascending=False).head(200)
new1 = data[1].sort_values(by='score', ascending=False).head(200)
new2 = data[2].sort_values(by='score', ascending=False).head(200)
new3 = data[3].sort_values(by='score', ascending=False).head(200)
new4 = data[4].sort_values(by='score', ascending=False).head(200)
new5 = data[5].sort_values(by='score', ascending=False).head(200)
new6 = data[6].sort_values(by='score', ascending=False).head(200)

In [41]:
new0.to_json("/content/drive/My Drive/twitter2/라벨링된유저/간호사.json")
new1.to_json("/content/drive/My Drive/twitter2/라벨링된유저/경찰.json")
new2.to_json("/content/drive/My Drive/twitter2/라벨링된유저/교사.json")
new3.to_json("/content/drive/My Drive/twitter2/라벨링된유저/군인.json")
new4.to_json("/content/drive/My Drive/twitter2/라벨링된유저/소방관.json")
new5.to_json("/content/drive/My Drive/twitter2/라벨링된유저/의사.json")
new6.to_json("/content/drive/My Drive/twitter2/라벨링된유저/중고등학생.json")

# 원본이 필요하다면
원본 데이터는 data[0] ~ data[6] 실행하면 됩니다