# User filtering
특정 직업과 관련된 해시태그 검색 후, 해당 직업이 아닌 유저를 필터링하는 과정이 필요하다.

In [1]:
import pandas as pd
import numpy as np
from collections import Counter

In [6]:
# 예제 데이터
path = 'C:/Users/bogyung/Downloads/crawling/test/'
df0 = pd.read_json(path + 'tags_goonin.json')
df1 = pd.read_json(path + 'tags_gyosa.json')
df2 = pd.read_json(path + 'tags_joong2.json')

In [12]:
print('제거 전: 군인')
display(df0.head())
print('제거 전: 교사')
display(df1.head())
print('제거 전: 중학생')
display(df2.head())

제거 전: 군인


Unnamed: 0,freq,tags,user_id,user_name
0,"{'23': 1, '24': 1}","[23, 24]",24895167311,hye_lim._.eee
1,"{'25': 5, '천안': 4, '22': 1, '군대': 1, '선임': 1, ...","[25, 천안, 22, 군대, 선임, 후임, 남자랑, 데이트, 운동, 웨이트, 군인...",4648813963,96_ugi
2,"{'셀카': 84, '맞팔': 84, '인친': 84, '소통': 84, '꿈': ...","[셀카, 맞팔, 인친, 소통, 꿈, 자부심, 팔로우, 선팔, 데일리, 여행스타그램,...",7806334927,soonshin_
3,"{'산책': 1, '여유': 1}","[산책, 여유]",37806496856,dong_bz
4,"{'여기조기요기': 1, '굿모닝': 1, '나온다나온다나이나온다': 1, '유노앤...","[여기조기요기, 굿모닝, 나온다나온다나이나온다, 유노앤드요, 컴백, 웃음욕심, 노력...",5641751675,_andyon_


제거 전: 교사


Unnamed: 0,freq,tags,user_id,user_name
0,{'범계': 1},[범계],30033400542,d_jshin
1,"{'쌤스타그램': 21, '교사스타그램': 23, '교사': 19, '선생님': 2...","[쌤스타그램, 교사스타그램, 교사, 선생님, 선생님스타그램, 중학교, 노보텔앰배서더...",3033063913,iam_minthyun
2,"{'25': 24, '쌩얼인거비밀': 1, '25살': 21, '일상': 32, '...","[25, 쌩얼인거비밀, 25살, 일상, 코로나19, 마스크필수, 어린이집, 출근, ...",2241028185,90lka11
3,"{'대구교총': 10, '교총': 6, '한국교총': 10, '이벤트': 2, '선...","[대구교총, 교총, 한국교총, 이벤트, 선생님, 교사, 교수, 유치원선생님, 쌤스타...",5571560038,cheerup_2680
4,"{'제주대학교': 12, '수시모집요강': 1, '제주대학교2021학년도수시모집요강...","[제주대학교, 수시모집요강, 제주대학교2021학년도수시모집요강, 전형일정, 모집단위...",5863131290,jejunu_ibsi


제거 전: 중학생


Unnamed: 0,freq,tags,user_id,user_name
0,"{'모트트레인9월1일차': 1, '모트트레인': 1, '고려대학교': 2, '공스타...","[모트트레인9월1일차, 모트트레인, 고려대학교, 공스타소통]",40090360824,t.memory_0
1,"{'칼단발': 1, '단발': 1, '집콕중': 1, '놀러가고싶어요': 1}","[칼단발, 단발, 집콕중, 놀러가고싶어요]",9632681759,hye0njiye0n
2,{},[],15470222343,shinchaehee06
3,"{'열공': 38, '인스': 4, '엉망진창': 1, '실수때매': 1, '망함'...","[열공, 인스, 엉망진창, 실수때매, 망함, 공부, 공스타그램, 초6, 예비중, 중...",25539217889,yeowon_study
4,"{'06': 20, '0606': 9, '공부인증그램': 2, '공부인증': 5, ...","[06, 0606, 공부인증그램, 공부인증, 공부인증샷, 공부인증계정, 공스타그램,...",27400344693,_medic.__.kim


### 검색 해시태그 제거

In [14]:
# 각 직업별 검색 해시태그(여러 개 가능)
hashtags = [["군인"], ["교사"], ["중2"]]
N_category = 3 # 직업 카테고리 수

def del_tags(tags, hashtag):
    lst = []
    for tag in tags:
        if tag not in hashtag:
            lst.append(tag)
    return lst

def del_freq(freq, hashtag):
    dic = {}
    for (w, i) in freq.items():
        if w not in hashtag:
            dic[w] = i
    return dic

def del_hashtag(num_df, hashtag):
    df = globals()['df{}'.format(num_df)]
    tags = df.tags.apply(lambda x: del_tags(x, hashtag))
    freq = df.freq.apply(lambda x: del_freq(x, hashtag))
    df['tags'] = tags
    df['freq'] = freq
    return df

for i in range(N_category):
    globals()['df{}'.format(i)] = del_hashtag(i, hashtags[i])

In [17]:
print('제거 후: 군인')
display(df0.head())
print('제거 후: 교사')
display(df1.head())
print('제거 후: 중학생')
display(df2.head())

제거 후: 군인


Unnamed: 0,freq,tags,user_id,user_name
0,"{'23': 1, '24': 1}","[23, 24]",24895167311,hye_lim._.eee
1,"{'25': 5, '천안': 4, '22': 1, '군대': 1, '선임': 1, ...","[25, 천안, 22, 군대, 선임, 후임, 남자랑, 데이트, 운동, 웨이트, 속초...",4648813963,96_ugi
2,"{'셀카': 84, '맞팔': 84, '인친': 84, '소통': 84, '꿈': ...","[셀카, 맞팔, 인친, 소통, 꿈, 자부심, 팔로우, 선팔, 데일리, 여행스타그램,...",7806334927,soonshin_
3,"{'산책': 1, '여유': 1}","[산책, 여유]",37806496856,dong_bz
4,"{'여기조기요기': 1, '굿모닝': 1, '나온다나온다나이나온다': 1, '유노앤...","[여기조기요기, 굿모닝, 나온다나온다나이나온다, 유노앤드요, 컴백, 웃음욕심, 노력...",5641751675,_andyon_


제거 후: 교사


Unnamed: 0,freq,tags,user_id,user_name
0,{'범계': 1},[범계],30033400542,d_jshin
1,"{'쌤스타그램': 21, '교사스타그램': 23, '선생님': 22, '선생님스타그...","[쌤스타그램, 교사스타그램, 선생님, 선생님스타그램, 중학교, 노보텔앰배서더용산, ...",3033063913,iam_minthyun
2,"{'25': 24, '쌩얼인거비밀': 1, '25살': 21, '일상': 32, '...","[25, 쌩얼인거비밀, 25살, 일상, 코로나19, 마스크필수, 어린이집, 출근, ...",2241028185,90lka11
3,"{'대구교총': 10, '교총': 6, '한국교총': 10, '이벤트': 2, '선...","[대구교총, 교총, 한국교총, 이벤트, 선생님, 교수, 유치원선생님, 쌤스타그램, ...",5571560038,cheerup_2680
4,"{'제주대학교': 12, '수시모집요강': 1, '제주대학교2021학년도수시모집요강...","[제주대학교, 수시모집요강, 제주대학교2021학년도수시모집요강, 전형일정, 모집단위...",5863131290,jejunu_ibsi


제거 후: 중학생


Unnamed: 0,freq,tags,user_id,user_name
0,"{'모트트레인9월1일차': 1, '모트트레인': 1, '고려대학교': 2, '공스타...","[모트트레인9월1일차, 모트트레인, 고려대학교, 공스타소통]",40090360824,t.memory_0
1,"{'칼단발': 1, '단발': 1, '집콕중': 1, '놀러가고싶어요': 1}","[칼단발, 단발, 집콕중, 놀러가고싶어요]",9632681759,hye0njiye0n
2,{},[],15470222343,shinchaehee06
3,"{'열공': 38, '인스': 4, '엉망진창': 1, '실수때매': 1, '망함'...","[열공, 인스, 엉망진창, 실수때매, 망함, 공부, 공스타그램, 초6, 예비중, 중...",25539217889,yeowon_study
4,"{'06': 20, '0606': 9, '공부인증그램': 2, '공부인증': 5, ...","[06, 0606, 공부인증그램, 공부인증, 공부인증샷, 공부인증계정, 공스타그램,...",27400344693,_medic.__.kim


#  -----------------------------------------------------------
# (-) freq 수로 전체 빈도 계산
- 문제점: 개인이 많이 올린 게시글이 많을 때, 동시에 해당 단어의 빈도가 높아짐

In [77]:
for i in range(N_category):
    globals()['freq_whole_{}'.format(i)] = Counter()
    for f in globals()['df{}'.format(i)].freq:
        globals()['freq_whole_{}'.format(i)] += Counter(f)

In [20]:
# freq_whole_0, freq_whole_1, freq_whole_2

In [60]:
# 군인
freq_whole_0.most_common(20)

[('그림', 178),
 ('그림스타그램', 178),
 ('일러스트', 171),
 ('아트', 157),
 ('좋아요', 150),
 ('그림쟁이', 137),
 ('그림그리기', 134),
 ('그림계정맞팔', 128),
 ('일러스트레이션', 118),
 ('일러스트레이터', 113),
 ('장교', 103),
 ('맞팔', 98),
 ('부사관', 98),
 ('서울', 97),
 ('간호사', 97),
 ('데일리', 94),
 ('셀카', 92),
 ('소통', 91),
 ('선팔', 91),
 ('강남', 90)]

# ----------------------------------------------
# (+) Unique Tag 수로 빈도 계산
- 개인이 많이 올리는거 무시 가능
- unique 수므로 일정 숫자 이하 단어는 걸러내는 과정 필요할 듯

In [80]:
for i in range(N_category):
    tmp = []
    for t in globals()['df{}'.format(i)].tags:
        tmp.extend(t)
    globals()['freq_whole_{}'.format(i)] = Counter(tmp)

In [68]:
# 군인
freq_whole_0.most_common(10)

[('일상', 7),
 ('휴가', 6),
 ('맞팔', 5),
 ('서울', 5),
 ('힐링', 5),
 ('좋아요', 5),
 ('대학생', 5),
 ('강원도', 4),
 ('코로나', 4),
 ('셀카', 4)]

# ----------------------------------------

### 새로운 voca dict 생성
단어의 등장 문서수가 직업군의 절반을 넘을 경우, 해당 단어를 제거한 새로운 딕셔너리 생성(각 직업군에 대표성 있다고 판단)

In [81]:
for i in range(N_category):
    globals()['voca{}'.format(i)] = {}
    globals()['freq_other{}'.format(i)] = {}

for num in range(N_category):
    for (w, n) in globals()['freq_whole_{}'.format(num)].items():
        w_freq = 1
        for i in range(N_category):
            if i != num:
                if w in globals()['freq_whole_{}'.format(i)]:
                    w_freq += 1
        globals()['freq_other{}'.format(num)][w] = w_freq
        if w_freq <= N_category//2:
            globals()['voca{}'.format(num)][w] = n

In [23]:
# 각 직업의 대표성을 띠는 단어들
# voca0, voca1, voca2

In [25]:
# 등장한 문서 수
# freq_other0, freq_other1, freq_other2

In [86]:
N = 10 # 상위 몇 개를 뽑아낼지 지정
for i in range(N_category):
    globals()['voca{}_top'.format(i)] = dict(Counter(globals()['voca{}'.format(i)]).most_common(N))

In [87]:
# 상위 N개의 voca dict
voca0_top, voca1_top, voca2_top

({'속초': 3,
  '부사관': 3,
  '24': 2,
  '천안': 2,
  '고성': 2,
  '보내줘': 2,
  '1943': 2,
  '웃자': 2,
  '난': 2,
  '장교': 2},
 {'교사스타그램': 14,
  '쌤스타그램': 8,
  '원격수업': 6,
  '학부모': 6,
  '고등학교': 5,
  '스타벅스': 5,
  '어린이집': 4,
  '힐링타임': 4,
  '스승의날': 4,
  '책': 4},
 {'06': 12,
  '06년생': 11,
  '중2공스타그램': 8,
  '공스타그램맞팔': 7,
  '모트모트': 6,
  '모트모트플래너': 6,
  '중2공스타': 5,
  '15살': 5,
  '공부하자': 5,
  '중간피드': 5})

### negative dict 생성
타 직업군의 voca를 다 더한다.

In [88]:
for i in range(N_category):
    globals()['neg{}'.format(i)] = Counter()

for i in range(N_category):
    for j in range(N_category):
        if j != i:
            globals()['neg{}'.format(i)] += Counter(globals()['voca{}_top'.format(j)])

In [90]:
# 타 직업군에서의 단어 목록
# neg0, neg1, neg2

## neg voca에 많이 등장할수록 중요도를 낮추는 방법 고찰
- 목표: 다른 직업군을 대표하는 단어가 등장할수록 0에 가깝고 그 외의 경우에는 1에 가깝게
1. log값 취하고 1 더한 후 역수
2. 상-하 뒤집은 후 x축으로 +N_sigmoid만큼 평행이동한 sigmoid 적용(0~1사이 값, 변곡점은 N_sigmoid에 위치)


### 1. negative voca에 log값 취하기
- 별로일듯

In [138]:
for i in range(N_category):
    globals()['neg{}_log'.format(i)] = {}

for i in range(N_category):
    for (w, n) in globals()['neg{}'.format(i)].items():
        globals()['neg{}_log'.format(i)][w] = np.log(n)

In [93]:
# neg0_log, neg1_log, neg2_log

### 2. negative voca에 sigmoid 적용하기
- N_sigmoid는 neg 단어의 빈도수 보고 조정해야 함(상위 200개의 중위값?)
- 상위 N개의 평균 값 정도가 적절할듯

In [96]:
def mysigmoid(x, N_sigmoid):
    return 1 / (1 + np.exp(x - N_sigmoid))

for i in range(N_category):
    globals()['neg{}_sig'.format(i)] = {}

for i in range(N_category):
    for (w, n) in globals()['neg{}'.format(i)].items():
        globals()['neg{}_sig'.format(i)][w] = mysigmoid(n, N_sigmoid = 8) # neg 단어의 빈도수 보고 조정

In [126]:
# neg0_sig, neg1_sig, neg2_sig

# ----------------------------------------------
# scoring 문제점
- 단순 게시물(해시태그) 수 적은 유저의 스코어가 유난히 높거나 낮게 측정됨. 처음에 freq 합이 너무 적은 유저는 제거해야할 듯
# ----------------------------------------------

# 최종 scoring
- 주부, 백수는 계산할 필요 없음
- negative 변수를 곱한 tf-idf 중요도 사용
- 각 유저의 사용 해시태그 빈도 확률 이용해서 계산

### tf-idf에 곱해줄 보정 변수 neg 계산법
1. log: 1/(1+neg_log)
2. sigmoid: neg_sig 그대로 사용

In [119]:
for i in range(N_category):
    globals()['df{}'.format(i)]['score_log'] = 0
    globals()['df{}'.format(i)]['score_sigmoid'] = 0

In [120]:
def scoring(freq_row, num_df, method):
    score = 0
    N_tags = sum(freq_row.values())

    for (w, n) in freq_row.items():
        tf = n
        idf = N_category / (1 + globals()['freq_other{}'.format(num_df)][w])
        try:
            if method == 'log':
                neg = 1 / (1 + globals()['neg{}_log'.format(num_df)][w])
            elif method == 'sigmoid':
                neg = globals()['neg{}_sig'.format(num_df)][w]
        except:
            neg = 1
        score += tf * idf * neg / N_tags

    return score

In [128]:
# 실제로 돌릴때는 N_category-2 (주부, 백수)

for i in range(N_category):
    globals()['df{}'.format(i)]['score_log'] = globals()['df{}'.format(i)]['freq'].apply(lambda x: scoring(x, i, method = 'log'))
    globals()['df{}'.format(i)]['score_sigmoid'] = globals()['df{}'.format(i)]['freq'].apply(lambda x: scoring(x, i, method = 'sigmoid'))

In [134]:
# display(df0.head())
# display(df1.head())
# display(df2.head())

In [135]:
# 최종 필터링 결과

print('군인')
display(df0.sort_values(by='score_sigmoid', ascending=False).head(10))
print('교사')
display(df1.sort_values(by='score_sigmoid', ascending=False).head(10))
print('중2')
display(df2.sort_values(by='score_sigmoid', ascending=False).head(10))

군인


Unnamed: 0,freq,tags,user_id,user_name,score_log,score_sigmoid
0,"{'23': 1, '24': 1}","[23, 24]",24895167311,hye_lim._.eee,1.5,1.5
10,"{'정복': 1, '군스타그램': 1}","[정복, 군스타그램]",8523336865,nan__jinyoung,1.5,1.5
19,"{'3년째': 1, '연애중': 1}","[3년째, 연애중]",1556311885,seol_h16_,1.5,1.5
13,"{'지훈세영': 63, '역조공': 1, '곰신스타그램': 2, '택배': 1, '...","[지훈세영, 역조공, 곰신스타그램, 택배, 20191224]",23345847608,181225_,1.492647,1.492647
16,"{'리그램': 9, '생각의차이가미래를바꾼다': 5, '과거사진': 1, '챔프지점...","[리그램, 생각의차이가미래를바꾼다, 과거사진, 챔프지점장, 신라호텔, 더파크뷰, 우...",2015100987,az_one1,1.478261,1.478261
4,"{'여기조기요기': 1, '굿모닝': 1, '나온다나온다나이나온다': 1, '유노앤...","[여기조기요기, 굿모닝, 나온다나온다나이나온다, 유노앤드요, 컴백, 웃음욕심, 노력...",5641751675,_andyon_,1.43323,1.43323
15,"{'여자숏컷': 1, '블론드': 1, '디자이너강철': 3, '미용실': 2, '...","[여자숏컷, 블론드, 디자이너강철, 미용실, 신촌미용실, 서대문구미용실, 마포구미용...",40276026268,riahn_shinchon,1.431818,1.431818
18,"{'창선동먹자골목': 1, '유럽여행': 1, '속옷쇼핑몰': 1, '초가을': 1...","[창선동먹자골목, 유럽여행, 속옷쇼핑몰, 초가을, 내장산, 일본야동, 만남섹스, 야...",40704112925,cvbdbcvnd,1.429787,1.429787
27,"{'우문현답': 1, '아들바보': 6, '아빠': 1, '도은이': 2, '재무설...","[우문현답, 아들바보, 아빠, 도은이, 재무설계, 취업, 면접, 신입, 부사관, 간...",4317431003,yongcop,1.425824,1.425824
8,"{'단발펌': 1, '중단발머리': 1, '여자중단발': 1, '칼단발': 1, '...","[단발펌, 중단발머리, 여자중단발, 칼단발, 여자머, 빌드펌, 보브컷, 원랭스, 여...",28029055139,dc_jieun,1.37931,1.37931


교사


Unnamed: 0,freq,tags,user_id,user_name,score_log,score_sigmoid
0,{'범계': 1},[범계],30033400542,d_jshin,1.5,1.5
30,{'선생님딸내미': 7},[선생님딸내미],40034827235,teachers__daughter,1.5,1.5
11,{'기상인증': 5},[기상인증],39760324373,reussirxe,1.5,1.5
31,"{'내가아이와놀이하는법': 37, '놀이공유': 2, '아기놀이공유': 2, '워킹...","[내가아이와놀이하는법, 놀이공유, 아기놀이공유, 워킹온더클라우드, 심포니오케스트라,...",3075729922,_lovelydo_,1.5,1.5
4,"{'제주대학교': 12, '수시모집요강': 1, '제주대학교2021학년도수시모집요강...","[제주대학교, 수시모집요강, 제주대학교2021학년도수시모집요강, 전형일정, 모집단위...",5863131290,jejunu_ibsi,1.492857,1.492857
9,"{'정리컨설턴트': 1, '심플라이프': 1, '미니멀라이프': 1, '신박한정리'...","[정리컨설턴트, 심플라이프, 미니멀라이프, 신박한정리, 정리방법, 수납방법, 수납꿀...",8540797781,vs_tschool,1.473765,1.473765
19,"{'주인싫어하는내새끼들': 1, '엄마가잘할게': 1, '나는너의든든한담당자': 1...","[주인싫어하는내새끼들, 엄마가잘할게, 나는너의든든한담당자, 상담후기, 당신의든든한담...",5689003545,s____h._.h,1.473459,1.473459
25,"{'20200901': 1, '20200831': 1, '20200830': 1, ...","[20200901, 20200831, 20200830, 20200827, 20200...",27060861703,xxpeukxx,1.464286,1.464286
23,"{'건반': 23, '가스펠': 20, '메인스테이지3': 20, '쌤스타그램': ...","[건반, 가스펠, 메인스테이지3, 쌤스타그램, 교사스타그램, 헬로카봇, 카봇, 놀이...",323733353,yoobyungyuhn,1.457767,1.457767
13,"{'서봄': 45, '서봄어린이집': 59, '공동육아어린이집': 56, '공동육아...","[서봄, 서봄어린이집, 공동육아어린이집, 공동육아현장, 공동육아, 협동조합어린이집,...",7145448194,seobom_we_grow_together,1.452292,1.452292


중2


Unnamed: 0,freq,tags,user_id,user_name,score_log,score_sigmoid
6,"{'청남대': 1, '영남대학교': 1, '시골소녀': 1}","[청남대, 영남대학교, 시골소녀]",3765300236,yunji_1701,1.5,1.5
18,{'삭제피드': 1},[삭제피드],38992930746,gmldnjss._.1,1.5,1.5
9,"{'중간피드': 1, '20203월모의고사': 1}","[중간피드, 20203월모의고사]",30961379040,_lovewesxt,1.5,1.5
8,"{'중간피드': 2, '제품제공': 2, '제브라': 1, '열공인증이벤트': 1,...","[중간피드, 제품제공, 제브라, 열공인증이벤트, 제브라방구석열공인증]",31709879503,1221_wish_,1.5,1.5
21,"{'외대부고캠프': 21, '용인외고캠프': 5, '외대부고': 21, '용인외고'...","[외대부고캠프, 용인외고캠프, 외대부고, 용인외고, 외대부고기숙캠프, 외대부고영어캠...",5375673573,hafscamp,1.422244,1.422244
27,"{'코로나19': 6, '면역력증진': 1, '체온1도': 1, '독서기록': 1,...","[코로나19, 면역력증진, 체온1도, 독서기록, 돈의속성, 고2, 늦은없뎃, 이쁜,...",3853053986,01_theclock_msoeun,1.419323,1.419323
17,"{'백와달팽이': 1, '달팽이체력훈련': 1, '열심히': 2, '잘살아': 1,...","[백와달팽이, 달팽이체력훈련, 열심히, 잘살아, 보자, 미국, 초등학교, 초2학년,...",2215969218,happymom_english,1.388544,1.388544
31,"{'06': 2, '공스타그램': 5, '열공인증': 1, '사진태그': 2, '토...","[06, 공스타그램, 열공인증, 사진태그, 토이스토리, 포키, 좋아요테러, 댓글환영...",39499839360,happysh_8686,1.375,1.375
25,"{'중딩': 11, '중학생': 5, '중학교2학년': 2, '중학생2학년': 1,...","[중딩, 중학생, 중학교2학년, 중학생2학년, 중학생공부, 중학교공부, 중2공부, ...",40159949686,hyisu__x__x_06,1.357977,1.357977
5,"{'06년생': 3, '15살': 3, '전신샷': 1, '색칠스타그램': 1, '...","[06년생, 15살, 전신샷, 색칠스타그램, 소녀, 취미생활, 취미스타그램, 소확행...",40532744267,isy._.06,1.346154,1.346154
