# 코드 설명

본 코드는 솔라 쿼리 검수 및 스타 정보 업데이트를 자동화하기 위함임

## 솔라쿼리 자동화
- solr_df.xlsx에 솔라쿼리 수정 및 정보 업데이트할 스타 저장
- 솔라쿼리 수정 전, after -> 최초 수정 시엔 'title:{이름} AND type news'가 자동으로 삽입되고, after 쿼리가 이미 있는 경우(솔라쿼리를 한번 더 수정하는 경우)엔 그대로 삽입됨
- 솔라쿼리 수정 후, Input에 쿼리 삽입. 수정 사항 없으면 빈 칸.

## 솔라쿼리 검수
- 솔라쿼리 오류 없는지 검수 작업

## 크롤링
- 해당 스타 네이버 인물검색 url input에 삽입. url 없으면 빈 칸.
- 해당 스타 url db에 insert
- 소속 그룹, 멤버, 소속사 등 각종 정보 및 sns url 크롤링

## 솔라쿼리 & 크롤링 데이터 도넛에 등록
- 수정한 솔라쿼리와 크롤링한 데이터 도넛에 최종 등록
- sns url은 모두 삭제 후, 다시 insert 하는 방식으로 진행 중.. 나중에 고쳐보는 걸로...

## Slack 보고

# 업데이트 내용

## v3 (21/07/19)
1. 네이버 url만 가지고도 모든 정보 크롤링이 가능하도록 수정 (다음 url 안넣어도 됨)
2. 가져온 네이버 url을 db에 insert함 (star_ko_profile_url)
3. 업데이트하는 정보의 가지수가 대폭 늘어남 (생일, 별자리, 띠, 키, 몸무게 등등 ...)
4. 생일의 경우, db update 기능 추가 (star_ko_special_day)

## v2.4 (21/03/05)
1. 크롤링 시 소속사, sns뿐 아니라 이름, 본명/영어이름, 직업, 생일, 소속사, 소속, 소속팀, 소속그룹, 멤버, 데뷔 정보도 수집
2. 새로운 데이터로 업데이트 되는 경우 안내 메세지 출력됨

## v2.3 (21/03/03)
그룹일 때, 멤버 정보 크롤링 & 멤버 확인 메세지 출력 기능 추가

## v2.2 (21/02/26)
솔라쿼리 도넛에 등록시 검색어 & 인물 검색시 매칭 단어 비었을 경우 채워넣는 기능 추가

## v2.1 (21/02/26)
### 연관스타 제외기능 추가
- 동명이인이 연관스타에 등록되어 있을 경우 연관스타 제외에 시리즈 아이디 등록

## v2.0 (21/02/25)
### 소속사 및 사이트 정보 수정 기능 추가
- 소속사와 sns url 모두 삭제 후, 새로 크롤링 데이터 삽입 기능
- 추후엔 이전 데이터와 새로 크롤링한 데이터 비교 후, 수정하도록 업데이트할 예정
- 추가로, 소속그룹이나 직업 등이 변경된 경우도 수정하도록 업데이트할 예정

### 솔라 쿼리 검수 input 자동화
- input에 아무것도 입력 안하면 자동으로 title:{이름} AND"기자" 가 삽입됨

## v1.1 (21/02/24)
### 사이트 등록
- 미니홈피 삭제 기능 추가
- 미니홈피 삭제 이후 도넛에 등록된 사이트 없으면 사이트 등록 기능 추가
- 네이버에 해당 인물 검색 기능 추가

### 스타 프로필
- solr 쿼리로 기사 검색 시 해당 셀럽 프로필 창도 뜨게 수정

### slack 보고
- solr_df 엑셀 여러번 수정 시 이전에 한 스타 리스트까지 저장해서 출력하는 기능 추가

In [18]:
import pandas as pd
from selenium import webdriver
from bs4 import BeautifulSoup
from tqdm.notebook import tqdm
import requests
import time
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys
import datetime
import re
from korean_lunar_calendar import KoreanLunarCalendar
import pymysql

# 아웃풋 다 노출되게
def set_pandas_display_options() -> None:
    display = pd.options.display
    display.max_columns = 100
    display.max_rows = 100
    display.max_colwidth = 199
    display.width = None
set_pandas_display_options()

def db_connection(host_name='ds'):
    host_url = "db.ds.mycelebs.com"
    user_nm = "j_eungg"
    passwd = "mycelebs"
    port_num = 3306
    db_name = "star_ko"
    conn = pymysql.connect(host=host_url, user=user_nm, passwd=passwd, port = port_num, charset='utf8',
                           db = db_name,cursorclass=pymysql.cursors.DictCursor)
    # cursorclass=pymysql.cursors.DictCursor 추가 -> 데이터프레임으로 다루기 쉽게 딕셔너리 형태로 결과 반환해줌, cursor는 튜플형태
    # db=db,
    return conn

def Lunar(a) :
    calendar = KoreanLunarCalendar()
    calendar.setSolarDate(a.year, a.month, a.day)
    moon_birth = calendar.LunarIsoFormat()
    moon_birth = moon_birth + ' 00:00:00'
    
    return moon_birth

def birth_animal(birth) :
    birthyear = birth[:4]
    animals = ['원숭이', '닭', '개', '돼지', '쥐', '소', '호랑이', '토끼', '용', '뱀', '말', '양']    
    for i in range(len(animals)):
        if int(birthyear) % 12 == i:
            zodiac = animals[i] 
            
    return zodiac

def birth_star(birth) :
    birthday = birth[5:10]
    birthday = birthday.replace('-', '')
    x = int(birthday)
    
    if 120 <= x <= 218:
        star = '물병'
    elif 219 <= x <= 320:
        star = '물고기'
    elif 321 <= x <= 420:
        star = '양'
    elif 421 <= x <= 520:
        star = '황소'
    elif 521 <= x <= 621:
        star = '쌍둥이'
    elif 622 <= x <= 722:
        star = '게'
    elif 723 <= x <= 822:
        star = '사자'
    elif 823 <= x <= 922:
        star = '처녀'
    elif 923 <= x <= 1021:
        star = '천칭'
    elif 1022 <= x <= 1121:
        star = '전갈'
    elif 1122 <= x <= 1221:
        star = '사수'
    else:
        star = '염소자리'
        
    return star

def getBMI(height, weight) :
    try : 
        bmi = round(weight / (height*height/10000))
    except :
        bmi = ''
    return bmi

def getBMI_range(bmi) :
    try :
        if 0 < bmi <= 18.5 :
            bmi_range = '저체중'
        elif 18.5 < bmi <= 22.9 :
            bmi_range = '정상'
        elif 22.9 < bmi < 25 :
            bmi_range = '과제충'
        elif 25 < bmi <= 30 :
            bmi_range = '비만'
        else :
            bmi_range = '고도비만'
    except :
        bmi_range = ''
    return bmi_range

def dataUpdate(what) :
    if what == "이름" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_name"]')
        new = name
    elif what == "직업" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_basic_info"]')
        new = job
    elif what == "키" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_height"]')
        new = height
    elif what == "몸무게" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_weight"]')
        new = weight
    elif what == "BMI" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_bmi"]')
        new = bmi
    elif what == "BMI 범위" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_bmi_type"]')
        new = bmi_range
    elif what == "음력생일" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_lunar_birth"]')
        new = moon_birth
    elif what == "소속사" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_agency"]')
        new = sosogsa
    elif what == "소속" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_belong"]')
        new = sosog
    elif what == "소속팀" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_team"]')
        new = sosog_team
    elif what == "그룹" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_group"]')
        new = group
    elif what == "데뷔" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_debut"]')
        new = debut
    elif what == "데뷔년도" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_debut_year"]')
        new = debutYear
    elif what == "멤버" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_members"]')
        new = member      
    elif what == "학력" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_academic"]')
        new = student      
    elif what == "경력" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_career"]')
        new = career
    elif what == "수상" :
        element = driver.find_element_by_xpath('//*[@id="s_cd_award"]')
        new = award       
        
    before = element.get_attribute('value')
    if before != new :
        try : 
            element.clear()
            element.send_keys(new)
            print("[INFO] {0} - 수정되었습니다. {1} -> {2}".format(what, before, new))
        except :
            pass
        
def snsInsert(where) :
    if where == '공식사이트' :
        site = row['공식사이트']
        opt = 2
    elif where == '팬카페' :
        site = row['팬카페']
        opt = 3
    elif where == '블로그' :
        site = row['블로그']
        opt = 4
    elif where == '트위터' :
        site = row['트위터']
        opt = 6
    elif where == '페이스북' :
        site = row['페이스북']
        opt = 7
    elif where == '인스타그램' :
        site = row['인스타그램']
        opt = 8
    elif where == '유튜브' :
        site = row['유튜브']
        opt = 9     
    elif where == '웨이보' :
        site = row['웨이보']
        opt = 10
    elif where == '브이라이브' :
        site = row['브이라이브']
        opt = 15

    if pd.notnull(site) :
        driver.find_element_by_xpath('//*[@id="site_type"]').click()
        driver.find_element_by_xpath(f'//*[@id="site_type"]/option[{opt}]').click()
        try :
            driver.find_element_by_xpath('//*[@id="site_url"]').clear()
            driver.find_element_by_xpath('//*[@id="site_url"]').send_keys(site)
            driver.find_element_by_xpath('//*[@id="add_site_btn"]').click()
            time.sleep(1)
        except :
            pass 

total = []

In [19]:
### 엑셀 수정 후 여기서부터 다시 시작

df = pd.read_excel("/Users/jieun/Desktop/데이터 팀 인턴 이지은/솔라쿼리/solr_df.xlsx")

series_id = df['series_id']
names = df['name']
t = time.strftime('%Y.%m.%d', time.localtime(time.time()))
df['date'] = t

# after가 이미 있는 경우(솔라쿼리를 한번 더 수정하는 경우), after 그대로 가져오고, 최초 수정 시엔 title:(이름) AND"기자"
for i in tqdm(range(len(df))) :
    if pd.isnull(df['after'][i]) :
        base = '(content_all:(title:"' + str(names[i]) + '" AND type:news))'
        df['after'][i] = base
    else :
        pass
    
display(df)

  0%|          | 0/37 [00:00<?, ?it/s]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['after'][i] = base
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


Unnamed: 0,date,series_id,name,before,after
0,2021.08.03,11659397,크래커,"(content_all:(""가수 크래커""))","(content_all:(title:""크래커"" AND type:news))"
1,2021.08.03,11659398,무키무키만만수,"(content_all:(""무키무키만만수""))","(content_all:(title:""무키무키만만수"" AND type:news))"
2,2021.08.03,11659404,라온,"(content_all:(""ANS 라온"" NOT ""twitter""~10))","(content_all:(title:""라온"" AND type:news))"
3,2021.08.03,11659405,비안,"(content_all:(""ANS 비안"" NOT ""twitter""~10))","(content_all:(title:""비안"" AND type:news))"
4,2021.08.03,11659406,요한,"(content_all:(""일급비밀 요한""~10))","(content_all:(title:""요한"" AND type:news))"
5,2021.08.03,11659407,용현,"(content_all:(""일급비밀 용현""~10))","(content_all:(title:""용현"" AND type:news))"
6,2021.08.03,11659408,시그니처,"(content_all:(""걸그룹 시그니처""~5 OR ""cignature""))","(content_all:(title:""시그니처"" AND type:news))"
7,2021.08.03,11659409,정관,"(content_all:(""이동욱은 토크가 하고 싶어서 정관""~30 OR ""승려 정관""~10 OR ""정관 스님""~10))","(content_all:(title:""정관"" AND type:news))"
8,2021.08.03,11659410,이도경,"(content_all:(""포레스트 이도경""~10 OR ""연극배우 이도경""~10 OR ""아스달연대기 이도경""~10))","(content_all:(title:""이도경"" AND type:news))"
9,2021.08.03,11659411,조항조,"(content_all:(""나는 트로트 가수다 조항조""~10 OR ""가수 조항조""~10 NOT ""쿠팡할인""))","(content_all:(title:""조항조"" AND type:news))"


In [21]:
## 로그인
chrome_options = webdriver.ChromeOptions()
driver = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options)

pid = 'mycelebsTempUser'
ppw = 'mycelebs!@rookie'
driver.get(f'http://{pid}:{ppw}@dev.mycelebs.com/donut/')
# alert = driver.switch_to_alert()
alert = driver.switch_to.alert
alert.accept()
time.sleep(2.0)

driver.find_element_by_css_selector('#adminId').send_keys('rookie')
driver.find_element_by_css_selector('#adminPw').send_keys('1234')
btn = driver.find_element_by_css_selector('#loginForm > button')
btn.click()

# profile = 마이셀럽스 스타 프로필
profile = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options)

for i in range(len(df)-1) :
    profile.execute_script('window.open("about:blank", "_blank");')
    
tabs = profile.window_handles

for i in range(len(df)) :
    profile.switch_to_window(tabs[i])
    profile.get(f'https://www.mycelebs.ai/celeb/{int(df["series_id"].iloc[i])}')
    try :
        profile.find_element_by_xpath('//*[@id="closedOneWeek"]').click()
    except :
        pass
                
# 기사 검색
solr_df = []

for i in tqdm(range(len(df))) :
    url = 'http://dev.mycelebs.com/donut/index.php/Verticalanalysis/ShowKeyword'
    driver.get(url)
    
    value = df['after'].iloc[i]
        
    driver.find_element_by_xpath('//*[@id="query"]').clear()
    driver.find_element_by_xpath('//*[@id="query"]').send_keys(value)
    driver.find_element_by_xpath('//*[@id="submit_btn"]').click()
    
    print(f'series_id:{int(df["series_id"].iloc[i])} | before: {df["before"].iloc[i]}')
    solr_input = input('솔라쿼리를 입력하세요')
    
    # input에 아무것도 입력 안하면 title:{이름} AND type:news 삽입
    if solr_input == '':
          solr_input = df["after"].iloc[i]
    
    solr_ = {'date':df['date'].iloc[i], 'series_id':int(df['series_id'].iloc[i]), 'name':df['name'].iloc[i], 'before':df['before'].iloc[i], 'after':solr_input}
    solr_df.append(solr_)
    
#     time.sleep(1)
#     alert.accept()
# 저장
df = pd.DataFrame(solr_df, columns = ['date', 'series_id', 'name', 'before', 'after'])
df.to_excel("/Users/jieun/Desktop/데이터 팀 인턴 이지은/솔라쿼리/solr_df.xlsx", index = False, encoding='utf-8-sig')
print("solr_df.xlsx 저장완료")
          
          
display(df)
          
driver.close()



Current google-chrome version is 91.0.4472
Get LATEST driver version for 91.0.4472
Driver [/Users/jieun/.wdm/drivers/chromedriver/mac64/91.0.4472.101/chromedriver] found in cache


Current google-chrome version is 91.0.4472
Get LATEST driver version for 91.0.4472
Driver [/Users/jieun/.wdm/drivers/chromedriver/mac64/91.0.4472.101/chromedriver] found in cache
  profile.switch_to_window(tabs[i])


  0%|          | 0/37 [00:00<?, ?it/s]

series_id:11659397 | before: (content_all:("가수 크래커"))
솔라쿼리를 입력하세요(content_all:(title:"크래커" AND type:news AND("프로듀서" OR "싱어송라이터" OR "최영훈" OR "인디" OR "프로듀싱" OR "감성") NOT"이슈" NOT"엔터테인먼트"))
series_id:11659398 | before: (content_all:("무키무키만만수"))
솔라쿼리를 입력하세요
series_id:11659404 | before: (content_all:("ANS 라온" NOT "twitter"~10))
솔라쿼리를 입력하세요(content_all:(title:"라온" AND type:news AND("ANS" OR "에이엔에스")))
series_id:11659405 | before: (content_all:("ANS 비안" NOT "twitter"~10))
솔라쿼리를 입력하세요(content_all:(title:"비안" AND type:news AND("ANS" OR "에이엔에스" OR "메이져스" OR "MAJORS")))
series_id:11659406 | before: (content_all:("일급비밀 요한"~10))
솔라쿼리를 입력하세요(content_all:(title:"요한" AND type:news AND"일급비밀"))
series_id:11659407 | before: (content_all:("일급비밀 용현"~10))
솔라쿼리를 입력하세요(content_all:(title:"용현" AND type:news AND"일급비밀"))
series_id:11659408 | before: (content_all:("걸그룹 시그니처"~5 OR "cignature"))
솔라쿼리를 입력하세요(content_all:(title:"시그니처" AND type:news AND"걸그룹" AND("채솔" OR "지원" OR "셀린" OR "벨" OR "세미" OR "도희" OR "클로이" OR "

Unnamed: 0,date,series_id,name,before,after
0,2021.08.03,11659397,크래커,"(content_all:(""가수 크래커""))","(content_all:(title:""크래커"" AND type:news AND(""프로듀서"" OR ""싱어송라이터"" OR ""최영훈"" OR ""인디"" OR ""프로듀싱"" OR ""감성"") NOT""이슈"" NOT""엔터테인먼트""))"
1,2021.08.03,11659398,무키무키만만수,"(content_all:(""무키무키만만수""))","(content_all:(title:""무키무키만만수"" AND type:news))"
2,2021.08.03,11659404,라온,"(content_all:(""ANS 라온"" NOT ""twitter""~10))","(content_all:(title:""라온"" AND type:news AND(""ANS"" OR ""에이엔에스"")))"
3,2021.08.03,11659405,비안,"(content_all:(""ANS 비안"" NOT ""twitter""~10))","(content_all:(title:""비안"" AND type:news AND(""ANS"" OR ""에이엔에스"" OR ""메이져스"" OR ""MAJORS"")))"
4,2021.08.03,11659406,요한,"(content_all:(""일급비밀 요한""~10))","(content_all:(title:""요한"" AND type:news AND""일급비밀""))"
5,2021.08.03,11659407,용현,"(content_all:(""일급비밀 용현""~10))","(content_all:(title:""용현"" AND type:news AND""일급비밀""))"
6,2021.08.03,11659408,시그니처,"(content_all:(""걸그룹 시그니처""~5 OR ""cignature""))","(content_all:(title:""시그니처"" AND type:news AND""걸그룹"" AND(""채솔"" OR ""지원"" OR ""셀린"" OR ""벨"" OR ""세미"" OR ""도희"" OR ""클로이"" OR ""C9"" OR ""J9"")))"
7,2021.08.03,11659409,정관,"(content_all:(""이동욱은 토크가 하고 싶어서 정관""~30 OR ""승려 정관""~10 OR ""정관 스님""~10))","(content_all:(title:""정관"" AND type:news AND(""승려"" OR ""스님"")))"
8,2021.08.03,11659410,이도경,"(content_all:(""포레스트 이도경""~10 OR ""연극배우 이도경""~10 OR ""아스달연대기 이도경""~10))","(content_all:(title:""이도경"" AND type:news AND(""배우"" OR ""주피터엔터테인먼트"" OR ""이랑씨어터"")))"
9,2021.08.03,11659411,조항조,"(content_all:(""나는 트로트 가수다 조항조""~10 OR ""가수 조항조""~10 NOT ""쿠팡할인""))","(content_all:(title:""조항조"" AND type:news))"


In [22]:
search_engine = df['after']

r = requests.Session()
bQueryError = False
for i in tqdm(range(len(search_engine))):
    response = r.get(f'http://ba_search_replica.mycelebs.com:9100/solr-4.8.1/ba_crawl/select?q={search_engine[i]}&wt=json&indent=true')
    if response.status_code != 200:
        print("쿼리를 수정하세요!" + str(i) + str(search_engine[i]))
        bQueryError = True

  0%|          | 0/37 [00:00<?, ?it/s]

쿼리를 수정하세요!2(content_all:(title:"라온" AND type:news AND("ANS" OR "에이엔에스")))
쿼리를 수정하세요!5(content_all:(title:"용현" AND type:news AND"일급비밀"))
쿼리를 수정하세요!11(content_all:(title:"박혜신" AND type:news AND("가수" OR "트로트")))


In [None]:
## 쿼리 수정할 때
# df.loc[df.series_id == 1778, 'after'] = '(content_all:(title:"이지혜" AND type:news AND("가수 이지혜"~5 OR "방송인 이지혜"~5 OR "샵 이지혜"~5 OR "블리스")))'
# df.to_excel("solr_df.xlsx", index = False, encoding='utf-8-sig')
# print("solr_df.xlsx 저장완료")

In [None]:
## 솔라쿼리만 수정할 때
# chrome_options = webdriver.ChromeOptions()
# driver = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options)

# pid = 'mycelebsTempUser'
# ppw = 'mycelebs!@rookie'
# driver.get(f'http://{pid}:{ppw}@dev.mycelebs.com/donut/')
# # alert = driver.switch_to_alert()
# alert = driver.switch_to.alert
# alert.accept()
# time.sleep(2.0)

# driver.find_element_by_css_selector('#adminId').send_keys('rookie')
# driver.find_element_by_css_selector('#adminPw').send_keys('1234')
# btn = driver.find_element_by_css_selector('#loginForm > button')
# btn.click()

# seriesid = df['series_id']

# for i in tqdm(seriesid):
#     url2 = 'http://dev.mycelebs.com/donut/Celeb/ShowManageCeleb/' + str(i)
#     driver.get(url2)
#     print(i)
    
#     value = df[df['series_id'] == i]['after'].iloc[0]

    
#     # 1. 내부 검색식(솔라쿼리) 수정하기
#     driver.find_element_by_xpath('//*[@id="s_cd_solr_search"]').clear()
#     driver.find_element_by_xpath('//*[@id="s_cd_solr_search"]').send_keys(value)


#     # 등록 버튼!
#     driver.find_element_by_xpath('//*[@id="write"]/div/div/div[2]/div/input').click()
    
#     # 정상처리 되었습니다.
#     time.sleep(1)
#     alert.accept()

# 크롤링

In [23]:
# 크롤링을 위한 네이버 인물사전 url 수집
naver_drv = webdriver.Chrome(ChromeDriverManager().install(), options = webdriver.ChromeOptions())

craw = []

for i in tqdm(series_id) :
    name = df[df['series_id'] == i]['name'].iloc[0]
                    
    naver_drv.get('https://people.search.naver.com/')
    naver_drv.find_element_by_id('nx_query').send_keys(name)
    naver_drv.find_element_by_class_name('btn_window').click()
    
    print(name, ' - ', i)
    naver_profile_url = input("url을 입력하세요(없으면 입력 X): ")
    craw_ = {'series_id':i, 'url':naver_profile_url}
    craw.append(craw_)
    
print("Complete!")
naver_drv.close()



Current google-chrome version is 91.0.4472
Get LATEST driver version for 91.0.4472
Driver [/Users/jieun/.wdm/drivers/chromedriver/mac64/91.0.4472.101/chromedriver] found in cache


  0%|          | 0/37 [00:00<?, ?it/s]

크래커  -  11659397
url을 입력하세요(없으면 입력 X): https://people.search.naver.com/search.naver?where=nexearch&sm=tab_ppn&query=%ED%81%AC%EB%9E%98%EC%BB%A4&os=2636556&ie=utf8&key=PeopleService
무키무키만만수  -  11659398
url을 입력하세요(없으면 입력 X): https://people.search.naver.com/search.naver?where=nexearch&sm=tab_ppn&query=%EB%AC%B4%ED%82%A4%EB%AC%B4%ED%82%A4%EB%A7%8C%EB%A7%8C%EC%88%98&os=318242&ie=utf8&key=PeopleService
라온  -  11659404
url을 입력하세요(없으면 입력 X): https://people.search.naver.com/search.naver?where=nexearch&sm=tab_ppn&query=ans%EB%9D%BC%EC%98%A8&os=10080314&ie=utf8&key=PeopleService
비안  -  11659405
url을 입력하세요(없으면 입력 X): https://people.search.naver.com/search.naver?where=nexearch&sm=tab_ppn&query=%EB%A9%94%EC%9D%B4%EC%A0%B8%EC%8A%A4%EB%B9%84%EC%95%88&os=10056501&ie=utf8&key=PeopleService
요한  -  11659406
url을 입력하세요(없으면 입력 X): https://people.search.naver.com/search.naver?where=nexearch&sm=tab_ppn&query=%EC%9D%BC%EA%B8%89%EB%B9%84%EB%B0%80%EC%9A%94%ED%95%9C&os=1888288&ie=utf8&key=PeopleService
용현  -  11

In [24]:
# url이 없는 경우 None 처리   
for x in range(len(craw)) :
    if craw[x]['url'] == '' :
        craw[x]['url'] = None
    else :
        pass

In [25]:
# 수집한 네이버 url db에 insert
conn = db_connection()
cursor = conn.cursor(pymysql.cursors.DictCursor)

cnt = []

for i in craw :
    series_id = i.get('series_id')
    naver_url = i.get('url')

    qry = f'select naver_url from star_ko.star_ko_profile_url where series_id={series_id}'
    data = pd.read_sql(qry, conn)
    
    # 비어있거나 url이 다를 경우 update
    try :
        if pd.isnull(data.iloc[0, 0]) or data.iloc[0, 0] == '' or data.iloc[0, 0] != naver_url :
            update_qry = f'update star_ko.star_ko_profile_url set naver_url=\'{naver_url}\', update_date=NOW() where series_id={series_id}'
            cursor.execute(update_qry)
            cnt.append(update_qry)
    except :
        pass

    
conn.commit()
conn.close()

print('[INFO] {} 개의 row가 업데이트 되었습니다.'.format(len(cnt)))

[INFO] 33 개의 row가 업데이트 되었습니다.


In [26]:
# 크롤링 시작
empty_frame = pd.DataFrame(columns=('이름', 'series_id', '직업', '양력생일', '음력생일', '별자리', '띠', '혈액형', '키', '몸무게', '소속사', '소속', '소속팀', '소속 그룹', '멤버', '데뷔', '학력', '경력', '수상', '공식사이트', '팬카페', '블로그', '트위터', '페이스북', '인스타그램', '유튜브', '웨이보', '텀블러', '카카오스토리', '네이버캐스트', '브이라이브', '네이버토크'))
null_series_idx = []
series_id = df['series_id']

for i in tqdm(range(len(names))):
#     print(names[i])
    name = series_idx = job = birth = moon_birth = star = animals = blood_type = height = weight = agency = belong_not_celeb = belong_sport_team = belong_group = members = debut = academic = career = awards = official_site = fancafe = blog = twitter = facebook = insta = youtube = weibo = tumblr = kakao = naver_cast = vlive = naver_talk = ''
#     series_id = craw[i]['series_id']
#     series_idx = series_id[i]

    if not(pd.isnull(craw[i]['url'])) :
        naver_html = requests.get(craw[i]['url']).text
        naver_soup = BeautifulSoup(naver_html, 'html.parser')

        profile_dsc = naver_soup.select('div[class=profile_dsc]')
        
        series_idx = series_id[i]

        try :
            name_text = profile_dsc[0].select('dl[class=who]')[0].select('dt')[0].text
            # 특수문자 안 텍스트 지우기 ex. 샤이니 (SHINee) -> 샤이니
            name = re.sub(r'\([^)]*\) ', '', name_text)
            name = name.replace(" ", "")
        except :
            pass
            
        try:
            job = profile_dsc[0].select('dd[class=sub]')[0].text
        except:
            pass
            
        dt_in_profile_dsc_dsc = profile_dsc[0].select('dl[class=dsc]')[0].select('dt')
        dd_in_profile_dsc_dsc = profile_dsc[0].select('dl[class=dsc]')[0].select('dd')
        
        for row_len in range(len(dt_in_profile_dsc_dsc)):
            title = dt_in_profile_dsc_dsc[row_len].text
            inner = dd_in_profile_dsc_dsc[row_len]
            inner2 = re.findall('[0-9]+', inner.text)
            
            if '신체' in title :
                tmp_body = inner.text.split(',')
                for it_tmp_body in tmp_body:
                    if 'cm' in it_tmp_body:
                        if height == '':
                            height = re.sub("\D", "", it_tmp_body)
                            height = height.replace(" ", "")
                    elif 'kg' in it_tmp_body:
                        if weight == '':
                            weight = re.sub("\D", "", it_tmp_body)
                            weight = weight.replace(" ", "")

            elif '출생' in title:
                if len(inner2) == 3:
                    b = '-'.join(inner2)
                    a = datetime.datetime.strptime(b, '%Y-%m-%d')
                    birth = a.strftime('%Y-%m-%d') + ' 00:00:00'
                    moon_birth = Lunar(a)
                    star = birth_star(birth)
                    animals = birth_animal(birth)
                    
                elif len(inner2) == 1:
                    birth = inner2[0] 
                    moon_birth = ''
                    star = ''
                    animals = ''

            elif title == '소속사':
                agency = inner.text.strip()
                agency = agency.replace(" ", "")

            elif title == '소속' :
                belong_not_celeb = inner.text
                belong_not_celeb = belong_not_celeb.replace(" ", "")

            elif title == '소속팀' :
                belong_sport_team = inner.text
                belong_sport_team = belong_sport_team.replace(" ", "")

            elif '그룹' in title:
                belong_group = inner.text
                belong_group = belong_group.replace(" ", "")

            elif "멤버" in title:
                members = str(', '.join([ttt.strip() for ttt in inner.text.strip().split(',')]))

            elif '데뷔' in title:
                debut = inner.text.strip()

            elif '사이트' in title:
                a_lists = inner.select('a')
                for a in a_lists:
                    if "팬" in a.text and fancafe == '':
                        fancafe = a['href']
                    elif "공식" in a.text and official_site == '':
                        official_site = a['href']
                    elif "블로그" in a.text and blog == '':
                        blog = a['href']
                    elif "홈피" in a.text and cyworld == '':
                        cyworld = a['href']
                    elif "트위터" in a.text and twitter== '':
                        twitter = a['href']
                    elif "페이스" in a.text and facebook == '':
                        facebook = a['href']
                    elif "인스타" in a.text and insta == '':
                        insta = a['href']
                    elif "유튜" in a.text and youtube == '':
                        youtube = a['href']
                    elif "웨이" in a.text and weibo == '':
                        weibo = a['href']
                    elif "텀블" in a.text and tumblr == '':
                        tumblr = a['href']
                    elif "카카오" in a.text and kakao == '':
                        kakao = a['href']
                    elif ("브이" in a.text or 'live' in a.text or 'LIVE' in a.text) and vlive == '':
                        vlive = a['href']
                    elif ("토크" in a.text or 'talk' in a.text) and naver_talk == '':
                        naver_talk = a['href']
                    elif "캐스트" in a.text and naver_cast == '':
                        naver_cast = a['href']

        h3_in_profile_dsc_dsc = naver_soup.select('div[class=record_wrap]')[0].select('h3[class=blind]')
        d1_in_profile_dsc_dsc = naver_soup.select('div[class=record_wrap]')[0].select('dl')

        for v in range(len(d1_in_profile_dsc_dsc)):
            title = h3_in_profile_dsc_dsc[v].text
            inner = d1_in_profile_dsc_dsc[v].select('p')

            if '경력' in title:
                career = inner[0].text

            elif '학력' in title:
                academic = inner[0].text

            elif '수상' in title:
                awards = inner[0].text
            
#         final_list = [name, series_id, job, birth, moon_birth, star, animals, blood_type, height, weight, agency, belong_not_celeb, belong_sport_team, belong_group, members, debut, academic, career, awards, official_site, fancafe, blog, twitter, facebook, insta, youtube, weibo, tumblr, kakao, naver_cast, vlive, naver_talk]
#         empty_frame.loc[i] = final_list
    
    # 네이버 url 없는 경우 따로 저장 -> 솔라쿼리만 수정
    else :
        series_idx = series_id[i]
#         null_ = series_id[i]
        null_series_idx.append(series_idx)
        

    final_list = [name, series_idx, job, birth, moon_birth, star, animals, blood_type, height, weight, agency, belong_not_celeb, belong_sport_team, belong_group, members, debut, academic, career, awards, official_site, fancafe, blog, twitter, facebook, insta, youtube, weibo, tumblr, kakao, naver_cast, vlive, naver_talk]
    empty_frame.loc[i] = final_list
    

# 없는 경우 None 처리   
for d in empty_frame.columns:
    for x in range(len(names)) :
        if empty_frame[d][x] == '' :
            empty_frame[d][x] = None
        else :
            pass
        
empty_frame = empty_frame[~pd.isnull(empty_frame['이름'])]
display(empty_frame)

  0%|          | 0/37 [00:00<?, ?it/s]

Unnamed: 0,이름,series_id,직업,양력생일,음력생일,별자리,띠,혈액형,키,몸무게,소속사,소속,소속팀,소속 그룹,멤버,데뷔,학력,경력,수상,공식사이트,팬카페,블로그,트위터,페이스북,인스타그램,유튜브,웨이보,텀블러,카카오스토리,네이버캐스트,브이라이브,네이버토크
0,크래커,11659397,"가수, 음악PD",,,,,,,,,,,,,2015년 디지털 싱글 앨범 [Flower],,,,,,,,https://www.facebook.com/CRACKER.OFFICIAL,https://www.instagram.com/cracker_official,https://www.youtube.com/channel/UCHVwwQh8efmNDvZ39b0Szow,,,,,,
1,무키무키만만수,11659398,가수,,,,,,,,비트볼뮤직,,,,"무키(보컬, 장구), 만수(보컬, 기타)",2012년 1집 앨범 [2012],,,,,,,,https://www.facebook.com/mukimukimanmansu,,,,,,,,
2,라온,11659404,가수,2000-01-21 00:00:00,1999-12-15 00:00:00,물병,용,,,,에이엔에스엔터테인먼트,,,ANS,,,,,,https://ans.ans-ent.com,http://cafe.daum.net/AngelNSoul,,https://twitter.com/ANS_official_,https://www.facebook.com/ANS.AngelNSoul/?modal=admin_todo_tour,https://www.instagram.com/official_ans_,https://www.youtube.com/channel/UCQT2CDn_eV3kpWp5lCszOAA,,,,,,
3,비안,11659405,가수,2001-02-13 00:00:00,2001-01-21 00:00:00,물병,뱀,,,,에이엔에스엔터테인먼트,,,"메이져스,ANS",,,,,,https://ans.ans-ent.com,http://cafe.daum.net/AngelNSoul,,https://twitter.com/ANS_official_,https://www.facebook.com/ANS.AngelNSoul/?modal=admin_todo_tour,https://www.instagram.com/official_ans_,https://www.youtube.com/channel/UCQT2CDn_eV3kpWp5lCszOAA,,,,,http://www.vlive.tv/channels/856F39,
4,요한,11659406,가수,,,,,,180.0,62.0,,,,일급비밀,,2017년 일급비밀 미니 앨범 [Time`s Up],,,,,,,https://twitter.com/fs7_official,https://www.facebook.com/officialfs7,https://www.instagram.com/fs7official,https://www.youtube.com/TOPSECRETofficial,,,,,http://www.vlive.tv/channels/E213A3,
5,권용현,11659407,가수,1996-12-18 00:00:00,1996-11-08 00:00:00,사수,쥐,,,,,,,일급비밀,,2017년 일급비밀 미니 앨범 [Time's up],,,,,,,,,https://www.instagram.com/yyyyyyonggg,,,,,,http://www.vlive.tv/channels/E213A3,
6,시그니처,11659408,가수,,,,,,,,C9엔터테인먼트(J9엔터테인먼트),,,,"채솔, 지원, 셀린, 벨, 세미, 도희, 클로이",2020년 시그니처 싱글 앨범 [NUN NU NAN NA],,"멤버 '예아, 선' 탈퇴",,,http://cafe.daum.net/officialcignature,,https://twitter.com/cignature_j9,https://www.facebook.com/cignature.J9,https://www.instagram.com/cignature_j9,https://www.youtube.com/channel/UCaRdmTJgO6w0esJPZUOzXrw?view_as=subscriber,,,,,http://www.vlive.tv/channels/A57B37,
7,정관,11659409,승려,,,,,,,,,백양사천진암(주지),,,,,중앙승가대학교 학사,한국불교문화사업단 사찰음식 교재 편찬위원,,,,,,,,,,,,,,
8,이도경,11659410,"영화배우, 연극배우",,,,,,170.0,60.0,주피터엔터테인먼트,,,,,,서울예술대학 연극,극단 이랑씨어터 대표,,,,,,,,,,,,,,
9,조항조,11659411,가수,,,,,,,,,,,,,1978년 서기 1999년 1집 앨범 [서기1999년],,희망 서울 홍보대사,제23회 대한민국문화연예대상 성인가요부문,,,,,,,,,,,,,


In [27]:
for i, row in empty_frame.iterrows() :
    name = row['이름']
    series_id = row['series_id']
    members = row['멤버']
    
    if not pd.isnull(members) :
        print(series_id, name)
        print('멤버 구성원을 확인하세요 : ', members)
        print(f'https://www.mycelebs.ai/celeb/{series_id}')

11659398 무키무키만만수
멤버 구성원을 확인하세요 :  무키(보컬, 장구), 만수(보컬, 기타)
https://www.mycelebs.ai/celeb/11659398
11659408 시그니처
멤버 구성원을 확인하세요 :  채솔, 지원, 셀린, 벨, 세미, 도희, 클로이
https://www.mycelebs.ai/celeb/11659408
11674924 JJ
멤버 구성원을 확인하세요 :  DJ Roy(DJ), YellowFOXX(DJ)
https://www.mycelebs.ai/celeb/11674924


## 솔라쿼리 & 크롤링 데이터 도넛에 등록

In [28]:
# 로그인
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options)

pid = 'mycelebsTempUser'
ppw = 'mycelebs!@rookie'
driver.get(f'http://{pid}:{ppw}@dev.mycelebs.com/donut/')
# alert = driver.switch_to_alert()
alert = driver.switch_to.alert
alert.accept()
time.sleep(2.0)

driver.find_element_by_css_selector('#adminId').send_keys('rookie')
driver.find_element_by_css_selector('#adminPw').send_keys('1234')
btn = driver.find_element_by_css_selector('#loginForm > button')
btn.click()

for i, row in empty_frame.iterrows() : 
    name = row['이름']
    series_id = row['series_id']
    solr = df[df['series_id'] == series_id]['after'].iloc[0]
    job = row['직업']
    height = row['키']
    weight = row['몸무게']
    bmi = getBMI(height, weight)
    bmi_range = getBMI_range(bmi)
    sun_birth = row['양력생일']
    moon_birth = row['음력생일']
    star = row['별자리']
    animals = row['띠']
    sosogsa = row['소속사']
    sosog = row['소속']
    sosog_team = row['소속팀']
    group = row['소속 그룹']
    debut = row['데뷔']
    debutYear = ''
    if not pd.isnull(debut) :     
        debutYear = debut[:4]
    member = row['멤버']
    student = row['학력']
    career = row['경력']
    award = row['수상']
    
    url2 = 'http://dev.mycelebs.com/donut/Celeb/ShowManageCeleb/' + str(series_id)
    driver.get(url2)
    print('\n')
    print(name, "-", series_id)
    
    # 0. 이름
    dataUpdate("이름")
        
    # 1. 솔라쿼리
    driver.find_element_by_xpath('//*[@id="s_cd_solr_search"]').clear()
    driver.find_element_by_xpath('//*[@id="s_cd_solr_search"]').send_keys(solr)
    
    # error 수정 - 검색어 , 매칭 단어 비었을 시 넣어주기
    ## 검색어 비었으면 분류"이름" 넣어주기 ex)귀요미"이유진"
    gumsec = driver.find_element_by_xpath('//*[@id="s_cd_search_word"]')
    if gumsec.get_attribute('value') == '':
        cate = driver.find_element_by_xpath('//*[@id="s_cd_category"]').get_attribute('value')
        gumsec.send_keys(f'{cate}"{name}"')
    ## 매칭 단어 비었으면 이름 넣어주기
    matching = driver.find_element_by_xpath('//*[@id="s_cd_match_word"]')
    if matching.get_attribute('value') == '': 
        matching.send_keys(f'{name}')
        
    # 2. 직업
#     dataUpdate("직업")
    
    # 3. 키
    if not pd.isnull(height) :
        dataUpdate("키")
    
    # 4. 몸무게
    if not pd.isnull(weight) :
        dataUpdate("몸무게")
    
    # 5. BMI
    if bmi != '' :
        dataUpdate("BMI")
    
    # 6. BMI 범위
    if bmi_range != '' :
        dataUpdate("BMI 범위")
    
    # 7. 양력생일
    if not pd.isnull(sun_birth) :
        if len(sun_birth) == 19 :
            sun_birth_ = sun_birth[:10]

            conn = db_connection()
            cursor = conn.cursor(pymysql.cursors.DictCursor)

            qry = f'select * from star_ko_special_day where series_id={series_id}'
            result = pd.read_sql(qry, conn)
            if result.empty :
                query = f'INSERT INTO `star_ko_special_day` (`series_id`, `content_idx`, `date`, `regist_date`) VALUES ({series_id}, 1, \'{sun_birth_}\', NOW())'
                cursor.execute(query)
                conn.commit()
                print("[INFO] 생일 - DB에 인서트 되었습니다.")

            before_birth = driver.find_element_by_xpath('//*[@id="s_cd_birth"]').get_attribute('value')
            if before_birth != sun_birth :
                try : 
                    driver.find_element_by_xpath('//*[@id="s_cd_birth"]').clear()
                    driver.find_element_by_xpath('//*[@id="s_cd_birth"]').send_keys(sun_birth)
                    print("[INFO] 생일 - 수정되었습니다. {0} -> {1}".format(before_birth, sun_birth))

                    query = f'UPDATE `star_ko_special_day` SET `date`=\'{sun_birth_}\' WHERE `series_id`={series_id};'
                    cursor.execute(query)
                    conn.commit()
                    print("[INFO] 생일 - DB에 업데이트 되었습니다.")
                except :
                    pass
            conn.close()


    # 8. 음력생일
    if not pd.isnull(moon_birth) :
        dataUpdate("음력생일")
    
    # 9. 별자리
    if not pd.isnull(star) :
        before_star = driver.find_element_by_xpath('//*[@id="s_cd_constellation"]').get_attribute('value')
        if before_star != star :
            if star == '게' :
                num = '2'
            elif star == '물고기' :
                num = '3'
            elif star == '물병' :
                num = '4'
            elif star == '사수' :
                num = '5'
            elif star == '사자' :
                num = '6'
            elif star == '쌍둥이' :
                num = '7'
            elif star == '양' :
                num = '8'
            elif star == '염소' :
                num = '9'
            elif star == '전갈' :
                num = '10'
            elif star == '처녀' :
                num = '11'
            elif star == '천칭' :
                num = '12'
            elif star == '황소' :
                num = '13'
            else :
                num = '1'    
            try :
                driver.find_element_by_xpath('//*[@id="s_cd_constellation"]').click()
                driver.find_element_by_xpath('//*[@id="s_cd_constellation"]/option[' + num + ']').click()
            except :
                pass
            print("[INFO] 별자리 - 수정되었습니다. {0} -> {1}".format(before_star, star))
    
    # 10. 띠 
    if not pd.isnull(animals) :
        before_animals = driver.find_element_by_xpath('//*[@id="s_cd_year_of"]').get_attribute('value')
        if before_animals != animals :
            if animals == '개띠':
                num2 = '2'
            elif animals == '닭띠':
                num2 = '3'
            elif animals == '돼지띠':
                num2 = '4'
            elif animals == '말띠':
                num2 = '5'
            elif animals == '뱀띠':
                num2 = '6'
            elif animals == '소띠':
                num2 = '7'
            elif animals == '양띠':
                num2 = '8'
            elif animals == '용띠':
                num2 = '9'
            elif animals == '원숭이띠':
                num2 = '10'
            elif animals == '쥐띠':
                num2 = '11'
            elif animals == '토끼띠':
                num2 = '12'
            elif animals == '호랑이띠':
                num2 = '13'
            else :
                num2 = '1'
            try :
                driver.find_element_by_xpath('//*[@id="s_cd_year_of"]').click()
                driver.find_element_by_xpath('//*[@id="s_cd_year_of"]/option[' + num2 + ']').click()
            except :
                pass
            print("[INFO] 띠 - 수정되었습니다. {0} -> {1}".format(before_animals, animals))

    # 11. 소속사
    dataUpdate("소속사")
    
    # 12. 소속
    dataUpdate("소속")
    
    # 13. 소속팀
    dataUpdate("소속팀")
    
    # 14. 소속그룹
    dataUpdate("그룹")
    
    # 15. 데뷔
    dataUpdate("데뷔")
    
    # 16. 멤버
    dataUpdate("멤버")
    
    # 17. 학력
    dataUpdate("학력")
    
    # 18. 경력
    dataUpdate("경력")
    
    # 19. 수상
    dataUpdate("수상")
    
    # 등록 버튼!
    driver.find_element_by_xpath('//*[@id="write"]/div/div/div[2]/div/input').click()
    
    # 정상처리 되었습니다.
    time.sleep(1)
    alert.accept()
    
    ###################################################################################################

    # 20. 사이트 삭제하기
    try:
        site_in_donut = driver.find_element_by_id("site_list") # 도넛에 등록된 사이트 리스트 추출
        sid_list = site_in_donut.text.split('\n')
        print(len(sid))
    except:
        pass
    try:
        # 사이트 모두 삭제
        for i in range(1,len(sid_list)+1):
            driver.find_element_by_xpath(f'//*[@id="site_list"]/div[1]/a[1]').click()
            time.sleep(1)
            alert = driver.switch_to.alert
            alert.accept()
            time.sleep(1.5)
    except :
        pass
    
    ###################################################################################################
    
# url 없는 개체들 솔라쿼리 넣기
for n in null_series_idx :
    url2 = 'http://dev.mycelebs.com/donut/Celeb/ShowManageCeleb/' + str(n)
    driver.get(url2)
    print(n)
    
    value_ = df[df['series_id'] == int(n)]['after'].values[0]

    driver.find_element_by_xpath('//*[@id="s_cd_solr_search"]').clear()
    driver.find_element_by_xpath('//*[@id="s_cd_solr_search"]').send_keys(value_)
    
    # 등록 버튼!
    driver.find_element_by_xpath('//*[@id="write"]/div/div/div[2]/div/input').click()
    
    # 정상처리 되었습니다.
    time.sleep(1)
    alert.accept()
    
print("DONE !! ")



Current google-chrome version is 91.0.4472
Get LATEST driver version for 91.0.4472
Driver [/Users/jieun/.wdm/drivers/chromedriver/mac64/91.0.4472.101/chromedriver] found in cache




크래커 - 11659397


무키무키만만수 - 11659398
[INFO] 멤버 - 수정되었습니다. 무키, 이민휘 -> 무키(보컬, 장구), 만수(보컬, 기타)


라온 - 11659404
[INFO] 띠 - 수정되었습니다. 토끼 -> 용
[INFO] 소속사 - 수정되었습니다. ANS엔터테인먼트 -> 에이엔에스엔터테인먼트
[INFO] 그룹 - 수정되었습니다. 에이엔에스 -> ANS


비안 - 11659405
[INFO] 소속사 - 수정되었습니다. ANS엔터테인먼트 -> 에이엔에스엔터테인먼트
[INFO] 그룹 - 수정되었습니다. 에이엔에스 -> 메이져스,ANS


요한 - 11659406
[INFO] 그룹 - 수정되었습니다. 일급비밀, 엔오엠 -> 일급비밀


권용현 - 11659407
[INFO] 이름 - 수정되었습니다. 용현 -> 권용현
[INFO] 생일 - DB에 인서트 되었습니다.
[INFO] 생일 - 수정되었습니다. 0000-00-00 00:00:00 -> 1996-12-18 00:00:00
[INFO] 생일 - DB에 업데이트 되었습니다.
[INFO] 음력생일 - 수정되었습니다. 0000-00-00 00:00:00 -> 1996-11-08 00:00:00
[INFO] 별자리 - 수정되었습니다.  -> 사수
[INFO] 띠 - 수정되었습니다.  -> 쥐


시그니처 - 11659408
[INFO] 소속사 - 수정되었습니다. J9엔터테인먼트 -> C9엔터테인먼트(J9엔터테인먼트)
[INFO] 데뷔 - 수정되었습니다. 2020년 싱글 앨범 'cignature debut lead single A ‘NUN NU NAN NA’' -> 2020년 시그니처 싱글 앨범 [NUN NU NAN NA]
[INFO] 멤버 - 수정되었습니다. 채솔, 지원, 예아, 선, 셀린, 벨, 세미 -> 채솔, 지원, 셀린, 벨, 세미, 도희, 클로이
[INFO] 경력 - 수정되었습니다.  -> 멤버 '예아, 선' 탈퇴


정관 - 11659409
[INFO] 소속 - 수정되었습니

In [29]:
###################################################################################################
    
# 21. 사이트 다시 추가

for i, row in tqdm(empty_frame.iterrows(), total=empty_frame.shape[0]) : 
    name = row['이름']
    series_id = row['series_id']
    site_1 = row['공식사이트']
    site_2 = row['팬카페']
    site_3 = row['블로그']
    site_5 = row['트위터']
    site_6 = row['페이스북']
    site_7 = row['인스타그램']
    site_8 = row['유튜브']
    site_9 = row['웨이보']
    site_10 = row['브이라이브']
    
    url2 = 'http://dev.mycelebs.com/donut/Celeb/ShowManageCeleb/' + str(series_id)
    driver.get(url2)
    print(name, "-", series_id)
                      
    # 공식사이트
    snsInsert("공식사이트")    
    # 팬카페
    snsInsert("팬카페")    
    # 블로그
    snsInsert("블로그")    
    # 트위터
    snsInsert("트위터")    
    # 페이스북
    snsInsert("페이스북")    
    # 인스타그램
    snsInsert("인스타그램")    
    # 유튜브
    snsInsert("유튜브")    
    # 웨이보
    snsInsert("웨이보")    
    # 브이라이브
    snsInsert("브이라이브")

driver.close()

  0%|          | 0/36 [00:00<?, ?it/s]

크래커 - 11659397
무키무키만만수 - 11659398
라온 - 11659404
비안 - 11659405
요한 - 11659406
권용현 - 11659407
시그니처 - 11659408
정관 - 11659409
이도경 - 11659410
조항조 - 11659411
박구윤 - 11659412
박혜신 - 11659413
원현준 - 11674913
최유리 - 11674914
장진영 - 11674915
홍기준 - 11674916
채종협 - 11674917
우정국 - 11674918
안상우 - 11674919
홍인규 - 11674920
박술녀 - 11674921
92914 - 11674922
JJ - 11674924
임헌일 - 11674925
예아 - 11674926
선 - 11674927
김복유 - 11674928
알렉사 - 12199771
김혜준 - 12199772
김윤성 - 12199773
라윤경 - 12199774
이건우 - 12199775
김광민 - 12199776
OYEON - 12199777
김주일 - 12199778
안지현 - 12199779


In [30]:
# 연관스타 수정
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
related_star_drv = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options)
related_star_drv.get(f'http://{pid}:{ppw}@dev.mycelebs.com/donut/')
alert = related_star_drv.switch_to.alert
alert.accept()
time.sleep(2.0)

related_star_drv.find_element_by_css_selector('#adminId').send_keys('rookie')
related_star_drv.find_element_by_css_selector('#adminPw').send_keys('1234')
btn = related_star_drv.find_element_by_css_selector('#loginForm > button')
btn.click()

for i in range(len(solr_df)):
    sid = solr_df[i].get('series_id')
    name = solr_df[i].get('name')
    print(f'series_id : {sid} | name : {name}')
    
    related_star_drv.get(f'http://dev.mycelebs.com/donut/index.php/Celeb/ShowManageKeywords/{sid}') 
    profile.get(f'https://www.mycelebs.ai/celeb/{sid}/related-star') 

    #연관스타 리스트 추출
    try:
        related_id = []
        related = profile.find_elements_by_class_name("mats-profile__contents")
        for i in range(len(related)):
#             print(related[i].text)
            if name in related[i].text:
                hh = profile.find_element_by_xpath(f'//*[@id="__layout"]/div/div[2]/div/div[1]/section/div[1]/div[1]/div/div/div[{i+1}]/div/div/figure/img').get_attribute('src')
                hhh = re.findall("\d+", hh)[0]
                related_id.append(hhh) # 해당 스타의 series id
        print('등록할 동명이인의 시리즈 아이디: ', related_id)
        
    except Exception as e:
        print(f'연관스타 리스트 추출: {e}')
       
    try:
        if len(related_id) > 0:
            ssst = ','.join(related_id)
            relation_keywords= related_star_drv.find_element_by_id('relation_keywords')
            relation_keywords.send_keys(f'{ssst}')
            relation_keywords.send_keys(Keys.RETURN)
            time.sleep(1)
            alert3 = related_star_drv.switch_to.alert
            alert3.accept()
            time.sleep(1)

            print("=============연관스타 등록 완료===============")

        else:
            print("=============동명이인 없음 / 연관스타 직접 확인 필요============")
    except UnexpectedAlertPresentException:
        alert3 = related_star_drv.switch_to.alert
        alert3.accept()
        time.sleep(1)
        pass
9        
related_star_drv.close()
profile.close()



Current google-chrome version is 91.0.4472
Get LATEST driver version for 91.0.4472
Driver [/Users/jieun/.wdm/drivers/chromedriver/mac64/91.0.4472.101/chromedriver] found in cache


series_id : 11659397 | name : 크래커
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659398 | name : 무키무키만만수
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659404 | name : 라온
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659405 | name : 비안
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659406 | name : 요한
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659407 | name : 용현
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659408 | name : 시그니처
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659409 | name : 정관
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659410 | name : 이도경
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659411 | name : 조항조
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659412 | name : 박구윤
등록할 동명이인의 시리즈 아이디:  []
series_id : 11659413 | name : 박혜신
등록할 동명이인의 시리즈 아이디:  []
series_id : 11674913 | name : 원현준
등록할 동명이인의 시리즈 아이디:  []
series_id : 11674914 | name : 최유리
등록할 동명이인의 시리즈 아이디:  []
series_id : 11674915 | name : 장진영
등록할 동명이인의 시리즈 아이디:  []
series_id : 11674916 | name : 홍기준
등록할 동명이인의 시리즈 아이디:  []
series_id : 11674917 | name : 채종협
등록할 동명이인의 시리즈 아이디:  []
series_id : 11674918 | name : 우

## 보고하기

In [61]:
l1 = df.name.tolist()
l1_ = list(map(str, l1))
total.extend(l1_)
tt = time.strftime('%m/%d', time.localtime(time.time()))
print('({})일자 solr 쿼리 수정 현황입니다.'.format(tt), end='\n\n')
print('- 금일 수정 스타')
print(", ".join(total), end='\n\n')
print('- 당일 작업 개수 : {}'.format(len(total)))

(08/03)일자 solr 쿼리 수정 현황입니다.

- 금일 수정 스타
크래커, 무키무키만만수, 라온, 비안, 요한, 용현, 시그니처, 정관, 이도경, 조항조, 박구윤, 박혜신, 원현준, 최유리, 장진영, 홍기준, 채종협, 우정국, 안상우, 홍인규, 박술녀, 92914, 김빛나, 제이제이, 임헌일, 예아, 선, 김복유, 알렉사, 김혜준, 김윤성, 라윤경, 이건우, 김광민, 오연, 김주일, 안지현

- 당일 작업 개수 : 37


In [185]:
l2 = df.name.tolist()
total.extend(l2)
tt = time.strftime('%m/%d', time.localtime(time.time()))
print('({})일자 solr 쿼리 수정 현황입니다.'.format(tt), end='\n\n')
print('- 금일 수정 스타')
print(", ".join(total), end='\n\n')
print('- 당일 작업 개수 : {}'.format(len(total)))

(07/23)일자 solr 쿼리 수정 현황입니다.

- 금일 수정 스타
솔리드, 손석구, 인호진, 송우진, 김영우, 성진환, 김윤아, 원, 홍광호, 고유진, 고유진, 오연준, 매드타운, 유엔, 에코브릿지, 워너비, 이바다, 김동규, ONE, 더 네임, 마틴스미스, 김도향, 이요한, 코코소리, 롤러 코스터, 브로맨스

- 당일 작업 개수 : 26
