In [1]:
!pip install nest-asyncio
!pip install --upgrade lxml
!pip install --upgrade pymongo
from IPython.display import clear_output
clear_output()

In [2]:
import requests
from bs4 import BeautifulSoup
from datetime import datetime, timedelta
import asyncio
import json
import nest_asyncio
from pymongo import MongoClient
nest_asyncio.apply()

# 함수 정의

def get_comments(refer_url, comment_url) : # 댓글 목록을 json 형태로 받아오는 함수
    comments = []
    next = None
    # 처음엔 댓글 개수를 모르므로 충분히 큰 수를 넣어 줌
    comment_count = 10e6
    headers = {
        'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.5 Safari/605.1.15',
        'referer': refer_url
    }

    # 수집한 댓글 수가 첫번째에 수집한 총 댓글 수 보다 많다면 반복을 종료합니다.
    while len(comments) < comment_count :
        comment_url_next = comment_url + '&moreParam.next=' + next if next else comment_url
        res = requests.get(comment_url_next, headers=headers)
        dic = json.loads(res.text[res.text.index('(')+1:-2])
        comments.extend(list(map(lambda x : {
            'id': x['commentNo'],
            'time': x['regTime'], 
            'uid': x['idNo'], 
            'text': x['contents'], 
            'sympathy': x['sympathyCount'], 
            'antipathy': x['antipathyCount'] 
            }, dic['result']['commentList'])))
        comment_count = dic['result']['count']['comment']
        next = dic['result']['morePage']['next'] if comment_count else None
    # 필터로 삭제된 댓글을 걸러줍니다
    comments=list(filter(lambda x: len(x['text']), comments))
    return comments

def get_article(offer, article_url) : # 뉴스 기사를 html 형태로 받아오는 함수
    article = {}
    headers = {'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.5 Safari/605.1.15'}
    res = requests.get(article_url, headers=headers)
    if res.url != article_url :
        return None
    soup = BeautifulSoup(res.text, 'lxml')
    article['offer'] = offer
    article['url'] = article_url
    article['title'] = soup.select_one('#ct > div.media_end_head.go_trans > div.media_end_head_title > h2').text
    article['text'] = soup.select_one('#dic_area').text
    article['date'] = soup.select_one('#ct > div.media_end_head.go_trans > div.media_end_head_info.nv_notrans > div.media_end_head_info_datestamp > div > span.media_end_head_info_datestamp_time').attrs['data-date-time']
    return article


async def main(filename, start, end) : # 위 함수를 이용해 데이터를 받아오고 저장하는 함수
    def get_data(offer, date, oid, aid, count, max) :
        try :
            # article_url: 원본 기사 주소
            # refer_url: 댓글 보기를 누르면 나오는 댓글 페이지 주소
            # comment_url: 네트워크 탭에서 확인 가능한 동적으로 생성되는 주소
            article_url = f'https://n.news.naver.com/mnews/article/{oid}/{aid}?sid=100'
            refer_url = f'https://n.news.naver.com/mnews/article/comment/{oid}/{aid}?sid=100'
            comment_url = f'https://apis.naver.com/commentBox/cbox/web_naver_list_jsonp.json?ticket=news&templateId=default_politics_m3&pool=cbox5&_cv=20220623185938&_callback=jQuery33103200637113167857_1656171100524&lang=ko&country=KR&objectId=news{oid}%2C{aid}&categoryId=&pageSize=100&indexSize=10&groupId=&listType=OBJECT&pageType=more&page=1&initialize=true&userType=&useAltSort=true&replyPageSize=20&followSize=100&sort=new&includeAllStatus=true&_=1656171100525'
            article = get_article(offer, article_url)
            # article이 None이 반환되는 경우는 리다이렉트가 발생하는 경우
            if article is None : 
                return None
            comments = get_comments(refer_url, comment_url)
            # 댓글 수가 0개인 기사를 어떻게 할지 추후에 결정해야 함
            article['comments'] = comments
            print(date, str(count) + '/' + str(max), '댓글 개수:' + str(len(comments)))
            return article
        except :
            errors.append({'data': [date, oid, aid]})            
            print(date, article_url, '오류 발생')
            return None

    # 매개변수로 받은 시작, 종료일자로 기간 배열을 만들어줌
    start = datetime.strptime(start, "%Y%m%d")
    end = datetime.strptime(end, "%Y%m%d")
    dates = [(start + timedelta(days=d)).strftime('%Y%m%d') for d in range((end-start).days+1)]

    # 파일 불러오기
    with open(filename, 'r') as f :
        data = json.load(f)

    # db 연결
    client = MongoClient(
        host='146.56.179.190', 
        port=4001,
        username='user',
        password='appleBanana',
        authSource='news')
    db = client['news']
    col = db['naver']

    loop = asyncio.get_event_loop()
    for date in dates :
        # 카운트 변수를 0으로 초기화
        count = 0
        max = len(data[date])
        futures = []
        errors = []
        for offer, oid, aid in data[date] :
            count += 1
            futures.append(loop.run_in_executor(None, get_data, offer, date, oid, aid, count, max))
            if count % 100 == 0 or count == len(data[date]) :
                # 백번째마다 플러시
                articles = await asyncio.gather(*futures)
                articles = list(filter(lambda x : x is not None, articles))
                # 디비에 데이터 전송
                col.insert_many(articles)
                clear_output(wait=True)
                # 오류 뜬 기사들은 디비에 따로 전송
                print(len(articles), '- 완료', len(errors), '- 에러', str(count) + '/' + str(len(data[date])))
                if errors :
                    print(len(errors), '에러 전송')
                    db['error'].insert_many(errors)                
                    errors = []
                futures = []

In [4]:
%%time
asyncio.run(main('2020.json', '20200607', '20200630'))


39 - 완료 0 - 에러 1939/1939
CPU times: total: 3h 32min 58s
Wall time: 2h 47min 46s


In [16]:
headers = {
    'authorization': 'SAPISIDHASH 1656490257_72951dceea84283db6c91b33474661837b92c629',
    # 'cookie': 'VISITOR_INFO1_LIVE=-4lLeJm3DQs; __Secure-3PSID=LQigOuFCfObgkX3PwakX9rAA5lfnSYv0SnVN86Bd2vul_vB2s86orQxi3jPPc3xvnoyrcQ.; __Secure-3PAPISID=QZ0wgC6Vmm3-91sn/ABTC4ggNGt1zUoehR; __Secure-3PSIDCC=AJi4QfFS6_6-zn0DpnTHmXun0g_hEAqaPQqlj26UhnfO__vFvB2gPMURnWXRhry9UHr95tlkFQ; YSC=_0dug2yEVLY; GPS=1; PREF=tz=Asia.Seoul&f4=4000000; CONSISTENCY=ALOGzFzsZ-lyqOlBZndK8RBRfs1n1VP-N8g2b-jIl__QCnt36Ra3xyT7JhkJO55E4mI3CmNMCAxCWLlqRImUrw1PQeeV1Jnk_MHCk1ZBCnqo9vWuCoAHrD8LTog5Kj-Yn7wyW3Iir71IKDHlvLZ5k0K86iKKw5XsTTaYoWM8fq6m6jcPojgegW8HYE6YzfZW7HauNI001ogDJqiW3m2U3glVrqU',
    # 'referer': 'https://www.youtube.com/watch?v=9KvqqRERUlY',
    # 'origin': 'https://www.youtube.com',
}
res = requests.post('https://www.youtube.com/youtubei/v1/next?key=AIzaSyAO_FJ2SlqU8Q4STEHLGCilw_Y9_11qcW8&prettyPrint=false', headers=headers)
res.json()


{'error': {'code': 401,
  'message': 'Request is missing required authentication credential. Expected OAuth 2 access token, login cookie or other valid authentication credential. See https://developers.google.com/identity/sign-in/web/devconsole-project.',
  'errors': [{'message': 'Login Required.',
    'domain': 'global',
    'reason': 'required',
    'location': 'Authorization',
    'locationType': 'header'}],
  'status': 'UNAUTHENTICATED',
  'details': [{'@type': 'type.googleapis.com/google.rpc.ErrorInfo',
    'reason': 'CREDENTIALS_MISSING',
    'domain': 'googleapis.com',
    'metadata': {'method': 'youtube.innertube.OPInnerTubeService.GetWatchNext',
     'service': 'youtubei.googleapis.com'}}]}}

In [None]:
sv_db['naver_test'].find_one()

In [2]:
from pymongo import MongoClient
lc_client = MongoClient(
    host='localhost', 
    port=27017
)
lc_db = lc_client['news']

In [None]:
lc_db['sync']

In [6]:
lc_db['sync'].count_documents({})

48715

In [9]:
from bson.objectid import ObjectId
i = lc_db['sync'].find_one({'_id': ObjectId('62b920603298795d65718581')})
lc_db['sync'].update_one({'_id': i['_id']}, {'$set': {'sentiment_result': '호감'}})

<pymongo.results.UpdateResult at 0x1a4ef6be700>

In [11]:
i = lc_db['sync'].find_one({'_id': ObjectId('62b920603298795d65718581')})
lc_db['sync'].delete_one({'_id': ObjectId('62b920603298795d65718581')})
lc_db['sync'].insert_one(i)

<pymongo.results.InsertOneResult at 0x1a4ef707cd0>

In [None]:
i = lc_db['sync'].find_one({'_id': ObjectId('62b920603298795d65718581')})
i

In [18]:
lc_db['sync'].delete_one({'_id': i['_id']})
i['sentiment_result'] = '비호감'
lc_db['sync'].insert_one()

<pymongo.results.InsertOneResult at 0x2299fbaf520>

In [None]:
lc_db['sync'].find_one({'_id': ObjectId('62b910d3aedd484f1094408f')})


In [None]:
lc_db['sync'].find_one()

In [None]:
cnt = 0
for i in sv_db['naver_test'].find(batch_size=1000) :
    cnt+=1
    i['portal'] = 'naver'
    lc_db['sync'].insert_one(i)
    if cnt % 1000 == 0 :
        print(cnt)

In [65]:
%%time

# url이 중복되는 도큐먼트의 id를 모두 추출
cur = lc_db['naver'].aggregate([
    {
        '$group': {
            '_id': '$url',
            'targets': {'$push': '$_id'},
            'count': { '$sum': 1 }
        }
    },
    {
        '$match': { 'count': { '$gt': 1}}
    }
], allowDiskUse=True)

CPU times: total: 31.2 ms
Wall time: 1min 11s


In [66]:
%%time

# 해당 도큐먼트 중 가장 나중 것만 남기고 삭제
for i in cur :
    targets: list = i['targets']
    targets.pop()
    lc_db['naver'].delete_many({'_id': {'$in': targets}})

CPU times: total: 0 ns
Wall time: 18.6 ms


In [90]:
%%time

# url을 인덱스로 만들어줌
lc_db['daum'].create_index('url', unique=True)

CPU times: total: 0 ns
Wall time: 13.8 ms


'url_1'

In [94]:
%%time

lc_db['daum'].count_documents({})

CPU times: total: 0 ns
Wall time: 40.4 s


999812

In [None]:
%%time

cnt = 0
arr = []
for i in sv_db['naver'].find({'filter'}, batch_size=1000) :
    cnt += 1
    i['감성'] = predict(i['title'])
    for comment in i['comments'] :
        comment['감성'] = predict(comment['text'])
    arr.append(i)
    if cnt % 1000 == 0:
        print(cnt)
        try :
            lc_db['naver_six_month_result'].insert_many(arr, ordered=False)
        except :
            pass
        arr = []


In [None]:
import requests
data = {'data': "\n리얼미터 여론조사 결과부울경 찬성 66.6%, 호남 반대 76.6%정당별 지지층 찬반 뚜렷…중도 과반 찬성민주 88.8% 반대, 국힘 81.4% 찬성\n\n\n\n이명박·박근혜 전 대통령. 서울신문이낙연 더불어민주당 대표가 던진 이명박·박근혜 전 대통령 사면에 대한 찬반 여론이 팽팽하게 엇갈린다는 여론조사 결과가 6일 나왔다. 정당별로 여권 지지층에서는 반대 여론이 높았던 반면, 국민의힘 등 보수지지층에서는 사면해야 한다는 찬성 여론이 높았다. 중도층에서는 찬성 여론이 절반을 넘겼다. 올해 4월 시장 재보궐 선거가 치러지는 서울에서는 오차범위 안에서 찬성 여론이 다소 우세했고 부산을 포함한 부울경 지역에서도 3명 중 2명이 사면에 찬성했다.리얼미터가 오마이뉴스 의뢰로 지난 5일 전국 18세 이상 500명에게 조사한 결과, 두 전직 대통령의 사면에 찬성한다는 응답은 47.7%, 반대는 48.0%로 나타났다. ‘잘 모름’은 4.3%였다.지역별로 부산·울산·경남(찬성 66.6% vs 반대 29.4%)과 대전·세종·충청(58.3% vs 37.4%), 대구·경북(56.8% vs 31.3%)에서 찬성 여론이 절반을 넘었다. 광주·전라(19.3% vs 76.6%)와 인천·경기(39.6% vs 57.1%)에서는 반대가 우세했다.서울 찬성 49%, 반대 47.6%중도층 찬성 51%, 반대 43.5%서울은 찬성 49.0%, 반대 47.6%로 갈렸다.연령별로는 60대(68.1% vs 28.8%)와 70세 이상(68.1% vs 29.5%) 등 고령층은 다수가 찬성 의견이었다. 40대(31.5% vs 63.7%)와 30대(35.9% vs 59.1%), 20대(42.4% vs 51.6%)에서는 반대가 더 많았다. 50대는 찬성 48.2%, 반대 48.0%로 엇비슷했다.정당별 지지층 사이에 찬반 경향은 뚜렷했다.더불어민주당 지지층에서는 사면 반대 응답이 88.8%로 압도적이었던 반면, 국민의힘 지지층에서는 찬성이 81.4%에 달했다.보수층은 찬성(67.5%)이, 진보층은 반대(75.1%)가 각각 우세한 가운데 중도층에서는 찬성(51.0%)과 반대(43.5%)가 오차범위 이내였다.이번 조사의 표본오차는 95% 신뢰수준에 ±4.4%포인트다. 자세한 내용은 리얼미터 홈페이지를 참조하면 된다.\n\n\n\n발언하는 이낙연 대표 - 더불어민주당 이낙연 대표가 6일 오전 국회에서 열린 최고위원회의에서 발언하고 있다. 2021.1.6 연합뉴스이낙연 “李-朴 사면 건의는 제 충정”“국민통합 이루는 정치로 발전해야”1일 “적절한 시기에 文에 건의”“당이 좀더 적극적 역할해야”앞서 이 대표는 지난 1일 언론에 “적절한 시기에 두 전직 대통령의 사면을 문 대통령에게 건의하겠다”면서 “지지층의 찬반을 떠나서 건의하려고 한다. 국민 통합을 위한 큰 열쇠가 될 수 있을 것”이라고 말했다.이어 “올해는 문 대통령이 일할 수 있는 사실상 마지막 해로, 이 문제를 적절한 때에 풀어가야 하지 않겠느냐는 생각이 들었다”면서 “앞으로 당이 좀 더 적극적인 역할을 해야 할 것”이라고 강조했다.이 대표는 논란이 불거진 뒤에도 3일 두 전직 대통령의 사면 건의와 관련, “국민통합을 이뤄내야 한다는 제 오랜 충정을 말씀드린 것”이라면서 “정치 또한 반목과 대결의 진영정치를 뛰어넘어 국민통합을 이루는 정치로 발전해가야 한다고 믿는다”고 강조했다.이 대표는 “일단 대법원의 판결을 기다려보겠다”며 청와대와 사전 교감에 대해 “그런 일은 없었다”고 말했다. 이 대표의 이런 발언은 오는 14일 대법원의 재상고심 선고 이후 당사자인 박 전 대통령의 입장과 국민 여론을 보고 문 대통령에게 사면을 건의할지 여부를 정하겠다는 뜻으로 풀이됐다.\n\n\n\n이낙연, 이ㆍ박 전 대통령 사면 관련 논의 - 더불어민주당 이낙연 대표가 3일 국회 의원회관 자신의 사무실에서 이명박ㆍ박근혜 전 대통령의 사면과 관련한 비공개 최고위원회의를 마치고 사무실을 나서고 있다.   2021.1.3 연합뉴스李 “제 이익만 생각했다면 사면 말 안했다”“의견 수렴 없이 한 건 아쉬운 일이나수렴 어려운 사안, 질책 달게 받겠다”이 대표는 4일에도 KBS TV ‘뉴스9’에 출연해 “저의 이익만, 유불리만 생각했다면 말하지 않았을 것”이라면서 “두 전직 대통령의 범죄를 용서할 수는 없지만 국민의 마음을 모으는 방법으로써 검토할만하다 생각했다”고 밝혔다.이 대표는 “의견 수렴 없이 한 것은 아쉬운 일이나 의견 수렴이 어려운 사안”이라면서 “저에 대한 질책을 달게 받겠다”고 말했다.이 대표의 사면론 제기에 대해 일각에서는 최근 차기 대권주자 여론조사에서 윤석열 검찰총장, 이재명 경기도지사에서 밀려 지지부진하자 승부수를 던지려다 자충수된 게 아니냐는 비판이 제기됐는데 이 대표의 이날 발언은 지지율과는 무관하다는 것을 주장한 것으로 받아들여진다.이 대표는 두 전직 대통령의 사면 논의에서 한발 물러선 것이냐는 질문에 “정리를 한 셈”이라고 했다. 지난 3일 민주당 지도부는 두 전직 대통령의 사면론에 대해 “국민 공감대와 당사자 반성이 중요하다”고 결론 내렸었다.이 대표는 “세계가 코로나19(신종 코로나바이러스 감염증) 위기를 지나고 있다”면서 “언제 끝날지 모르는 이 전쟁을 치러가는 데 국민의 마음을 둘 셋으로 갈라지게 한 채로 그대로 갈 수 있을까 하는 절박한 충정에서 말씀드렸다”고 거듭 사면 배경을 설명했다.\n\n\n\n - 왼쪽부터 이재명 경기지사,윤석열 검찰총장,이낙연 더불어민주당 대표민주 친문강경파, 野 이낙연 동시 비판 민주당 내에서는 이 대표의 사면론을 두고 ‘국민통합을 위한 용단’이라는 입장과 ‘문 대통령을 배신한 것’이라는 친문 강경파의 반대론이 맞섰다.안민석 민주당 의원은 이 대표의 사면 제안에 “두 전직 대통령의 사과와 반성이 전혀 없는 상태에서 이 문제를 거론해서 진정성이 훼손됐고 본인도 상당히 곤혹스러운 상황”이라고 했다.안 의원은 “새해 벽두 사면 논란이 참 안타깝고 국민들, 당원들과의 소통이 없이 제기된 사면 복권이라 당황스럽다”면서 “공수처가 곧 출범되면 세월호 진실이나 부정은닉 재산 문제가 해결될 수 있을 거라는 기대를 하는데 사면 복권 주장은 이런 기대에 찬물을 끼얹는 격”이라고 비난했다. 그러면서 “선거라는 것은 지지층을 일단 결집하는 게 중요한데 집토끼가 달아나게 생겼다”고 지적했다.국민의힘은 조건부 사면에 대해 비겁하고 잔인한 정치 행태라며 강한 유감을 표명했다. 박대출 의원은 “애초 본인의 지지세 하락에 승부수로 이용해보려다가 포기한 것”이라며 “이제 와서 전직 대통령들에게 공을 떠넘기는 것은 정말 비겁하고 잔인한 처사”라고 비판했다.권성동 의원은 “발언 철회도 아니고, 조건부를 운운한 것은 비겁한 정치인의 전형”이라고 했고, 장제원 의원은 “중차대한 사면 문제를 던졌다가 당내 반발에 다시 주워 담는 모습이 가관이다. 벌써 레임덕이 온 것이냐”고 비난했다.\n\n\n\n - 이낙연 더불어민주당 대표연합뉴스강주리 기자 jurik@seoul.co.kr▶ 네이버에서 서울신문 구독하기 클릭! ▶ 세상에 이런 일이 ▶ [연예계 뒷얘기] 클릭!ⓒ 서울신문(www.seoul.co.kr), 무단전재 및 재배포금지\n\t\t'"}

res = requests.get('121.148.210.97:5000/summary')


In [6]:
from pymongo import MongoClient
lc_client = MongoClient(
    host='localhost', 
    port=27016,
    username='user',
    password='password',
    authSource='news',
)
lc_db = lc_client['news']

In [14]:
from datetime import datetime

In [29]:
lc_db['t'].insert_one({'date':})

<pymongo.results.InsertOneResult at 0x14ca845eac0>

In [30]:
lc_db['t'].find_one()

{'_id': ObjectId('62c1a0d78a2b4b01ab20cbfe'),
 'date': datetime.datetime(2022, 7, 1, 0, 0)}

In [64]:
cur = lc_db['naver'].find(batch_size=1000)
cur.next()
i = cur.next()

In [12]:
from pymongo import MongoClient
sv_client = MongoClient(
    host='146.56.179.190', 
    port=4001,
    username='user',
    password='appleBanana',
    authSource='news')
sv_db = sv_client['news']

In [None]:
%%time
# 데이터 날짜 포맷으로 넣기
arr = []
cnt = 0
for i in lc_db['naver'].find(batch_size=1000) :
    cnt += 1
    i['date'] = datetime.strptime(i['date'], '%Y-%m-%d %H:%M:%S').astimezone(timezone(timedelta(hours=9)))
    for comment in i['comments'] :
        comment['time'] = datetime.strptime(comment['time'], '%Y-%m-%dT%H:%M:%S%z')
    arr.append(i)
    if cnt % 1000 == 0 :
        lc_db['naver_date'].insert_many(arr)
        arr = []
        print(cnt)
if arr :
    lc_db['naver_date'].insert_many(arr)

In [None]:
%%time
# 서버에 데이터 넣기
from pymongo import MongoClient
from pymongo.errors import BulkWriteError
from datetime import datetime, timedelta, timezone

client = MongoClient(
    host='146.56.179.190', 
    port=4001,
    username='user',
    password='appleBanana',
    authSource='news')
db = client['news']

cnt = 0
arr = []
for i in db['naver'].find({'date': {
    '$gte': datetime.strptime('2019-01-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z'),
    '$lt': datetime.strptime('2020-01-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z')
    }}, batch_size=500) :
    cnt += 1
    # i['title'] 감성분석 코드

    for comment in i['comments'] :
        # comment['text'] 감성분석 코드
        pass

    arr.append(i)

    if cnt % 500 == 0 :
        print(cnt)
        try :
            db[컬렉션 이름].insert_many(arr, ordered=False)
        except :
            pass
        arr = []
if arr :
    try :
        db[컬렉션 이름].insert_many(arr,  ordered=False)
    except  :
        pass
        

In [2]:
from pymongo import MongoClient
lc_client = MongoClient(
    host='localhost', 
    port=27016,
    username='user',
    password='password',
    authSource='news',
)
lc_db = lc_client['news']

In [1]:
from pymongo import MongoClient
client = MongoClient(
    host='localhost', 
    port=27017
)
db = client['news']

In [None]:
from datetime import datetime, timedelta, timezone
arr = []
cnt = 0
for i in lc_db['naver_date'].find({'date': {
    '$gte': datetime.strptime('2022-01-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z'),
    '$lt': datetime.strptime('2022-02-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z')
    }}, batch_size=500) :
    cnt += 1
    arr.append(i)
    if cnt % 500 == 0 :
        print(cnt)
        db['sync'].insert_many(arr)
        arr = []
db['sync'].insert_many(arr)

In [40]:
from pymongo import MongoClient
from pymongo.errors import BulkWriteError
from datetime import datetime, timedelta, timezone

client = MongoClient(
    host='146.56.179.190', 
    port=4001,
    username='user',
    password='appleBanana',
    authSource='news')
db = client['news']

In [39]:
cnt = 0
for i in db['naver_21'].find({'date': {
    '$gte': datetime.strptime('2021-04-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z'),
    '$lt': datetime.strptime('2021-05-01T10:00:00+0900', '%Y-%m-%dT%H:%M:%S%z')
}}, batch_size=1000) :
 cnt += 1
print(cnt)

53321


In [None]:
from bson.objectid import ObjectId
for i in db['naver_21'].find_one({'_id': ObjectId('62b84ad7e09fd9fb4072307d')})['comments'] :
    #i['text'] 예상
    pass

In [28]:
len(db['naver_21'].find_one({'_id': ObjectId('62b84ad7e09fd9fb4072307d')})['comments'])

1022

In [17]:
from pymongo import MongoClient
lc_client = MongoClient(
    host='localhost', 
    port=27016,
    username='user',
    password='password',
    authSource='news',
)
lc_db = lc_client['news']

In [18]:
maxlen = 0
for i in lc_db['naver_date'].find(batch_size=1000) :
    if maxlen < len(i['comments']) :
        maxlen = len(i['comments'])
print(maxlen)

23616


In [41]:
from pymongo import MongoClient
rs_client = MongoClient(
    host='localhost', 
    port=27017
)
rs_db = rs_client['news']

In [14]:
cnt = 0
for i in lc_db['naver_date'].find({'date': {
    '$gte': datetime.strptime('2021-01-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z'),
    '$lt': datetime.strptime('2021-07-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z')
    }}, batch_size=500) :
    cnt+= 1
print(cnt)

332859


In [49]:
%%time

cnt = 0
arr = []
for i in db['naver_20'].find({'date': {
    '$gte': datetime.strptime('2021-05-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z'),
    '$lt': datetime.strptime('2021-06-01T00:00:00+0900', '%Y-%m-%dT%H:%M:%S%z')
    }}, batch_size=1000) :
    cnt+= 1

    # 코드
    good = 0
    bad = 0
    for comment in i['comments'] :
        comment['weight'] = 1
        if comment['sentiment_result'] == '긍정' : good += 1
        if comment['sentiment_result'] == '부정' : bad += 1
    i['comments_sentiment_good'] = good
    i['comments_sentiment_bad'] = bad
    i['comments_size'] = len(i['comments'])

    arr.append(i)
    if cnt % 1000 == 0 :
        print(cnt)
        try :
            rs_db['sync'].insert_many(arr)
        except :
            pass
        arr = []
print(cnt)
if arr :
    rs_db['sync'].insert_many(arr)

1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
12000
13000
14000
15000
16000
17000
18000
19000
20000
21000
22000
23000
24000
25000
26000
27000
28000
29000
30000
31000
32000
33000
34000
35000
36000
37000
38000
39000
40000
41000
42000
43000
44000
45000
46000
46640
CPU times: total: 29.2 s
Wall time: 3min 58s


<pymongo.results.InsertManyResult at 0x1e929c2b0d0>