In [None]:
import re
import json

from glob import glob
from pprint import pprint
from bs4 import BeautifulSoup
from datetime import datetime
from tqdm.autonotebook import tqdm

In [None]:
class FBPostsUtils(object):
    """ """

    def __init__(self):
        """생성자"""

        return

    @staticmethod
    def read_post_list(filename):
        """ """
        result = []
        with open(filename, 'r') as fp:
            buf = ''
            for line in fp.readlines():
                line = line.strip()

                buf += line
                if line == '}':
                    d = json.loads(buf)
                    buf = ''

                    result.append(d)

        return result

    @staticmethod
    def to_int(tag):
        """ """
        if tag is None:
            return 0

        text = tag.get_text()

        text = text.replace('명', '')
        text = text.replace('댓글', '')
        text = text.replace('개', '')
        text = text.strip()

        result = 0
        if text.isdigit():
            result = int(text)

        return result

    def parse_article(self, html):
        """ """
        html = html.replace('<br', '\n<br')
        html = html.replace('</p>', '</p>\n')

        soup = BeautifulSoup(html, 'lxml')
        ele = soup.find('article')

        if ele is None:
            return None

        result = {}

        # 제목 추출
        title = ele.find('div', {'data-sigil': 'm-feed-voice-subtitle'})

        if title is not None and title.has_attr('a'):
            result['url'] = 'https://m.facebook.com' + title.a['href']
        
        # 본문 추출
        body = ele.find('div', {'data-ft': '{"tn":"*s"}'})
        result['body_html'] = body.prettify()

        # 더 보기 버튼 삭제
        more_btn = body.find('span', {'class': 'text_exposed_hide'})
        if more_btn is not None:
            more_btn.extract()

        body_text = body.get_text()
        body_text = re.sub(r'\t+', r'\t', body_text)
        body_text = re.sub(r'\n+', r'\n', body_text)

        result['body_text'] = body_text

        # footer 추출
        footer = ele.find('footer')
        if footer is not None:
            likes = footer.find('div', {'class': '_1g06'})
            result['likes'] = self.to_int(likes)

            reply_info = footer.find('span', {'data-sigil': 'comments-token'})
            result['reply_count'] = self.to_int(reply_info)

        # 메타 정보 추출
        meta = dict(zip(ele.attrs.keys(), ele.attrs.values()))

        for k in meta:
            if meta[k][0] != '{':
                continue

            meta[k] = json.loads(meta[k])

        if 'data-ft' in meta:
            data_ft = meta['data-ft']
            
            if 'page_id' in data_ft:
                result['page_id'] = data_ft['page_id']

            if 'page_insights' in data_ft: 
                page_insights = list(data_ft['page_insights'].values())[0]
                if 'attached_story' in page_insights:
                    page_insights = page_insights['attached_story']
                
                if 'post_context' in page_insights:
                    result['group_id'] = page_insights['post_context']['story_fbid'][0]

                    publish_time = page_insights['post_context']['publish_time']
                    result['date'] = datetime.fromtimestamp(publish_time)

        if 'page_id' not in result and 'url' in result:
            q, url_info = self.parse_url(url=result['url'])

            if 'id' in q:
                result['page_id'] = q['id']
                
            if 'story_fbid' in q:
                result['group_id'] = q['story_fbid']
            else:
                gid = url_info.path.split('/')[-1]
                if gid.isdigit():
                    result['group_id'] = gid

        if 'group_id' not in result and 'url' in result:
            q, url_info = self.parse_url(url=result['url'])

            result['group_id'] = url_info.path.split('/')[-1]

        if 'page_id' not in result or 'group_id' not in result:
            raise ValueError('page_id 혹은 group_id 없음')
        
        result['_id'] = '{}-{}'.format(result['group_id'], result['page_id'])

        return result

    @staticmethod
    def parse_url(url):
        """url 에서 쿼리문을 반환한다."""
        from urllib.parse import urlparse, parse_qs

        url_info = urlparse(url)
        query = parse_qs(url_info.query)
        for key in query:
            query[key] = query[key][0]

        return query, url_info


utils = FBPostsUtils()

In [None]:
import shutil
from module.elasticsearch_utils import ElasticSearchUtils

host = 'https://crawler:crawler2019@corpus.ncsoft.com:9200'
index = 'crawler-facebook'

elastic = ElasticSearchUtils(host=host, index=index)

page_list = sorted(glob('data/facebook/*'))

for d in tqdm(page_list, dynamic_ncols=True):
    file_list = glob(d + '/*.json')
    
    error = False
    
    group_name = d.split('/')[-1]
    for filename in tqdm(file_list, desc=group_name, dynamic_ncols=True):
        post_list = utils.read_post_list(filename=filename)
        
        for p in post_list:
            try:
                doc = utils.parse_article(p['html'])
            except Exception as e:
                error = True
                print(e)
                continue
                
            doc['group_name'] = group_name
            
            elastic.save_document(document=doc)
        elastic.flush()

    if error is False:
        shutil.move(d, 'data/pass/' + group_name)

In [20]:
from module.elasticsearch_utils import ElasticSearchUtils

host = 'https://crawler:crawler2019@corpus.ncsoft.com:9200'
index = 'crawler-facebook'

elastic = ElasticSearchUtils(host=host, index=index)

  "When using `ssl_context`, all other SSL related kwargs are ignored"


In [21]:
result = []

query = {
    "_source": ["body_text", "date", "group_name"],
    "query": {
        "bool": {
            "must": {
                "match": {
                    "group_name": "대나무숲"
                }
            }
        }
    }
}

result = elastic.dump(query=query)

In [29]:
import pandas as pd

df = pd.DataFrame(result)
df.head()

Unnamed: 0,date,body_text,group_name
0,2019-02-17T23:28:08,디대숲 #2514번째_소리\n <학교 생활>\n 버클리로 FGLP 다녀오신 분들!!...,DGIST 대나무숲
1,2019-02-14T23:40:08,디대숲 #2411번째_소리\n <학교 생활>\n 선대심화 많이 어려워요????\n ...,DGIST 대나무숲
2,2019-02-07T12:45:43,디대숲 #2510번째_소리\n <잡념>\n 젤리 쫄깃쫄깃\n 버블티 쫄깃쫄깃\n 구...,DGIST 대나무숲
3,2019-02-04T01:23:38,디대숲 #2509번째_소리\n <일상>\n 안녕 대숲! 복학준비하면서 학교에 들고 ...,DGIST 대나무숲
4,2019-02-03T00:13:54,디대숲 #2507번째_소리\n <학교 생활>\n 랩미팅까지 조져버리고 기세를 몰아 ...,DGIST 대나무숲


In [30]:
import re

df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째[_ ]소리', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째[_ ]?고백', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째[_ ]?Shouting', '', x).strip())

df

Unnamed: 0,date,body_text,group_name
0,2019-02-17T23:28:08,디대숲 \n <학교 생활>\n 버클리로 FGLP 다녀오신 분들!! 과목 추천 좀 부...,DGIST 대나무숲
1,2019-02-14T23:40:08,디대숲 \n <학교 생활>\n 선대심화 많이 어려워요????\n 2019. 2. 1...,DGIST 대나무숲
2,2019-02-07T12:45:43,디대숲 \n <잡념>\n 젤리 쫄깃쫄깃\n 버블티 쫄깃쫄깃\n 구워 먹은 가래떡도 ...,DGIST 대나무숲
3,2019-02-04T01:23:38,디대숲 \n <일상>\n 안녕 대숲! 복학준비하면서 학교에 들고 갈 옷을 정리해보다...,DGIST 대나무숲
4,2019-02-03T00:13:54,디대숲 \n <학교 생활>\n 랩미팅까지 조져버리고 기세를 몰아 달리는 3편\n 5...,DGIST 대나무숲
5,2019-02-03T00:13:06,디대숲 \n <학교 생활>\n 요번에 시간표 짜면서 궁금한게 생겨서 대나무숲에 물어...,DGIST 대나무숲
6,2019-01-30T23:47:10,디대숲 \n <잡념>\n (신입생이라 학생포탈을 못들어가요ㅠㅠㅠ)\n 시려\n 몸도...,DGIST 대나무숲
7,2019-01-24T00:45:48,디대숲 \n <학교 생활>\n 연구가 오지게 막혀서 써보는 꼰대의 진로 이야기\n ...,DGIST 대나무숲
8,2019-01-23T01:09:53,디대숲 \n <잡념>\n 요즘 내가 잘하는 모든 것에 대해 부정 받는 느낌이 든다....,DGIST 대나무숲
9,2019-01-20T05:38:24,디대숲 \n <잡념>\n '시베리아의 이발사'에서 놀라는 주인공의 눈을 본 순간 숨...,DGIST 대나무숲


In [31]:
df.to_excel('facebook.대나무숲.xlsx')

%20파리타임%20음%20아는%20사람%20어읎네
%20지루헤이%20앉아있기만%20해
%20바테흔덜%20(바텐덜)%20뭘%20마셔야%20해
%20그래%20그%20걸흘%20로%20쪼우%20(커즈%20이쓰뤠)
%20음마흐%20(음마)%20빠아%20꼈네%20엄템뽀우
%20그렛또오%20(그랫도)%20나흔%20여쩌흔네%20으다운뗌뽀
%20앟%20술%20응%20앙%20맛시여%20흠
%20그냥%20색깔이%20맘에%20들%20어%20(맘에%20들어)%20콜랐써흐
%20그때%20널흐%20봤어흐%20빨간%20스컬%20빨간%20립스틱
%20대싸%20포인트%20(대싸%20포인트)
%20넌%20쩌흐%20기%20스허%20서%20떠들고%20있는
%20멍청한%20여자들과는%20달라%20하핳
%20아이%20씨%20뚜루%20유
%20넌%20보잏%20뜻%20아보이지%20안낫%20예
%20안타깜맛%20예%20쳐다만%20봐%20데헷
%20아%2010두유%2010두유%20앜%2010두유%2010두%20유!
%20https://goo.gl/forms/UjE8WKd8sOFBCdQm1' with link or location/anchor > 255 characters since it exceeds Excel's limit for URLS
  force_unicode(url))
%20해당링크는%20올해에%20만들었던%20상산고%20커뮤니티%20카페인데요.%20만들기만%20하고%20특별히%20관리가%20안되고%20있는%20상태입니다.%20혹시%20이%20카페를%20활성화시켰으면%20좋겠는지%20아니면%20네이버%20카페까지는%20굳이%20필요하지%20않을거%20같은지%20투표를%20좀%20해줬으면%20합니다.
%20현재%20만들어%20놓은%20게시판들%20뿐만%20아니라%20대숲에는%20올려주지%20않는%20분실물%20관련%20게시판이나%20각종%20홍보%20게시판,%20최근%20대숲에%20올라왔던%20자취방%20구하는%20꿀팁과%20같은%20정보를%20나눌%20수%20있는%20게시판%20등을%20추가할%2

In [35]:
df.to_json(
    'facebook.대나무숲.json.bz2',
    force_ascii=False,
    compression='bz2',
    orient='records',
    lines=True,
    date_format='iso',
)

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30533 entries, 0 to 30532
Data columns (total 3 columns):
date          30533 non-null object
body_text     30533 non-null object
group_name    30533 non-null object
dtypes: object(3)
memory usage: 715.7+ KB


In [34]:
df.groupby(by='group_name').size().to_frame()

Unnamed: 0_level_0,0
group_name,Unnamed: 1_level_1
DGIST 대나무숲,300
GGHS 대나무숲,301
GIST 대나무숲,300
IVF 대나무숲,299
UST 대나무숲,99
가정고 대나무숲,300
가천대학교 대나무숲,301
가톨릭대학교 대나무숲,299
간호학과-간호사 대나무숲,300
강남대학교 대나무숲,300
