In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import re
import json

from glob import glob
from pprint import pprint
from bs4 import BeautifulSoup
from datetime import datetime
from tqdm.autonotebook import tqdm

In [None]:
class FBPostsUtils(object):
    """ """

    def __init__(self):
        """생성자"""

        return

    @staticmethod
    def read_post_list(filename):
        """ """
        result = []
        with open(filename, 'r') as fp:
            buf = ''
            for line in fp.readlines():
                line = line.strip()

                buf += line
                if line == '}':
                    d = json.loads(buf)
                    buf = ''

                    result.append(d)

        return result

    @staticmethod
    def to_int(tag):
        """ """
        if tag is None:
            return 0

        text = tag.get_text()

        text = text.replace('명', '')
        text = text.replace('댓글', '')
        text = text.replace('개', '')
        text = text.strip()

        result = 0
        if text.isdigit():
            result = int(text)

        return result

    def parse_article(self, html):
        """ """
        html = html.replace('<br', '\n<br')
        html = html.replace('</p>', '</p>\n')

        soup = BeautifulSoup(html, 'lxml')
        ele = soup.find('article')

        if ele is None:
            return None

        result = {}

        # 제목 추출
        title = ele.find('div', {'data-sigil': 'm-feed-voice-subtitle'})

        if title is not None and title.has_attr('a'):
            result['url'] = 'https://m.facebook.com' + title.a['href']
        
        # 본문 추출
        body = ele.find('div', {'data-ft': '{"tn":"*s"}'})
        result['body_html'] = body.prettify()

        # 더 보기 버튼 삭제
        more_btn = body.find('span', {'class': 'text_exposed_hide'})
        if more_btn is not None:
            more_btn.extract()

        body_text = body.get_text()
        body_text = re.sub(r'\t+', r'\t', body_text)
        body_text = re.sub(r'\n+', r'\n', body_text)

        result['body_text'] = body_text

        # footer 추출
        footer = ele.find('footer')
        if footer is not None:
            likes = footer.find('div', {'class': '_1g06'})
            result['likes'] = self.to_int(likes)

            reply_info = footer.find('span', {'data-sigil': 'comments-token'})
            result['reply_count'] = self.to_int(reply_info)

        # 메타 정보 추출
        meta = dict(zip(ele.attrs.keys(), ele.attrs.values()))

        for k in meta:
            if meta[k][0] != '{':
                continue

            meta[k] = json.loads(meta[k])

        if 'data-ft' in meta:
            data_ft = meta['data-ft']
            
            if 'page_id' in data_ft:
                result['page_id'] = data_ft['page_id']

            if 'page_insights' in data_ft: 
                page_insights = list(data_ft['page_insights'].values())[0]
                if 'attached_story' in page_insights:
                    page_insights = page_insights['attached_story']
                
                if 'post_context' in page_insights:
                    result['group_id'] = page_insights['post_context']['story_fbid'][0]

                    publish_time = page_insights['post_context']['publish_time']
                    result['date'] = datetime.fromtimestamp(publish_time)

        if 'page_id' not in result and 'url' in result:
            q, url_info = self.parse_url(url=result['url'])

            if 'id' in q:
                result['page_id'] = q['id']
                
            if 'story_fbid' in q:
                result['group_id'] = q['story_fbid']
            else:
                gid = url_info.path.split('/')[-1]
                if gid.isdigit():
                    result['group_id'] = gid

        if 'group_id' not in result and 'url' in result:
            q, url_info = self.parse_url(url=result['url'])

            result['group_id'] = url_info.path.split('/')[-1]

        if 'page_id' not in result or 'group_id' not in result:
            raise ValueError('page_id 혹은 group_id 없음')
        
        result['_id'] = '{}-{}'.format(result['group_id'], result['page_id'])

        return result

    @staticmethod
    def parse_url(url):
        """url 에서 쿼리문을 반환한다."""
        from urllib.parse import urlparse, parse_qs

        url_info = urlparse(url)
        query = parse_qs(url_info.query)
        for key in query:
            query[key] = query[key][0]

        return query, url_info


utils = FBPostsUtils()

In [None]:
import shutil
from module.elasticsearch_utils import ElasticSearchUtils

host = 'https://crawler:crawler2019@corpus.ncsoft.com:9200'
index = 'crawler-facebook'

elastic = ElasticSearchUtils(host=host, index=index)

page_list = sorted(glob('data/facebook/*'))

for d in tqdm(page_list, dynamic_ncols=True):
    file_list = glob(d + '/*.json')
    
    error = False
    
    group_name = d.split('/')[-1]
    for filename in tqdm(file_list, desc=group_name, dynamic_ncols=True):
        post_list = utils.read_post_list(filename=filename)
        
        for p in post_list:
            try:
                doc = utils.parse_article(p['html'])
            except Exception as e:
                error = True
                print(e)
                continue
                
            doc['group_name'] = group_name
            
            elastic.save_document(document=doc)
        elastic.flush()

    if error is False:
        shutil.move(d, 'data/pass/' + group_name)

In [1]:
from module.elasticsearch_utils import ElasticSearchUtils

host = 'https://crawler:crawler2019@corpus.ncsoft.com:9200'
index = 'crawler-facebook'

elastic = ElasticSearchUtils(host=host, index=index)

In [2]:
result = []

query = {
    "_source": ["body_text", "date", "group_name"],
    "query": {
        "bool": {
            "must": {
                "match": {
                    "group_name": "대나무숲"
                }
            }
        }
    }
}

query = {}
result = elastic.dump(query=query)

In [31]:
import pandas as pd

df = pd.DataFrame(result)
df.head()

Unnamed: 0,body_html,body_text,likes,reply_count,page_id,group_id,date,group_name,document_id
0,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1550번째이야기\n #연애\n 서로의 온기를 따뜻하게 느끼기에 좋은 계절이 다시...,1,0,1696520573916607,2040591246176203,2017-11-02T09:57:21,덕성여대 대나무숲,2040591246176203-1696520573916607
1,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1546번째이야기\n #학교\n 아까 3시경 정문에서 검은차량안에 있는 60대?정...,18,18,1696520573916607,2036429613259033,2017-10-24T17:16:41,덕성여대 대나무숲,2036429613259033-1696520573916607
2,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1544번째이야기\n #진로\n 임용고시 보려고 하는데 참 막막하네요. 티오는 계...,2,1,1696520573916607,2033054333596561,2017-10-17T22:27:31,덕성여대 대나무숲,2033054333596561-1696520573916607
3,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1543번째이야기\n #학교\n 대숲 안녕하세요~ 전과를 고민하는 1학년 입니다....,0,1,1696520573916607,2033054173596577,2017-10-17T22:26:47,덕성여대 대나무숲,2033054173596577-1696520573916607
4,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1542번째이야기\n #연애\n 죄를 지었다면 대가를 치러야지요. 하지만 나는 대...,1,4,1696520573916607,2033053173596677,2017-10-17T22:25:14,덕성여대 대나무숲,2033053173596677-1696520573916607


In [32]:
import json

page_info = {}
with open('page.list', 'r') as fp:
    for line in fp.readlines():
        line = line.strip()
        
        if line == '' or line[0] == '#':
            continue
        
        doc = json.loads(line)
        page_info[doc['name']] = doc
        
len(df)

74337

In [33]:
for i, row in df.iterrows():
    df.at[i, 'category'] = page_info[row['group_name']]['category']
    
df.head()

Unnamed: 0,body_html,body_text,likes,reply_count,page_id,group_id,date,group_name,document_id,category
0,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1550번째이야기\n #연애\n 서로의 온기를 따뜻하게 느끼기에 좋은 계절이 다시...,1,0,1696520573916607,2040591246176203,2017-11-02T09:57:21,덕성여대 대나무숲,2040591246176203-1696520573916607,대나무숲
1,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1546번째이야기\n #학교\n 아까 3시경 정문에서 검은차량안에 있는 60대?정...,18,18,1696520573916607,2036429613259033,2017-10-24T17:16:41,덕성여대 대나무숲,2036429613259033-1696520573916607,대나무숲
2,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1544번째이야기\n #진로\n 임용고시 보려고 하는데 참 막막하네요. 티오는 계...,2,1,1696520573916607,2033054333596561,2017-10-17T22:27:31,덕성여대 대나무숲,2033054333596561-1696520573916607,대나무숲
3,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1543번째이야기\n #학교\n 대숲 안녕하세요~ 전과를 고민하는 1학년 입니다....,0,1,1696520573916607,2033054173596577,2017-10-17T22:26:47,덕성여대 대나무숲,2033054173596577-1696520573916607,대나무숲
4,"<div class=""_5rgt _5nk5 _5msi"" data-ft='{""tn"":...",#1542번째이야기\n #연애\n 죄를 지었다면 대가를 치러야지요. 하지만 나는 대...,1,4,1696520573916607,2033053173596677,2017-10-17T22:25:14,덕성여대 대나무숲,2033053173596677-1696520573916607,대나무숲


In [42]:
pd.set_option('display.max_rows', 300)
pd.set_option('display.max_colwidth', 1000)

df.groupby(by='category').size().to_frame()

Unnamed: 0_level_0,0
category,Unnamed: 1_level_1
구단,6468
대나무숲,30533
언론,36203
커뮤니티,1133


In [43]:
import re

df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째[_ ]소리', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째[_ ]?고백', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째[_ ]?Shouting', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째이야기', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째사자후', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째메이리', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째메아리', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째_당나귀귀', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#\d+번째', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'#디마의_\d+번째_나무', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'20\d{2}. \d{1,2}. \d{1,2}.? (오전|오후) \d{1,2}:\d{1,2}:\d{1,2}', '', x).strip())
df['body_text'] = df['body_text'].apply(lambda x: re.sub(r'http[^ ]+?( |$)', '', x).strip())

df[ ['body_text', 'likes', 'reply_count', 'category'] ]

Unnamed: 0,body_text,likes,reply_count,category
0,"#연애\n 서로의 온기를 따뜻하게 느끼기에 좋은 계절이 다시왔어. 너한테 항상 그랬었지. 사계절을 같이 지내봐야 사람을 알 수 있다고.. \n 우리가 사계절을 같이 하기 직전에 같이 지내지 못한 겨울만 남기고 다시 사계절이 한번 더 지났어. 너 그리고 나 더욱 더 성숙해지고 나이도 한살 더 먹었고 너랑 지나던 그 길은 그대로고, 너랑 그때 그 시절 같이 들었던, 유난히 내가 좋아했던 인디노래는 내 리스트에 그대로 남아있더라. \n 너랑 헤어지면 나는 연애 못할거 같다고 했었어. 응 진짜 일년째 그 누구도 못만나겠더라. 차라리 우리가 서로 원망하고 울고불고 싸웠었으면 좋겠어. 원망이 잊혀짐으로 연결될 수 있게끔.. \n 너무 바쁘게 지내고 있어. 너도 내가 바쁘던 그때 그 삼학년이 되었겠지. \n 그래서 그런지 나를 조금이나마 이해할 수 있지 않을까 싶어.\n 뭐, 그때 잘하지 이제와서 이해를 해달라고 하냐고 생각할 수도 있어. 그거를 바라고 이 글을 쓰는건 아니야.\n 우리가 봄에 만나 꽃이 지고 하얀 눈이 내리기 직전, 그 때 그 계절. 그리고 10월. 꿈이 없던 나에게 요즘 취업이라는 목표가 생겼어. 가고 싶은 회사가 너희 집 근처더라. 아니, 너희 집 근처라 가고 싶어졌어. \n 하늘이 도와줬는 최종까지 왔네. 붙으면 가장 먼저 무엇을 할까 고민을 했어. 내가 할 수 있는건 그냥 너가 집에 잘들어갈까 뒤에서 지켜보는 비겁하고 나약한 행동밖에 할게 없더라. 근데 있잖아 \n 그렇게라도 한번 보고 싶다. 나는 매일 그때 그 추억속에 살아\n 머리 묶은 모습이 가장 어울리던 사람아. 반짝반짝 하던 것을 좋아했던 사람아. \n 그 반짝임이 너무 소중해 혹여나 다칠까 조심스러웠던 나를 기억 해주겠니.",1,0,대나무숲
1,#학교\n 아까 3시경 정문에서 검은차량안에 있는 60대?정도로 보이는 남성이 변태행위(자위) 하는것 같았어요 ㅠ 바쁘고 정신없어서 신고는 따로 못했어요ㅠ 학생분들 조심하시라고 전하고싶고 혹시 또 보시게된다면 신고부탁 드려요ㅠ,18,18,대나무숲
2,"#진로\n 임용고시 보려고 하는데 참 막막하네요. 티오는 계속 줄고 교직 졸업생은 늘어나고. 3수가 보통라는데, 부모님께서는 7급이나 9급에 도전하길 바라세요. 임용 그거, 완전 배수의 진 아니니? 이러시면서요. 사실 맞는 말이라서 반박하기도 어려워요. 학부 때 성적 싸움과는 비교할 수 없는 성적 싸움이고, 또 고된 수험생활에 가족 모두가 피 마르니 까요. \n 게다가, 사촌 언니가 K대 출신인데 학벌 인맥으로 사립 학교에 들어가는 것을 보고 더 속상해졌어요. 제가 임용 준비한다는 걸 알면서도 저희 가족 앞에서 알궂게 굴더라고요. ㅠㅠ\n 임용 고시 경험자 분들의 의견 듣고싶어요. 대숲을 그 분들이 보실 지 안 보실 지는 모르겠으나 일단 외쳐봅니다!",2,1,대나무숲
3,"#학교\n 대숲 안녕하세요~ 전과를 고민하는 1학년 입니다. 전과 경험이 있으시거나 저와 비슷한 경험을 가진 분들의 이야기를 듣고 싶습니다.\n 저는 어문 계열에 소속되어 있고 학점은 4점대 입니다. 1학기 내내 공부하면서 전공수업 과제가 받지 않는다는 느낌을 강하게 받았고 울면서 공부했어요. \n 그런데 성적을 받으니까 올 에이플이더라고요. 뿌듯하면서도 그래도 다시는 관련 과목을 듣고 싶지 않다는 생각이 마구마구 들었습니다. 물론 2학기 때도 듣고있지만...하 그래서 전과를 생각하게 되었는데, 일단은 어문 말고 사회 과학 계열 쪽으로 생각하고 있습니다.\n 제가 생각하고 있는 과는 국통(TO가 나야겠지만), 정외인데요, 그쪽 과 수업은 어떤지 여러분의 의견을 듣고 싶어요! 국 통이나 정외과 아니더라도 다른 사회과학계열 학부 수업이 어떤지 궁금합니다.",0,1,대나무숲
4,"#연애\n 죄를 지었다면 대가를 치러야지요. 하지만 나는 대가를 치르지 않았어요. 나를 대신해서 다른 사람이 아팠어요. 그 사람은 너무나 아름다운 마음을 가진 사람이였는데 제가 흠집을 냈어요.그녀는 끝까지 흠을 자신에게서 찾네요. 자신이 무었을 잘못했는지 물어요. 잘못된건 나에요. 미안해요. 그 당시 상처가 될까봐 말을 못했지만 고마웠어요. 당신을 위해 바뀌는 나였고, 당신을 위해 노력하게 된 나였어요. 하지만 멍청했던 나는 그것 또한 사랑이란 것을 모르고 다른 마음에 흔들렸어요. 자신의 충동조차 조절하지 못하는 애송이였습니다. 그런 애송이의 마음조차 끌어안으려 했던 당신을 저는 감히 다시 부르지 못하겠습니다. \n 당신이 이 글을 보지 못할 것을 압니다. 하지만 이렇게라도 내가 망가져가는 것을 당신이 알 수 있다면, 그것으로 속죄가 조금이라도 된다면 하는 마음에서 여기에 글을 올려봅니다. 이 글로 인해 바뀌는 것은 없겠지만요. 만약 이 글을 그대가 본다면 꼭 이 말을 전하고 싶습니다. 당신 잘못이 아니에요. \n 그리고 안된다는 것을 알고도 죽을 것만 같아서 뱉습니다. 용서해 줄 수 없을까요?",1,4,대나무숲
5,#일상\n 안녕하세요! 저는 덕성여대에 착한 동생을 두고있는 타대생 언니입니다! 올해 졸업을 앞두고있는 동생에게 조금이나마 용기를 주고싶어서 글을 남깁니다♡\n 우리 이쁜 동생아 언니가 미술한다구 너도 숨겨왔던 꿈을 조금이나마 펼치고 싶었을텐데 정작 과의 특성이나 교수님이나 안맞아하는거 같아서 너무 걱정됐었어. \n 아기자기하니 그림그리기 좋아하구 너의 상상의 나래를 펼치는거보면 솔직히 언니가 하는 미술과는 달라서 언니는 마냥 너가 엄청나 보였는데말이야. 언니랑 달리 약간은 소심하구 어쩌면 사람관계에 있어서도 어려움이 많았던 너에게 그림이란 재능은 언니보다 너가 더 많은거 같았어! 언니는 상상이 어려워져버린 입시미술의 폐해로 이제 학교서 설계만 하는데..\n 졸업을 앞두고 많은 고민과 실은 아직도 보이지 않는 길에 대한 걱정은 당연한거야. 언니도 휴학하고 일을 하지만 이 전공이 내 길인지 여전히 고민고민하고 있거든. 언니도 아직 뭐가 좋은지 모르겠어 ㅎㅎ 모두가 그럴꺼야! 언니보다 먼저 졸업한다구 부담갖지말구 차근차근 좋아하는거 부터 관심있는 것 부터 알아보면 좋을거 같아.\n 다들 많이 하는 말이지만 제일 어려운 일이지. 하지만 그만큼 중요하니까 다 같은 말을 하는게 아닐까? 언니는 언제나 너를 응원해! 얼마든지 언니는 너를 도와줄꺼고 언제나 너의 최고의 편이 되어줄꺼야. \n 돈은 언니가 벌어온다. 하고싶은거 다해라!! 연년생이여두 꼬박꼬박 언니라구 불러주면서 언니바라기여서 고마워! 언니가 사랑한다 말하기 맨날 낯간지럽기도하고 그러지만 이참에 사랑한다고 말해주겠다. 감사하도록 ㅎ 서툴게 거의 의식의 흐름으로 쓴거 같네...맞춤법도 엉망일거 같아...나인걸 알아챈다면 그냥 대충 읽고 넘기셈 ㅎ\n 이 세상 모든 여동생들 화이팅!♡,18,1,대나무숲
6,#질문\n 혹시 애플 AOC라는 프로그램인 플 온 캠퍼스를 통해서 애플 제품을 구입하면 공부하는학생들은 좀더 저렴한 가격에 구입이 가능하다는걸 알고계신가요ㅠㅠ? 몇몇 학교가 제휴가 되어있다고 하던데 보니까 웬만한곳은 다 되어있고 덕대도 되어있어요!근데 다른학교는 가서 보면 배너가 있는데..우리학교는 학사행정인트라넷에서 보면된다는데...도무지.. apple on campus라는 배너가 보이질 않아요..........휴일이 끝나면 문의를 할것이긴하지만 ..............넘 궁금해요 ㅠㅠㅠ어디간걸까요 어디서 볼수있을까요 알고있는 학우들 있나요......................................... 흑 \n 모두 남은연휴 즐겁게...보내요 ㅎㅎㅎㅎ,6,3,대나무숲
7,#연애\n 마지막 말에 대답은 해주지 그랬어 좋게 헤어졌고 좋게 마무리 되어가고있었는데,1,3,대나무숲
8,#학교\n 안녕하세오 저는 지원이에오 우리 학교엔 지원이라는 이름을 가진 사람이 참 많은거 같아오 지원이라고 불러서 뒤돌아봤는데 아닌경우도 많았어오 지원이들 화이팅이에오 덕성인들 모두 시험 잘보세오 ❤,31,43,대나무숲
9,#연애\n 가끔 인스타를 켜서 네 소식을 확인했어\n 요즘은 하루에 열 번은 찾아보는 것 같아\n 우리는 서로 상황이 너무 달랐다고 생각해\n 나는 포기하고 싶지 않았던 것들이 많았어\n 그런 내 입장을 네가 이해해주길 바랐어\n 그런데 이제 다 내려놓을 수 있을 것 같아\n 시간이 지날수록 네 빈자리가 너무 크다\n 요즘에는 매일매일이 공허하고 무기력해\n 가능하다면 너랑 많은 얘기를 하고 싶은데\n 그러기엔 너무 늦었고 나는 나쁜 놈이겠지\n 미안해,9,1,대나무숲


In [None]:
df.to_excel('facebook.대나무숲.xlsx')

In [35]:
df.to_json(
    'facebook.대나무숲.json.bz2',
    force_ascii=False,
    compression='bz2',
    orient='records',
    lines=True,
    date_format='iso',
)

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30533 entries, 0 to 30532
Data columns (total 3 columns):
date          30533 non-null object
body_text     30533 non-null object
group_name    30533 non-null object
dtypes: object(3)
memory usage: 715.7+ KB
