# Python網路期末專題

## 一、專題摘要
### 1. 期末專題主題 :  PTT八卦板文章
https://www.ptt.cc/bbs/Gossiping/index.html

### 2. 期末專題基本目標 : 
- 從PTT政黑板爬取文章，並透過jieba將文章拆解
- 可以簡單的計算同樣文字出現的頻率或是透過TFIDF的統計方式計算
- 過濾stop words，對經常出現的關鍵字做排名
- 將結果以文字雲方式呈現

### 3. 期末專題進階目標 : 
- 從爬取的內容分析來自相同IP不同帳號的文章，列出有網軍嫌疑的帳號
- 爬取帳號發過的所有文章，分析詞類分布
- 分析帳號在特定期間的活動情形

## 二、實作方法介紹(介紹使用的程式碼、模組,並附上實作過程與結果的識國,需圆文並茂)
1. 使用的程式碼介紹
2. 使用的模組介紹

## 三、成果展示(介紹成果的特點為何,並撰寫心得)
## 四、結論(總結本次專題的問題與結果)
## 五、期末專題作者資訊(請附上作者資訊)
1. 個人Github連結
2. 個人在百日馬拉松顯示名稱

## 二、實作方法介紹(介紹使用的程式碼、模組,並附上實作過程與結果的識國,需圆文並茂)


### (一)爬取資料
使用requests和BeautifulSoup對PTT政黑版進行爬蟲，爬取前50頁所有文章(約1000篇)。
我使用的方法是先將所有文章的網址爬出來後歸納至list，再由list內的網址去爬取其內文。

In [13]:
import requests
import re
import json
from urllib.parse import urljoin
from bs4 import BeautifulSoup
import pandas as pd
import _thread
import jieba
import jieba.analyse
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt

PTT_URL = 'https://www.ptt.cc/bbs/HatePolitics/index.html'

class CrawlPTT:
    def __init__(self, PTT_URL):
        self.PTT_URL = PTT_URL
        self.data = []       # 存全部發文的資訊(發文者、內容、ip)
        self.twit = []       # 存全部推文的資訊(發文者、內容、ip)
        self.allArticle = '' # 存全部發文的內容
    
    def crawl_article(self, url): # 從D025作業示範的程式碼稍作修改而來
        response = requests.get(url, cookies={'over18': '1'})        
        ## 假設網頁回應不是 200 OK 的話, 我們視為傳送請求失敗
        if response.status_code != 200:
            print('Error - {} is not available to access'.format(url))
            return        
        ## 將網頁回應的 HTML 傳入 BeautifulSoup 解析器, 方便我們根據標籤 (tag) 資訊去過濾尋找
        soup = BeautifulSoup(response.text, "lxml")        
        ## 取得文章內容主體
        main_content = soup.find(id='main-content')        
        ## 假如文章有屬性資料 (meta), 我們在從屬性的區塊中爬出作者 (author), 文章標題 (title), 發文日期 (date)
        metas = main_content.select('div.article-metaline')
        author = ''
        title = ''
        if metas:
            if metas[0].select('span.article-meta-value')[0]:
                author = metas[0].select('span.article-meta-value')[0].string
            if metas[1].select('span.article-meta-value')[0]:
                title = metas[1].select('span.article-meta-value')[0].string
            for m in metas:
                m.extract()
            for m in main_content.select('div.article-metaline-right'):
                m.extract()        
        ## 取得留言區主體
        pushes = main_content.find_all('div', class_='push')
        for p in pushes:
            p.extract()        
        ## 假如文章中有包含「※ 發信站: 批踢踢實業坊(ptt.cc), 來自: xxx.xxx.xxx.xxx」的樣式
        ## 透過 regular expression 取得 IP
        ## 因為字串中包含特殊符號跟中文, 這邊建議使用 unicode 的型式 u'...'
        try:
            ip = main_content.find(text=re.compile(u'※ 發信站:'))
            ip = re.search('[0-9]*\.[0-9]*\.[0-9]*\.[0-9]*', ip).group()
        except Exception as e:
            ip = ''        
        ## 移除文章主體中 '※ 發信站:', '◆ From:', 空行及多餘空白 (※ = u'\u203b', ◆ = u'\u25c6')
        ## 保留英數字, 中文及中文標點, 網址, 部分特殊符號        
        filtered = []
        for v in main_content.stripped_strings:
            ## 假如字串開頭不是特殊符號或是以 '--' 開頭的, 我們都保留其文字
            if v[0] not in [u'※', u'◆'] and v[:2] not in [u'--']:
                filtered.append(v)    
        ## 定義一些特殊符號與全形符號的過濾器
        expr = re.compile(u'[^一-龥。；，：“”（）、？《》\s\w:/-_.?~%()]')
        for i in range(len(filtered)):
            filtered[i] = re.sub(expr, '', filtered[i])        
        ## 移除空白字串, 組合過濾後的文字即為文章本文 (content)
        filtered = [i for i in filtered if i]
        content = ' '.join(filtered)
        content = content.replace('\n', '')
        urlList = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\), ]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', content) 
        for url in urlList:
            content = content.replace(url, "")        
        messages = []
        for push in pushes:
            ## 假如留言段落沒有 push-tag 就跳過
            if not push.find('span', 'push-tag'):
                continue            
            ## 過濾額外空白與換行符號
            ## push_tag 判斷是推文, 箭頭還是噓文
            ## push_userid 判斷留言的人是誰
            ## push_content 判斷留言內容
            ## push_ipdatetime 判斷留言日期時間
            push_tag = push.find('span', 'push-tag').string.strip(' \t\n\r')
            if push_tag == u'推':
                push_tag = 'p'
            elif push_tag == u'噓':
                push_tag = 'b'
            else:
                push_tag = 'n'
            push_userid = push.find('span', 'push-userid').string.strip(' \t\n\r')
            if not push_userid ==[]:
                push_content = push.find('span', 'push-content').strings
                push_content = ' '.join(push_content)[1:].strip(' \t\n\r')
                push_ipdatetime = push.find('span', 'push-ipdatetime').string.strip(' \t\n\r').split(' ')[0]

                ## 整理打包留言的資訊
                self.twit.append({
                    'push_tag': push_tag,
                    'push_userid': push_userid,
                    'push_content': push_content,
                    'push_ipdatetime': push_ipdatetime})
        
        ## 整理文章資訊
        data = {
            'article_author': author.split(' ')[0],
            'article_title': title,
            'article_content': content,
            'ip': ip,
        }
        self.data.append(data)
    
    def Crawl_commend(self, CrawlAmount=50, nextPage=None): # 從D025作業示範的程式碼稍作修改而來
        if nextPage == None:
            nextPage = self.PTT_URL
        else:
            nextPage = 'https://www.ptt.cc' + nextPage
        
        # 對文章列表送出請求並取得列表主體
        resp = requests.get(nextPage, cookies={'over18': '1'})
        soup = BeautifulSoup(resp.text, "lxml")
        nextPage = soup.find('div', 'btn-group btn-group-paging').find_all('a')[1].attrs['href'] # 抓下頁網址
        main_list = soup.find('div', class_='bbs-screen')
        # 依序檢查文章列表中的 tag, 遇到分隔線就結束, 忽略這之後的文章
        for div in main_list.findChildren('div', recursive=False):
            if len(self.data) > CrawlAmount: # 超過指定取的文章數量即結束，但因為使用thread所以數量不正確
                return
            class_name = div.attrs['class']
            
            # 遇到分隔線要處理的情況
            if class_name and 'r-list-sep' in class_name:
                break
            # 遇到目標文章
            if class_name and 'r-ent' in class_name:
                div_title = div.find('div', class_='title')
                a_title = div_title.find('a', href=True)
                if a_title == None:
                    continue
                article_URL = urljoin(self.PTT_URL, a_title['href'])
                article_title = a_title.text
                
                # 呼叫上面寫好的 function 來對文章進行爬蟲
                # 使用thread加速
                _thread.start_new_thread( self.crawl_article, (article_URL, ) ) 
        
        self.Crawl_commend(CrawlAmount, nextPage)
    
    def saveCrawl(self):
        # 將爬完的資訊存成 json 檔案
        with open('parse_data.json', 'w+', encoding='utf8') as f:
            json.dump(self.data, f, ensure_ascii=False, indent=4)
        with open('parse_twit.json', 'w+', encoding='utf8') as f:
            json.dump(self.twit, f, ensure_ascii=False, indent=4)
        
    def loadPreCrawl(self):
        # 讀取之前存成 json 檔案的資訊
        with open("parse_data.json",'r', encoding='utf-8') as fh:
            self.data = json.load(fh) 
        with open("parse_twit.json",'r', encoding='utf-8') as fh:
            self.twit = json.load(fh) 
            
    
    def collectCommend(self):
        # 將整理好的發/推文資訊轉成dataframe再處理
        pdtwit = pd.DataFrame(self.twit)
        pddata = pd.DataFrame(self.data)
        # pddata_byname：整理每個發文者全部的發文整理一起
        pddata_byname = self.articleCollect(pddata, 'article_author', 'article_content', 'article_times')
        # pddata_byip：整理每個ip的全部發文者
        pddata_byip = self.articleCollect(pddata, 'ip', 'article_author', 'article_author_len')
        # pdtwit_byname：整理每個推文者全部的發文整理一起
        pdtwit_byname = self.articleCollect(pdtwit, 'push_userid', 'push_content', 'push_times')
        # pdtwit_byip：整理每個ip的全部推文者
        pdtwit_byip = self.articleCollect(pdtwit, 'push_ipdatetime', 'push_userid', 'push_userid_len')
        return pddata_byname, pddata_byip, pdtwit_byname, pdtwit_byip
        
    def articleCollect(self, inputpd, author, content, times):
        ## 整理每個推/發文id的全部發文
        ##     每個推/發文ip的全部id
        temp = []
        for name in inputpd[author]: # 抓每個發/推文者的id/ip
            if not name in temp:
                temp.append(name)
        tempD = pd.DataFrame(temp)   # 將每個發/推文者的id/ip預先變成dataframe以便後續填補資料
        tempD = tempD.rename({0:author}, axis='columns')
        temp = []       # 裝每個發/推文者的id/ip
        tempL = []      # 裝每個id/ip的推/發文數或推/發文人數
        allArticle = '' # 全部發文內容彙整 -> 了解最近大家關心的
        pdCount = 0
        for name in tempD[author]:
            temppd = inputpd[inputpd[author]==name]
            for detail in temppd[content]:
                if ('author' in author)*('article' in content):
                    allArticle += detail+' ' # 全部發文內容彙整 -> 了解最近大家關心的
                try:
                    if ('ip' in author):
                        if not detail in temp[pdCount]:
                            temp[pdCount] = temp[pdCount]+';'+detail        
                    else:
                        temp[pdCount] = temp[pdCount]+';'+detail        
                except:
                    temp.append(detail)     
            if ('ip' in author):
                tempL.append(len(temp[pdCount].split(';'))) # 拿到ip -> 整理此ip有幾人用
            else:
                tempL.append(len(temppd[content]))          # 沒拿到ip -> 整理此id發/推過幾篇文
            pdCount +=1
        tempD[content] = temp
        tempD[times] = tempL
        tempD = tempD.sort_values(by=times, ascending=False).reset_index()
        if ('author' in author)*('article' in content):  
            self.allArticle = allArticle
        return tempD
    
    
    
def jiebaPTT(allArticle, topk=5, OperateF=0, countlen=10, allstopwords=None): 
    ### topk:要出現前多少名次數的詞。countlen:input為dataframe要對前幾列作jieba
    ### allArticle接收str或DataFrame格式
    jieba.set_dictionary('./For_jieba/dict.txt') # 使用繁體辭庫
    jieba.load_userdict('./For_jieba/my_dict.txt')  #自定義詞彙  
    jieba.analyse.set_stop_words('./For_jieba/stopwords.txt')
    
    if OperateF == 0:
        with open( './For_jieba/stopwords.txt' ,'r', encoding = 'utf-8') as fh: # 原本stopwords
            stopWords = fh.readlines() 
            fh.close()
        stopWords = [ w.strip() for w in stopWords ] # strip除去 '\n' '\t' ' '
        with open( './For_jieba/my_stopwords.txt' ,'r', encoding = 'utf-8') as fh: # 自訂stopwords
            mystopWords = fh.readlines() 
            fh.close()
        mystopWords = [ w.strip() for w in mystopWords ] 
        allstopwords = stopWords+mystopWords
    
    if type(allArticle) == str:   # 拿到字串 -> 對此字串做jieba
        words = jieba.cut(allArticle, cut_all = False) #預設為False  
        filterWords_list2 = [ w for w in words if w not in allstopwords]
        filterWords_str = ''.join(filterWords_list2)  
        tags = jieba.analyse.extract_tags(filterWords_str, topk)
        if OperateF == 0:
            temp = []
            for t in tags:
                temp.append(filterWords_list2.count(t))
            tagspd = pd.DataFrame([tags, temp]).T
            tagspd = tagspd.rename({0:'KeyWords', 1:'Times'}, axis='columns')
            return tagspd, tags
        else:
            return tags, filterWords_list2
    else:  # 拿到dataframe -> 對每個整理過的推/發文內容做jieba
        try:
            temp = pd.DataFrame(columns=list(range(topk+3))) # 3=(推/發文者)+(推/發文次數)+(全部關鍵字)
            index = 0
            try:
                # 計算每個推文作者推文的關鍵字                
                temp[0]=allArticle['push_userid'][0:countlen]
                temp[1]=allArticle['push_times'][0:countlen]
                temp = temp.fillna(0)                
                for detail in allArticle['push_content'][0:countlen]:
                    tags, filterWords_list2=jiebaPTT(detail, topk=topk, OperateF=1, allstopwords=allstopwords)
                    countCOL = 2
                    allkeys = ''
                    for tag in tags:
                        allkeys += tag+' '
                        temp[countCOL][index] = tag+':'+str(filterWords_list2.count(tag))
                        countCOL +=1
                    temp[countCOL][index] = allkeys
                    index +=1
            except:
                # 計算每個發文作者發文的關鍵字                
                temp[0]=allArticle['article_author'][0:countlen]
                temp[1]=allArticle['article_times'][0:countlen]
                temp = temp.fillna(0)
                for detail in allArticle['article_content'][0:countlen]:
                    #print(detail)
                    tags, filterWords_list2=jiebaPTT(detail, topk=topk, OperateF=1, allstopwords=allstopwords)
                    countCOL = 2
                    allkeys = ''
                    for tag in tags:
                        allkeys += tag+' '
                        temp[countCOL][index] = tag+':'+str(filterWords_list2.count(tag))
                        countCOL +=1
                    temp[countCOL][index] = allkeys
                    index +=1
            return temp
                
        except:
            print('Input data type error!') 
            
            
# 新爬PTT
crawlTest = CrawlPTT(PTT_URL)
crawlTest.Crawl_commend(500) # 爬500篇文章及其推文
crawlTest.saveCrawl()
pddata_byname, pddata_byip, pdtwit_byname, pdtwit_byip = crawlTest.collectCommend()

Matplotlib is building the font cache; this may take a moment.


NameError: name 'PTT_URL' is not defined