# 毕业设计：基于标题检索和语料库分析的《明镜》周刊（1947-2020）涉华报道研究 —— 数据爬虫

## 导入所有需要用到的模块

In [1]:
from urllib.request import Request, urlopen
from urllib.parse import urlencode
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
import pandas as pd
import xmltodict
import json
import re

## 创建文章数据基础链接

In [2]:
base_url = "https://joda.spiegel.de/joda/spon/search?s=China&p=SP&f=kopftext&page={}&max=100&from=19000101&to=20201231&plus=0"

## 建立data列表用于存储文章数据

In [3]:
data = list()

## 爬取基于标题检索的文章数据

In [4]:
for page in range(11):
    print("正在下载第" + str(page) + "页")
    url = base_url.format(page)

    headers = {
        "User-Agent": UserAgent().chrome
    }

    request = Request(url, headers=headers)
    response = urlopen(request)
    xml = response.read()
    convert = xmltodict.parse(xml, encoding='utf-8')
    jsonstr = json.dumps(convert, indent=4)
    tmpDict = json.loads(jsonstr)
    data += tmpDict['search-result']['hits']['dokument']

正在下载第0页
正在下载第1页
正在下载第2页
正在下载第3页
正在下载第4页
正在下载第5页
正在下载第6页
正在下载第7页
正在下载第8页
正在下载第9页
正在下载第10页


In [5]:
data

[{'id': '174544063',
  'spiegelPlusId': '174556841',
  'slug': 'SP-2020-052-85959',
  'score': '5.286109',
  'dokname': 'CODESCO-SP-2020-052-85959',
  'ueberschrift': 'Man gönnt sich wieder was',
  'oberzeile': 'Konsum',
  'abstrakt': 'Der Handel leidet, doch der Luxus boomt',
  'autoren': {'autor': [{'name': 'Simon Book'}, {'name': 'Kristina Gnirke'}]},
  'vorspann': 'Krise? Welche Krise? Im Luxussegment laufen die Geschäfte vielerorts blendend. Vor allem dank China. Aber auch die Deutschen shoppen gern teuer.',
  'teaserText': 'Krise? Welche Krise? Im Luxussegment laufen die Geschäfte vielerorts blendend. Vor allem dank China. Aber auch die Deutschen shoppen gern teuer.; Der Handel leidet, doch der Luxus boomt; Die Zürcher Bahnhofstraße ist kein Ort für kleine Geldbeutel.…',
  'quelle': {'id': '1001922', 'kuerzel': 'SP', 'name': 'DER SPIEGEL'},
  'jahrgang': '2020',
  'ausgabe': '52',
  'epaperkey': 'SP-2020-52',
  'rubrik': 'Wirtschaft',
  'channel': 'Wirtschaft',
  'erscheinungsdat

## 建立数据表格用于存储完整数据

In [19]:
myData = pd.DataFrame()

In [20]:
new_columns = []
myData.insert(0,'Index',new_columns)
myData.insert(1,'Id',new_columns)
myData.insert(2,'Erscheinungsdatum',new_columns)
myData.insert(3,'Überschrift',new_columns)
myData.insert(4,'Vorspann',new_columns)
myData.insert(5,'Channel',new_columns)
myData.insert(6,'Seite',new_columns)
myData.insert(7,'Epaperkey',new_columns)
myData.insert(8,'Score',new_columns)
myData.insert(9,'Text',new_columns)

## 爬取每篇文章的正文内容，并将每篇文章的相关数据存储进入数据表格

In [25]:
for i in range(len(data)):
    print("正在下载第" + str(i+1) + "行")
    text_url = "https://www.spiegel.de/spiegel/print/d-"+data[i]["id"]+".html"
    headers = {
        "User-Agent": UserAgent().chrome
    }

    try:
        request = Request(text_url, headers=headers)
        response = urlopen(request)
        info = response.read().decode()
        pattern = re.compile(r'&[^;]+;',re.S)
        info = pattern.sub('', info)

        soup = BeautifulSoup(info, "html.parser")
        text = soup.get_text()
        text = text.replace('\n', '')
    except:
        text = ""
        pass
    
    newInfo = list()
    newInfo.append(str(i+1))
    if "id" in data[i]:
        newInfo.append(data[i]["id"])
    else:
        newInfo.append("")
    
    if "erscheinungsdatum" in data[i]:
        newInfo.append(data[i]["erscheinungsdatum"])
    else:
        newInfo.append("")
        
    if "ueberschrift" in data[i]:
        newInfo.append(data[i]["ueberschrift"])
    else:
        newInfo.append("")
    
    if "vorspann" in data[i]:
        newInfo.append(data[i]["vorspann"])
    elif "teaserText" in data[i]:
        newInfo.append(data[i]["teaserText"])
    else:
        newInfo.append("")
        
    if "channel" in data[i]:
        newInfo.append(data[i]["channel"])
    else:
        newInfo.append("")
        
    if "seite" in data[i]:
        newInfo.append(data[i]["seite"])
    else:
        newInfo.append("")
        
    if "epaperkey" in data[i]:
        newInfo.append(data[i]["epaperkey"])
    else:
        newInfo.append("")
        
    if "score" in data[i]:
        newInfo.append(data[i]["score"])
    else:
        newInfo.append("")
        
    newInfo.append(text)
    
    myData.loc[i]= newInfo

正在下载第1行
正在下载第2行
正在下载第3行
正在下载第4行
正在下载第5行
正在下载第6行
正在下载第7行
正在下载第8行
正在下载第9行
正在下载第10行
正在下载第11行
正在下载第12行
正在下载第13行
正在下载第14行
正在下载第15行
正在下载第16行
正在下载第17行
正在下载第18行
正在下载第19行
正在下载第20行
正在下载第21行
正在下载第22行
正在下载第23行
正在下载第24行
正在下载第25行
正在下载第26行
正在下载第27行
正在下载第28行
正在下载第29行
正在下载第30行
正在下载第31行
正在下载第32行
正在下载第33行
正在下载第34行
正在下载第35行
正在下载第36行
正在下载第37行
正在下载第38行
正在下载第39行
正在下载第40行
正在下载第41行
正在下载第42行
正在下载第43行
正在下载第44行
正在下载第45行
正在下载第46行
正在下载第47行
正在下载第48行
正在下载第49行
正在下载第50行
正在下载第51行
正在下载第52行
正在下载第53行
正在下载第54行
正在下载第55行
正在下载第56行
正在下载第57行
正在下载第58行
正在下载第59行
正在下载第60行
正在下载第61行
正在下载第62行
正在下载第63行
正在下载第64行
正在下载第65行
正在下载第66行
正在下载第67行
正在下载第68行
正在下载第69行
正在下载第70行
正在下载第71行
正在下载第72行
正在下载第73行
正在下载第74行
正在下载第75行
正在下载第76行
正在下载第77行
正在下载第78行
正在下载第79行
正在下载第80行
正在下载第81行
正在下载第82行
正在下载第83行
正在下载第84行
正在下载第85行
正在下载第86行
正在下载第87行
正在下载第88行
正在下载第89行
正在下载第90行
正在下载第91行
正在下载第92行
正在下载第93行
正在下载第94行
正在下载第95行
正在下载第96行
正在下载第97行
正在下载第98行
正在下载第99行
正在下载第100行
正在下载第101行
正在下载第102行
正在下载第103行
正在下载第104行
正在下载第105行
正在下载第106行
正在下载第107行
正在下载第108行
正在下载第109行
正在下载第110行
正在下载第111

正在下载第832行
正在下载第833行
正在下载第834行
正在下载第835行
正在下载第836行
正在下载第837行
正在下载第838行
正在下载第839行
正在下载第840行
正在下载第841行
正在下载第842行
正在下载第843行
正在下载第844行
正在下载第845行
正在下载第846行
正在下载第847行
正在下载第848行
正在下载第849行
正在下载第850行
正在下载第851行
正在下载第852行
正在下载第853行
正在下载第854行
正在下载第855行
正在下载第856行
正在下载第857行
正在下载第858行
正在下载第859行
正在下载第860行
正在下载第861行
正在下载第862行
正在下载第863行
正在下载第864行
正在下载第865行
正在下载第866行
正在下载第867行
正在下载第868行
正在下载第869行
正在下载第870行
正在下载第871行
正在下载第872行
正在下载第873行
正在下载第874行
正在下载第875行
正在下载第876行
正在下载第877行
正在下载第878行
正在下载第879行
正在下载第880行
正在下载第881行
正在下载第882行
正在下载第883行
正在下载第884行
正在下载第885行
正在下载第886行
正在下载第887行
正在下载第888行
正在下载第889行
正在下载第890行
正在下载第891行
正在下载第892行
正在下载第893行
正在下载第894行
正在下载第895行
正在下载第896行
正在下载第897行
正在下载第898行
正在下载第899行
正在下载第900行
正在下载第901行
正在下载第902行
正在下载第903行
正在下载第904行
正在下载第905行
正在下载第906行
正在下载第907行
正在下载第908行
正在下载第909行
正在下载第910行
正在下载第911行
正在下载第912行
正在下载第913行
正在下载第914行
正在下载第915行
正在下载第916行
正在下载第917行
正在下载第918行
正在下载第919行
正在下载第920行
正在下载第921行
正在下载第922行
正在下载第923行
正在下载第924行
正在下载第925行
正在下载第926行
正在下载第927行
正在下载第928行
正在下载第929行
正在下载第930行
正在下载第931行


In [26]:
myData

Unnamed: 0,Index,Id,Erscheinungsdatum,Überschrift,Vorspann,Channel,Seite,Epaperkey,Score,Text
0,1,174544063,19.12.2020,Man gönnt sich wieder was,Krise? Welche Krise? Im Luxussegment laufen di...,Wirtschaft,82,SP-2020-52,5.286109,"Der Handel leidet, doch der Luxus boomt — DER ..."
1,2,174419239,12.12.2020,Betr.: China,Seit acht Jahren führt Xi Jinping die KP China...,Hausmitteilung,5,SP-2020-51,6.6307707,— DER SPIEGEL 2020/51HausmitteilungTitelChinaS...
2,3,174419284,12.12.2020,»Viel Erfolg weiterhin«,"Vertrauliche Dokumente belegen, dass sich die ...",Wirtschaft,64,SP-2020-51,5.560302,Wie die Bundesregierung den Konzern bei der Ch...
3,4,174316816,05.12.2020,Neuer Kinoboom in Asien,Blockbuster in China und Japan machen auch Hol...,Meldung Kultur,118,SP-2020-50,6.5850024,— DER SPIEGEL 2020/50KulturFilmgeschäftLyrikSa...
4,5,174316771,05.12.2020,»Es muss ein Signal an Iran geben«,Außenminister Heiko Maas (SPD) wird das Verhäl...,Interview Deutschland,30,SP-2020-50,4.7059526,Außenminister Maas fordert ein Nuklearabkommen...
5,6,174103641,21.11.2020,Aufrüsten gegen China?,USA plant stärkere Marine-Präsenz gegen China;...,Meldung Ausland,81,SP-2020-48,6.6307707,— DER SPIEGEL 2020/48AuslandIranSupermächteSch...
6,7,174103643,21.11.2020,Das Menschheitsprojekt,Die ersten Corona-Vakzinen stehen vor der Zula...,Ausland Coronakrise,82,SP-2020-48,4.5080476,Um die Verteilung von Corona-Impfstoffen ist e...
7,8,173743593,30.10.2020,Globaler Kampf,Japan ringt um die Spiele im kommenden Jahr. F...,Sport,103,SP-2020-45,5.560302,Japans Nationalisten wollen die Spiele in Toki...
8,9,173743577,30.10.2020,Die Teilung der Welt,Auf kein Land hat sich der US-Präsident so ein...,Wirtschaft,78,SP-2020-45,4.604875,Die USA und China ringen um die Vorherrschaft ...
9,10,173654754,24.10.2020,»Brutal gefährlich«,Die Pandemie fordert das politische System her...,Deutschland Coronakrise,28,SP-2020-44,4.4152083,Die Pandemie krempelt das politische System de...


## 将数据表格导出为csv格式和excel格式

In [29]:
myData.to_csv("data.csv", index = False, encoding = 'utf-8')

In [32]:
myData.to_excel("data.xlsx", index = False, encoding = 'utf-8')