# Preparations

In [1]:
import requests as rq
from bs4 import BeautifulSoup as bs

#### a module for obtaining the page's raw text

In [2]:
def get_html(url):
    try:
        useragent = {'User-Agent':'Mozilla/5.0'} #模拟浏览器
        rsp = rq.get(url, timeout=10, headers=useragent)
        rsp.raise_for_status() #根据状态码抛出HTTPError异常
        rsp.encoding = rsp.apparent_encoding #使得解码正确
        return rsp.text
    except:
        return "Exception with staus code:"+rsp.staus_code

#### fetch the page and prepare the soup for analysis

In [3]:
url = 'http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html'
content = get_html(url)
soup = bs(content, 'html.parser')

# An experiment for the crawling

In [4]:
print(soup.prettify()[:1000])

<!DOCTYPE html>
<html lang="zh">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <meta content="2016,中国,最好,综合,大学,排名" name="keywords"/>
  <meta content="2016中国最好大学排名包括1个综合和8个单项排名。综合排名针对的是培养本科生且科研规模和科技服务规模均在一定水平以上的综合性研究型大学。" name="description"/>
  <meta content="最好大学网" name="author"/>
  <link href="./houtai/templates/images/favicon.png" rel="shortcut icon"/>
  <title>
   2017生源质量排名_最好大学网
  </title>
  <link href="./houtai/templates/css/bootstrap.min.css" rel="stylesheet"/>
  <link href="./houtai/templates/css/template.css" rel="stylesheet"/>
  <!--[if lt IE 9]>
      <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
      <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
  <script>
   var _hmt = _hmt || [];(function() {  var hm = document.createElement("script");  hm.src = "//hm.baidu.com/hm.js?2ce94714199fe618dcebb5872c6def14";  var s = document.getEleme

In [5]:
body = soup.find('tbody') # 只要一个

#### take one item to make a trial

In [6]:
items = body.find_all('tr')
item = items[0]

#### traverse through all the children tr tag and keep their content by `tag.string`

In [7]:
attrs = [td.string for td in item.find_all('td')]
attrs

['1', '清华大学', '北京', '100.0 ']

# Put it all together

In [8]:
def get_all_attrs(content):
    soup = bs(content, 'html.parser')
    body = soup.find('tbody') # 只要一个
    items = body.find_all('tr')
    all_attrs = []
    for item in items:
        attrs = []
        
        for td in item.find_all('td'):
            attrs.append(td.string)
            
        all_attrs.append([td.string for td in item.find_all('td')])
    
    return all_attrs

In [9]:
all_attrs = get_all_attrs(content)

#### string formatting

In [10]:
fmt = "{0[0]:<5}\t{0[1]:{1}^15}\t{0[2]:^5}\t{0[3]:^8}" #参数标记可以直接indexing表明使用参数数组的第几个元素
print(fmt.format(['排名','学校','省市','得分'],chr(12288)))
for item in all_attrs[:100]:
    print(fmt.format(item, chr(12288)))

排名   	　　　　　　学校　　　　　　　	 省市  	   得分   
1    	　　　　　清华大学　　　　　　	 北京  	 100.0  
2    	　　　　　北京大学　　　　　　	 北京  	 96.1   
3    	　　　　中国科学院大学　　　　	 北京  	 92.4   
4    	　　　中国科学技术大学　　　　	 安徽  	 91.9   
5    	　　　　　复旦大学　　　　　　	 上海  	 91.8   
6    	　　　　中国人民大学　　　　　	 北京  	 90.0   
7    	　　　　上海交通大学　　　　　	 上海  	 89.4   
8    	　　　　　浙江大学　　　　　　	 浙江  	 87.2   
9    	　　　　　南京大学　　　　　　	 江苏  	 87.1   
10   	　　　　　南开大学　　　　　　	 天津  	 86.5   
11   	　　　　　同济大学　　　　　　	 上海  	 86.2   
12   	　　　北京航空航天大学　　　　	 北京  	 85.5   
13   	　　　对外经济贸易大学　　　　	 北京  	 84.5   
13   	　　　　上海财经大学　　　　　	 上海  	 84.5   
15   	　　　　中央财经大学　　　　　	 北京  	 84.4   
16   	　　　　　外交学院　　　　　　	 北京  	 82.9   
17   	　　　　　天津大学　　　　　　	 天津  	 82.7   
18   	　　　　　武汉大学　　　　　　	 湖北  	 82.5   
18   	　　　　北京师范大学　　　　　	 北京  	 82.5   
20   	　　　　北京外国语大学　　　　	 北京  	 82.3   
21   	　　　　西安交通大学　　　　　	 陕西  	 82.2   
22   	　　　　　厦门大学　　　　　　	 福建  	 81.5   
23   	　　　　　中山大学　　　　　　	 广东  	 81.1   
24   	　　　　华中科技大学　　　　　	 湖北  	 80.6   
25   	　　　　　东南大学　　　　　　	 江苏  	 80.5   
26   	　　　　北京理工大学　　　　　	 北京  	 80.4   
2

# 思考题1
#### the original code
在`fillUnivList()`加了调试语句

In [11]:
import requests
from bs4 import BeautifulSoup 
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30) 
        r.raise_for_status()
        r.encoding = r.apparent_encoding 
        return r.text
    except: 
        return ""

def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser") 
    flag = True
    for tr in soup.find('tbody').children:
        
        if isinstance(tr, bs4.element.Tag): 
            tds = tr('td')
            if flag:
                print(tr.prettify())

                for idx,td in enumerate(tds):
                    print('============{}==========='.format(idx))
                    print(td.prettify())
                flag = False
            
            ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num): 
    print("{:^10}\t{:^6}\t{:^10}".format("排名", "学校名称", "总分")) 
    for i in range(num):
        u = ulist[i] 
        print("{:^10}\t{:^6}\t{:^10}".format(u[0], u[1], u[2]))
        
def main(url): 
    uinfo = []
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20) # 20 univs


#### Debugging

In [12]:
url1 = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
url2 = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2017.html'

2016

In [13]:
main(url1)

<tr class="alt">
 <td>
  1
 </td>
 <td>
  <div align="left">
   清华大学
  </div>
 </td>
 <td>
  北京市
 </td>
 <td>
  95.9
 </td>
 <td class="hidden-xs need-hidden indicator5">
  100.0
 </td>
 <td class="hidden-xs need-hidden indicator6" style="display:none;">
  97.90%
 </td>
 <td class="hidden-xs need-hidden indicator7" style="display:none;">
  37342
 </td>
 <td class="hidden-xs need-hidden indicator8" style="display:none;">
  1.298
 </td>
 <td class="hidden-xs need-hidden indicator9" style="display:none;">
  1177
 </td>
 <td class="hidden-xs need-hidden indicator10" style="display:none;">
  109
 </td>
 <td class="hidden-xs need-hidden indicator11" style="display:none;">
  1137711
 </td>
 <td class="hidden-xs need-hidden indicator12" style="display:none;">
  1187
 </td>
 <td class="hidden-xs need-hidden indicator13" style="display:none;">
  593522
 </td>
</tr>

<td>
 1
</td>

<td>
 <div align="left">
  清华大学
 </div>
</td>

<td>
 北京市
</td>

<td>
 95.9
</td>

<td class="hidden-xs need-hidden i

2017

In [14]:
main(url2)

<tr class="alt">
 <td>
  1
  <td>
   <div align="left">
    清华大学
   </div>
  </td>
  <td>
   北京
  </td>
  <td>
   94.0
  </td>
  <td class="hidden-xs need-hidden indicator5">
   100.0
  </td>
  <td class="hidden-xs need-hidden indicator6" style="display:none;">
   97.70%
  </td>
  <td class="hidden-xs need-hidden indicator7" style="display:none;">
   40938
  </td>
  <td class="hidden-xs need-hidden indicator8" style="display:none;">
   1.381
  </td>
  <td class="hidden-xs need-hidden indicator9" style="display:none;">
   1373
  </td>
  <td class="hidden-xs need-hidden indicator10" style="display:none;">
   111
  </td>
  <td class="hidden-xs need-hidden indicator11" style="display:none;">
   1263428
  </td>
  <td class="hidden-xs need-hidden indicator12" style="display:none;">
   613524
  </td>
  <td class="hidden-xs need-hidden indicator13" style="display:none;">
   7.04%
  </td>
 </td>
</tr>

<td>
 1
 <td>
  <div align="left">
   清华大学
  </div>
 </td>
 <td>
  北京
 </td>
 <td>
  94.0
 </

TypeError: unsupported format string passed to NoneType.__format__

#### reasoning of the error
u的元素有None，u是一个学校的信息

ulist实参时uinfo，来自于fillUnivList()的赋值

ulist每次append的是tds[0,1,3]的string，说明这里面有None

In [None]:
tr = body.contents[1]
tr?

<img src="help.png">

如上图，`tag()`相当于调用`tag.find_all()`，所以`fillUnivList()`中的`tds`是td元素的list

<img style="float: left;" src="2016.png">
<img src="2017.png">

图中左为2016年一个tr的内容，右边是2017年的。很显然在第一个td，右边没有在排名1上封住，导致2017年解析时`tds[0].string`为空

# 思考题2
#### still make an experiment at first

In [15]:
url = 'http://www.zuihaodaxue.cn/ARWU2016.html'
content = get_html(url)
soup = bs(content, 'html.parser')

In [16]:
body = soup.find('tbody')
items = body.find_all('tr')
len(items)

500

In [17]:
item = items[0]
print(item.prettify())

<tr>
 <td>
  1
 </td>
 <td class="align-left">
  <a href="World-University-Rankings/Harvard-University.html" target="_blank">
   哈佛大学
  </a>
 </td>
 <td>
  <a href="./World-University-Rankings-2016/USA.html" target="_blank">
   <img src="./houtai/templates/flag/USA.png"/>
  </a>
 </td>
 <td class="hidden-xs">
  1
 </td>
 <td>
  100.0
 </td>
 <td class="hidden-xs need-hidden alumni">
  100.0
 </td>
 <td class="hidden-xs need-hidden award" style="display:none;">
  100.0
 </td>
 <td class="hidden-xs need-hidden hici" style="display:none;">
  100.0
 </td>
 <td class="hidden-xs need-hidden ns" style="display:none;">
  100.0
 </td>
 <td class="hidden-xs need-hidden pub" style="display:none;">
  100.0
 </td>
 <td class="hidden-xs need-hidden pcp" style="display:none;">
  79.2
 </td>
</tr>



#### according to the below, `None` is required to get rid of 

In [18]:
tds = item.find_all('td')
attrs = [td.string for td in tds]
attrs

['1',
 None,
 None,
 '1',
 '100.0',
 '100.0',
 '100.0',
 '100.0',
 '100.0',
 '100.0',
 '79.2']

#### according to the below, `string` is required to get rid of 

In [19]:
[x for x in tds[1].children]

['\n',
 <a href="World-University-Rankings/Harvard-University.html" target="_blank">哈佛大学</a>,
 '\n']

#### an integrated test

In [20]:
tds = item.find_all('td')
attrs = [td.string for td in tds if td.string is not None]+[x.string for x in tds[1].children if not isinstance(x, str)]
attrs

['1',
 '1',
 '100.0',
 '100.0',
 '100.0',
 '100.0',
 '100.0',
 '100.0',
 '79.2',
 '哈佛大学']

#### now that it's all clear, here is the final code

In [22]:
def get_all_attrs(content):
    soup = bs(content, 'html.parser')
    body = soup.find('tbody') # 只要一个
    items = body.find_all('tr')
    all_attrs = []
    for item in items:
        
        tds = item.find_all('td')
        attrs = [td.string for td in tds if td.string is not None]+[x.string for x in tds[1].children if not isinstance(x, str)]
            
        all_attrs.append(attrs)
    
    return all_attrs

all_attrs = get_all_attrs(content)

fmt = "{0[0]:<3}\t{0[9]:{1}^15}\t{0[2]:^5}\t{0[3]:^5}\t{0[4]:^5}\t{0[5]:^5}\t{0[6]:^5}\t{0[7]:^5}\t{0[8]:^5}\t{0[1]:<3}" #参数标记可以直接indexing表明使用参数数组的第几个元素
print(fmt.format(['总排名','国家排名','总分','alumni','award','hici','ns','pub','pcp','学校'],chr(12288)))
for item in all_attrs[:100]:
    print(fmt.format(item, chr(12288)))

总排名	　　　　　　学校　　　　　　　	 总分  	alumni	award	hici 	 ns  	 pub 	 pcp 	国家排名
1  	　　　　　哈佛大学　　　　　　	100.0	100.0	100.0	100.0	100.0	100.0	79.2 	1  
2  	　　　　　斯坦福大学　　　　　	74.7 	42.9 	89.6 	80.1 	73.6 	73.1 	55.8 	2  
3  	　　　加州大学-伯克利　　　　	70.1 	65.1 	79.4 	64.9 	68.7 	68.4 	59.0 	3  
4  	　　　　　剑桥大学　　　　　　	69.6 	78.3 	96.6 	51.3 	56.7 	67.8 	58.5 	1  
5  	　　　　麻省理工学院　　　　　	69.2 	69.4 	80.7 	55.3 	71.7 	61.7 	69.7 	4  
6  	　　　　普林斯顿大学　　　　　	62.0 	53.3 	98.0 	51.3 	47.2 	42.9 	74.4 	5  
7  	　　　　　牛津大学　　　　　　	58.9 	49.7 	54.9 	56.2 	55.0 	74.5 	46.1 	2  
8  	　　　　加州理工学院　　　　　	57.8 	51.0 	66.7 	39.7 	57.3 	43.6 	100.0	6  
9  	　　　　哥伦比亚大学　　　　　	56.7 	63.5 	65.9 	41.0 	53.3 	68.9 	33.3 	7  
10 	　　　　　芝加哥大学　　　　　	54.2 	59.8 	86.3 	34.0 	42.7 	50.2 	44.5 	8  
11 	　　　　　耶鲁大学　　　　　　	52.8 	47.6 	50.4 	44.7 	58.4 	62.6 	37.1 	9  
12 	　　　加州大学-洛杉矶　　　　	51.5 	29.5 	47.1 	58.0 	44.5 	71.4 	33.4 	10 
13 	　　　　　康奈尔大学　　　　　	49.0 	42.0 	49.8 	41.0 	47.0 	60.5 	40.9 	11 
14 	　　　加州大学-圣地亚哥　　　	47.8 	19.2 	35.5 	49.2 	57.8 	63.5 	37.0 	12 
15 	　　　华