<img src='1.png' width=500px>

## 知乎目前的登录机制变化,以下的笔记仅供学习参考
1. 分析知乎请求应该向哪个页面发送POST
2. POST的参数应该是哪些
<img src='2.png'>
3. 向https://www.zhihu.com/login/phone_num 发起请求
<img src='3.png' width=500px>
    * POST参数
        * _xsrf(_csrf):为了保证web网站的安全,防止用户的csrf攻击,客户端每次请求的时候都会生成一个随机的字符串并且连同password/phone_num...传递给服务端才能登陆成,否则会报403错,提示访问权限受限
        * 为了拿到_xsrf参数,通过正则表达式从网站源码拿,拿到_xsrf值就可以向服务器做POST请求,之后服务器会向客户端返回Cookie,即我们需要保存Cookie值,以便在下次访问的时候把Cookie带回到服务器<img src='4.png' width=700px>
4. 使用requests库(需要下载)
    * **import requests**
    * 为了能存储从服务器传递过来的Cookie,Python提供了cookielib模块,cookielib提供可存储cookie的对象,实现了对Cookie的保存,以便于与requests模块配合使用来访问Internet资源
        * Python2:**import cookielib**
        * Python3:**import http.cookiejar as cookielib**
5. 编写函数实现摸底登陆知乎的逻辑

```
agent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0"
header = {
    "HOST":"www.zhihu.com",
    "Referer": "https://www.zhizhu.com",
    'User-Agent': agent
}
```
##### requests.get()在设置Request Header的时候设置的是Python2和Python3,而不是浏览器的Header(主要是User-Agent的问题)
<img src='5.png' width=700px>
User-Agent(用户代理):告诉服务器请求是从哪里发起的,因为有些服务器会验证请求发起方的合法性(服务器的防护策略),所以需要伪造成从合法的浏览器发起的请求  
Referer:用以指定该请求是从哪个页面跳转页来的，常被用于分析用户来源等信息
```
def get_xsrf():
    #获取xsrf code
    response = requests.get("https://www.zhihu.com", headers=header)
    match_obj = re.match('.*name="_xsrf" value="(.*?)"', response.text)
    if match_obj:
        return (match_obj.group(1))
    else:
        return ""
```
##### 详细的方法去看Resquest官方文档  
**requests.get()**:有几个常用的形参和返回值   
    ~ url(str):访问地址  
    ~ headers(dict):请求头部参数  
    ~ params(dict):POST参数  
    & text():网页源代码  
    & json():JSON格式的数据  
    & status_code:访问状态吗  
    & url:请求的URL地址
    
```
def zhihu_login(account, password):
    #知乎登录
    if re.match("^1\d{10}",account):
        print ("手机号码登录")
        post_url = "https://www.zhihu.com/login/phone_num"
        post_data = {
            "_xsrf": get_xsrf(),
            "phone_num": account,
            "password": password
        }
    else:
        if "@" in account:
            #判断用户名是否为邮箱
            print("邮箱方式登录")
            post_url = "https://www.zhihu.com/login/email"
            post_data = {
                "_xsrf": get_xsrf(),
                "email": account,
                "password": password
            }
    response_text = requests.post(post_url, data=post_data, headers=header)
```
##### requests.post()其实已经可以模拟知乎登陆了,但是为了以后可以不再通过参数访问知乎(使用data等参数),我们可以通过获取session并且本地保存以便以后我们直接操作session从而实现登陆
* **session = requests.session()**
* **response_text = session.post(post_url, data=post_data, headers=header)**
* **session.cookies = cookielib.LWPCookieJar(filename="cookies.txt")**
* **session.cookies.save()**   # 实现本地保存cookie操作
##### 通过以上的步骤已经成功获取Cookie值,既可以直接使用Cookie值访问知乎而不需要登陆操作
首先需要通过**session.cookies.load()** 来获取到cookie值
```
try:
    session.cookies.load(ignore_discard=True)
except:
    print ("cookie未能加载")
```
直接通过cookie访问登陆后的页面
```
def get_index():
    response = session.get("https://www.zhihu.com", headers=header)
    with open("index_page.html", "wb") as f:
        f.write(response.text.encode("utf-8"))
    print ("ok")
```

##### 虽然说我们现在能实现通过cookie来访问知乎,但是因为cookie是有时间限制的,过了限制时间就无法使用cookie登陆,所以我们现在需要实现一个判断用户是否处于登陆状态的逻辑,若用户不处于登陆状态则要么cookie过期,要么就没登录过,则可以通过正常访问来获取cookie值
* 因为现在的网站设计都是如果用户没登录是不能访问部分网页的,则我们判断用户是否登录的条件当我们访问那些部分网页时会不会被重定向到登录界面,即状态吗(status_code)是否为200<img src='6.png' width=800px>
```
def is_login():
    #通过个人中心页面返回状态码来判断是否为登录状态
    inbox_url = "https://www.zhihu.com/question/56250357/answer/148534773"
    response = session.get(inbox_url, headers=header, allow_redirects=False)
    if response.status_code  != 200:
        return False
    else:
        return True
```
    * allow_redirects=False:默认不能重定向