# TCP编程

## 客户端

大多数连接都是可靠的TCP连接。创建TCP连接时，主动发起连接的叫客户端，被动响应连接的叫服务器。

举个例子，当我们在浏览器中访问新浪时，我们自己的计算机就是客户端，浏览器会主动向新浪的服务器发起连接。如果一切顺利，新浪的服务器接受了我们的连接，一个TCP连接就建立起来的，后面的通信就是发送网页内容了。

所以，我们要创建一个基于TCP连接的Socket，可以这样做

In [4]:
import socket

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.connect(('www.sina.com.cn', 80)) # (())

In [5]:
s.send(b'GET /HTTP/1.1\r\nHost:www.sina.com.cn\r\nConnection:close\r\n\r\n') 
# 返回的值是？

57

In [6]:
buffer = []
while True:
    d = s.recv(1024)
    if d:
        buffer.append(d)
    else:
        break

data = b''.join(buffer)

In [7]:
s.close()

In [8]:
data # 请求回来的数据不对

b'<HTML>\n<HEAD>\n<TITLE>Not Found on Accelerator</TITLE>\n</HEAD>\n\n<BODY BGCOLOR="white" FGCOLOR="black">\n<H1>Not Found on Accelerator</H1>\n<HR>\n\n<FONT FACE="Helvetica,Arial"><B>\nDescription: Your request on the specified host was not found.\nCheck the location and try again.\n</B></FONT>\n<HR>\n</BODY>\n'

In [9]:
header, html = data.split(b'\r\n\r\n', 1)
print(header.decode('utf-8'))
with open('sina.htm', 'wb') as f:
    f.write(html)

ValueError: not enough values to unpack (expected 2, got 1)

## 服务器

In [10]:
s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

我们要绑定监听的地址和端口。服务器可能有多块网卡，可以绑定到某一块网卡的IP地址上，也可以用0.0.0.0绑定到所有的网络地址，还可以用127.0.0.1绑定到本机地址。127.0.0.1是一个特殊的IP地址，表示本机地址，如果绑定到这个地址，客户端必须同时在本机运行才能连接，也就是说，外部的计算机无法连接进来。

端口号需要预先指定。因为我们写的这个服务不是标准服务，所以用9999这个端口号。请注意，小于1024的端口号必须要有管理员权限才能绑定

In [11]:
s.bind(('127.0.0.1', 9999)) # 监听端口
s.listen(5) #等待连接的最大数量
print('Waiting for connection')

Waiting for connection


接下来，服务器程序通过一个永久循环来接受来自客户端的连接，accept()会等待并返回一个客户端的连接

In [None]:
while True:
    sock, addr = s.accept() # 接受一个新连接:
    t = threading.Thread(target=tcplink, args=(sock, addr)) # 创建新线程来处理TCP连接:
    t.start()

每个连接都必须创建新线程（或进程）来处理，否则，单线程在处理连接的过程中，无法接受其他客户端的连接

In [None]:
#echo_server.py

import 
def tcplink(sock, addr):
    print('Accept new connection from %s:%s' % addr)
    sock.send(b'Welcome')
    while True:
        data = sock.recv(1024)
        time.sleep(1)
        if not data or data.decode('utf-8') == 'exit':
            break
        sock.send(('Hello, %s!' % data.decode('utf-8')).encode('utf-8'))
    sock.close()
    print('Connection from %s:%s closed' % addr)

连接建立后，服务器首先发一条欢迎消息，然后等待客户端数据，并加上Hello再发送给客户端。如果客户端发送了exit字符串，就直接关闭连接。

要测试这个服务器程序，我们还需要编写一个客户端程序：

In [None]:
#echo_client.py

import socket

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
s.connect(('127.0.0.1', 9999))
print(s.recv(1024).decode('utf-8'))
for data in [b'Michael', b'Tracy', b'Sarah']:
    s.send(data)
    print(s.recv(1024).decode('utf-8'))
s.send(b'exit')
s.close()

用TCP协议进行Socket编程在Python中十分简单，对于客户端，要主动连接服务器的IP和指定端口，对于服务器，要首先监听指定端口，然后，对每一个新的连接，创建一个线程或进程来处理。通常，服务器程序会无限运行下去。

同一个端口，被一个Socket绑定了以后，就不能被别的Socket绑定了

## 用socketserver模块建立服务器

socketserver模块中使用的服务器类主要有TCPserver、udpserver、threadingTcpserver、threadingUDPserver，fockingtcpserver、forkingudpserver

In [None]:
#演示用socketserver模块来实现实例，基于tcp协议的服务器

import socketserver

host = 'localhost'
port = 10888

class MyTcpHandler(socketserver.StreamRequestHandler): # tcp协议的处理器类
    def handle(self):
        while True:
            data = self.request.recv(1024)
            if not data:
                Server.shutdown()
                break
            print('Receive Data:', data.decode('utf-8'))
        return
    
Server = socketserver.TCPServer((host, port), MyTcpHandler)
Server.serve_forever()

#实例中也可以使用self.rfile.readline() self.wfile.write(data) 这两个类文件对象进行收发数据，但客户端每次发送数据都要有行结束符

## urllib http

### urllib

urllib.request 用于打开url网址

urllib.error 定义了常见的urllib.request会引发的异常

urllib.parse 用于解析URL

urllib.robotparser 用于解析robot.txt文件

In [None]:
# urlopen(url, data, proxies) -> httpresponse-object
# method 
# read, readline,close

# urllib.request.urlretrieve 将url保存为本地文件
# urltretrieve(url, filename, reporthook, data)  reporthook回调函数

# urllib.parase.urlencode()对url进行编码的函数
# urllib.parase.urlencode(query, doseq) 
# query要进行编码的变量和值组成的字典
# doseq 可选参数

#urllib.parse.unquote unquote_plus方法可以将使用quote、unquote_plus方法替换后的字符还原
#unquote(string)
#unquote_plus(string)



### http

In [None]:
'''
http.client 底层的HTTP协议的一些功能，可以为urllib.request模块所用
http.server提供了基于socketserver模块的基本HTTP服务器类
http.cookies cookies的管理工具
http.cookiejar 提供了cookies的持久化支持
http.client模块中主要包括两个用于客户端类

httpconnecttion
httpsconnection
httpresponse

httpconnection(host, port=None, [timeout, ], source_addreass=None)
httpconnection对象的主要方法
request(method, url, boby, headers)

发送请求后，可以使用httpconnection对象的getresponse方法返回一个httpresponse
除了request方法以外，还可以使用如下的方法想服务器发送请求
putrequest(request, selector, skip_host, skip_accept_encoding)
putheader(header, argument,...)
endheaders()
send(data)
'''

### urllib http包访问网站

In [23]:
from urllib.request import urlopen
from urllib.parse import urlencode
import urllib

import re

wd = 'python'
wd = urlencode({'wd':wd})
url = 'http://www.baidu.com/s?' + wd # http://www.baidu.com/s?wd=python
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
req = urllib.request.Request(url=url,headers=headers)
page = urllib.request.urlopen(req).read()
#page = urlopen(url).read()
content = (page.decode('utf-8'))
content = content.replace('\r\n', '')
content = content.replace('\n', '')
content = content.replace('\t', '')

title_h3 = re.findall(r'<h3 class="t".*?h3>', content)
pat = re.compile(r'href\s{0,1}=\s{0,1}(\".*?\")')
title_replace = []
for i in title_h3:
    title_replace.append((re.findall(pat, i))[0])
title_replace = [i.strip('"') for i in title_replace]
# 问题出在这↓ 
#title_href = [item[item.find('href =') + 6:item.find('target=')] for item in title_h3]

#title_replace = [item.replace(' ', '').replace('"','') for item in title_href]
'''
for item in title_replace:
    print(item)
    print('-'*50)
'''

if __name__ == '__main__':
    for item in title_replace:
        if urlopen(item).read() is None:
            print('抓到链接是空链接')
            break

HTTPError: HTTP Error 403: 

In [12]:
wd

'wd=python'