# 1. HyperText Transport Protocol - HTTP

<pre>
Сетевой протокол, управляющий веб, на самом деле довольно простой 
и Python имеет встроенную поддержку протокола, называемую sockets,
которая дает возможность легко создавать сетевые подключения 
и получения данных из созданных сокетов в программе на Python.

socket похож на файл, за исключением того, что 
один socket обеспечивает двустороннее соединение между двумя программами. 

Вы можете как читать так и писать в один и тот же сокет.

Если вы что-то пишете в socket, данные отправляется в приложение на другом конце сокета.

Если вы читаете из socket, вы получаете данные, которые другое приложения отправило.

Если попытаться прочитать socket, когда программа на другом конце socket не послала никаких данных,
то программа будет просто сидеть и ждать.

Если программы на обоих концах socket ожидают получение данных, не посылая ничего,
они будут ждать в течение очень долгого времени.

Поэтому важной частью программ, которые общаются через Интернет яаляется необходимость иметь какой-то протокол.

Протокол представляет собой набор четких правил, определяющих, кому идти в первую очередь,
что необходимо делать в этот момент, какой должен быть ответ на данное сообщение, кто отправляет сообщение следующим, и так далее. 

В некотором смысле эти два приложения в обоих концах socket совершают танец и следят за тем,
чтобы не наступать на ноги друг другу.

Есть много документов, которые описывают эти сетевые протоколы.
HyperText Transport Protocol описан в следующем документе:

    http://www.w3.org/Protocols/rfc2616/rfc2616.txt

Это большой и сложный 176-страничный документ с большим количеством деталей.
На странице 36 RFC2616 вы найдете синтаксис запроса GET.

Чтобы получить документ от веб-сервера, необходимо сделать подключение к серверу
    
      www.py4inf.com  
      
на порт 

    80
    
а затем отправить строку вида

    GET http://www.py4inf.com/code/romeo.txt HTTP / 1.0

где вторым параметром является веб-страница, которую мы затребовали, 
а затем отправить пустую строку.
Веб-сервер ответит на запрос ответом, содержащим заголовок документа, пустой строкой, затем по содержанием документа.
</pre>

# 2. The World’s Simplest Web Browser

<pre>
Самый простой способ показать, как работает протокол HTTP - написать очень простую программу на языке Python,
которая делает подключение к веб-серверу, следуя правилам протокола HTTP для запроса документа 
и отображает то, что сервер отправляет обратно.
</pre>


In [None]:
import socket

mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
mysock.connect(("www.py4inf.com", 80))
mysock.send("GET http://www.py4inf.com/code/romeo.txt HTTP/1.0\n\n")

while True:
    data = mysock.recv(512) 
    if(len(data)<1):
        break
    print data

mysock.close()

<pre>
Сначала программа делает подключение к порту 80 на сервере www.py4inf.com.
Так как данная программа играет роль "веб-браузера",
протокол HTTP говорит, что в таком случае необходимо отправить команду GET в последующей пустой строкой.
</pre>

<img src="network_first.png"/>

<pre>
После того, как пустая строка отправлена, 
в теле цикла принимаются данные в виде 512-символьных блоков из socket и выводит данные на печать до тех пор,
пока не будет больше данных для чтения
(то есть RECV() вернет пустую строку).

Содержимое ответа от веб-сервера начинается с заголовка, который веб-сервер посылает для описания документа.
Например, заголовок Content-Type указывает, что документ это обычный текстовый документ (текст / обычный).
После заголовка, добавляется пустая строка, чтобы указать конец заголовков, 
а затем отправляются фактические данные - файло romeo.txt.

Этот пример показывает, как создать сетевое подключение на низком уровне, используя sockets.

Sockets могут быть использованы для взаимодействия с веб-сервером или с почтовым сервером или с многими другими видами серверов.
Все, что требуется, это найти документ, который описывает протокол взаимодействия с сервером и написать код для отправки и получения данных в соответствии с протоколом.

Однако, поскольку протокол, который мы используем чаще всего является HTTP Web протоколом,
Python имеет специальную библиотеку, специально разработанную для поддержки HTTP протокола для получения документов и данных по сети.
</pre>

# 3. Retrieving an image over HTTP

<pre>
В приведенном выше примере, мы получили обычный текстовый файл, который имеет новые строки в файле, 
и отобразили данные на экране.

Можно использовать аналогичную программу для получения изображения  через HTTP.
Вместо того чтобы отображать данные на экране,
мы накапливаем данные в виде строки, обрезаем заголовки, 
а затем сохраняем данное изображение в файле следующим образом:
</pre>

In [None]:
import socket 
import time

# Create socket
mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

# Open socket
mysock.connect(("www.py4inf.com", 80))

# Send data to the socket
mysock.send("GET http://www.py4inf.com/cover.jpg HTTP/1.0\n\n")

count = 0 
picture = ""

# Retrieve the data from the socket
while True:
    data = mysock.recv(5120)
    if(len(data)<1): break 
    #time.sleep(0.25)
    count += len(data) 
    print len(data), count 
    picture += data

# Close socket
mysock.close()

# Look for the end of the header (2 CRLF) 
pos = picture.find("\r\n\r\n");
print 'Header length',pos
print picture[:pos]

# Skip past the header and save the picture data 
picture = picture[pos+4:]
fhand = open("stuff.jpg","wb")
fhand.write(picture);
fhand.close()

# Show image
# matplot
from matplotlib import pyplot as plt
import matplotlib.image as mpimg
%matplotlib inline
img=mpimg.imread('stuff.jpg')
plt.imshow(img)
plt.axis("off")

<pre>
Вы можете видеть, для этого URL, заголовок Content-Type указывает на то,
что тело документа представляет собой изображение (image/jpeg).
После завершения программы можно просмотреть изображение, открыв файл stuff.jpg.

Во время работы программы можно видеть,
что мы не получаем 5120 символов каждый раз когда делается вызовметод recv(). 
Мы получаем столько символов, сколько было передано по сети к нам от веб-сервера в момент вызова recv().
В данном примере, мы получаем 1460 или 2920 символов каждый раз,
когда запрашивается до 5120 символов данных.

Результаты могут отличаться в зависимости от скорости сети.
Также обратите внимание, что последний вызов recv() мы получаем 1681 байт, 
это означает конец потока, а в следующем вызове recv() мы получаем строку нулевой длины,
что говорит нам о том, что сервер вызвал close() на своей стороне для socket,
и больше данных не предвидится.

Мы можем замедлить последовательные вызовы recv()
раскомментировав вызов time.sleep(). 
Таким образом, мы ждем четверть секунды после каждого вызова,
так что сервер может "опередить" нас и отправить больше данных, прежде чем мы называем recv() еще раз.
С задержкой вывод программы будет другим.

Теперь, кроме первого и последнего вызова recv(), мы получаем 5120 символов каждый раз при запросе новых данных.
Существует буфер между отправкой данных сервером send()
и приемкой данных клиентом recv().
Когда мы ставим задержки между чтениями из буфера, тогда сервер имеет возможность записать больше данных в буфер socket.
Такой способ управления в приложении называется "управление потоком" (flow control).
</pre>

# 4. Retrieving web pages with urllib

<pre>
В то время как мы можем вручную отправлять и получать данные через HTTP с использованием библиотеки sockets,
есть гораздо более простой способ выполнить эту общую задачу в Python с помощью библиотеки urllib.

Используя urllib, вы можете рассматривать веб-страницы так же, как файл.
Вы просто указываете, какие веб-страницы вы хотели бы получить 
и urllib обрабатывает протокол HTTP, заголовки и информацию.

Аналогичный код для чтения файла romeo.txt из Интернета с помощью urllib выглядит следующим образом:
</pre>

In [None]:
import urllib

fhand = urllib.urlopen('http://www.py4inf.com/code/romeo.txt')
for line in fhand:
    print line.strip()

<pre>
После того, как веб-страница была открыта с помощью urllib.urlopen,
мы можем рассматривать ее как файл и прочитать его, используя цикл.

При запуске программы, мы видим только вывод содержимого файла.
Заголовки также присутствуют, но код urllib исключает заголовки и возвращает только данные.

В качестве упражнения напишите программу, которая получает файл romeo.txt и вычисляет частоту каждого слова в файле.
</pre>

In [None]:
# Write your implementation here
import urllib
fhand = urllib.urlopen('http://www.py4inf.com/code/romeo.txt') 
for line in fhand:
    pass

# 5. Parsing HTML and scraping the web

<pre>
Одной из возможностей urllib в Python является возможность скрапить (scrape) Интернет.

Под веб скрапингом подразумевается программа, которая имитирует поведение веб-браузера для извлечения страниц 
с последующим анализом данных на этих страницах.

Например, поисковая система Google анализирует содержимое одной веб-страницы,
извлекает из нее ссылки на другие страницы, запрашивает эти страницы, извлекает из них ссылки, и так далее.

Используя эту технику, пауки (spiders) Google обходят почти все страницы в Интернете.

Google также использует частоту ссылок на конкретную страницу с других страниц в качестве одной из метрик, 
насколько "важна" страница, и как высоко страница должна появиться в результатах поиска.
</pre>

# 6. Parsing HTML using regular expressions

<pre>
Одним из простых способов разбора HTML является использование регулярных выражений для поиска и извлечения подстроки, которые соответствуют определенному шаблону.

Ниже представлен пример простой веб-страницы:
</pre>

```
    <h1>The First Page</h1>
    <p>
    If you like, you can switch to the
    <a href="http://www.dr-chuck.com/page2.htm"> Second Page</a>.
    </p>

```

<pre>
Мы можем построить регулярное выражение для поиска и извлечения значения ссылку из текста выше следующим образом:

    href="http://.+?"

Наша регулярное выражение ищет строки, которые начинаются с "href="http://"
а затем один или более символов ("+.?"), затем еще одни двойные кавычки.
Знак вопроса, добавленный к "+.?" указывает на то, что поиск совпадений будет сделан в режиме "не жадный".

Мы добавим скобки в наше регулярное выражение, чтобы указать, какую часть нашей совпавшей строки мы хотели бы извлечь.
Метод  регулярного выражения findall даст нам список всех строк, которые соответствуют нашему регулярному выражению, возвращая только текст ссылки между двойными кавычками.
</pre>

In [None]:
import urllib
import re

url = raw_input('Enter a url: ')
html = urllib.urlopen(url).read()
links = re.findall('href="(http://.*?)"', html)
for link in links:
    print link

<pre>
Регулярные выражения работают хорошо, когда HTML правильно сформирован.
Но так как судествует много "битых" HTML-страниц,
решение с использоваинем регулярных выражений может либо пропустить некоторые действительные ссылки или в конечном итоге вернуть плохие данные.

Это может быть решено с помощью  библиотеки HTML парсера.
</pre>

# 7. Parsing HTML using scrapy 

<pre>
Существует ряд библиотек Python, которые помогают обрабатывать HTML и извлекать данные из страниц.
Каждая из библиотек имеет свои сильные и слабые стороны, и выбор делается в зависимости от потребностей.
В качестве примера расмотрим простой парсер HTML и извлечение ссылок, используя библиотеку scrapy.
Вы можете скачать и установить библиотеку scrapy:

    http://scrapy.org
    
Scrapy позволяет легко извлекать необходимые данные из html и xml документов.
Мы будем использовать urllib для получения страницы,
а затем использовать scrapy для извлечения href атрибутов из тега (a).
</pre>

In [None]:
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
import urllib

url = raw_input('Enter a url: ')
html = urllib.urlopen(url).read()

# Retrieve all of the anchor tags 
tags = Selector(text=html).xpath('//a/@href').extract()
for tag in tags:
    print tag

<pre>
Можно использовать scrapy для извлечения разных атрибутов тега.
</pre>

In [None]:
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
import urllib

urls = ["http://ubotstudio.com/",
       "http://www.80legs.com/",
       "http://docs.seleniumhq.org/",
       "http://www.scrapy.org",
       "http://casperjs.org/",
       "http://nutch.apache.org/",
       "http://nokogiri.org/"]

for url in urls:
    html = urllib.urlopen(url).read()

    # Retrieve all of the anchor tags 
    tags = Selector(text=html).xpath('//title/text()').extract()
    for tag in tags:
        print tag

# 8. Reading binary files using urllib

<pre>
Иногда необходимо получить не текст а двоичный файл, 
например, файл в виде изображения или видео.

Данные в этих файлах, как правило, не предназначены для печати, но можно легко скопировать url в локальный файл на жестком диске с помощью urllib.

Схема выглядит следующим образом: открыть url, загрузить все содержимое документа в строковую переменную и записать эту информацию в локальный файл.
</pre>

In [None]:
img = urllib.urlopen('http://www.py4inf.com/cover.jpg').read()
with open('cover.jpg', 'w') as f:
    f.write(img)

<pre>
Эта программа читает все данные сразу и сохраняет его в переменной img в основной памяти компьютера, 
а затем открывает файл cover.jpg и записывает данные на диск.
Данный подход будет работать, если размер файла меньше, чем размер памяти вашего компьютера.

Однако, если это большой аудио или видео файл, эта программа может зависнуть 
или по крайней мере работать крайне медленно, так как размер оперативной памяти компьютера будет исчерпан.
Для того, чтобы избежать нехватки памяти, мы принимаем данные блоками,
а затем записываем каждый блок на диск перед извлечением следующего блока.
Таким образом, программа может прочитать любой размер файла, не используя всю память компьютера.

В этом примере, мы читаем только 100000 символов за раз,
а затем записываем полученные данные в файл cover.jpg перед извлечением следующего блока данных в 100000 символов из Интернета.
</pre>

In [None]:
import urllib
img = urllib.urlopen('http://www.py4inf.com/cover.jpg') 
fhand = open('cover.jpg', 'w')
size=0
while True:
    info = img.read(100000) 
    if len(info)<1 : break 
    size += len(info)
    fhand.write(info)
print size,'characters copied.' 
fhand.close()

# Exercises

## 1.
<pre>
В качестве упражнения модифицируйте предыдущую программу таким образом, чтобы:

    - url задавался пользователем (raw_input)
    - имя файла на диске совпадало с именем файла, полученным из интернет, то есть, для url http://www.w3.org/Protocols/rfc2616/rfc2616.txt соответсвовало имя файла rfc2616.txt. Подсказка: используйте метод split() для разделения строки url на отдельные слова
</pre>

In [None]:
# Add your implementation
import urllib
img = urllib.urlopen('http://www.py4inf.com/cover.jpg') 
fhand = open('cover.jpg', 'w')
size=0
while True:
    info = img.read(100000) 
    if len(info)<1 : break 
    size += len(info)
    fhand.write(info)
print size,'characters copied.' 
fhand.close()

## 2.

<pre>
В качестве упражнения модифицируйте следующую программу таким образом, чтобы:

    - url задавался пользователем (raw_input)
    - используя метод split("/") разделите url на составляющие для извлечения и передачи имени хоста методу connect()
    - добавьте обработку исключений try / except для случаев некорректного ввода пользователем адреса. Подсказка: используйте тип исключения socket.error
</pre>

In [None]:
# Add your implementation
import socket

mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
mysock.connect(('www.py4inf.com', 80))
mysock.send('GET http://www.py4inf.com/code/romeo.txt HTTP/1.0\n\n')

while True:
    data = mysock.recv(100)
    if (len(data)<1):break
    print data

mysock.close()

## 3.

<pre>
Измените программу socket таким образом, чтобы она подсчитывала количество символов, 
которые она получила, и перестала отображать текст после того, как было выведено на экран 3000 символов.
Программа должна извлечь весь документ и подсчитать общее число символов и отобразить общее количество полученных символов в конце документа.
</pre>

In [None]:
# Add your implementation
import socket

mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
mysock.connect(('www.py4inf.com', 80))
mysock.send('GET http://www.py4inf.com/code/romeo.txt HTTP/1.0\n\n')

while True:
    data = mysock.recv(100)
    if (len(data)<1): break
    print data

mysock.close()

## 4.

<pre>
Перепишите предыдущую программу, используя urllib вместо socket.
</pre>

In [None]:
# Add your implementation
import urllib

fhand = urllib.urlopen('http://www.py4inf.com/code/romeo.txt')
for line in fhand:
    print line.strip()

## 5.

<pre>
Измените следующую программу таким образом, чтобы:

    - извлечь и подсчитать количество тегов (р) из извлеченного HTML документа и отобразить подсчитанное число параграфов в качестве выхода программы.
    
Проверьте вашу программу на нескольких веб-страницах.
</pre>

In [None]:
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
import urllib

url = raw_input('Enter a url: ')
html = urllib.urlopen(url).read()

# Retrieve all of the anchor tags 
tags = Selector(text=html).xpath('//a/@href').extract()
for tag in tags:
    print tag
    
# test 
html = """<h1>The First Page</h1>
    <p>
    If you like, you can switch to the
    <a href="http://www.dr-chuck.com/page2.htm"> Second Page</a>.
    </p><p>p</p>"""

## 6.

<pre>
Измените программу socket таким образом, чтобы она показывала только данные без заголовка.
Помните, что recv() получает символы, не сроки.
</pre>

In [None]:
# Add your implementation
import socket

mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
mysock.connect(('www.py4inf.com', 80))
mysock.send('GET http://www.py4inf.com/code/romeo.txt HTTP/1.0\n\n')

while True:
    data = mysock.recv(100)
    if (len(data)<1): break
    print data

mysock.close()