##Окружение with для открытия файлов

Сначала создадим файл, который будем открывать. Пусть это будет test_123.py. Если у вас в папке с ноутбуком лежит файл с таким названием, который очень ценен для вас, то замените filename на что-то другое.

In [7]:
filename = 'test_123.py'

In [23]:
f = open(filename, 'w')
f.write("print('Hello, world!!!')")
f.close()

Стандартная проблема с файлами состоит в том, чтобы любой открытый файл должен быть закрыт. На предыдущей лекции я показал вам такой синтаксис

In [10]:
open(filename).read()

"print('Hello, world!!!')"

Проблема с таким синтаксисом в том, что файл неизвестно когда будет закрыт. Хотя в некоторых проектах и используют такой код, но это плохо. Лучше делать вот так:

In [11]:
with open(filename) as f:
    print(f.read())

print('Hello, world!!!')


Такой синтаксис подразумевает, что после того как закончится отступ файл будет автоматически закрыт.

In [12]:
with open(filename) as f:
    print(f.read())
    f.seek(0)
    print(f.read())

print('Hello, world!!!')
print('Hello, world!!!')


Напомню, что f.seek(0) в коде сверху переходит в начало файла, чтобы мы могли второй раз считать файл с начала.

Теперь попробуем что-нибудь сделать с файлом после отступа.

In [13]:
with open(filename) as f:
    print(f.read())
    f.seek(0)
    print(f.read())
print(f.read())

print('Hello, world!!!')
print('Hello, world!!!')


ValueError: I/O operation on closed file.

Как видим файл уже был закрыт к этому моменту.

Важно сказать, что даже если вы не забудете f.close() вы можете не дойти до него потому что произошла какая-то ошибка по дороге. В коде ниже после того, как файл был открыт, происходит деление на 0. Конструкция
try:
    something
except Name_of_some_error:
    do_something_else

позволяет в случае, если произошла ошибка типа Name_of_some_error не заканчивать программу со словами "Все пропало! Ошибка!", а тут же передать управление блоку do_something_else, который что-нибудь сделает. Интересно, что в блоке do_something_else в примере ниже файл оказался все еще открытым, что плохо. Это можно сравнить с ситуацией: вы поставили чайник на плиту, но тут вам срочно позвонили и вы убежали, а огонь остался непогашенным.

In [19]:
try:
    f = open(filename)
    print(f.read())
    print(10/0)
    print('This is never been printed')
    f.close()
except ZeroDivisionError:
    print("Ups, I did it again!")
    f.seek(0)
    print(f.read())
    

print('Hello, world!!!')
Ups, I did it again!
print('Hello, world!!!')


А здесь ситуация такая: хотя мы и убежали по срочному звонку, но умный чайник тут же сам выключился. Как видим при попытке читать из уже закрытого файла мы получаем ошибку, и это хорошо, значит, файл закрылся несмотря на ошибку.

In [20]:
try:
    with open(filename) as f:
        print(f.read())
        print(10/0)
        print('This is never been printed')
except ZeroDivisionError:
    print("Ups, I did it again!")
    print(f.read())
    

print('Hello, world!!!')
Ups, I did it again!


ValueError: I/O operation on closed file.

##Дописывание в файл

Иногда нам нужно не перезаписать файл с нуля, а дописать какую-то информацию в конец файла. Для этого нужно открывать файл с модификатором 'a' вот так:

In [24]:
with open(filename, 'a') as f:
    print("\n" + "print('Some new string')", file = f)

Проверим, что старое содержимое осталось на месте

In [25]:
with open(filename) as f:
    print(f.read())

print('Hello, world!!!')
print('Some new string')



Как видим, все ок.

#Извлечение данных из веб-страниц

##Модуль requests

Если у вас не сработает строчка ниже, то сделайте pip install requests в командной строке.

In [26]:
import requests

requests позволяет получать доступ к веб-страницам. Я не буду вдаваться в подробности протокола http, но надо понимать, что есть 2 распространенных способа доступа к веб-страницам: запрос типа get и типа post. Запрос типа get - это когда вы передаете серверу какую-то информацию в адресной строке. Например, если вы перейдете по такому адресу:
"https://www.google.ru/?q=python анализ данных вшэ"
(кавычки убрать), то этим вы просите гугл искать по запросу "python анализ данных вшэ". 
post-запрос - это когда вам нужно ввести информацию в какую-нибудь форму, например, ввести логин-пароль.

In [27]:
r = requests.get('http://vyshka.math.ru')

Чтобы проверить, что страница нормально загрузилась есть команда

In [28]:
r.ok

True

Значение True говорит о том, что все прошло нормально.

In [31]:
q = requests.get('http://vyshka.math.ru/ajlfdjalsdjf')
print(q.ok)

False


Мы попытались перейти по несуществующей странице и она не загрузилась. Вернемся к успешному запросу r. Посмотрим на html исходник страницы командой

In [33]:
print(r.text)

<html>

<head>

   <title>HSE: Math department</title>

   <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=koi8-r">

</head>

<body bgcolor="#F5DEB3">

<!--begin of Top100 code -->

<a href="http://top100.rambler.ru/top100/">

<img src="http://counter.rambler.ru/top100.cnt?188597" alt="" width=1
height=1 border=0></a>

<!--end of Top100 code-->


<h1>æÁËÕÌØÔÅÔ ÍÁÔÅÍÁÔÉËÉ îéõ ÷ûü</h1>

<table cellspacing=10>
<tr>
  <td align="left" valign="center" width=195>
    <img src="img/matfak.jpg"
         alt="äÏÍ ÎÁ ÷Á×ÉÌÏ×Á"
         width=193 height=398
         align="right">
  </td>
  <td align="left">
      üÔÏÔ ÓÁÊÔ, ÐÏÄÄÅÒÖÉ×ÁÅÍÙÊ ÎÅÓËÏÌØËÉÍÉ ÓÏÔÒÕÄÎÉËÁÍÉ ÆÁËÕÌØÔÅÔÁ, ÚÁÄÕÍÁÎ 
      ËÁË ÄÏÐÏÌÎÅÎÉÅ Ë <a href="http://math.hse.ru/">ÏÆÉÃÉÁÌØÎÏÍÕ ÓÁÊÔÕ 
      ÆÁËÕÌØÔÅÔÁ ÍÁÔÅÍÁÔÉËÉ</a> ÷ÙÓÛÅÊ ÛËÏÌÙ ÜËÏÎÏÍÉËÉ (<a 
      href="http://hse.ru">îéõ ÷ûü</a>). íÙ ÐÌÁÎÉÒÕÅÍ ÒÁÚÍÅÝÁÔØ ÚÄÅÓØ 
      ÍÁÔÅÒÉÁÌÙ ËÕÒÓÏ× É ÉÎÆÏÒÍÁÃÉÀ Ï ÔÅËÕÝÉÈ ÄÅÌÁÈ.
      </font>
  </td>
</table>

<h2>ëÕÒÓÙ 2015/1

Это html-страница. html - это такой язык разметки, являющийся частным случаем стандарта SGML. Другим частным случаем SGML является XML, с которым мы еще встретимся. Напишем простенькую html страницу. Удобнее всего это делать в каком-либо редакторе. Но я запишу ее в файл через ноутбук.

In [40]:
my_html = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset = "UTF-8">
    <title>Title</title>
</head>
<body>
<h1>Hello</h1>
<p>I'm a paragraph.</p>
<hr>
<ol>
    <li>One </li>
    <li>Two </li>
</ol>
    
</body>
</html>
'''

In [41]:
with open('my.html', 'w') as f:
    f.write(my_html)

Откройте my.html браузером и вы увидите простую веб-страничку. Видно что html разбит на специальные фрагменты, которые называются тэгами. В тексте выше есть тэги: html, head, title и т.д. Каждый тэг отмечает какой-то кусочек веб-страницы. Тэг title - это заголовок страницы. Тэг ol - отмечает упорядоченный лист. Тэг p - параграф. Тэг li отвечает элементу упорядоченного листа.  Все тэги здесь парные кроме тэга hr, который рисует горизонтальную линию (он работает и без </hr>).
Фактически html-страница представляет собой набор вложенных тэгов. Можно сказать, что это дерево с корнем в тэге html. У каждого тэга есть потомки - те тэги, которые непосредственно вложены в него. Например, у тэга body потомки h1, p, hr, ol. Получается генеалогическое древо.

html нас интересует с целью извлечения информации из такого дерева. Давайте вставим в html таблицу.

In [43]:
my_html = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset = "UTF-8">
    <title>Title</title>
</head>
<body>
<h1>Hello</h1>
<p>I'm a paragraph.</p>
<hr>
<ol>
    <li>One </li>
    <li>Two </li>
</ol>
<table border = "1">
    <tr>
        <td>
            1
        </td>
        <td>
            2
        </td>
    </tr>
        <td>
            3
        </td>
        <td>
            4
        </td>
    <tr>
    </tr>
</table>
</body>
</html>
'''
with open('my.html', 'w') as f:
    f.write(my_html)

Подобная страница уже была загружена на сервер во время лекции. Давайте загрузим ее с помощью requests.

In [77]:
r = requests.get('http://schurov.com/test.html')

##BeautifulSoup

Для обработки веб-страниц существует множество модулей. Проблема с html в том, что большинство браузеров ведет себя прощающе, и поэтому в вебе много плохо-написанных (не по стандарту html) html-страниц.

Мы будем пользоваться модулем beautifulsoup4

In [78]:
from bs4 import BeautifulSoup

In [79]:
page = BeautifulSoup(r.text)

In [80]:
page

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Title</title>
</head>
<body>
<h1>Hello</h1>
<p>I'm paragraph.</p>
<hr/>
<ol>
<li>One</li>
<li>Two</li>
</ol>
<table border="1">
<tr>
<td>
            1
        </td>
<td>
            2
        </td>
</tr>
<tr>
<td>
            3
        </td>
<td>
            4
        </td>
</tr>
</table>
</body>
</html>

Мы видим, что объект page очень похож на строку - html, но, на самом деле, это не просто строка. К page можно делать запросы. Например:

In [81]:
page.html

<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Title</title>
</head>
<body>
<h1>Hello</h1>
<p>I'm paragraph.</p>
<hr/>
<ol>
<li>One</li>
<li>Two</li>
</ol>
<table border="1">
<tr>
<td>
            1
        </td>
<td>
            2
        </td>
</tr>
<tr>
<td>
            3
        </td>
<td>
            4
        </td>
</tr>
</table>
</body>
</html>

Теперь мы видим только то, что внутри тэга html. Мы можем пойти еще глубже, и получить то, что находится внутри тэга body

In [82]:
page.html.body

<body>
<h1>Hello</h1>
<p>I'm paragraph.</p>
<hr/>
<ol>
<li>One</li>
<li>Two</li>
</ol>
<table border="1">
<tr>
<td>
            1
        </td>
<td>
            2
        </td>
</tr>
<tr>
<td>
            3
        </td>
<td>
            4
        </td>
</tr>
</table>
</body>

Одним из потомков body является table. Ее можно получить вот так.

In [83]:
page.html.body.table

<table border="1">
<tr>
<td>
            1
        </td>
<td>
            2
        </td>
</tr>
<tr>
<td>
            3
        </td>
<td>
            4
        </td>
</tr>
</table>

Допустим, что мне нужно получить несколько элементов с одинаковым тэгом, например, все строки tr. Для этого используется такой синтаксис:

In [84]:
page.html.body.table.findAll('tr')

[<tr>
 <td>
             1
         </td>
 <td>
             2
         </td>
 </tr>, <tr>
 <td>
             3
         </td>
 <td>
             4
         </td>
 </tr>]

Мы видим, что это список из двух элементов. Так что по нему можно пройти циклом.

In [86]:
for i, row in enumerate(page.html.body.table.findAll('tr')):
    print(i)
    print(row)

0
<tr>
<td>
            1
        </td>
<td>
            2
        </td>
</tr>
1
<tr>
<td>
            3
        </td>
<td>
            4
        </td>
</tr>


У нас есть 2 строчки и каждая из них является таким же объектом BeautifulSoup, как и все предыдущие. Так что к ним можно применить конструкцию row.td

In [87]:
for i, row in enumerate(page.html.body.table.findAll('tr')):
    print(i)
    print(row.td)

0
<td>
            1
        </td>
1
<td>
            3
        </td>


МЫ видим, что если внутри row несколько td, то row.td возьмет первый из них. Поэтому мы получили первый столбец. Но нас интересует не сам тэг td, а число, которое там лежит. Его можно напечатать вот так.

In [88]:
for i, row in enumerate(page.html.body.table.findAll('tr')):
    print(i)
    print(row.td.string)

0

            1
        
1

            3
        


Видно, что перед числом идут ненужные пробелы. Удалим их командой strip

In [89]:
for i, row in enumerate(page.html.body.table.findAll('tr')):
    print(i)
    print(row.td.string.strip())

0
1
1
3


Давайте загрузим таблицу в виде списка списков

In [94]:
table = []
for i, row in enumerate(page.html.body.table.findAll('tr')):
    table.append([])
    for cell in row.findAll('td'):
        table[-1].append(cell.string.strip())
    
print(table)

[['1', '2'], ['3', '4']]


Вот то же самое, но короче с помощью list comprehensions

In [98]:
table = []
for row in page.html.body.table.findAll('tr'):
    table.append([cell.string.strip() for cell in row.findAll('td')]) 
print(table)

[['1', '2'], ['3', '4']]


Или еще короче

In [99]:
table = [[cell.string.strip() for cell in row.findAll('td')] 
         for row in page.html.body.table.findAll('tr')]
print(table)

[['1', '2'], ['3', '4']]


Заметим, что вместо some_beautiful_soup_objec.findAll('sometag') можно писать короче some_beautiful_soup_object('sometag'). Так что можно написать еще короче

In [100]:
table = [[cell.string.strip() for cell in row('td')] 
         for row in page.html.body.table('tr')]
print(table)

[['1', '2'], ['3', '4']]


У тэгов кроме названия есть еще свойства, такие как lang у html и border у table. Важным тэгом является тэг a, который создает ссылку. У него есть свойство href, которое хранит собственно ссылку. Например:

In [None]:
<a href="http://top100.rambler.ru/top100/">

Теперь представим себе, что мы хотим сделать робота, который будет ходить по веб-страницам, и переходить с одной страницы на другую по ссылкам. Тогда мы сталкиваемся с задачей извлечь из страницы все гиперссылки.
Для этого нужно найти все тэги a на странице, и у всех них взять параметр href. Для начала покажем как получить свойство объекта, например, border у table. Это делается так как будто наш объект словарь, и мы берем его значение по ключу.

In [101]:
page.html.body.table['border']

'1'

Если запросить свойство, которое тэг не имеет, то мы получим KeyError, как и со словарем.

In [102]:
page.html.body.table['ывафыа']

KeyError: 'ывафыа'

Так же, как у словаря, есть метод get, который ничего не возвращает, если такого свойства нет. Или возвращает значение по умолчанию, определенное нами.

In [104]:
page.html.body.get('ывафыа')

In [105]:
page.html.body.get('ывафыа', 'no')

'no'

Теперь извлечем все ссылки с какого-нибудь сайта

In [106]:
r = requests.get('http://vyshka.math.ru')
page = BeautifulSoup(r.text)

Вот все ссылки на нашей странице. Как видим findAll ищет не только по непосредственным "детям" какой-то вершины (в генеалогических терминах), но и по всем потомкам.

In [107]:
page('a')

[<a href="http://top100.rambler.ru/top100/">
 <img alt="" border="0" height="1" src="http://counter.rambler.ru/top100.cnt?188597" width="1"/></a>,
 <a href="http://math.hse.ru/">ÏÆÉÃÉÁÌØÎÏÍÕ ÓÁÊÔÕ 
       ÆÁËÕÌØÔÅÔÁ ÍÁÔÅÍÁÔÉËÉ</a>,
 <a href="http://hse.ru">îéõ ÷ûü</a>,
 <a href="1516/topology2.php">÷×ÅÄÅÎÉÅ × ÔÏÐÏÌÏÇÉÀ</a>,
 <a href="1516/algebra2.php">áÌÇÅÂÒÁ</a>,
 <a href="1516/funcan.php">æÕÎËÃÉÏÎÁÌØÎÙÊ ÁÎÁÌÉÚ</a>,
 <a href="1516/DiffGeom.php">äÉÆÆÅÒÅÎÃÉÁÌØÎÁÑ ÇÅÏÍÅÔÒÉÑ</a>,
 <a href="1516/tvs.php">ôÏÐÏÌÏÇÉÞÅÓËÉÅ ×ÅËÔÏÒÎÙÅ ÐÒÏÓÔÒÁÎÓÔ×Á</a>,
 <a href="1516/basic.php">ïÓÎÏ×ÎÙÅ ÐÏÎÑÔÉÑ ÍÁÔÅÍÁÔÉËÉ</a>,
 <a href="0809/0809.html">2008/09</a>,
 <a href="0910/0910.html">2009/10</a>,
 <a href="1011/1011.html">2010/11</a>,
 <a href="1112/1112.html">2011/12</a>,
 <a href="1213/1213.php">2012/13</a>,
 <a href="1415/1415.php">2014/15</a>]

Напечатаем сами ссылки

In [108]:
for link in page("a"):
    print(link['href'])

http://top100.rambler.ru/top100/
http://math.hse.ru/
http://hse.ru
1516/topology2.php
1516/algebra2.php
1516/funcan.php
1516/DiffGeom.php
1516/tvs.php
1516/basic.php
0809/0809.html
0910/0910.html
1011/1011.html
1112/1112.html
1213/1213.php
1415/1415.php


Тут есть гиперссылки, которые начинаются с http, и локальные, которые ведут на тот же сайт. 