# Уроки по Python3
## Системное программирование


### Регулярные выражения (re)

Регулярные выражения – это небольшой язык, который вы можете использовать внутри Python и многих других языках программирования. Зачастую регулярные выражения упоминаются как **regex**, **regexp** или просто **re** (от reuglar expressions). Такие языки как Perl и Ruby фактически поддерживают синтаксис регулярных выражений прямо в собственном языке. Python же поддерживает благодаря библиотеки, которую вам нужно импортировать:

In [1]:
import re

Основное использование регулярных выражений – это сопоставление строк. Вы создаете правила сопоставления строк, используя регулярные выражения, после чего вы применяете их в строке, чтобы увидеть, присутствуют ли какие-либо сопоставления.

**Согласуемые символы**

Когда вам нужно найти символ в строке, в большей части случаев вы можете просто использовать этот символ или строку. Так что, когда нам нужно проверить наличие слова «dog», то мы будем использовать буквы в dog. Конечно, существуют определенные символы, которые заняты регулярными выражениями. Они так же известны как метасимволы. Внизу изложен полный список метасимволов:

. ˆ $ * + ? { } [ ] | ( )

Основная связка метасимволов, с которой вы будете сталкиваться, это квадратные скобки: **[ и ]**. Они используются для создания «класса символов», который является набором символов, которые вы можете сопоставить. Вы можете отсортировать символы индивидуально, например, так: **[xyz]**. Это сопоставит любой внесенный в скобки символ. Вы также можете использовать тире для выражения ряда символов, соответственно: **[a-g]**. В этом примере мы сопоставим одну из букв в ряде между a и g. Фактически для выполнения поиска нам нужно добавить начальный искомый символ и конечный. Чтобы упростить это, мы можем использовать звездочку. Вместо сопоставления *, данный символ указывает регулярному выражению, что предыдущий символ может быть сопоставлен 0 или более раз. 

Пример шаблона регулярного выражения **'a[b-f]&ast;f'** показывает, что мы ищем букву **«a»**, ноль или несколько букв из списка **[b-f]** (&ast; говорит как раз о количестве вхождений с нуля) и поиск должен закончиться на **«f»**. Давайте используем это выражение:

In [2]:
match = re.search('a[b-f]*f', 'abcdfghijk')
print(match.group()) # 'abcdf'

abcdf


В общем, это выражение просмотрит всю переданную ей строку, в данном случае это **abcdfghijk**.
Выражение найдет нашу букву **«a»** в начале поиска. Затем, в связи с тем, что она имеет класс символа со звездочкой в конце, выражение прочитает остальную часть строки, что бы посмотреть, сопоставима ли она. Если нет, то выражение будет пропускать по одному символу, пытаясь найти совпадения. Вся магия начинается, когда мы вызываем поисковую функцию **search** модуля **re**. Если мы не найдем совпадение, тогда мы получим **None**. В противном случае, мы получим объект **Match**. Чтобы увидеть, как выглядит совпадение, вам нужно вызывать метод **group**.

Символу **«+»** необходимо как минимум одно вхождение искомого символа:

In [3]:
match = re.search('a[b-f]+f', 'abfghijk') # если будет только af, то выдаст ошибку
print(match.group()) # 'abf'

abf


Символ **«.»** (точка) обозначает любой символ кроме символа перевода строки \n

In [4]:
match = re.search('a.f', 'abfghijk') # если будет только af, то выдаст ошибку
print(match.group()) # 'abf'

abf


Символ знака вопроса **«?»** ставится в том случае, если предыдущий символ может повторяться в выражении 0 или 1 раз, например: 

In [5]:
match = re.search('co-?op', 'co-op') # выражение 'co-?op' будет находить и 'coop' и 'co-op'
print(match.group())

co-op


Последний повторяемый метасимвол это **{a,b}**, где **«a»** и **«b»** являются десятичными целыми числами. Это значит, что должно быть не менее **«а»** повторений, но и не более **«b»**. Вы можете попробовать что-то на подобии этого:

In [6]:
match = re.search('a{1,3}', 'aaaa')
print(match.group()) # 'aaa'

aaa


Следующий метасимвол это **«^»**. Этот символ позволяет нам сопоставить символы которые не находятся в списке нашего класса. Другими словами, он будет дополнять наш класс. Это сработает только в том случае, если мы разместим **«^»** внутри нашего класса. Если этот символ находится вне класса, тогда мы попытаемся найти совпадения с данным символом. Наглядным примером будет следующий: **[ˆa]**. Так, выражения будет искать совпадения с любой буквой, **кроме «а»**:

In [7]:
match = re.search('[^a]', 'aaba')
print(match.group()) # 'b'

b


Символ **«^»** также используется как анкор, который обычно используется для совпадений **в начале строки**. Существует соответствующий якорь и для конца строки – **«$»**.

**Коды поиска**

Существует несколько специальных выражений, которые вы можете использовать в регулярных выражениях. Вот короткий список с кратким пояснением каждого кода:

- **.** точка обозначает любой символ, кроме символа перевода строки '\n'
- **\d** соответствует любой цифре ([0-9])
- **\D** соответствует не цифре ([^0-9])
- **\s** соответствует пустому полю (пробел или табуляция) ([ \t\n\r\f\v])
- **\S** соответствует заполненному полю ([^ \t\n\r\f\v])
- **\w** соответствует алфавитно-цифровому значению или знаку подчеркивания ([A-Za-z0-9_])
- **\W** соответствует не алфавитно-цифровому значению ([^a-zA-Z0-9_])
- **\t, \n, \r** табуляция, новая строка, перевод каретки
- **\b** соответствует пустой строке, но только в начале или в конце слова; под словом понимается последовательность алфавитно-цифровых или символов подчеркивания, таким образом конец слова определяется пробелом или неалфавитно-цифровым символом и не символом подчеркивания; формально \b определяется как граница между символами \w и \W (или наоборот), или между \w и началом/концом строки; например, r'\bfoo\b' соответствует 'foo', 'foo.', '(foo)', 'bar foo bar', но не 'foobar' или 'foo3'.
- **^, $** соответствует началу и концу строки
- **\** подавляют "специализированность" символа; так, например, \. означает точку или \\ означает слэш; если вы не уверены, есть ли у символа специальное значение, как например у @, вы можете поставить перед ним \, чтобы быть уверенным, что @ используется просто как символ.

Вы можете использовать эти коды внутри класса символа вот так: **[\d]**. Таким образом, это позволит нам найти любую цифру, находящейся в пределе от 0 до 9. 

In [8]:
match = re.search(r'..т', 'привееет')
print(match.group())

еет


In [9]:
match = re.search(r'\w\w\w', '@#$asdf%^&*')
print(match.group())

asd


In [10]:
match = re.search(r'\d\d\d', 'w123xyz')
print(match.group())

123


In [11]:
match = re.search(r'\w{4}', '@#$asdf%^&*') # повторения
print(match.group())

asdf


In [12]:
match = re.search(r'i+', 'piiig') # i+ соответствует любому количеству символов i подряд
print(match.group())

iii


In [13]:
match = re.search(r'л+', 'параллелограмм') # возвращает первое вхождение л+
print(match.group())

лл


In [14]:
# поиск 3 цифр, возможно разделенных пробелами
match = re.search(r'\d\s*\d\s*\d', 'xx1 2   3xx')
print(match.group())

match = re.search(r'\d\s*\d\s*\d', 'xx12  3xx')
print(match.group())

match = re.search(r'\d\s*\d\s*\d', 'xx123xx')
print(match.group())

1 2   3
12  3
123


In [15]:
match = re.search(r'^b\w+', 'foobar') # символ ^ - означает начало строки, так что совпадений с таким шаблоном не будет
print(match)

None


In [16]:
match = re.search(r'b\w+', 'foobar') # а без ^ все нормально
print(match.group())

bar


In [17]:
match = re.search(r'foo\d+$', 'foo1barfoo2') # $ означает конец строки
print(match.group())

foo2


In [18]:
s = 'письма лично на почту a.vavilov-home@gmail.com ношу'

In [19]:
match = re.search(r'\w+@\w+', s) # найдем строку email
if match:
    print(match.group())

home@gmail


### Наборы символов

Для указания набора символов, как уже было сказано выше, используются квадратные скобки. Например, **[abc]** соответствуетсимволам **"a"** или **"b"** или **"c"**. Метасимволы теряют своё специальное значение внутри наборов символов (квадратных скобок). Например, **[(+&ast;)]** будет соответствовать любому из этих символов – '(', '+', '*', ')'. Классы символов, такие как \w, \s и т.п., также работают внутри наборов.

In [20]:
match = re.search(r'[\w+.-]+@[\w.-]+', s) # наборы символов
if match:
    print(match.group())

a.vavilov-home@gmail.com


### Группировка

Возможность работать с группами в регулярных выражениях позволяет выделять из текста нужные части по шаблону. Например, мы хотим извлечь части email по отдельности – имя пользователя и домен. Для этого, в регулярном выражении обрамим круглыми скобками имя пользователя и домена:

In [21]:
match = re.search(r'([\w+.-]+)@([\w.-]+)', s)
if match:
    print(match.group())
    print(match.group(1), 'и', match.group(2))

a.vavilov-home@gmail.com
a.vavilov-home и gmail.com


Если поиск шаблона в тексте будет успешен, то **match.group(1)** будет содержать текст, соответствующий содержимому 1-й скобки слева, а **match.group(2)** содержать текст, соответствующий содержимому 2-й скобки. **match.group()** по-прежнему будет содержать весь текст, как обычно.<br>
Обычно, при работе с регулярными выражениями удобно придерживаться следующего порядка: сначала написать шаблон для всего искомого фрагмента текста, а затем добавить круглые скобки для определения групп извлечения из текста нужных вам частей.

### Функция findall

Функция **findall** является самой мощной функцией модуля **'re'**. Мы использовали **re.search()**, чтобы найти первое соответствие шаблону. **findall()** находит все соответствия и возвращает их в виде списка строк, каждая из которых представляет одно соответствие.

In [22]:
s = 'some text abc@xyz.com foo bar alice-in-chains@gmail.com, \
freddie@queen.co.uk and on and on and on'

In [23]:
emails = re.findall(r'[\w.-]+@[\w.-]+', s)
print(emails)

['abc@xyz.com', 'alice-in-chains@gmail.com', 'freddie@queen.co.uk']


Если шаблон включает в себя 2 или более группы скобок, то вместо того, чтобы возвращать список строк, **findall()** вернет список кортежей.

In [24]:
emails = re.findall(r'([\w.-]+)@([\w.-]+)', s) # извлекаем имя и домен отдельно
print(emails)

[('abc', 'xyz.com'), ('alice-in-chains', 'gmail.com'), ('freddie', 'queen.co.uk')]


Дополнение: иногда в вашем шаблоне есть сгруппированные скобками ( ) выражения, но вы не хотите извлекать их содержимое. В этих случаях напишите скобки с **?:** в начале, то есть **(?:...)**, и тогда содержимое этой группы не попадет в результат.

In [25]:
emails = re.findall(r'(?:[\w.-]+)@([\w.-]+)', s) # только домен
print(emails)

['xyz.com', 'gmail.com', 'queen.co.uk']


Чтение из файла и поиск всех подходящих данных по шаблону.

In [26]:
file = open('baby_names.html', encoding='utf8')

table = re.findall(r'''
    <tr>\s*?
        <td .+>(.*?)</td>\s*?
        <td .+>(.*?)</td>\s*?
        <td .+>(.*?)</td>\s*?
        <td .+>(.*?)</td>\s*?
        <td .+>(.*?)</td>\s*?
        <td .+>(.*?)</td>\s*?
        <td .+>(.*?)</td>\s*?
    </tr>''', file.read(), re.DOTALL | re.VERBOSE) # re.DOTALL - ключ говорит о том, что точка может заменять любой символ
print(table[0][1])

 
					Елисей 
				


### Флаги

Флаги компиляции позволяют изменять поведение регулярных выражений. Флаги доступны в модуле под двумя именами: длинным, таким как **IGNORECASE** и коротким, в однобуквенной форме, таким как I. Несколько флагов могут быть заданы в форме **двоичного ИЛИ**; например **re.I | re.M** устанавливает флаги **I и M**.

**re.I** или **re.IGNORECASE**<br>
&emsp;&emsp;Выполняет сравнение без учета регистра; например, [A-Z] будет также соответствовать и строчным буквам.

**re.M** или **re.MULTILINE**<br>
&emsp;&emsp;Если этот флаг указан, спецсимвол «^» означает начало всей строки и также начало каждой строчки (непосредственно следующее после каждого символа новой строки); и символ «\\$» означает конец строчки (непосредственно перед каждым символом новой строки). По умолчанию, «^» означает только начало всей строки, а «\\$» только конец всей строки.

**re.S** или **re.DOTALL**<br>
&emsp;&emsp;Если уставновлен этот флаг специальный символ «.» соответсвует всем символам, включая символ конца строки \n.

**re.X** или **re.VERBOSE**<br>
&emsp;&emsp;Включает многословные (подробные) регулярные выражения, которые могут быть организованы более ясно и понятно. Если указан этот флаг, пробелы в строке регулярного выражения игнорируется, кроме случаев, когда они имеются в классе символов или им предшествует неэкранированный бэкслеш; это позволяет вам организовать регулярные выражения более ясным образом. Этот флаг также позволяет помещать в регулярные выражения комментарии, начинающиеся с «#», которые будут игнорироваться.


### Функция sub

Функция **sub** служит для замены подходящего по шаблону куска текста заданной строкой. Строка замены может включать **'\1'**, **'\2'**, которые ссылаются на текст из **group(1)**, **group(2)** и так далее из исходного текста.

In [27]:
new_s = re.sub(r'([\w.-]+)@([\w.-]+)', r'\1@supermail.com', s)
print(new_s)

some text abc@supermail.com foo bar alice-in-chains@supermail.com, freddie@supermail.com and on and on and on


### Компиляция регулярных выражений

Если у вас есть регулярное выражение, которое вы хотите использовать многократно – его можно скомпилировать при помощи метода **compile()**. Пусть есть некий поисковый запрос и нужно извлечь из него код и удалить из него проблеы и '-'.

In [28]:
code = 'MR 335-035 Уплотнитель расширителя крыла'

In [29]:
code_chars = re.compile(r'[a-zA-Z0-9_ -]+')
if code_chars.match(code): 
    for code in code_chars.findall(code):
        print(re.sub(r'[- ]', '', code))

MR335035




### Работа с системой (os, shutil)

Модули **os** и **shutil** включают множество функций для работы с файловой системой, в том числе и для копирования файлов и каталогов. Импорт этих модулей:

In [30]:
import os
import shutil

Функция **os.listdir(dir)** возвращает список имен файлов в заданной директории (не включая . и ..). Имена файлов просто названия файлов в директории, а не абсолютные пути к ним.

In [31]:
print(os.listdir()) # листинг файлов и директорий из текцщего каталога
print(os.listdir('/')) # листинг файлов и директорий из корневого каталога (C:\ для Windows)

['.ipynb_checkpoints', '01-Preliminaries.ipynb', 'BabyNames.html', 'example.txt', 'example1.txt', 'Geekbrains. Профессия Программист Python (2015)', 'Homework 5_1.py', 'Python 01 - Introduction.ipynb', 'Python 02 - Functional programming.ipynb', 'Python 03 - Working with files.ipynb', 'Python 04 - System programming.ipynb', 'Python 05 - NumPy intro.ipynb', 'Python 06 - Pandas intro 1.ipynb', 'Python 07 - Pandas intro 2.ipynb', 'Python 08 - Scikit-Learn intro.ipynb', 'red_panda.png', 'road.mp4']
['$Recycle.Bin', '1D30A158DDC1', '646FEDC52C0B', 'AD9298188676', 'ADB', 'AMETest', 'AMETest_.units', 'APKTool', 'Binaries', 'BMIDEProjectBackup', 'Boot', 'bootmgr', 'BOOTSECT.BAK', 'Config.Msi', 'd6d61b8672c1492a9e25a6042b9caf', 'Documents and Settings', 'gcc', 'gdiplus.dll', 'hiberfil.sys', 'Intel', 'mfg', 'msdia80.dll', 'MSOCache', 'mylog.log', 'pagefile.sys', 'PerfLogs', 'Program Files', 'Program Files (x86)', 'ProgramData', 'protocbuf', 'Python27', 'RHDSetup.log', 'setup.log', 'src', 'swshar

Функция **os.mkdir(dir_path)** создает одну директорию, а **os.makedirs(dir_path)** создаст директории в заданном пути.

In [32]:
os.mkdir('test') # создание директории test
print(os.listdir())

['.ipynb_checkpoints', '01-Preliminaries.ipynb', 'BabyNames.html', 'example.txt', 'example1.txt', 'Geekbrains. Профессия Программист Python (2015)', 'Homework 5_1.py', 'Python 01 - Introduction.ipynb', 'Python 02 - Functional programming.ipynb', 'Python 03 - Working with files.ipynb', 'Python 04 - System programming.ipynb', 'Python 05 - NumPy intro.ipynb', 'Python 06 - Pandas intro 1.ipynb', 'Python 07 - Pandas intro 2.ipynb', 'Python 08 - Scikit-Learn intro.ipynb', 'red_panda.png', 'road.mp4', 'test']


Функция **os.rmdir(path)** удаляет директорию. Работает только для пустых директорий. Чтобы удалить директорию со всем её содержимым необходимо использовать **shutil.rmtree()**.

In [33]:
os.rmdir('test') # удаление директории test
print(os.listdir())

['.ipynb_checkpoints', '01-Preliminaries.ipynb', 'BabyNames.html', 'example.txt', 'example1.txt', 'Geekbrains. Профессия Программист Python (2015)', 'Homework 5_1.py', 'Python 01 - Introduction.ipynb', 'Python 02 - Functional programming.ipynb', 'Python 03 - Working with files.ipynb', 'Python 04 - System programming.ipynb', 'Python 05 - NumPy intro.ipynb', 'Python 06 - Pandas intro 1.ipynb', 'Python 07 - Pandas intro 2.ipynb', 'Python 08 - Scikit-Learn intro.ipynb', 'red_panda.png', 'road.mp4']


Функция **os.path.join(path1[, path2[, ...]])** объединяет пути к файлу. Например, удобно объединить этой функцией **dir** и **filename**, чтобы получить полный путь к файлу.

In [34]:
print(os.path.join('Users', 'user', 'text.txt'))

Users\user\text.txt


Функция **os.path.abspath(path)** получает путь, возвращает абсолютный путь, например: **/home/vasily/spam/eggs.html**

In [35]:
print(os.path.abspath('example.txt'))

C:\Users\osokin\Downloads\PythonLessons\example.txt


Функция **os.path.dirname(path)** возвращает название директории из заданного пути. Например: **vasily/spam/eggs.html** вернет **vasily/spam**.

In [36]:
print(os.path.dirname('C:\\Users\\osokin\\Downloads\\PythonLessons\\example.txt'))

C:\Users\osokin\Downloads\PythonLessons


Функция **os.path.basename(path)** возвращает название файла. Например, **vasily/spam/eggs.html** вернет **eggs.html**.

In [37]:
print(os.path.basename('C:\\Users\\osokin\\Downloads\\PythonLessons\\example.txt'))

example.txt


Функция **os.path.exists(path)** – истина, если путь path существует.

In [38]:
print(os.path.exists('C:\\Users\\osokin\\Downloads\\PythonLessons'))

True


Функция **os.remove(path_to_file)** удаляет файл.

In [39]:
a = open('test.txt', 'w').write('text '*5) # создадим файл и запишем в него text 5 раз
os.path.exists('test.txt') # проверка существования файла

True

In [40]:
os.remove('test.txt') # удалим файл

**Рекурсивное создание директорий**

In [41]:
path = 'test/subtest/subsubtest'
# os.mkdir(path) # вызовет ошибку
os.makedirs(path)
# os.rmdir(path) # удалит только последнюю директорию subsubtest

**Перебор файлов в директории**

In [42]:
path = 'C:\\Users\\osokin\\Downloads\\PythonLessons'
filenames = os.listdir(path)
for filename in filenames:
    # print(filename) # имя файла
    # print(os.path.join(path, filename)) # путь относительно текущей директории
    print(os.path.abspath(os.path.join(path, filename))) # абсолютный путь

C:\Users\osokin\Downloads\PythonLessons\.ipynb_checkpoints
C:\Users\osokin\Downloads\PythonLessons\01-Preliminaries.ipynb
C:\Users\osokin\Downloads\PythonLessons\BabyNames.html
C:\Users\osokin\Downloads\PythonLessons\example.txt
C:\Users\osokin\Downloads\PythonLessons\example1.txt
C:\Users\osokin\Downloads\PythonLessons\Geekbrains. Профессия Программист Python (2015)
C:\Users\osokin\Downloads\PythonLessons\Homework 5_1.py
C:\Users\osokin\Downloads\PythonLessons\Python 01 - Introduction.ipynb
C:\Users\osokin\Downloads\PythonLessons\Python 02 - Functional programming.ipynb
C:\Users\osokin\Downloads\PythonLessons\Python 03 - Working with files.ipynb
C:\Users\osokin\Downloads\PythonLessons\Python 04 - System programming.ipynb
C:\Users\osokin\Downloads\PythonLessons\Python 05 - NumPy intro.ipynb
C:\Users\osokin\Downloads\PythonLessons\Python 06 - Pandas intro 1.ipynb
C:\Users\osokin\Downloads\PythonLessons\Python 07 - Pandas intro 2.ipynb
C:\Users\osokin\Downloads\PythonLessons\Python 08 - 

**Копирование и удаление файлов и директорий с помощью библиотеки shutil**

Функция **shutil.copy(source-path, dest-path)** копирует файл (конечная директория должна существовать).

In [43]:
os.mkdir('test1') # создадим директорию test1
file = open('test1/text.txt', 'w').write('text '*5) # создадим файл и запишем в него text 5 раз
os.mkdir('test2') # создадим директорию test2
shutil.copy('test1/text.txt', 'test2/') # копируем файл с указываем только конечной директории
shutil.copy('test1/text.txt', 'test2/text copy.txt') # копирование с переименованием

'test2/text copy.txt'

Функция **shutil.rmtree(path)** удаляет дерево директории целиком вместе с файлами.

In [44]:
shutil.rmtree('test')
shutil.rmtree('test1')
shutil.rmtree('test2')

### Работа с системой (sys)

Модуль **sys** предоставляет системе особые параметры и функции. В данном разделе мы рассмотрим следующее:
- sys.argv
- sys.executable
- sys.exit
- sys.modules
- sys.path
- sys.platform
- sys.stdin/stdout/stderr


In [45]:
import sys

Значение **sys.argv** - это список аргументов командной строки, которые причастны к скрипту Python. Первый аргумент, **argv[0]**, имеет аналогичное скрипту Python наименование. В зависимости от платформы, на которой вы работаете, первый аргумент может содержать полный путь к скрипту или к названию файла.

In [46]:
for i in range(3):
    print(sys.argv[i])

c:\program files\python35\lib\site-packages\ipykernel_launcher.py
-f
C:\Users\osokin\AppData\Roaming\jupyter\runtime\kernel-86d7bd6f-c003-4f66-ab26-f722926e9778.json


Значение **sys.executable** – это полный путь к интерпретатору Python. Это очень полезно, когда вы используете чей-то компьютер, и вам нужно узнать, где установлен Python. В некоторых системах, данная команда не сработает, и выдаст пустую строку с надписью **None**.

In [47]:
print(sys.executable)

c:\program files\python35\python.exe


Функция **sys.exit** позволяет разработчику выйти из Python. Функция **exit** принимает необязательный аргумент, обычно целое число, которое дает статус выхода. Ноль считается как успешное завершение. Обязательно проверьте, имеет ли ваша операционная система какие-либо особые значения для своих статусов выхода, чтобы вы могли следить за ними в своем собственном приложении. Обратите внимание на то, что когда вы вызываете **exit**, это вызовет исключение **SystemExit**, которое позволяет функциям очистки работать в конечных пунктах блоков **try / except**. 

In [49]:
sys.exit(0)

SystemExit: 0

Значение функции **path** модуля **sys** – это список строк, которые указывают путь поиска для модулей. Как правило, данная функция указывает Python, в каких локациях смотреть, когда он пытается импортировать модуль. В соответствии с документацией Python, **sys.path** инициализируется из переменной окружения **PYTHONPATH**, плюс зависимое от установки значение, указанное по умолчанию.

In [50]:
print(sys.path)

['c:\\program files\\python35\\lib\\site-packages\\object_detection-0.1-py3.5.egg', 'c:\\program files\\python35\\python35.zip', 'c:\\program files\\python35\\DLLs', 'c:\\program files\\python35\\lib', 'c:\\program files\\python35', '', 'c:\\program files\\python35\\lib\\site-packages', 'c:\\program files\\python35\\lib\\site-packages\\IPython\\extensions', 'C:\\Users\\osokin\\.ipython']


Значение **sys.platform** – идентификатор платформы. Вы можете использовать **sys.platform** чтобы добавлять модули к **sys.path**, импортировать разные модули, в зависимости от платформы, или запускать разные части кода.

In [51]:
print(sys.platform) # ответ: 'win32' для Windows

win32


**Stdin**, **stdout** и **stderr** сопоставляются с файловыми объектами, которые соответствуют стандартным входам, выходам и потокам ошибок интерпретатора соответственно. Функция **stdin** используется для всех входов, используемых интерпретатором, за исключением скриптов, тогда как **stdout** используется для выходов операторов **print** и **expression**. Главная причина, по которой я акцентирую на этом внимание, заключается в том, что в какой-то момент вам нужно будет перенаправить **stdout** или **stderr**, или обе функции к файлу, такому как **log**, либо же какой-либо дисплей в пользовательском графическом интерфейсе, созданным вами.

### Работа с ссылками (urllib)

Этот модуль определяет функции и классы для работы с URL. Модуль делает работус url похожей на работу с файлом, который вы можете прочесть.

In [52]:
import urllib.request
import urllib.parse

In [53]:
# Откроем url и выведем в консоль код страницы
ufile = urllib.request.urlopen('http://ya.ru') # Возвращает файлоподобный объект для данного url
html = ufile.read()
print(html)

b'<!DOCTYPE html><html class="i-ua_js_no i-ua_css_standart i-ua_browser_ i-ua_browser_desktop i-ua_platform_other" lang="ru"><head xmlns:og="http://ogp.me/ns#"><meta http-equiv=Content-Type content="text/html;charset=UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>\xd0\xaf\xd0\xbd\xd0\xb4\xd0\xb5\xd0\xba\xd1\x81</title><link rel="shortcut icon" href="//yastatic.net/iconostasis/_/8lFaTHLDzmsEZz-5XaQg9iTWZGE.png"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/5mdPq4V7ghRgzBvMkCaTzd2fjYg.png" sizes="76x76"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/s-hGoCQMUosTziuARBks08IUxmc.png" sizes="120x120"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/KnU823iWwj_vrPra7x9aQ-4yjRw.png" sizes="152x152"><link rel="apple-touch-icon" href="//yastatic.net/iconostasis/_/wT9gfGZZ80sP0VsoR6dgDyXJf2Y.png" sizes="180x180"><link rel="alternate" type="application/rss+xml" title="\xd0\x9d\xd0\xbe\xd0\xb2\xd0\xbe\xd1\x81\xd1\x82\xd0\xb8 \xd

Функция **ufile.read()** может читать из открытого файла. Как и в случае с обычным файлом, **readlines()** и т.п. также работают. (Обратитевнимание — возвращается байт-строка. Так происходит потому, что нет способа для автоматического определения кодировки потока байт, получаемого от HTTP-сервера. Для перекодировки используйте **.decode('utf-8')** или **.decode('cp1251')**:

In [54]:
# print(html.decode('utf-8')) 
print(ufile.info()) # метаинфомация о странице
print(ufile.geturl()) # возвращает базовый url запроса, который может отличаться от оригинального из-за редиректов
print(ufile.getcode()) # код ответа сервера (200 - Ок)

Date: Fri, 29 Mar 2019 11:46:42 GMT
Content-Type: text/html; charset=UTF-8
Cache-Control: no-cache,no-store,max-age=0,must-revalidate
Expires: Fri, 29 Mar 2019 11:46:42 GMT
Last-Modified: Fri, 29 Mar 2019 11:46:42 GMT
Content-Security-Policy: connect-src 'self' wss://webasr.yandex.net https://mc.webvisor.com https://mc.webvisor.org wss://push.yandex.ru wss://portal-xiva.yandex.net https://yastatic.net https://home.yastatic.net https://yandex.ru https://*.yandex.ru static.yandex.sx brotli.yastatic.net et.yastatic.net *.serving-sys.com an.yandex.ru awaps.yandex.ru storage.mds.yandex.net music.yandex.ru music-browser.music.yandex.net mc.admetrica.ru portal-xiva.yandex.net yastatic.net home.yastatic.net yandex.ru *.yandex.ru *.yandex.net yandex.st; default-src 'self' blob: wss://portal-xiva.yandex.net yastatic.net portal-xiva.yandex.net; font-src 'self' https://yastatic.net static.yandex.sx brotli.yastatic.net et.yastatic.net zen.yandex.ru yabro1.zen-test.yandex.ru main.zdevx.yandex.ru yas

Запросим страницу через объект Request и добавим заголовки:

In [55]:
req = urllib.request.Request('http://www.yandex.ru')
req.add_header('Referer', 'http://www.python.org/')
req.add_header('User-agent', 'Mozilla/5.0')
print(req.headers)
f = urllib.request.urlopen(req)
# print(f.read().decode('utf-8'))

{'Referer': 'http://www.python.org/', 'User-agent': 'Mozilla/5.0'}


**Модуль urllib.parse**

Преобразуем строку параметров в URL запрос:

In [56]:
params = urllib.parse.urlencode({
    'redirect': 'http://abc.com', 
    'text': 'Привет, мир!'
})
print(params)

text=%D0%9F%D1%80%D0%B8%D0%B2%D0%B5%D1%82%2C+%D0%BC%D0%B8%D1%80%21&redirect=http%3A%2F%2Fabc.com


Отправка GET запросов:

In [57]:
params = urllib.parse.urlencode({'text': 'python'})
f = urllib.request.urlopen("https://ya.ru/?q=python%s" % params)
html = f.read().decode('utf-8')

Удалим теги из ответа:

In [58]:
html = re.sub(r'<script.*?>.*?</script>', ' ', html, flags=re.DOTALL)
html = re.sub(r'<.*?>', '', html)
html = re.sub(r'\s+', ' ', html)
html = re.sub(r'&nbsp;', ' ', html)
print(html)

Ой! ой&hellip; Нам очень жаль, но запросы, поступившие с вашего IP-адреса, похожи на автоматические. По этой причине мы вынуждены временно заблокировать доступ к поиску. Чтобы продолжить поиск, пожалуйста, введите символы с картинки в поле ввода и нажмите &laquo;Отправить&raquo;. В вашем браузере отключены файлы cookies. Яндекс не сможет запомнить вас и правильно идентифицировать в дальнейшем. Чтобы включить cookies, воспользуйтесь советами на странице нашей Помощи. Произнести→ОтправитьПочему так случилось? Возможно, автоматические запросы принадлежат не вам, а другому пользователю, выходящему в сеть с одного с вами IP-адреса. Вам необходимо один раз ввести символы в форму, после чего мы запомним вас и сможем отличать от других пользователей, выходящих с данного IP. В этом случае страница с капчей не будет беспокоить вас довольно долго. Возможно, в вашем браузере установлены дополнения, которые могут задавать автоматические запросы к поиску. В этом случае рекомендуем вам отключить их. 

POST запросы с помощью объекта класса Request:

In [59]:
data = urllib.parse.urlencode({'search': 'New York City, NY'})
data = data.encode('utf-8')
req = urllib.request.Request('http://www.trulia.com/submit_search')
req.add_header('User-agent', 'Mozilla/10.0')
req.method = 'POST' # метод ставиновится POST
req.data = data # method становится POST автоматически, если задать data
print (req.get_method())

POST


In [60]:
f = urllib.request.urlopen(req)
html = f.read().decode('utf-8')
html = re.sub(r'<.*?>', ' ', html)
print(html)

        
   
 
 

  
      (window.NREUM||(NREUM={})).loader_config={xpid:"VQYAUF5WGwcCU1RXAwcF"};window.NREUM||(NREUM={}),__nr_require=function(t,n,e){function r(e){if(!n[e]){var o=n[e]={exports:{}};t[e][0].call(o.exports,function(n){var o=t[e][1][n];return r(o||n)},o,o.exports)}return n[e].exports}if("function"==typeof __nr_require)return __nr_require;for(var o=0;o 0&&(p-=1)}),s.on("internal-error",function(t){i("ierr",[t,c.now(),!0])})},{}],3:[function(t,n,e){t("loader").features.ins=!0},{}],4:[function(t,n,e){function r(t){}if(window.performance&&window.performance.timing&&window.performance.getEntriesByType){var o=t("ee"),i=t("handle"),a=t(8),s=t(7),c="learResourceTimings",f="addEventListener",u="resourcetimingbufferfull",d="bstResource",l="resource",p="-start",h="-end",m="fn"+p,v="fn"+h,w="bstTimer",y="pushState",g=t("loader");g.features.stn=!0,t(6);var b=NREUM.o.EV;o.on(m,function(t,n){var e=t[0];e instanceof b&&(this.bstStart=g.now())}),o.on(v,function(t,n){var e=t[0];e instanc

С помощью **urllib.parse** можно делать разбор URL:

In [61]:
from urllib.parse import urlparse
url = 'https://docs.djangoproject.com/en/1.5/intro/overview/#design-your-model'
print(urlparse(url))

url = 'https://docs.djangoproject.com/search/?q=admin&release=7'
print(urlparse(url))

ParseResult(scheme='https', netloc='docs.djangoproject.com', path='/en/1.5/intro/overview/', params='', query='', fragment='design-your-model')
ParseResult(scheme='https', netloc='docs.djangoproject.com', path='/search/', params='', query='q=admin&release=7', fragment='')
