## Основы Python

О специфике языка, истории его создания и "великом пожизненном диктаторе" можно почитать в Вики:
https://en.wikipedia.org/wiki/Python_(programming_language) .

Для нас важно помнить, что Python:

- интерпретируемый;
- с динамической типизацией;
- имеет возможности как для ООП, так и для ФП;

Документация новых функций и рекомендации по их использованию изложены в т.н. Python Enhancement Proposals или PEP. Одним из PEP является т.н. "The Zen of Python" или PEP 20:
https://www.python.org/dev/peps/pep-0020/ .

# 1.0. Основы основ 

### Выражения

In [None]:
5 + 5

In [None]:
3 - 2

In [None]:
5 * 7

In [None]:
10 / 2

In [None]:
100 // 33

In [None]:
10 ** 2

In [None]:
x = 5
y = x
c = 2

In [None]:
y

In [None]:
print y

Как вы уже поняли, оператор присваивания это "=", а оператор сравнения - "==":

In [None]:
x = 10
if x == 10:
    print x
else:
    print y

In [None]:
%whos

# 1.1. Модель данных

Часто можно услышать утверждение о том, что в питоне **все является объектом**. Утверждение верное, причем у каждого объекта есть:
- сущность (identity);
- тип (type);
- значение (value).

Сущность (identity) объекта не меняется после создания, можно думать о ней как об адресе в памяти компьютера.

Например, если мы пишем:

a = 42

создается объект типа int со значением 42. Сущность (identity) объекта в таком случае - это его адрес в памяти, а - имя указателя на этот адрес.

In [None]:
a = 42
b = 42
print id(a)
print id(b)
print a is b

In [None]:
b =99
print id(a)
print id(b)
print a is b

Тип (type) объекта - внутреннее описание объекта с учетом методов и операций, которые он поддерживает. Когда создается конкретный объект (например, целочисленный тип со значением 42), то этот конкретный объект называют экземпляром (instance) данного типа. 

После создания объекта его тип и сущность не могут быть изменены. Если значение объекта после создания может быть изменено, то такой объект называется **изменяемым (mutable)**, и **неизменяемым (immutable)** в противном случае.

Если объект содержит ссылки на другие объекты, то такой объект называется **контейнером (container)** или **коллекцией (collection)**.

Узнать тип объекта можно с помощью функции type(), а проверить принадлежность к типу можно с помощью isinstance():

In [None]:
x = 5
type(x)

In [None]:
if isinstance(x, int):
    print 'integer'

** Для всех объектов ведется подсчет ссылок (reference count). **

Число ссылок увеличивается, если на объект ссылается новая переменная, либо же объект добавляется в контейнер:

In [None]:
a = 3.4
c = a
b = list()
b.append(a)

In [None]:
b

Обратное - если объект уничтожается с помощью del или ссылка перестает существовать - значение счетчика снижается:

In [None]:
del a
b[0]=2.0 

In [None]:
b

Как мы знаем, выражение вида a = b создает новую ссылку на объект b. **Если объект, на который ссылается b, immutable - то a создает копию b**.

In [None]:
b = 'hello'
a = b
a = 'world'
print b + a

Для mutable несколько сложнее. Если мы просто дадим новое навзание ссылке на объект (a = b), то объект останется тем же:

In [None]:
b = [1,2,3]
a = b
a[0] = 4
print b

Если мы все же хотим сделать копию, то у нас 2 опции:

* **shallow copy**, когда создается новый объект, а ссылки в нем - на объекты из старого:

In [None]:
b = [ 1, 2, [3,4] ]
a = b[:]          # Create a shallow copy of b.
a.append(100)
print b
a[2][0] = -100
print b 

* **deep copy**, когда создается копия объекта наряду с копией всех объектов, которые он содержит:

In [None]:
import copy
b = [1, 2, [3, 4] ]
a = copy.deepcopy(b)
a[2] = -100
print a
print b 

## TLDR:

* все является объектом;
* принадлежность к типу стоит проверять через isinstance(object, type);
* объекты можно разделить на mutable (изменяемые) и immutable (неизменяемые);
* при копировании важно помнить, что для immutable копия создается непосредственно, а для mutable - создается новая ссылка на объект либо shallow cipy либо deep copy.

# 1.2. Основные типы

* **NoneType**: отдельный тип для обозначения null

In [None]:
x = None
type(x)

Проверку на NoneType следует осуществлять следующим образом:

In [None]:
x is None

In [None]:
if x :
    print 'a'
else:
    print 'b'

- **str** : immutable, последовательность Unicode codepoints (мы вернемся к этому позднее),
- **unicode** : immutable, последовательность Unicode codepoints (мы вернемся к этому позднее).

Оба наследуют basestring.

In [None]:
x = 'This is a test string'

In [None]:
type(x)

In [None]:
isinstance('test str', basestring)

In [None]:
isinstance(u'test str', basestring)

- **int**: Immutable, целое число (отдельного типа long в python нет: https://www.python.org/dev/peps/pep-0237/)

In [None]:
x = 5
type(x)

- **float**: Immutable, число с плавающей точкой.

In [None]:
x = 5.0
type(x)

In [None]:
x = 5
type(float(5))

**2 vs 3** : При делении важно помнить, что поделив (int на int), float вы не получите, поэтому важно явно привести к float один из аргументов (Python 2).

In [None]:
print 5/2
print 5.0/2
print 5/2.0

**2 vs 3** : В Python 3 такой проблемы нет.

In [None]:
from __future__ import division

print 5/2

In [None]:
5//2

* **bool**: булевая перменная 

In [None]:
a = bool(1)
a

* **complex**: комплексное число

In [None]:
a = 1.5 + 0.5j

In [None]:
a.real

In [None]:
a.imag

- **list**: mutable, динамический список

In [None]:
x = [2,3,'string']

In [None]:
x[2] = 4

In [None]:
x

In [None]:
x.append(51)

* **dict**: пары "ключ-значение"

In [None]:
x = {'this':'str_value', 'that_int': 5}

* **tuple**: кортеж, immutable

In [None]:
x = (1,2,3)

In [None]:
x[2] = 4

In [None]:
(1,2,3) + (4,)

* **set**: множество объектов, mutable

In [None]:
s = set([1,2,3])
s

In [None]:
s.add(5)
s

* **frozenset**: immutable версия множества

In [None]:
s = frozenset([1,2,3])

In [None]:
s.add(5)

## TLDR:

* помним про разделение объектов на mutable и immutable;
* лучше делать импорт: from __future__ import divivision.

# 1.3. Контрольные конструкции

**if/elif/else**

Думаю, что все понятно

In [None]:
if 3 == 5:
    print 'broken'
elif 3 == 0:
    print 'broken again'
else:
    print 'working'

Также из примера выше видно, что блоки отделяются с помощью отступов.

**while/break/continue**

In [None]:
z = 1 + 1j
while abs(z) < 100:
    z = z**2 + 1

In [None]:
z

In [None]:
abs(z)

**for** - итерация по коллекции объектов

In [None]:
for i in xrange(10):
    print i, i**2

-- N: в Python 2 лучше использовать xrange, так как данное выражение не инициализирует новый массив. В Python 3 разницы между range/xrange нет.

In [None]:
print type(range(2))
print type(xrange(2))

** enumerate ** - если требуется не только пройти по коллекции, но и пронумеровать шаг итерации, можно использовать enumerate:

In [None]:
for ind,ch in enumerate(['a', 'b', 'c']):
    print ind, ch

## TLDR:

* проверка на равенство "==";
* в Python 2 использовать xrange.

# 1.4. Функции

** Функция, как и все прочее, является объектом**. Новая функция объявляется с помощью ключевого слова def. Возвращаемое значение опционально.

In [None]:
def product(a):
    res = 1
    for i in a:
       res *= i 
    return res

In [None]:
a = product([12,3,4])
print a

In [None]:
def product(a):
    res = 1
    for i in a:
       res *= i 

In [None]:
a = product([12,3,4])
print a

**Общий синтаксис:**

1. def;
2. имя функции;
3. аргументы в скобках;
4. тело функции;
5. (опционально) возвращаемое значение.

Для функции можно задать аргументы по умолчанию:

In [None]:
def accum_sum(iterable, start=0):
    for item in iterable:
        start += item
    return start

In [None]:
accum_sum([1,2,3])

Сигнатуру функции можно задать через "\*args", "\*\*kwargs", где "\*args" - кортеж аргументов, "\*\*kwargs" - словарь аргументов.

In [None]:
def signature_example(*args, **kwargs):
    for ind,arg in enumerate(args):
        print '{0}\t{1}'.format(ind, arg)
    kw = kwargs.get('ka')
    print '"ka"\t{0}'.format(kw)

In [None]:
signature_example('a','c','b', ka='test')

-- N: значения по умолчанию инициализируются во время создания функции, поэтому если вы определите ссылку на mutable или immutable объект в качестве значения по умолчанию, то следует учесть свойства объекта (при вызове функции с immutable объектом вы каждый раз будете получать объект, созданный во время инициализации, а для immutable - возможность изменить его и сохранить изменения во время каждого вызова).

In [None]:
bigx = 10
def double_it(x=bigx):
    return x * 2
print double_it()
bigx = 1e9
print double_it()

In [None]:
def add_to_dict(args={'a': 1, 'b': 2}):
    for i in args.keys():
        args[i] += 1
    print args
add_to_dict()
add_to_dict()
add_to_dict()

Итак, мы подошли к следующему: если есть подобные нюансы в доступе к переменным внутри функции, как разрешаются имена переменных?

** LEGB ** : **Local -> Enclosing -> Global -> Built-in**

In [None]:
a_var = 'global variable'

def a_func():
    a_var = 'local variable'
    print(a_var)

a_func()
print a_var

In [None]:
a_var = 'global value'

def outer():
    a_var = 'enclosed value'

    def inner():
        a_var = 'local value'
        print(a_var)

    inner()

outer()

In [None]:
a_var = 'global value'

def outer():
    a_var = 'enclosed value'

    def inner():
        print(a_var)

    inner()

outer()

Если мы хотим изменить глобальную переменную, то стоит это сделать явно с помощью global:

In [None]:
a_var = 'global value'

def a_func():
    a_var = 'changed value'

a_func()
print a_var

In [None]:
a_var = 'global value'

def a_func():
    global a_var
    a_var = 'changed value'

a_func()
print a_var

При желании, можно произвести явную проверку на наличие в словаре locals() и globals():

In [None]:
def t_func():
    a = 5
    print 'a' in locals()
    
t_func()

-- N: Будьте осторожнее с for/in:

In [None]:
a = 5
for a in xrange(7, 9):
    print a

a

Как мы знаем, узнать о том, для чего предназначена функция можно (в IPython) с помощью ?, ?? и help(func_name). 

In [None]:
def funcname(*args):
    
    """
    Concise one-line sentence describing the function. ....:
        :param args:
        compl_1: ...
    Extended summary which can contain multiple paragraphs.
    """
    # function body
    pass

In [None]:
funcname?

Так как функция является объектом, никто не может вам запретить присвоить переменной ссылку на функцию:

In [None]:
def test_func():
    print 'test'
a = test_func
a()

## TLDR:

* функции - объекты первого класса (first-class objects);
* резолюция имен - с помощью LEGB;
* инициализация значений по умолчанию - в момент объявления.

# 1.5. Модули

Технически, различия между скриптом и модулем нет: оба из них можно добавить в текущее пространство имен с помощью ключевого слова import.

Тем не менее, обычно под скриптом понимают набор инструкций, которые выполняеются при запуске, а под модулем определенный набор констант и функций, предназначенных для дальнейшего использования.

Как запустить скрипт - нам уже известно:

** %run test.py **

или из комадной строки:

** python test.py **

--N: если мы запускаем скрипт из IPython, то определенные в нем переменные будут доступны из ноутбука.

In [None]:
%ls

In [None]:
%who

In [None]:
%run test.py

In [None]:
%who

В скрипт можно передать параметры. **Парсить параметры вручную не стоит, для этого есть пакеты argparse, optparse, docopt**.

In [None]:
%run arg_parse_test.py -i 1 2 3

Импорт модуля возможен следующими способами:

In [None]:
import sys
import numpy as np
from urllib2 import urlparse

-- N: Так делать **не надо**: 

from scipy import *

Модули кэшируются, поэтому если вы внесли изменения в модуль - вы их не увидите, необходимо попросить интерпретатор перезагрузить модуль:

In [None]:
reload(sys)

Как быть, если вы хотите, чтобы часть данных была доступна для импорта, но определенные инструкции выполнялись только если скрипт запускается как отдельная программа? 

Следует указать: if \_\_name\_\_ == '\_\_main\_\_'. У каждого модуля определено имя, и в случае если скрипт запускается отдельно, то он получает имя \_\_main\_\_.

Узнать, какие объекты определены в модуле, можно с помощью dir():

In [None]:
dir(np)

Вызов dir() без аргумента перечислит список объектов в текущем пространстве имен:

При импорте поиск модуля с заданным именем осуществляется следующим образом:

* built-ins;
* текущая директория;
* PYTHONPATH;
* прочие пути, определенные пользователем при установке.

In [None]:
import sys
sys.path

Для ускорения загрузки, Python добавляет скомпилированные версии импортируемых пакетов в файле *.pyc.

## TLDR:

* если вы используете какой-то кусок кода чаще одного раза - следует его обернуть в функцию;
* если какая-то функция используется больше, чем в одном скрипте - добавьте ее в модуль;
* если от модуля нужна функциональность только при вызове - добавьте ее в часть, которая вызывается if \_\_name\_\_ == '\_\_main\_\_'.

# 1.6. Пакеты

Набор моодулей, объединенных по какому-либо признаку - называется пакетом (package). Чтобы дать понять Питону, что что-то явлвяется пакетом, следует создать файл \_\_init.py\_\_ (можно пустой).

Если думать о модулях как о способе организации пространства имен (оставив в стороне повторное использование кода), то пакет - способ организации более высокого уровня - в добавок к имени модуля добавляется точка

In [None]:
from numpy.linalg import svd

Хороший пример из стандартной документации (https://docs.python.org/3/tutorial/modules.html): 

In [None]:
'''
sound/                          Top-level package
      __init__.py               Initialize the sound package
      formats/                  Subpackage for file format conversions
              __init__.py
              wavread.py
              wavwrite.py
              aiffread.py
              aiffwrite.py
              auread.py
              auwrite.py
              ...
      effects/                  Subpackage for sound effects
              __init__.py
              echo.py
              surround.py
              reverse.py
              ...
      filters/                  Subpackage for filters
              __init__.py
              equalizer.py
              vocoder.py
              karaoke.py
              ...

'''

pass

* импорт индивидуального модуля - import sound.effects.echo;
* абсолютный импорт - from sound.effects import echo (может быть полезно, если у вас есть перекрестные ссылки между суб-модулями);
* относительный импорт (например, в surround.py) - from . import echo, from .. import formats, from ..filters import equalizer.  

## TLDR:

* для создания пакета следует создать в директории файл \_\_init\_\_.py;
* кросс-импорт между суб-модулями не возбраняется, но слудет пдумать - действительно ли была выбрана оптимальная организация структуры?

# 1.7. Классы

Мало отличий от прочих языков - создание классов с помощью ключевого слова class, любой класс либо наследует от object, либо от другого класса:

In [None]:
class MyClass_parent(object):
    def __init__(self, arg):
        self.data = arg
    def get_data(self):
        return self.data
    
class MyClass_child(MyClass_parent):
    def set_data(self, new_arg):
        self.data = new_arg

In [None]:
c1 = MyClass_parent(5)
c1.get_data()

In [None]:
c2 = MyClass_child(10)
c2.set_data(5)
c2.get_data()

Деления на приватные и публичные методы/аттрибуты не существует, но принята конвенция, согласно которой методы, начинающиеся с _ считаются приватными:

In [None]:
class MyClass_secret(MyClass_parent):
    def _square_data(self):
        self.data = self.data**2

In [None]:
c = MyClass_secret(2)
c._square_data()
c.get_data()

--N: избегайте общих mutable объектов для экземпляров классов!

В рамках данного курса мы будем редко использовать классы, в основном для организации пространства имен.

## TLDR:

* классы предоставляют все возможности для ООП в Питоне;
* в дальнейших местах курса мы будем касаться отдельных аспектов, например \_\_eq\_\_ и \_\_hash\_\_.

# 1.8. Ввод / вывод

Стандартный синтаксис для чтения/записи файлов выглядит так:

In [None]:
with open(f1,'r') as r_f:
    for line in f:
        process(line)

In [None]:
with open(f1,'w') as w_f:
    for ind, item in enumerate(collection):
        f.write('{0}\t{1}\n'.format(ind, item))

Режим 'w' записывает новый файл, если нужно добавить - исопльзуйте 'a'. Можно спокойно открывать несколько файлов внутри одной конструкции with:

In [None]:
with open(newfile, 'w') as outfile, open(oldfile, 'r', encoding='utf-8') as infile:
    for line in infile:
        outfile.write(line)

Для чтения/записи json пользуйтесь готовыми пакетами json и ujson:

In [None]:
try:
    import ujson as json
except ImportError:
    import json

In [None]:
json.dumps({'a':1, 'b':2})

In [None]:
json.loads(json.dumps({'a':1, 'b':2}))

Если нужно записать текстовые данные, то помните про кодировку!

Читать gzip тоже просто:

In [None]:
import gzip

with gzip.open('f.gz') as f:
    for line in f:
        ...

Для сохранения внутренних объектов в бинарном формате удобно использовать pickle:

In [None]:
try:
    import cPickle as pickle
except ImportError:
    import pickle

In [None]:
favorite_color = { "lion": "yellow", "kitty": "red" }
pickle.dump( favorite_color, open( "save.p", "wb" ) )

In [None]:
favorite_color = pickle.load( open( "save.p", "rb" ) )

In [None]:
favorite_color

## TLDR:

* для чтения/записи файлов пользуйтесь готовыми форматами;
* помните про кодировки при записи текстовых данных.

# 1.9. Обработка исключений

Использование обработки исключений вы уже видели при импорте пакетов. Общая конструкция:

In [None]:
1/0

In [2]:
try:
    1/0
except ZeroDivisionError:
    print 'zero division'

zero division


Можно передавать несколько типов ошибок через кортеж : except (TypeError, ValueError) ...

Если есть часть кода, которая должна быть вызвана вне зависимости от успеха/неуспеха остально части, следует воспользоваться конструкцией try/except/finally:

In [3]:
try:
    1/0
except :
    pass
finally:
    print 1/1

1


Подробнее предлагается прочитать тут - https://docs.python.org/2/tutorial/errors.html.

Общее правило: **Easier to ask for forgiveness than permission**.

** Если использование try/except ведет к более быстрому и/или чистому коду (что обычно верно - нельзя же придумать if/else на каждый гипотетический случай), следует предпочесть try/except. **

## TLDR:

* Цитата из ZEN (PEP 20):
" Errors should never pass silently.
  Unless explicitly silenced. "
* "Easier to ask for forgiveness than permission"

# 1.10. os/sys

**os**: доступ к функционалу операционной сиситемы.

In [None]:
import os

In [None]:
os.getcwd()

In [None]:
os.listdir(os.curdir)

In [None]:
os.mkdir('trash')

In [None]:
'trash' in os.listdir(os.curdir)

In [None]:
os.rmdir('trash')

In [None]:
'trash' in os.listdir(os.curdir)

In [None]:
%ls

In [None]:
os.path.abspath('Intro.ipynb')

In [None]:
os.path.split(os.path.abspath('Intro.ipynb'))

In [None]:
os.path.exists('Intro.ipynb')

In [None]:
os.path.isfile('Intro.ipynb')

In [None]:
os.environ.keys()

sys: информация о системе

In [None]:
import sys
sys.platform

In [None]:
sys.version

In [None]:
sys.path

In [None]:
sys.getsizeof([1,2,3])

# Дополнительный материал 2: Unicode и str

Классический справочный материал - http://www.joelonsoftware.com/articles/Unicode.html .

Самое важное утверждение оттуда:

**There Ain't No Such Thing As Plain Text.**

**Unicode** - последовательность абстрактных codepoints;

**Кодировка** - способ представления кодировок в памяти.

In [None]:
x = 'base string'
x.decode('ascii')

In [None]:
x = u'base string'
x.encode('ascii')

string.decode(encoding) - получаем unicode (последовательность codepoints);
unicode.encode(encoding) - получаем string (последовательность байтов).

**string.decode(encoding).encode(encoding) == string**

Справка - https://docs.python.org/2/howto/unicode.html

Как работать с текстовыми данными?

Правило, позволяющее сэкономить кучу сил:
** Внтури программы использовать unicode. При необходимости передачи строки за пределы программы - пользоваться кодировкой (предпочтительно utf-8).**