# Введение в Python


`Python` - скриптовый язык программирования общего назначения.

Основные особенности:
* **строгая** **динамическая** типизация
* автоматическое управление памятью

Преимущества:
* интерпретируемость, нет необходимости компилировать код (+-)
* развитая стандартная библиотека
* большое количество сторонних библиотек
* простота, отлично подходит для быстрого прототипирования

Недостатки:
* проблемы с производительностю (CPython)
* проблемы с статическим анализом кода, невозможно создать вменяемую IDE
* исторические проблемы, связанные с дизайном языка

In [None]:
# Статическая типизация
int a = 5;
a = "hello";

# Динамическая типизация
a = 5
a = "hello" # Ok

In [None]:
# Строгая типизация
a = "10"
b = a + 5 #ошибка

# Слабая типизация
a = "10"
a = a + 5 # ???? 15? "105"?

## Python для научных вычислений и машинного обучения 

Язык общего назначения, но с помощью сторонних библиотек (Scientific Python) можно использоватьв качестве альтернативы для MATLAB, Mathematica, R.

* **[numpy](https://pypi.python.org/pypi/numpy)** - линейная алгебра, случайные числа, базовые операции
* **[scipy](https://pypi.python.org/pypi/scipy)** - статистика, численные методы и многое другое
* **[matplotlib](https://pypi.python.org/pypi/matplotlib)** - рисование графиков, визуализация
* **[pandas](https://pypi.python.org/pypi/pandas)** - работа с данными в стиле R
* **[simpy](http://www.sympy.org/en/index.html)** - символьные вычисления (Maple)
* **[scikit-learn](http://scikit-learn.org)** - машинное обучение
* **[statsmodels](http://statsmodels.sourceforge.net)** - статистика, машинное обучение
* **[pymc](http://pymc-devs.github.io/pymc)** - байесовское статистическое моделирование
* **[networkx](https://pypi.python.org/pypi/networkx)** - работа с графами, визуализация, раскладка

Преимущества:

* свободное программное обеспечение
* огромный выбор библиотек
* можно создавать production-ready системы
* низкоуровневые библиотеки написаны на C (производительность)
* можно легко писать С-расширения (cython)
* параллельные вычисления 

Недостатки:

* по функциональности может уступать специализированным языкам программирования (например, **R**)
* врожденные органичения интерпретатора (отсутствие JIT, GIL и т.д.)

## Выбор версии

Python2 и Python3 по сути два различных языка, не совместимы. Мотивация создания Python3 - исправить недостатки в дизайне языка.
 
**Python2:**
 
 * библиотеки
 * много legacy кода
 * не развивается, поддержка закончится в 2020 году
 

**Python3:**
 
 * не все библиотеки нормально портированы (в основном маргинальные), процесс идет

Проверка версий: 
   
    $ python --version
    
    $ python3 --version    
    

## Реализации Python

**CPython**

* эталонная реализация
* старый интерпретатор, с проблемами в дизайне (GIL) 

**PyPy**

* JIT
* в общем случае быстрее
* не совместим со многими библиотеками, использующими нативные библиотеки

**Jython**

* JVM

**IronPython**

* CLR

## Установка Python

**Linux:** 
Проще использовать системный пакетный менеджер (apt,yum)

     $ sudo apt-get install python-dev python-pip cython ipython-notebook python-numpy python-scipy
    
**Windows:**
[Anaconda Scientific Python Distribution](https://store.continuum.io/cshop/anaconda/) 
   
    

## Скрипты Python 

Скрипты хранятся в файлах с расширением *.py 

В начале каждого файла рекомендуется добавлять шапку:

In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-

# тут код

* на первой строчке находится т.н. shebang, в Unix-системах указание оболочке, какую программу нужно использовать для запуска скрипта  
* на второй строчке указание интерпретатору Python на кодировку исходного текста скрипта. Разумеется всегда нужно использовать utf-8

Запуск скрипта:

    $ python python_script.py

## IPython notebook

Запуск из командной строки:

    $ ipython notebook

Зачем это нужно?

* своего рода web-based IDE
* "альтернативный" подход, как в Mathematica 
* удобно для экспериментов
* богатая инфраструктура, программы, взаимодействие с **R** и так далее
* блокноты хранятся в специальном формате *.ipynb
* http://nbviewer.ipython.org/ - ресурс для распространения блокнотов

Концепция ячеек:

* в каждой ячейке может быть текст (документация) или код
* ячейку можно запустить и сразу получить результат
* в каждой ячейке нужно писать какую-то малую логическую часть кода
* состояние можно сохранить

Горячие клавиши:

* Ctrl+Enter - запустить ячейку
* Ctrl+Shift - запустить ячейку и переместиться вниз
* Esc+m - текстовая ячейка
* Esc+y - ячейка с кодом
* Ctrl+m+b - вставить новую ячейку за текущей ячейкой
* Ctrl+m+a - вставить новую ячейку перед текущей ячейкой
* Ctrl+m+x - удалить текущую ячейку

**&lt;tab&gt;** - автодополнение кода

# Программирование на Python

### Система модулей

Python имеет систему пакетов и модулей, модуль подключается с помощью директивы *import* . Модуль (module) - базовое понятие языка. Содержит код и глобальные переменные. 

после чего в текущем пространстве имен становятся доступны все определенные в модули функции, классы и переменные.

In [2]:
import random
random.randint(1,5)

2

Возможен альтернативный синтаксис:

In [3]:
from random import randint, gauss # импортирует из модуля функции randint и gauss

gauss(0, 4)

-9.853550463876394

Можно так:

In [4]:
from random import *
import math as m

m.log(2)

0.6931471805599453

Помощь по функциям:

In [5]:
randint?

In [6]:
help(m.log)

Help on built-in function log in module math:

log(...)
    log(x[, base])
    
    Return the logarithm of x to the given base.
    If the base not specified, returns the natural logarithm (base e) of x.



In [7]:
import math
dir(math)

['__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 'acos',
 'acosh',
 'asin',
 'asinh',
 'atan',
 'atan2',
 'atanh',
 'ceil',
 'copysign',
 'cos',
 'cosh',
 'degrees',
 'e',
 'erf',
 'erfc',
 'exp',
 'expm1',
 'fabs',
 'factorial',
 'floor',
 'fmod',
 'frexp',
 'fsum',
 'gamma',
 'hypot',
 'isfinite',
 'isinf',
 'isnan',
 'ldexp',
 'lgamma',
 'log',
 'log10',
 'log1p',
 'log2',
 'modf',
 'pi',
 'pow',
 'radians',
 'sin',
 'sinh',
 'sqrt',
 'tan',
 'tanh',
 'trunc']

### Переменные

Имена переменных в Python могут содержать буквы, цифры и `_`, начинаться должны с буквы (`_` в начале может имеет семантическую нагрузку). По соглашению, имена переменных начинаются с маленькой буквы, имена классов - с большой.

Ключевые слова:

    and, as, assert, break, class, continue, def, del, elif, else, except, 
    exec, finally, for, from, global, if, import, in, is, lambda, not, or,
    pass, print, raise, return, try, while, with, yield


### Простые базовые типы данных

In [8]:
a = 2 # int
type(a)

int

In [9]:
a = 2.5
type(a)

float

In [10]:
a = 2 + 5j
b = 3j
type(a)

complex

In [11]:
a = True
b = False
type(a)

bool

In [12]:
a = None
type(a)

NoneType

### Преобразование типов

Преобразовать один тип к другому можно с помошью конструкторов

In [13]:
int(True), int(False)

(1, 0)

In [14]:
float(2)

2.0

## Математические операции

In [15]:
2 / 3, 2 // 3, 10 ** 106

(0.6666666666666666,
 0,
 10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000)

In [16]:
type(2 ** 160)

int

In [17]:
(False and True, True and True)

(False, True)

In [18]:
a = False
not a

True

In [19]:
a = 4
a < 5, 1 < a < 7, a <= 4, 2 == 4

(True, True, True, False)

### Строки

In [20]:
s1 = "first string"
s2 = 'second string'
s1, s2, type(s1)

('first string', 'second string', str)

* методы
    * **.find(s)** - поиск первого вхождения
    * **.split(s)** - разделить на строки
    * **.islower()**, **.isupper()**, **.isdigit()**, **.isspace()**, **.isalnum()**
    * **.replace(s1, s2)**
    * **.lstrip()**, **.rstrip()**, **.strip()** - удалить пробельные символы по краям
    * **.count(s)** - число вхождний подстроки
    * **.startswith(s)**, **.endswith(s)**
    * **.join([s1, s2, s3])**   

In [21]:
s = 'Hello world'
s[:-1]

'Hello worl'

* Python2 

In [22]:
s = u'Привет мир!'
print (s, type(s))

Привет мир! <class 'str'>


* Python3

In [23]:
s = 'Привет мир!'

* Индексирование

In [24]:
s = 'Hello World!'
len(s), s[0], s[-1]

(12, 'H', '!')

In [25]:
b = s[0:3] + s[-2:-1]
b

'Held'

In [26]:
s, s[::-1], s[1:-1:2]

('Hello World!', '!dlroW olleH', 'el ol')

In [27]:
s[:0:-1]

'!dlroW olle'

In [28]:
str(5)

'5'

* Форматирование строк

In [29]:
'%05d %05.3f %s' % (5, 3.123456, 'hello')

'00005 3.123 hello'

In [30]:
'%04d %.2f' % (5, 2.578)

'0005 2.58'

In [31]:
'%05d' % 120

'00120'

In [32]:
'{0:.2f} {1:05d} {2}'.format(0.5, 5, 'hello')

'0.50 00005 hello'

### Списки

* Операции индексирования как со строками

In [33]:
[1, 'aaa', 2]

[1, 'aaa', 2]

In [34]:
lst = [1, 2, 3]
len(lst), lst[0], lst[-1]

(3, 1, 3)

* методы
    * **.append(k)** - добавление элемента в конец
    * **.extend([k1, k2, k3])**
    * **.remove(k)** - удалить первое вхождение
    * **.pop()** - удалить последний элемент
    * **.count(k)** - число элементов в списке
    * **.index(k)** - индекс первого элемента
    * **.insert(i, k)**  - вставить *k* на позицию *i*

In [35]:
lst.append(4)
lst

[1, 2, 3, 4]

* конкатенация

In [36]:
lst2 = [4, 5, 6]
lst3 = lst + lst2
lst3

[1, 2, 3, 4, 4, 5, 6]

* вытащить последний элемент

In [37]:
lst3.pop()

6

* вставить элемент на конкретную позицию

In [38]:
lst3.insert(1, 'a')
lst3

[1, 'a', 2, 3, 4, 4, 5]

* удаление элемента по значению

In [39]:
lst = [1, 3, 2, 2, 4]
lst.remove(2)
lst

[1, 3, 2, 4]

* удаление по индексу

In [40]:
del lst[2]
lst

[1, 3, 4]

In [41]:
range(0, 5)

range(0, 5)

### Кортежи

* методы
    * **.count(s)**
    * **.index(s)**

In [42]:
t = (1, 2, 3)
t

(1, 2, 3)

* кортежи нельзя модифицировать

In [43]:
t[0] = 5

TypeError: 'tuple' object does not support item assignment

In [44]:
a, b, c = t
a

1

* подходят для хранения структурированных данных

In [45]:
t = ('Ivanov', 'Ivan', 'Ivanovich', 25, 'M')
t

('Ivanov', 'Ivan', 'Ivanovich', 25, 'M')

### Множества

In [46]:
s = {1, 2, 3}
s = set([1, 2, 3])
s

{1, 2, 3}

In [47]:
l = {1, 2, 3} 
l.union([5]) # l + set([5])

l

{1, 2, 3}

* методы
    * **.add(k)**
    * **.clear()**
    * **.discard(k)** - удалить элемент
    * **.pop()** - удалить произвольный элемент, если множество пусто, то бросить исключение
    * **.remove(k)** - удалить элемент, если такого нет, то бросить исключение
    * **.update({k1, k2, k3})**
    * **.difference({k1, k2, k3})**
    * **.union({k1, k2, k3})**
    * **.intersection({k1, k2, k3})**
    * **.issubset({k1, k2, k3})**
    * **.issuperset({k1, k2, k3})**
 
    

In [48]:
2 in s

True

In [49]:
5 not in s

True

In [50]:
s.add(5)
s

{1, 2, 3, 5}

In [51]:
{ 1 } | {2, 3, 5} - {5}

{1, 2, 3}

In [52]:
{1, 2} & {2, 5}

{2}

In [53]:
s = {1, 2, 3}
s.remove(3)

### Словари

* методы
    * **.clear()**
    * **.items()** - список пар (ключ, значение)
    * **.keys()** - список ключей
    * **.iteritems()** - итератор для пар (ключ, значение)
    * **.pop(k[,d])** - удалить ключ, возвратить значение 
    * **.get(k[,d])** - значение по ключу
    * **.values()** - список значений
    * **.update(d)** - добавить все пары ключ/значение из *d*

In [54]:
d = dict() # a = {}
d['hello'] = 2
d[5] = 'a'
d

{'hello': 2, 5: 'a'}

In [55]:
d = dict([(1, 5), ('t', 7)])
d = {1: 5, 't': 7}
d

{'t': 7, 1: 5}

In [56]:
d[8]

KeyError: 8

In [57]:
d.get(8, -1)

-1

In [58]:
d.keys(), d.values()

(dict_keys(['t', 1]), dict_values([7, 5]))

### Управляющие конструкции

In [59]:
s = 0
for i in [1, 2, 3]:
    s += i
print(s)

6


In [60]:
list(enumerate(['a', 'b', 'c']))

[(0, 'a'), (1, 'b'), (2, 'c')]

In [61]:
lst = ['a', 'b', 'c']
result = []
for (i, x) in enumerate(lst):
    result.append((x, i))
    
result

[('a', 0), ('b', 1), ('c', 2)]

In [62]:
i = 0
lst = []
while len(lst) < 6:
    lst.append(i)
    i += 1
lst

[0, 1, 2, 3, 4, 5]

In [63]:
def find(el, lst):
    for i, x in enumerate(lst):
        if el == x:
            break
    else:
        return 0
    
    return 1
    
find(1, [1, 2, 3]), find(0, [1, 2, 3])

(1, 0)

In [64]:
a = 2
if a < 5:
    a = 1
elif a == 5:
    a = 2
else: 
    a = 3    

### List comprehension

In [65]:
l = [1, 2, 3]
l = [x * x for x in l]
l

[1, 4, 9]

In [66]:
[x * x for x in range(1, 10) if x % 2 == 0]

[4, 16, 36, 64]

In [67]:
[list(range(x)) for x in range(1, 10) if x % 2 == 1]

[[0],
 [0, 1, 2],
 [0, 1, 2, 3, 4],
 [0, 1, 2, 3, 4, 5, 6],
 [0, 1, 2, 3, 4, 5, 6, 7, 8]]

In [68]:
[(x, y) for x in range(1, 20) for y in range(1, 20) if x * y == 16]

[(1, 16), (2, 8), (4, 4), (8, 2), (16, 1)]

In [69]:
{ x * x : x for x in range(5) }

{0: 0, 1: 1, 4: 2, 9: 3, 16: 4}

In [70]:
text = ['Hello', 'world', '!']
text_filtered = [t.lower() for t in text if t.isalpha()]
'-'.join([str(i) for i in range(1, 17)])

'1-2-3-4-5-6-7-8-9-10-11-12-13-14-15-16'

### Функции

In [71]:
def add(a, b):
    return a + b

div = lambda a, b : a / b

add(2, 3), add('2', '3'), div(4, 2), div(b=2, a=2)

(5, '23', 2.0, 1.0)

In [72]:
def foo(a, *args, **kwargs):
    print(a) 
    print(args, type(args)) 
    print(kwargs, type(kwargs)) 

foo(1, 7, 10)

1
(7, 10) <class 'tuple'>
{} <class 'dict'>


In [73]:
def foo(f, a, b):
    return f(a, b)

foo(add, 5, 7)

12

In [74]:
def appl(f, a):
    return lambda x: f(a, x)

add_2 = appl(add, 2)
add_2(10)

12

In [75]:
lst = [3, 2, 5, 1, 7]
sorted(lst)

[1, 2, 3, 5, 7]

In [76]:
lst.sort()
lst

[1, 2, 3, 5, 7]

In [77]:
lst = [(5, 'the'), (2, 'sun'), (2, 'shines'), (7, 'brightly')]
lst.sort(key=lambda x: -x[0])
lst

[(7, 'brightly'), (5, 'the'), (2, 'sun'), (2, 'shines')]

### Итераторы и генераторы

In [78]:
it = iter([1, 2, 3])
next(it), next(it), next(it)

(1, 2, 3)

In [79]:
def action(x):
    print(x)

lst = [1, 2, 3]

for x in lst:
    action(x)

1
2
3


приблизительно эквивалентно

In [80]:
it = iter(lst)
while True:
    try:
        value = next(it)        
    except StopIteration:
        break            
    action(value)
    

1
2
3


* **Генератор** - это специальная функция, которая содержит хотя бы один оператор *yield* . Вызов функции интерпретируется как создание итератора, в момент вызова *yield* выполнение приостанавливается.

In [81]:
def gen(val):
    for i in range(3):
        yield '%s #%d' % (val, i) 
        print('After yield %d' % i)
    
for val in gen('From yield'):
    print(val)
    
it = gen('From yield once again')    
next(it), next(it)

From yield #0
After yield 0
From yield #1
After yield 1
From yield #2
After yield 2
After yield 0


('From yield once again #0', 'From yield once again #1')

* в качестве альтернативы можно использовать list comprehension, только с круглыми скобками

In [82]:
gen = (x for x in range(1, 100) if x % 2 == 0)
next(gen), next(gen)

(2, 4)

### Классы

In [83]:
class Person:        
    def __init__(self, name, age, children=[]):
        self.name = name
        self.age = age
        self.children = children
        
    def add_child(self, child):
        self.children.append(child)
        
    def __str__(self):
        return self.name
    
    def __repr__(self):
        return 'Person("{}", {}, {})'.format(self.name, self.age, repr(self.children))
    

In [84]:
person = Person('Ivan Ivanov', 35)
print('{}\n{}\n{}'.format(repr(person), str(person), person))

Person("Ivan Ivanov", 35, [])
Ivan Ivanov
Ivan Ivanov


In [85]:
vars(person)

{'age': 35, 'children': [], 'name': 'Ivan Ivanov'}

In [86]:
dir(person)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 'add_child',
 'age',
 'children',
 'name']

* для классов, предназначенных только для хранения данных, можно использовать *namedtuple*

In [87]:
from collections import namedtuple

Person = namedtuple('Person', ['name', 'age'])
person = Person(name='Ivanov', age=20)
person, person.name, person.age

(Person(name='Ivanov', age=20), 'Ivanov', 20)

In [90]:
class FibSequence:
    def __init__(self, start0, start1):
        self.start0 = start0
        self.start1 = start1
        
    def __iter__(self):
        yield self.start0
        yield self.start1
        while True:
            self.start0, self.start1  = self.start1, self.start0 + self.start1
            yield self.start1                                

In [91]:
fib_seq = FibSequence(1, 2)

for i, num in enumerate(fib_seq):
    print(i, num)
    if i >= 5:
        break

0 1
1 2
2 3
3 5
4 8
5 13
