# Введение в анализ данных на языке программирования Python

## Установка и настройка вычислительной среды на базе Python

Python - это свободный интерпретируемый объектно-ориентированный расширяемый встраиваемый язык программирования очень высокого уровня. На официальном [сайте](http://python.org) можно найти множество примеров успешного использования языка, а также загрузить актуальную версию интерпретатора.

Преимущества использования перед поприетарными средами анализа данных:
* открытый исходный код, большое число проблемно-ориентированных библиотек также представлены открытым исходным кодом, нередко даже допускающим свободное использование для коммерческих целей;
* сравнительно легко функционал может быть расширен вычислительно эффективными модулями, написанными на языках более низкого уровня С, Fortran, С++. 
* поддержка объектно-ориентированного стиля программирования;
* динамическая типизация - не нужно объявлять тип создаваемых переменных;
* удобные нативные типы данных (списки, множества, словари);
* обеспечение читаемости кода заложено в синтаксис определения процедур, функций и любых определений; что делает весьма сложным написать плохо читаемый код на языке Python;
* существует строгий регламент программирования на Python ([pep8](https://www.python.org/dev/peps/pep-0008/));
* существует своя культура программирования (представленная в модуле this, или [pep20](https://www.python.org/dev/peps/pep-0020/));
* кросплатформенность (работает на Mac, Windows, Linux, и даже на мобильных устройствах);

Недостатки:
* недостаточно широкая проблемно-ориентированная экосистема для решения различных задач анализа данных (однако, в сложных проектах недостающие функции могут быть вызваны, например, из [R](https://www.r-project.org/), путем использования модуля rpy.
* медленные циклы (может быть в значительной степени устранен);

## Файлы программ

* Обычно программа на языке программирования Python имеет расширение "`.py`":

        sample.py

* это просто текстовой файл, по умолчанию, представленный в кодировке utf-8;

* для запуска программы на языке программирования Python необходимо "передать" текст программы интерпретатору:
        $ python sample.py

* комментарии начинаются с символа `#` и до конца текущей строки;

### Примеры

In [2]:
# Это комментарий, код следующий за # не будет выполнен

In [3]:
a = 2  # А это уже другой комментарий, чтобы следовать регламенту pep8, он должен отстоять на 2 пробела от кода!

In [4]:
a=2# Конечно можно нарушать pep8, программа будет работать; но этого делать нельзя!

## Редакторы

* Pycharm
* Pyscripter
* Eclipse
* Notepad++
* Vim

Для небольших проектов по анализу данных код может быть представлен в виде Python notebook проекта, который позволяет совмещать и сохранять результаты вычислений, код, а также вставлять иллюстрации, видео, и много другое, что помогает в визуализации результатов расчетов; фактически - позволяет интегрировать процесс вычислений и презентацию результатов в одном проекте.
ipynb-файл представляет собой файл в формате JSON (это текстовой структурированный файл).

## Модули языка программирования Python

Python нередко называют языком с философией батарейки в комплекте (battaries included) благодаря достаточно большой библиотеки модулей, имеющей возможности взаимодействия с операционной системой, работы с файлами, организации передачи данных по сети, работы с архивами и многое многое другое.

* Стандартная библиотека модулей для Python доступна здесь: http://docs.python.org/3/library/

# Основные модули, используемые при анализе данных

* [Pandas](http://pandas.pydata.org) - базовые операции с данными, фильтрация, представление, предварительная обработка, описательная статистика;
* [SciPy](http://scipy.org);
* [NumPy](http://numpy.org);
* Matplotlib;
* Seaborn - используется для визуализации результатов вычислений;

Посмотреть содержимое модуля можно, например, используя встроенную функцию dir:

In [10]:
import math
print(dir(math))

['__doc__', '__file__', '__name__', '__package__', 'acos', 'acosh', 'asin', 'asinh', 'atan', 'atan2', 'atanh', 'ceil', 'copysign', 'cos', 'cosh', 'degrees', 'e', 'erf', 'erfc', 'exp', 'expm1', 'fabs', 'factorial', 'floor', 'fmod', 'frexp', 'fsum', 'gamma', 'hypot', 'isinf', 'isnan', 'ldexp', 'lgamma', 'log', 'log10', 'log1p', 'modf', 'pi', 'pow', 'radians', 'sin', 'sinh', 'sqrt', 'tan', 'tanh', 'trunc']


In [11]:
help(math.log)

Help on built-in function log in module math:

log(...)
    log(x[, base])
    
    Return the logarithm of x to the given base.
    If the base not specified, returns the natural logarithm (base e) of x.



## Переменные и типы данных

Допустимые имена переменных языка программирования Python могут состоять из символов: `a-z`, `A-Z`, `0-9` а также некоторых специальных символов, например, нижнего подчеркивания `_`. Обычно название переменной начинается с буквы.

Согласно pep8, переменные декларируются в нижнем регистре; названия классов начинаются с "Большой" буквы.

Ключевые слова языка не могут использоваться в качестве переменных:

    and, as, assert, break, class, continue, def, del, elif, else, except, 
    exec, finally, for, from, global, if, import, in, is, lambda, not, or,
    pass, print, raise, return, try, while, with, yield


### Присвоение значений


Поскольку Python динамически типизируемый язык для присвоения значения переменной не нужно указывать ее тип. Достаточно воспользовать оператором присвоения`=`. Переменная, соответствующего типа данных, будет создана, когда мы выполним присвоение переменной:

In [1]:
x = 1.0
y = 'This an example'

В этом случае, переменная `x` будет типа float (значение с плавающей точкой), а переменная `y` будет иметь строковый тип.

In [2]:
type(x)

float

In [3]:
type(y)

str

Чтобы переопределить тип переменной, достаточно выполнить еще одно присвоение:

In [16]:
x = 1

In [17]:
type(x)

int

## Базовые типы данных

In [19]:
# целые
x = 1
type(x)

int

In [20]:
# значения с плавающей точкой
x = 1.0
type(x)

float

In [21]:
# логические
b1 = True
b2 = False

type(b1)

bool

In [4]:
# комплексные числа
x = 1.0 + 1.0j
type(x)

complex

In [5]:
print(x)

(1+1j)


In [6]:
print(x.real, x.imag)

1.0 1.0


In [7]:
# строки
s = "Hello world"
type(s)

str

In [8]:
# у строе есть удобные методы, например, возвращающие их длину
len(s)

11

In [9]:
# замена слова в строке
s2 = s.replace("world", "someone")
print(s2)

Hello someone


Для доступа к символам строки можно использовать `[]`:

In [11]:
s[1]

'e'

Также возможно выделять подстроки из заданной строки:

In [50]:
s[0:5]

'Hello'

In [51]:
s[4:5]

'o'

Один из пропущенных индексов означает либо начало, либо конец строки:

In [52]:
s[:5] # выделяется подстрока с начала строки s

'Hello'

In [12]:
s[6:None] # Поскольку None -- ничего, это тоже самое, что s[6:]; здесь выделяется подстрока до конца текущей строки

'world'

In [54]:
s[:] # то же самое, что s - вся строка

'Hello world'

In [55]:
s[::1] # из текущей строки можно формировать строки, выбирая символы через заданное число символов

'Hello world'

In [56]:
s[::2] # здесь выбирается каждый второй символ из строки s и возвращается полученная таким образом новая строка

'Hlowrd'

Для работы со строками существует встроенный модуль string, который содержит множество полезных функций.

#### Примеры работы со строками, форматирование

In [57]:
print("str1", "str2", "str3")

('str1', 'str2', 'str3')


In [58]:
print("str1", 1.0, False, -1j)

('str1', 1.0, False, -1j)


In [59]:
print("str1" + "str2" + "str3") # слияние строк

str1str2str3


In [60]:
print("value = %f" % 1.0)       # we can use C-style string formatting

value = 1.000000


In [1]:
# преобразование данных типа float в строку
s2 = "value1 = %.2f. value2 = %d" % (3.1415, 1.5)
print(s2)

value1 = 3.14. value2 = 1


In [62]:
# другой способ строкового форматирования в Python
s3 = 'value1 = {0}, value2 = {1}'.format(3.1415, 1.5)
print(s3)

value1 = 3.1415, value2 = 1.5


### Списки

Список - это структура данных, способная хранить множество различных объектов с учетом их порядка.

Для создания списков используются квадратные скобки `[...]`:

In [3]:
l = [1, 2, 3, 4]

print(type(l))
print(l)

<class 'list'>
[1, 2, 3, 4]


Подобно работе со строками, мы можем формировать из заданного списка другие списки, обозначая каким образом выбирать элементы из исходного списка. Здесь полная аналогия работы со строками. Важно отметить, что как и в случае со строками, нумерация порядка элементов в списке начинается с 0.

In [4]:
print(l)

print(l[1:3])

print(l[::2])

[1, 2, 3, 4]
[2, 3]
[1, 3]


**Нумерация элементов в списке начинается с 0!**

In [5]:
l[1]

2

Список может содержать в себе элементы разных типов.

In [66]:
l = [1, 'a', 1.0, 1-1j]

print(l)

[1, 'a', 1.0, (1-1j)]


Кроме того, списки могут включать другие списки.

In [67]:
nested_list = [1, [2, [3, [4, [5]]]]]

nested_list

[1, [2, [3, [4, [5]]]]]

Для удобства создания списков в Python есть функция `range`. Ее синтаксис такой: `range(start, stop, step)`

In [7]:
start = 10
stop = 30
step = 2
list(range(start, stop, step))  # В Python 3 range это не список, а итератор, поэтому нужно
# дополнительно взять от итератора функцию list, чтобы в итоге получился список. Итераторы более экономичны, т.к.
# т.к. не потреблят памяти для своего хранения.

[10, 12, 14, 16, 18, 20, 22, 24, 26, 28]

In [69]:
# in python 3 range generates an interator, which can be converted to a list using 'list(...)'.
# It has no effect in python 2
list(range(start, stop, step))

[10, 12, 14, 16, 18, 20, 22, 24, 26, 28]

In [70]:
list(range(-10, 10))

[-10, -9, -8, -7, -6, -5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [71]:
s

'Hello world'

In [72]:
# Строку легко преобразовать в последовательность элементов
s2 = list(s)

s2

['H', 'e', 'l', 'l', 'o', ' ', 'w', 'o', 'r', 'l', 'd']

In [73]:
# Список можно отсортировать, если для типа данных, входящих в список, определено отношение порядка.
s2.sort()

print(s2)

[' ', 'H', 'd', 'e', 'l', 'l', 'l', 'o', 'o', 'r', 'w']


Такое возможно не всегда, например, если мы попытаемся отсортировать такой список:

In [8]:
x = [range(0,10), range(9,30)]
x.sort()

TypeError: unorderable types: range() < range()

То получим ошибку, сигнализирующую о том, что данные не могут быть упорядочены.

#### Работа со списками

In [74]:
# Создание пустого списка
l = []

# У списков есть удобный метод append, который позволяет добавлять в конец списка новые элементы.
l.append("A")
l.append("d")
l.append("d")

print(l)

['A', 'd', 'd']


Мы можем изменять элементы списка обращаясь к ним по индексу, со строками такого делать нельзя. Таким образом, списки являются "допускающими изменения" типом данных, в отличие от строк, которые не допускают подобного изменения.

In [75]:
l[1] = "p"
l[2] = "p"

print(l)

['A', 'p', 'p']


In [76]:
l[1:3] = ["d", "d"]

print(l)

['A', 'd', 'd']


Чтобы вставить элемент в определенную позицию в списке можно использовать метод `insert`

In [77]:
l.insert(0, "i")
l.insert(1, "n")
l.insert(2, "s")
l.insert(3, "e")
l.insert(4, "r")
l.insert(5, "t")

print(l)

['i', 'n', 's', 'e', 'r', 't', 'A', 'd', 'd']


Метод 'remove' удалаят заданный элемент из списка. Если этот элемент повторяется несколько раз, то при одном вызове метода 'remove' удалится только первый встретившийся.

In [78]:
l.remove("A")

print(l)

['i', 'n', 's', 'e', 'r', 't', 'd', 'd']


Чтобы удалить элемент списка по индексу следует использовать ключевое слово `del` (оно используется в Python для удаления объектов из текущего пространства имен):

In [79]:
del l[7]
del l[6]

print(l)

['i', 'n', 's', 'e', 'r', 't']


### Кортежи

Подобно спискам, кортежи в Python также представляют собой структуру данных для хранения произвольных объектов. Только кортежи являются типом данных, который не допускает своего изменения. Для создания кортежей используются круглые скобки
`(..., ..., ...)`:

In [80]:
point = (10, 20)

print(point, type(point))

((10, 20), <type 'tuple'>)


In [81]:
point = 10, 20

print(point, type(point))

((10, 20), <type 'tuple'>)


Можно распаковать данные из кортежа/списка и присвоить соответствующие значения переменным:

In [82]:
x, y = point

print("x =", x)
print("y =", y)

('x =', 10)
('y =', 20)


Однако попытка присвоить элементу кортежа новое значение приведет к ошибке (т.к. кортежи это не допускающий изменения тип данных [immutable])

In [83]:
point[0] = 20

TypeError: 'tuple' object does not support item assignment

### Словари

Словари представляются собой очень удобную структуру хранения данных, доступ к которым организован по ключу `{key1 : value1, ...}`:

In [84]:
params = {"parameter1" : 1.0,
          "parameter2" : 2.0,
          "parameter3" : 3.0,}

print(type(params))
print(params)

<type 'dict'>
{'parameter1': 1.0, 'parameter3': 3.0, 'parameter2': 2.0}


In [85]:
print("parameter1 = " + str(params["parameter1"]))
print("parameter2 = " + str(params["parameter2"]))
print("parameter3 = " + str(params["parameter3"]))

parameter1 = 1.0
parameter2 = 2.0
parameter3 = 3.0


In [86]:
params["parameter1"] = "A"
params["parameter2"] = "B"

# словари, допускают изменение, в любое время можно добавить новый элемент.
params["parameter4"] = "D"

print("parameter1 = " + str(params["parameter1"]))
print("parameter2 = " + str(params["parameter2"]))
print("parameter3 = " + str(params["parameter3"]))
print("parameter4 = " + str(params["parameter4"]))

parameter1 = A
parameter2 = B
parameter3 = 3.0
parameter4 = D


### Множества

Множества представляют собой наборы объектов, в которых не учитывается порядок. Множества, подобно спискам, допускают изменение. Однако, понятие индекса элемента множества не существует.

Множества могут быть удобны для нахождения уникальных элементов в списке.

In [9]:
set([1, 1, 2, 2, 3, 3])

{1, 2, 3}

In [12]:
set('what is it?')

{' ', '?', 'a', 'h', 'i', 's', 't', 'w'}

Для множеств возможны операции (могут быть полезны при работе с флористическим списками):

In [15]:
set([1, 2, 3]).intersection(set([3, 4, 5]))  #пересечения

{3}

In [16]:
set([1, 2, 3]).union(set([3, 4, 5]))  # объединения

{1, 2, 3, 4, 5}

In [17]:
set([1,2,3])-set([1, 2]) # разности

{3}

### Преобразование типов данных

In [29]:
x = 1.5

print(x, type(x))

(1.5, <type 'float'>)


In [30]:
x = int(x)

print(x, type(x))

(1, <type 'int'>)


In [31]:
z = complex(x)

print(z, type(z))

((1+0j), <type 'complex'>)


In [32]:
x = float(z)

TypeError: can't convert complex to float

In [33]:
y = bool(z.real)

print(z.real, " -> ", y, type(y))

y = bool(z.imag)

print(z.imag, " -> ", y, type(y))

(1.0, ' -> ', True, <type 'bool'>)
(0.0, ' -> ', False, <type 'bool'>)


## Операторы

Most operators and comparisons in Python work as one would expect:

* Арифметические операторы `+`, `-`, `*`, `/`, `//` (целочисленное деление), '**' возведение в степень


In [34]:
1 + 2, 1 - 2, 1 * 2, 1 / 2

(3, -1, 2, 0)

In [35]:
1.0 + 2.0, 1.0 - 2.0, 1.0 * 2.0, 1.0 / 2.0  # В Python 2.x 1/2=0, т.к. в этой версии этот оператор означает целочисленное деление

(3.0, -1.0, 2.0, 0.5)

In [36]:
# Integer division of float numbers
3.0 // 2.0

1.0

In [37]:
# Note! The power operators in python isn't ^, but **
2 ** 2

4

Также имеются логические операторы `and`, `not`, `or`. 

In [38]:
True and False

False

In [39]:
not False

True

In [40]:
True or False

True

* Операторы сравнения `>`, `<`, `>=` (больше, либо равно), `<=` (меньше, либо равно), `==` равенство, `is` идентичность.

In [41]:
2 > 1, 2 < 1

(True, False)

In [42]:
2 > 2, 2 < 2

(False, False)

In [43]:
2 >= 2, 2 <= 2

(True, True)

In [44]:
# равенство
[1, 2] == [1, 2]

True

In [45]:
# пример идентичных объектов
l1 = l2 = [1,2]

l1 is l2

True

## Условный оператор if.

Используется для выполнения блоков кода при выполнении определенных условий `if`, `elif` (else if), `else`:

In [87]:
statement1 = False
statement2 = False

if statement1:
    print("statement1 is True") # здесь 4 пробела, чтобы выделить блок для if
    
elif statement2: # дополнительных условий может быть не одно
    print("statement2 is True")
    
else:
    print("statement1 and statement2 are False")

statement1 and statement2 are False


#### Examples:

In [88]:
statement1 = statement2 = True

if statement1:
    if statement2:
        print("both statement1 and statement2 are True")

both statement1 and statement2 are True


In [89]:
# А здесь неправильный отступ
if statement1:
    if statement2:
    print("both statement1 and statement2 are True")  # Нужно было сделать отступ в 4 пробела

IndentationError: expected an indented block (<ipython-input-89-78979cdecf37>, line 4)

In [90]:
statement1 = False 

if statement1:
    print("printed if statement1 is True")
    
    print("still inside the if block")

In [91]:
if statement1:
    print("printed if statement1 is True")
    
print("now outside the if block")

now outside the if block


## Циклы

Классический циклический оператор `for` может использоваться с итераторами, например, списками:

### **`for` цикл**:

In [19]:
for x in [1, 2, 3]:
    print(x)

1
2
3


In [93]:
for x in range(4): # по умолчнию range начинается с 0
    print(x)

0
1
2
3


Заметим, что 4 не достигается в цикле!

In [94]:
for x in range(-3,3):
    print(x)

-3
-2
-1
0
1
2


In [95]:
for word in ["data", "analysis", "with", "python"]:
    print(word)

scientific
computing
with
python


In [97]:
for idx, x in enumerate(range(-3,3)):  # итерирование с индексом
    print(idx, x)

(0, -3)
(1, -2)
(2, -1)
(3, 0)
(4, 1)
(5, 2)


### Выразительные списки на базе циклов `for`:

Список можно также создать используя следующую упрощенную запись с циклом `for`:

In [98]:
l1 = [x**2 for x in range(0, 5)]
print(l1)

[0, 1, 4, 9, 16]


###  Цикл `while`:

In [21]:
i = 0

while i < 5: # всюду для выделения блока кода используются отступы
    print(i)
    i = i + 1
    
print("Цикл окончен")

0
1
2
3
4
Цикл окончен


## Функции

Функция на языке программирования Python декларируется ключевым словом `def`, далее идет имя функции, а также перечень передаваемых ей параметров. Код, выполняемый в функции, отделяется от основного кода отступами. 
Пример определения функции:

In [100]:
def func0():   
    print("test")

In [101]:
func0()

test


Очень важно давать описание того, что делает функция в виде строки документации, следующей сразу после декларирования функции. Эта строка опциональна, однако может впоследствии значительно упростить жизнь другим разработчикам, если предполагается, что создаваемый код будет еще кто-либо использовать в дальнейшем. В любом случае, крайне рекомендуется давать описания создаваемым функциям. Такие описания рекомендуется давать на английском.

In [102]:
def func1(s):
    """
    Print a string 's' and tell how many characters it has    
    """
    
    print(s + " has " + str(len(s)) + " characters")

In [103]:
help(func1)

Help on function func1 in module __main__:

func1(s)
    Print a string 's' and tell how many characters it has



In [104]:
func1("test")

test has 4 characters


Функции, которые возвращают значение, должны использовать для этих целей ключевое слово `return`:

In [105]:
def square(x):
    """
    Return the square of x.
    """
    return x ** 2

In [106]:
square(4)

16

Функция может возвращать несколько значений

In [107]:
def powers(x):
    """
    Return a few powers of x.
    """
    return x ** 2, x ** 3, x ** 4

In [108]:
powers(3)

(9, 27, 81)

In [109]:
x2, x3, x4 = powers(3)

print(x3)

27


### Задание значений аргументам функции

При определении функции, можно задать значения ее аргументов по умолчанию:

In [110]:
def myfunc(x, p=2, debug=False):
    if debug:
        print("evaluating myfunc for x = " + str(x) + " using exponent p = " + str(p))
    return x**p

Значения, задаваемые по умолчанию, используется при вызове функции, если они не переопределены этим вызовом:

In [111]:
myfunc(5)  # здесь полагается, что p=2, а debug=False

25

In [112]:
myfunc(5, debug=True)  # В этом случае уже debug=True

evaluating myfunc for x = 5 using exponent p = 2


25

In [113]:
myfunc(p=3, debug=True, x=7) # Еще один пример с переопределением значений по умолчанию

evaluating myfunc for x = 7 using exponent p = 3


343

### lambda-функции

Безымянные, или lambda-функции, создаются в Python исползуя ключевое слово `lambda`:

In [114]:
f1 = lambda x: x**2
    
# это тоже самое, что:

def f2(x):
    return x**2

In [115]:
f1(2), f2(2)

(4, 4)

Такой подход оказывается удобным, если нужно использовать какую-либо "небольшую" функцию единожды, не вынося ее в отдельное определение:

In [116]:
# map применяет подаваемую функцию к каждому элементу range.
map(lambda x: x**2, range(-3,4))

[9, 4, 1, 0, 1, 4, 9]

## Классы

Объектно-ориентированное программирование подразумевает создание объектов с какими-либо свойствами, выполнение операций над этим объектами и их взаимодействие. Такой подход позволяет структурировать программный код, сделать его более понятным. Гораздо проще работать, например, с объектом rectange, имеющим своими аттрибутами ширину и длину, а также в качестве одного из методов, например, функцию площади, чем представлять, что какой-либо список из двух значений, и представляет наш прямоугольник. Работать с таким списком, каждый раз помнить, что он отвечает именно за определенный прямоугольник, было бы гораздо сложней, особенно, если таких прямоугольников было бы много.

Для создания произвольных объектов в Python используется ключевое слово `class`. Создаваемый объект при этом имеет набор принадлежащих ему *аттрибутов* и *методов*.

* Каждый метод класса должен иметь в качестве первой переменной `self`, обозначающей представителя данного класса. 

* Есть специальные служебные методы класса, например:

    * `__init__`: вызывается, когда объект класса только создается;
    * `__str__` : отображает информацию об объекте;
Другие специальные методы могут быть найдены в официальной документации по Python.

In [1]:
class Point:
    """
    Simple class for representing a point in a Cartesian coordinate system.
    """
    
    def __init__(self, x, y):
        """
        Create a new Point at x, y.
        """
        print('Hey! I am __init__ function...!')
        self.x = x
        self.y = y
        
    def translate(self, dx, dy):
        """
        Translate the point by dx and dy in the x and y direction.
        """
        self.x += dx
        self.y += dy
        
    def __str__(self):
        return("Point at [%f, %f]" % (self.x, self.y))

Создание экземпляра класса происходит следующим образом:

In [119]:
p1 = Point(0, 0) # this will invoke the __init__ method in the Point class

print(p1)         # this will invoke the __str__ method

Point at [0.000000, 0.000000]


Давайте сделаем что-либо с объектом `p` с помощью метода `translate`:

In [120]:
p2 = Point(1, 1)

p1.translate(0.25, 1.5)

print(p1)
print(p2)

Point at [0.250000, 1.500000]
Point at [1.000000, 1.000000]


Важно отметить, что при работе с представителями класса меняются индивидуальные их аттрибуты, у других представителей значения аттрибут остаются прежними. Это позволяет работать с каждым объектом индивидуально, что очень важно для концепции объектно-ориентированного программирования.