# Сохранение функций в отдельный файл для повторного использования

Часто функции, написанные для одной задачи, используются в других(к примеру, прероцессинг текстовых файлов). Для их повторного использования, чтобы не копировать их из проекта в проект, удобно создать файл со всеми функциями и импортировать его как библиотеку. (import my_file)

При этом хочется оставить проверки, что функции работают нормально, оставить возможность отлаживать функции, запуская файл с ними, а не импортируя. То есть плюс к функциям, хочется иметь внутри этого файла некоторый код, запускающий их.

Немного об импорте - при импорте файла исполняется весь код внутри него. То есть импортируя файл мы запустим код для отладки, если он написан внутри файла, а не внутри отдельной функции. Выполнение отлаживающих строк может занимать лишнее время. Чтобы этого избежать, их помещают в функцию main(), а внутри файла с функциями пишут следющие строки:


if \__name\__ == "\__main\__":
    
    main()

Если вы импортируете файл \_\_name\_\_ будет равно имени файла. Написанное выше условие не исполнено, функция main не отработала и отлаживающий код не выполнен. Если вы запускаете файл (к примеру python name_of_file.py в консоли) \__name\__ будет равно "\__main\__" и отлаживающий скрипт будет запущен.

# Jupyter notebook

Полезные функции, существующие в среде разработки:

https://habrahabr.ru/company/wunderfund/blog/316826/

In [None]:
# Вся возможная магия:

# % - для строки

# %% - для ячейки

%lsmagic

In [None]:
# посмотреть документацию о функции


?open # open?

In [None]:
# ! - выполнить команду командной строки

! ls

замерить время выполнения

In [None]:
%timeit [1,2,3,4,5][2]

In [None]:
%%timeit
[1,2,3,4,5][2]

можно писать функции, используя latex:

\$\$c = \sqrt{a^2 + b^2}\$\$

$$c = \sqrt{a^2 + b^2}$$

# False and True

False в Питоне являются следующие объекты:

1. None

2. False

3. zero of any numeric type: 0, 0.0, 0j, Decimal(0), Fraction(0, 1)

4. empty sequences and collections: '', (), [], {}, set(), range(0)


In [None]:
if []:
    print ('[] is True')
else:
    print ('[] is False')

# List

будьте осторожны с копирование списков

In [None]:
a = [1,2,3,4]
b = a
print (b)
a.append(5)
print (b)
print (a is b)

Создавать новый список со значениями как у текущего лучше так:

In [None]:
a = [1,2,3,4]
b = a[:]
print (b)
print (a is b)

И еще пример

In [None]:
a = [1, 2, 3, 'hello', False, 'we', ['qw', 1]]
print (a)

In [None]:
c = [a]*2
print (c)

In [None]:
c[0][0] = 100
print (c)

! изменился не только первый элемент

In [None]:
print (a)

Если хотите скопировать значения в списке, а не ссылку на существующий список, можно сделать так:

In [None]:
a = [1, 2, 3, 'hello', False, 'we', ['qw', 1]]
print (a)

In [None]:
c = []
[c.append(a[:]) for _ in range(2)]
print (c)
c[0][0] = 100
print (c)

In [None]:
print (a)

# Loops vs. list comprehensions

Используйте генерацию списков вместо циклов - она быстрее и занимает меньше строк кода

In [None]:
%%timeit -n 1 -r 5
a = []    
for i in range(10000000):
    a.append(i*2)
            

In [None]:
%%timeit -n 1 -r 5

a = [i*2 for i in range(10000000)]


# Dict

в Питоне < 3.6 ключи в словаре храняться не в том порядке, в котором вы их туда складывали ( output ячеек - результаты на Питоне 3.6, в коментариях результаты работы на младшем Питоне)

In [None]:
a = dict() # {}
a = {1:'a', 2:'b', 4:'c', 3:'d'}
print (a) # {1: 'a', 2: 'b', 3: 'd', 4: 'c'}

In [None]:
print ('items:', a.items()) # [(1, 'a'), (2, 'b'), (3, 'd'), (4, 'c')]
print ('keys:', a.keys()) # [1, 2, 3, 4]
#  !! заметьте, ключи не в том порядке, в каком они добавлялись
print ('values:', a.values()) # ['a', 'b', 'd', 'c']

In [None]:
%%python2 

# for Python 2

a = dict() # {}
a = {1:'a', 2:'b', 4:'c', 3:'d'}
print ('dict', a) # {1: 'a', 2: 'b', 3: 'd', 4: 'c'}

print ('items:', a.items()) # [(1, 'a'), (2, 'b'), (3, 'd'), (4, 'c')]
print ('keys:', a.keys()) # [1, 2, 3, 4]
print ('values:', a.values()) # ['a', 'b', 'd', 'c']

Существуют специальные версии словарей

OrderedDict() - ключи находят в том порядке, в каком добавлялись.

defaultdict() - при обращении к несуществующему элементу создает его с указанным значение.

 # Dict comprehensions

Для словарей можно использовать генерацию, как для списков

In [None]:
{i:i*2 for i in range(10)}

In [None]:
char2number = {char_: char_i for char_i, char_ in enumerate('abcdefj') if char_ not in 'qweasd'}

In [None]:
char2number # {'b': 1, 'c': 2, 'f': 5, 'j': 6}

In [None]:
{value:key for key, value in char2number.items()} # {1: 'b', 2: 'c', 5: 'f', 6: 'j'}

Если вы хотите сложный ключ - используйте кортежи. Они неизменяемы и могут быть ключами в словаре. Листы изменяемы, и не могут быть ключами словаря.

In [None]:
dict_ = {(1,2):1}

In [None]:
dict_ = {[1,2]:1} # TypeError: unhashable type: 'list'

# генераторы

Для итерации по объектам в Питоне существуют генераторы


Их можно создать, используя синтаксис с круглыми скобками или ключевое слово yield вместо return у функции

In [None]:
(i for i in range(10))

In [None]:
def gen(a):
    for i in a:
        yield i
        
print (gen([1,2,3]))

Они запоминают, где остановился процесс итерации.

Они проходят по итерируемому объекто только один раз

In [None]:
b = list(range(10))
a = gen(b)
for i in a:
    print (i)
    if i == 4:
        break

print ('-'*20)

for i in a:
    print (i)
    
print ('-'*20)
    
for i in a:
    print (i)

Они не копируют объект, по которому итерируются. Если вы его измените - они выдадут вам новые значения

In [None]:
b = list(range(10))
a = gen(b)
for i in a:
    print (i)
    if i == 4:
        break
        
print ('-'*20)
        
b[5] = 10
b[7] = 20

for i in a:
    print (i)
    

# Functions

У функций можно задавать аргументы по умолчанию

In [None]:
def fun(name, surname=''):
    """return name"""
    print ('Hi %s %s' % (name, surname))
    
fun('Alice')
fun('Alice', 'Morozova')

Текст, написанный внутри """text"""  - считается документацией и будет показан и запросе информации о вашей фенкции

In [None]:
?fun

# Signature: fun(name, surname='')
# Docstring: return name
# File:      /mnt/raid/o.malyugina/keyboard/skripts/<ipython-input-17-33bf7d893645>
# Type:      function

Если мы задаем значение по умолчанию как список - он будет создан только один раз. Все последующиеся - мы будем использовать уже созданный список.

In [None]:
def fun(a = []):
    a.append(1)
    return a
    
print (fun())
print (fun())

Интересное об областях видимости:

In [None]:
first_variable = 1

def increment():
    print (first_variable * 2)

print (first_variable)
increment()
print (first_variable)

In [None]:
first_variable = 1

def increment():
    first_variable = 2

print (first_variable)
increment()
print (first_variable)

In [None]:
first_variable = 1

def increment():
    global first_variable
    first_variable = 2

print (first_variable)
increment()
print (first_variable)

In [None]:
first_variable = 1

def increment_0():
    print(first_variable)
    first_variable = 2

print (first_variable)
increment_0()
print (first_variable)

#UnboundLocalError: local variable 'first_variable' referenced before assignment

В питоне передается ссылка на объект, а не сам объект. Поэтому список, переданный в функцию будет изменяться внутри функции.

Не стоит менять дефолтные значения внутри функции. Вы можете об это забыть.

In [None]:
def upgrade (a):
    a.append('1')
    
a = [2]
print (a)
upgrade(a)
print (a)
upgrade(a)
print (a)

# Представление строк.
в 3. только юникод строки

Используйте codecs для загрузки из файлов, кодировка которых не utf-8

In [None]:
import codecs

with codecs.open('tmp.py', 'r', encoding='cp1251') as f:  #r, w, a, wb, rb
    data = f.read()  # f.readline() f.readlines(), f.write(text), f.writelines(list)

print (data)

Также можно считывать и записывать байты - 'wb', 'rb'

Как понять в какой кодировке у вас текст?
https://habrahabr.ru/post/147843/
    
или изменение кодировки в блокноте, пока не получите читаемый текст

In [None]:
# Экранированные последовательности
S = "s\np\ta\nbbb"
print (S)

In [None]:
# Неформатированные строки (подавляют экранирование) raw строки
S = r"C:\temp\new"
print (S)

In [None]:
#полезная библиотека
import string

In [None]:
print (string.digits)
print (string.punctuation)
print (string.ascii_letters)

# Numpy

http://zwmiller.com/blogs/python_data_structure_speed.html - сравнение скоростей

Используйте numpy когда имеете дело с числовыми матрицами

In [None]:
import sys
import numpy as np

In [None]:
a = list(range(100000))
print (sys.getsizeof(a))
b = np.array(a)
print (sys.getsizeof(b))

In [None]:
%timeit [i**2 for i in a]

In [None]:
%timeit b**2

Получение значений, удовлетворяющих условию

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])
print (a)

bool_idx = (a > 2) 
print(bool_idx)     

print(a[bool_idx])  
print(a[a > 2]) 
print (bool_idx.any(axis = 0))

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])
print (a)
a[a>2]=0
print (a)

Тип данных в массиве можно задавать. Менять тип значений нужно руками - если вы решите заполнить массив интов флоатами - они автоматически приведутся к нужному типу

In [None]:
x = np.array([1, 2])
print(x.dtype)

x.fill(0.5)
print (x)

# SciPy

Используется при работе с разрежеными матрицами - очень сильно экономит место

In [None]:
from scipy import sparse
row = np.array([0, 0, 1, 2, 2, 2])
col = np.array([0, 2, 2, 0, 1, 2])
data = np.array([1, 2, 3, 4, 5, 6])
mtx = sparse.csr_matrix((data, (row, col)), shape=(3, 3))
     

In [None]:
mtx

In [None]:
mtx.todense()   

indptr[i],indptr[i+1] задает диапазон индексов в массивах indices и data, которые описывают в каких столбцах хранятся ненулевые значения в i-ой строке и чему они равны

In [None]:
mtx.data        

In [None]:
mtx.indices

In [None]:
mtx.indptr

Для разреженных матриц реализованно множество функций

https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html#scipy.sparse.csr_matrix