## Кодировки в Python

https://ru.wikipedia.org/wiki/Юникод

https://ru.wikipedia.org/wiki/UTF-8

str - последовательность байт

unicode - последовательность симловов в кодировке Unicode

По умолчанию строковые константы воспринимаются как str 

In [5]:
type('string')

str

In [6]:
type('строчка')

str

но можно явно указать, чтобы строковая константа воспринималась как unicode

In [7]:
type(u'string')

unicode

In [8]:
type(u'строчка')

unicode

In [9]:
for x in u'string':
    print x

s
t
r
i
n
g


In [10]:
for x in 'string':
    print x

s
t
r
i
n
g


In [11]:
for x in u'строчка':
    print x

с
т
р
о
ч
к
а


In [12]:
for x in 'строчка':
    print x

�
�
�
�
�
�
�
�
�
�
�
�
�
�


На латинских символах str и unicode совпадают, а на остальных нет

In [13]:
'string' == u'string'

True

На самом деле так происходит, потому что предварительно оба значения сначала приводятся к unicode. 

Так как utf-8 и unicode совпадают на латинских символах, то получаются равные строки

Но если мы попробуем сделать такое с символами, которые не переводятся так просто в unicode (например кирилица), то мы получим предупреждение и результат False

In [14]:
'строчка' == u'строчка'

  if __name__ == '__main__':


False

для строк из латинских символах можно делать переход в Unicode посредством вызова unicode от строки

In [15]:
unicode('string+-:,.1234567890=')

u'string+-:,.1234567890='

Но для кирилицы это уже просто так не сработает, так как по умолчанию при декодировании используется кодировка ascii, а строчка по умолчанию записана в utf-8

In [16]:
unicode('строчка')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 0: ordinal not in range(128)

Но есть параметр encoding, который поможет в данной ситуации

In [17]:
unicode('строчка', encoding='utf-8')

u'\u0441\u0442\u0440\u043e\u0447\u043a\u0430'

In [18]:
print unicode('строчка', encoding='utf-8')

строчка


Похожая ситуация с str

In [19]:
str(u'string')

'string'

In [20]:
str(u'строчка')

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-6: ordinal not in range(128)

По умолчанию при выводе str используется кодировка ASCII, но в ней нет кирилицы

https://ru.wikipedia.org/wiki/ASCII

параметра encoding тут нет

In [21]:
str(u'строчка', encoding='utf-8')

TypeError: str() takes at most 1 argument (2 given)

Для решения этой проблемы у строк есть методы decode и encode, которые позволяют переводить str в unicode и обратно

По умолчанию в Python используется utf-8

In [22]:
print type('строчка')
print type('строчка'.decode('utf-8'))

<type 'str'>
<type 'unicode'>


существуют и другие кодировки

In [23]:
'строчка'.decode('windows-1251')

u'\u0421\u0403\u0421\u201a\u0421\u0402\u0420\u0455\u0421\u2021\u0420\u0454\u0420\xb0'

In [24]:
print 'строчка'.decode('windows-1251')

СЃС‚СЂРѕС‡РєР°


In [25]:
'строчка'.decode('windows-1251').encode('windows-1251')

'\xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd1\x87\xd0\xba\xd0\xb0'

In [26]:
print 'строчка'.decode('windows-1251').encode('windows-1251')

строчка


In [27]:
print 'строчка'.decode('windows-1251').encode('utf-8')

СЃС‚СЂРѕС‡РєР°


In [28]:
print 'строчка'.decode('windows-1251').encode('utf-8').decode('utf-8').encode('windows-1251')

строчка


In [29]:
my_list1 = ['мама', u'мыла', u'раму']
print my_list1

['\xd0\xbc\xd0\xb0\xd0\xbc\xd0\xb0', u'\u043c\u044b\u043b\u0430', u'\u0440\u0430\u043c\u0443']


In [30]:
my_list2 = [u'мама', u'мыла', u'раму']
print my_list2

[u'\u043c\u0430\u043c\u0430', u'\u043c\u044b\u043b\u0430', u'\u0440\u0430\u043c\u0443']


In [31]:
my_list3 = [u'мама', 'мыла', u'раму'.encode('windows-1251')]
print my_list3

[u'\u043c\u0430\u043c\u0430', '\xd0\xbc\xd1\x8b\xd0\xbb\xd0\xb0', '\xf0\xe0\xec\xf3']


In [32]:
for x, y, z in zip(my_list1, my_list2, my_list3):
    print x, y, z

мама мама мама
мыла мыла мыла
раму раму ����


In [33]:
' '.join(my_list1)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd0 in position 0: ordinal not in range(128)

In [35]:
' '.join(my_list2)

мама мыла раму


In [36]:
' '.join(my_list3)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd0 in position 0: ordinal not in range(128)

Существует специальная библиотека chardet

Это не стандартная библиотека Python, поэтому её нужно будет установить

Для этого нужно выполнить в консоли команду:

pip install chardet

или

sudo pip install chardet

In [37]:
import chardet

In [38]:
chardet.detect(u'строчка')

TypeError: Expected object of type bytes or bytearray, got: <type 'unicode'>

In [39]:
chardet.detect('строчка')

{'confidence': 0.99, 'encoding': 'utf-8', 'language': ''}

In [40]:
chardet.detect(u'строчка'.encode('windows-1251'))

{'confidence': 0.99, 'encoding': 'windows-1251', 'language': 'Russian'}

In [41]:
chardet.detect(u'абв'.encode('cp866'))

{'confidence': 0.73, 'encoding': 'ISO-8859-1', 'language': ''}

In [42]:
def my_decoder(val):
    if type(val) is unicode:
        return val
    else:
        return unicode(val, encoding=chardet.detect(val)['encoding'])

In [43]:
u' '.join(map(my_decoder, my_list1))

u'\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443'

In [44]:
u' '.join(map(my_decoder, my_list2))

u'\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443'

In [45]:
u' '.join(map(my_decoder, my_list3))

u'\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443'

#### При прочих равных условиях переводите все строки в Unicode, чтобы не было проблем с кодировками

# Модуль re

Пример проблемы

In [46]:
'first,second;third,fourth'.split(';')

['first,second', 'third,fourth']

In [47]:
'first,second;third,fourth'.split(',')

['first', 'second;third', 'fourth']

In [48]:
'first,second;third,fourth'.split(',;')

['first,second;third,fourth']

Не получается разделить по одному из двух символов

Ещё пример проблемы

Есть тексты ценников на яблоки с рынка. Нам нужно вычленить из текста числа и получить просто список int-ов (мы точно знаем, что где-то там написана числами цена в рублях, но не знаем где именно)

При помощи split это очень трудно сделать в общем виде, так как всегда может быть запись не по формату 

In [49]:
apple_prices = [ 
    u'100 рублей',
    u'дёшево!!! 80 рублей',
    u'очень сладкие 120 рублей',
    u'120 рублей, последний урожай',
    u'110'
]

Помогает модуль re

In [50]:
import re

Он позволяет описывает определённые шаблоны и в дальнейшем их искать в тексте и многие другие операции с ними.

In [51]:
for price in apple_prices:
    print re.findall('[0123456789]+', price)

[u'100']
[u'80']
[u'120']
[u'120']
[u'110']


In [52]:
map(
    lambda p: int(re.findall('[0-9]+', p)[0]),
    apple_prices
)

[100, 80, 120, 120, 110]

In [53]:
re.findall('[0-9]+', '12313212 . 312312')

['12313212', '312312']

Как делить строчку по шаблону

In [54]:
re.split(';', 'first,second;third,fourth')

['first,second', 'third,fourth']

In [55]:
re.split(',', 'first,second;third,fourth')

['first', 'second;third', 'fourth']

In [56]:
re.split(',;', 'first,second;third,fourth')

['first,second;third,fourth']

In [57]:
re.split('[,;]', 'first,second;third,fourth')

['first', 'second', 'third', 'fourth']

Документация модуля re 

https://docs.python.org/2/library/re.html

## Работа с файлами

In [58]:
f = open('test.txt', 'w')
f

<open file 'test.txt', mode 'w' at 0x1045aeae0>

в блокнотах можно запускать некоторые стандартные unix команды

например, ls показывает список файлов в текущей папке, rm удаляет файл, а cat выводит содержимое файла

перед названием команды надо ставить !

In [59]:
!ls

2_Syntax_part1.ipynb               4_Encodings_Files.ipynb
3_Syntax_part2.ipynb               [1m[36mpreparing_materials[m[m
3_Syntax_part2_after_lection.ipynb test.txt


In [60]:
f.write('hello, world')

In [61]:
!cat test.txt

In [62]:
f.close()

In [63]:
!cat test.txt

hello, world

In [64]:
!rm test.txt

In [65]:
f1 = open('test.txt', 'w')
f1.write('hello, world')

In [66]:
f2 = open('test.txt', 'r')
f2.read()

''

In [67]:
f1.write('hello, world')
f2.read()

''

In [68]:
f1.close()
f2.read()

''

In [69]:
f1 = open('test.txt', 'w')

In [70]:
f1.write('hello, world')
f2.read()

''

In [71]:
f1.close()
f2.read()

''

In [72]:
f2.close()

In [73]:
!cat test.txt

hello, world

In [74]:
!rm test.txt

In [75]:
with open('test.txt', 'w') as ff:
    ff.write('hello, world')

In [76]:
ff

<closed file 'test.txt', mode 'w' at 0x1045ae8a0>

После выхода из блока with файл
гарантированно закрыт.

Это рекомендуемый способ работы с файлами.

In [77]:
with open('test.txt', 'r') as ff:
    print ff.read()

hello, world


In [78]:
ff

<closed file 'test.txt', mode 'r' at 0x1045ae810>

In [79]:
with open('test.txt', 'w') as f1, open('test.txt', 'r') as f2:
    f1.write('hello, world')
    print f2.read()




In [80]:
with open('test.txt', 'w') as f1, open('test.txt', 'r') as f2:
    f1.write('hello, world')
    f1.flush()
    print f2.read()

hello, world


In [81]:
f1

<closed file 'test.txt', mode 'w' at 0x1045ae780>

In [82]:
f2

<closed file 'test.txt', mode 'r' at 0x1045ae5d0>

In [83]:
!rm test.txt

## Операции с файлами

In [84]:
with open('test.txt', 'w') as ff:
    ff.write('1\n')
    ff.write('\t2\n')
    ff.write('\t\t3\n')
    ff.write('\t\t\t4\n')

In [85]:
with open('test.txt', 'r') as ff:
    print '!'
    print ff.read()
    print '!'
    print ff.read()

!
1
	2
		3
			4

!



In [86]:
with open('test.txt', 'r') as ff:
    print ff.readlines()

['1\n', '\t2\n', '\t\t3\n', '\t\t\t4\n']


In [87]:
with open('test.txt', 'r') as ff:
    print ff.xreadlines()

<open file 'test.txt', mode 'r' at 0x1045aec00>


In [88]:
with open('test.txt', 'r') as ff:
    for line in ff.xreadlines():
        print '"{}"'.format(line)
        print '!'

"1
"
!
"	2
"
!
"		3
"
!
"			4
"
!


In [89]:
with open('test.txt', 'r') as ff:
    for line in ff.xreadlines():
        print '"{}"'.format(line.strip())
        print '!'

"1"
!
"2"
!
"3"
!
"4"
!


In [90]:
with open('test.txt', 'r') as ff:
    print map(int, ff.xreadlines())

[1, 2, 3, 4]


In [91]:
with open('test.txt', 'r') as ff:
    for line in ff:
        print '"{}"'.format(line.strip())
        print '!'

"1"
!
"2"
!
"3"
!
"4"
!


In [92]:
with open('test.txt', 'r') as ff:
    print map(int, ff)

[1, 2, 3, 4]


## Кодировки файлов

Данные в файл не записываются в Unicode, они приводятся в какую-то кодировку и в этой кодировке записывают в файл. Поэтому нужно следить за этим.

С латинскими символами всё хорошо

In [93]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world')

In [94]:
with open('test.txt', 'r') as ff:
    print ff.read()

hello, world


In [95]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world'.encode('windows-1251'))

In [96]:
with open('test.txt', 'r') as ff:
    print ff.read()

hello, world


In [97]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world'.encode('cp866'))

In [98]:
with open('test.txt', 'r') as ff:
    print ff.read()

hello, world


Но стоит перейти к кирилице и начинается

In [99]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир')

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)

In [100]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('utf-8'))

In [101]:
with open('test.txt', 'r') as ff:
    print ff.read()

Здравствуй, мир


In [102]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('windows-1251'))

In [103]:
with open('test.txt', 'r') as ff:
    print ff.read()

����������, ���


In [104]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('cp866'))

In [105]:
with open('test.txt', 'r') as ff:
    print ff.read()

��ࠢ���, ���


In [106]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('windows-1251'))

In [107]:
with open('test.txt', 'r') as ff:
    print my_decoder(ff.read())

«дравствуй, мир


Наш decoder не справился, давайте посмотрим, что говорит chardet

In [108]:
with open('test.txt', 'r') as ff:
    print chardet.detect(ff.read())

{'confidence': 0.8506741553297926, 'language': 'Russian', 'encoding': 'MacCyrillic'}


Так как символов мало, chardet неправильно определяет кодировку. Отсюда вывод - не стоит всегда надеятся на chardet

In [109]:
with open('test.txt', 'r') as ff:
    print ff.read().decode('windows-1251')

Здравствуй, мир


Усли явно указать кодировку, то всё работает

In [110]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('cp866'))

In [111]:
with open('test.txt', 'r') as ff:
    print ff.read().decode('cp866')

Здравствуй, мир


## Системные операции с файлами

In [112]:
import os

In [113]:
os.listdir('.')

['.DS_Store',
 '.ipynb_checkpoints',
 '2_Syntax_part1.ipynb',
 '3_Syntax_part2.ipynb',
 '3_Syntax_part2_after_lection.ipynb',
 '4_Encodings_Files.ipynb',
 'preparing_materials',
 'test.txt']

In [114]:
for (dirpath, dirnames, filenames) in os.walk('.'):
    print (dirpath, dirnames, filenames)

('.', ['.ipynb_checkpoints', 'preparing_materials'], ['.DS_Store', '2_Syntax_part1.ipynb', '3_Syntax_part2.ipynb', '3_Syntax_part2_after_lection.ipynb', '4_Encodings_Files.ipynb', 'test.txt'])
('./.ipynb_checkpoints', [], ['3_Syntax_part2-checkpoint.ipynb', '4_Encodings_Files-checkpoint.ipynb'])
('./preparing_materials', ['pandas and visualization', 'python intro'], ['.DS_Store'])
('./preparing_materials/pandas and visualization', ['.ipynb_checkpoints'], ['.DS_Store', 'data_sample_example.tsv', 'dataset.tsv', 'iris_frame.csv', 'matplotlib.data_visualization.ipynb', 'pandas_dataframe.ipynb', 'pandas_indexing_selection.ipynb', 'README.md', 'SBT_06 Pandas.ipynb', 'SBT_10 Requests+bs4.ipynb', 'updated_dataset.csv'])
('./preparing_materials/pandas and visualization/.ipynb_checkpoints', [], ['pandas_dataframe-checkpoint.ipynb', 'pandas_indexing_selection-checkpoint.ipynb'])
('./preparing_materials/python intro', ['.ipynb_checkpoints'], ['.DS_Store', 'example_koi_8.txt', 'example_utf8.txt', '

In [115]:
for (dirpath, dirnames, filenames) in os.walk('.'):
    print dirpath
    print dirnames
    print filenames
    print ''

.
['.ipynb_checkpoints', 'preparing_materials']
['.DS_Store', '2_Syntax_part1.ipynb', '3_Syntax_part2.ipynb', '3_Syntax_part2_after_lection.ipynb', '4_Encodings_Files.ipynb', 'test.txt']

./.ipynb_checkpoints
[]
['3_Syntax_part2-checkpoint.ipynb', '4_Encodings_Files-checkpoint.ipynb']

./preparing_materials
['pandas and visualization', 'python intro']
['.DS_Store']

./preparing_materials/pandas and visualization
['.ipynb_checkpoints']
['.DS_Store', 'data_sample_example.tsv', 'dataset.tsv', 'iris_frame.csv', 'matplotlib.data_visualization.ipynb', 'pandas_dataframe.ipynb', 'pandas_indexing_selection.ipynb', 'README.md', 'SBT_06 Pandas.ipynb', 'SBT_10 Requests+bs4.ipynb', 'updated_dataset.csv']

./preparing_materials/pandas and visualization/.ipynb_checkpoints
[]
['pandas_dataframe-checkpoint.ipynb', 'pandas_indexing_selection-checkpoint.ipynb']

./preparing_materials/python intro
['.ipynb_checkpoints']
['.DS_Store', 'example_koi_8.txt', 'example_utf8.txt', 'ipython_files_data_reading.ipy

In [116]:
os.path.join('.', '.')

'./.'

In [117]:
os.path.join('preparing_materials', 'python intro')

'preparing_materials/python intro'

In [119]:
os.path.exists(os.path.join('preparing_materials', 'python intro'))

True

In [120]:
os.path.exists(os.path.join('preparing_materials', 'something else'))

False

In [123]:
os.path.exists('tmp_dir')

True

os.makedirs создаёт все промежуточные папки

In [122]:
os.makedirs('tmp_dir')

In [124]:
os.makedirs('yet_another_tmp_dir/yet_another_tmp_dir_inner/yet_another_tmp_dir_inner_inner')

In [125]:
!ls yet_another_tmp_dir
!ls yet_another_tmp_dir/yet_another_tmp_dir_inner/

[1m[36myet_another_tmp_dir_inner[m[m
[1m[36myet_another_tmp_dir_inner_inner[m[m


In [126]:
os.path.exists('tmp_dir')

True

In [127]:
os.makedirs('tmp_dir')

OSError: [Errno 17] File exists: 'tmp_dir'

In [128]:
!rm -r tmp_dir
!rm -r yet_another_tmp_dir

In [139]:
if not os.path.exists('tmp_dir'):
    os.makedirs('tmp_dir')
    
os.path.exists('tmp_dir')

True

In [140]:
!rm -r tmp_dir

Эти и многие другие функции в модуле os

https://docs.python.org/2/library/os.html

## Небольшое задание

Давайте напишем программу, которая считает частоту всех слов в файле. Словом считаем последовательность латинских букв.

In [141]:
from collections import Counter

def count(filename):
    with open(filename, 'r') as f:
        return Counter(re.findall('[A-Za-z]+', f.read()))

In [142]:
cnt = count('4_Encodings_Files.ipynb')

In [143]:
cnt.most_common(10)

[('u', 526),
 ('b', 407),
 ('m', 331),
 ('n', 320),
 ('type', 304),
 ('metadata', 238),
 ('cell', 193),
 ('count', 193),
 ('source', 193),
 ('execution', 192)]

In [None]:
import re
from collections import Counter


cnt = Counter()
with open('4_Encodings_Files.ipynb', 'r') as f:
    for line in f:
        cnt.update(re.findall('[a-zA-Z]+', line))

In [None]:
cnt

In [None]:
cnt.most_common(10)