## Кодировки в Python

https://ru.wikipedia.org/wiki/Юникод

https://ru.wikipedia.org/wiki/UTF-8

str - последовательность байт

unicode - последовательность симловов в кодировке Unicode

По умолчанию строковые константы воспринимаются как str 

In [1]:
type('string')

str

In [2]:
type('строчка')

str

но можно явно указать, чтобы строковая константа воспринималась как unicode

In [3]:
type(u'string')

unicode

In [4]:
type(u'строчка')

unicode

На латинских символах str и unicode совпадают, а на остальных нет

In [5]:
'string' == u'string'

True

На самом деле так происходит, потому что предварительно оба значения сначала приводятся к unicode. 

Так как utf-8 и unicode совпадают на латинских символах, то получаются равные строки

Но если мы попробуем сделать такое с символами, которые не переводятся так просто в unicode (например кирилица), то мы получим предупреждение и результат False

In [6]:
'строчка' == u'строчка'

  """Entry point for launching an IPython kernel.


False

для строк из латинских символах можно делать переход в Unicode посредством вызова unicode от строки

In [7]:
unicode('string+-:,.1234567890=')

u'string+-:,.1234567890='

Но для кирилицы это уже просто так не сработает, так как по умолчанию при декодировании используется кодировка ascii, а строчка по умолчанию записана в utf-8

In [8]:
unicode('строчка')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 0: ordinal not in range(128)

Но есть параметр encoding, который поможет в данной ситуации

In [9]:
unicode('строчка', encoding='utf-8')

u'\u0441\u0442\u0440\u043e\u0447\u043a\u0430'

In [10]:
print unicode('строчка', encoding='utf-8')

строчка


Похожая ситуация с str

In [11]:
str(u'string')

'string'

In [12]:
str(u'строчка')

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-6: ordinal not in range(128)

По умолчанию при выводе str используется кодировка ASCII, но в ней нет кирилицы

параметра encoding тут нет

In [13]:
str(u'строчка', encoding='utf-8')

TypeError: str() takes at most 1 argument (2 given)

Для решения этой проблемы у строк есть методы decode и encode, которые позволяют переводить str в unicode и обратно

По умолчанию в Python используется utf-8

In [14]:
print type('строчка')
print type('строчка'.decode('utf-8'))

<type 'str'>
<type 'unicode'>


существуют и другие кодировки

In [15]:
'строчка'.decode('windows-1251')

u'\u0421\u0403\u0421\u201a\u0421\u0402\u0420\u0455\u0421\u2021\u0420\u0454\u0420\xb0'

In [16]:
print 'строчка'.decode('windows-1251')

СЃС‚СЂРѕС‡РєР°


In [17]:
'строчка'.decode('windows-1251').encode('windows-1251')

'\xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd1\x87\xd0\xba\xd0\xb0'

In [18]:
print 'строчка'.decode('windows-1251').encode('windows-1251')

строчка


In [19]:
print 'строчка'.decode('windows-1251').encode('utf-8')

СЃС‚СЂРѕС‡РєР°


In [20]:
print 'строчка'.decode('windows-1251').encode('utf-8').decode('utf-8').encode('windows-1251')

строчка


In [21]:
my_list1 = ['мама', u'мыла', u'раму']
print my_list1

['\xd0\xbc\xd0\xb0\xd0\xbc\xd0\xb0', u'\u043c\u044b\u043b\u0430', u'\u0440\u0430\u043c\u0443']


In [22]:
my_list2 = [u'мама', u'мыла', u'раму']
print my_list2

[u'\u043c\u0430\u043c\u0430', u'\u043c\u044b\u043b\u0430', u'\u0440\u0430\u043c\u0443']


In [23]:
my_list3 = [u'мама', 'мыла', u'раму'.encode('windows-1251')]
print my_list3

[u'\u043c\u0430\u043c\u0430', '\xd0\xbc\xd1\x8b\xd0\xbb\xd0\xb0', '\xf0\xe0\xec\xf3']


In [24]:
for x, y, z in zip(my_list1, my_list2, my_list3):
    print x, y, z

мама мама мама
мыла мыла мыла
раму раму ����


In [25]:
' '.join(my_list1)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd0 in position 0: ordinal not in range(128)

In [26]:
' '.join(my_list2)

u'\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443'

In [27]:
' '.join(my_list3)

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd0 in position 0: ordinal not in range(128)

Существует специальная библиотека chardet

Это не стандартная библиотека Python, поэтому её нужно будет установить

Для этого нужно выполнить в консоли команду:

pip install chardet

или

sudo pip install chardet

In [30]:
import chardet

In [31]:
chardet.detect(u'строчка')

TypeError: Expected object of type bytes or bytearray, got: <type 'unicode'>

In [32]:
chardet.detect('строчка')

{'confidence': 0.99, 'encoding': 'utf-8', 'language': ''}

In [33]:
chardet.detect(u'строчка'.encode('windows-1251'))

{'confidence': 0.99, 'encoding': 'windows-1251', 'language': 'Russian'}

In [34]:
chardet.detect(u'абв'.encode('cp866'))

{'confidence': 0.73, 'encoding': 'ISO-8859-1', 'language': ''}

In [35]:
def my_decoder(val):
    if type(val) is unicode:
        return val
    else:
        return unicode(val, encoding=chardet.detect(val)['encoding'])

In [36]:
u' '.join(map(my_decoder, my_list1))

u'\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443'

In [37]:
u' '.join(map(my_decoder, my_list2))

u'\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443'

In [38]:
u' '.join(map(my_decoder, my_list3))

u'\u043c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443'

#### При прочих равных условиях переводите все строки в Unicode, чтобы не было проблем с кодировками

# Модуль re

Пример проблемы

In [39]:
'first,second;third,fourth'.split(';')

['first,second', 'third,fourth']

In [40]:
'first,second;third,fourth'.split(',')

['first', 'second;third', 'fourth']

In [41]:
'first,second;third,fourth'.split(',;')

['first,second;third,fourth']

Не получается разделить по одному из двух символов

Ещё пример проблемы

Есть тексты ценников на яблоки с рынка. Нам нужно вычленить из текста числа и получить просто список int-ов (мы точно знаем, что где-то там написана числами цена в рублях, но не знаем где именно)

При помощи split это очень трудно сделать в общем виде, так как всегда может быть запись не по формату 

In [42]:
apple_prices = [ 
    u'100 рублей',
    u'дёшево!!! 80 рублей',
    u'очень сладкие 120 рублей',
    u'120 рублей, последний урожай',
    u'110'
]

Помогает модуль re

In [43]:
import re

Он позволяет описывает определённые шаблоны и в дальнейшем их искать в тексте и многие другие операции с ними.

In [44]:
for price in apple_prices:
    print re.findall('[0-9]+', price)

[u'100']
[u'80']
[u'120']
[u'120']
[u'110']


In [45]:
map(lambda p: int(re.findall('[0-9]+', p)[0]), apple_prices)

[100, 80, 120, 120, 110]

In [46]:
re.findall('[0-9]+', '12313212 . 312312')

['12313212', '312312']

Как делить строчку по шаблону

In [47]:
re.split(';', 'first,second;third,fourth')

['first,second', 'third,fourth']

In [48]:
re.split(',', 'first,second;third,fourth')

['first', 'second;third', 'fourth']

In [49]:
re.split(',;', 'first,second;third,fourth')

['first,second;third,fourth']

In [50]:
re.split('[,;]', 'first,second;third,fourth')

['first', 'second', 'third', 'fourth']

Документация модуля re 

https://docs.python.org/2/library/re.html

## Работа с файлами

In [51]:
f = open('test.txt', 'w')
f

<open file 'test.txt', mode 'w' at 0x0000000005F00420>

в блокнотах можно запускать некоторые стандартные unix команды

например, ls показывает список файлов в текущей папке, rm удаляет файл, а cat выводит содержимое файла

перед названием команды надо ставить !

In [52]:
!ls

"ls" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [53]:
!dir

 ’®¬ ў гбва®©бвўҐ D Ё¬ҐҐв ¬ҐвЄг ‹®Є «м­л© ¤ЁбЄ
 ‘ҐаЁ©­л© ­®¬Ґа в®¬ : 9605-C03A

 ‘®¤Ґа¦Ё¬®Ґ Ї ЇЄЁ D:\Programs\Anaconda2\Scripts\SBT_Python_2017_Fall\lectures

11.10.2017  19:13    <DIR>          .
11.10.2017  19:13    <DIR>          ..
11.10.2017  18:51    <DIR>          .ipynb_checkpoints
04.10.2017  07:44            56я292 2_Syntax_part1.ipynb
10.10.2017  02:08            39я351 3_Syntax_part2.ipynb
11.10.2017  19:13            52я365 4_Encodings_Files.ipynb
11.10.2017  19:13                 0 test.txt
               4 д ©«®ў        148я008 Ў ©в
               3 Ї Ї®Є  770я194я292я736 Ў ©в бў®Ў®¤­®


In [54]:
f.write('hello, world')

In [55]:
!cat test.txt

"cat" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [56]:
!type test.txt

In [57]:
f.close()

In [58]:
!cat test.txt

"cat" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [59]:
!type test.txt

hello, world


In [60]:
!rm test.txt

"rm" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [61]:
!del test.txt

In [62]:
f1 = open('test.txt', 'w')
f1.write('hello, world')

In [63]:
f2 = open('test.txt', 'r')
f2.read()

''

In [64]:
f1.write('hello, world')
f2.read()

''

In [65]:
f1.close()
f2.read()

'hello, worldhello, world'

In [67]:
f1 = open('test.txt', 'w')

In [68]:
f1.write('hello, world')
f2.read()

''

In [69]:
f1.close()
f2.read()

''

In [70]:
f2.close()

In [None]:
!cat test.txt

In [71]:
!type test.txt

hello, world


In [None]:
!rm test.txt

In [72]:
!del test.txt

In [73]:
with open('test.txt', 'w') as ff:
    ff.write('hello, world')

In [74]:
ff

<closed file 'test.txt', mode 'w' at 0x0000000005F008A0>

После выхода из блока with файл
гарантированно закрыт.

Это рекомендуемый способ работы с файлами.

In [75]:
with open('test.txt', 'r') as ff:
    print ff.read()

hello, world


In [76]:
ff

<closed file 'test.txt', mode 'r' at 0x0000000005F00930>

In [77]:
with open('test.txt', 'w') as f1, open('test.txt', 'r') as f2:
    f1.write('hello, world')
    print f2.read()




In [78]:
with open('test.txt', 'w') as f1, open('test.txt', 'r') as f2:
    f1.write('hello, world')
    f1.flush()
    print f2.read()

hello, world


In [79]:
f1

<closed file 'test.txt', mode 'w' at 0x0000000005F00810>

In [80]:
f2

<closed file 'test.txt', mode 'r' at 0x0000000005F00660>

In [None]:
!rm test.txt

In [81]:
!del test.txt

## Операции с файлами

In [82]:
with open('test.txt', 'w') as ff:
    ff.write('1\n')
    ff.write('\t2\n')
    ff.write('\t\t3\n')
    ff.write('\t\t\t4\n')

In [83]:
with open('test.txt', 'r') as ff:
    print '!'
    print ff.read()
    print '!'
    print ff.read()

!
1
	2
		3
			4

!



In [84]:
with open('test.txt', 'r') as ff:
    print ff.readlines()

['1\n', '\t2\n', '\t\t3\n', '\t\t\t4\n']


In [85]:
with open('test.txt', 'r') as ff:
    print ff.xreadlines()

<open file 'test.txt', mode 'r' at 0x0000000005F00780>


In [86]:
with open('test.txt', 'r') as ff:
    for line in ff.xreadlines():
        print '"{}"'.format(line)
        print '!'

"1
"
!
"	2
"
!
"		3
"
!
"			4
"
!


In [87]:
with open('test.txt', 'r') as ff:
    for line in ff.xreadlines():
        print '"{}"'.format(line.strip())
        print '!'

"1"
!
"2"
!
"3"
!
"4"
!


In [88]:
with open('test.txt', 'r') as ff:
    print map(int, ff.xreadlines())

[1, 2, 3, 4]


In [89]:
with open('test.txt', 'r') as ff:
    for line in ff:
        print '"{}"'.format(line.strip())
        print '!'

"1"
!
"2"
!
"3"
!
"4"
!


In [90]:
with open('test.txt', 'r') as ff:
    print map(int, ff)

[1, 2, 3, 4]


## Кодировки файлов

Данные в файл не записываются в Unicode, они приводятся в какую-то кодировку и в этой кодировке записывают в файл. Поэтому нужно следить за этим.

С латинскими символами всё хорошо

In [91]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world')

In [92]:
with open('test.txt', 'r') as ff:
    print ff.read()

hello, world


In [93]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world'.encode('windows-1251'))

In [94]:
with open('test.txt', 'r') as ff:
    print ff.read()

hello, world


In [95]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world'.encode('cp866'))

In [96]:
with open('test.txt', 'r') as ff:
    print ff.read()

hello, world


Но стоит перейти к кирилице и начинается

In [97]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир')

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)

In [98]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('utf-8'))

In [99]:
with open('test.txt', 'r') as ff:
    print ff.read()

Здравствуй, мир


In [100]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('windows-1251'))

In [101]:
with open('test.txt', 'r') as ff:
    print ff.read()

����������, ���


In [102]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('cp866'))

In [103]:
with open('test.txt', 'r') as ff:
    print ff.read()

��ࠢ���, ���


In [104]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('windows-1251'))

In [105]:
with open('test.txt', 'r') as ff:
    print my_decoder(ff.read())

«дравствуй, мир


Наш decoder не справился, давайте посмотрим, что говорит chardet

In [106]:
with open('test.txt', 'r') as ff:
    print chardet.detect(ff.read())

{'confidence': 0.8506741553297926, 'language': 'Russian', 'encoding': 'MacCyrillic'}


Так как символов мало, chardet неправильно определяет кодировку. Отсюда вывод - не стоит всегда надеятся на chardet

In [107]:
with open('test.txt', 'r') as ff:
    print ff.read().decode('windows-1251')

Здравствуй, мир


Усли явно указать кодировку, то всё работает

In [108]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('cp866'))

In [109]:
with open('test.txt', 'r') as ff:
    print ff.read().decode('cp866')

Здравствуй, мир


## Системные операции с файлами

In [110]:
import os

In [111]:
os.listdir('.')

['.ipynb_checkpoints',
 '2_Syntax_part1.ipynb',
 '3_Syntax_part2.ipynb',
 '4_Encodings_Files.ipynb',
 'test.txt']

In [112]:
for (dirpath, dirnames, filenames) in os.walk('.'):
    print (dirpath, dirnames, filenames)

('.', ['.ipynb_checkpoints'], ['2_Syntax_part1.ipynb', '3_Syntax_part2.ipynb', '4_Encodings_Files.ipynb', 'test.txt'])
('.\\.ipynb_checkpoints', [], ['3_Syntax_part2-checkpoint.ipynb', '4_Encodings_Files-checkpoint.ipynb'])


In [113]:
for (dirpath, dirnames, filenames) in os.walk('.'):
    print dirpath
    print dirnames
    print filenames
    print ''

.
['.ipynb_checkpoints']
['2_Syntax_part1.ipynb', '3_Syntax_part2.ipynb', '4_Encodings_Files.ipynb', 'test.txt']

.\.ipynb_checkpoints
[]
['3_Syntax_part2-checkpoint.ipynb', '4_Encodings_Files-checkpoint.ipynb']



In [114]:
os.path.join('.', '.')

'.\\.'

In [115]:
os.path.join('preparing_materials', 'python intro')

'preparing_materials\\python intro'

In [116]:
os.path.exists(os.path.join('preparing_materials', 'python intro'))

False

In [117]:
os.path.exists(os.path.join('preparing_materials', 'something else'))

False

In [118]:
os.path.exists('tmp_dir')

False

os.makedirs создаёт все промежуточные папки

In [119]:
os.makedirs('tmp_dir')

In [120]:
os.makedirs('yet_another_tmp_dir/yet_another_tmp_dir_inner/yet_another_tmp_dir_inner_inner')

In [121]:
!ls yet_another_tmp_dir
!ls yet_another_tmp_dir/yet_another_tmp_dir_inner/

"ls" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.
"ls" ­Ґ пў«пҐвбп ў­гваҐ­­Ґ© Ё«Ё ў­Ґи­Ґ©
Є®¬ ­¤®©, ЁбЇ®«­пҐ¬®© Їа®Ја ¬¬®© Ё«Ё Ї ЄҐв­л¬ д ©«®¬.


In [122]:
!type yet_another_tmp_dir
!type yet_another_tmp_dir/yet_another_tmp_dir_inner/

ЋвЄ § ­® ў ¤®бвгЇҐ.
ЋиЁЎЄ  ў бЁ­в ЄбЁбҐ Є®¬ ­¤л.


In [123]:
os.path.exists('tmp_dir')

True

In [124]:
os.makedirs('tmp_dir')

WindowsError: [Error 183] Невозможно создать файл,: 'tmp_dir'

In [None]:
!rm -r tmp_dir
!rm -r yet_another_tmp_dir

In [127]:
!rmdir tmp_dir
!rmdir yet_another_tmp_dir

ЌҐ г¤ Ґвбп ­ ©вЁ гЄ § ­­л© д ©«.
Џ ЇЄ  ­Ґ Їгбв .


In [128]:
if not os.path.exists('tmp_dir'):
    os.makedirs('tmp_dir')
    
os.path.exists('tmp_dir')

True

In [None]:
!rm -r tmp_dir

In [129]:
!rmdir tmp_dir

Эти и многие другие функции в модуле os

https://docs.python.org/2/library/os.html

## Небольшое задание

Давайте напишем программу, которая считает частоту всех слов в файле. Словом считаем последовательность латинских букв.

In [153]:
with open('test.txt', 'w') as ff:
    ff.write('lol kek lol alex vasya cat\n')
    ff.write('lol kek lol alex ivan top\n')
    ff.write('lol kek lol nut make\n')
    ff.write('lol kek lol nutella\n')

In [154]:
from collections import Counter

In [169]:
for a, b in Counter(re.findall(u'[а-яА-Я]+', open('4_Encodings_Files.ipynb', 'r').read().decode('utf-8'))).iteritems():
    print a, b


задание 2
символах 4
вбп 8
Нам 2
виде 2
работает 2
Модуль 2
список 3
Операции 2
рекомендуемый 2
абв 2
б 12
Я 2
создать 3
сделать 3
надо 2
вычленить 2
кирилица 2
описывает 2
Не 2
Р 7
какую 2
кодировка 3
На 3
кодировке 3
названием 2
просто 4
гбва 2
Но 5
папке 2
а 20
выхода 2
решения 2
байт 2
очень 3
и 20
запись 2
бв 2
последний 2
сработает 2
рынка 2
не 10
может 2
или 2
сладкие 2
на 5
если 2
всегда 3
Кодировки 3
при 3
урожай 2
кодировку 4
значения 2
ситуация 2
частоту 2
вс 3
гарантированно 2
приводятся 3
латинских 5
строк 3
поможет 2
обратно 2
потому 2
кирилицы 3
числами 2
Системные 2
точно 2
символами 3
хорошо 2
посмотрим 2
строковые 2
делить 2
проблемы 4
считаем 2
то 6
гбв 2
Наш 2
определ 2
есть 3
работы 2
папки 2
кирилице 2
латинскими 2
самом 2
Отсюда 2
Ещ 2
предупреждение 2
результат 2
переводите 2
установить 2
пример 2
проблем 2
Для 3
записываются 2
рублей 5
из 5
получается 2
Есть 2
файлов 3
считает 2
строковая 2
г 4
будет 2
знаем 3
дальнейшем 2
шаблону 2
нужно 5
Он 2
неправильно 2
з

In [None]:
import re
from collections import Counter


cnt = Counter()
with open('4_Encodings_Files.ipynb', 'r') as f:
    for line in f:
        cnt.update(re.findall('[a-zA-Z]+', line))

In [None]:
cnt

In [None]:
cnt.most_common(10)