## Кодировки в Python

str - последовательность байт

unicode - последовательность симловов в кодировке Unicode

По умолчанию строковые константы воспринимаются как str 

In [None]:
type('string')

In [None]:
type('строчка')

но можно явно указать, чтобы строковая константа воспринималась как unicode

In [None]:
type(u'string')

In [None]:
type(u'строчка')

На латинских символах str и unicode совпадают, а на остальных нет

In [None]:
'string' == u'string'

In [None]:
'строчка' == u'строчка'

для строк из латинских символах можно делать переход в Unicode посредством вызова unicode от строки

In [None]:
unicode('string+-:,.1234567890=')

Но для кирилицы это уже просто так не сработает, так как по умолчанию при декодировании используется кодировка ascii, а строчка по умолчанию записана в utf-8

In [None]:
unicode('строчка')

Но есть параметр ecndoing, который поможет в данной ситуации

In [None]:
unicode('строчка', encoding='utf-8')

In [None]:
print unicode('строчка', encoding='utf-8')

Похожая ситуация с str

In [None]:
str(u'string')

In [None]:
str(u'строчка')

но параметра encoding тут нет

In [None]:
str(u'строчка', encoding='utf-8')

Для решения этой проблемы у строк есть методы decode и encode, которые позволяют переводить str в unicode и обратно

По умолчанию в Python используется utf-8

In [None]:
print type('строчка')
print type('строчка'.decode('utf-8'))

существуют и другие кодировки

In [None]:
'строчка'.decode('windows-1251')

In [None]:
print 'строчка'.decode('windows-1251')

In [None]:
'строчка'.decode('windows-1251').encode('windows-1251')

In [None]:
print 'строчка'.decode('windows-1251').encode('windows-1251')

In [None]:
print 'строчка'.decode('windows-1251').encode('utf-8')

In [None]:
print 'строчка'.decode('windows-1251').encode('utf-8').decode('utf-8').encode('windows-1251')

In [None]:
my_list1 = ['мама', u'мыла', u'раму']
print my_list1

In [None]:
my_list2 = [u'мама', u'мыла', u'раму']
print my_list2

In [None]:
my_list3 = [u'мама', 'мыла', u'раму'.encode('windows-1251')]
print my_list3

In [None]:
for x, y, z in zip(my_list1, my_list2, my_list3):
    print x, y, z

In [None]:
' '.join(my_list1)

In [None]:
' '.join(my_list2)

In [None]:
' '.join(my_list3)

Существует специальная библиотека chardet

In [None]:
import chardet

In [None]:
chardet.detect(u'строчка')

In [None]:
chardet.detect('строчка')

In [None]:
chardet.detect(u'строчка'.encode('windows-1251'))

In [None]:
chardet.detect(u'абв'.encode('cp866'))

In [None]:
def my_decoder(val):
    if type(val) is unicode:
        return val
    else:
        return unicode(val, encoding=chardet.detect(val)['encoding'])

In [None]:
u' '.join(map(my_decoder, my_list1))

In [None]:
u' '.join(map(my_decoder, my_list2))

In [None]:
u' '.join(map(my_decoder, my_list3))

## Работа с файлами

In [None]:
f = open('test.txt', 'w')
f

в блокнотах можно запускать некоторые стандартные unix команды

например, ls показывает список файлов в текущей папке, rm удаляет файл, а cat выводит содержимое файла

перед названием команды надо ставить !

In [None]:
!ls

In [None]:
f.write('hello, world')

In [None]:
!cat test.txt

In [None]:
f.close()

In [None]:
!cat test.txt

In [None]:
!rm test.txt

In [None]:
f1 = open('test.txt', 'w')
f1.write('hello, world')

In [None]:
f2 = open('test.txt', 'r')
f2.read()

In [None]:
f1.write('hello, world')
f2.read()

In [None]:
f1.close()
f2.read()

In [None]:
f1 = open('test.txt', 'w')

In [None]:
f1.write('hello, world')
f2.read()

In [None]:
f1.close()
f2.read()

In [None]:
f2.close()

In [None]:
!cat test.txt

In [None]:
!rm test.txt

In [None]:
with open('test.txt', 'w') as ff:
    ff.write('hello, world')

In [None]:
ff

После выхода из блока with файл
гарантированно закрыт.

Это рекомендуемый способ работы с файлами.

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read()

In [None]:
ff

In [None]:
with open('test.txt', 'w') as f1, open('test.txt', 'r') as f2:
    f1.write('hello, world')
    print f2.read()

In [None]:
with open('test.txt', 'w') as f1, open('test.txt', 'r') as f2:
    f1.write('hello, world')
    f1.flush()
    print f2.read()

In [None]:
f1

In [None]:
f2

In [None]:
!rm test.txt

## Операции с файлами

In [None]:
with open('test.txt', 'w') as ff:
    ff.write('1\n')
    ff.write('\t2\n')
    ff.write('\t\t3\n')
    ff.write('\t\t\t4\n')

In [None]:
with open('test.txt', 'r') as ff:
    print '!'
    print ff.read()
    print '!'
    print ff.read()

In [None]:
with open('test.txt', 'r') as ff:
    print ff.readlines()

In [None]:
with open('test.txt', 'r') as ff:
    print ff.xreadlines()

In [None]:
with open('test.txt', 'r') as ff:
    for line in ff.xreadlines():
        print '"{}"'.format(line)
        print '!'

In [None]:
with open('test.txt', 'r') as ff:
    for line in ff.xreadlines():
        print '"{}"'.format(line.strip())
        print '!'

In [None]:
with open('test.txt', 'r') as ff:
    print map(int, ff.xreadlines())

In [None]:
with open('test.txt', 'r') as ff:
    print map(int, ff)

## Кодировки файлов

К сожалению, файл всегда в разных кодировках и нам приходится  следить за этим

С латинскими символами всё хорошо

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world')

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read()

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world'.encode('windows-1251'))

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read()

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'hello, world'.encode('cp866'))

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read()

Но стоит перейти к кирилице и начинается

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир')

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('utf-8'))

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read()

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('windows-1251'))

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read()

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('cp866'))

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read()

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('windows-1251'))

In [None]:
with open('test.txt', 'r') as ff:
    print my_decoder(ff.read())

Наш decoder не справился, давайте посмотрим, что говорит chardet

In [None]:
with open('test.txt', 'r') as ff:
    print chardet.detect(ff.read())

Так как символов мало, chardet неправильно определяет кодировку. Но вывод - не стоит всегда надеятся на chardet

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read().decode('windows-1251')

Усли явно указать кодировку, то всё работает

In [None]:
with open('test.txt', 'w') as ff:
    ff.write(u'Здравствуй, мир'.encode('cp866'))

In [None]:
with open('test.txt', 'r') as ff:
    print ff.read().decode('cp866')

## Системные операции с файлами

In [None]:
import os

In [None]:
os.listdir('.')

In [None]:
for (dirpath, dirnames, filenames) in os.walk('.'):
    print (dirpath, dirnames, filenames)

In [None]:
os.path.join('.', '.')

Эти и многие другие функции в модуле os

## Небольшое задание

Давайте напишем программу, которая считает частоту всех слов в файле. Словом считаем последовательность латинских букв.

In [None]:
import re
from collections import Counter


cnt = Counter()
with open('03_Python_Encodings_Files.ipynb', 'r') as f:
    for line in f:
        cnt.update(re.findall('[a-zA-Z]+', line))

In [None]:
cnt

In [None]:
cnt.most_common(10)