## Кодировки в Python

https://ru.wikipedia.org/wiki/Юникод

https://ru.wikipedia.org/wiki/UTF-8

bytes - последовательность байт

str - последовательность симловов в кодировке Unicode

По умолчанию строковые константы воспринимаются как str 

In [1]:
type('string')

str

In [2]:
type('строчка')

str

In [3]:
bytes('строчка', encoding='utf-8')

b'\xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd1\x87\xd0\xba\xd0\xb0'

In [4]:
b'string'

b'string'

In [5]:
b'строчка'

SyntaxError: bytes can only contain ASCII literal characters. (<ipython-input-5-f6fc127c5654>, line 1)

In [6]:
print(type('строчка'))
print(type('строчка'.encode('utf-8')))

<class 'str'>
<class 'bytes'>


существуют и другие кодировки

In [7]:
'строчка'.encode('windows-1251')

b'\xf1\xf2\xf0\xee\xf7\xea\xe0'

In [8]:
'строчка'.encode('windows-1251').decode('windows-1251')

'строчка'

In [9]:
'строчка'.encode('utf-8').decode('windows-1251')

'СЃС‚СЂРѕС‡РєР°'

Это не стандартная библиотека Python, поэтому её нужно будет установить

Для этого нужно выполнить в консоли команду:

pip install chardet

или

sudo pip install chardet

In [11]:
import chardet

In [12]:
chardet.detect('строчка'.encode('utf-8'))

{'confidence': 0.99, 'encoding': 'utf-8', 'language': ''}

In [13]:
chardet.detect(u'строчка'.encode('windows-1251'))

{'confidence': 0.99, 'encoding': 'windows-1251', 'language': 'Russian'}

In [14]:
chardet.detect(u'абв'.encode('cp866'))

{'confidence': 0.73, 'encoding': 'ISO-8859-1', 'language': ''}

In [15]:
def my_decoder(val):
    if type(val) is str:
        return val
    else:
        return str(val, encoding=chardet.detect(val)['encoding'])

In [16]:
my_decoder('строчка'.encode('windows-1251'))

'строчка'

In [17]:
my_decoder('строчка'.encode('windows-1251'))

'строчка'

In [18]:
my_decoder('абв'.encode('cp866'))

'\xa0¡¢'

# Модуль re

Пример проблемы

In [19]:
'first,second;third,fourth'.split(';')

['first,second', 'third,fourth']

In [20]:
'first,second;third,fourth'.split(',')

['first', 'second;third', 'fourth']

In [21]:
'first,second;third,fourth'.split(',;')

['first,second;third,fourth']

Не получается разделить по одному из двух символов

Ещё пример проблемы

Есть тексты ценников на яблоки с рынка. Нам нужно вычленить из текста числа и получить просто список int-ов (мы точно знаем, что где-то там написана числами цена в рублях, но не знаем где именно)

При помощи split это очень трудно сделать в общем виде, так как всегда может быть запись не по формату 

In [22]:
apple_prices = [ 
    u'100 рублей',
    u'дёшево!!! 80 рублей',
    u'очень сладкие 120 рублей',
    u'120 рублей, последний урожай',
    u'110'
]

Помогает модуль re

In [23]:
import re

Он позволяет описывает определённые шаблоны и в дальнейшем их искать в тексте и многие другие операции с ними.

In [24]:
for price in apple_prices:
    print(re.findall('[0-9]+', price))

['100']
['80']
['120']
['120']
['110']


In [25]:
list(map(lambda p: int(re.findall('[0-9]+', p)[0]), apple_prices))

[100, 80, 120, 120, 110]

In [26]:
re.findall('[0-9]+', '12313212 . 312312')

['12313212', '312312']

Как делить строчку по шаблону

In [27]:
re.split(';', 'first,second;third,fourth')

['first,second', 'third,fourth']

In [28]:
re.split(',', 'first,second;third,fourth')

['first', 'second;third', 'fourth']

In [29]:
re.split(',;', 'first,second;third,fourth')

['first,second;third,fourth']

In [30]:
re.split('[,;]', 'first,second;third,fourth')

['first', 'second', 'third', 'fourth']

Документация модуля re 

https://docs.python.org/3.6/library/re.html

## Работа с файлами

In [31]:
f = open('test.txt', 'w')
f

<_io.TextIOWrapper name='test.txt' mode='w' encoding='UTF-8'>

в блокнотах можно запускать некоторые стандартные unix команды

например, ls показывает список файлов в текущей папке, rm удаляет файл, а cat выводит содержимое файла

перед названием команды надо ставить !

In [32]:
!ls

Combo.ipynb  Files.ipynb  hw  Prints.ipynb  Strings.ipynb  test.txt


In [33]:
f.write('hello, world')

12

In [34]:
!cat test.txt

In [35]:
f.close()

In [36]:
!cat test.txt

hello, world

In [37]:
!rm test.txt

In [38]:
f1 = open('test.txt', 'w')
f1.write('hello, world')

12

In [39]:
f2 = open('test.txt', 'r')
f2.read()

''

In [40]:
f1.write('hello, world')
f2.read()

''

In [41]:
f1.close()
f2.read()

'hello, worldhello, world'

In [42]:
f1 = open('test.txt', 'w')

In [43]:
f1.write('hello, world')
f2.read()

''

In [44]:
f1.close()
f2.read()

''

In [45]:
f2.close()

In [46]:
!cat test.txt

hello, world

In [47]:
!rm test.txt

In [48]:
with open('test.txt', 'w') as ff:
    ff.write('hello, world')

In [49]:
ff

<_io.TextIOWrapper name='test.txt' mode='w' encoding='UTF-8'>

После выхода из блока with файл
гарантированно закрыт.

Это рекомендуемый способ работы с файлами.

In [50]:
with open('test.txt', 'r') as ff:
    print(ff.read())

hello, world


In [51]:
ff

<_io.TextIOWrapper name='test.txt' mode='r' encoding='UTF-8'>

In [52]:
with open('test.txt', 'w') as f1, open('test.txt', 'r') as f2:
    f1.write('hello, world')
    print(f2.read())




In [53]:
with open('test.txt', 'w') as f1, open('test.txt', 'r') as f2:
    f1.write('hello, world')
    f1.flush()
    print(f2.read())

hello, world


In [54]:
f1

<_io.TextIOWrapper name='test.txt' mode='w' encoding='UTF-8'>

In [55]:
f2

<_io.TextIOWrapper name='test.txt' mode='r' encoding='UTF-8'>

In [56]:
!rm test.txt

## Операции с файлами

In [57]:
with open('test.txt', 'w') as ff:
    ff.write('1\n')
    ff.write('\t2\n')
    ff.write('\t\t3\n')
    ff.write('\t\t\t4\n')

In [58]:
with open('test.txt', 'r') as ff:
    print('!')
    print(ff.read())
    print('!')
    print(ff.read())

!
1
	2
		3
			4

!



In [59]:
with open('test.txt', 'r') as ff:
    print(ff.readlines())

['1\n', '\t2\n', '\t\t3\n', '\t\t\t4\n']


In [60]:
with open('test.txt', 'r') as ff:
    print(ff.readlines())

['1\n', '\t2\n', '\t\t3\n', '\t\t\t4\n']


In [61]:
with open('test.txt', 'r') as ff:
    for line in ff.readlines():
        print('"{}"'.format(line))
        print('!')

"1
"
!
"	2
"
!
"		3
"
!
"			4
"
!


In [62]:
with open('test.txt', 'r') as ff:
    for line in ff.readlines():
        print('"{}"'.format(line.strip()))
        print('!')

"1"
!
"2"
!
"3"
!
"4"
!


In [63]:
with open('test.txt', 'r') as ff:
    print(list(map(int, ff.readlines())))

[1, 2, 3, 4]


In [64]:
with open('test.txt', 'r') as ff:
    for line in ff:
        print('"{}"'.format(line.strip()))
        print('!')

"1"
!
"2"
!
"3"
!
"4"
!


In [65]:
with open('test.txt', 'r') as ff:
    print(list(map(int, ff)))

[1, 2, 3, 4]


## Кодировки файлов

Данные в файл не записываются в Unicode, они приводятся в какую-то кодировку и в этой кодировке записывают в файл. Поэтому нужно следить за этим.

С латинскими символами всё хорошо

In [66]:
with open('test.txt', 'w') as ff:
    ff.write('hello, world')

In [67]:
with open('test.txt', 'r') as ff:
    print(ff.read())

hello, world


In [68]:
with open('test.txt', 'w', encoding='windows-1251') as ff:
    ff.write('hello, world')

In [69]:
with open('test.txt', 'r') as ff:
    print(ff.read())

hello, world


In [70]:
with open('test.txt', 'w', encoding='cp866') as ff:
    ff.write('hello, world')

In [71]:
with open('test.txt', 'r') as ff:
    print(ff.read())

hello, world


Но стоит перейти к кирилице и начинается

In [72]:
with open('test.txt', 'w') as ff:
    ff.write('Здравствуй, мир')

In [73]:
with open('test.txt', 'r') as ff:
    print(ff.read())

Здравствуй, мир


In [74]:
with open('test.txt', 'w', encoding='windows-1251') as ff:
    ff.write('Здравствуй, мир')

In [75]:
with open('test.txt', 'r') as ff:
    print(ff.read())

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 0: invalid continuation byte

In [76]:
with open('test.txt', 'w', encoding='cp866') as ff:
    ff.write('Здравствуй, мир')

In [77]:
with open('test.txt', 'r') as ff:
    print(ff.read())

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x87 in position 0: invalid start byte

In [78]:
with open('test.txt', 'w') as ff:
    ff.write('Здравствуй, мир')

In [79]:
with open('test.txt', 'r', encoding='windows-1251') as ff:
    print(ff.read())

Р—РґСЂР°РІСЃС‚РІСѓР№, РјРёСЂ


Усли явно указать одинаковую кодировку, то всё работает

In [80]:
with open('test.txt', 'w', encoding='windows-1251') as ff:
    ff.write(u'Здравствуй, мир')

In [81]:
with open('test.txt', 'r', encoding='windows-1251') as ff:
    print(ff.read())

Здравствуй, мир


## Системные операции с файлами

In [82]:
import os

In [83]:
os.listdir('.')

['.ipynb_checkpoints',
 'Combo.ipynb',
 'test.txt',
 'Strings.ipynb',
 'Files.ipynb',
 'Prints.ipynb',
 'hw']

In [84]:
for (dirpath, dirnames, filenames) in os.walk('.'):
    print (dirpath, dirnames, filenames)

. ['.ipynb_checkpoints', 'hw'] ['Combo.ipynb', 'test.txt', 'Strings.ipynb', 'Files.ipynb', 'Prints.ipynb']
./.ipynb_checkpoints [] ['Combo-checkpoint.ipynb', 'Prints-checkpoint.ipynb']
./hw [] ['4_Encodings_Files_HW_done.ipynb', '4_Encodings_Files_HW.ipynb']


In [85]:
for (dirpath, dirnames, filenames) in os.walk('.'):
    print(dirpath)
    print(dirnames)
    print(filenames)
    print('')

.
['.ipynb_checkpoints', 'hw']
['Combo.ipynb', 'test.txt', 'Strings.ipynb', 'Files.ipynb', 'Prints.ipynb']

./.ipynb_checkpoints
[]
['Combo-checkpoint.ipynb', 'Prints-checkpoint.ipynb']

./hw
[]
['4_Encodings_Files_HW_done.ipynb', '4_Encodings_Files_HW.ipynb']



In [86]:
os.path.join('.', '.')

'./.'

In [87]:
os.path.join('.', 'hw')

'./hw'

In [88]:
os.path.exists(os.path.join('.', 'hw'))

True

In [89]:
os.path.exists(os.path.join('.', 'something else'))

False

In [90]:
os.path.exists('tmp_dir')

False

os.makedirs создаёт все промежуточные папки

In [91]:
os.makedirs('tmp_dir')

In [92]:
os.makedirs('yet_another_tmp_dir/yet_another_tmp_dir_inner/yet_another_tmp_dir_inner_inner')

In [93]:
!ls yet_another_tmp_dir
!ls yet_another_tmp_dir/yet_another_tmp_dir_inner/

yet_another_tmp_dir_inner
yet_another_tmp_dir_inner_inner


In [94]:
os.path.exists('tmp_dir')

True

In [95]:
os.makedirs('tmp_dir')

FileExistsError: [Errno 17] File exists: 'tmp_dir'

In [96]:
!rm -r tmp_dir
!rm -r yet_another_tmp_dir

In [97]:
if not os.path.exists('tmp_dir'):
    os.makedirs('tmp_dir')
    
os.path.exists('tmp_dir')

True

In [98]:
!rm -r tmp_dir

Эти и многие другие функции в модуле os

https://docs.python.org/3.6/library/os.html

## Небольшое задание

Давайте напишем программу, которая считает частоту всех слов в файле. Словом считаем последовательность латинских букв.

In [None]:
import re
from collections import Counter


cnt = Counter()
with open('4_Encodings_Files.ipynb', 'r') as f:
    for line in f:
        cnt.update(re.findall('[a-zA-Z]+', line))

In [None]:
cnt

In [None]:
cnt.most_common(10)