## Словари

Словари - итерируемые изменяемые объекты, которые в питоне еще относятся к типу mapping type. По сути, словарь состоит  из двух частей: ключей и значений. С одной стороны, словарь похож на список: с той только разницей, что у списка индексы, а у словаря вместо индексов ключи. С другой стороны, словарь похож на множество: его ключи устроены именно таким образом. 

Итак, словарь - это нечто вроде списка пар ключ-значение. Ключами словаря могут быть только неизменяемые объекты, как во множестве. В версиях питона старше 3.7 порядок ключей в словаре не определен, в более поздних - зависит от времени добавления ключа в словарь. Значениями словаря могут быть абсолютно любые объекты. 

Соответственно, повторяющихся ключей в словаре быть не может, а повторящиеся значения - вполне. 

Как выглядит словарь:

In [None]:
dct = {1: 4, 2: 8, 3: 'qwerty'}

Пары ключ: значение обязательно идут через двоеточие. 

Как можно задавать словарь:

1. Прямо в коде
2. Завести пустой словарь и записывать значения в ключи
3. Использовать метод класса dict.fromkeys()
4. Использовать представление словаря и генератор
5. Превратить в словарь другой объект (но не всякий...)

In [None]:
# 1
d = {1: 1, 2: 4}
# 2
d = dict() # d = {}
d[1] = 1
d[2] = 4
# 3
keys = [1, 2]
d = dict.fromkeys(keys, 0) # 0 - значение по дефолту. Если не передать этот аргумент, то по умолчанию будет значение None
# 4
d = {x: x ** 2 for x in range(1, 3)}
# 5
lstoftuples = [(1, 1), (2, 4)]
d = dict(lstoftuples)

Какие здесь есть особенности?

Обратите внимание, что метод dict.fromkeys на самом деле создает один объект (который мы указали по дефолту) и для всех ключей делает примерно это: key1 = default, key2 = default...

Соответственно, если у нас в дефолте изменяемый объект (список, множество, другой словарь), то **все** ключи будут в итоге ссылаться на один объект. Поэтому таким образом список с пустыми словарями вместо значений создать не удастся.

Какие объекты можно превращать в словари?

1. Список кортежей, в каждом кортеже 2 элемента
2. Результат работы функции enumerate
3. Результат работы функции zip

Enumerate:

    enumerate(iterable, 1) 
    
Первый аргумент функции - любой итерируемый объект, второй (необязательный) - число, с которого начинать нумерацию. Возвращает пары вида (0, elem1), (1, elem2).... Удобно использовать для итерации в цикле for:

    for num, elem in enumerate(lst):
        ....
        
Zip:

    zip(iterable1, iterable2...)
    
Работает, как застежка-молния на одежде: сопоставляет по группам элементы нескольких итерируемых объектов (первый с первым, второй со вторым...). На выходе получается список кортежей (только он оформлен как zip object, но его можно и в список превратить), причем в кортеже столько элементов, сколько было итерируемых аргументов. Для словаря нужно иметь два, очевидно. 

Если у итерируемых объектов, которые объединяет zip, разные длины, на выходе получается список наименьшей длины, хвосты отрезаются. Заполнять хвосты дефолтными значениями умеет функция zip_longest:

    from itertools import zip_longest
    
    zip_longest(*iterables, fillvalue=...)
    
Не забывайте, что если в кортежах есть первые повторяющиеся элементы, н-р, (1, 2), (1, 4), то в словаре окажется все равно только один ключ 1, и его значение будет таким, которое позднее всех попалось (4). 

Поскольку словарь - сложная двусоставная структура, можно обращаться к его частям отдельно. При этом части сами по себе не существуют, но мы можем их посмотреть друг без друга. Это называется view objects: изменять их мы не можем, но можем по ним итерироваться или создавать какие-то новые объекты на их базе. Всего их три:

1. dict.keys()
2. dict.values()
3. dict.items()

Соответственно, итерироваться мы можем по любому из трех. Обратите внимание, что цикл for умеет итерироваться по нескольким переменным сразу, тогда они указываются через запятую:

    for k, v in dct.items()
    
При этом, если мы пишем просто dct, то по умолчанию питон считает, что имелось в виду dct.keys(), поэтому list(dct) вернет список из ключей, а for будет итерироваться по key. 

Когда мы обращаемся к несуществующему ключу словаря, питон вываливает ошибку KeyError. Если ключа еще нет в словаре, все, что мы можем сделать - это присвоить в него какое-то значение:

    dct[key] = value
    
Любые другие операции вызовут ошибку. Чтобы ее избежать, можно проверять ключ на наличие: key in dct. (== key in dct.keys()).

Существуют еще некоторые методы, которые позволяют это обходить.

Какие функции можно использовать со словарями?

    len()
    list()
    set()
    reversed()
    sorted()
    ...

Методы словарей

clear() - очистит словарь
copy() - создаст явную копию
pop(key) - удалит ключ и значение key и вернет этот ключ
popitem() - удалит и вернет последний добавленный элемент (в версиях старше 3.7 - рандомный)
update() - добавит один словарь в другой, если в первом словаре были ключи, которые есть во втором, значения ключей второго перезапишут первые. 
setdefault(k, v) - если ключ уже есть, просто вернет его значение, а если нет, то заведет такой ключ и запишет значение v.
get(key) - вернет значение ключа, а если ключа нет, вернет None.

Ключи со значениями также можно удалять с помощью del:

    del dct[key]

В библиотеке collections (идет вместе с питоном) также есть два класса, созданных на основе класса словаря: defaultdict и Counter.

defaultdict(type) - принимает в качестве аргумента имя класса (list, str, int, float...). Работает точно так же, как обычный словарь, за единственным исключением: если мы обращаемся по несуществующему ключу, не выдает KeyError, а считает, что в значении должен быть пустой объект указанного класса. 

In [1]:
from collections import defaultdict

d = defaultdict(list)
print(d)
print(d[1], d[2])
print(d)

defaultdict(<class 'list'>, {})
[] []
defaultdict(<class 'list'>, {1: [], 2: []})


При этом, если указать изменяемый объект в качестве дефолтного, то для ключей будут создаваться индивидуальные объекты: два пустых списка в коде выше - это разные списки. 

Counter заточен под то, чтобы считать элементы в других объектах. В него можно напрямую аргументом передать итерируемый объект, элементы которого хотим посчитать:

In [2]:
from collections import Counter

lst1 = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1]
lst2 = [1, 2, 3, 4, 1, 2, 3, 1, 1, 1]
c1 = Counter(lst1)
print(c1)
c2 = Counter(lst2)
print(c2)
total = c2 + c1
print(total)
print(total - c2)

Counter({1: 4, 2: 3, 3: 2, 4: 1})
Counter({1: 5, 2: 2, 3: 2, 4: 1})
Counter({1: 9, 2: 5, 3: 4, 4: 2})
Counter({1: 4, 2: 3, 3: 2, 4: 1})


У Counter еще есть метод most_common(), который возвращает n самых частотных объектов, по умолчанию - 100. 

## Работа с файлами

Питон работает с файлами на самом деле не напрямую, а через систему (поэтому там есть свои тонкости). Система управляет открытыми файлами и всяким таким, а у питона есть только дескриптор файла (специальный класс), который ему позволяет читать данные из файла. Мы успели разобрать, как открывать, закрывать, читать и писать файлы. 

Прежде чем начать что-то делать с файлом, нужно его открыть. 

    file = open(path, mode, encoding)
    
Команда open создает объект класса IOWrapper, у которого есть свои методы чтения, записи и закрытия. Path - это путь к файлу, единственный обязательный аргумент. Обратите внимание:

- В Windows в путях файлов используется бекслеш \\. Поскольку все аргументы в open передаются в виде строк, питон будет пытаться искать эскейп-последовательности (такие, как \\n). Чтобы этого избежать, можно либо вручную экранировать слеши: \\\\, либо просто писать буковку r перед строкой: так называемые raw-строки питон читает as is.
- В юниксовых системах (MacOS, Linux) такой проблемы нет, потому что там используются прямые слеши /.

Пути к файлам бывают абсолютные и относительные. Абсолютный путь включает в себя все от корня (буквы диска в windows, папки home в Linux). Относительный - только какую-то часть пути; например, если наш скрипт (или тетрадка юпитера) лежит в папке Code, а в этой папке есть подпапка files, то путь files/myfile.txt будет относительным (и будет искаться в одной папке со скриптом, конечно, поэтому бдите и не используйте относительные пути для файлов, которые лежат незнамо где). 

Питон, в отличие от этих ваших текстовых редакторов, не умеет самопроизвольно переставлять курсор в файле куда захочется; он воспринимает файл как список строк и читает его построчно (посимвольно даже). Считал строку один - к ней нет возврата. Считал весь файл - файл только закрывать. Следовательно, у питона есть несколько режимов, в каких можно открывать файл. Нам пригодятся три самых распространенных:

- r - режим чтения
- w - режим записи
- a - режим записи с дополнением

По умолчанию, если не указать режим, будет 'r'. Если мы с таким режимом передаем путь к  несуществующему файлу, питон вывалит ошибку. 

Вот с режимом 'w' похитрее. Во-первых, именно так мы можем создавать несуществующие файлы: указываем любой путь (должны только папки существовать, файла может не быть по этому пути), и там появится файл. с таким расширением, какое мы ему припишем, кстати, но внутри он будет текстовый. Во-вторых, если мы открываем в таком режиме уже существующий файл, все его содержимое перезапишется. Бдите. 

А режим 'a' как раз позволяет добавлять новые записи в существующий файл; если файла нет, он его создаст, а если файл есть, то он в него дозапишет в конец. 

Наконец, аргумент encoding тоже передается строкой и может содержать название кодировки. Пользователям windows предлагается по умолчанию всегда прописывать encoding='utf8', потому что юникод - самая удобная кодировка, особенно для лингвистов. Питон 3, как я говорила в самом начале, отлично работает с юникодом, это его родная кодировка. 

Итак, открываем несуществующий файл:

In [11]:
file = open('test.txt', 'w', encoding='utf8')

Супер. Теперь о том, как читать и записывать в файл. 

Как читать:

1. file.read() - считает **все** содержимое файла, вернет его одной длиннющей строкой, в которой будет много \\n. 
2. file.readlines() - считает **все** содержимое файла, вернет его списком строк. В конце каждой строки, кроме последней, будет прилеплен \\n. 
3. file.readline() - считает **одну строчку** из файла, вернет ее, собственно, строчкой. То же про конец строки и \\n.
4. for line in file: ... - будет считывать по **одной строчке** из файла, пока не дойдет до конца. 

Лучше всего использовать способ 4 для объемных файлов. В противном случае вы, например, загружаете гигабайтовый текстовый файл в оперативную память махом, и ноутбук превращается в тыкву...

Как писать:

1. file.write('...') - записывает одну строчку в файл. НЕ ставит \\n в ее конце. Возвращает количество записанных символов. 
2. file.writelines(['...', '...', '...']) - записывает список строк в файл. Тоже не ставит \\n.
3. print(whatever, file=filename) - самый понтовый способ, потому что автоматически ставит \\n и вообще использует все возможности принта. И f-строк. 

Запишем что-нибудь в наш открытый файл:

In [12]:
file.write('Hello world! ')
print('\nА это принт напринтил', file=file)
file.writelines([word + '\n' for word in input().split()])  # я вручную прилепила \n каждому слову

 это список слов где каждое слово это отдельная строка


Чтобы записанная информация сохранилась в файл, необходимо его закрыть. Вообще файлы нужно за собой закрывать! Даже если вы только из них читаете, не забудьте выполнить команду:

    file.close()
    
Иначе ваш файл останется болтаться открытым в оперативе. Это как фантик за собой в мусорку не выкинуть. 

In [13]:
file.close()

Теперь можно считать все эти строчки обратно из файла:

In [14]:
file = open('test.txt', 'r', encoding='utf8')
for line in file:
    print(line.rstrip())  # rstrip нужен, чтобы откусить \n

Hello world!
А это принт напринтил
это
список
слов
где
каждое
слово
это
отдельная
строка


In [15]:
file.close()  # выкинем за собой фантик

### Форматы файлов, сериализация

Мы с вами поговорили о разных форматах файлов, которые используются при работе со скриптами. Файлы, которые умеет обрабатывать питон, находятся на своего рода шкале по человекочитаемости:
1. .txt файлы - легко читаются человеком, трудно читаются скриптами (потому что не структурированы)
2. .json, .csv файлы - могут читаться как человеком, так и машиной
3. бинарные файлы - не предназначены для чтения человеком

Работать с обычными текстовыми файлами мы с вами уже умеем и научимся это делать еще виртуознее, когда освоим регулярки. 

#### JSON

json - Java Script Object Notation; первоначально создавался для другого ЯП, но может быть использован и для типов питона. Это такой формат, в котором объекты питона записываются в машиночитаемом виде, но при этом могут читаться и человеком. Запись данных в машиночитаемом виде называется сериализацией: когда мы считываем такие файлы снова программой, не нужно их специально парсить (явно для человека). 

С json-файлами работает модуль json, который является стандартным модулем из библиотек питона. 

In [None]:
import json

нам для работы достаточно знать четыре функции:

- json.load(file)
- json.dump(object, file, ensure_ascii=False, indent=4)
- json.loads(string)
- json.dumps(object)

load загружает файл, dump сохраняет объект в файл, loads десереализует строку в объект питона, а dumps, наоборот, сериализует. 

In [None]:
with open('new.json') as file:  # я не указываю кодировку, потому что пользуюсь unix системой, но в Windows не забывайте об этом
    data = json.load(file)

In [None]:
"""Такой способ чтения иногда бывает нужен, если в json не один объект, а много строк с объектами"""
data = []

with open('google.json') as file:
    for line in file:
        data.append(json.loads(line))

In [None]:
with open('new2.json', 'w', encoding='utf8') as file:
    json.dump(data, file, ensure_ascii=False, indent=4)

Когда сохраняем файл в формате json, последние два параметра необязательны, но лучше всегда указывать ensure_ascii=False (чтобы записывать в utf8); indent - это отступы внутри файла, если не указать этот параметр, весь объект запишется в одну строчку. 4 - это количество пробелов в отступе. 

#### CSV, TSV

csv (comma separated values) или tsv (tab separated values) - формат табличных данных. В таких файлах можно хранить таблицы. В первой строке этого файла обычно хранятся названия колонок (или нет), разделенные делимитером (запятой, знаком табуляции или др), а в следующих строках хранятся значения строчек таблицы, тоже через делимитер. 

У питона есть модуль, который умеет читать и писать данные в csv, но на практике гораздо чаще используются pandas (будем изучать). 

Какие понятия связаны с csv?

1. delimiter - то, что разделяет ячейки в файле. Как правило, запятая или \t
2. QUOTECHAR - значок, которым обозначаются границы значений, если вдруг внутри значения попадается делимитер (например, запятая или табуляция в текстовой ячейке)
3. Способ цитирования - каким образом мы обозначаем границы значений: всегда, в некоторых случаях, никогда. 

Параметры quoting:

- csv.QUOTE_ALL

    Будет брать в кавычки (или другой значок, если мы его укажем) все значения подряд.
    
- csv.QUOTE_MINIMAL

    Будет брать в кавычки только такие значения, внутри которых попадается делимитер.
    
- csv.QUOTE_NONNUMERIC

    Будет брать в кавычки только нечисловые типы данных и все числовые конвертировать в float.
    
- csv.QUOTE_NONE

    Ничего не будет брать в кавычки; если внутри значений попадется делимитер, он его заэскейпит ( \ )

In [1]:
import csv

In [4]:
"""Хотим считать файл в csv"""
with open('affairs.csv') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    c = 0
    for row in reader:
        c += 1
        print(', '.join(row))
        if c >= 5:
            break

rate_marriage, age, yrs_married, children, religious, educ, occupation, occupation_husb, affairs
3.0, 32.0, 9.0, 3.0, 3.0, 17.0, 2.0, 5.0, 0.1111111
3.0, 27.0, 13.0, 3.0, 1.0, 14.0, 3.0, 4.0, 3.2307692
4.0, 22.0, 2.5, 0.0, 1.0, 16.0, 3.0, 5.0, 1.3999996000000001
4.0, 37.0, 16.5, 4.0, 3.0, 16.0, 5.0, 5.0, 0.7272727


In [5]:
data = []
with open('affairs.csv') as csvfile:
    reader = csv.reader(csvfile) # на самом деле обязателен здесь только файл
    for row in reader:
        data.append(row)
print(data[:1])

[['rate_marriage', 'age', 'yrs_married', 'children', 'religious', 'educ', 'occupation', 'occupation_husb', 'affairs']]


In [7]:
with open('affairsnew.tsv', 'w', encoding='utf8') as csvfile:
    writer = csv.writer(csvfile, delimiter='\t', quoting=csv.QUOTE_ALL)
    for row in data:
        writer.writerow(row)

Можете посмотреть, что получилось. 

#### Бинарные файлы, pickle, dill

Быстрее и лучше всего машина читает бинарные файлы, записывать которые умеет стандартный модуль pickle. Такие файлы не читаются человеком (практически). Также можно использовать библиотеку dill (ее надо установить pip install dill), у обоих модулей примерно одинаковый синтаксис. 

In [None]:
import pickle

pickle.dump(data, open('data', 'wb'))  # wb - режим записи бинарника. Не забывайте про b
data = pickle.load(open('data', 'rb'))  # rb - режим чтения бинарника. Есть также ab

In [None]:
import dill

dill.dump(data, open('data', 'wb'))
data = dill.load(open('data', 'rb'))

### Модули и пространства имен

Модуль - единица организации программ наивысшего уровня, которая упаковывает программный код для многократного использования и предоставляет изолированное пространство имен, что сводит к минимуму конфликты имен переменных внутри программ. 

Обобщая все изученное, стоит напомнить, что в мире питона все - это объекты. У каждого объекта есть свои атрибуты. Модуль - это тоже **объект** (очень высокого уровня), атрибуты модуля - это все объекты, которые в нем находятся, то есть, переменные, функции и классы. 

В более простом смысле модуль - это любой скрипт с расширением .py (есть еще некоторые менее интересные варианты - питон позволяет импортировать модули, написанные на других языках, там чуточку другое расширение, но ведут они себя так же). Каждый скрипт - это модуль, и тот скрипт, который мы запускаем, на самом деле тоже модуль, только самый главный и имеющий имя \_\_main\_\_. 

Как мы импортируем модули и что при этом происходит?

У нас есть два оператора:
- import
- from ... import

(+ можно использовать переименование as)

Что на самом деле они делают? Они не просто копипастят код из импортируемого модуля в наш главный. В момент, когда исполняется оператор import, скрипт модуля **исполняется**, чтобы появились все определенные в нем объекты, а его имя добавляется в пространство имен нашего модуля, и все его объекты делаются его атрибутами. Так, когда пишем:

    import math
    
В пространстве имен нашего главного модуля появляется имя math, а у него, например, math.sqrt.

Выражение "пространство имен" прозвучало уже несколько раз; а это что такое?

Питон делит все имена переменных, функций и классов внутри себя на определенные сегменты, чтобы они друг другу не мешались. Так, у главного запускаемого скрипта есть свое пространство имен, в котором живет все, что мы определили в этом скрипте, + импортированные имена модулей. Что содержится в пространстве имен скрипта, можно посмотреть с помощью команды dir(). С пустыми скобками она показывает содержимое главного модуля, а если указать ей имя импортированного модуля, то она отобразит его атрибуты (то есть, его пространство имен). 

In [2]:
dir()

['Animal',
 'Cat',
 'Dog',
 'In',
 'Out',
 '_',
 '__',
 '___',
 '__builtin__',
 '__builtins__',
 '__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_dh',
 '_i',
 '_i1',
 '_i2',
 '_ih',
 '_ii',
 '_iii',
 '_oh',
 'exit',
 'get_ipython',
 'quit']

Имена с двойными нижними подчеркиваниями - особые и зарезервированные, из них стоит обратить внимание только на \_\_name\_\_; имена с нижними подчеркиваниями тоже от нас должны быть скрыты, а вот остальные - то, что есть в нашем текущем скрипте (в .ipynb эти имена немного отличаются от .py). 

<img src="1.jpg">

На этой схемке примерно изображено то самое пространство имен. Глобальная область видимости включает в себя все, то, что в ней есть, видно внутри функций, которые определены в главном скрипте. То, что содержится в пространствах имен модулей, доступно в главном скрипте. То, что содержится в функциях и классах, из глобальной области видимости не доступно, мы можем с ними взаимодействовать, только передавая им какие-то объекты. 

Итак, когда мы импортируем какой-то модуль, наш главный скрипт делает следующее:
- ищет модуль с таким названием
- компилирует его в байт-код (что это, можете самостоятельно почитать)
- выполняет код модуля для создания объектов, которые в нем определены

Именно поэтому иногда в скриптах пишут такую вещь:

In [None]:
if __name__ == '__main__':
    ...

Это делается для того, чтобы код в модуле не выполнялся, если этот модуль просто импортировали. Например, вы написали свой собственный токенизатор и хотите его тестировать. Все функции для тестирования могут вызываться внутри конструкции в ячейке выше, а когда будете импортировать свой токенизатор, они вызываться не будут. 

О том, где и как питон ищет модули:
1. Сперва в домашней папке скрипта и в ее подпапках
2. Потом в каталогах PYTHONPATH, если они установлены
3. В каталогах стандартной библиотеки
4. В содержимом любых файлов .pth, если они есть
5. В подкаталоге site-packages, куда устанавливается все, что мы ставим через pip или conda

Поэтому не рекомендуется называть свои скрипты так же, как называются внешние модули, которые вы собираетесь импортировать. Например, называть свой скрипт numpy не очень умно, если вам потом понадобится сам numpy!

Модуль - это один импортируемый скрипт, но бывают и целые библиотеки, то есть, наборы импортируемых скриптов. Как создать целую большую библиотеку? Обычно хочется сложить все скрипты в папочку. В ранних версиях питона (до 3.3) для таких папочек обязательно было еще создавать (можно пустой) файл \_\_init\_\_.py, это и сейчас осмысленно делать. Такой файл запускается, если вы импортируете свою папку целиком. Кстати, как происходит импорт из папки?

Допустим, у меня есть папка dir01, в которой есть подпапка dir02, а в ней модуль script1.py. 

    import dir01.dir02.script1
    
Если хочется импортировать просто dir01, чтобы сразу получить доступ ко всему, что у нее внутри, нужно создать файл \_\_init\_\_.py, внутри которого прописать все необходимые импорты. Этот файл запустится, когда вы импортируете папку или что-то из папки, поэтому там удобно бывает определять какие-нибудь глобальные штуки, подключать базы данных и так далее. 

Также еще можно взять на вооружение зарезервированную переменную \_\_all\_\_, которая будет явно говорить питону, что мы хотим импортировать из модуля, когда пишем from module import \*. Она заполняется подобным образом:

    __all__ = ['func1', 'func2', 'var1', 'var2']

**Почиташки**

- Лутц, т. 1, часть V
- [Wiki JSON](https://ru.wikipedia.org/wiki/JSON)
- [Wiki CSV](https://ru.wikipedia.org/wiki/CSV)
- [JSON](https://realpython.com/python-json/)
- [Сериализация](https://habr.com/ru/post/319604/)