## Словари

Новая структура данных -- словарь (`dict`)

Эта структура данных хранит пары ключ-значение и предоставляет быстрый доступ по ключу

In [37]:
# оценки разных людей
marks = {
    'bob': 5,
    'alice': 4,
    'dan': 5,
    'bill': 3
}

In [35]:
import json

In [38]:
json.dumps(marks)

'{"bob": 5, "alice": 4, "dan": 5, "bill": 3}'

In [2]:
marks['bob']

5

In [3]:
marks['alice'] = 5
marks['anonymus'] = 1
marks

{'alice': 5, 'anonymus': 1, 'bill': 3, 'bob': 5, 'dan': 5}

In [4]:
print('alice' in marks)
print('mary' in marks)

True
False


In [7]:
print(marks.keys())
print(marks.values())
print(marks.items())

dict_keys(['bob', 'alice', 'dan', 'bill', 'anonymus'])
dict_values([5, 5, 5, 3, 1])
dict_items([('bob', 5), ('alice', 5), ('dan', 5), ('bill', 3), ('anonymus', 1)])


In [6]:
for key in marks:
    print(key, marks[key])

bob 5
alice 5
dan 5
bill 3
anonymus 1


**порядок итерации по словарю произволен**

в отличие от ситуации со списком списка, элементы в словаре не упорядочены, а лежат в соответствии со своими хешами

**ключом словаря может быть только неизменяемый тип данных**

например: строки, числа, кортежи

не могут быть ключами: списки, словари, множества и тд

## Кортежи

Кортеж -- неизменяемый список

Одно из применений -- можно использовать как ключ словаря

In [11]:
c = (1, 2, 'Hello')
c

(1, 2, 'Hello')

In [12]:
c[0] = 0

TypeError: 'tuple' object does not support item assignment

In [14]:
d = {
    (1, 2): 'a',
    (1, 3): 'b',
    (2, 1): 'c'
}
d

{(1, 2): 'a', (1, 3): 'b', (2, 1): 'c'}

## Множества

в этом типе данных все элементы уникальны

множество поддерживает операцию `in` за константное время (в случае со списком это `O(n)`)

In [28]:
s = set([1, 2, 3, 4, 3, 2, 1])
s

{1, 2, 3, 4}

In [29]:
print(1 in s)
print(5 in s)

True
False


In [30]:
s.add(10)
s

{1, 2, 3, 4, 10}

In [31]:
s.add(1)
s

{1, 2, 3, 4, 10}

**элементы множества неупорядочены также как и ключи в массиве**

In [32]:
s[0]

TypeError: 'set' object does not support indexing

доступ к элементам множества можно получить через `for ... in` или `list(s)`

In [33]:
list(s)

[1, 2, 3, 4, 10]

Также есть много удобных функций для множеств, например объединение двух множеств

In [34]:
s1 = {1, 2, 3, 4}
s2 = {2, 3, 4, 5}
s1.union(s2)

{1, 2, 3, 4, 5}

или разность

In [48]:
s1 - s2

{1}

Множества позволяют элегантно решать некоторые задачи, например нахождение количества уникальных слов в тексте

In [35]:
with open('sherlock.txt') as f:
    text = f.read()

word_list = text.split()
word_list[:10]

In [37]:
word_set = set(word_list)

In [39]:
len(word_set)

14654

найдем, какие буквы не встречаются в данной фразе

In [42]:
s = 'Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit'

In [47]:
set(map(chr, range(ord('a'), ord('z')+1))) - set(s.lower())

{'b', 'f', 'g', 'h', 'j', 'k', 'w', 'x', 'y', 'z'}

## Работа с файлами

In [19]:
with open('sherlock.txt') as f:
    text = f.read()

In [51]:
with open('out.txt', 'w') as f:
    f.write("I'm writing to file!!!")

In [32]:
import os

In [33]:
os.listdir()

['.ipynb_checkpoints',
 '2_tokenization_amp_amp_hw.ipynb',
 'arduino.lnk',
 'BiTronics',
 'Bitronics_3.lnk',
 'desktop.ini',
 'Homework2.ipynb',
 'Lesson3.ipynb',
 'LOSH_2018',
 'LOSH_Ling',
 'PascalABCNET.lnk',
 'Roma',
 'sherlock.txt',
 'Untitled.ipynb',
 'ИПЦ(образование).xlsx']

Мини задачка: пройдите по всем файлам в текущей директории и выведите имя и первые 100 символов каждого файла (вам понадобится функция `os.path.isfile`)

если файл слишком большой, и его не хочется целиком помещать в память

In [40]:
for path in os.listdir():
        if os.path.isfile(path):
            try:
                with open(path, encoding='utf8') as f:
                    print(f.read()[:100])
            except:
                pass

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Игрушечный пр






<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="utf-8">
  <link rel="dns-prefetch
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Словари"
   




                        THE ADVENTURES OF SHERLOCK HOLMES

                               Arthur
{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": 
