# Семинар №4

Словари. Работа с файлами.

# Словари (dictionaries)

Обсуждая словари в Python, удобно проводить аналогию с обычными словарями (бумажными или электронными). Что такое словарь? Перечень из пар: *слово-значение* или *слово-список значений*, если значений несколько. Вот и словарь в Python – это объект, структура данных, которая позволяет хранить пары соответствий.


In [None]:
prog = {'Вуз' : 'МГТУ',
        'Факультет' : 'БМТ',
        'Кафедра': '1'}

Первый элемент в каждой паре (до двоеточия) назвается ключом (*key*), второй элемент в каждой паре (после двоеточия) – значением (*value*). Посмотрим на словарь:

In [None]:
prog

{'Вуз': 'МГТУ', 'Факультет': 'БМТ', 'Кафедра': '1'}

### Обращение к элементам словаря

Как и в случае со списками или кортежами, к элементам словаря можно обращаться. Только выбор элемента производится не по индексу, а по ключу: сначала указываем название словаря, а потом в квадратных скобках – ключ, по которому мы хотим вернуть значение.

In [None]:
prog['Вуз']

'МГТУ'

А что будет, если мы запросим элемент по ключу, которого нет в словаре?

In [None]:
prog['Дисциплина']

KeyError: ignored

Теперь представьте себе такую ситуацию: у нас есть список ключей и мы хотим в цикле вернуть по ним значения. Какого-то одного из ключей. На каком-то этапе Python выдаст ошибку, мы вывалимся из цикла и на этом наша работа остановится. Чтобы такого избежать, получать значение по ключу можно другим способом – используя метод `.get()`:

In [None]:
prog.get('Дисциплина') # ни результата, ни ошибки

Если выведем результат на экран явно, с помощью `print()`, увидим, что в случае, если пары с указанным ключом в словаре нет, Python выдаст значение `None`:

In [None]:
print(prog.get('Дисциплина'))

None


Удобство метода `.get()` заключается в том, что мы сами можем установить, какое значение будет возвращено, в случае, если пары с выбранным ключом нет в словаре. Так, вместо `None` мы можем вернуть строку `Not found`, и ломаться ничего не будет:

In [None]:
prog.get('Дисциплина', 'Not found')

'Not found'

Но недостающий элемент мы всегда можем добавить!

In [None]:
prog['Дисциплина'] = 'Основы программирования на Python'
prog

{'Вуз': 'МГТУ',
 'Факультет': 'БМТ',
 'Кафедра': '1',
 'Дисциплина': 'Основы программирования на Python'}

**Внимание:** Если элемент с указанным ключом уже существует, новый с таким же ключом не добавится! Ключ – это уникальный идентификатор элемента. Если мы добавим в словарь новый элемент с уже существующим ключом, мы просто изменим старый ‒ словари являются изменяемыми объектами. Например, так (изменения в программе):

In [None]:
prog['Дисциплина'] = 'Анализ данных'
prog

{'Вуз': 'МГТУ',
 'Факультет': 'БМТ',
 'Кафедра': '1',
 'Дисциплина': 'Анализ данных'}

Раз элементами словаря являются пары *ключ-значение*, наверняка есть способ выбрать из словаря ключи и значения отдельно. Действительно, для этого есть методы `.keys()` и `values()`. Вызовем сначала все ключи:

In [None]:
prog.keys()

dict_keys(['Вуз', 'Факультет', 'Кафедра', 'Дисциплина'])

Объект, который мы только что увидели, очень похож на список. Но обычным списком на самом деле не является. Давайте попробуем выбрать первый элемент `prog.keys()`:

In [None]:
keys = prog.keys()
keys[0]

TypeError: ignored

Не получается! Потому что полученный объект имеет специальный тип `dict_keys`, а не `list`. Но это всегда можно поправить, превратив объект `dict_keys` в список:

In [None]:
list(keys)[0]  # получается!

'Вуз'

Аналогичным образом можно работать и со значениями:

In [None]:
prog.values()

dict_values(['МГТУ', 'БМТ', '1', 'Анализ данных'])

Словари могут состоять не только из строк, почти любые объекты могут быть ключами и значениями списка (какие не могут ‒ обсудим позже). Например, можно создать словарь оценок, состоящий из пар *числовой id студента-его оценка*.

In [None]:
numbers = {1 : 7, 2 : 8, 3 : 9}

Обращаться к элементам мы будем, естественно, без кавычек, так как ключами являются числа:

In [None]:
numbers[1]  # оценка студента с id равным 1

7

Словари могут состоять из элементов смешанного типа. Например, вместо числового id можно явно записать имя студента:

In [None]:
marks = {"Петя": 6, "Вася": 9}

In [None]:
marks["Петя"]

6

Ну, и раз уж питоновские словари так похожи на обычные, давайте представим, что у нас есть словарь, где все слова многозначные. Ключом будет слово, а значением – целый список.

In [None]:
my_dict = {'swear' : ['клясться', 'ругаться'],
           'dream' : ['спать', 'мечтать']}

По ключу мы получим значение в виде списка:

In [None]:
my_dict['swear']

['клясться', 'ругаться']

Так как значением является список, можем отдельно обращаться к его элементам:

In [None]:
my_dict['swear'][0]  # первый элемент

'клясться'

А теперь давайте подумаем, как можно вывести на экран элементы словаря по очереди, в цикле. Первая попытка:

In [None]:
for k in prog:
    print(k)

Вуз
Факультет
Кафедра
Дисциплина


Попытка не совсем удалась: на экран были выведены только ключи. А как вывести пары?


In [None]:
for k in prog:
    print(prog[k], "это", k)

МГТУ это Вуз
БМТ это Факультет
1 это Кафедра
Анализ данных это Дисциплина


Существует специальный метод `.items()`, который позволяет обращаться сразу к парам элементов:

In [None]:
for k, v in prog.items():
    print(k, v)

Вуз МГТУ
Факультет БМТ
Кафедра 1
Дисциплина Анализ данных


Для того, чтобы вывести и ключ, и значение, нужно в цикле `for` перечислить две переменные через запятую. И совсем не обязательно называть их `k` и `v` или `key` и `value`; Python сам поймет, что первая переменная соответствует ключу, а вторая ‒ значению. Для примера решим поставленную выше задачу с помощью `items()`.

In [None]:
for name, value in prog.items():
    print(name, "это", value)

Вуз это МГТУ
Факультет это БМТ
Кафедра это 1
Дисциплина это Анализ данных


Если посмотрим на `prog.items()`, мы увидим, что этот объект очень похож на список, состоящий из кортежей:

In [None]:
prog.items()

dict_items([('Вуз', 'МГТУ'), ('Факультет', 'БМТ'), ('Кафедра', '1'), ('Дисциплина', 'Анализ данных')])

Как и случае с методами `.keys()` и `.values()`, полученный объект не является "обычным" списком. Поэтому при необходимости его нужно будет превратить в список:

In [None]:
list(prog.items())

[('Вуз', 'МГТУ'),
 ('Факультет', 'БМТ'),
 ('Кафедра', '1'),
 ('Дисциплина', 'Анализ данных')]

Метод `.items()` полезен, когда мы хотим выбирать из словаря значения, удовлетворяющие определенным условиям. Для разнообразия возьмем другой словарь ‒ словарь с парами *студент-оценка*:

In [None]:
grades = {"Вася": 7, "Петя" : 9, "Коля" : 8, "Лена" : 8,
          "Василиса" : 10}

И выведем на экран имена тех студентов, у которых оценка равна 8:

In [None]:
for name, grade in grades.items():
    if grade == 8:
        print(name)

Коля
Лена


Только два человека: Коля и Лена. А как проверить, есть ли в словаре элемент с определенным ключом? Воспользоваться уже знакомым оператором `in`:

In [None]:
"Коля" in grades.keys()

True

In [None]:
"Ваня" in grades.keys()

False

### Создание словарей

Как создать словарь с нуля? Можно сначала создать пустой словарь, а затем добавлять в него элементы, то есть пары *ключ-значение*.

In [None]:
my_dict = {} # пустой словарь

In [None]:
my_dict[1] = 1
my_dict['hello'] = 'world'

In [None]:
my_dict # уже не пустой

{1: 1, 'hello': 'world'}

Чтобы понять, каким образом еще можно получить словарь, полезно вспомнить, какие объекты лежат в `dict_items()`.

In [None]:
my_dict.items()

dict_items([(1, 1), ('hello', 'world')])

Как мы уже обсуждали, `dict_items()` ‒ это список кортежей. Значит, из списка кортежей можно, в свою очередь, получить словарь!

In [None]:
my_new_dict = dict([(1, 2), ("Hello", "World"),(11,'tttt')])

In [None]:
my_new_dict

{1: 2, 'Hello': 'World', 11: 'tttt'}

А можно ли получить словарь на основе списков? Да, но для начала давайте посмотрим, как из элементов разных списков составить пары значений. Пусть у нас есть два списка: список имен и список оценок.

In [1]:
students = ["Веня", "Сеня", "Каролина", "Сабрина"]
grades = [6, 7, 8, 9]

Воспользуемся функцией `zip()`.

In [None]:
list(zip(students, grades))

[('Веня', 6), ('Сеня', 7), ('Каролина', 8), ('Сабрина', 9)]

Как следует из названия, функция `zip()` действует как "молния": соединяет две части, то есть два списка, делая из пары списков список пар. Удобно то, что эта функция может соединять не только два списка, но и больше.

In [None]:
rating = [3, 2, 4, 1] # место в рейтинге

In [None]:
dict(list(zip(students, grades, rating)))

ValueError: ignored

Кроме того, функция `zip()` полезна тем, что помогает создавать словари:

In [4]:
gradebook = dict(list(zip(students, grades)))
gradebook

{'Веня': 6, 'Сеня': 7, 'Каролина': 8, 'Сабрина': 9}

In [None]:
gradebook.update({'Nastya': 10})

In [None]:
gradebook

{'Веня': 6, 'Сеня': 7, 'Каролина': 8, 'Сабрина': 9, 'Nastya': 10}

In [None]:
gradebook.update({'katya':{2: 3}})
gradebook

{'Веня': 6,
 'Сеня': 7,
 'Каролина': 8,
 'Сабрина': 9,
 'Nastya': 10,
 'katya': {2: 3}}

# Работа с файлами в Colab и локально

## Colab

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
cd 'drive/My Drive/'

/content/drive/My Drive


In [None]:
ls 'Python/Курс по Python'

 test.txt   'Новая таблица.gsheet'  'Семинар 1.pptx'
 Test.xlsx  'Семинар №1,2.ipynb'    'Семинар №3.ipynb'


In [None]:
f = open('Python/Курс по Python/test.txt')
f.read()

'Дисциплина:\nОсновы программирования на Python'

In [None]:
f = open('Python/Курс по Python/test.txt')
for line in f:
    print(line)

Дисциплина:

Основы программирования на Python


In [None]:
l = [str(i)+str(i-1) for i in range(20)]

In [None]:
f = open('Python/Курс по Python/test2.txt', 'w')

In [None]:
for index in l:
    f.write(index + '\n')

In [None]:
f.close()

In [None]:
f = open('Python/Курс по Python/test2.txt', 'r')
l = [line.strip() for line in f]
l

['0-1',
 '10',
 '21',
 '32',
 '43',
 '54',
 '65',
 '76',
 '87',
 '98',
 '109',
 '1110',
 '1211',
 '1312',
 '1413',
 '1514',
 '1615',
 '1716',
 '1817',
 '1918']

## Работа с файлами локально (.txt)

Импортируем модуль `os` (от *operating system*), который позволяет работать с локальными (т.е. находящимися на компьютере) файлами и папками.

In [None]:
import os

Для начала определим рабочую папку – папку, которая используется по умолчанию (из неё по умолчанию запускается Jupyter, в неё сохраняются файлы и прочее, именно она отображается во вкладке *Home*).

In [None]:
os.getcwd()  # от get current working directory

'/Users/allat/Desktop'

На Windows в начале строки будет название диска (`C:` или `D:`), плюс, слэши могут быть обратными (`\` или `\\`). В дальнейшем при создании папки или при указании пути к папке/файлу нужно помнить, что Python распознаёт только прямые слэши `/` (на Windows ещё двойные `\\`, но иногда бывают сбои).

Добавим пустую папку на рабочий стол (`Desktop`) и назовём её `to-test`:

In [None]:
os.mkdir('/Users/allat/Desktop/to-test')

Сделаем только что созданную папку рабочей:

In [None]:
os.chdir('/Users/allat/Desktop/to-test')  # chdir - от change directory

Посмотрим на содержимое этой папки:

In [None]:
os.listdir()

[]

Пока пусто. Это ожидаемо. Исправим: создадим два пустых txt-файла:

In [None]:
f1 = open('file1.txt', 'w')
f1.close()
f2 = open('file2.txt', 'w')
f2.close()

Проверим теперь:

In [None]:
os.listdir()  #  появились!

['file2.txt', 'file1.txt']

Функция `listdir()` возвращает список файлов/папок. По умолчанию, если ничего не указано в круглых скобках,
возвращается содержимое текущей рабочей папки. Но в скобках можно указать путь к любой папке:

Вернёмся к нашей папке и сохраним её содержимое одним списком:

In [None]:
files = os.listdir()

In [None]:
files

['file2.txt', 'file1.txt']

Теперь проделаем следующее: будем открывать все файлы в списке `files`, записывать туда строку `"hello"` и закрывать. Понятно, что это игрушечный пример, но точно таким же образом можно будет сделать что-то посерьёзнее, например, открывать текстовые файлы, нормализовывать текст в них (приводить к нижнему регистру, убирать пунктуацию и лишние слова) и сохранять изменённый файл в другую папку. Нам понадобится цикл:

In [None]:
for f in files:
    F = open(f, 'a')
    print('hello', file = F)
    F.close()

Проверим, что содержимое файлов изменилось:

In [None]:
f = open('file1.txt', 'r')  # и у файла file2.txt будет то же самое
f.readlines()

['hello\n']

## Работа с файлами локально (.json)

In [None]:
import json

In [None]:
dictionary = {
    "name": "Ann",
    "age": 20,
    "phonenumber": "9976770500"
}

json_object = json.dumps(dictionary)

with open("sample.json", "w") as outfile:
    outfile.write(json_object)

In [None]:
with open('sample.json', 'r') as openfile:
    json_object = json.load(openfile)

print(json_object)
print(type(json_object))

## Еще библиотеки для работы с файлами

In [None]:
!pip install openpyxl xlsxwriter xlrd  # или pip3

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting xlsxwriter
  Downloading XlsxWriter-3.0.3-py3-none-any.whl (149 kB)
[K     |████████████████████████████████| 149 kB 5.3 MB/s 
Installing collected packages: xlsxwriter
Successfully installed xlsxwriter-3.0.3


1. Получение названий листов из файла Excel

In [None]:
import openpyxl

excel_file = openpyxl.load_workbook('Python/Курс по Python/Test.xlsx')

# sheet names
print(excel_file.sheetnames)

['Лист1']


2. Получение специфического листа из файла Excel

In [None]:
employees_sheet = excel_file['Лист1']

print(type(excel_file))
print(type(employees_sheet))

currently_active_sheet = excel_file.active

<class 'openpyxl.workbook.workbook.Workbook'>
<class 'openpyxl.worksheet.worksheet.Worksheet'>


3. Чтение значения ячейки из листа Excel

In [None]:
cell_obj = employees_sheet.cell(row=1, column=1)
print(type(cell_obj))
print(f'[A1]={cell_obj.value}')

# second way
print(f'[A1]={employees_sheet["A1"].value}')

<class 'openpyxl.cell.cell.Cell'>
[A1]=Список группы
[A1]=Список группы


4. Общее количество рядов и столбцов в листе Excel

Мы можем получить общее количество строк и столбцов, используя max_row и max_column свойства рабочего листа.

In [None]:
print(f'Total Rows = {employees_sheet.max_row} and Total Columns = {employees_sheet.max_column}')

Total Rows = 7 and Total Columns = 2


5. Строка печати заголовка листа Excel

In [None]:
header_cells_generator = employees_sheet.iter_rows(max_row=1)

for header_cells_tuple in header_cells_generator:
    for i in range(len(header_cells_tuple)):
        print(header_cells_tuple[i].value)

Список группы
None


Функция iter_rows() генерирует ячейки из рабочего листа по строке. Мы можем использовать его, чтобы получить клетки из определенного ряда

6. Печать всех значений из столбца

In [None]:
for x in range(1, employees_sheet.max_row+1):
    print(employees_sheet.cell(row=x, column=1).value)

Список группы
1
2
3
4
5
6


7. Печать всех значений из строки

In [None]:
for x in range(1, employees_sheet.max_column+1):
    print(employees_sheet.cell(row=2, column=x).value)

1
Иван


8. Чтение клеток из заданного диапазона

In [None]:
cells = employees_sheet['A2':'C3']

for id, name, role in cells:
    print(f'[{id.value}, {name.value}, {role.value}]')

[1, Иван, None]
[2, Анна, None]


9. Итерация по строкам

In [None]:
for row in employees_sheet.iter_rows(min_row=2, min_col=1, max_row=4, max_col=3):
    for cell in row:
        print(cell.value, end="|")
    print("")

1|Иван|None|
2|Анна|None|
3|Петр|None|


Аргументы, переданные функции iter_rows(), создают двумерную таблицу, из которой значения читаются по строкам. В этом примере значения читаются между A2 и C4.

10. Итерация по столбцам

In [None]:
for col in employees_sheet.iter_cols(min_row=2, min_col=1, max_row=4, max_col=3):
    for cell in col:
        print(cell.value, end="|")
    print("")

1|2|3|
Иван|Анна|Петр|
None|None|None|


# Задача на семинар "Парсер папок" (выполняется локально)

Представим, что вы провели множестов экспериментов.
Программное обеспечение, которым вы пользовались, записывает результаты измерений в json файл и сохраняет в папке с номером эксперимента. Внутри одного эксперимента может быть несколько измерений, т.е. несколько json файлов.

Каждый json файл содержит словарь с результатами измерений и результатами расчета метрик по ним (структура словаря определена в функции генерации папок).

Вам необходимо найти среди всех измерений по всем экспериментам результаты с наилучшим confidence для определенного типа клеток и вывести путь к этому файлу.

In [None]:
import shutil
import random
import json

path = 'path_to_folder_for_generation'

def create_experiments(path, folder, create_random_number_folders=10, create_random_number_files=10):
    if os.path.exists(os.path.join(path, folder)):
        print('exist, delete folder')
        shutil.rmtree(os.path.join(path, folder))
    os.mkdir(os.path.join(path, folder))

    folders_number = random.randint(1, create_random_number_folders)
    for i in range(folders_number):
        os.mkdir(os.path.join(path, folder, 'my_experiment_' + str(i)))
        files_number = random.randint(1, create_random_number_files)
        for j in range(files_number):
            dict_for_json = {
                'measurement_number': j,
                'cell': random.choice(['erythrocytes', 'lymphocytes', 'monocytes', 'basophils', 'neutrophils', 'eosinophils']),
                'parameters': {
                    'square': random.randint(0, 100),
                    'perimeter': random.randint(0, 100),
                },
                'metric':
                {
                    'confidence': random.randint(0, 100)
                }
            }

            with open(os.path.join(path, folder, 'my_experiment_' + str(i), 'measurement_number_' + str(j) + '.json'), 'w') as f:
                json.dump(dict_for_json, f)


# функция создает папки с экспериментами
create_experiments(path, "my_folder", create_random_number_folders=10, create_random_number_files=10)