#  Занятие 2. Чтение, запись и управление файлами

## Работа с простейшими файлами

Согласно определению файл - именованная область постоянной памяти в компьютере, которой управляет операционная система. 

Чтобы открыть файл, нужно воспользоваться встроенной функцией `open(<путь до файла>, <режим работы с файлом (mode)>)`

| mode | Описание |
| --- | --- |
|`'r'` | чтение (read-only, это значение выставлено по умолчанию)|
|`'x'`| создает файл для записи; если файл уже существует, то выдаст ошибку|
|`'w'`| создает файл для записи; если файл уже существует, данные будут перезаписаны|
|`'a'`| открывает файл для дозаписи в конец файла; если требуемого файла нет, то сначала создаст его|

* Добавление символа `b` в строку режима означает работу с двоичными данными
* Добавление символа `+` означает, что файл открывается и для чтения, и для записи

Рассмотрим пример работы с файлом.
Создадим для записи файл `first_file.txt` в директории `./files/` и запишем в него две строки, после чего закроем файл.

In [None]:
f = open('files/first_file.txt', 'w')  # Открыли файл для записи (файл появится в папке  files) 
f.write('hello text file\n')  # Записываем строку в файл с помощью функции write
f.write('nice to meet you\n')
f.close()  # Закрываем файл с помощью функции close

Попробуем считать данные из нашего файла с помощью функции `readline`, считывающей одну строку из файла при каждом обращении. 

In [None]:
f = open('files/first_file.txt')
line1 = f.readline()  # читаем строку
line2 = f.readline() 
f.close()

In [None]:
line1, line2

Строк в файле обычно бывает много, поэтому обернем считывание из файла в цикл

In [None]:
f = open('files/first_file.txt')
lines = []  # массив для хранения строк
while True:
    line = f.readline()
    if line == '':  # проверяем, есть ли еще строки в файле
        break
    lines.append(line)
f.close()

In [None]:
lines

Закрывать за собой файлы - это пример хорошего тона в программировании, однако в Python это действие не является обязательным. Дело в автоматическом сборщике мусора, который закроет файл после окончания выполнения программы.

Помимо этого существует альтернитивный вариант автоматического закрытия файла - использование так называемого *контекстного менеджера*:

### Контексный менеждер для работы с файлами

In [None]:
lines = []
with open('files/first_file.txt') as f:
    while True:
        line = f.readline()
        if line == '':  
            break
        lines.append(line)
print(lines)

Открытие файла при помощи конструкции `with` ... `as` позволяет автоматически закрыть файл после выполнения блока внутри конструкции. Убедимся, что файл закрыт:

In [None]:
f.write('df')

Есть возможность прочитать файл целиком за один раз. Инструкция `file.read()` вернет строку со всем содержимым файла. Однако делать так стоит лишь когда вы уверены, что размер файла не превышает размера оперативной памяти, оставшейся в распоряжении компьютера.

In [None]:
lines = []
with open('files/first_file.txt') as f:
    whole_file = f.read()
    for line in whole_file.split('\n'):
        lines.append(line)
        

In [None]:
whole_file

In [None]:
lines

посмотреть о всех возможных методах для файлов можно посмотреть [тут](https://docs.python.org/2.4/lib/bltin-file-objects.html)

## Модули 

Зачастую при разработке какого-нибудь проекта написанный программный код разрастается, и работать с ним становится некомфортно (даже после разбиения его на отдельные функции или другие структуры). В таком случае полезно разделять программный код на отдельные логические части и "прятать" их в модули. Например, если программа использует большое число различных функций, удобно все эти функции поместить в один модуль и подгрузить его.

Любой файл с текстом на языке Python и расширением `.py`может быть использован в качестве модуля. Например, `fft.py`.

Рассмотрим в качестве примера модули в папке *modules_examples*. 

Загрузить файл с этим кодом в качестве модуля можно с помощью инструкции 

`import modules_examples.test_module1`

Файл `test_module1.py`

```python

# test_module1
print(f"Hello, i'm module")

var1 = 1000

def some_cool_function():
    print('I do nothing')
    
def func(a: str, b: str):
    return f"{a.capitalize()} {b.upper()}"
```

In [None]:
import modules_examples.test_module1 as tm1

Команда `import` выполняет все инструкции в загруженном файле, поэтому появляется вывод функции `print`. Инструкция `import` может появляться в любом месте программы, однако программный код любого модуля загружается и выполняется только один раз, независимо от количества инструкций `import`, загружающих его. Все последующие инструкции `import` будут просто связывать имя модуля с объектом модуля, созданным первой встретившейся инструкцией `import`.

In [None]:
import modules_examples.test_module1 as tm1

In [None]:
tm1.some_cool_function()

В одной из первых тем курса мы говорили, что посмотреть доступные методы некоторого объекта можно с помощью функций `help` и `dir`. Давайте воспользуемся функцией `help` и посмотрим информацию об импортируемом модуле

In [None]:
help(tm1)

Мы видим основную информацию о модуле: его название, список достпуных методов, также имеется целочисленная переменная `var1` и полный путь до модуля. Соответственно, после импорта нам доступны все методы и переменные в модуле

In [None]:
tm1.var1

In [None]:
tm1.some_cool_function()

In [None]:
tm1.func('type', 'something')

#### Импортирование отдельных имен из модулей
Иногда из всего модуля нам необходимо всего несколько функций и нам не хочется импортировать его целиком. Тогда можно воспользоваться инструкцией `from <module> import <function1>, <function2>`.

Файл `test_module2.py`
```python 
#test_module2

def some_cool_function():
    print('I do nothing')

def func(a: str, b: str):
    return f"{a.capitalize()} {b.upper()}"

def prod(a=1, *args):
    for i in args:
        a *= i
    return a
```

In [None]:
from modules_examples.test_module2 import *

In [None]:
prod(2, 3, 4)

Для того чтобы подгрузить все функции в модуле через инструкцию `from` можно воспользоваться выражением `from <module> import *`. 

Такая запись избавит вас от необходимости писать название модуля перед нужной функцией. Однако делать так не рекомендуется, так как при таком вызове в наше пространство имен выгружаются все имена функций, переменных из модуля, и в таком случае при совпадении имен старое значение будет перезаписано. 

Например, пусть у нас есть переменная  `sign`, а в модуле `test_module3.py` содержится функция с таким же именем.

In [None]:
sign = "+"

Файл `test_module3.py`
```python 
#test_module3

def sign(a, b):
    return 1 if a > b else 0
```

Если теперь из модуля `test_module3.py` подгрузить все функции, то переменная `sign` перезапишется и станет функцией.

In [None]:
from modules_examples.test_module3 import *  

In [None]:
%%writefile mdl.py
print('n')
def f():
    return 'a'

In [None]:
import mdl
mdl.f()

In [None]:
привет = 10
print(привет +10)

### Задача 1
---
Напишите модуль `ticket` в котором есть функция `is_ticket_happy`, которая ожидает на вход строку и проверяет является ли введенный номер [счастливым](https://ru.wikipedia.org/wiki/%D0%A1%D1%87%D0%B0%D1%81%D1%82%D0%BB%D0%B8%D0%B2%D1%8B%D0%B9_%D0%B1%D0%B8%D0%BB%D0%B5%D1%82) - cчастливым считается билет, в шестизначном номере которого сумма первых трёх цифр совпадает с суммой трёх последних. 

Функция возвращает булевое значение.

In [None]:
def is_ticket_happy(s):
    ...

In [None]:
import happy
happy.is_ticket_happy('101201')

In [None]:
from happy import is_ticket_happy
is_ticket_happy('101201')

## Библиотеки

Теперь мы перейдём к изучению библиотек. По факту бибилиотекой называется набор тех самых модулей для решения конкретных задач. Часто в Python слово "модуль" и "библотека" вообще используются как синонимы. Главный критерий по которому мы будем разделять библиотеку и модуль будет то, что модуль написан лично Вами, а библиотека сделана другими профессиональными разработчиками. 

В Anacond-e есть встроенный набор некоторых библиотек, в качестве примера рассмотрим библиотеку `random`. 

Очень часто при решении задач, например, при статистическом моделировании результатов различных экспериментов, возникает необходимость использования случайных чисел.

Для работы с ними в языке `Python` реализован целый набор функций, которые собраны в модуле `random`.

Для подключения модуля к программе используется инструкция:

~~~python
import random
~~~

Ниже приведены некоторые из функций модуля, которые позволят использовать команды для генерации псевдослучайных чисел.

|Функции |Описание|
|---|:-|
|`random.random()`|возвращает случайное вещественное число от 0.0 до 1.0|
|`random.seed([a=<параметр>][, version=2])`|настраивает генератор случайных чисел на новую последовательность|
|`random.uniform(<начало>, <конец>)`|возвращает случайное вещественное число в равновероятном диапазоне от \<начала\> до \<конца\>|
|`random.randint(<начало>, <конец>)`|случайное целое число в диапазоне от \<начала\> до \<конца\>|
|`random.randrange(<начало>, <конец>, <шаг>)`|выбирает случайный элемент из числовой последовательности|
|`random.choice(<последовательность>)`|выбирает случайный элемент из некоторой непустой последовательности|

*Псевдо*случайными числа называются потому, что для их создания применяются математические формулы, так что, зная вид генерирующей формулы и стартовые числа ("затравки" или "зерна" – seed), можно воспроизвести всю последовательность. Кроме того, цепочки псевдослучайных чисел являются замкнутыми: через $N$-ое количество значений последовательность начнет повторяться (именно последовательность, а не ее отдельные элементы). Величина $N$ считается показателем качества генератора случайных чисел: чем она выше, тем более надежную "случайность" вы получите в своей программе. Современные хорошие генераторы обладают длинами неповторяющихся последовательностей около $10^{50}$ значений!

In [None]:
import random

In [None]:
a = random.random()
print(a)

In [None]:
random.seed(2)
a = random.random()
print(a)
print(random.random())

In [None]:
a = random.uniform(-1, 10)
print(a)

In [None]:
a = random.randint(-1, 1)
print(a)

In [None]:
a = random.choice(['A', 'B', 'C'])
print(a)

### Задача 2
---

Напишите функцию, которая моделирует взятие случайной карты из колоды.

Примерный формат вывода: 6♥ 2♦ Q♣ A♠ 

In [None]:
import random
values = [str(i) for i in range(2, 11)] + ['J', 'Q', 'K', 'A']
suits = ['♥', '♦', '♣', '♠']

### Библиотеки для работы с файлами и окружением

### Модуль `os`

Библиотека `os` в Python предоставляет множество функций для взаимодействия с операционной системой. Далее, посмотрим на основные функции данной библиотеки

In [None]:
import os

Вывод рабочей директории

In [None]:
os.getcwd()

Библиотека позволяет создавать и удалять директории

In [None]:
new_folder = 'os_example'
os.mkdir(new_folder)

In [None]:
os.rmdir('os_example')

Модуль позволяет получить список всех файлов и папок, содержащихся в заданной директории

In [None]:
os.listdir()

In [None]:
path = './files'
files = os.listdir(path)

Чтобы не прописывать пути до файлов в ручную можно использовать метод `join`

In [None]:
os.path.join(path, files[0])

In [None]:
path = os.path.join('test_dir', 'level_1', 'level_2', 'level_3')
path

Если нужно создать поддиректории тоже

In [None]:
os.makedirs(path)

In [None]:
os.rmdir('./test_dir')

Также есть возможность получить полный путь до файла

In [None]:
path_to_file = os.path.abspath(files[0])
path_to_file

In [None]:
os.path.exists(path_to_file)

In [None]:
path_to_file = os.path.abspath(os.path.join(path, files[0]))

In [None]:
os.path.exists(path_to_file)

Проверка является ли указанный путь файлом или директорией

In [None]:
os.path.isfile(path_to_file)

In [None]:
os.path.isdir(path)

#### Обход дерева катологов
Предположим, вы хотите переименовать все файлы, находящиеся в некоторой папке, а также во всех ее подпапках. Следовательно, вам необходимо выполнить обход всего  дерева каталогов. 


In [None]:
items = [item for item in os.walk('./')]

Функция возвращает по три значения на каждой итерации цикла:
* строку с именем папки 
* список строк из имен папок, которые содержатся в текущей папке
* список строк из имен файлов текущей папки

In [None]:
items[4]

### Модуль `shutil`
Содержит функции, позволяющие копировать, перемещать, переименовывать и удалять файлы. 

In [None]:
import shutil

Работать с библиотекой мы начнем на примере. Рассмотрим содержимое папки `photo`

In [None]:
path = './photo'
files = os.listdir(path)
print(files)

Рассортируем наши фотографии по отдельным папкам внутри акталога `photo`

#### Удаление  директории с файлами

In [None]:
shutil.rmtree('./test_dir')

 ### Пример архивирования файлов

In [None]:
import zipfile

In [None]:
path = 'photo'
with zipfile.ZipFile('photo.zip', 'w') as zfile:
    for folder_name, sub_folders, filenames in os.walk(path):
        zfile.write(folder_name)
        for filename in filenames:
            zfile.write(os.path.join(folder_name, filename))


### Работа с PDF документами
PDF документы представляют собой бинарные файлы, который огут содержать массу дополнительной информации, и поэтому работать с ними несколько сложнее, чем с текстовыми файлами.

В данном разделе мы рассмотрим примеры работы с pdf файлами для извлечения текстовой информации из них


In [None]:
!pip install pymupdf

In [None]:
import pymupdf

In [None]:
pdf_file = pymupdf.open('pdf-files/paper.pdf')

In [None]:
help(pdf_file)

In [None]:
pdf_file.page_count

In [None]:
pdf_file.metadata

In [None]:
pdf_file.get_toc()

In [None]:
page = pdf_file[1]


#### Извлечение текста

In [None]:
text = page.get_text()
print(text)

In [None]:
instances = page.search_for('PHYSICAL')
new_line = 'SOME TEXT HEREEEE'
for item in instances:
    page.add_redact_annot(item, new_line)
page.apply_redactions()
pdf_file.save("test1.pdf")

####  Извлечение картинок

In [None]:
images = page.get_images()

In [None]:
help(images[0])

In [None]:
images[0]

In [None]:
pix = pymupdf.Pixmap(pdf_file, images[0][0])

In [None]:
from PIL import Image


mode = "RGBA" if pix.alpha else "RGB"
img = Image.frombytes(mode, [pix.width, pix.height], pix.samples)
img

In [None]:
img.save('image1.png')

Другой способ 

In [None]:
base_image = pdf_file.extract_image(images[0][0])

In [None]:
with open('image.png', 'wb') as bytes:
    bytes.write(base_image['image'])

Сохраним все картинки в из статьи в папку с фотографиями

Ссылка на библиотеку с [документацией](https://pymupdf.readthedocs.io/en/latest/the-basics.html "pymupdf docs")

## Взаимодействие с облачным хранилищем Google Disk

Нашей задачей будет настроить связь между локальным компьютером и сервисом Google Drive для обмена файлами.

### Подготовка к проекту 

1. Создание проекта в Google Cloud Console
    1. Идем по ссылке на [Google Cloud Console](https://console.cloud.google.com/ "Console")
    2. Создаем новый проект
    3. Далее, нужно включить API Google Drive:
        * Перейдите в "API и службы" > "Библиотека"
        * Найдите "Google Drive API" и включите его
2. Настройка учетных данных 
    1. Перейдите в "API и службы" > "Учетные данные".
    2. Нажмите "Создать учетные данные" и выберите "OAuth 2.0 Client ID"
    3. Выберите тип приложения (например, "Desktop app") и создайте учетные данные
    4. Скачайте файл `credentials.json`
3. Установка необходимых библиотек
    ```python 
    pip install --upgrade google-api-python-client google-auth-httplib2 google-auth-oauthlib
    ```
    



In [None]:
!pip install --upgrade google-api-python-client google-auth-httplib2 google-auth-oauthlib

In [None]:
from google_auth_oauthlib.flow import InstalledAppFlow
from googleapiclient.discovery import build
import os
import io
from googleapiclient.http import MediaFileUpload, MediaIoBaseDownload

Первая авторизация

In [None]:
CREDENTIALS = '../client_secret.json'
SCOPES = ['https://www.googleapis.com/auth/drive']
flow = InstalledAppFlow.from_client_secrets_file(CREDENTIALS, SCOPES)
creds = flow.run_local_server(port=0)


Создадим объект для работы с диском

In [None]:
service = build('drive', 'v3', credentials=creds)

In [None]:
def create_file(filename, parents=None):
    file_metadata = {
        'name': filename,
        'mimeType': 'text/plain'
    }
    if parents:
        file_metadata['parents'] = [parents]
    file = service.files().create(body=file_metadata, fields='id').execute()
    return file

def create_folder(foldername):
    folder_metadata = {
        'name': foldername,
        'mimeType': 'application/vnd.google-apps.folder'
    }
    folder = service.files().create(body=folder_metadata, fields='id').execute()
    return folder 

In [None]:
def list_files_in_folder():
    ...

In [None]:
def upload_file():
    ...

def download_file():
    ...

def download_folder():
    ...