# Работа с файлами

До сих пор единственным способом, при помощи которого наши программы взаимодействовали с внешним миром, было чтение ввода пользователя при помощи `input`.

Само по себе это уже очень гибкий способ получения данных - в зависимости от ввода пользователя мы можем делать разные операции, по условию включать или выключать какие-то части кода, а так же просить у пользователя вводить данные: класть их в контейнеры и обрабатывать.

Но вообще-то большая часть данных в мире не вводится пользователем - она приходит откуда-то извне. Это "извне" может значит очень много чего. Например, телескоп собирает данные и записывает на диск своего компьютера. Или пользователи вводят свою дату рождения на сайте, а сайт отправляет её по сети в удалённую базу данных.

Эти наборы данных было бы очень тяжело всегда запрашивать из пользовательского ввода - в конце концов, вряд ли можно себе представить, что астроном будет реально сидеть у телескопа и записывать все значения, которые видит на фотографии или картинке, в пользовательский ввод нашего кода.

Самый простой способ получения внешних данных - чтение файлов с диска. Например, телескоп измеряет яркость звезды и каждую секунду дописывает измеренное значение в файл. Нам нужно только научиться его читать.

Для чтения данных из файла в Python есть специальная функция - `open`. Посмотрим на неё для файла с наблюдениями звёздных величин некой звезды со временем:

In [None]:
with open("data/magnitudes.txt") as file:
    magnitude_data = file.read()

print(magnitude_data)

Подробно разберём, что тут произошло:

> `with open("data/magnitudes.txt") as file:`

- `with` - ключевое слово, говорящее "внутри следующего блока кода будет открыт файл"
- `open("data/magnitudes.txt")` - функция, которая непосредственно открывает файл по указанному пути
- `as` - ключевое слово, говорящее "файл, который был открыт слева от меня, будет использован при помощи переменной с названием справа от меня"
- `file` - имя переменной, содержащей текст в файле

> `magnitude_data = file.read()`

Здесь у файла вызывается функция `read`, которая читает всё содержимое файла в строку и сбрасывает её в переменную. Теперь в `magnitudes_data` лежит самая обычная строчка с тем, что было до этого в файле.

<details>
<summary>Почему файлы вообще надо открывать и закрывать?</summary>

Это связано с тем, как файлы хранятся на компьютере. Когда мы хотим прочитать из файла, Python идёт к системе и говорит "у тебя по этому пути лежит файл, дай прочитать, что там лежит". Система в этот момент проверяет, что в файл никто не делает записи, а потом выдаёт специальный номер (файловый дескриптор), с которым Python потом может читать этот файл. Когда он закончил читать, он говорит системе "я больше не читаю, можешь закрыть файл обратно", в ответ на что система проверяет, что Python действительно больше не читает файл и уничтожает файловый дескриптор. Это то, что происходит, когда код выходит из блока `with`.

В примере выше `file` - это как раз объект файлового дескриптора, с которым работает Python.

</details>

Если хочется потом что-то делать с данными в файле, их часто бывает полезно прочитать не в одну общую строку, а в список из строк:

In [None]:
with open("data/magnitudes.txt") as file:
    magnitude_data = file.read().splitlines()

print(magnitude_data)

for i in range(len(magnitude_data)):
    print(i, "-", magnitude_data[i])

Таким способом можно получить отдельные строчки, над которыми потом уже можно проводить какие-то операции: каждая строка в файле - это отдельное наблюдение.

Тем не менее для дальнейшего исследования хочется разделить между собой время и звёздную величину - сейчас оно всё сжато одной строчкой `6.5,10.17`; хочется достать отдельно `6.5` и отдельно `10.17`. Это достаточно частая задача - данные лежат в структурированном виде в каком-то файле (например, два столбца, разделённые запятыми), нужно получить отдельно значения. Для этого есть функция `split`, которая позволяет преобразовать одну строку в несколько - разделить по нужному символу.

In [None]:
data_piece = "Orion,7,78.63,-8.2"

values = data_piece.split(",")
print(values)

Теперь, зная всё это, мы можем разделить отдельно время наблюдений и звёздную величину:

In [None]:
with open("data/magnitudes.txt") as file:
    magnitude_data = file.read().splitlines()

for line in magnitude_data:
    current_values = line.split(",")

    time = float(current_values[0])
    magnitude = float(current_values[1])

    print("Observation at time", time, "saw magnitude", magnitude)


Кроме чтения в файлы так же можно записывать:

In [None]:
magnitudes = [8.23, 9.15, 7.98, 10.34, 8.76, 9.02, 8.55, 10.01, 9.67, 8.89]
times = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

for i in range(len(magnitudes)):
    with open("data/magnitudes_result.csv", "w") as file:
        for i in range(len(magnitudes)):
            file.write(f"{times[i]},{magnitudes[i]}\n")

Отличие от прошлого варианта в этих строках:

> `with open("data/magnitudes_result.csv", "w") as file`

Строка `w` сообщает системе, что в этот файл будет идти запись, а не чтение.

Для самой записи используется функция `write`:

> `file.write(f"{times[i]},{magnitudes[i]}\n")`

В конце строки есть символ `\n`, означающий, что после написания самой строки нужно поставить перенос строки - иначе в файле всё будет в одну длинную строку вместо каждого наблюдения на своей строке.

<div class="alert alert-block alert-warning" style="margin-top: 20px">

<font size=4>**Задание 1**</font>     

В файле `data/moons.txt` лежит файл, в котором каждая строка разделена запятой. Слева от запятой лежит имя планеты, справа - имя спутника. Вывести, сколько спутников у каждой планеты.

Для подсчёта можно переиспользовать код из прошлого ноутбука.

</div>

In [None]:
moon_counts: dict[str, int] = {}
with open("data/moons.txt") as file:
    for line in file:
        planet, moon = line.split(",")
        if planet in moon_counts:
            moon_counts[planet] += 1
        else:
            moon_counts[planet] = 1

for planet in moon_counts:
    print(planet, moon_counts[planet])

В зависимости от того, как именно расположены данные внутри файла, они могут иметь разные форматы. Обычно на формат указывает окончание файла - `.txt`, `.exe`, `.tbl`, но не всегда.

Файлы, с которыми мы сейчас работали, имеют формат CSV - comma separated value. Это текстовый формат, поэтому окончание файла там может быть на самом деле любым. Он состоит из нескольких столбцов, значения в каждом столбце разделены запятыми.

<div class="alert alert-block alert-warning" style="margin-top: 20px">

<font size=4>**Задание 2**</font>     

Дан CSV-файл `data/galaxies.csv`. В нём 4 столбца:
- Имя галактики
- Её красное смещение
- Прямое восхождение на небе
- Склонение на небе

Нужно сделать новый файл, в котором будут координаты и имена далёких галактик. Галактика считается далёкой, если её красное смещение больше 1.

</div>

In [4]:
with open("data/galaxies.csv") as infile:
    with open("data/distant_galaxies.csv", "w") as outfile:
        inlines = infile.read().splitlines()

        for inline in inlines:
            vals = inline.split(",")

            if float(vals[1]) > 1:
                outfile.write(f"{vals[0]},{vals[2]},{vals[3]}\n")