# Вводная информация о работе с файлами

## Зачем использовать файлы

Часто оказывается, что _данные_, с которыми нужно работать, лежат в файле. Раньше мы могли вручную копировать их из файла и присваивать переменным. Однако это не всегда удобно (а бывает, что файлы настолько большие, что открыть и скопировать вручную просто невозможно). Кроме того, _результаты_, полученные в программе, иногда нужно сохранить для последующей работы — просто копировать и вручную сохранять в отдельный файл тоже может быть затруднительно.

В данном фрагменте мы научимся читать из файла и записывать в файл.

## Кодировка
Перед тем, как приступить к подробному разбору, скажем пару слов о **кодировках**. Написанный текст сохраняется в памяти компьютера в виде кода: каждому символу соответствует его кодовый номер. А при открытии все кодовые номера снова превращаются в символы. Правила кодирования, то есть соответствия кодового номера и символа, могут быть разными. Наверняка вам встречались текстовые документы, которые при открытии оказывались не текстом, а набором странных значков. Это происходило потому, что при открытии файла использовалась не та кодировка, которая была при сохранении. Мы будем работать с файлами в кодировке UTF-8 (https://ru.wikipedia.org/wiki/UTF-8). Ее используют при работе с кириллицей и другими европейскими языками.



## С какими файлами мы будем работать

### файлы с расширением .txt — текстовые файлы
Используются для хранения неструктурированной информации в виде текста. Их можно открыть в любом текстовом редакторе (например, Блокноте). В конце таких файлов лучше оставлять перенос строки, чтобы последней была пустая строка. Это нужно для того, чтобы избежать ошибок при чтении файла. Также его следует сохранять в той же кодировке, в которой собираетесь работать (в нашем случае это UTF-8).

### файлы с расширением .csv — Comma-Separated Values (значения, разделённые запятыми)
Используются для хранения табличных данных. Данные записаны по строкам, а разделение по столбцам происходит с помощью запятых, отделяющих значения друг от друга. При необходимости разделитель можно поменять: вместо запятой могут стоять, например, точка с запятой или пробел. Главное, чтобы сохранялась структура строк и столбцов. Тогда эти файлы можно будет открыть не только текстовом редакторе (например, Блокноте), но и в редакторе таблиц (например, Excel и Google Sheets) — чтобы получить классическое табличное представление. В конце таких файлов также лучше ставить перенос строки и сохранять в нужной кодировке.

## Общая информация о чтении из файла и записи в файл

Представьте себе, что вы хотите вручную скопировать данные из файла и вставить в программу. Вам нужно:
1. найти этот файл на компьютере, 
1. открыть, 
1. взять из него все, что нужно, 
1. закрыть файл.

Примерно то же самое будет делать программа. Чтобы она смогла найти файл по названию, проще всего положить его в ту же папку, где лежит файл с кодом программы. Иначе придется прописывать путь к файлу (подробнее о пути к файлу: https://desktop.arcgis.com/ru/arcmap/10.3/tools/supplement/pathnames-explained-absolute-relative-unc-and-url.htm).
Если программа не найдет файл с таким именем, будет выдана ошибка: _файл не найден_. 

Теперь представьте, что вы хотите вручную сохранить результаты, полученные в программе, в каком-то файле. Вам нужно:
1. найти файл на компьютере (если файл не найден — создать новый файл с нужным именем),
1. открыть, 
1. положить туда все, что нужно, 
1. сохранить и закрыть файл.

Тут особенно важно закрыть файл, чтобы не потерять записанные данные. Важное изменение: файла с требуемым именем может и не быть, и это нормально: вы только что решили его создать. Поэтому если файл с таким именем есть, программа запишет результаты в него. А если нет, создаст новый файл с таким именем в той же папке, где лежит файл с кодом программы. 


Таким образом, кроме названия, программе нужно знать _режим открытия файла_, то есть зачем мы его открываем: чтобы считывать информацию из файла или наоборот что-то записывать в файл (а если записывать, то как именно, — скоро увидим). По умолчанию программа считает, что мы собираемся читать из файла. 

Также программе нужно знать кодировку файла. Если явно не прописать кодировку, то могут (но не обязательно) возникнуть ошибки.


In [1]:
import os
os.getcwd()

'C:\\Users\\elgol\\Downloads\\DS-15-main\\DS-15-main\\Lect6\\Lect6_Part1'

# Чтение из файла

_Примечание: если вы вдруг работаете не в Jupyter, а в Google Collaboratory, то сейчас лучше все же перейти в Jupyter, чтобы избежать сложностей с тем, что у онлайн-лаборатории нет доступа к другим файлам на вашем Google-диске._

## считать .txt
Существуют разные способы открыть файл. Мы воспользуемся тем, который сам же и закроет файл. Это удобно, так как если забыть закрыть файл, можно потерять данные — особенно при записи. Конструкция `with open() as` открывает файл, позволяет взять из него все, что нужно, и закрывает файл.

В `open()` передаем название файла (который лежит в той же папке, что и код), а после `as` пишем псевдоним, с помощью которого будем обращаться к файлу внутри программы. 

In [7]:
with open('text_file.txt') as infile: # Открываем файл: пишем название файла и выбираем ему псевдоним
    print(infile)                     # Пробуем распечатать считанный файл

<_io.TextIOWrapper name='text_file.txt' mode='r' encoding='cp1251'>


При попытке распечатать считанный файл получаем следующую информацию:

* `_io.TextIOWrapper` — это служебная информация о том, как Python внутри себя видит файл;
* `name='text_file.txt'` показывает имя исходного текстового файла, для которого мы выбрали псевдоним `infile`;
* `mode='r'` означает, что мы открыли этот файл только для чтения (`'r'` — _read_);
* `encoding='UTF-8'` показывает, что файл имеет кодировку UTF-8. 

Мы могли бы прописать эти параметры в явном виде. Если возникают проблемы с кодировкой (содержимое файла отображается непонятными значками вместо букв), нужно указывать требуемую кодировку как раз таким образом. 

In [17]:
with open('text_file.txt', mode='r', encoding='UTF-8') as infile: # Прописываем все параметры в явном виде
    print(infile)

<_io.TextIOWrapper name='text_file.txt' mode='r' encoding='UTF-8'>


Однако пока мы не видели содержимого файла. Давайте это исправим.

In [8]:
text = ''                # Создаем пустую строку, в которой будем хранить текст из файла
with open('text_file.txt', encoding='UTF-8') as infile:
    for line in infile:  # Сохраняем поочередно каждую строку файла infile в переменную line,
        text += line     # Добавляем новую строку к переменной text
print(text)              # Смотрим, как выглядит считанный текст

Привет! Это первая строка в файле.
А это вторая строка.

Третья строка была пустой, а это уже четвертая строка.



Чтобы понять, как Python видит переносы строк, мы можем сделать не стандартный вывод через `print()`, а просто написать название переменной и запустить код. Это позволит посмотреть, что находится "внутри" переменной, и увидеть все специальные символы.

In [9]:
text

'Привет! Это первая строка в файле.\nА это вторая строка.\n\nТретья строка была пустой, а это уже четвертая строка.\n'

При необходимости мы могли бы с помощью `strip()` удалить переносы строк и записать всё без `\n` в одну строку: 

In [3]:
text = ''            
with open('text_file.txt', encoding='UTF-8') as infile: 
    for line in infile:            
        text += line.strip() + ' ' # Удаляем пробельные символы по краям строки
                                   # Добавляем новую строку и пробел к переменной text 
print(text) 

Привет! Это первая строка в файле. А это вторая строка.  Третья строка была пустой, а это уже четвертая строка. 


In [7]:
text

'Привет! Это первая строка в файле. А это вторая строка.  Третья строка была пустой, а это уже четвертая строка. '

## считать .csv
Точно так же можно открыть .csv файл и считать его в строку:

In [10]:
csv_data = ''            # Создаем пустую строку, в которой будем хранить информацию
with open('csv_file.csv', encoding='UTF-8') as infile: # открываем файл под псевдонимом
    for line in infile:  # Сохраняем поочередно каждую строку файла infile в переменную line,
        csv_data += line # Добавляем новую строку к переменной csv_data, 
print(csv_data)          # Смотрим, как выглядит считанный файл

Фамилия, Имя, Отчество, год рождения
Иванов, Иван, Иванович, 1980
Петрова, Ирина, Михайловна, 2000



При этом csv_data — это просто строка.

In [11]:
csv_data

'Фамилия, Имя, Отчество, год рождения\nИванов, Иван, Иванович, 1980\nПетрова, Ирина, Михайловна, 2000\n'

Чтобы работать с ней как с таблицей, потребуются дополнительные действия, о которых пойдет речь позже. А пока давайте научимся не только читать из файла, но и записывать в файл.

# 3. Запись в файл

Представим, что в строке `important_text` лежит какой-то важный текст, который нужно сохранить. 
Снова воспользуемся конструкцией `with open() as`, но укажем, что открываем файл для записи: `'w'` — _write_. При необходимости можно дополнительно указать кодировку. 

Можно написать просто `'w'`, а не `mode='w'`, так как `open()` ожидает на втором месте именно этот аргумент. Если бы не указывали режим, а сразу передавали кодировку, то уже обязательно нужно было бы написать `encoding=`, так как по умолчанию она ожидается на третьем месте, а мы ее передаем на втором.

Печать в файл происходит с помощью функции `print()`, у которой в качестве аргумента указано, что надо печатать в файл с псевдонимом `outfile`. 

In [4]:
important_text = 'Это очень важный текст. В нем даже несколько строк. \nОни отделены переносом строки.'
with open('info.txt', 'w') as outfile:    # Открываем файл, указываем, что это файл для записи: 
                                          # 'w', можем явно указать кодировку
    print(important_text, file=outfile)   # Печатаем в файл, передавая его псевдоним в качестве аргумента функции print()

Если мы откроем этот файл в текстовом редакторе, то увидим, что перенос строки в конце файла добавился автоматически. 

В данном случае файла с таким именем раньше не было, поэтому был создан новый файл. Посмотрим, что произойдет, если снова попробовать записать информацию в тот же файл.

In [5]:
important_text_2 = 'Это другой важный текст.'
with open('info.txt', 'w') as outfile:        # Открываем тот же файл, можем явно указать кодировку
    print(important_text_2, file=outfile) 

Если мы откроем этот файл, то увидим, что **вместо** старого текста теперь там записан новый. То есть файл был полностью перезаписан. Если же мы хотим, чтобы новая информация добавилась к имеющейся, нужно аргумент `'w'` (_write_) заменить на `'a'` (_append_). Попробуем.

In [15]:
important_text_3 = 'Это третий важный текст. Надеемся, что он запишется после второго'
with open('info.txt', 'a') as outfile:    # Открываем тот же файл, указываем, что это файл для ДОзаписи: 'a' (append)
    print(important_text_3, file=outfile) 

In [23]:
?print

Если мы откроем этот файл, то увидим, что новый текст записан под старым, а дополнительного переноса строки между ними нет (есть только одна дополнительная пустая строка в конце файла).

Чтобы записать файл в формате .csv, достаточно указать это расширение в названии файла. При этом важно, чтобы содержимое могло быть рассмотрено в виде таблицы, иначе формат .csv теряет смысл. Соответствующие примеры мы рассмотрим позже.

## Подведем итоги

Мы открываем файл с помощью конструкции `with open() as`, которая потом и закрывает файл.

Мы использовали три режима открытия файлов:
1. `mode='r'` — _read,  **чтение**_. При отсутствии указанного файла выдается ошибка. Это режим по умолчанию.
1. `mode='w'` — _write, **запись**_. При отсутствии указанного файла создается новый. При наличии файла содержимое перезаписывается.
1. `mode='a'` — _append, **дозапись**_. При отсутствии указанного файла создается новый. При наличии файла новое содержимое дозаписывается после имеющегося.