<a href="https://colab.research.google.com/github/AnnSenina/Python_CL_2023/blob/main/notebooks/Python_6_os%2C_files.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Работа с файлами и папками в Python; модуль os

Другими словами: где хранятся файлы, открыть, создать, изменить и т.д.

Часто, чтобы поработать над какой-то задачей, нам нужно работать с файлами, в которых хранятся данные, перемещаться среди папок и тд. Для решениях этих задач, в питоне существует [модуль os](https://pythonworld.ru/moduli/modul-os.html).


1. Содержание папки
1. Работа с путями к файлам и папкам
1. Манипуляции с файлами и папками
1. Загрузка на Google Диск
1. Практика

В блокноте использованы материалы курса "Программирование и лингвистические данные", "Программирование на Python для Digital Humanities" и тетрадка А. Хорошевой



# 1. Рабочая директория

это текущая папка, в которой пользователь находится в данный момент при работе с файловой системой. Это место, где создаются, изменяются и хранятся файлы и папки, относящиеся к текущей задаче или проекту.

In [7]:
import os

In [None]:
# Посмотреть путь к папке, где сейчас работает наш питон:
print(os.getcwd())

Коллеги, прежде, чем выполнять следующие шаги, запомните этот путь!

In [None]:
os.chdir("") # впишите внутри путь до любой другой папки

In [None]:
print(os.getcwd()) # убедитесь, что рабочая директория изменилась

не забудьте поменять обратно!)

In [None]:
os.chdir("") # впишите изначальный путь

# os.chdir('/content') # для Colab

# 2. Содержание папки


In [None]:
print(os.listdir()) # список файлов и папок в директории, где запущена программа

Если внутри скобок вписать путо до нужной вам папки, увидите список файлов из нее:

In [None]:
# print(os.listdir('ваша папка'))  # список имен файлов и папок в конкретной папке
# print(os.listdir('sample_data')) # Для Colab

# 3. Работа с путями к файлам и папкам

## Проверка типа файла
Модуль `os.path` содержит функции для проверки существования файла и для определения его типа:


In [None]:
path = 'sample_data' # ваша папка, полный путь для другой среды программирования: /путь/.../папка
# path = 'simple_data'

if os.path.exists(path):
    print(path, 'существует')
    if os.path.isfile(path):
        print(path, '— это файл')
    elif os.path.isdir(path):
        print(path, '— это папка')
    else:
        print(path, '— это не файл и не папка')
else:
    print(path, 'не существует')

path можно также использовать для соединения папки и файла в путь знаком /

In [None]:
os.path.join('sample_data', 'california_housing_test.csv')

In [None]:
# аналогично:
'sample_data' + '/' + 'california_housing_test.csv'

#  4. Манипуляции с файлами и папками
Производите все манипуляции с файлами с осторожностью

## Создание файла
Для создания пустого файла достаточно открыть несуществующий файл с флагом `'x'`:

In [14]:
with open('empty.txt', 'x'): # есть и другие режимы, но о них позднее: 'r', 'w', 'a'
    pass # не делает ничего

# try:
#   действия
# except:
#   pass

In [None]:
print(os.listdir()) # проверим, что файл появился

## Создание папки
Для создания новой папки используйте `os.mkdir(name)`. Эта функция выдаст ошибку, если по указанному пути уже существует файл или папка с таким названием.

In [15]:
os.mkdir('nice new folder') # make directory в нашей рабочей директории

In [None]:
print(os.listdir())

Если вам нужно создать сразу несколько вложенных друг в друга папок, то смотрите функцию [`os.makedirs()`](https://docs.python.org/3/library/os.html#os.makedirs).

In [16]:
os.makedirs(os.path.join('some_folder_2','subfolder1','subfolder2', 'subfolder3'))

In [None]:
print(os.listdir()) # проверим, что папки появились

In [None]:
print(list(os.walk("some_folder_2"))) # перечисляет все папки от топа вниз, в виде кортежа

Для тетрадок: запустим в режиме display (без print)

In [None]:
list(os.walk("some_folder_2")) # перечисляет все папки от топа вниз, в виде кортежа

## Перемещение и переименование
Для удобной манипуляции с файлами и папками в стандартной библиотеке Python существует специальный модуль [`shutil`](https://pythonworld.ru/moduli/modul-shutil.html).

In [6]:
# import os
import shutil

Функция `shutil.move(source, destination)` позволяет вам переместить любой файл или папку (даже непустую). Обратите внимание, что если `destination` — это уже существующая папка, то файл/папка будет перемещена внутрь неё, в остальных случаях файл/папка будут скопированы точно по нужному адресу. В случае успеха, функция вернёт новое местоположение файла. Если `destination` существует и не является папкой, то будет выброшена ошибка.

In [None]:
shutil.move('empty.txt', 'nice new folder')

In [None]:
print(os.listdir()) # проверим, что файл исчез из рабочей директории
print(os.listdir('nice new folder')) # проверим, что файл появился

Перенесем файл обратно

In [None]:
shutil.move(os.path.join('nice new folder', 'empty.txt'), '.') # '.' - помести на уровень выше
# '..' - помести на 2 уровня выше

# можно также записать как:
# shutil.move('nice new folder/empty.txt', 'empty.txt')

In [None]:
print(os.listdir()) # проверим, что файл появился

!!! Не указываем полный путь до папки в том случае, **если файлы, папки лежат в рабочей директории**

Если мы выходим за пределы папки со средой (питоном), тогда **указываем полный путь**

### Переименовать файл

In [None]:
shutil.move('empty.txt', 'full.txt') # такое перемещение - и есть переименование
print(os.listdir()) # проверим

In [None]:
os.rename('full.txt', 'empty.txt') # то же самое другим способом
print(os.listdir()) # переименовали обратно

## Копирование
Скопировать файл можно с помощью функции `shutil.copy(source, destination)`.

In [None]:
shutil.copy('empty.txt', 'nice new folder/empty.txt')

Скопировать папку для операционной системы сложнее, ведь мы всегда хотим скопировать не только папку, но и её содержимое. Для копирования папок используйте `shutil.copytree(source, destination)`. Обратите внимание, что для этой функции `destination` всегда должно быть путём конечного расположения файлов и не может быть уже существующей папкой.

In [None]:
shutil.copytree('nice new folder', 'nicer newer folder')

In [None]:
print(os.listdir('nicer newer folder'))

## Удаление
Удалить файл можно с помощью функции `os.remove`, а пустую папку с помощью функции `os.rmdir`.

А вот для удаления папки с содержимым вновь понадобится `shutil`. Для удаления такой папки используйте `shutil.rmtree`.

Будьте осторожны, команды удаления стирают файл, а не перемещают его в корзину, вне зависимости от операционной системы! После такого удаления восстановить файл может быть сложно или вовсе невозможно.



In [21]:
os.remove('empty.txt')
# команда запустится только один раз!
# запустить дважды нельзя, файл УЖЕ удален

In [22]:
os.remove('nice new folder/empty.txt') # удаляем файл из папки nice new folder
# os.remove('nice new folder') # не сработает, команда удаляет только файлы

os.rmdir('nice new folder') # удаляем пустую папку nice new folder

In [24]:
# os.rmdir('nicer newer folder') # не сработает, в папке есть соедржимое!
shutil.rmtree('nicer newer folder') # разом удалить, со всеми вложенными файлами и папками

In [23]:
shutil.rmtree('some_folder_2') # разом удалить, со всеми вложенными файлами и папками

In [None]:
print(os.listdir())

## Подключить папки со своего Google Диск (только Colab)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
os.listdir('drive/MyDrive') # посмотрим на Google Диск!

# теперь файлы с Диска можно открывать так: drive/MyDrive/ваш_файл.расширение

# можно также наш диск объявить рабочей директорией
# os.chdir('drive/MyDrive')

# Работа с файлами

In [69]:
with open("city_smells.txt", 'r') as file: # воспользуемся встроенной функцией open()
    pass

давайте посмотрим на аргументы функции:
* первый = путь к файлу, который хотим открыть.

* второй аргумент - необязательный, это режим открытия файла: для чтения, записи, дозаписи, все вместе и тд. (по умолчанию - чтение, 'r')


<div class="table-wrapper"><table border="1" class="docutils"><tbody valign="top"><tr><td>Режим</td><td>Обозначение</td></tr><tr><td>'r'</td><td>открытие на чтение (является значением по умолчанию).</td></tr><tr><td>'w'</td><td>открытие на запись, содержимое файла удаляется, если файла не существует, создается новый.</td></tr><tr><td>'x'</td><td>открытие на запись, если файла не существует, иначе исключение.</td></tr><tr><td>'a'</td><td>открытие на дозапись, информация добавляется в конец файла.</td></tr><tr><td>'b'</td><td>открытие в двоичном режиме.</td></tr><tr><td>'t'</td><td>открытие в текстовом режиме (является значением по умолчанию).</td></tr><tr><td>'+'</td><td>открытие на чтение и запись</td></tr></tbody></table></div>


Режимы могут быть объединены: например, 'ra' - открытие для чтения и  дозаписи.

Последний аргумент (опциональный, его можно не указывать), encoding, нужен только в текстовом режиме чтения файла. Этот аргумент задает кодировку. Чтобы стандантные .txt-файлы читались без проблем, ставим ```encoding = utf-8```


Мы открыли файл с режимом для чтения (пока еще не читали его), сохранили в переменную значение. Давайте прочтем содержимое. Читать тоже можно несколькими методами:
* .read()
* .readline()
* .readlines()




In [None]:
with open("city_smells.txt", "r", encoding='utf-8') as file:
    print(file.read())
    # print(file.readline())
    # print(file.readlines())

In [None]:
with open("city_smells.txt", "r", encoding='utf-8') as file:
    text = file.read() # можно сразу сохранить текст в переменную
    # файл закроется, но все данные уже есть в переменной!

print(text)

Теперь попробуем создать файл и записать в него что-то:

In [82]:
with open('new_text.txt', 'w') as file:
    file.write("hi this is a test\n")

# если такого файла не существовало, он создастся автоматически

Чтобы предыдущая информация не стиралась из файла при записи, откроем с режимом "а"


In [83]:
with open("new_text.txt", 'a') as file:
    file.write("new line\n")

In [None]:
with open("new_text.txt",'r') as file: # читаем, что получилось
    print(file.read())

# Практика

Задание 1

Запустите код ниже без изменений (вы скачаете архив в гитхаба моего коллеги и распакуете его в вашу рабочую директорию)

In [None]:
!wget https://github.com/dhhse/dh2020/raw/master/topic_modeling/LEMMATIZED_KNIFE.zip
!unzip LEMMATIZED_KNIFE.zip

Сложите все тексты из файлов в один список с текстами:

создайте пустой список full_texts


переберите ***список файлов*** в папке 'LEMMATIZED_KNIFE' циклом for


внутри цикла:
*  открывайте каждый файл с помощью with open(название_очередного_файла)

* сохраните текст в переменную
* добавьте переменную в конец списка full_texts



Задание 2

В файле result.txt - список участников олимпиады

Откроем файл, сохраним данные в виде списка списков и отсортируем их несколькими способами (по фамилиям, именам, баллам и т.д.)

Идеально превратить его в такой объект:

[

  ['Петров', 'Василий', '3', '99'],

 ['Андреев', 'Роман', '14', '75'],

 ['Сергеев', 'Петр', '23', '74'],

 ['Романов', 'Иван', '27', '68'],

 ['Иванов', 'Сергей', '14', '56'],

 ['Васильев', 'Андрей', '3', '56']

 ]

Задание 3

Работаем с файлом penguins.csv

- Считайте его в список списков, аналогично примеру выше.

- Затем узнайте, сколько в файле ***уникальных*** (!) видов пингвинов (вид пингвина находится на нулевом индексе каждого списка), напр.:

['Adelie', 'Torgersen', '39.1', '18.7', '181', '3750', 'MALE'], где 'Adelie' - вид пингвина

- Сколько раз в таблице встретился каждый вид пингвинов - используйте метод .count() ИЛИ словарь для подсчета

### Бонус

Любимый пример на input'ы с первых встреч: давайте спрашивать что-то о людях и затем построчно заполнять файл информацией

In [None]:
def survey():
  name = input('Введите ваше имя: ')
  age = input('Введите ваш возраст: ')
  gender = input('Введите ваш гендер: ')
  city = input('Введите ваш город: ')
  work = input('Введите ваше место работы: ')
  position = input('Введите вашу должность: ')
  return name, age, gender, city, work, position

n = int(input('Сколько людей будет заполнять анкету? '))
with open('survey.csv', 'a', encoding='utf-8') as f2:
  for i in range(n):
    print(*survey(), sep=';', file=f2)