## Работа с файловой системой

Иногда, когда мы пишем код для анализа данных, нам нужно поработать с файловой системой – неважно, работаем мы на своем компьютере или в облаке.

Есть несколько полезных команд, которые нужно знать.  
Для начала давайте создадим файл и запишем туда текст:

In [None]:
with open("test.txt", 'w') as f:
  f.write("Hello\nworld")

Программы можно вызывать в командной строке через ноутбук (Jupyter или Colab). Для этого нужно поставить в начале строки символ "!"

Первая полезная команда – `ls`. Эта команда выводит на экран содержимое текущей директории. При выполнении мы должны увидеть файл, который только что создали:

In [None]:
!ls

test.txt


К командам можно добавлять ключи, чтобы изменять их поведение.  
К `ls` можно добавить ключ `l`, чтобы увидеть более подробную информацию о содержимом текущей директории. Ключи добавляются после символа `-`

In [None]:
!ls -l

total 4
-rw-r--r-- 1 root root 11 Sep 13 21:33 test.txt


Из командной строки можно получить содержимое файла. Для этого используется команда `cat`.  
Если файл большой, то лучше посмотреть на него другими инструментами, но иногда бывает полезно быстро увидеть, например, результаты выполнения программы:

In [None]:
!cat test.txt

Hello
world

Если нужно посмотреть только первые или последние m строк в файле, то мы можем использовать команды head и tail с ключом `-n`.  
После ключа мы пишем m – количество строк, которые мы хотим увидеть:

In [None]:
!head test.txt -n 1

Hello


In [None]:
!tail test.txt -n 1

world

Также, можно создавать папки и перемещаться в них.  
Создаем папки с помощью `mkdir`:

In [None]:
!mkdir test_folder

In [None]:
!ls

test_folder  test.txt


Перемещаться между директориями можно с помощью команды `cd`.  
**Важно:** если вы используете Google Colab, то перед `cd` не нужно ставить символ `!`, иначе переход в новую директорию совершится в отдельном подпроцессе и вы не получите ожидаемый результат.

In [None]:
cd test_folder

/content/test_folder


In [None]:
!ls

Как видим, в этой папке ничего нет. Давайте переместим в нее наш файл. Для перемещения нужно использовать команду `mv <откуда перемещаем> <куда перемещаем>`  
При этом, символ `.` обозначает текущую директорию, а `..` – директорию на уровень выше.

In [None]:
!mv ../test.txt ./

In [None]:
!ls

test.txt


Как видно, файл переместился в папку, которую мы создали. Проверим, что это действительно та папка, выведя на экран путь к текущей директории с помощью команды `pwd`:

In [None]:
!pwd

/content/test_folder


In [None]:
cd ..

/content


Наконец, давайте прочитаем наш файл с помощью Python, чтобы убедиться, что ничего не сломалось при его перемещении:

In [None]:
with open("./test_folder/test.txt", 'r') as f:
  text = f.readlines()

print(text)

['Hello\n', 'world']


## Модули

Мы часто используем в коде функции и классы, которые относятся к какой-то конкретной сфере. Например, мы можем написать несколько функций для чтения разных форматов данных.  

Когда такое происходит, нам удобно вынести эти методы в отдельный файл, чтобы всегда иметь к ним доступ. Таким образом, мы создаем новые модули (библиотеки).

Чтобы их использовать, нужно их импортировать:

```python
import random
```

Теперь мы можем обращаться к функциям из этого модуля через точку:

```python
random.randint(5)
```

Мы можем импортировать только нужные нам сейчас функции и классы:

```python
from random import randint as r
```

Также, можно импортировать вообще все, что есть в модуле:

```python
from random import *
```

Но так делать не стоит.

Пример: создадим случайное число в каком-то промежутке:

In [None]:
from random import uniform

uniform(5, 30)

21.786989973029296

Еще один полезный модуль: `math`.

Он содержит математические функции:

In [None]:
import math

math.cos(math.pi)

-1.0

## Работа с данными



### CSV

При анализе данных мы часто работаем с табличными данными. Обычно они находятся в формате csv – comma separated values. Это означает, что данные хранятся по строкам и столбцы отделены друг от друга запятыми.

Позже мы научимся работать с такими данными с помощью более удобных библиотек, а пока обойдемся стандартными средствами Python:

In [None]:
!echo -e 'name,last_name,age,city\n\
Emil,Magerramov,28,SPb\n\
Sergey,Verentsov,26,Moscow' > data.csv

In [None]:
!cat data.csv

name,last_name,age,city
Emil,Magerramov,28,SPb
Sergey,Verentsov,26,Moscow


In [None]:
with open('data.csv', 'r') as f:
  data = [line[:-1] for line in f.readlines()]

data

['name,last_name,age,city',
 'Emil,Magerramov,28,SPb',
 'Sergey,Verentsov,26,Moscow']

In [None]:
def lines_to_dict(lines):
  keys = lines[0].split(',')
  dict_result = {}
  for entry_index in range(1, len(lines)):
    dict_result[entry_index] = {}
    entry_values = lines[entry_index].split(',')

    assert len(keys) == len(entry_values), "Количество столбцов не совпадает"
    for value_index in range(len(entry_values)):
      dict_result[entry_index][keys[value_index]] = entry_values[value_index]

  return dict_result

In [None]:
dict_data = lines_to_dict(data)

### JSON

Еще один способ хранения данных – хранить их в формате JSON. Он очень похож на словарь, мы сейчас в этом убедимся:

In [None]:
import json

def pretty_print_dict(dictionary):
  print(json.dumps(dictionary, sort_keys=True, indent=2, ensure_ascii=False))

In [None]:
pretty_print_dict(dict_data)

{
  "1": {
    "age": "28",
    "city": "SPb",
    "last_name": "Magerramov",
    "name": "Emil"
  },
  "2": {
    "age": "26",
    "city": "Moscow",
    "last_name": "Verentsov",
    "name": "Sergey"
  }
}


In [None]:
with open("./data.json", 'w') as f:
  json.dump(dict_data, f)

In [None]:
!cat data.json

{"1": {"name": "Emil", "last_name": "Magerramov", "age": "28", "city": "SPb"}, "2": {"name": "Sergey", "last_name": "Verentsov", "age": "26", "city": "Moscow"}}

In [None]:
with open("./data.json", 'r') as f:
  dict_data_from_json = json.load(f)

In [None]:
pretty_print_dict(dict_data_from_json)

{
  "1": {
    "age": "28",
    "city": "SPb",
    "last_name": "Magerramov",
    "name": "Emil"
  },
  "2": {
    "age": "26",
    "city": "Moscow",
    "last_name": "Verentsov",
    "name": "Sergey"
  }
}


## Самостоятельная работа

1. Напишите функцию, которая берет на вход словарь, в котором каждое значение – это словарь с записями (как в примерах выше) и возвращает строку в виде csv.

2. Улучшите предыдущую функцию, чтобы она считывала json с файловой системы и записывала csv в ту же папку.

3. Сделайте функцию, которая принимает на вход путь к json-файлу и список ключей. Функция должна считать json с файловой системы, удалить пары ключ:значение для ключей из входного списка и возвращала словарь-результат.