# Работа с файлами

### Текстовые файлы

Зачастую, если наша программа взаимодействует с окружающим миром, это делается именно с помощью файлов.

Чтобы открыть файл, находящийся по некоторому пути, нужно воспользоваться функцией open().

In [20]:
file = open("hello.txt", "w") #"hello.txt" - это путь файла

Второй аргумент означает то, что мы хотим делать с файлом. В данном случае мы использовали символ "w" - запись в файл (write). "r" -  чтение файла (read). Для записи файл не обязательно должен существовать (если что будет создан новый пустой файл с данным путем), для чтения же файл должен существовать, а иначе программа выдаст ошибку.

Чтобы записать что-то в открытый файл, есть функция write(). 

In [21]:
file.write("Hello, ")
file.write("world!\n")

7

После того, как мы закончили работу с файлом, его необходимо закрыть с помощью функции close().

In [22]:
file.close()

Чтобы не писать каждый раз close() и точно не забыть о закрытии файла, можно воспользоваться следующей конструкцией:

In [23]:
with open("hello.txt", "w") as file:
    file.write("Hello, ")
    file.write("world!\n")

Данный фрагмент кода равносилен тому, что было ранее. Тут откроется файл hello.txt на запись, он попадет в переменную file, в которую запишется информация, и после того, как код под with будет выполнен, файл автоматически будет закрыт.

Важно отметить, что в файл можно записывать только текст, поэтому следующий код вызовет ошибку:

In [17]:
with open("first.txt", "w") as file:
    file.write(1)

TypeError: write() argument must be str, not int

Теперь прочитаем, что мы записали в файл. Для этого используется функция read() - она отдает все содержимое файла в виде строки. 

In [24]:
with open("hello.txt", "r") as file:
    print(file.read())

Hello, world!



Как можно заметить, в файле находится всего одна фраза Hello, world!, хотя было записано две. Это происходит из-за того, что когда мы открываем файл на запись, информация, которая лежала там, пропадает. Чтобы этого избежать и иметь возможность дописывать в конец файла, необходимо вместо использовать символ "a".

In [25]:
with open("hello.txt", "a") as file:
    file.write("Hello, world!\n")

with open("hello.txt", "r") as file:
    print(file.read())

Hello, world!
Hello, world!



Помимо функции read(), которая позволяет считывать всю информацию из файла сразу, используется метод readlines(), который разбивает файл на строки и кладет их в список. Попробуем создать несколько файлов, и затем объединить их в один:

Для этого сначала изучим форматный вывод строк и метод join().

In [29]:
hello = "Hello! It`s me!"
name = "Jon"
question = "How are you?"

print("{} I know that your name is {}. {}".format(hello, name, question))

#но можно еще короче

print(f"{hello} I know that your name is {name}. {question}") #Это называется f-строка

Hello! It`s me! I know that your name is Jon. How are you?
Hello! It`s me! I know that your name is Jon. How are you?


In [33]:
list = "1,2,3,4,5,6,7,8,9".split(",")
print(" ".join(list))
print("|".join(list))
print("\n".join(list))


1 2 3 4 5 6 7 8 9
1|2|3|4|5|6|7|8|9
1
2
3
4
5
6
7
8
9


Теперь приступим:

In [36]:
for i in range(4):
    with open(f"a_{i}.txt", "w") as file:
    
    #запишем в каждый файл последовательность чисел от i до i + 4, т.е. при i=2

        file.write("\n".join([str(i + j) for j in range(4)]))
    
        #теперь присоединим эти файлы построчно, т.е. в i строке будет стоять конкатенация i-ых строк всех файлов
        #для этого удобно будет считывать строки из файла с помощью readlines

result = ["" for i in range(4)]
for i in range(4):
    with open(f"a_{i}.txt", "r") as file:
        lines = file.readlines()
    for j in range(4):
        
    #метод readlines оставляет символы перехода строки, поэтому нам нужно от них избавиться с помощью strip()
    
        result[j] += lines[j].strip("\n")
        result[j] += " "

with open("a.txt", "w") as file:
    file.write("\n".join(result))

with open("a.txt", "r") as file:
    print(file.read())

0 1 2 3 
1 2 3 4 
2 3 4 5 
3 4 5 6 


С помощью open() можно открывать не только текстовые файлы, но и файлы любого типа. Также, некоторые файлы необходимо открывать, добавив символ "b". Это означает, что мы вытаскиваем из файла не строку, а байты (например, прочитать файл побайтово - open(filename, "rb")).

### Csv-файлы

Очень популярным форматом хранения данных в сфере машинного обучения является csv - comma-separated values. В нем каждая строка файла символизирует строку в табличке, а значения внутри строки разделяются с помощью запятых.

Например, рассмотрим вот такую таблицу:

| Рост | Пол | Вес |
|------|-----|-----|
| 185  | М   | 83  |
| 163  | Ж   | 49  |
| 170  | Ж   | 57  |
| 179  | М   | 60  |

Первой строкой в файл записываются названия колонок, а потом идут непосредственно данные. То есть, в файле формата csv она бы выглядела вот так:


Рост,Пол,Вес<br>
185,М,83<br>
163,Ж,49<br>
170,Ж,57<br>
179,М,60<br>

Попробуем это сделать. С помощью open() создадим таблицу table.csv, и запишем туда данные.

In [4]:
data = [[185, "М", 83],
        [163, "Ж", 49],
        [170, "Ж", 57],
        [179, "М", 60]]

columns = ["Рост", "Пол", "Вес"]

with open("table.csv", "w") as file:
    
#сначала запишем названия колонок в файл

    file.write(",".join(columns))
    file.write("\n")
    
    #теперь добавим в файл все строки таблицы построчно

    for line in data:
        
    #сначала нужно превратить все данные в строки, так как write() работает только со строковым типом
    
        line = [str(x) for x in line]
        file.write(",".join(line))
        file.write("\n")

with open("table.csv", "r") as file:
    print(file.read())

Рост,Пол,Вес
185,М,83
163,Ж,49
170,Ж,57
179,М,60



Теперь сделаем наоборот: вытащим записанные в файл данные в список

Для считывания информации из csv таблицы удобно использовать метод readlines(), который разбивает файл на строки и кладет их в список.

In [2]:
with open("table.csv", "r") as file:
    lines = file.readlines()
    data = []
    
  #нужно использовать strip(), так как readlines не убирает символы перехода строки

    columns = lines[0].strip("\n").split(",")
    
    for line in lines[1:]:
        data.append(line.strip("\n").split(","))

print(*columns)
for row in data:
    print("   ".join(row))

Рост Пол Вес
185   М   83
163   Ж   49
170   Ж   57
179   М   60


Осталось превратить данные в столбцах Рост и Вес в числа.

In [5]:
for i in range(len(data)):
    data[i][0], data[i][2] = int(data[i][0]), int(data[i][2])

print(*data, sep = "\n")

[185, 'М', 83]
[163, 'Ж', 49]
[170, 'Ж', 57]
[179, 'М', 60]


### Json-файлы

Не всегда данные удобно представлять в табличном формате. Например, если есть информация о городах и ресторанах в них, то может быть удобно представить её в виде вложенных словарей такого вида:

```
{
  "Москва": {
    "White Rabbit": {
      "Средний чек, р.": 1500, 
      "Звезды Мишлен": 1
    },
    "Дичь": {
      "Средний чек, р.": 700
    }
  },
  "Санкт-Петербург": {
    "Хотдожная 8956": {
      "Средний чек, р.": 800,
      "Создатель": "Друг Обломов"
    },
    "Баклажан": {
      "Средний чек, р.": 1300
    }
  }
}
```

Для хранения данных в таком виде используется формат json. Он, например, очень часто используется для передачи информации между сайтами. Для работы с ним используется библиотека json, которая автоматически устанавливается вместе с python.

In [8]:
import json

In [10]:
data = {
  "Москва": {
    "White Rabbit": {
      "Средний чек, р.": 1500, 
      "Звезды Мишлен": 1
    },
    "Дичь": {
      "Средний чек, р.": 700
    }
  },
  "Санкт-Петербург": {
    "Хотдожная 8956": {
      "Средний чек, р.": 800,
      "Создатель": "Друг Обломов"
    },
    "Баклажан": {
      "Средний чек, р.": 1300
    }
  }
}

Для записи такого вложенного словаря в файл используется функция dump() из библиотеки json.

In [11]:
with open("data.json", "w") as file:
    json.dump(data, file)

Чтобы открыть записанный нами словарь, используется функция json.load().

In [13]:
with open("data.json", "r") as file:
    restaraunts_dict = json.load(file)

print(restaraunts_dict["Москва"]["White Rabbit"])

{'Средний чек, р.': 1500, 'Звезды Мишлен': 1}


Такой формат хранения данных удобен, если они имеют иерархическую структуру.

### Практика

#### 1.
Создать две csv таблицы. 
В одном случае для разделителя строк в таблице использовать точку с запятой, а в другом - переход на новую строку. 
Считать их из файлов, и затем сравнить поэлементно, получив таблицу со значениями True или False, где True в i-ой строке j-ом столбце означает, что элементы на этом месте в обоих изначальных табличках совпадают.

Создание таблиц:

In [26]:
columns = ["Рост", "Пол", "Вес"]

first_table = [[185, "М", 83],
               [163, "Ж", 49],
               [170, "Ж", 57],
               [179, "М", 60]]

second_table = [[185, "М", 78],
                [165, "Ж", 52],
                [170, "Ж", 57],
                [179, "Ж", 54]]

with open("table_1.csv", "w") as file:
    file.write(",".join(columns))
    file.write(";")
    lines = ";".join([",".join([str(x) for x in line]) for line in first_table])
    file.write(lines)

with open("table_2.csv", "w") as file:
    file.write(",".join(columns))
    file.write("\n")
    lines = "\n".join([",".join([str(x) for x in line]) for line in second_table])
    file.write(lines)
    
with open("table_1.csv", "r") as file:
    print(file.read())
    
with open("table_2.csv", "r") as file:
    print(file.read())

Рост,Пол,Вес;185,М,83;163,Ж,49;170,Ж,57;179,М,60
Рост,Пол,Вес
185,М,78
165,Ж,52
170,Ж,57
179,Ж,54


Считывание и сравнение:

In [28]:
tables_params = [("table_1.csv", ";"), ("table_2.csv", "\n")]
#в список tables положите на нулевую позицию данные первой таблицы, на вторую позицию - данные второй таблицы
#без названий колонок!
tables = []
for filename, sep in tables_params:
    with open(filename, "r") as file:
        raw_data = file.read()
        table_data = [x.split(",") for x in raw_data.split(sep)[1:]]
        tables.append(table_data)

for i in range(4):
    for j in range(3):
        print(tables[0][i][j] == tables[1][i][j], end=" ")
    print()

True True False 
False True False 
True True True 
True False False 


#### 2. 
Считать данные из файла "StudentsPerformance.csv" и найти среднее арифметическое всех баллов всех учеников.

In [52]:
with open("StudentsPerformance.csv", "r") as file:
    lines = file.readlines()
    summ = count = 0
    for s in lines[1:]:
        line = s.strip('\n').split(',')
        summ += sum([int(x) for x in line[5:]])
        count += 3
    print(summ/count)

67.77066666666667


#### 3. 
Считать данные из файла "StudentsPerformance.csv" и найти, сколько в датасете мальчиков.

In [58]:
with open("StudentsPerformance.csv", "r") as file:
    lines = file.readlines()
    summ = 0
    for s in lines[1:]:
        line = s.strip('\n').split(',')
        if line[0] == 'male':
            summ += 1 
    print(summ)

482


#### 4. 
Считать данные из файла "StudentsPerformance.csv" и найти, сколько абитуриентов получили на экзамене по колдовству (Charms score) оценку равную или ниже среднего арифметического.

In [70]:
education = []
with open("StudentsPerformance.csv", "r") as file:
    lines = file.readlines()
    summ = count = 0
    for s in lines[1:]:
        line = s.strip('\n').split(',')
        summ += int(line[5])
    avg = summ/1000
    
    for s in lines[1:]:
        line = s.strip('\n').split(',')
        if int(line[5]) <= avg:
            count += 1
print(count)
    

507
