# Работа с файлами

### 1. Разминка

kahoot.it

### 2. Закрепление пройденного

Дана матрица `matrix`. Теперь давайте её красиво распечатаем, используя вложенные циклы:

In [2]:
matrix = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [3]:
for i in range(len(matrix)):
    for j in range(len(matrix[i])):
        print(matrix[i][j], end=' ')
    print()

1 2 3 
4 5 6 
7 8 9 


#### Мы достаточно много говорили о переменных, и что они могут быть "изначально разными", но на практике этого не видели. Пришла пора.

Чтение происходит с помощью функции open(), которой необходимо передать строку с указанием имени файла, а точнее системного пути (подробнее см. далее):

In [5]:
f = open('text.txt', encoding='utf-8') # кодировка
text = f.read() 
f.close()

print(text)

Село Уклеево лежало в овраге, так что с шоссе и со станции железной дороги видны были только колокольня и трубы ситценабивных фабрик. Когда прохожие спрашивали, какое это село, то им говорили:
   -- Это то самое, где дьячок на похоронах всю икру съел.
   Как-то на поминках у фабриканта Костюкова старик-дьячок увидел среди закусок зернистую икру и стал есть ее с жадностью; его толкали, дергали за рукав, но он словно окоченел от наслаждения: ничего не чувствовал и только ел. Съел всю икру, а в банке было фунта четыре. И прошло уж много времени с тех пор, дьячок давно умер, а про икру всё помнили. Жизнь ли была так бедна здесь, или люди не умели подметить ничего, кроме этого неважного события, происшедшего десять лет назад, а только про село Уклеево ничего другого не рассказывали.
   В нем не переводилась лихорадка и была топкая грязь даже летом, особенно под заборами, над которыми сгибались старые вербы, дававшие широкую тень. Здесь всегда пахло фабричными отбросами и уксусной кислотой, 

*Обязательно нужно закрыть файл, это как помыть руки перед едой! Иначе другим программам операционная система может запретить доступ к этому файлу. Для того, чтобы не забывать закрывать файлы, придуман специальный блок-мойдодыр with, который сам закроет наш файл. Принято пользоваться именно им для работы с файлами.*

In [6]:
with open('text.txt', encoding='utf-8') as f:
    text = f.read()

Вместо того, чтобы прочесть файл в одну большую строку, включающую символы переноса строки, можно прочесть его в список отдельных строк:

In [7]:
with open('text.txt', encoding='utf-8') as f:
    lines = f.readlines()
    
print(lines[0])

Село Уклеево лежало в овраге, так что с шоссе и со станции железной дороги видны были только колокольня и трубы ситценабивных фабрик. Когда прохожие спрашивали, какое это село, то им говорили:



Может быть полезно читать файл по одной строке. Это можно сделать в цикле for:

In [8]:
lines = []

with open('text.txt', encoding='utf-8') as f:
    for line in f:
        lines.append(line)

#### Пути к файлам

Выше в вызове `open()` указывалось имя файла. В этом случае, питон ищет файл с соответствующим именем в той же папке, где была запущена программа. Что же делать, если требуется взять файл из другой папки?

В этом случае нужно указать путь к файлу: строку, разделённую символами `/`. Например, если нужно взять файл `text.txt`, лежащий в папке `folder`, находящейся в той же папке, где запущена программа, то необходимо написать open(`'folder/text.txt'`). Такие пути называются относительными.

Абсолютными называются пути, которые начинаются с имени тома (в Windows) или корневого каталога (в Unix подобных операционных системах). Например: `"C:/Users/Anna/Desktop/dimploma.txt"` (Windows) или `"/Users/anna/Desktop/diploma.txt"` (macOS).

Кроме того, частью относительного пути может быть специальная подстрока `..`, которая обозначает родительскую папку. В качестве примера рассмотрим следующее дерево файлов:

```
C:/
  Users/
    Irina/
       python_scripts/
         fix_grammar.py    <- Этот файл мы запускаем из этой папки
         example.txt
       Desktop/
         diploma.txt
    Yuri/
       Desktop/
         diploma.txt
```

Тогда, если необходимо запустить проверку файла example.txt, выполним:

`python fix_grammar.py example.txt`

`python fix_grammar.py C:/Users/Anna/python_scripts/example.txt`


------------

Если нужно открыть диплом Анны, то укажем:


`python fix_grammar.py ../Desktop/diploma.txt`

`python fix_grammar.py C:/Users/Anna/Desktop/diploma.txt`



------------

Диплом Юрия:

`python fix_grammar.py ../../Yuri/Desktop/diploma.txt`

`python fix_grammar.py C:/Users/Yuri/Desktop/diploma.txt`


## Немного практики:

#### 1. Чтение текста, предварительная его очистка, разделение на слова:

In [12]:
lines = []

with open("text.txt", 'r', encoding="utf-8") as f:
    for line in f:
        line = line.strip() # удаляем пробельные символы, в том числе перенос строки, сначала и сконца строки
        lines.append(line)

print(lines)

['Село Уклеево лежало в овраге, так что с шоссе и со станции железной дороги видны были только колокольня и трубы ситценабивных фабрик. Когда прохожие спрашивали, какое это село, то им говорили:', '--\xa0Это то самое, где дьячок на похоронах всю икру съел.', 'Как-то на поминках у фабриканта Костюкова старик-дьячок увидел среди закусок зернистую икру и стал есть ее с жадностью; его толкали, дергали за рукав, но он словно окоченел от наслаждения: ничего не чувствовал и только ел. Съел всю икру, а в банке было фунта четыре. И прошло уж много времени с тех пор, дьячок давно умер, а про икру всё помнили. Жизнь ли была так бедна здесь, или люди не умели подметить ничего, кроме этого неважного события, происшедшего десять лет назад, а только про село Уклеево ничего другого не рассказывали.', 'В нем не переводилась лихорадка и была топкая грязь даже летом, особенно под заборами, над которыми сгибались старые вербы, дававшие широкую тень. Здесь всегда пахло фабричными отбросами и уксусной кисло

Две проблемы:
    
* `\xa0` (неразрывный пробел)
* `''` в конце списка (почему?)

Задание: переделайте код выше, чтобы это исправить.

*Hint: `string.replace("\xa0", "")`*

#### 2. Чтение структурированных данных (например, tsv/csv)

In [19]:
with open("data.tsv", 'r', encoding="utf-8") as f:
    for line in f:
        print(line.split("\t"))

['АБДОМИНОПЛАСТИКА', '5390-N\n']


Как избавиться от `'\n'` в конце второго элемента?

Отлично, теперь давайте теперь положим слова в отдельный список, а идентификаторы -- в другой:

In [23]:
words = []
ids = []

with open("data.tsv", 'r', encoding="utf-8") as f:
    for line in f:
        word, _id = line.strip().split("\t")
        words.append(word)
        ids.append(_id)
        
print(words)
print(ids)

['АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБДОМИНОПЛАСТИКА', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АБСОРБЕНТ', 'АВАЛЬ', 'АВАЛЬ', 'АВАЛЬ', 'АВАЛЬ', 'АВАЛЬ', 'АВАЛЬ', 'АВАЛЬ', 'АВАЛЬ', 'АВАЛЬ', 'АВАЛЬ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АВТАРКИЯ', 'АГНОСТИК', 'АГНОСТИК', 'АГНОСТИК', 'АГНОСТИК', 'АГНОСТИК', 'АГНОСТИК', 'АГНОСТИК', 'АГНОСТИК', 'АГНОСТИК', 'АГНОСТИК']
['5390-N', '1064-N', '113873-N', '1047-N', '144594-N', '135045-N', '7529-N', '10123-N', '154733-N', '1065-N', '820-N', '1067-N', '3675-N', '5992-N', '147758-N', '111683-N', '3168-N', '107267-N', '8998-N', '4634-N', '1337-N', '150684-N', '1792-N', '6424-N', '124057-N', '1554-N', '1278-N', '1271-N', '150764-N', '6765-N', '833-N', '601-N', 

И снова проблемы:

1) привести слова к нижнему регистру

2) удалить повторяющиеся слова

3) * сделать список списков идентификаторов


In [24]:
# our code here

## HW-4

Домашнее задание -- в боте. Срок 22 ноября.
Gist: https://gist.github.com/Pandaklez/bf84245dcf28cfc7277ce3d56340b0e6