# **Работа с файлами**

## Типы файлов

+ структурированные (табличные): csv, txt, xsl и т.д.
+ неструктурированные (текст): doc, txt и т.д.

## Поиск пути к файлу

Функция `getcwd()` из модуля `os` возвращает нам путь к ваше рабочей папке. Так, например, в Windows по умолчанию Anaconda делает рабочей папкой для Jupyter папку пользователя в Users. Это можно изменить или глобально, прописав путь к вашей папке в свойствах, или локально в рамках сессии.

In [1]:
import os #библиотека которая занимается навигацией по компьютеру
os.getcwd()

'/Users/tatiana/Desktop/Files_11.03'

Метод `.listdir()` вернет нам список содержимого директории. Очень полезная функция - можно запустить цикл, если нужно обработать все файлы в папке.

In [12]:
os.listdir('')

['task1.txt',
 '.DS_Store',
 'task3.tsv',
 'task2.csv',
 'files.ipynb',
 'example.txt',
 '.ipynb_checkpoints']

In [13]:
[i for i in os.listdir(os.getcwd()) if '.txt' in i]

['task1.txt', 'example.txt']

In [43]:
list(os.walk('/Users/tatiana/Desktop/'))

[('/Users/tatiana/Desktop/',
  ['Yaroslavl',
   'bus_dubl_y',
   'Статистика',
   'electrocars',
   'Files_11.03',
   't2',
   'MT_UoL_205_Surname',
   '.ipynb_checkpoints',
   'MT_UoL_206_Surname',
   'Безбилетнки'],
  ['4:5 разделы.docx',
   'Книга19.xlsx',
   'круизы.xlsx',
   'busline.xlsx',
   'Снимок экрана 2023-02-14 в 20.44.17.png',
   'Журнал 2019 (Владивосток).xlsx',
   '~$E_Транспорт_блок_v1.2.pptx',
   'Снимок экрана 2023-02-28 в 19.39.47.png',
   'ptline.xlsx',
   'Камчатка_27-04-2022_19-48-30.csv',
   'Снимок экрана 2023-02-13 в 22.13.46.png',
   'оценка удобства пересадки.pptx',
   'Снимок экрана 2023-02-10 в 21.00.50.png',
   'Снимок экрана 2023-03-02 в 22.51.10.png',
   'Снимок экрана 2023-03-04 в 20.47.30.png',
   'Снимок экрана 2023-02-11 в 14.37.28.png',
   'Протокол комиссии_Шарипова С.С._Анализ данных (1).xlsx',
   'Снимок экрана 2023-03-07 в 19.57.08.png',
   'time_v2.xls',
   'Fj79zRSXEAAL4Mn.jpeg',
   'g1.xlsx',
   'Снимок экрана 2023-02-18 в 00.20.26.png',
   

## Функция `open()`

```python
open('путь к файлу/название файла.расширение', mode = 'режим', encoding = 'кодировка')
```

**Расширения** с которыми работает функция `open()`:
+ .txt
+ .csv
+ .tsv
+ .html
+ .xlsx
+ .pdf 
+ и д.р.

**Режими** работы с файлами, которые можно использовать с функцией `open()`:
+ `mode='r'` — _read,  **чтение**_. При отсутствии указанного файла выдается ошибка. Это режим по умолчанию
+ `mode='w'` — _write, **запись**_. При отсутствии указанного файла создается новый. При наличии файла содержимое перезаписывается
+ `mode='a'` — _append, **дозапись**_. При отсутствии указанного файла создается новый. При наличии файла новое содержимое дозаписывается после имеющегося
+ и д.р.

**Кодировки** файлов:
+ utf-8
+ latin-1
+ ISO-8859-5
+ dos
+ и д.р.

## Открытие файла

Функция `open()` возвращает файловый объект

Такой объект называется file handle или дескриптор файла

In [17]:
f = open('example.txt')
f

<_io.TextIOWrapper name='example.txt' mode='r' encoding='UTF-8'>

```
<<служебная информация> name='название файла.расширение' mode='режим' encoding='кодировка'>
```

## Чтение файла

In [3]:
f = open('example.txt')
print(f.read())
f.close()

1 one
2 two
3 three
4 four
5 five
6 six
7 seven
8 eight


После того как файл закрыт читать его уже нельзя

In [20]:
f.read()

ValueError: I/O operation on closed file.

## Оптимальная работа с файлами

Хорошим тоном при работе с файлами считается открывать их с помощью ключевого слова `with`. Преимущество этого способа в том, что файл закроется автоматически, когда закончатся вложенные операции.

```python
with open('путь к файлу/название.расширение', mode = 'режим', encoding = 'кодировка') as <псеводним файла>:
  ...
```

### Чтение файла

In [5]:
with open('example.txt', encoding = 'utf-8') as infile:
    read_data = infile.read()

In [6]:
print(read_data)

1 one
2 two
3 three
4 four
5 five
6 six
7 seven
8 eight


## Построчное чтение файла `mode = 'r'`

### `.readline()`

In [7]:
f = open('example.txt', encoding = 'utf-8')
f.readline()

'1 one\n'

In [8]:
f.readline()

'2 two\n'

In [31]:
f.readline()

'3 three\n'

In [32]:
f.close()

### через `for`

```python
with open('путь к файлу', mode = 'режим', encoding = 'кодировка') as <псеводним файла>:
  for <строчка> in <псеводним файла>:
    print(<строчка>)
```

In [12]:
s = '_one '
s.strip('_').strip()

'one'

In [14]:
s = '_one_'
s.lstrip('_')


'one_'

In [None]:
s = '_one_'
s.lstrip('_')

In [16]:
s = 'h kfijd fo'
s.replace(' ', '')

'hkfijdfo'

In [19]:
with open('example.txt', encoding = 'utf-8') as infile:
    for l in infile:
        print(l.rstrip('\n'))

1 one
2 two
3 three
4 four
5 five
6 six
7 seven
8 eight


## Извлечение информации из файла

In [21]:
k = 0
ks = ''
with open('example.txt', mode = 'r', encoding = 'utf-8') as infile:
    for l in infile:
        s = l.strip().split()
        k+=int(s[0])
        ks+=s[1]+ ' '
print(k)
print(ks)

36
one two three four five six seven eight 


## Создание нового файла `mode = 'w'`

```python
with open('путь/название файла.расширение', mode = 'w', encoding = 'кодировка') as <псеводним файла>:
  print(<то что хотим записать в файл>, file=<псеводним файла>)
```

In [22]:
with open('example_writing.txt', mode = 'w', encoding = 'utf-8') as outfile:
    print(k, file=outfile)

In [None]:
'/Users/tatiana/Downloads/example_writing.txt'

## Дозаписываем в файла `mode = 'a'`

```python
with open('путь/название файла.расширение', mode = 'a', encoding = 'кодировка') as <псеводним файла>:
  print(<то что хотим записать в файл>, file=<псеводним файла>)
```

In [25]:
with open('example_writing.txt', mode = 'a', encoding = 'utf-8') as outfile:
  print(ks, file=outfile)

In [None]:
with open('example_writing2.txt', mode = 'w', encoding = 'utf-8') as outfile:
  print(ks, file=outfile)

## Практика

### Задание 1

Посчитайте частотность отправленных писем по часам **mbox.txt**

In [33]:
d = {}
with open('mbox.txt', mode = 'r', encoding = 'utf-8') as infile:
    for l in infile:
        if l.startswith('Date: ') and l.endswith(')\n'):
            l = l.split()[2][:2]
            if l in d:
                d[l]+=1
            else:
                d[l]=1
print(d)
        

{'09': 164, '18': 52, '16': 165, '15': 178, '14': 152, '11': 149, '10': 183, '07': 41, '06': 45, '04': 25, '19': 48, '17': 96, '13': 119, '12': 109, '08': 78, '05': 11, '03': 17, '02': 13, '20': 29, '22': 29, '21': 37, '00': 24, '23': 16, '01': 10}


### Задание 2

Посчитайте частотность слов в текстовом файле **oblomov.txt** (без учета стоп-слов и знаков пунктуации)

Стоп-слова и символы пунктуации можно получить из модуля `nltk`

In [41]:
import nltk

from string import punctuation

punct = str(punctuation)
print(punct)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [None]:
punct.append('')

In [44]:
import re
k = 'kfdjlkgfjb;lfj4,]'
punct_re = '[%s]+'% re.escape(punct) #функция экранирования специальных символов
a = re.sub(punct_re, '', k)
a

'kfdjlkgfjblfj4'

In [98]:
punct_re

'[!"\\#\\$%\\&\'\\(\\)\\*\\+,\\-\\./:;<=>\\?@\\[\\\\\\]\\^_`\\{\\|\\}\\~]+'

In [47]:
from nltk.corpus import stopwords

stops = set(stopwords.words('russian'))
print(stops)

{'уж', 'здесь', 'конечно', 'совсем', 'теперь', 'их', 'на', 'один', 'почти', 'его', 'том', 'быть', 'вы', 'много', 'нас', 'может', 'ней', 'ей', 'два', 'через', 'меня', 'об', 'еще', 'был', 'этом', 'тебя', 'этого', 'другой', 'иногда', 'ведь', 'нибудь', 'они', 'между', 'не', 'чуть', 'даже', 'куда', 'до', 'вот', 'то', 'а', 'при', 'ж', 'такой', 'будто', 'ни', 'нее', 'хоть', 'моя', 'чтобы', 'надо', 'было', 'за', 'со', 'ли', 'у', 'тоже', 'все', 'она', 'была', 'чем', 'раз', 'того', 'ему', 'или', 'него', 'для', 'зачем', 'там', 'вам', 'о', 'вас', 'какая', 'где', 'эти', 'наконец', 'больше', 'нельзя', 'когда', 'я', 'более', 'после', 'без', 'тем', 'же', 'потом', 'кто', 'мой', 'им', 'этой', 'нет', 'и', 'чтоб', 'мне', 'во', 'что', 'перед', 'тогда', 'потому', 'от', 'всю', 'тот', 'лучше', 'он', 'всего', 'но', 'из', 'какой', 'над', 'опять', 'сейчас', 'с', 'про', 'да', 'чего', 'есть', 'ним', 'были', 'впрочем', 'три', 'тут', 'только', 'ну', 'хорошо', 'себя', 'разве', 'эту', 'бы', 'так', 'ее', 'будет', 'себе

In [54]:
stops_norm = set([morph.parse(word)[0].normal_form for word in stops])
stops_norm

{'а',
 'без',
 'более',
 'большой',
 'будто',
 'бы',
 'быть',
 'в',
 'вдруг',
 'ведь',
 'весь',
 'вот',
 'впрочем',
 'всегда',
 'всё',
 'вы',
 'где',
 'да',
 'даже',
 'два',
 'для',
 'до',
 'другой',
 'если',
 'есть',
 'ещё',
 'ж',
 'же',
 'за',
 'зачем',
 'здесь',
 'и',
 'из',
 'или',
 'иногда',
 'к',
 'как',
 'какой',
 'когда',
 'конечно',
 'кто',
 'куда',
 'ли',
 'между',
 'много',
 'можно',
 'мой',
 'мочь',
 'мы',
 'на',
 'над',
 'надо',
 'наконец',
 'не',
 'нельзя',
 'нет',
 'ни',
 'нибыть',
 'никогда',
 'ничего',
 'но',
 'ну',
 'о',
 'один',
 'он',
 'она',
 'они',
 'опять',
 'от',
 'перед',
 'по',
 'под',
 'после',
 'потом',
 'потому',
 'почти',
 'при',
 'про',
 'раз',
 'разве',
 'с',
 'сам',
 'свой',
 'себя',
 'сейчас',
 'совсем',
 'так',
 'такой',
 'там',
 'тем',
 'теперь',
 'то',
 'тогда',
 'тоже',
 'только',
 'тот',
 'три',
 'тут',
 'ты',
 'у',
 'уж',
 'уже',
 'хороший',
 'хорошо',
 'хоть',
 'чем',
 'через',
 'что',
 'чтоб',
 'чтобы',
 'чуть',
 'это',
 'этот',
 'я'}

Еще вам понадобится преобразовать слова в начальную форму, чтобы условное слово "корова" и "коровы" считалось как одно. Для этого вам понадобится модуль `pymorphy2`

In [39]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

#word = "коровы"
word = "стали"
p = morph.parse(word)[1]
print(p.normal_form)

сталь


In [38]:
morph.parse(word)

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.975342, methods_stack=((DictionaryAnalyzer(), 'стали', 945, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.010958, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.005479, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 9),))]

In [106]:
morph.parse(word)[0].normal_form

'корова'

1. Создадим пустой словарь, куда записываем слова и частотность
2. Открываем файл в режиме чтения
3. Считываем файл построчно
4. Делаем всю строку в одном регистре
5. Удаляем пунктуацию
6. Приведение слова к начальной форме
6. Удаляем стоп-слова (из лематизированного)
8. Записываем слово и его частоту в словарь

In [52]:
"это" in stops 

False

In [56]:
import re
d = {}
with open('oblomov.txt', mode = 'r', encoding = 'utf-8') as infile:
    for l in infile:
        l = l.lower()
        l = re.sub(punct_re, '', l)
        l = [morph.parse(word)[0].normal_form for word in l.split()]
        l = [word for word in l if word not in stops_norm]
        for i in l:
            if i in d:
                d[i]+=1
            else:
                d[i]=1
print(d)

{'гороховый': 1, 'улица': 1, 'больший': 2, 'дом': 15, 'народонаселение': 1, 'который': 16, 'стать': 8, 'целый': 4, 'уездный': 1, 'город': 1, 'лежать': 14, 'утром': 2, 'постель': 6, 'квартира': 7, 'илья': 25, 'ильич': 25, 'обломов': 34, 'человек': 7, 'год': 5, 'тридцать': 1, 'двухтреха': 1, 'род': 3, 'среднее': 1, 'рост': 1, 'приятный': 2, 'наружность': 1, 'тёмно-серый': 1, 'глаз': 6, 'отсутствие': 1, 'всякий': 7, 'определённый': 2, 'идея': 2, 'сосредоточенность': 1, 'черта': 2, 'лицо': 15, 'мысль': 2, 'гулять': 1, 'вольный': 1, 'птица': 3, 'порхать': 1, 'садиться': 1, 'полуотворить': 1, 'губа': 1, 'прятаться': 1, 'складка': 3, 'лоб': 3, 'пропадать': 1, 'теплиться': 1, 'ровный': 1, 'свет': 2, 'беспечность': 2, 'переходить': 2, 'поза': 1, 'тело': 5, 'шлафрок': 1, 'взгляд': 4, 'помрачаться': 1, 'выражение': 2, 'усталость': 2, 'скука': 2, 'минута': 4, 'согнать': 1, 'мягкость': 2, 'господствующий': 2, 'основный': 1, 'душа': 4, 'открыто': 1, 'ясно': 1, 'светиться': 1, 'улыбка': 2, 'каждый': 

8. Отсортируем словарь по значениям по возрастанию

In [62]:
sorted_tuple = sorted(d.items(), key = lambda x: x[1], reverse = True)
sorted_tuple

[('—', 208),
 ('захар', 51),
 ('обломов', 34),
 ('илья', 25),
 ('ильич', 25),
 ('сказать', 24),
 ('говорить', 19),
 ('который', 16),
 ('дом', 15),
 ('лицо', 15),
 ('лежать', 14),
 ('письмо', 12),
 ('барин', 12),
 ('видеть', 10),
 ('встать', 9),
 ('знать', 9),
 ('стать', 8),
 ('комната', 8),
 ('кабинет', 8),
 ('дело', 8),
 ('староста', 8),
 ('вон', 8),
 ('квартира', 7),
 ('человек', 7),
 ('всякий', 7),
 ('рука', 7),
 ('убрать', 7),
 ('пыль', 7),
 ('думать', 7),
 ('бог', 7),
 ('уйти', 7),
 ('постель', 6),
 ('глаз', 6),
 ('день', 6),
 ('стоять', 6),
 ('деревня', 6),
 ('сторона', 6),
 ('спросить', 6),
 ('год', 5),
 ('тело', 5),
 ('казаться', 5),
 ('немой', 5),
 ('халат', 5),
 ('широкий', 5),
 ('нога', 5),
 ('диван', 5),
 ('картина', 5),
 ('убирать', 5),
 ('слуга', 5),
 ('стена', 5),
 ('стол', 5),
 ('подумать', 5),
 ('давно', 5),
 ('чай', 5),
 ('сделать', 5),
 ('серый', 5),
 ('сюртук', 5),
 ('старый', 5),
 ('платок', 5),
 ('неделя', 5),
 ('клоп', 5),
 ('набраться', 5),
 ('готовый', 5),
 ('ц

In [61]:
list(d.items())[0][1]

1

9. Создадим файл, куда запишем таблицу-частотности в следующем форморате:

('слово', частота) 

Каждое на новой строке

In [65]:
with open('frq_oblomov.txt', mode = 'w', encoding = 'utf-8') as outfile:
    print(*sorted_tuple, file = outfile, sep = '\n')

### Задание 3

Вам предоставили список людей, которые подали заявку на получение Пушкинской карты (**task2.csv**). Условием получения Пушкинской карты является возраст от 14 до 22 лет (2001-2007), включительно, и наличие гражданства РФ. Напишите программу, которая записывает в новый файл все строки, которые соответствуют людям из определенного города которые могут получить Пушкинскую карту.

Итоговый файл должен называться: **pk_list_ГОРОД.csv**

In [74]:
city = input()
lst = []

with open('task2.csv', mode = 'r', encoding = 'utf-8') as infile:
    for l in infile:
        s = l.strip().split(',')
        if s[-1] == city and s[-2] == 'RU' and int(s[1][-4:]) in range(2001, 2008):
            lst.append(l.strip())

with open(f'pk_list_{city}.csv', mode = 'w', encoding = 'utf-8') as outfile:
    print(*lst, file = outfile, sep = '\n')

Москва


Посчитайте сколько людей из каждого города могут получить Пушкинскую карту

### Задание 4

Нужно сделать подборку лучших упражнений (рейтинг не меньше 8.5) для спины (в описании есть слово "спины")из тех которые доступны в приложении для определенного уровня сложности и оборудования. Информация о всех упражнениях хранится в файле в формате **task3.tsv**.


На каждой строке записана следующая информация об упражнении: Название, Тип, Часть тела, Оборудование, Уровень сложности, Рейтинг. 

*Например, "Barbell roll-out,Сила,Средняя часть спины,Штанга,Эксперт,9.8"*

Посчитайте средний рейтинг всех упражнений из приложения

## Try except

Почти наверняка вы уже делали что-то, что приводило к сообщению об ошибке. Сегодня мы научимся их обрабатывать и писать собственные исключения - наши инструкции для Python, чтобы код не ломался, как только что-то пойдет не так.

Например, мы хотим открывать файл по запросу от пользователя, но хотим обработать случай, когда пользователь введет неправильное название.

In [137]:
fname = input('Введите название файла: ')
fhand = open(fname) # введем название несуществующего файла

Введите название файла: filefile


FileNotFoundError: [Errno 2] No such file or directory: 'filefile'

Напишем блок `try`/`except`. Try будет исполняться до тех пор, пока что-то не сломается. Как только возникнет ошибка, ваша программа перейдет в часть `except` и выполнит действие, описанное в ней. Сообщения об ошибке выведено не будет.

In [140]:
name = input()

try:
    with open(name) as infile:
        for l in infile:
            print(l)
except:
    print('Файл не найден')

example.txt
1 one

2 two

3 three

4 four

5 five

6 six

7 seven

8 eight


Mожно не ломать код из-за ошибки, а просто продолжать его выполнять:
``` python
try:
    <инструкция>
except:
    pass


In [141]:
with open('tryexpect.txt') as infile:
        for l in infile:
            print(l)

1

one

two

3

4

5

six

seven

eight


In [148]:
s = 0
with open('tryexpect.txt') as infile:
        for l in infile:
            s+=int(l.strip())
print(s)           

ValueError: invalid literal for int() with base 10: 'one'

In [147]:
s = 0
with open('tryexpect.txt') as infile:
        for l in infile:
            try:
                s+=int(l.strip())
            except:
                pass
print(s)

13


Но что делать, если мы хотим пропускать только определенный вид ошибок, но видеть сообщения об остальных? Try/except хороший инструмент для отладки кода. Давайте посмотрим, как называется ошибка при попытке вызова неопределенной переменной.

In [149]:
print(y)

NameError: name 'y' is not defined

Чтобы прописать инструкцию для конретного типа ошибок:

```python
try:
    <инструкция>
except <тип ошибки>:
    <инструкция>
```

In [None]:
try:
    print(y)
except NameError:
    print("Variable y is not defined")
except:
    print("Something else went wrong")

Иногда вам может понадобиться создавать свои исключения - персонализированные сообщения об ошибке, которые валидны только для вашей программы. Сделать это можно с помощью `raise Exception(<Ваше сообщение>)`

In [151]:
x = -1

if x < 0:
    raise Exception("Число не может быть отрицательным")

TypeError: exceptions must derive from BaseException

In [152]:
x = "hello"

if not type(x) is int:
    raise TypeError("Only integers are allowed")

TypeError: Only integers are allowed

## Указание типов в Python

In [130]:
import typing #содержит описание всех типов данных

In [131]:
x:int =1

In [132]:
x = 'fhshl'

In [133]:
x

'fhshl'

Если вы разметили все данные, то можно запустить линтер (специальный инструмент) по коду, который проверит, что тип данных соответствует указанаому, и не нужно будет выискивать, где вы допустили ошибку

Добавим к строке отступ:

In [None]:
def indent_right(s:str, amount:int) -> str:
    return " " * max(0, amount) + s

Описание с учетом None

In [134]:
from typing import Optional #для учета None

In [136]:
amount: int
amount = None #В переменную передан None, а должено быть целое число

In [None]:
price: Optianal[int]
price = None #Вот теперь мы учли случай, когда не только int, но и None