# **Работа с файлами**

## Типы файлов

+ структурированные (табличные): csv, txt, xsl и т.д.
+ неструктурированные (текст): doc, txt и т.д.

## Поиск пути к файлу

Функция `getcwd()` из модуля `os` возвращает нам путь к ваше рабочей папке. Так, например, в Windows по умолчанию Anaconda делает рабочей папкой для Jupyter папку пользователя в Users. Это можно изменить или глобально, прописав путь к вашей папке в свойствах, или локально в рамках сессии.

In [1]:
import os #библиотека которая занимается навигацией по компьютеру
os.getcwd()

'/Users/tatiana/Desktop/Files_11.03'

Метод `.listdir()` вернет нам список содержимого директории. Очень полезная функция - можно запустить цикл, если нужно обработать все файлы в папке.

In [12]:
os.listdir(os.getcwd())

['task1.txt',
 '.DS_Store',
 'task3.tsv',
 'task2.csv',
 'files.ipynb',
 'example.txt',
 '.ipynb_checkpoints']

In [13]:
[i for i in os.listdir(os.getcwd()) if '.txt' in i]

['task1.txt', 'example.txt']

In [43]:
list(os.walk('/Users/tatiana/Desktop/'))

[('/Users/tatiana/Desktop/',
  ['Yaroslavl',
   'bus_dubl_y',
   'Статистика',
   'electrocars',
   'Files_11.03',
   't2',
   'MT_UoL_205_Surname',
   '.ipynb_checkpoints',
   'MT_UoL_206_Surname',
   'Безбилетнки'],
  ['4:5 разделы.docx',
   'Книга19.xlsx',
   'круизы.xlsx',
   'busline.xlsx',
   'Снимок экрана 2023-02-14 в 20.44.17.png',
   'Журнал 2019 (Владивосток).xlsx',
   '~$E_Транспорт_блок_v1.2.pptx',
   'Снимок экрана 2023-02-28 в 19.39.47.png',
   'ptline.xlsx',
   'Камчатка_27-04-2022_19-48-30.csv',
   'Снимок экрана 2023-02-13 в 22.13.46.png',
   'оценка удобства пересадки.pptx',
   'Снимок экрана 2023-02-10 в 21.00.50.png',
   'Снимок экрана 2023-03-02 в 22.51.10.png',
   'Снимок экрана 2023-03-04 в 20.47.30.png',
   'Снимок экрана 2023-02-11 в 14.37.28.png',
   'Протокол комиссии_Шарипова С.С._Анализ данных (1).xlsx',
   'Снимок экрана 2023-03-07 в 19.57.08.png',
   'time_v2.xls',
   'Fj79zRSXEAAL4Mn.jpeg',
   'g1.xlsx',
   'Снимок экрана 2023-02-18 в 00.20.26.png',
   

## Функция `open()`

```python
open('путь к файлу/название файла.расширение', mode = 'режим', encoding = 'кодировка')
```

**Расширения** с которыми работает функция `open()`:
+ .txt
+ .csv
+ .tsv
+ .html
+ .xlsx
+ .pdf 
+ и д.р.

**Режими** работы с файлами, которые можно использовать с функцией `open()`:
+ `mode='r'` — _read,  **чтение**_. При отсутствии указанного файла выдается ошибка. Это режим по умолчанию
+ `mode='w'` — _write, **запись**_. При отсутствии указанного файла создается новый. При наличии файла содержимое перезаписывается
+ `mode='a'` — _append, **дозапись**_. При отсутствии указанного файла создается новый. При наличии файла новое содержимое дозаписывается после имеющегося
+ и д.р.

**Кодировки** файлов:
+ utf-8
+ latin-1
+ ISO-8859-5
+ dos
+ и д.р.

## Открытие файла

Функция `open()` возвращает файловый объект

Такой объект называется file handle или дескриптор файла

In [17]:
f = open('example.txt')
f

<_io.TextIOWrapper name='example.txt' mode='r' encoding='UTF-8'>

```
<<служебная информация> name='название файла.расширение' mode='режим' encoding='кодировка'>
```

## Чтение файла

In [19]:
f = open('example.txt')
print(f.read())
f.close()

1 one
2 two
3 three



После того как файл закрыт читать его уже нельзя

In [20]:
f.read()

ValueError: I/O operation on closed file.

## Оптимальная работа с файлами

Хорошим тоном при работе с файлами считается открывать их с помощью ключевого слова `with`. Преимущество этого способа в том, что файл закроется автоматически, когда закончатся вложенные операции.

```python
with open('путь к файлу/название.расширение', mode = 'режим', encoding = 'кодировка') as <псеводним файла>:
  ...
```

### Чтение файла

In [21]:
with open('example.txt', encoding = 'utf-8') as infile:
    read_data = infile.read()

In [23]:
print(read_data)

1 one
2 two
3 three



## Построчное чтение файла `mode = 'r'`

### `.readline()`

In [29]:
f = open('example.txt', encoding = 'utf-8')
f.readline()

'1 one\n'

In [30]:
f.readline()

'2 two\n'

In [31]:
f.readline()

'3 three\n'

In [32]:
f.close()

### через `for`

```python
with open('путь к файлу', mode = 'режим', encoding = 'кодировка') as <псеводним файла>:
  for <строчка> in <псеводним файла>:
    print(<строчка>)
```

In [39]:
with open('example.txt', mode = 'r', encoding = 'utf-8') as infile:
    for l in infile:
        print(l.rstrip('\n'))

1 one
2 two
3 three
4 four
5 five
6 six
7 seven
8 eight


## Извлечение информации из файла

In [44]:
k = 0
ks = ''
with open('example.txt', mode = 'r', encoding = 'utf-8') as infile:
    for l in infile:
        s = l.strip().split()
        k+=int(s[0])
        ks+=s[1]+ ' '
print(k)
print(ks)

36
one two three four five six seven eight 


## Создание нового файла `mode = 'w'`

```python
with open('путь/название файла.расширение', mode = 'w', encoding = 'кодировка') as <псеводним файла>:
  print(<то что хотим записать в файл>, file=<псеводним файла>)
```

In [45]:
with open('example_writing.txt', mode = 'w', encoding = 'utf-8') as outfile:
  print(k, file=outfile)

## Дозаписываем в файла `mode = 'a'`

```python
with open('путь/название файла.расширение', mode = 'a', encoding = 'кодировка') as <псеводним файла>:
  print(<то что хотим записать в файл>, file=<псеводним файла>)
```

In [46]:
with open('example_writing.txt', mode = 'a', encoding = 'utf-8') as outfile:
  print(ks, file=outfile)

## Практика

### Задание 1

Посчитайте частотность отправленных писем по часам **mbox.txt**

### Задание 2

Посчитайте частотность слов в текстовом файле **oblomov.txt** (без учета стоп-слов и знаков пунктуации)

Стоп-слова и символы пунктуации можно получить из модуля `nltk`

In [87]:
import nltk

from string import punctuation

punct = str(punctuation)
print(punct)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [96]:
import re
k = 'kfdjlkgfjb;lfj4,]'
punct_re = '[%s]+'% re.escape(punct) #функция экранирования специальных символов
a = re.sub(b, '', k)
a

'kfdjlkgfjblfj4'

In [98]:
punct_re

'[!"\\#\\$%\\&\'\\(\\)\\*\\+,\\-\\./:;<=>\\?@\\[\\\\\\]\\^_`\\{\\|\\}\\~]+'

In [80]:
from nltk.corpus import stopwords

stops = set(stopwords.words('russian'))
print(stops)

{'нее', 'чем', 'же', 'можно', 'сам', 'какая', 'тоже', 'в', 'есть', 'когда', 'вдруг', 'его', 'где', 'впрочем', 'нас', 'зачем', 'вам', 'над', 'чтоб', 'к', 'без', 'один', 'за', 'может', 'него', 'но', 'тебя', 'быть', 'ж', 'себе', 'потому', 'ему', 'чуть', 'ни', 'ведь', 'по', 'уж', 'наконец', 'перед', 'на', 'до', 'потом', 'было', 'из', 'с', 'ним', 'иногда', 'этой', 'три', 'том', 'меня', 'теперь', 'этого', 'себя', 'нет', 'а', 'да', 'если', 'тогда', 'во', 'здесь', 'эти', 'между', 'то', 'была', 'я', 'их', 'два', 'от', 'еще', 'вас', 'у', 'или', 'более', 'уже', 'конечно', 'даже', 'тут', 'будто', 'под', 'после', 'нибудь', 'для', 'свою', 'все', 'лучше', 'куда', 'ней', 'не', 'ты', 'хоть', 'нельзя', 'он', 'ее', 'были', 'кто', 'совсем', 'через', 'этом', 'больше', 'был', 'сейчас', 'при', 'что', 'они', 'мы', 'опять', 'хорошо', 'о', 'ли', 'эту', 'там', 'чего', 'моя', 'как', 'тем', 'всех', 'ничего', 'про', 'со', 'ей', 'такой', 'она', 'надо', 'вот', 'и', 'ну', 'того', 'бы', 'им', 'всегда', 'всю', 'разве', 

Еще вам понадобится преобразовать слова в начальную форму, чтобы условное слово "корова" и "коровы" считалось как одно. Для этого вам понадобится модуль `pymorphy2`

In [75]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

word = "коровы"
#word = "стали"
p = morph.parse(word)[0]
print(p.normal_form)

корова


In [74]:
morph.parse(word)

[Parse(word='коровы', tag=OpencorporaTag('NOUN,anim,femn sing,gent'), normal_form='корова', score=0.5, methods_stack=((DictionaryAnalyzer(), 'коровы', 53, 1),)),
 Parse(word='коровы', tag=OpencorporaTag('NOUN,anim,femn plur,nomn'), normal_form='корова', score=0.5, methods_stack=((DictionaryAnalyzer(), 'коровы', 53, 7),))]

In [106]:
morph.parse(word)[0].normal_form

'корова'

1. Создадим пустой словарь, куда записываем слова и частотность
2. Открываем файл в режиме чтения
3. Считываем файл построчно
4. Делаем всю строку в одном регистре
5. Удаляем пунктуацию
6. Удаляем стоп-слова
7. Записываем слово и его частоту в словарь

8. Отсортируем словарь по значениям по возрастанию

9. Создадим файл, куда запишем таблицу-частотности в следующем форморате:

('слово', частота) 

Каждое на новой строке

### Задание 3

Вам предоставили список людей, которые подали заявку на получение Пушкинской карты (**task2.csv**). Условием получения Пушкинской карты является возраст от 14 до 22 лет (2001-2007), включительно, и наличие гражданства РФ. Напишите программу, которая записывает в новый файл все строки, которые соответствуют людям из определенного города которые могут получить Пушкинскую карту.

Итоговый файл должен называться: **pk_list_ГОРОД.csv**

Посчитайте сколько людей из каждого города могут получить Пушкинскую карту

### Задание 4

Нужно сделать подборку лучших упражнений (рейтинг не меньше 8.5) для спины (в описании есть слово "спины")из тех которые доступны в приложении для определенного уровня сложности и оборудования. Информация о всех упражнениях хранится в файле в формате **task3.tsv**.


На каждой строке записана следующая информация об упражнении: Название, Тип, Часть тела, Оборудование, Уровень сложности, Рейтинг. 

*Например, "Barbell roll-out,Сила,Средняя часть спины,Штанга,Эксперт,9.8"*

Посчитайте средний рейтинг всех упражнений из приложения

## Try except

Почти наверняка вы уже делали что-то, что приводило к сообщению об ошибке. Сегодня мы научимся их обрабатывать и писать собственные исключения - наши инструкции для Python, чтобы код не ломался, как только что-то пойдет не так.

Например, мы хотим открывать файл по запросу от пользователя, но хотим обработать случай, когда пользователь введет неправильное название.

In [137]:
fname = input('Введите название файла: ')
fhand = open(fname) # введем название несуществующего файла

Введите название файла: filefile


FileNotFoundError: [Errno 2] No such file or directory: 'filefile'

Напишем блок `try`/`except`. Try будет исполняться до тех пор, пока что-то не сломается. Как только возникнет ошибка, ваша программа перейдет в часть `except` и выполнит действие, описанное в ней. Сообщения об ошибке выведено не будет.

In [140]:
name = input()

try:
    with open(name) as infile:
        for l in infile:
            print(l)
except:
    print('Файл не найден')

example.txt
1 one

2 two

3 three

4 four

5 five

6 six

7 seven

8 eight


Mожно не ломать код из-за ошибки, а просто продолжать его выполнять:
``` python
try:
    <инструкция>
except:
    pass


In [141]:
with open('tryexpect.txt') as infile:
        for l in infile:
            print(l)

1

one

two

3

4

5

six

seven

eight


In [148]:
s = 0
with open('tryexpect.txt') as infile:
        for l in infile:
            s+=int(l.strip())
print(s)           

ValueError: invalid literal for int() with base 10: 'one'

In [147]:
s = 0
with open('tryexpect.txt') as infile:
        for l in infile:
            try:
                s+=int(l.strip())
            except:
                pass
print(s)

13


Но что делать, если мы хотим пропускать только определенный вид ошибок, но видеть сообщения об остальных? Try/except хороший инструмент для отладки кода. Давайте посмотрим, как называется ошибка при попытке вызова неопределенной переменной.

In [149]:
print(y)

NameError: name 'y' is not defined

Чтобы прописать инструкцию для конретного типа ошибок:

```python
try:
    <инструкция>
except <тип ошибки>:
    <инструкция>
```

In [None]:
try:
    print(y)
except NameError:
    print("Variable y is not defined")
except:
    print("Something else went wrong")

Иногда вам может понадобиться создавать свои исключения - персонализированные сообщения об ошибке, которые валидны только для вашей программы. Сделать это можно с помощью `raise Exception(<Ваше сообщение>)`

In [151]:
x = -1

if x < 0:
    raise Exception("Число не может быть отрицательным")

TypeError: exceptions must derive from BaseException

In [152]:
x = "hello"

if not type(x) is int:
    raise TypeError("Only integers are allowed")

TypeError: Only integers are allowed

## Указание типов в Python

In [130]:
import typing #содержит описание всех типов данных

In [131]:
x:int =1

In [132]:
x = 'fhshl'

In [133]:
x

'fhshl'

Если вы разметили все данные, то можно запустить линтер (специальный инструмент) по коду, который проверит, что тип данных соответствует указанаому, и не нужно будет выискивать, где вы допустили ошибку

Добавим к строке отступ:

In [None]:
def indent_right(s:str, amount:int) -> str:
    return " " * max(0, amount) + s

Описание с учетом None

In [134]:
from typing import Optional #для учета None

In [136]:
amount: int
amount = None #В переменную передан None, а должено быть целое число

In [None]:
price: Optianal[int]
price = None #Вот теперь мы учли случай, когда не только int, но и None