# Работа с файлами и текстом в Python
* Работа с файлами в Python: открытие, изменение, сохранение.
* Разные форматы хранения данных: csv-файлы, json-файлы, txt-файлы. 
* Лемматизация, стемминг.

### modules

**Модули** - это "библиотеки" Python. То есть это самостоятельные, объединённые технически и логически, именованные части Python кода

* О модулях необходимо знать только одно - как их импортировать:

In [None]:
import math

* Импортировать только какой-то компонент из модуля:

In [1]:
from math import exp, sin, tan

* Импортировать с другим именем (чаще всего используется для локаничности кода):

In [3]:
import pandas as pd

In [9]:
ser = pd.Series(data = [1, 2, 3], index = ['first', 'second', 'third'])
print('{}\n'.format(ser))

first     1
second    2
third     3
dtype: int64



Жизненный пример:

In [10]:
import numpy as np

## Файлы

In [11]:
# создаем новый файл с именем test.txt
!echo 'test file for python-intro notebook' > test.txt

In [12]:
# записываем путь к файлу test в переменную
path = './test.txt'

### Открытие
Для запуска файлов предусмотрена встроенная функция под названием `open()`. С ее помощью можно открыть любой документ. Python же будет формировать внутри себя на его основе объект. Функция принимает два следующих аргумента:

In [63]:
# Синтаксис метода выглядит следующим образом:
f = open(file_name, access_mode)

NameError: name 'file_name' is not defined

In [23]:
help(open)

Help on built-in function open in module io:

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
    Open file and return a stream.  Raise OSError upon failure.
    
    file is either a text or byte string giving the name (and the path
    if the file isn't in the current working directory) of the file to
    be opened or an integer file descriptor of the file to be
    wrapped. (If a file descriptor is given, it is closed when the
    returned I/O object is closed, unless closefd is set to False.)
    
    mode is an optional string that specifies the mode in which the file
    is opened. It defaults to 'r' which means open for reading in text
    mode.  Other common values are 'w' for writing (truncating the file if
    it already exists), 'x' for creating and writing to a new file, and
    'a' for appending (which on some Unix systems, means that all writes
    append to the end of the file regardless of the current seek position

### Чтение файла
Для чтения файла он открывается с режимом **r** `(Read)`, и затем мы можем считать его содержимое различными методами:

`readline()`: считывает одну строку из файла

`read()`: считывает все содержимое файла в одну строку

`readlines()`: считывает все строки файла в список

Для точного определения его позиции предусмотрен метод `tell()`, который говорит, в каком количестве байт от начала он расположен в данный момент. Методом `seek()`, который переведет нас на требуемую позицию.

In [41]:
file = open(path, mode='r') # открытие файла
print(file.read(5))
print(file.read(3))
print(file.tell()) # к
print(file.seek(0)) # откат обратно к нулевому элементу
print(file.read(3))

'test
 fi
8
0
'te


In [33]:
file.readline()

"le for python-intro notebook' \n"

In [34]:
file.readlines()

[]

In [64]:
print(file.name)
print(file.mode)
print(file.closed)

output.json
r
True


In [13]:
file = open(path, mode='r')
print([line for line in file][0])
file.close()

'test file for python-intro notebook' 



| Режим | Обозначение |
|-------|-------------|
| **'r'**  | Открытие на **чтение** (является значением по умолчанию) |
| **'rb'** | Открытие на **чтение**, в предположении, что будут считываться **байты** |
| **'w'** | Открытие на **запись**, содержимое файла удаляется. Если файла не существует, создается новый |
| **'wb**' | Открытие на **запись байтов**, содержимое файла удаляется. Если файла не существует, создается новый |
| **'a'** | Открытие на **дозапись**, информация добавляется **в конец файла** |
| **'r+'** | Открыть файл на **чтение И запись**. Если файла нет, **новый НЕ создаётся** |
| **'a+'** | Открыть файл на **чтение И запись в конец файла**. Если файла нет, **новый создаётся** |
| **'t'** | Открытие файла **как текстового** (по умолчанию) |

### Запись
Для записи в файлы Python использует метод `write()`. При этом важно, чтобы открытие осуществлялось в режиме записи. Если файла не существовало, он будет сгенерирован. Еще одним аспектом при использовании метода является то, что в него могут передаваться исключительно строки. Если вы планируете передавать другой тип данных, то лучше заранее форматировать его в строковый тип.

Метод `write()` может записывать и большие объемы информации. Для этого нужно представить их в виде списка строк. Аналогично функции считывания, для записи существует построчный вариант `writelines()`. Python самостоятельно не расставляет переносы, поэтому продумать этот момент лучше заранее.

In [67]:
# Пример синтаксиса:
f = open('exmp.txt','w') 
f.write('Привет Мир')
f.close()

### Изменение названия файла
Еще одной возможностью при работе с файлами будет изменение их названия. Для этого используется `rename()`, но предварительно необходимо импортировать специальный модуль os.

In [68]:
# пример
import os
os.rename(exmp,file) # где exmp – изначальное имя файла, а file – новое

NameError: name 'exmp' is not defined

`os.listdir(dir)` перечисялет файлы и папки в указанной директории dir. Если вызвать эту функцию без аргументов, она вернет файлы и папки текущей рабочей директории

In [73]:
os.listdir('имя директории')

FileNotFoundError: [WinError 3] Системе не удается найти указанный путь: 'имя директории'

Относительные пути строятся относительно текущей папки. Чтобы получить абсолютный путь файла из относительного, используется функция `os.path.abspath(file_path)`. Чтобы узнать, какая папка является текущей, можно вызвать функцию `os.getcwd()`. Для смены текущей папки используется `os.chdir(new_dir)`.

###  Закрытие
Следует сказать, что открытый в любом режиме файл после его использования нужно обязательно закрывать. Делается это методом close(). Посе его выполнения работа с файлом будет корректно завершена, но с нашим объектом файла работать уже тоже будет нельзя - при необходимости повторной работы с файлом нужно снова его открывать при помощи open.

In [61]:
file = open("some_data.txt")
text = file.read()
file.close()
#дальше работаем с text, если надо

FileNotFoundError: [Errno 2] No such file or directory: 'some_data.txt'

Но вдруг в процессе выполнения нашей программы произройдет критическая ошибка и программа завершит свое выполнение, а мы, например, записывали в файл какую-то информацию? Верно, вполне возможно, что последняя добавленная информация в файл так и не запишется. Чтобы избежать такой ситуации, ну и чтобы просто не забывать вовремя вызывать `close()` используется конструкция `with`:

In [14]:
with open(path, mode='r') as test_file:
    for line in test_file:
        print(line)

'test file for python-intro notebook' 



Конструкция `with` используется для того, чтобы гаранировать, что критические действия будут выполнены в любом случае, ее можно использовать и в некоторых других случаях, но в контексте открытия файлов она используется чаще всего.
Рекомендую по возможности всегда открывать файлы, не зависимо от режима, с конструкцией `with`!

In [60]:
with open("text.txt", "w") as out:  #в out теперь находится ссылка на наш объект файла, как если
                                    #бы было просто out = open("text.txt", "w")
    for i in range(100):
        out.write("А я запишу все эти строки в влюбом случае\n") #записываем 100 одинаковых строчек
    raise Exception                 #принудительно "вызываем" ошибку.
#в файле все равно будут все 100 нужные строки

### exceptions

Модуль `builtins` обеспечивает прямой доступ ко всем встроенным идентификаторам **Python**. Это значит, что например полное название функции `open()` выглядит на самом деле как `builtins.open()`.

В качестве детали реализации, большинство модулей имеют имя `__builtins__`, доступное как часть их глобальных переменных. Значением `__builtins__` обычно является либо этот модуль, либо значение атрибута `__dict__` этого модуля.

In [None]:
dir(__builtin__)

['ArithmeticError',
 'AssertionError',
 'AttributeError',
 'BaseException',
 'BlockingIOError',
 'BrokenPipeError',
 'BufferError',
 'ChildProcessError',
 'ConnectionAbortedError',
 'ConnectionError',
 'ConnectionRefusedError',
 'ConnectionResetError',
 'EOFError',
 'Ellipsis',
 'EnvironmentError',
 'Exception',
 'False',
 'FileExistsError',
 'FileNotFoundError',
 'FloatingPointError',
 'GeneratorExit',
 'IOError',
 'ImportError',
 'IndentationError',
 'IndexError',
 'InterruptedError',
 'IsADirectoryError',
 'KeyError',
 'KeyboardInterrupt',
 'LookupError',
 'MemoryError',
 'ModuleNotFoundError',
 'NameError',
 'None',
 'NotADirectoryError',
 'NotImplemented',
 'NotImplementedError',
 'OSError',
 'OverflowError',
 'PermissionError',
 'ProcessLookupError',
 'RecursionError',
 'ReferenceError',
 'RuntimeError',
 'StopAsyncIteration',
 'StopIteration',
 'SyntaxError',
 'SystemError',
 'SystemExit',
 'TabError',
 'TimeoutError',
 'True',
 'TypeError',
 'UnboundLocalError',
 'UnicodeDecode

Инструкция `raise` позволяет программисту принудительно вызвать указанное исключение. 

In [19]:
raise KeyboardInterrupt()

FileNotFoundError: 

In [20]:
my_dict = {1: 100, 2: 200}
print(my_dict['NEW'])

KeyError: 'NEW'

In [None]:
try:
    my_dict = {1: 100, 2: 200}
    print(my_dict['NEW'])
except KeyError:
    print('Caught KeyError!')

Caught KeyError!


### CSV-файлы
`csv` является табличным форматом. В нем содержатся значения разделенные запятой (Comma-Separated Values). Например,

first name,last name,module1,module2,module3

Nikolay,Neznaev,0,20,10

Stepan,Sharyashiy,100,99.5,100

In [75]:
import csv #для работы с csv файлами можно воспользоваться библиотекой csv:
with open("example.csv", "r") as file:
    reader = csv.reader(file) #На основе открытого файла получаем объект из библиотеки csv
    for row in reader:
        print(row)            #Каждая строка - список значений

['Greg', 'Lebovskiy', '70', '80', '90', 'Good job, Greg!']
[]
['Nick', 'Shalopaev', '10', '50', '45', 'Shalopaev, you should study better!']
[]


В `csv.reader` параметром `delimeter` можно передать разделитель значений, таким образом разделяющим символом в файле csv может быть не только запятая.
Для изолирования некоторых значений можно пользоваться двойными кавычками. Библиотека csv учитывает различные мелочи, такие как строки с содержащимися в ней запятыми и переносами строки, различные разделители, поэтому ее использование целесообразнее splitа по разделителю.

Для записи значений в csv формате используется `csv.writer`:

In [74]:
import csv
students = [
            ["Greg", "Lebovskiy", 70, 80, 90, "Good job, Greg!"],
            ["Nick", "Shalopaev", 10, 50, 45, "Shalopaev, you should study better!"]
            ]
with open("example.csv", "a") as file:
    writer = csv.writer(file)            #На основе открытого файла получаем объект из библиотеки csv
    for student in students:
        writer.writerow(student)         #Записываем строку
    #Вместо цикла выше мы могли сразу записать все через writer.writerows(students)

### JSON-файлы
**JSON (JavaScript Object Notation)** - простой формат обмена данными, удобный для чтения и написания как человеком, так и компьютером. Впервые он был придуман и использован в JavaScript для хранения структур и классов, но быстро получил свою популярность и вышел за пределы своего родителя.
JSON основан на двух структурах данных: * Коллекция пар ключ/значение. В разных языках, эта концепция реализована как объект, запись, структура, словарь, хэш, именованный список или ассоциативный массив. * Упорядоченный список значений. В большинстве языков это реализовано как массив, вектор, список или последовательность.
Это универсальные структуры данных. Почти все современные языки программирования поддерживают их в какой-либо форме. Логично предположить, что формат данных, независимый от языка программирования, должен быть основан на этих структурах.

Объекты в формате SJON хранятся как словари в Python, но с некоторыми деталями: во первых, ключом в json-объекте может быть только **строка**, значения `True` и `False` пишутся с маленькой буквы, значению `None` соответствует значение `null`, строки хранятся только внутри двойных кавычек.

Для удобной работы с json файлами в языке python можно использовать библиотеку json

Например:

In [52]:
import json

student1 = {
    "full_name" : "Greg Martin",
    "scores" : [100, 85, 94],
    "certificate" : True,
    "comment": "Great job, Greg!"
}

student2 = {
    "full_name" : "John Price",
    "scores" : [0, 10, 0],
    "certificate" : False,
    "comment": "Guns aren't gonna help you here, captain!"
}

data = [student1, student2]

print(json.dumps(data, indent=4, sort_keys=True)) #Делаем отступы в 4 пробела, сортируем ключи в алфавитном порядке

[
    {
        "certificate": true,
        "comment": "Great job, Greg!",
        "full_name": "Greg Martin",
        "scores": [
            100,
            85,
            94
        ]
    },
    {
        "certificate": false,
        "comment": "Guns aren't gonna help you here, captain!",
        "full_name": "John Price",
        "scores": [
            0,
            10,
            0
        ]
    }
]


Для получения строкового представления объекта в формате json можно использовать `json.dumps(data, **parrams)` с различными вспомогательными настройками (пробелы, сортировка и др.)
***
Для записи в файл можно воспользоваться `json.dump(data, file_obj, **params)`:

In [53]:
with open("output.json", "w") as out:
    json.dump(data, out, indent=4, sort_keys=True)

Для получения объекта python на основе его срокового представления можно воспользоваться функцией `json.loads` или `json.load` для считывания из файла:

In [54]:
json_str = json.dumps(data, indent=4, sort_keys=True) #получение строкового представления json
data_again = json.loads(json_str)                     #получаем объект python
print(sum(data_again[0]["scores"]))                   #убедимся в кореектном считывании:
                                                      #посчитаем сумму баллов у первого студента

with open("output.json") as file:
    data_from_file = json.load(file)                   #считаем объект из файла
    print(sum(data_from_file[0]["scores"]))            #аналогично посчитаем сумму баллов

279
279


При записи-считывнии объектов из формата json кортежи превращаются в списки

### Задание 1
Создайте файл numbers.txt по образцу ниже. Напишите программу, которая открывает этот файл на чтение, построчно считывает из него данные и записывает строки в другой файл (numbersRu.txt), заменяя английские числительные русскими, которые содержатся в списке (["один", "два", "три", "четыре", "пять"]), определенном до открытия файлов.

Пусть у нас имеется файл numbers.txt с таким содержимым:

one - 1 - I
two - 2 - II
three - 3 - III
four - 4 - IV
five - 5 - V

In [None]:
nums = []
for i in open('numbers.txt'):
    nums.append(i[:-1])

### Задание 2
Создайте файл nums.txt, содержащий несколько чисел, записанных через пробел. Напишите программу, которая подсчитывает и выводит на экран общую сумму чисел, хранящихся в этом файле.

## Стемминг

Вам поступила задача:
разделить список поисковых запросов на две совершенно разные темы. Буквально
«мухи — отдельно, котлеты — отдельно».
Мухи с котлетами перемешаны в списке с названием queries (англ. query, «запрос»):
> queries = ["котлеты", "куриные котлеты", "рецепт котлет", "котлеты из фарша", "сочные котлет
ы","рыбные котлеты", "приготовление котлет", "муха", "почему мухи",
"про муху", "повелитель мух", "борьба с мухами"]


In [76]:
queries = ["котлеты", "куриные котлеты", "рецепт котлет", "котлеты из фарша", "сочные котлет ы","рыбные котлеты", "приготовление котлет", "муха", "почему мухи", "про муху", "повелитель мух", "борьба с мухами"]

Первое, что приходит в голову: взять часть слова каждой тематики и проверить, есть ли
такой набор букв в элементе списка. Отфильтруем запросы, содержащие «мух», в цикле
(Конструкция для повторения действий в коде):

In [77]:
queries = ["котлеты", "куриные котлеты", "рецепт котлет", "котлеты из фарша", "сочные котлеты",
"рыбные котлеты", "приготовление котлет", "муха", "почему мухи", "про муху", "повелитель мух",
"борьба с мухами"]
for query in queries:
    if 'мух' in query:
        print(query)

муха
почему мухи
про муху
повелитель мух
борьба с мухами


Всё получилось. Если в списке появится слово, не имеющее к мухам никакого
отношения, но содержащее в себе «мух», как отработает цикл?

In [78]:
queries = ["котлеты", "куриные котлеты", "рецепт котлет", "котлеты из фарша", "сочные котлеты",
"рыбные котлеты", "приготовление котлет", "муха", "почему мухи", "про муху", "повелитель мух",
"борьба с мухами", "мухаммед али"]
for query in queries:
    if 'мух' in query:
        print(query)

муха
почему мухи
про муху
повелитель мух
борьба с мухами
мухаммед али


Боксёр Мухаммед Али не имеет ничего общего с мухами и не должен быть с ними в
одном списке! Наше правило не работает, если в список попадёт слово, не подходящее
по смыслу, пусть даже в нём и есть набор букв «мух». 

В таком случае нужен код, вместо набора букв возвращающий основу слова. Процесс
нахождения основы для заданного слова называется **стемминг** (от англ. stemming,
здесь в значении «обдирка ветви, срывание с неё листьев и мелких черенков»). В Python
для стемминга есть специальная библиотека NLTK (от англ. Natural Language Toolkit,
«инструменты работы с естественными языками»).


In [80]:
# Импортируем стеммер для русского языка:
# Передаём стеммеру как аргумент значение 'russian', чтобы включить лингвистический анализ именн
# о русского языка
from nltk.stem import SnowballStemmer
russian_stemmer = SnowballStemmer('russian')

Исходный список слов с комбинацией букв «мух» сохраним в переменной words (англ.
word, «слово»):

In [81]:
words = ["муха", "мухи", "муху", "мух", "мухами", "мухаммед"]

Для каждого элемента списка напечатаем исходное слово и его основу, выявленную 
стеммингом:

In [85]:
for word in words:
    print('Исходное слово - ', word,', после стемминга - ', russian_stemmer.stem(word))


Исходное слово -  муха , после стемминга -  мух
Исходное слово -  мухи , после стемминга -  мух
Исходное слово -  муху , после стемминга -  мух
Исходное слово -  мух , после стемминга -  мух
Исходное слово -  мухами , после стемминга -  мух
Исходное слово -  мухаммед , после стемминга -  мухаммед


Стемминг выявил две основы: 'мух' и 'мухаммед'. Значит, можно формировать список
слов заново, с условием, что основа именно 'мух' .
Найдём 'мух' в цикле. Превратим набор слов в список — применим метод `split()` (англ.
split, «расщеплять»). Метод разбивает строки на части специальным разделителем (в
аргументе — передаваемое значение. Записывается в скобках при вызове функции или
метода.) и собирает их в список:

In [87]:
from nltk.stem import SnowballStemmer
russian_stemmer = SnowballStemmer('russian')
queries = ["котлеты", "куриные котлеты", "рецепт котлет", "котлеты из фарша", "сочные котлеты",
"рыбные котлеты", "приготовление котлет", "муха", "почему мухи", "про муху", "повелитель мух",
"борьба с мухами","мухаммед али"]
for query in queries:
    stemmed_query = russian_stemmer.stem(query)
    for word in stemmed_query.split(' '):
        if word == 'мух':
            print(query)

муха
почему мухи
про муху
повелитель мух
борьба с мухами


Мухаммед Али в результате исполнения нашего кода не попал в список с мухами.
Значит, стемминг cработал.

### Задание 3

3.1.  Напишите цикл, который выводит только запросы, содержащие набор букв «эпл».
Внимательно просмотрите полученный список и найдите лишние слова.

>queries = ["эпл айфоны",
"купить эпл телефон",
"лучшие смартфоны",
"барон фон",
"смартфон эпл айфон",
"смартфоны 2019",
"эплан",
"фоновая музыка",
"эпл айфоны икс",
"эпл айфон 64гб",
"фон для фото",
"купить эпл",
"эпл айфон купить",
"эплеренон купить",
"смартфон где купить",
"эплан показания",
"смартфон huawei",
"эпл"]

3.2. Проведите стемминг в списке words. Результат выведите на экран в следующем виде:
>Исходное слово - ..., после стемминга - ...

3.3 Сформируйте список запросов с «эпл».

In [103]:
# 3.1
queries = ["эпл айфоны", "купить эпл телефон", "лучшие смартфоны", "барон фон", "смартфон эпл айфон", "смартфоны 2019", "эплан", "фоновая музыка", "эпл айфоны икс", "эпл айфон 64гб", "фон для фото", "купить эпл", "эпл айфон купить", "эплеренон купить", "смартфон где купить", "эплан показания", "смартфон huawei", "эпл"]

In [104]:
# 3.2
from nltk.stem import SnowballStemmer
russian_stemmer = SnowballStemmer('russian')
words = ["эпл", "эплан", "эплеренон"]


## Лематизация

**Стемминг** — не единственный алгоритм для поиска слов, записанных в разных формах.
Более продвинутый процесс — **лемматизация**, или приведение слова к его словарной
форме (лемме).

Одна из библиотек с функцией лемматизации на русском языке — **pymystem3**.

In [93]:
!pip install pymystem3

Collecting pymystem3
  Using cached pymystem3-0.2.0-py3-none-any.whl (10 kB)
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0


In [95]:
# pymystem3 импортируется так:
from pymystem3 import Mystem
m = Mystem()

Лемматизируем стихотворение

In [96]:
text = 'Легкомысленные речи за столом произносив, я сидел, раскинув плечи, неподвижен и красив'
lemmas = m.lemmatize(text)
print(lemmas)

['легкомысленный', ' ', 'речь', ' ', 'за', ' ', 'стол', ' ', 'произносить', ', ', 'я', ' ', 'сидеть', ', ', 'раскидывать', ' ', 'плечо', ', ', 'неподвижный', ' ', 'и', ' ', 'красивый', '\n']


Формы записи в словаре русских слов:
для существительных — именительный падеж, единственное число;
для прилагательных — именительный падеж, единственное число, мужской род;
для глаголов, причастий, деепричастий — глагол в инфинитиве несовершенного
вида.
Для многих случаев это гораздо лучше основы слова, которую возвращает NLTK (Natural Language Toolkit).

Pymystem3 работает и с несуществующими словами. Скормим ей фрагмент
стихотворения Льюиса Кэррола «Бармаглот» в переводе Дины Орловской:


In [101]:
text = """
Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.
"""
lemmas = ' '.join(m.lemmatize(text))
print(lemmas)


 варкаться .  хливкий   шорька 
 пыряться   по   нав ,
 и   хрюкотать   зелюк ,
 как   мюмзик   в   мов . 



Обратите внимание, что Pymystem3 по умолчанию выдает список лемматизированных
слов (сведённых к лемме), а NLTK — строку. Поэтому здесь для наглядности итоговый
результат склеили вызовом метода join().

Частая задача для лемматизированных слов — подсчёт числа их упоминаний в тексте.
Для этого вызывают специальный контейнер Counter (англ. «счётчик») из модуля
collections.

In [102]:
from collections import Counter
print(Counter(lemmas))

Counter({' ': 36, 'к': 8, 'а': 6, '\n': 5, 'в': 5, 'р': 4, 'т': 4, 'ь': 4, 'и': 4, 'о': 4, 'я': 3, 'ю': 3, 'м': 3, 'с': 2, '.': 2, 'х': 2, 'л': 2, 'п': 2, ',': 2, 'з': 2, 'й': 1, 'ш': 1, 'ы': 1, 'н': 1, 'е': 1})
