# Прикладное программное обеспечение
#### Python для извлечения и обработки данных


##  Работа с текстовыми файлами

*Автор: Татьяна Рогович, Александра Краснокутская, НИУ ВШЭ*

### Файловый ввод-вывод
Мы начинаем работать с файлами. Сейчас будем обсуждать только чтение и запись. О том, как запускать файлы на исполнение, отдельная история. Также для начала речь пойдёт о текстовых файлах или похожих на текстовые (например, код на Python или CSV-файл будет текстовым).

Как правило, если указать в Python не полный путь к файлу, а только его название, то он будет искать файл в рабочей директории. Как узнать, где это?

In [None]:
import os
os.getcwd()

'C:\\Users\\User\\ППО 2021'

Функция `getcwd()` из модуля `os` возвращает нам путь к вашей рабочей папке. Так, например, в Windows по умолчанию Anaconda делает рабочей папкой для Jupyter папку пользователя в Users. Если вы создали блокнот в какой-то другой папке — по умолчанию его директория и будет рабочей. Это можно изменить или глобально, прописав путь к вашей папке в свойствах, или локально в рамках сессии.

Функция `chdir()` принимает в качестве аргумента путь к папке и меняет рабочую директорию. Теперь к файлам, хранящимся в ней вы сможете обращаться без полного пути. Также все новые файлы будут сохраняться туда же.

In [None]:
os.chdir('C:\\Users\\User\\Desktop\\2020_HSE_SOC_PPO-master')
os.getcwd()

'C:\\Users\\User\\Desktop\\2020_HSE_SOC_PPO-master'

`listdir()` вернет нам список содержимого директории. Очень полезная функция  —  можно запустить цикл, если нужно обработать все файлы в папке.

In [None]:
os.listdir()

['.gitattributes',
 '1 Seminar',
 '1_Test',
 '2 Seminar',
 '2_Test',
 '3 Seminar',
 '4 Seminar',
 '5 Seminar',
 '6_Seminar',
 '7_Seminar',
 'README.md']

Давайте попробуем создать файл, записать в него что-нибудь и сохранить.

In [None]:
f = open("test.txt", 'w', encoding='utf8')

Функция `open()` возвращает файловый объект и мы используем ее обычно с двумя аргументами — имя файла и режим (например, запись или чтение). Выше мы открыли файл `test.txt` в режиме записи `'w'` (если такого файла не существовало, он будет создан).

Такой объект называется `file handle` или дескриптор файла.

![](https://www.py4e.com/images/handle.svg)  
Source: https://www.py4e.com/html3/07-files

Какие могут быть режимы открытия файла (mode):

* `'r'` — `read`, только чтение
* `'w'` — `write`, только запись (если файл с таким именем существовал, он будет удален).
* `'a'` — `append`, новые данные будут записаны в конец файла
* `'r+'` — чтение+запись.

Если не передать второй аргумент, то файл автоматически откроется в режиме чтения.

`encoding` — именнованный параметр, если работаете с кириллицей или языками со спецсимволами, то лучше задать `utf8`.

In [None]:
f.write('Hello, world!')
f.close()

Метод `write` записал данные в наш файл. После этого файл нужно закрыть, чтобы он выгрузился из оперативной памяти. Если этого не сделать, то в какой-то момент питоновский сборщик мусора все равно до него доберется и закроет файл, но большие файлы могут съедать достаточно много ресурсов, поэтому лучше за этим следить.

Теперь дававайте попробуем открыть в режиме чтения.

In [None]:
f = open("test.txt", 'r', encoding='utf8')
print(f.read())
f.close()

Hello, world!


После того, как мы закрыли файл, обратиться к нему больше нельзя.

In [None]:
f.read()

ValueError: I/O operation on closed file.

Хорошим тоном при работе с файлами считается открывать их с помощью ключевого слова `with`. Преимущество этого способа в том, что файл закроется автоматически, когда закончатся вложенные операции.

In [None]:
with open('test.txt') as f: # Открыли файл, не указали режим, по умолчанию — чтение
    read_data = f.read()    # Считали данные из файла в переменную
                            # Операции закончились, файл сам закрылся

In [None]:
print(read_data)

Hello, world!


А теперь попробуем записать в файл новые строки.

In [None]:
with open('test.txt', 'a') as f: # Открыли файл
    f.write('\n Is this an african swallow?\n Or an european swallow?') # Дозаписали строки в файл

Еще один вариант записать данные в файл вот так:

In [None]:
with open('test.txt', 'a') as f:
    print("\nAnd another string", file = f)

In [None]:
with open('test.txt') as f: 
    print(f.read())

Hello, world!
 Is this an african swallow?
 Or an european swallow?
And another string



Мы выше уже видели два метода файла `.write()` и `.read()`. Еще один метод, который очень часто используется — это `readline`. Он позволяет не загружать файл целиком в память, а считывать его построчно. Знаком остановки здесь будет выступать `\n`.

In [None]:
f = open('test.txt', 'r')
f.readline()

'Hello, world!\n'

In [None]:
f.readline()

' Is this an african swallow?\n'

`.readline()` — генератор. При обращении он выдает нам новую строку.

In [None]:
f.readline() # Вызвали третий раз

' Or an european swallow?\n'

In [None]:
f.close()

Также, чтобы прочитать все строки поочередно, можно запустить цикл. Тут не стоит забывать, что переменная `f`, хоть и прикидывается списком строк, когда мы её итерируем, на самом деле таковым не является. В действительности при открытии файла мы запоминаем позицию, на которой мы этот файл читаем. Изначально она указывает на самое начало файла, но с каждой итерацией сдвигается. Когда мы прочитаем файл целиком, дальнейшие попытки из него что-то прочитать ни к чему не приведут: указатель текущей позиции сдвинулся до самого конца и файл закончился.

In [None]:
f = open('test.txt', 'r')

for line in f:
    print(line, end='')
    
for line in f: # Обратите внимание, что этот цикл не выполняется
    print(line, end='')
    
f.close()

Hello, world!
 Is this an african swallow?
 Or an european swallow?
And another string


Файл можно перемотать на начало, если воспользоваться методом `.seek()`, который возвращается к символу на этой позиции.

In [None]:
f = open('test.txt', 'r')

for line in f:
    print(line, end='')

f.seek(0) # Вернули файл на начало    
    
for line in f: # Теперь печатает!
    print(line, end='')
    
f.close()

Hello, world!
 Is this an african swallow?
 Or an european swallow?
And another string
Hello, world!
 Is this an african swallow?
 Or an european swallow?
And another string


Если методу `read()` передать целое число, то питон прочитает только заданное количество символов или битов, если информация в файле записана в бинарном формате.

In [None]:
with open('test.txt') as f: 
    print(f.read(6))

Hello,


Чтобы считать все строки файла в список, можно вызвать список от файлового объекта или использовать метод `.readlines()`.

In [None]:
f = open('test.txt', 'r')
print(list(f))
f.close()

['Hello, world!\n', ' Is this an african swallow?\n', ' Or an european swallow?\n', 'And another string\n']


In [None]:
f = open('test.txt', 'r')
L = list(f)
f.close()
L

['Hello, world!\n',
 ' Is this an african swallow?\n',
 ' Or an european swallow?\n',
 'And another string\n']

In [None]:
f = open('test.txt', 'r')
print(f.readlines())
f.close()

['Hello, world!\n', ' Is this an african swallow?\n', ' Or an european swallow?\n', 'And another string\n']


# Задачи для тренировки
Часть из этих задач мы решим в классе. Но если мы даже не успеем  — попытайтесь сделать их дома сами.

### Задание 1. Обработка файла

Каждый пункт — разные задания, не нужно сразу умещать все в один код.

+ в файле mbox.txt есть строки формата "Date: Sat, 5 Jan 2008 09:12:18 -0500" — время, когда ушло письмо; напечатайте их
+ у каждого письма на самом деле две строки, начинающихся с 'Date: ', напечатайте только одну из них
+ напечатайте час, в который было отправлено каждое сообщение
+ (самое сложное) сделайте словарь, в который будете сохранять, в каком часу люди пишут письма (час от 0 до 23 — ключ, количество писем, написанных в это время, — значение)
+ напечатайте данные словаря в следующем виде "В NN часов было отправлено XX писем" (часы должны быть отсортированы по возрастанию)

In [None]:
with open('mbox.txt') as f:
    for line in f:
        if line.startswith('Date: '):
            print(line)
            break # закомментируйте или удалите break, если хотите увидеть весь вывод.

Date: Sat, 5 Jan 2008 09:12:18 -0500



In [None]:
with open('mbox.txt') as f:
    for line in f:
        if line.startswith('Date: ') and line.endswith(')\n'):
            print(line)
            break

Date: 2008-01-05 09:12:07 -0500 (Sat, 05 Jan 2008)



In [None]:
with open('mbox.txt') as f:
    for line in f:
        if line.startswith('Date: ') and line.endswith(')\n'):
            print(line.split()[2].split(':')[0])
            break

09


In [None]:
hours = {}

with open('mbox.txt') as f:
    for line in f:
        if line.startswith('Date: ') and line.endswith(')\n'):
            hours[line.split()[2].split(':')[0]] = hours.get(line.split()[2].split(':')[0], 0) + 1
            
for hour in sorted(hours):
    print(f'В {hour} часов было отправлено {hours[hour]} писем')

### Задание 2. Подсчет суммы и запись в файл

Каждый пункт — разные задания, не нужно сразу умещать все в один код.

+ сохраните данные из файла export_file.txt в список `read_data`
+ создайте словарь, где ключом будет номер варианта, а значением — сумма вещественных чисел, относящихся в нему в файле
+ обратитесь к отсортированным значениям словаря и запишите в новый файл строки типа "Вариант NN - сумма FFF" (после каждой не забудьте `\n`)
+ откройте созданный фал, напечатайте каждую строку в нем

In [None]:
with open('export_file.txt') as f:
    read_data = f.read()

In [None]:
ALL = {}
var = 1
for i in range(1, len(read_data.split('\n')), 3):
    L = sum(list(map(float, read_data.split('\n')[i].split(','))))
    ALL[var] = L
    var += 1

In [None]:
ALL

{1: 21946.633700000002,
 4: 44128.50140000001,
 7: 62389.97879999999,
 10: 86089.6422,
 13: 107034.00159999999,
 16: 122788.47629999998,
 19: 143195.21050000007,
 22: 164068.6310000001,
 25: 183697.25570000004,
 28: 204655.95400000003,
 31: 225000.81380000012,
 34: 244702.6490000001,
 37: -49628.431900000025,
 40: -53221.384,
 43: -57285.70600000003,
 46: -60932.03610000002,
 49: -64742.69259999999,
 52: -68733.43980000001,
 55: 22997.026300000005,
 58: 24515.4141,
 61: 25310.256200000003,
 64: 26806.00299999998,
 67: 27961.228700000014,
 70: 28928.131499999996,
 73: 14264.622399999997,
 76: 14908.872399999998,
 79: 15391.797199999995,
 82: 16021.422900000003,
 85: 16586.042099999995,
 88: 17107.292700000005,
 91: 23882.1506,
 94: 24737.289399999987,
 97: 25416.770800000013,
 100: 26238.793500000007,
 103: 27011.68429999999,
 106: 27726.50119999999,
 109: 28503.669200000004,
 112: 29369.45090000001,
 115: 30037.616700000017,
 118: 30866.143000000004}

In [None]:
f = open("new_file.txt", 'w', encoding='utf8')

for j in sorted(ALL.values()):
    for k,v in ALL.items():
        if v == j:
            f.write(f'Вариант {k} - сумма {v}\n') 
f.close()

In [None]:
with open('new_file.txt', encoding='utf8') as f:
    for line in f:
        print(line)

Вариант 52 - сумма -68733.43980000001

Вариант 49 - сумма -64742.69259999999

Вариант 46 - сумма -60932.03610000002

Вариант 43 - сумма -57285.70600000003

Вариант 40 - сумма -53221.384

Вариант 37 - сумма -49628.431900000025

Вариант 73 - сумма 14264.622399999997

Вариант 76 - сумма 14908.872399999998

Вариант 79 - сумма 15391.797199999995

Вариант 82 - сумма 16021.422900000003

Вариант 85 - сумма 16586.042099999995

Вариант 88 - сумма 17107.292700000005

Вариант 1 - сумма 21946.633700000002

Вариант 55 - сумма 22997.026300000005

Вариант 91 - сумма 23882.1506

Вариант 58 - сумма 24515.4141

Вариант 94 - сумма 24737.289399999987

Вариант 61 - сумма 25310.256200000003

Вариант 97 - сумма 25416.770800000013

Вариант 100 - сумма 26238.793500000007

Вариант 64 - сумма 26806.00299999998

Вариант 103 - сумма 27011.68429999999

Вариант 106 - сумма 27726.50119999999

Вариант 67 - сумма 27961.228700000014

Вариант 109 - сумма 28503.669200000004

Вариант 70 - сумма 28928.131499999996

Вариант 1

### Задание 3. Вспомним функции 

Каждый год студентам необходимо поменять пароль в системе LMS. C нового года к паролю стали предъявлять новые требования.

+ Он должен быть длинее 10 символов
+ В нем должна быть одна заглавная буква, но все буквы не могут быть заглавными одновременно
+ В нем должна быть хотя бы одна цифра
Напишите функцию `checker()`, которая принимает на ввод гипотетический пароль и проверяет его на соответствие эти требованиям.


In [None]:
# ваше решение здесь
def checker(x):
    if len(x) <= 10:                             # проверка на длину
        return False
    elif x.isupper() or x.islower(): # проверяем, что не все буквы заглавные, и не все строчные
        return False
    elif x.isdigit() or x.isalpha(): # проверяем, что есть и буквы и цифры, если только что-то одно, возвращаем False
        return False
    else:
        return True
    
print(checker('Taaaa1234555'))    # проверяем пароли
print(checker('qwerty12345'))
print(checker('taaaadffffffff'))
print(checker('12341224125'))
print(checker('TA2321TA22412'))

True
False
False
False
False
