# Чтение файлов

## Файлы

In [None]:
f = open('filename', 'w')
# w - Открытие на запись, содержимое файла удаляется,
#  если файла не существует, создаётся новый.

In [None]:
f.write('some string\nnew string')

22

In [None]:
f.close()

In [None]:
f = open('filename', 'a')
# a - Открытие на дозапись, информация добавляется в конец файла.
f.write('\nnew string\nnew string')
f.close()

In [None]:
f = open('filename', 'x')
# x - Открытие на запись, если файла не существует, иначе исключение.

FileExistsError: [Errno 17] File exists: 'filename'

In [None]:
f = open('new_filename', 'x')
# x - Открытие на запись, если файла не существует, иначе исключение.

In [None]:
f = open('filename', 'r')
# r - Открытие на чтение (является значением по умолчанию).

f.read()

'new string\nnew string\nnew string\nnew string'

In [None]:
with open('filename', 'r') as f:
    print(f.read())

new string
new string
new string
new string


Рассматриваем задачу сквозной аналитики. Будем работать с этими файлами:
- visit_log.csv
- purchase_log.txt

In [None]:
!wget 'https://drive.google.com/uc?id=1e9bqMJ8FggT88qBy2_Vm1i1g8w5GBBtd' -O purchase_log.txt
!wget 'https://drive.google.com/uc?id=1d6XsJHSY_b9vRw7nCAh6WGK4Y_1f-hxq' -O visit_log.csv

--2024-03-21 06:49:40--  https://drive.google.com/uc?id=1e9bqMJ8FggT88qBy2_Vm1i1g8w5GBBtd
Resolving drive.google.com (drive.google.com)... 142.251.2.138, 142.251.2.113, 142.251.2.102, ...
Connecting to drive.google.com (drive.google.com)|142.251.2.138|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://drive.usercontent.google.com/download?id=1e9bqMJ8FggT88qBy2_Vm1i1g8w5GBBtd [following]
--2024-03-21 06:49:40--  https://drive.usercontent.google.com/download?id=1e9bqMJ8FggT88qBy2_Vm1i1g8w5GBBtd
Resolving drive.usercontent.google.com (drive.usercontent.google.com)... 142.251.2.132, 2607:f8b0:4023:c0d::84
Connecting to drive.usercontent.google.com (drive.usercontent.google.com)|142.251.2.132|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 6621888 (6.3M) [application/octet-stream]
Saving to: ‘purchase_log.txt’


2024-03-21 06:49:43 (16.5 MB/s) - ‘purchase_log.txt’ saved [6621888/6621888]

--2024-03-21 06:49:43--  https://driv

In [None]:
# открываем файл для чтения (опция r)
f = open('visit_log.csv', 'r', encoding='utf-8')

In [None]:
# прочитать первую строчку
f.readline()

'user_id,source\n'

In [None]:
# прочитать еще одну
f.readline()

'6450655ae8,other\n'

In [None]:
for line in f:
    print(line)

[1;30;43mStreaming output truncated to the last 5000 lines.[0m

da091760fc,other

bc7fff749e,other

07a143f3f3,context

166319750a,other

5d453e3e3b,context

11361dee3b,other

f19425bcb9,other

cef4e8f0ae,other

39efa56f79,other

690b82d87f,other

75b1ad07be,other

3901045d54,context

68afb16f61,context

264290e16e,other

be61043bbf,email

dfd11e0853,other

5bdbac5261,other

503e70a832,other

a64d1b6085,other

21715f2d53,other

c1a488a268,context

918fa70a80,other

0c9a4ca3ee,other

daad983402,other

e816b03d8d,other

c7950e6e4f,other

7437c6247d,email

bc773ef87f,context

ac6812aa44,other

20065d3320,other

cc06a035ee,context

56c4248846,context

015a40f1a9,email

a65bba8f6e,email

f633089e66,other

f6f806cccd,context

0e637544cd,other

37ae85a067,context

3ea8e5f2fc,other

d70b7917eb,other

55c4e0e16e,other

221efcef91,context

16662eea11,other

eb43a0bc90,other

a7b278c2a2,context

aa73ddb9d1,other

eeba231586,other

86993f5bd9,other

fe3a2f2663,other

11e02f2885,other

2796fcb25b

KeyboardInterrupt: 

In [None]:
# прочитать все содержимое файла в переменную content
content = f.readlines()
content[:5]

['b4ea53e670,other\n',
 '0e37347152,other\n',
 '96064ae9e0,other\n',
 'e1bd168161,context\n',
 '71bcf169b4,other\n']

In [None]:
f.seek(0)
f.readline()

'user_id,source\n'

In [None]:
# построчное чтение файла
for line in f:
    print(line)

    break

6450655ae8,other



In [None]:
i = 0
for line in f:
    print(line)

    i += 1
    if i > 5:
        break

b4ea53e670,other

0e37347152,other

96064ae9e0,other

e1bd168161,context

71bcf169b4,other

e0aee73c5d,other



In [None]:
for i, line in enumerate(f):
    print(i, line)

    if i > 5:
        break

0 1f8845e157,context

1 78d22c5c78,other

2 dd85040770,other

3 2301051b25,other

4 86835b81ac,context

5 90d9a575a2,other

6 1b75c4f23f,other



Напишем функцию, которая фильтрует файл visit_log.csv по источнику context и пишет результат в visits_context.csv.

In [None]:
with open('visit_log.csv', 'r') as f:
    with open('visits_context.csv', 'w') as f2write:
        for line in f:
            if 'context' in line:
                f2write.write(line)

## Чтение списков и словарей из файла
Смотрим что в файле purchase_log.txt. Похоже тут не строки, а словари

In [None]:
with open('purchase_log.txt') as f:
    for x in range(5):
        line = f.readline()
        print(line)
        print(type(line))

{"user_id": "user_id", "category": "category"}

<class 'str'>
{"user_id": "1840e0b9d4", "category": "Продукты"}

<class 'str'>
{"user_id": "4e4f90fcfb", "category": "Электроника"}

<class 'str'>
{"user_id": "afea8d72fc", "category": "Электроника"}

<class 'str'>
{"user_id": "373a6055fe", "category": "Бытовая техника"}

<class 'str'>


In [None]:
import json

# перевод строки в словарь
dict_in_string = '{"a": 1, "b": 2}'

type(json.loads(dict_in_string))

dict

In [None]:
json.loads(dict_in_string)

{'a': 1, 'b': 2}

In [None]:
# перевод строки в список
list_in_string = '[1, 2, 3]'

json.loads(list_in_string)

[1, 2, 3]

In [None]:
i = 0
with open('purchase_log.txt') as f:
    for line in f:
        line = line.strip()

        dict_ = json.loads(line)
        print(dict_, type(dict_))

        i += 1
        if i > 5:
            break

{'user_id': 'user_id', 'category': 'category'} <class 'dict'>
{'user_id': '1840e0b9d4', 'category': 'Продукты'} <class 'dict'>
{'user_id': '4e4f90fcfb', 'category': 'Электроника'} <class 'dict'>
{'user_id': 'afea8d72fc', 'category': 'Электроника'} <class 'dict'>
{'user_id': '373a6055fe', 'category': 'Бытовая техника'} <class 'dict'>
{'user_id': '9b2ab046f3', 'category': 'Электроника'} <class 'dict'>


### Из словаря в строку тоже можно

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [None]:
str(data)

"{'user_id': '1840e0b9d4', 'category': 'Продукты'}"

In [None]:
json.dumps(data)

'{"user_id": "1840e0b9d4", "category": "\\u041f\\u0440\\u043e\\u0434\\u0443\\u043a\\u0442\\u044b"}'

In [None]:
type(json.dumps(data))

str

In [None]:
str(['Москва', 'Владивосток'])  # НЕ формат JSON

"['Москва', 'Владивосток']"

In [None]:
json.dumps(['Москва', 'Владивосток']) # корректный JSON, но смущает вывод

'["\\u041c\\u043e\\u0441\\u043a\\u0432\\u0430", "\\u0412\\u043b\\u0430\\u0434\\u0438\\u0432\\u043e\\u0441\\u0442\\u043e\\u043a"]'

In [None]:
with open('json_data.json', 'w') as f:
    json.dump(['Москва', 'Владивосток'], f, ensure_ascii=False)

In [None]:
with open('json_data.json') as f:
    data = json.load(f)
    print(data)

['Москва', 'Владивосток']


In [None]:
json.dumps(['Москва', 'Владивосток'], ensure_ascii=False)  # корректный JSON

'["Москва", "Владивосток"]'

## Попрактикуемся
Хотим классифицировать жителей в файле по возрастам:
* до 18 лет - children
* 19-65 - young
* старше 65 - retiree

In [None]:
!wget 'https://drive.google.com/uc?id=1jxMWEYO-NSZiF8vIZAAiQ0mZdLrmaG8L' -O adult.csv

--2024-03-21 06:51:50--  https://drive.google.com/uc?id=1jxMWEYO-NSZiF8vIZAAiQ0mZdLrmaG8L
Resolving drive.google.com (drive.google.com)... 142.250.101.139, 142.250.101.102, 142.250.101.100, ...
Connecting to drive.google.com (drive.google.com)|142.250.101.139|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://drive.usercontent.google.com/download?id=1jxMWEYO-NSZiF8vIZAAiQ0mZdLrmaG8L [following]
--2024-03-21 06:51:51--  https://drive.usercontent.google.com/download?id=1jxMWEYO-NSZiF8vIZAAiQ0mZdLrmaG8L
Resolving drive.usercontent.google.com (drive.usercontent.google.com)... 142.251.2.132, 2607:f8b0:4023:c0d::84
Connecting to drive.usercontent.google.com (drive.usercontent.google.com)|142.251.2.132|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5326368 (5.1M) [application/octet-stream]
Saving to: ‘adult.csv’


2024-03-21 06:51:53 (23.9 MB/s) - ‘adult.csv’ saved [5326368/5326368]



In [None]:
# немного забегаем вперед
import pandas as pd

pd.read_csv('adult.csv').head()

Unnamed: 0,age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income
0,25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K


In [None]:
with open('adult.csv') as f:
    for line in f:
        print(line)
        break

age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income



In [None]:
# подготовим файл для работы, разобьем строки по запятой и удалим пробельные символы
i = 0
with open('adult.csv', 'r') as f:
    for line in f:
        print(line.strip().split(','))

        i = i + 1
        if i > 5:
            break

['age', 'workclass', 'fnlwgt', 'education', 'educational-num', 'marital-status', 'occupation', 'relationship', 'race', 'gender', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']
['25', 'Private', '226802', '11th', '7', 'Never-married', 'Machine-op-inspct', 'Own-child', 'Black', 'Male', '0', '0', '40', 'United-States', '<=50K']
['38', 'Private', '89814', 'HS-grad', '9', 'Married-civ-spouse', 'Farming-fishing', 'Husband', 'White', 'Male', '0', '0', '50', 'United-States', '<=50K']
['28', 'Local-gov', '336951', 'Assoc-acdm', '12', 'Married-civ-spouse', 'Protective-serv', 'Husband', 'White', 'Male', '0', '0', '40', 'United-States', '>50K']
['44', 'Private', '160323', 'Some-college', '10', 'Married-civ-spouse', 'Machine-op-inspct', 'Husband', 'Black', 'Male', '7688', '0', '40', 'United-States', '>50K']
['18', '?', '103497', 'Some-college', '10', 'Never-married', '?', 'Own-child', 'White', 'Female', '0', '0', '30', 'United-States', '<=50K']


In [None]:
# выделим первый "столбец" в отдельную переменную age
i = 0
with open('adult.csv', 'r') as f:
    for line in f:
        age, *other_columns = line.strip().split(',')

        if i > 0:
            print(age)
            print(other_columns[1])
        i += 1
        if i > 5:
            break

25
226802
38
89814
28
336951
44
160323
18
103497


Добавим классификацию возрастов

In [None]:
i = 0
with open('adult.csv', 'r') as f:
    for line in f:
        age, *other_columns = line.strip().split(',')

        if i > 0:
            if int(age) <= 18:
                age_group = 'children'

            elif int(age) <= 60:
                age_group = 'young'

            else:
                age_group = 'retiree'

            print(age, age_group)

        i += 1
        if i > 5:
            break

25 young
38 young
28 young
44 young
18 children


Что тут нехорошо:
* сложно потестировать все случаи (в нашем цикле нужных случаев может и не оказаться)
* наш цикл стал довольно громоздким, а мы только начали
* эта классификация может потребоваться еще в куче кода
* данные могут быть кривыми и скрипт будет падать с ошибкой

Условия вычисления возрастной группы:
1. В строке 15 столбцов
2. Столбец с возрастом первый по счету
3. Возраст должен быть целым числом в адекватных пределах
4. Могут добавиться еще требования, о которых мы пока не знаем

In [None]:
def age_is_correct(age, lower_age=0, upper_age=120):
    """
    Проверка корректности возраста age по следующим правилам:
    1. Целое число
    2. В адекватных пределах

    Возвращает True или False. Пример
    age_is_correct(15)
    True

    age_is_correct(121)
    False

    age_is_correct(-5)
    False
    """

    # age.isdigit()
    if str.isnumeric(age):
        if lower_age <= int(age) <= upper_age:
            return True

    return False

age_is_correct('55')

True

In [None]:
age_is_correct('125aaa')

False

In [None]:
def number_of_columns(line, separator=','):
    """Возвращает количество столбцов в строке line с разделителем separator"""

    return len(line.split(separator))

In [None]:
number_of_columns('age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income')

15

In [None]:
def line_is_correct(line):
    """
    Проверка строки на корректность. Проверяются условия:
    1. В строке 15 столбцов (пригодится с упражнения)
    2. Столбец с возрастом первый по счету
    3. Возраст должен быть целым числом в адекватных пределах
    """
    age = line.strip().split(',')[0]

    if number_of_columns(line) == 15:
        if age_is_correct(age):
            return True

    return False

In [None]:
# Добавляем функции в наш цикл
i = 0
with open('adult.csv', 'r') as f:
    for line in f:

        if line_is_correct(line):
            age, *other_columns = line.strip().split(',')
            if int(age) <= 18:
                age_group = 'children'

            elif int(age) <= 60:
                age_group = 'young'

            else:
                age_group = 'retiree'

            print(age, age_group)

        i += 1
        if i > 10:
            break

25 young
38 young
28 young
44 young
18 children
34 young
29 young
63 retiree
24 young
55 young


In [None]:
# вынесем классификацию возраста в отдельную функцию
def age_classification(age):
    """
    Возвращает возрастную категорию для возраста age (можно передать как строку).
    Классификация категорий:
        - до 18 лет - children
        - 19-60 - young
        - старше 65 - retiree

    Пример
    age_classification('18')
    'children'

    age_classification(65)
    'retiree'
    """

    if int(age) <= 18:
        return 'children'
    elif int(age) <= 65:
        return 'young'
    elif int(age) > 65:
        return 'retiree'
    return 'boom'

In [None]:
age_classification(140)

'retiree'

In [None]:
age_classification(18)

'children'

In [None]:
?age_classification

In [None]:
# реализуем главную функцию
def main():
    with open('adult.csv', 'r') as f:
        for line in f:
            if line_is_correct(line):
                age, *colums = line.strip().split(',')
                print(age, age_classification(age))

In [None]:
main()

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
50 young
44 young
28 young
33 young
40 young
56 young
56 young
23 young
38 young
21 young
67 retiree
54 young
50 young
59 young
51 young
30 young
42 young
64 young
61 young
26 young
47 young
78 retiree
24 young
27 young
51 young
46 young
55 young
20 young
30 young
36 young
19 young
30 young
31 young
26 young
59 young
53 young
24 young
24 young
36 young
39 young
53 young
75 retiree
36 young
46 young
56 young
29 young
60 young
58 young
67 retiree
35 young
39 young
37 young
54 young
63 young
47 young
23 young
55 young
49 young
39 young
23 young
19 young
44 young
25 young
35 young
23 young
48 young
48 young
44 young
55 young
33 young
18 children
24 young
32 young
24 young
44 young
27 young
39 young
26 young
34 young
38 young
41 young
73 retiree
32 young
56 young
59 young
44 young
35 young
52 young
30 young
23 young
43 young
61 young
38 young
68 retiree
41 young
42 young
48 young
19 young
31 young
40 young
32 young
51 young
44

## Практика

In [None]:
!wget 'https://drive.google.com/uc?id=13e12HEinX1uwrDcaQKQCLpdDw7f-VCuy' -O prime.txt

--2024-03-21 06:54:13--  https://drive.google.com/uc?id=13e12HEinX1uwrDcaQKQCLpdDw7f-VCuy
Resolving drive.google.com (drive.google.com)... 142.251.2.101, 142.251.2.138, 142.251.2.102, ...
Connecting to drive.google.com (drive.google.com)|142.251.2.101|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://drive.usercontent.google.com/download?id=13e12HEinX1uwrDcaQKQCLpdDw7f-VCuy [following]
--2024-03-21 06:54:13--  https://drive.usercontent.google.com/download?id=13e12HEinX1uwrDcaQKQCLpdDw7f-VCuy
Resolving drive.usercontent.google.com (drive.usercontent.google.com)... 142.251.2.132, 2607:f8b0:4023:c0d::84
Connecting to drive.usercontent.google.com (drive.usercontent.google.com)|142.251.2.132|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19 [application/octet-stream]
Saving to: ‘prime.txt’


2024-03-21 06:54:13 (861 KB/s) - ‘prime.txt’ saved [19/19]



### 🧠 Фильтрация файла
Выведите на экран только строки файла, которые содержат, указанную подстроку. Предворяйте вывод каждой строки её номером.

Пример ввода:
```
Введите имя файла: prime.txt
Введите искомую подстроку: 1
```
Содержимое файла prime.txt:
```
1
2
3
5
7
11
```
Вывод на экране:
```
1: 1
6: 11
```

Введите имя файла: prime.txt
Введите искомую подстроку: 1
1: 1
6: 11


In [None]:
#@title Решение

filename = input('Введите имя файла: ')
substr = input('Введите искомую подстроку: ')

i = 1
f = open(filename, 'r', encoding='utf-8')
for line in f.readlines():
    if substr in line:
        print(f'{i}: {line.strip()}')
    i += 1
f.close()


Введите имя файла: prime.txt
Введите искомую подстроку: 1
1: 1
6: 11


### 🧠 Окончание файла
Прочитайте последние n строк из файла и выведите их на экран, предворяя вывод каждой строки её номером.Пример ввода:
```
Введите имя файла: prime.txt
Введите количество строк: 3
```
Содержимое файла prime.txt:
```
1
2
3
5
7
11
```
Вывод на экране:
```
4: 5
5: 7
6: 11
```

In [None]:
#@title Решение

filename = input('Введите имя файла: ')
n = int(input('Введите количество строк: '))

f = open(filename, 'r', encoding='utf-8')

# найдём n последних позиций
last = [0]
while f.readline():
    last.append(f.tell())
    if len(last) > n:
        del last[0]

# перейдём на позицию, с которой начинается последние n строк
f.seek(last[0])

for i in range(n):
    line = f.readline().strip()
    print(f"{i+1}: {line}")
f.close()


### 🧠 Перевод по словарю
Имеется файл en_ru.txt: <br>
```
file - файл
oop - объектно-ориентированное программирование
regexp - регулярное выражение
```

Пользователь в цикле вводит слова. Программа отображает перевод слов, беря значение из файла. Если введённое слово не найдено, то
пользователю показывается соответствующее сообщение. Концом ввода служит пустая строка.


Пример работы программы:
```
Введите слово: file
Перевод: файл
Введите слово: pithon
Слово не найдено!
Введите слово: regexp
Перевод: регулярное выражение
```

In [None]:
!wget 'https://drive.google.com/uc?id=1NZbw91nr4xeL0SgfyIfEPJW2E8Atb2wH' -O en_ru.txt

--2023-12-21 10:57:19--  https://drive.google.com/uc?id=1NZbw91nr4xeL0SgfyIfEPJW2E8Atb2wH
Resolving drive.google.com (drive.google.com)... 108.177.12.102, 108.177.12.113, 108.177.12.100, ...
Connecting to drive.google.com (drive.google.com)|108.177.12.102|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://doc-0g-84-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/7ko9d2lvrg4fo5cn63cgn9q42r0vjsq9/1703156175000/02611596255248067438/*/1NZbw91nr4xeL0SgfyIfEPJW2E8Atb2wH?uuid=87dcbd20-e41e-400c-bad1-b5e892d330fd [following]
--2023-12-21 10:57:19--  https://doc-0g-84-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/7ko9d2lvrg4fo5cn63cgn9q42r0vjsq9/1703156175000/02611596255248067438/*/1NZbw91nr4xeL0SgfyIfEPJW2E8Atb2wH?uuid=87dcbd20-e41e-400c-bad1-b5e892d330fd
Resolving doc-0g-84-docs.googleusercontent.com (doc-0g-84-docs.googleusercontent.com)... 172.217.203.132, 2607:f8b0:400c:c07::84
Connecting to doc-0

In [None]:
#@title Решение

filename = 'en_ru.txt'
f = open(filename,'r', encoding='utf-8')

while True:
    word = input('Введите слово: ').strip()
    if word == '':
        break

    f.seek(0)
    for line in f.readlines():
        pair = line.strip().split(' - ')
        if word == pair[0]:
            print (f'Перевод: {pair[1]}')
            break
    else:
        print('Слово не найдено!')

f.close()


Введите слово: file
Перевод: файл
Введите слово: 
