# Чтение файлов
Рассматриваем задачу сквозной аналитики. Будем работать с этими файлами:
- visit_log.csv
- purchase_log.txt

### Способ 1. Делаем все пошагово
Опции при открытии файлов:
- 'r' открыть для чтения. Файл при этом не меняется
- 'w' открыть файл для записи. Файл при этом полностью чистится (!)
- 'a' открыть файл для добавления. Файл не меняется, все записи добавляются в конец

In [2]:
# открываем файл для чтения (опция r)
f = open('visit_log.csv', 'r', encoding='utf-8')

In [3]:
f

<_io.TextIOWrapper name='visit_log.csv' mode='r' encoding='utf-8'>

In [4]:
f.__sizeof__()

192

In [5]:
# прочитать первую строчку
f.readline()

'user_id,source\n'

In [6]:
# прочитать еще одну
f.readline()

'6450655ae8,other\n'

In [7]:
# можно и так
next(f)

'b4ea53e670,other\n'

In [8]:
# прочитать все содержимое файла в переменную content
content = f.readlines()

In [9]:
content[:5]

['0e37347152,other\n',
 '96064ae9e0,other\n',
 'e1bd168161,context\n',
 '71bcf169b4,other\n',
 'e0aee73c5d,other\n']

In [10]:
content[-1]

'c23704ea54,other\n'

In [11]:
f.seek(0)

0

In [12]:
f.readline()

'user_id,source\n'

In [13]:
# построчное чтение файла
for line in f:
    print(line)

    # break

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
354a518b8d,other

42391d1a01,other

9b4a312407,other

e809085e45,other

0f6cde2efe,other

615283e858,other

3d047b14ae,other

64c8790337,email

53d4aa41f4,other

1fd131d9f5,context

82e9706c2a,other

ff2c015405,context

fdb21e7db5,other

2126f375fa,other

804197c8c2,other

6ab028088c,other

a6fa2db55c,context

c346b08add,other

09b137a748,other

b2b257536e,other

c4ffb04465,other

da0a1f50ee,other

a5b01db084,context

cd7bf9990d,other

dd88e8d31a,other

7fbbb5a42c,other

85976cb552,other

8b35a0663d,other

33c9152ee7,other

8baf3ee358,email

7f66d3afbc,other

d87707eefe,other

4bd8333285,other

de2cc905b5,other

382f98a429,context

fabd36adb9,other

d0d7c73b58,other

359b96318e,other

8313332de7,other

38a79aaafc,other

fe011d76e6,other

7d188d64d8,other

21b1ea1194,other

443efbead1,other

205ec5b274,other

cd326dffa5,context

1090a55dca,other

6bdf9d5bd9,other

b54bbc3d83,context

b39bc0b7e6,other

a237

In [14]:
i = 0
for line in f:
    print(line)

    i += 1
    if i > 5:
        break

In [15]:
for i, line in enumerate(f):
    print(i, line)

    if i > 5:
        break

Часто используется конструкция
```python
another_line.strip().split(',')
```

In [16]:
another_line = f.readline()
another_line

''

In [17]:
# удаляем перенос строки и лишние пробелы
another_line.strip()

''

In [18]:
';ceda3a4603,other\n;--!--'.strip(';-!')

'ceda3a4603,other\n'

In [19]:
# разбиваем столбцы
another_line.strip().split(',')

['']

In [20]:
# закрытие файла
f.close()

In [22]:
# после закрытия не получится прочитать
f.readline()

ValueError: ignored

In [23]:
# прочитать все строчки файла в список (т. е. в оперативную память)
f = open('visit_log.csv', 'r')

content = f.readlines()

f.close()

In [24]:
content[:5]

['user_id,source\n',
 '6450655ae8,other\n',
 'b4ea53e670,other\n',
 '0e37347152,other\n',
 '96064ae9e0,other\n']

# Запись в файл
Зачем все-таки открывать и закрывать файлы?

In [25]:
f = open('results.csv', 'w')

In [26]:
f.write('Начинаю запись первой строки...\n')

32

In [27]:
f.write('Начинаю запись второй строки...\n')

32

Здесь кто-то еще хочет в него записать

In [28]:
my_friend_results = open('results.csv', 'w')

In [29]:
my_friend_results.write('Тут еще результаты есть')

23

In [30]:
# пишем свой результат
f.close()

In [31]:
# и наш результат перезатирается
my_friend_results.close()

### Контекстный менеджер
Как обезопасить себя от подобных накладок

In [32]:
with open('results.csv', 'w') as f:
    f.write('Начинаю запись первой строки...\n')
    f.write('Начинаю запись второй строки...\n')

    my_friend_results = open('results.csv', 'w')
    my_friend_results.write('Тут еще результаты есть')
    my_friend_results.close()

### А можно читать и сразу в файл записывать?
Напишите функцию, которая фильтрует файл visit_log.csv по источнику context и пишет результат в visits_context.csv. Используйте функцию из второго упражнения для проверки результата.

In [33]:
with open('visit_log.csv', 'r') as f:
    with open('visits_context.csv', 'w') as f2write:
        for line in f:
            if 'context' in line:
                f2write.write(line)

# Чтение списков и словарей из файла
Смотрим что в файле purchase_log.txt. Похоже тут не строки, а словари

In [34]:
with open('purchase_log.txt') as f:
    print([next(f) for x in range(5)])

['{"user_id": "user_id", "category": "category"}\n', '{"user_id": "1840e0b9d4", "category": "Продукты"}\n', '{"user_id": "4e4f90fcfb", "category": "Электроника"}\n', '{"user_id": "afea8d72fc", "category": "Электроника"}\n', '{"user_id": "373a6055fe", "category": "Бытовая техника"}\n']


In [35]:
f = f2_
f.strip()

NameError: ignored

In [36]:
import json

In [37]:
# перевод строки в словарь
dict_in_string = '{"a": 1, "b": 2}'
type(json.loads(dict_in_string))

dict

In [38]:
json.loads(dict_in_string)

{'a': 1, 'b': 2}

In [39]:
# перевод строки в список
list_in_string = '[1, 2, 3]'

json.loads(list_in_string)[-1]

3

In [40]:
json.loads(list_in_string)

[1, 2, 3]

In [41]:
i = 0
with open('purchase_log.txt') as f:
    for line in f:
        line = line.strip()

        dict_ = json.loads(line)
        print(dict_, type(dict_))

        i += 1
        if i > 5:
            break

{'user_id': 'user_id', 'category': 'category'} <class 'dict'>
{'user_id': '1840e0b9d4', 'category': 'Продукты'} <class 'dict'>
{'user_id': '4e4f90fcfb', 'category': 'Электроника'} <class 'dict'>
{'user_id': 'afea8d72fc', 'category': 'Электроника'} <class 'dict'>
{'user_id': '373a6055fe', 'category': 'Бытовая техника'} <class 'dict'>
{'user_id': '9b2ab046f3', 'category': 'Электроника'} <class 'dict'>


In [None]:
dict_ = 1

### Из словаря в строку тоже можно

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [None]:
str(data)

In [None]:
json.dumps(data)

In [None]:
type(json.dumps(data))

# Модуль pickle
Запись объекта сразу в файл как поток байтов

In [None]:
import pickle

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [None]:
with open('data.pickle', 'wb') as f:
    pickle.dump(data, f)

In [None]:
# прочитать объект из такого файла

with open('data.pickle', 'rb') as f:
    dict_ = pickle.load(f)

dict_, dict_['user_id']

# Чтение файлов из папки

In [None]:
import os

In [None]:
# чтение файлов и папок
for file in os.listdir('data'):
    if '.csv' in file:
        print(file)

In [None]:
# чтение всех файлов и папок, в том числе вложенных
for root, directory, file in os.walk('data'):
    print(root, directory, file)

# Каталог пакетов pip (Python Package Index)
Варианты установки
1. С помощью Anaconda Navigator
2. В командной строке (Terminal на маке)
```bash
pip install package_name
```
3. Скачать версию с github и установить вручную
```bash
pip install .
```

Пакеты устанавливаются в определенное окружение! Вам пригодится virtualenv

In [None]:
!pip install pyyaml

In [None]:
import plotly