# Чтение файлов
Рассматриваем задачу сквозной аналитики. Будем работать с этими файлами:
- visit_log.csv
- purchase_log.txt

### Способ 1. Делаем все пошагово
Опции при открытии файлов:
- 'r' открыть для чтения. Файл при этом не меняется
- 'w' открыть файл для записи. Файл при этом полностью чистится (!)
- 'a' открыть файл для добавления. Файл не меняется, все записи добавляются в конец

In [2]:
# открываем файл для чтения (опция r)
f = open('visit_log.csv', 'r', encoding='utf-8')

In [3]:
f

<_io.TextIOWrapper name='visit_log.csv' mode='r' encoding='utf-8'>

In [4]:
f.__sizeof__()

192

In [5]:
# прочитать первую строчку
f.readline()

'user_id,source\n'

In [6]:
# прочитать еще одну
f.readline()

'6450655ae8,other\n'

In [7]:
# можно и так
next(f)

'b4ea53e670,other\n'

In [10]:
# прочитать все содержимое файла в переменную content
content = f.readlines()

In [11]:
content[:5]

['71bcf169b4,other\n',
 'e0aee73c5d,other\n',
 '1f8845e157,context\n',
 '78d22c5c78,other\n',
 'dd85040770,other\n']

In [12]:
content[-1]

'c23704ea54,other\n'

In [13]:
f.seek(0)

0

In [14]:
f.readline()

'user_id,source\n'

In [1]:
# построчное чтение файла
for line in f:
    print(line)
#     break

NameError: name 'f' is not defined

In [22]:
i = 0
for line in f:
    print(line)
    
    i += 1
    if i > 5:
        break

d94b908660,None

f697206af5,other

8a9a2de36e,other

dd3d43c266,context

f6401d302f,context

b18d58560b,email



In [8]:
for i, line in enumerate(f):
    print(i, line)
    
    if i > 5:
        break

0 0e37347152,other

1 96064ae9e0,other

2 e1bd168161,context

3 71bcf169b4,other

4 e0aee73c5d,other

5 1f8845e157,context

6 78d22c5c78,other



Часто используется конструкция 
```python
another_line.strip().split(',')
```

In [24]:
another_line = f.readline()
another_line

'ceda3a4603,other\n'

In [25]:
# удаляем перенос строки и лишние пробелы
another_line.strip()

'ceda3a4603,other'

In [27]:
';ceda3a4603,other\n;--!--'.strip(';-!')

'ceda3a4603,other\n'

In [28]:
# разбиваем столбцы
another_line.strip().split(',')

['ceda3a4603', 'other']

In [9]:
# закрытие файла
f.close()

In [10]:
# после закрытия не получится прочитать
f.readline()

ValueError: I/O operation on closed file.

In [31]:
# прочитать все строчки файла в список (т. е. в оперативную память)
f = open('visit_log.csv', 'r')

content = f.readlines()

f.close()

In [32]:
content[:5]

['user_id,source\n',
 '6450655ae8,other\n',
 'b4ea53e670,other\n',
 '0e37347152,other\n',
 '96064ae9e0,other\n']

# Запись в файл
Зачем все-таки открывать и закрывать файлы?

In [33]:
f = open('results.csv', 'w')

In [34]:
f.write('Начинаю запись первой строки...\n')

32

In [35]:
f.write('Начинаю запись второй строки...\n')

32

Здесь кто-то еще хочет в него записать

In [36]:
my_friend_results = open('results.csv', 'w')

In [37]:
my_friend_results.write('Тут еще результаты есть')

23

In [15]:
# пишем свой результат
f.close()

In [39]:
# и наш результат перезатирается
my_friend_results.close()

### Контекстный менеджер
Как обезопасить себя от подобных накладок

In [11]:
with open('results.csv', 'w') as f:
    f.write('Начинаю запись первой строки...\n')
    f.write('Начинаю запись второй строки...\n')
    
    my_friend_results = open('results.csv', 'w')
    my_friend_results.write('Тут еще результаты есть')
    my_friend_results.close()

### А можно читать и сразу в файл записывать?
Напишите функцию, которая фильтрует файл visit_log.csv по источнику context и пишет результат в visits_context.csv. Используйте функцию из второго упражнения для проверки результата.

In [12]:
with open('visit_log.csv', 'r') as f:
    with open('visits_context.csv', 'w') as f2write:
        for line in f:
            if 'context' in line:
                f2write.write(line)

# Чтение списков и словарей из файла
Смотрим что в файле purchase_log.txt. Похоже тут не строки, а словари

In [14]:
with open('purchase_log.txt') as f:
    print([next(f) for x in range(5)])

['{"user_id": "user_id", "category": "category"}\n', '{"user_id": "1840e0b9d4", "category": "Продукты"}\n', '{"user_id": "4e4f90fcfb", "category": "Электроника"}\n', '{"user_id": "afea8d72fc", "category": "Электроника"}\n', '{"user_id": "373a6055fe", "category": "Бытовая техника"}\n']


In [13]:
import json

In [44]:
# перевод строки в словарь
dict_in_string = '{"a": 1, "b": 2}'

type(json.loads(dict_in_string))

dict

In [45]:
json.loads(dict_in_string)

{'a': 1, 'b': 2}

In [47]:
# перевод строки в список
list_in_string = '[1, 2, 3]'

json.loads(list_in_string)[-1]

3

In [48]:
json.loads(list_in_string)

[1, 2, 3]

In [49]:
i = 0
with open('purchase_log.txt') as f:
    for line in f:
        line = line.strip()
        
        dict_ = json.loads(line)
        print(dict_, type(dict_))
        
        i += 1
        if i > 5:
            break

{'user_id': 'user_id', 'category': 'category'} <class 'dict'>
{'user_id': '1840e0b9d4', 'category': 'Продукты'} <class 'dict'>
{'user_id': '4e4f90fcfb', 'category': 'Электроника'} <class 'dict'>
{'user_id': 'afea8d72fc', 'category': 'Электроника'} <class 'dict'>
{'user_id': '373a6055fe', 'category': 'Бытовая техника'} <class 'dict'>
{'user_id': '9b2ab046f3', 'category': 'Электроника'} <class 'dict'>


In [None]:
dict_ = 1

### Из словаря в строку тоже можно

In [50]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [51]:
str(data)

"{'user_id': '1840e0b9d4', 'category': 'Продукты'}"

In [52]:
json.dumps(data)

'{"user_id": "1840e0b9d4", "category": "\\u041f\\u0440\\u043e\\u0434\\u0443\\u043a\\u0442\\u044b"}'

In [53]:
type(json.dumps(data))

str

# Модуль pickle
Запись объекта сразу в файл как поток байтов

In [54]:
import pickle

In [55]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [56]:
with open('data.pickle', 'wb') as f:
    pickle.dump(data, f)

In [57]:
# прочитать объект из такого файла

with open('data.pickle', 'rb') as f:
    dict_ = pickle.load(f)
    
dict_, dict_['user_id']

({'user_id': '1840e0b9d4', 'category': 'Продукты'}, '1840e0b9d4')

# Чтение файлов из папки

In [62]:
import os

In [64]:
# чтение файлов и папок
for file in os.listdir('data'):
    if '.csv' in file:
        print(file)

file_2.csv
file_3.csv
file_1.csv


In [65]:
# чтение всех файлов и папок, в том числе вложенных
for root, directory, file in os.walk('data'):
    print(root, directory, file)

data ['more_data'] ['.DS_Store', 'file_2.csv', 'file_3.csv', 'file_1.csv']
data/more_data [] ['file_4.csv', 'file_5.csv']


# Каталог пакетов pip (Python Package Index)
Варианты установки
1. С помощью Anaconda Navigator
2. В командной строке (Terminal на маке)
```bash
pip install package_name
```
3. Скачать версию с github и установить вручную
```bash
pip install .
```

Пакеты устанавливаются в определенное окружение! Вам пригодится virtualenv

In [18]:
!pip install plotly

Collecting plotly
  Downloading plotly-4.14.3-py2.py3-none-any.whl (13.2 MB)
[K     |████████████████████████████████| 13.2 MB 15.8 MB/s eta 0:00:01
Collecting retrying>=1.3.3
  Downloading retrying-1.3.3.tar.gz (10 kB)
Building wheels for collected packages: retrying
  Building wheel for retrying (setup.py) ... [?25ldone
[?25h  Created wheel for retrying: filename=retrying-1.3.3-py3-none-any.whl size=11430 sha256=9256bf424131fecd4e5ac7f4cdd32cc297a357b4430fe121e354095fd2ad206d
  Stored in directory: /home/ikulkov/.cache/pip/wheels/f9/8d/8d/f6af3f7f9eea3553bc2fe6d53e4b287dad18b06a861ac56ddf
Successfully built retrying
Installing collected packages: retrying, plotly
Successfully installed plotly-4.14.3 retrying-1.3.3
You should consider upgrading via the '/home/ikulkov/venv37/bin/python3 -m pip install --upgrade pip' command.[0m


In [19]:
import plotly

# Домашнее задание к лекции "Работа с файловой системой и модули"

* Переведите содержимое файла purchase_log.txt в словарь purchases вида: {‘1840e0b9d4’: ‘Продукты’, …}

* Для каждого user_id в файле visit_log.csv определите третий столбец с категорией покупки (если покупка была, сам файл visit_log.csv изменять не надо). Запишите в файл funnel.csv визиты из файла visit_log.csv, в которых были покупки с указанием категории.

Учтите условия на данные:
содержимое purchase_log.txt помещается в оперативную память компьютера
содержимое visit_log.csv - нет; используйте только построчную обработку этого файла

In [46]:
user_purchases = {}

with open('purchase_log.txt', 'r') as fp:
    for i, line in enumerate(fp):
        if i > 0:
            data = json.loads(line)
            user_purchases[data['user_id']] = data['category']
    print('Total purchases: %d' % i)

with open('visit_log.csv', 'r') as fv:
    with open('funnel.csv', 'w') as ff:
        j = 0
        for i, line in enumerate(fv):
            data = line.strip().split(',')
            if i == 0:
                data.append('category')
                ff.write(','.join(data) + '\n')
            else:
                category = user_purchases.get(data[0])
                if category:
                    j += 1
                    data.append(category)
                    ff.write(','.join(data) + '\n')
        print('Total lines: %d; with categories: %d' % (i, j))

del user_purchases

Total purchases: 99999
Total lines: 199999; with categories: 13798
