# Чтение файлов
Рассматриваем задачу сквозной аналитики. Будем работать с этими файлами:
- visit_log.csv
- purchase_log.txt

### Способ 1. Делаем все пошагово
Опции при открытии файлов:
- 'r' открыть для чтения. Файл при этом не меняется
- 'w' открыть файл для записи. Файл при этом полностью чистится (!)
- 'a' открыть файл для добавления. Файл не меняется, все записи добавляются в конец

**Первый способ открытия файла:** т.к. \ в Python - служебный символ перевода строки, путь нужно прописать через двойной \\

In [143]:
# открываем файл для чтения (опция r)
f = open('D:\\OneDrive\\!Netology\\!Netology_Pal-4\\01_Python_for_data_analysis\\!Homeworks\\lesson_06_filesystem\
_modules\\Files\\visit_log.csv', 'r', encoding='utf-8')

**Второй способ открытия файла:** через r перед указанием пути файла

In [36]:
# открываем файл для чтения (опция r)
f = open(r'D:\OneDrive\!Netology\!Netology_Pal-4\01_Python_for_data_analysis\!Homeworks\lesson_06_filesystem_modules\Files\visit_log.csv', 'r', encoding='utf-8')

In [17]:
f

<_io.TextIOWrapper name='D:\\OneDrive\\!Netology\\!Netology_Pal-4\\01_Python_for_data_analysis\\!Homeworks\\lesson_06_filesystem_modules\\Files\\visit_log.csv' mode='r' encoding='utf-8'>

In [16]:
f.__sizeof__()

192

In [22]:
import sys
print(sys.getsizeof(f))

208


In [98]:
# прочитать первую строчку
f.readline()

'96064ae9e0,other\n'

In [104]:
# прочитать еще одну
f.readline()

''

In [132]:
# можно и так
next(f)

'e0aee73c5d,other\n'

In [117]:
# прочитать все содержимое файла в переменную content
content = f.readlines()

In [53]:
content.__sizeof__()

1784032

In [54]:
sys.getsizeof(content)

1784048

In [118]:
content[:5]

['user_id,source\n',
 '6450655ae8,other\n',
 'b4ea53e670,other\n',
 '0e37347152,other\n',
 '96064ae9e0,other\n']

In [56]:
content[-1]

'c23704ea54,other\n'

In [130]:
f.seek(0)

0

In [113]:
f.readline()

'user_id,source\n'

In [80]:
# построчное чтение файла
for line in f:
    print(line)
    
    break

86835b81ac,context



In [120]:
i = 0
for line in f:
    print(line)
    
    i += 1
    if i > 5:
        break

user_id,source

6450655ae8,other

b4ea53e670,other

0e37347152,other

96064ae9e0,other

e1bd168161,context



In [131]:
for i, line in enumerate(f):
    print(i, line)
    
    if i > 5:
        break

0 user_id,source

1 6450655ae8,other

2 b4ea53e670,other

3 0e37347152,other

4 96064ae9e0,other

5 e1bd168161,context

6 71bcf169b4,other



In [148]:
enumerated_f = enumerate(f)

i = 0
for line in enumerated_f:
    print(line)
    i += 1
    if i > 5:
        f.seek(0)
        break

(0, 'user_id,source\n')
(1, '6450655ae8,other\n')
(2, 'b4ea53e670,other\n')
(3, '0e37347152,other\n')
(4, '96064ae9e0,other\n')
(5, 'e1bd168161,context\n')


Часто используется конструкция 
```python
another_line.strip().split(',')
```

In [154]:
another_line = f.readline()
another_line

'6450655ae8,other\n'

In [157]:
another_line

'6450655ae8,other\n'

In [65]:
# удаляем перенос строки и лишние пробелы
another_line.strip()

'e3505d2025,context'

In [158]:
';ceda3a4603,other\n;--!--'.strip(';-!\n')

'ceda3a4603,other'

In [162]:
# разбиваем столбцы
another_line.strip().split(',')

['6450655ae8', 'other']

In [163]:
# закрытие файла
f.close()

In [164]:
# после закрытия не получится прочитать
f.readline()

ValueError: I/O operation on closed file.

In [166]:
# прочитать все строчки файла в список (т. е. в оперативную память)
f = open('D:\\OneDrive\\!Netology\\!Netology_Pal-4\\01_Python_for_data_analysis\\!Homeworks\\lesson_06_filesystem\
_modules\\Files\\visit_log.csv', 'r')

content = f.readlines()

f.close()

In [169]:
content[:5]

['user_id,source\n',
 '6450655ae8,other\n',
 'b4ea53e670,other\n',
 '0e37347152,other\n',
 '96064ae9e0,other\n']

# Запись в файл
Зачем все-таки открывать и закрывать файлы?

In [205]:
f = open('D:\\OneDrive\\!Netology\\!Netology_Pal-4\\01_Python_for_data_analysis\\!Homeworks\\lesson_06_filesystem\
_modules\\Files\\results.csv', 'w')

In [206]:
f.write('Начинаю запись первой строки...\n')

32

In [207]:
f.write('Начинаю запись второй строки...\n')

32

Здесь кто-то еще хочет в него записать

In [208]:
my_friend_results = open('D:\\OneDrive\\!Netology\\!Netology_Pal-4\\01_Python_for_data_analysis\\!Homeworks\\lesson_06_filesystem\
_modules\\Files\\results.csv', 'w')

In [209]:
my_friend_results.write('Тут еще результаты есть')

23

In [210]:
# пишем свой результат
f.close()

In [211]:
# и наш результат перезатирается
my_friend_results.close()

### Контекстный менеджер
Как обезопасить себя от подобных накладок

In [1]:
with open('results.csv', 'w') as f:
    f.write('Начинаю запись первой строки...\n')
    f.write('Начинаю запись второй строки...\n')
    
    my_friend_results = open('results.csv', 'w')
    my_friend_results.write('Тут еще результаты есть')
    my_friend_results.close()

### А можно читать и сразу в файл записывать?
Напишите функцию, которая фильтрует файл visit_log.csv по источнику context и пишет результат в visits_context.csv. Используйте функцию из второго упражнения для проверки результата.

In [2]:
with open('visit_log.csv', 'r') as f:
    with open('visits_context.csv', 'w') as f2write:
        for line in f:
            if 'context' in line:
                f2write.write(line)

# Чтение списков и словарей из файла
Смотрим что в файле purchase_log.txt. Похоже тут не строки, а словари

In [10]:
with open('purchase_log.txt') as f:
    print([next(f) for x in range(5)])

['{"user_id": "user_id", "category": "category"}\n', '{"user_id": "1840e0b9d4", "category": "Продукты"}\n', '{"user_id": "4e4f90fcfb", "category": "Электроника"}\n', '{"user_id": "afea8d72fc", "category": "Электроника"}\n', '{"user_id": "373a6055fe", "category": "Бытовая техника"}\n']


In [13]:
with open('purchase_log.txt') as f:
    [print(next(f)) for x in range(5)]      

{"user_id": "user_id", "category": "category"}

{"user_id": "1840e0b9d4", "category": "Продукты"}

{"user_id": "4e4f90fcfb", "category": "Электроника"}

{"user_id": "afea8d72fc", "category": "Электроника"}

{"user_id": "373a6055fe", "category": "Бытовая техника"}



In [14]:
import json

In [18]:
# перевод строки в словарь
dict_in_string = '{"a": 1, "b": 2}'

# type(dict_in_string)
type(json.loads(dict_in_string))

dict

In [22]:
json.loads(dict_in_string)

{'a': 1, 'b': 2}

In [24]:
# перевод строки в список
list_in_string = '[1, 2, 3]'

json.loads(list_in_string)[-1]

3

In [26]:
json.loads(list_in_string)

[1, 2, 3]

In [49]:
i = 0
with open('purchase_log.txt') as f:
    for line in f:
        line = line.strip()
        
        dict_ = json.loads(line)
        print(dict_, type(dict_))
        
        i += 1
        if i > 5:
            break

{'user_id': 'user_id', 'category': 'category'} <class 'dict'>
{'user_id': '1840e0b9d4', 'category': 'Продукты'} <class 'dict'>
{'user_id': '4e4f90fcfb', 'category': 'Электроника'} <class 'dict'>
{'user_id': 'afea8d72fc', 'category': 'Электроника'} <class 'dict'>
{'user_id': '373a6055fe', 'category': 'Бытовая техника'} <class 'dict'>
{'user_id': '9b2ab046f3', 'category': 'Электроника'} <class 'dict'>


In [None]:
dict_ = 1

### Из словаря в строку тоже можно

In [43]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [44]:
# str(data)
type(json.dumps(data))

str

In [50]:
text = json.dumps(data)
print(text)

{"user_id": "1840e0b9d4", "category": "\u041f\u0440\u043e\u0434\u0443\u043a\u0442\u044b"}


In [52]:
json.loads(text)

{'user_id': '1840e0b9d4', 'category': 'Продукты'}

# Модуль pickle
Запись объекта сразу в файл как поток байтов

In [60]:
import pickle

In [57]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [61]:
with open('data.pickle', 'wb') as f:
    pickle.dump(data, f)

In [67]:
# прочитать объект из такого файла

with open('data.pickle', 'rb') as f:
    dict_ = pickle.load(f)
    
dict_, dict_['user_id']

({'user_id': '1840e0b9d4', 'category': 'Продукты'}, '1840e0b9d4')

# Чтение файлов из папки

In [68]:
import os

In [75]:
# чтение файлов и папок
for file in os.listdir('data'):
#     print(file)
    if '.csv' in file:
        print(file)

file1.csv
file2.csv
file3.csv


In [77]:
# чтение всех файлов и папок, в том числе вложенных
for root, directory, file in os.walk('data'):
    print(root, directory, file)

data ['moredata'] ['file1.csv', 'file2.csv', 'file3.csv']
data\moredata [] ['file4.csv', 'file5.csv']


# Каталог пакетов pip (Python Package Index)
Варианты установки
1. С помощью Anaconda Navigator
2. В командной строке (Terminal на маке)
```bash
pip install package_name
```
3. Скачать версию с github и установить вручную
```bash
pip install .
```

Пакеты устанавливаются в определенное окружение! Вам пригодится virtualenv

In [98]:
!pip install pyyaml



In [53]:
import plotly