# Работа с файлами
- Обработать первые N строк файла
- Прочитать файл из другой папки
- Пример группировки большого файла cards.csv
- Формат JSON
- Кодировки файлов ([статья 1](https://tproger.ru/translations/unicode-and-encoding-python-guide/) и [статья 2](https://pythononline.ru/osnovy/encode-decode))

### Работа с Экселем в питоне
https://openpyxl.readthedocs.io/en/stable/

# Когда файл лежит где-то

In [None]:
# вариант 1 - файл лежит рядом с кодом
f = open('cards.csv')

In [None]:
# вариант 2 - файл лежит во вложенной папке рядом с кодом

f = open('logs/hostlogs_part_5283.csv')

In [2]:
# вариант 3 - файл лежит в произвольной папке где-то на компе

# Mac, Linux, Ubuntu, FreeBSD, CentOS
f = open('/Users/kbashevoy/Desktop/Нетология/Занятия/Занятие 5/logs/hostlogs_part_5284.csv')

In [3]:
text = 'очень длинный \
текст'

text

'очень длинный текст'

In [4]:
'C:\\Users\\kbashevoy\\data.csv'

'C:\\Users\\kbashevoy\\data.csv'

In [7]:
'select * from table where date=\'2023-01-23\''

"select * from table where date='2023-01-23'"

In [None]:
# Windows

# 1 выход - экранирование - подсказка питону, что следующий символ это просто символ
# символ экранирования - это тоже \
f = open('C:\\Users\\kbashevoy\\data.csv')

# 2 выход - опция r
f = open(r'C:\Users\kbashevoy\data.csv')

In [None]:
import os

In [None]:
os.path.join('folder', 'data.csv')  # будет работать в любой ОС

In [None]:
open('folder/data.csv')

# Чтение файлов построчно и группировка
- Читать файл целиком (текстовые редакторы/Эксель)
- Построчное чтение - расход оперативной памяти обычно близок к 0

In [None]:
f = open('cards.csv')

f.close()

In [19]:
stats = {'червы': 3}  # {'червы': 3, 'пики': 1, 'бубны': 1}

stats.setdefault('червы', 0)
stats.setdefault('бубны', 0)
stats

{'червы': 3, 'бубны': 0}

In [24]:
stats = {}

with open('cards.csv') as f:
    # content = f.readlines()  # получаем список - это НЕ построчное чтение
    
    for i, line in enumerate(f):  # построчное чтение
        line = line.strip().split(',')
        
        suit, _ = line  # если в списке line точно два значения
        # suit = line[0]
        # value = line[1]
        
        print(i, suit)
        
        stats.setdefault(suit, 0)
        stats[suit] += 1
#         if suit in stats:
#             stats[suit] += 1
#         else:
#             stats[suit] = 1
        
        if i > 5:
            break
            
stats

0 червы
1 пики
2 червы
3 бубны
4 червы
5 пики
6 трефы


{'червы': 3, 'пики': 2, 'бубны': 1, 'трефы': 1}

In [28]:
f = open('cards.csv')

suits_list = [x.strip().split(',')[0] for x in f]
suits_list[:5]

['червы', 'пики', 'червы', 'бубны', 'червы']

In [29]:
from collections import Counter

In [30]:
Counter(suits_list)

Counter({'червы': 25020, 'пики': 24934, 'бубны': 24932, 'трефы': 25114})

In [31]:
import pandas as pd

In [34]:
pd.read_csv('cards.csv', names=['suit', 'value'])['suit'].value_counts()

трефы    25114
червы    25020
пики     24934
бубны    24932
Name: suit, dtype: int64

# Кодировки
1. Указать кодировку при открытии / записи в файл
```python
open('data.csv', mode='w', encoding='utf-8')  # Windows-1251 --> encoding='cp1251'
```
2. Текстовый редактор открывает ваш результат криво.
3. Эксель
4. Русские буквы в составе списков и словарей.

In [37]:
data = ['Москва', 'Питер']

In [38]:
import json

In [40]:
json.dumps(data, ensure_ascii=False)

'["Москва", "Питер"]'

In [None]:
0010010101010100101

In [35]:
# ASCII

ord('A')

65

In [36]:
chr(65)

'A'

UNICODE

Опции при открытии файлов:
- 'r' открыть для чтения. Файл при этом не меняется
- 'w' открыть файл для записи. Файл при этом полностью чистится (!)
- 'a' открыть файл для добавления. Файл не меняется, все записи добавляются в конец

In [None]:
# открываем файл для чтения (опция r)
f = open('visit_log.csv', 'r')

In [None]:
# прочитать первую строчку
f.readline()

In [None]:
# прочитать еще одну
f.readline()

In [None]:
# можно и так
next(f)

In [None]:
# прочитать все содержимое файла в переменную content
content = f.readlines()

In [None]:
content[:5]

In [None]:
# построчное чтение файла
for line in f:
    print(line)
    
    break

Часто используется конструкция 
```python
another_line.strip().split(',')
```

In [None]:
another_line = f.readline()
another_line

In [None]:
# удаляем перенос строки и лишние пробелы
another_line.strip()

In [None]:
# разбиваем столбцы
another_line.strip().split(',')

In [None]:
# закрытие файла
f.close()

In [None]:
# после закрытия не получится прочитать
f.readline()

In [None]:
# прочитать все строчки файла в список (т. е. в оперативную память)
f = open('visit_log.csv', 'r')

content = f.readlines()

f.close()

In [None]:
content[:5]

In [None]:
f = open('results.csv', 'w')

In [None]:
f.write('Начинаю запись первой строки...\n')

In [None]:
f.write('Начинаю запись второй строки...\n')

Здесь кто-то еще хочет в него записать

In [None]:
my_friend_results = open('results.csv', 'w')

In [None]:
my_friend_results.write('Тут еще результаты есть')

In [None]:
# пишем свой результат
f.close()

In [None]:
# и наш результат перезатирается
my_friend_results.close()

### Контекстный менеджер
Как обезопасить себя от подобных накладок

In [None]:
with open('results.csv', 'w') as f:
    f.write('Начинаю запись первой строки...\n')
    f.write('Начинаю запись второй строки...\n')
    
    my_friend_results = open('results.csv', 'w')
    my_friend_results.write('Тут еще результаты есть')
    my_friend_results.close()

### А можно читать и сразу в файл записывать?
Напишите функцию, которая фильтрует файл visit_log.csv по источнику context и пишет результат в visits_context.csv. Используйте функцию из второго упражнения для проверки результата.

# Чтение списков и словарей из файла
Смотрим что в файле purchase_log.txt. Похоже тут не строки, а словари

In [None]:
with open('purchase_log.txt') as f:
    print([next(f) for x in range(5)])

In [None]:
import json

In [None]:
# перевод строки в словарь
dict_in_string = '{"a": 1, "b": 2}'

type(json.loads(dict_in_string))

In [None]:
# перевод строки в список
list_in_string = '[1, 2, 3]'

json.loads(list_in_string)[-1]

In [None]:
i = 0
with open('purchase_log.txt') as f:
    for line in f:
        line = line.strip()
        
        dict_ = json.loads(line)
        print(dict_, type(dict_))
        
        i += 1
        if i > 5:
            break

### Из словаря в строку тоже можно

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [None]:
json.dumps(data)

In [None]:
type(json.dumps(data))

# Модуль pickle
Запись объекта сразу в файл как поток байтов

In [None]:
import pickle

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [None]:
with open('data.pickle', 'wb') as f:
    pickle.dump(data, f)

In [None]:
# прочитать объект из такого файла

with open('data.pickle', 'rb') as f:
    dict_ = pickle.load(f)
    
dict_, dict_['user_id']

# Чтение файлов из папки

In [None]:
import os

In [None]:
# чтение файлов и папок
for file in os.listdir('data'):
    print(file)

In [None]:
# чтение всех файлов и папок, в том числе вложенных
for root, directory, file in os.walk('data'):
    print(root, directory, file)

# Каталог пакетов pip (Python Package Index)
Варианты установки
1. С помощью Anaconda Navigator
2. В командной строке (Terminal на маке)
```bash
pip install package_name
```
3. Скачать версию с github и установить вручную
```bash
pip install .
```

Пакеты устанавливаются в определенное окружение! Вам пригодится virtualenv

In [None]:
!pip install pyyaml

In [None]:
import plotly

# Простой импорт

In [None]:
import sys
sys.path

In [None]:
# добавляем в список библиотек папку libs
sys.path.append('libs')
sys.path

In [None]:
from useful_codes import CATEGORIES

In [None]:
CATEGORIES

In [None]:
from useful_codes import word_count

In [None]:
# посмотреть документацию функции

?word_count

In [None]:
word_count('Посчитай количество слов в тексте')

# Домашнее задание
1. Переведите содержимое файла purchase_log.txt в словарь purchases вида:
```python
{'1840e0b9d4': 'Продукты', ...}
```

2. Для каждого user_id в файле visit_log.csv определите третий столбец с категорией покупки (если покупка была, сам файл visit_log.csv изменять не надо). Запишите в файл funnel.csv визиты из файла visit_log.csv, в которых были покупки с указанием категории.

Учтите условия на данные:
- содержимое purchase_log.txt помещается в оперативную память компьютера
- содержимое visit_log.csv - нет; используйте только построчную обработку этого файла

Используйте метод json.loads()

In [41]:
200000 * 100000

20000000000

In [None]:
for line in visit_log:
    if user_id in purchases:  # за секунду