# Работа с файлами
- Прочитать файл из другой папки
- Пример группировки большого файла cards.csv
- Строки с запятыми
- Формат JSON
- Кодировки файлов ([статья 1](https://tproger.ru/translations/unicode-and-encoding-python-guide/) и [статья 2](https://pythononline.ru/osnovy/encode-decode))
- [Проблемы](https://habr.com/ru/post/714818/) с текстами

In [None]:
# вариант 1 - рекомендуемый - файл лежит рядом с кодом
f = open('cards.csv')

In [None]:
# вариант 2 - файл во вложенной папке
# относительный путь
open('logs/another_data/hostlogs_part_5285.csv')

In [12]:
# для "универсальных" путей
import os

In [14]:
os.path.join('logs', 'another_data', 'hostlogs_part_5285.csv')

'logs/another_data/hostlogs_part_5285.csv'

In [None]:
# вариант 3 - произвольная папка

# Mac, Ubuntu, Linux...
open('/Users/kbashevoy/Yandex.Disk.localized/Нетология/Занятия/Занятие 5/logs/hostlogs_part_5285.csv')


In [4]:
'очень длинный \
текст'

'очень длинный текст'

In [6]:
# Windows
r'C:\Users\kbashevoy\cards.csv'

'C:\\Users\\kbashevoy\\cards.csv'

In [8]:
from pathlib import Path
path0 = Path('C:/Users/kbashevoy/data/cards.csv')

In [10]:
path0

PosixPath('C:/Users/kbashevoy/data/cards.csv')

# Задачка на группировку
Посчитать сколько раз каждая масть встречается в файле. Считайте, что файл большой - его размер превышает объем доступной оперативной памяти.

In [None]:
f.readlines()

In [None]:
import pandas as pd  # тоже не подойдет

In [31]:
f = open('cards.csv')

# используем построчное чтение
# вариант 1 - счетчик
i = 0
for line in f:  # в каждом шаге цикла в line пишет одна строка
    # print(line, end='')
    # line = line.strip()  # отрезание переноса строки
    line = line.strip().split(',')
    print(line)
    
    i += 1
    if i > 5:
        break

['червы', '4']
['пики', '4']
['червы', '10']
['бубны', '10']
['червы', '5']
['пики', '9']


In [40]:
f = open('cards.csv')

# используем построчное чтение
# вариант 2 - функция enumerate
for i, line in enumerate(f):  # в каждом шаге цикла в line пишет одна строка
    # print(line, end='')
    # line = line.strip()  # отрезание переноса строки
    line = line.strip().split(',')
    print(line)
    
    if i > 5:
        break

['червы', '4']
['пики', '4']
['червы', '10']
['бубны', '10']
['червы', '5']
['пики', '9']
['трефы', 'дама']


In [None]:
# для каждой масти своя переменная
chervy = 0

# мастей может быть много
# никто не сказал, что мастей 4???

if suit == 'червы':
    chervy += 1

In [53]:
# готовые библиотеки
from collections import Counter

In [55]:
Counter([1, 2, 1, 2, 2, 2, 2, 1, 1, 3])

Counter({2: 5, 1: 4, 3: 1})

In [61]:
stats = {}
suit = 'червы'

if suit in stats:
    # ключ встретился второй, третий итд раз
    stats[suit] += 1
else:
    # первый раз
    stats[suit] = 1
    
stats

{'червы': 1}

In [67]:
stats = {'червы': 1}

stats.setdefault('червы', 0)  # существующие ключ метод не трогает
stats.setdefault('пики', 0)

stats[suit] += 1

stats

{'червы': 2, 'пики': 0}

Декомпозиция задачи:
1. Достаем масть карты.
2. Считаем количество строк для каждой масти.

In [75]:
# словарь синонимов
synonims_dict = {
    'крести': 'трефы',
}

In [77]:
f = open('cards.csv')
stats = {}

for i, line in enumerate(f):
    line = line.strip().split(',')
    
    suit = line[0]
    # приводим все карты к строчным буквам
    suit = suit.lower()
    
    # учет синонимов
    if suit in synonims_dict:
        suit = synonims_dict[suit]
    
    if suit in stats:
        # ключ встретился второй, третий итд раз
        stats[suit] += 1
    else:
        # первый раз
        stats[suit] = 1
    
#     print(suit, stats)
    
#     if i > 5:
#         break

stats

{'червы': 25020, 'пики': 24934, 'бубны': 24932, 'трефы': 25114}

# Кодировки

In [None]:
001001010010111010101

In [81]:
1*2**2 + 0*2**1 + 1*2**0

5

In [None]:
'a' --> число  # ASCII

### Unicode
~ 150 тысяч символов

In [None]:
open('cards.csv', encoding='utf-8')  # cp1251  (Windows-1251)

In [None]:
f.write('', 'w', encoding='utf-8')

In [88]:
'4'.isdigit()

True

In [90]:
"\u2074".isdigit()

True

In [92]:
"\u2074".isdecimal()

False

### Строки с запятыми

In [34]:
with open('sample.csv') as f:
    for line in f:
        line = line.strip().split(',')
        print(line)

['keywords', 'date']
['какая рыба вобла', '2023-06-01']
['"фильмы', ' мотивирующие на уборку"', '2023-06-02']


In [36]:
import csv

In [38]:
with open('sample.csv') as f:
    reader = csv.reader(f, delimiter=',')
    
    for line in reader:
        print(line)

['keywords', 'date']
['какая рыба вобла', '2023-06-01']
['фильмы, мотивирующие на уборку', '2023-06-02']


Опции при открытии файлов:
- 'r' открыть для чтения. Файл при этом не меняется
- 'w' открыть файл для записи. Файл при этом полностью чистится (!)
- 'a' открыть файл для добавления. Файл не меняется, все записи добавляются в конец

In [None]:
# открываем файл для чтения (опция r)
f = open('visit_log.csv', 'r')

In [None]:
# прочитать первую строчку
f.readline()

In [None]:
# прочитать еще одну
f.readline()

In [None]:
# можно и так
next(f)

In [None]:
# прочитать все содержимое файла в переменную content
content = f.readlines()

In [None]:
content[:5]

In [None]:
# построчное чтение файла
for line in f:
    print(line)
    
    break

Часто используется конструкция 
```python
another_line.strip().split(',')
```

In [None]:
another_line = f.readline()
another_line

In [None]:
# удаляем перенос строки и лишние пробелы
another_line.strip()

In [None]:
# разбиваем столбцы
another_line.strip().split(',')

In [None]:
# закрытие файла
f.close()

In [None]:
# после закрытия не получится прочитать
f.readline()

In [None]:
# прочитать все строчки файла в список (т. е. в оперативную память)
f = open('visit_log.csv', 'r')

content = f.readlines()

f.close()

In [None]:
content[:5]

In [None]:
f = open('results.csv', 'w')

In [None]:
f.write('Начинаю запись первой строки...\n')

In [None]:
f.write('Начинаю запись второй строки...\n')

Здесь кто-то еще хочет в него записать

In [None]:
my_friend_results = open('results.csv', 'w')

In [None]:
my_friend_results.write('Тут еще результаты есть')

In [None]:
# пишем свой результат
f.close()

In [None]:
# и наш результат перезатирается
my_friend_results.close()

### Контекстный менеджер
Как обезопасить себя от подобных накладок

In [None]:
with open('results.csv', 'w') as f:
    f.write('Начинаю запись первой строки...\n')
    f.write('Начинаю запись второй строки...\n')
    
    my_friend_results = open('results.csv', 'w')
    my_friend_results.write('Тут еще результаты есть')
    my_friend_results.close()

### А можно читать и сразу в файл записывать?
Напишите функцию, которая фильтрует файл visit_log.csv по источнику context и пишет результат в visits_context.csv. Используйте функцию из второго упражнения для проверки результата.

# Чтение списков и словарей из файла
Смотрим что в файле purchase_log.txt. Похоже тут не строки, а словари

In [None]:
with open('purchase_log.txt') as f:
    print([next(f) for x in range(5)])

In [None]:
import json

In [None]:
# перевод строки в словарь
dict_in_string = '{"a": 1, "b": 2}'

type(json.loads(dict_in_string))

In [None]:
# перевод строки в список
list_in_string = '[1, 2, 3]'

json.loads(list_in_string)[-1]

In [None]:
i = 0
with open('purchase_log.txt') as f:
    for line in f:
        line = line.strip()
        
        dict_ = json.loads(line)
        print(dict_, type(dict_))
        
        i += 1
        if i > 5:
            break

### Из словаря в строку тоже можно

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [None]:
json.dumps(data)

In [None]:
type(json.dumps(data))

# Модуль pickle
Запись объекта сразу в файл как поток байтов

In [None]:
import pickle

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [None]:
with open('data.pickle', 'wb') as f:
    pickle.dump(data, f)

In [None]:
# прочитать объект из такого файла

with open('data.pickle', 'rb') as f:
    dict_ = pickle.load(f)
    
dict_, dict_['user_id']

# Чтение файлов из папки

In [None]:
import os

In [None]:
# чтение файлов и папок
for file in os.listdir('data'):
    print(file)

In [None]:
# чтение всех файлов и папок, в том числе вложенных
for root, directory, file in os.walk('data'):
    print(root, directory, file)

# Каталог пакетов pip (Python Package Index)
Варианты установки
1. С помощью Anaconda Navigator
2. В командной строке (Terminal на маке)
```bash
pip install package_name
```
3. Скачать версию с github и установить вручную
```bash
pip install .
```

Пакеты устанавливаются в определенное окружение! Вам пригодится virtualenv

In [None]:
!pip install pyyaml

In [None]:
import plotly

# Простой импорт

In [None]:
import sys
sys.path

In [None]:
# добавляем в список библиотек папку libs
sys.path.append('libs')
sys.path

In [None]:
from useful_codes import CATEGORIES

In [None]:
CATEGORIES

In [None]:
from useful_codes import word_count

In [None]:
# посмотреть документацию функции

?word_count

In [None]:
word_count('Посчитай количество слов в тексте')

# Домашнее задание
1. Переведите содержимое файла purchase_log.txt в словарь purchases вида:
```python
{'1840e0b9d4': 'Продукты', ...}
```

2. Для каждого user_id в файле visit_log.csv определите третий столбец с категорией покупки (если покупка была, сам файл visit_log.csv изменять не надо). Запишите в файл funnel.csv визиты из файла visit_log.csv, в которых были покупки с указанием категории.

Учтите условия на данные:
- содержимое purchase_log.txt помещается в оперативную память компьютера
- содержимое visit_log.csv - нет; используйте только построчную обработку этого файла

In [None]:
{"user_id": "9b2ab046f3", "category": "Электроника"}

In [None]:
for line in f:
    json.loads(line)

In [103]:
100000 * 200000 / 2

10000000000.0

In [None]:
for line in f_visits:
    # неправильный поиск по словарю
    for key, value in purchases.items():  # примерно 40 минут
        if user_id == key:

### Поиск по ключам словаря - только через оператор in

In [None]:
for line in f_visits:
    if user_id in purchases:  # примерно за 1 секунду
        