### Задача с собеседований

Дана строчка sequence с последовательностью натуральных чисел, разделенных пробелом. Посчитайте:
1. Количество четных и нечетных чисел в этой строке
2. Если четных больше, то укажите номер позиции первого "лишнего" нечетного числа
3. Если нечетных больше, то укажите позицию первого "лишнего" четного числа
4. Как бонусный вариант оформите код в виде функции

In [1]:
sequence = '2 3 1 5 9 22 3 5'

Может пригодиться:

In [2]:
# получить список из строки
sequence.split(' ')

['2', '3', '1', '5', '9', '22', '3', '5']

In [3]:
# перевод строки в целое число
int('2')

2

In [4]:
# проверка четности
22 % 2 == 0

True

# Чтение файлов
Рассматриваем задачу сквозной аналитики. Будем работать с этими файлами:
- visit_log.csv
- purchase_log.txt

### Способ 1. Делаем все пошагово
Опции при открытии файлов:
- 'r' открыть для чтения. Файл при этом не меняется
- 'w' открыть файл для записи. Файл при этом полностью чистится (!)
- 'a' открыть файл для добавления. Файл не меняется, все записи добавляются в конец

In [5]:
# открываем файл для чтения (опция r)
f = open('visit_log.csv', 'r')


In [6]:
# прочитать первую строчку
f.readline(1)

'u'

In [7]:
# прочитать еще одну
f.readline()

'ser_id,source\n'

In [8]:
# можно и так
next(f)

'6450655ae8,other\n'

In [9]:
# прочитать все содержимое файла в переменную content
content = f.readlines()

In [10]:
content[:5]

['b4ea53e670,other\n',
 '0e37347152,other\n',
 '96064ae9e0,other\n',
 'e1bd168161,context\n',
 '71bcf169b4,other\n']

In [11]:
# построчное чтение файла
for line in f:
    print(line)
    
    break

Часто используется конструкция 
```python
another_line.strip().split(',')
```

In [12]:
another_line = f.readline()
another_line

''

In [13]:
# удаляем перенос строки и лишние пробелы
another_line.strip()

''

In [14]:
# разбиваем столбцы
another_line.strip().split(',')

['']

In [15]:
# закрытие файла
f.close()

In [16]:
# после закрытия не получится прочитать
f.readline()

ValueError: I/O operation on closed file.

In [None]:
# прочитать все строчки файла в список (т. е. в оперативную память)
f = open('visit_log.csv', 'r')

content = f.readlines()

f.close()

In [None]:
content[:5]

### Упражнение
Напишите функцию (или просто код), который возвращает список из первых N строк файла purchase_log.txt без записи всего содержимого файла в оперативную память.

# Запись в файл
Зачем все-таки открывать и закрывать файлы?

In [None]:
f = open('results.csv', 'w')

In [None]:
f.write('Начинаю запись первой строки...\n')

In [None]:
f.write('Начинаю запись второй строки...\n')

Здесь кто-то еще хочет в него записать

In [None]:
my_friend_results = open('results.csv', 'w')

In [None]:
my_friend_results.write('Тут еще результаты есть')

In [None]:
# пишем свой результат
f.close()

In [None]:
# и наш результат перезатирается
my_friend_results.close()

### Контекстный менеджер
Как обезопасить себя от подобных накладок

In [None]:
with open('results.csv', 'w') as f:
    f.write('Начинаю запись первой строки...\n')
    f.write('Начинаю запись второй строки...\n')
    
    my_friend_results = open('results.csv', 'w')
    my_friend_results.write('Тут еще результаты есть')
    my_friend_results.close()

### А можно читать и сразу в файл записывать?
Напишите функцию, которая фильтрует файл visit_log.csv по источнику context и пишет результат в visits_context.csv. Используйте функцию из второго упражнения для проверки результата.

# Чтение списков и словарей из файла
Смотрим что в файле purchase_log.txt. Похоже тут не строки, а словари

In [None]:
with open('purchase_log.txt') as f:
    print([next(f) for x in range(5)])

In [7]:
import json

In [None]:
# перевод строки в словарь
dict_in_string = '{"a": 1, "b": 2}'

json.loads(dict_in_string)

In [None]:
# перевод строки в список
list_in_string = '[1, 2, 3]'

json.loads(list_in_string)[-1]

### Из словаря в строку тоже можно

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}


In [None]:
json.dumps(data)

In [None]:
type(json.dumps(data))

# Модуль pickle
Запись объекта сразу в файл как поток байтов

In [None]:
import pickle

In [None]:
data = {'user_id': '1840e0b9d4', 'category': 'Продукты'}

In [None]:
with open('data.pickle', 'wb') as f:
    pickle.dump(data, f)

In [None]:
# прочитать объект из такого файла

with open('data.pickle', 'rb') as f:
    dict_ = pickle.load(f)
    
dict_, dict_['user_id']

# Чтение файлов из папки

In [None]:
import os

In [None]:
# чтение файлов и папок
for file in os.listdir('data'):
    print(file)

In [None]:
# чтение всех файлов и папок, в том числе вложенных
for root, directory, file in os.walk('data'):
    print(root, directory, file)

# Каталог пакетов pip (Python Package Index)
Варианты установки
1. С помощью Anaconda Navigator
2. В командной строке (Terminal на маке)
```bash
pip install package_name
```
3. Скачать версию с github и установить вручную
```bash
pip install .
```

Пакеты устанавливаются в определенное окружение! Вам пригодится virtualenv

In [None]:
!pip install pyyaml

In [None]:
import plotly

# Простой импорт

In [None]:
import sys
sys.path

In [None]:
# добавляем в список библиотек папку libs
sys.path.append('libs')
sys.path

In [None]:
from useful_codes import CATEGORIES

In [None]:
CATEGORIES

In [None]:
from useful_codes import word_count

In [None]:
# посмотреть документацию функции

?word_count

In [None]:
word_count('Посчитай количество слов в тексте')

# Домашнее задание
1. Переведите содержимое файла purchase_log.txt в словарь purchases вида:
```python
{'1840e0b9d4': 'Продукты', ...}
```

2. Для каждого user_id в файле visit_log.csv определите третий столбец с категорией покупки (если покупка была, сам файл visit_log.csv изменять не надо). Запишите в файл funnel.csv визиты из файла visit_log.csv, в которых были покупки с указанием категории.

Учтите условия на данные:
- содержимое purchase_log.txt помещается в оперативную память компьютера
- содержимое visit_log.csv - нет; используйте только построчную обработку этого файла

In [8]:
import json
d={}
with open('purchase_log.txt', encoding ='utf-8') as f:
    for line in f:
        line = line.strip()
        dict_ = json.loads(line)
        mydic = dict({dict_['user_id']: dict_['category']})
        for i,y in mydic.items ():
            d [i] = y
    print (d)

TypeError: items() takes no arguments (1 given)

In [9]:
with open('visit_log.csv', 'r') as f:
    with open('funnel.csv', 'w') as f2write:
        for line in f:
            user_id, source = line.strip().split(',')
            category = d.get(user_id)
            if category:
                f2write.write(f"{user_id}, {category}, {source},\n")
    f2write.close()
f.close()