<center>
# MLClass. "Прикладной анализ данных"
# Модуль "Инструментарий Data Science"
<img src="../img/mlclass_logo.jpg" height="240" width="240">

## Автор материала: Юрий Кашницкий, ФКН НИУ ВШЭ
</center>
Материал распространяется на условиях лицензии <a href="http://creativecommons.org/licenses/by-sa/4.0/">Creative Commons Attribution-Share Alike 4.0</a>. Можно использовать в любых целях, но с обязательным упоминанием автора курса и аффилиации.

## Пример реальной задачи по парсингу данных

In [1]:
# Python 2 and 3 compatibility
# pip install future
from __future__ import (absolute_import, division,
                        print_function, unicode_literals)
from builtins import *

Допустим, в кассе "Яндекс" есть счета, выставленные клиентам магазина, и соттветсвующие платежи. Платежи выставляются на конкретный e-mail и имеют ID платежа. Все почтовые ящики уникальны, на один ящик может быть послано несколько платежей с разными ID (обязаьтельно разными) и суммой (необязательно разными).

<img src="../img/kassa_bills.png">

По выставленным платежам есть реальные оплаты. ID платежа и сумма.

<img src="../img/kassa_payments.png">

Как нам составить таблицу почтовых ящиков с реально оплаченными счетами, чтоб понять, кто сколько заплатил в сумме?

Создадим функцию, которая считывает файл с данными о счетах и возвращает словарь словарей  вида {e-mail: {trans_id1: amount1, trans_id2: amount2}}

In [2]:
BILL_ID_PREFIX = "48241-"

def parse_bills(input_path):
    bills_dict = {}
    with open(input_path, encoding="utf8") as bills:
        for line in bills:
            if BILL_ID_PREFIX in line:
                trans_id = int(line.strip().split(BILL_ID_PREFIX)[1])
                email_id = bills.readline().strip()
                amount = int(bills.readline().strip()\
                             .split(',')[0].replace(' ',''))
                if email_id not in bills_dict:
                    bills_dict[email_id] = {trans_id: amount}
                else:
                    bills_dict[email_id][trans_id] = amount
    return bills_dict

In [3]:
print(parse_bills("../data/kassa_bills.txt"))

{u'alega19@mail.ru': {52: 42}, u'Hellboysis666@gmail.com': {37: 42}, u'seregalu@yandex.ru': {23: 32}, u'kushchev.va@vtb24.ru': {10: 42}, u'vbokr@mail.ru': {57: 10, 58: 10, 9: 20}, u'441976@inbox.ru': {24: 12}, u'elena.fomenko8@gmail.com': {65: 10, 66: 10, 51: 20}, u'dimkat@gmail.com': {6: 12}, u'grayskripko@gmail.com': {15: 42}, u'arsen.nafka@gmail.com': {71: 10}, u'stebljuk@gmail.com': {42: 42}, u'roslov.anton@gmail.com': {2: 10}, u'demuradmitriy@yandex.ru': {32: 22}, u'romix.bv@gmail.com': {41: 42}, u'artem94@bk.ru': {28: 10}, u'kulyok.bag@gmail.com': {31: 10}, u'diana.sungatullina@gmail.com': {38: 42}, u'ivan.girya@gmail.com': {19: 10}, u'gaiar@baimuratov.ru': {78: 12}, u'roman.zakharovp@gmail.com': {13: 22}, u'a.l.shevchenko.ua@gmail.com': {5: 22}, u'bobrovviktor@gmail.com': {36: 12, 47: 10}, u'belskikh.aleksandr@gmail.com': {45: 42}, u'al.krot.kav@gmail.com': {1: 1}, u'khusnutdinova.e@gmail.com': {3: 10}, u'kkrasnoschekov@genplanmos.ru': {72: 10, 73: 12}, u'sergey.salnikov.dev@yan

Теперь попроще - обработаем файл с платежами. Создадим функцию, которая считывает файл с платежами и возвращает список ID платежей, по которым реально прошла оплата.

In [4]:
def parse_payments(input_path):
    paid_ids = []
    with open(input_path, encoding="utf8") as f:
        for line in f:
            if BILL_ID_PREFIX in line \
            and "ID" + BILL_ID_PREFIX not in line:
                paid_ids.append(line.strip().split('48241-')[1])
        paid_ids = [int(id) for id in paid_ids]
    return paid_ids

Вот ID счетов, по которым прошла оплата

In [5]:
print(parse_payments("../data/kassa_payments.txt"))

[82, 83, 80, 78, 73, 24, 77, 72, 76, 65, 75, 74, 66, 69, 13, 62, 64, 51, 61, 18, 2, 60, 59, 58, 57, 4, 20, 16, 5, 11, 55, 46, 29, 19, 48, 25, 9, 22, 27, 3, 47, 12, 15, 36, 45, 39, 33, 34, 6, 26]


Наконец, создадим финальный словарь

In [6]:
def paid_emails(bills_dict, paid_ids):
    paid_emails_dic = {}
    for email_id in bills_dict:
        for trans_id in bills_dict[email_id]:
            if trans_id in paid_ids:
                if email_id not in paid_emails_dic:
                    paid_emails_dic[email_id] = [[trans_id], 
                                          bills_dict[email_id][trans_id]]
                else:
                    new_ids, new_amount = paid_emails_dic[email_id][0], \
                                            paid_emails_dic[email_id][1]
                    new_ids.extend([trans_id])
                    new_amount += bills_dict[email_id][trans_id]
                    paid_emails_dic[email_id] = [new_ids, new_amount]
    return paid_emails_dic

In [7]:
bills_dict = parse_bills("../data/kassa_bills.txt")
paid_ids = parse_payments("../data/kassa_payments.txt")

print(paid_emails(bills_dict, paid_ids))

{u'vbokr@mail.ru': [[57, 58, 9], 40], u'441976@inbox.ru': [[24], 12], u'elena.fomenko8@gmail.com': [[65, 66, 51], 40], u'dimkat@gmail.com': [[6], 12], u'roslov.anton@gmail.com': [[2], 10], u'intendia@gmail.com': [[27], 10], u'bellmsk@gmail.com': [[18], 42], u'ivan.girya@gmail.com': [[19], 10], u'gaiar@baimuratov.ru': [[78], 12], u'roman.zakharovp@gmail.com': [[13], 22], u'a.l.shevchenko.ua@gmail.com': [[5], 22], u'bobrovviktor@gmail.com': [[36, 47], 22], u'belskikh.aleksandr@gmail.com': [[45], 42], u'khusnutdinova.e@gmail.com': [[3], 10], u'kkrasnoschekov@genplanmos.ru': [[72, 73], 22], u'sergey.salnikov.dev@yandex.ru': [[60, 77, 62], 30], u'a-karelsky@hotmail.com': [[48], 10], u'adeykin90@gmail.com': [[55], 10], u'antonkiselev@me.com': [[59], 10], u'grayskripko@gmail.com': [[15], 42], u'pavel7ovchinnikov@gmail.com': [[11], 10], u'andryuha-v@mail.ru': [[80, 64, 75], 32], u'junky.man@yandex.ru': [[20], 10], u'belindr@mail.ru': [[12], 22], u'pavelpakhomov@gmail.com': [[33, 69], 32], u'an

Напоследок запишем полученные данный в csv-файл, который потом можно редактировать в Excel или текстовом редакторе

In [8]:
def write_to_csv(output_path, paid_emails_dic):
    with open(output_path,'w', encoding="utf8") as paid_file:
        for email_id in paid_emails_dic:
            paid_file.write('{0};{1};{2}\n'\
                            .format(email_id, 
                                    paid_emails_dic[email_id][0], 
                                    paid_emails_dic[email_id][1]))

In [9]:
paid_emails_dic = paid_emails(bills_dict, paid_ids)
write_to_csv("../output/paid_emails.csv", paid_emails_dic)

Получили на выходе scv-файл, из которого легко сделать такую таблицу:

<img src="../img/paid_emails_output.png">