# Подключение

In [22]:
import pyodbc
import sqlalchemy

In [23]:
conn = pyodbc.connect('DRIVER={SQL Server};SERVER=10.199.13.60;DATABASE=rway;UID=vkomarnitskii;PWD=Rway1')
cursor = conn.cursor()
engine = sqlalchemy.create_engine('postgresql://rway:rway@10.199.13.111/rway_analysis')

## Pandas

In [3]:
import pandas as pd
from math import isnan
from numpy import float64
from pprint import pprint

Тут можно установить параметры отображения для pandas. Сколько показывать строк и столбцов соответственно.

In [4]:
pd.options.display.max_rows = 100
pd.options.display.max_columns = 150

### Отладка


In [5]:
def benchmark(func):
    """
    Декоратор, выводящий время, которое заняло
    выполнение декорируемой функции
    """
    import time
    
    def wrapper(*args, **kwargs):
        t = time.time()
        res = func(*args, **kwargs)
        print(f'{func.__name__} выполнилась за время {time.time() - t:.2f}s')
        return res
    
    return wrapper

## Необходимые функции

Позволяет получить список характеристик для всех предложений из задачи `task_id`. 

In [6]:
@benchmark
def get_harks_by_object_keys(task_id):
    """
    Позволяет получить список характеристик для всех предложений из задачи task_id. 
    :param task_id: id задачи
    :type task_id: str
    :return: DataFrame, в котором указаны характеристики и их значения для всех объектов из задачи task_id
    """
    
#     in_expr = f'({", ".join(list_of_keys)})'
    query = '''
    SELECT
    t_har.Наименование,
    CASE 
        WHEN t.Значение_Тип = 04 THEN CAST(t.Значение_Дата AS varchar)
        WHEN t.Значение_Тип = 03 THEN CAST(t.Значение_Число AS varchar)
        WHEN t.Значение_Тип = 05 THEN t.Значение_Строка
        WHEN t.Значение_Тип = 08 THEN 
        COALESCE(
            (SELECT Наименование FROM [rway].[Справочник].[ДополнительныеЗначенияХарактеристик] t_dop WHERE t_dop.Ссылка = t.Значение),
            (SELECT Наименование FROM [rway].[Справочник].[ТипыОбъектовНедвижимости] t_types WHERE t_types.Ссылка = t.Значение),
            (SELECT Наименование FROM [rway].[Перечисление].[ТипыСделки] t_types_1 WHERE t_types_1.Ссылка = t.Значение),
            (SELECT Наименование FROM [rway].[Перечисление].[ЛогическиеЗначения] t_logic WHERE t_logic.Ссылка = t.Значение),
            (SELECT Наименование FROM [rway].[Перечисление].[ТипыВерифицированности] t_verif WHERE t_verif.Ссылка = t.Значение),
            (SELECT Наименование FROM [rway].[Справочник].[ПодСегменты] t_podseg WHERE t_podseg.Ссылка = t.Значение),
            (SELECT Наименование FROM [rway].[Справочник].[Застройщики] t_zastr WHERE t_zastr.Ссылка = t.Значение),
            (SELECT Наименование FROM [rway].[Справочник].[ОстановкиОбщественногоТранспорта] t_stations WHERE t_stations.Ссылка = t.Значение)                  
        )
    END
        AS Значение,
    t.Объект AS Ссылка
FROM [rway].[РегистрСведений].[ЗначенияХарактеристик] t
    INNER JOIN [rway].[ПВХ].[Характеристики] t_har
        ON t_har.[Ссылка] = t.[Характеристика]
    INNER JOIN [rway].[РегистрСведений].[ПредложенияЗадач] reg_task
        ON reg_task.Предложение = t.Объект
        AND reg_task.Задача in (
            SELECT
                task._IDRRef AS Ссылка
            FROM [rway].[dbo].[_Task62] task
            JOIN [rway].[Документ].[Задание] tasks
                ON task._Fld192RRef = tasks.Ссылка
            JOIN [rway].[Справочник].[ТипыЗадач] types
                ON types.Ссылка = task._Fld231RRef AND types.Наименование = 'Импорт'
            WHERE tasks.КодЗадания = '{}')
    '''.format(task_id)
    
    cursor.execute(query)
#     data_df = pd.read_sql(sql=query, con=conn)

    # Преобразование данных, которые вернул запрос в список списков, одновременно все байты преобразуются в hex
    data = list(map(lambda x: list(x), cursor.fetchall()))
    data_df = pd.DataFrame(data, columns=list(map(lambda x: x[0], cursor.description)))
    # Создание словаря для DataFrame
    return data_df.pivot(index='Ссылка', columns='Наименование', values='Значение')

    

Функция позволяет получить все предложения по конкретному заданию. Задание указывается в виде строки id задания.

Например, `'0001-0405'`

In [7]:
@benchmark
def get_base_info_by_task_id(task_id, offers_count=None):
    """
    :param task_id: id задания
    :param offers_count: Количество предложений для выбора из базы (пустое для выбора всех предложений)
    :type task_id: str
    :return: DataFrame, содержащий все поля, которые можно получить из таблицы "ПредложенияЗадач"
    """
    
    # Запрос к дате задания
    date = cursor.execute("SELECT Дата FROM [rway].[Документ].[Задание] WHERE КодЗадания = '{}'".format(task_id)).fetchone()
    
    top = '' if not offers_count else 'TOP {}'.format(offers_count)
    query = '''
    SELECT {top}
          t.Код,
          t.Ссылка,
          t_task._Fld198 AS КодЗадачи,
          t_source.Наименование AS Источник,
          t.АдресAhunter,
          t.АктуальнаяСсылкаИсточника,
          t.ДатаПересмотраЭкспозиции,
          t.ДатаПроверкиАктуальности,
          t.ДатаРазмещения,
          t.Город,
          t.Описание,
          (SELECT Наименование FROM [rway].[Справочник].[Подсегменты] WHERE Ссылка = t.Подсегмент) AS Подсегмент,
          (SELECT Наименование FROM [rway].[Справочник].[Сегменты] WHERE Ссылка = t.Сегмент) AS Сегмент,
          (SELECT Наименование FROM [rway].[Справочник].[СубъектыРФ] WHERE Ссылка = t.Субъект) AS Субъект,
          t.СсылкаИсточника,
          (SELECT Значение FROM [rway].[Перечисление].[ТипыРынка] WHERE Ссылка = t.ТипРынка) AS ТипРынка,
          (SELECT Значение FROM [rway].[Перечисление].[ТипыСделки] WHERE Ссылка = t.ТипСделки) AS ТипСделки
    FROM [rway].[Справочник].[ПредложенияОбъектовНедвижимости] t
        JOIN [rway].[РегистрСведений].[ПредложенияЗадач] t_offer
            ON Ссылка = t_offer.[Предложение]
        JOIN [rway].[dbo].[_Task62] t_task
            ON t_task.[_IDRRef] = t_offer.[Задача] AND t_task.[_IDRRef] in (
            SELECT
                task._IDRRef AS Ссылка
            FROM [rway].[dbo].[_Task62] task
            JOIN [rway].[Документ].[Задание] tasks
                ON task._Fld192RRef = tasks.Ссылка
            JOIN [rway].[Справочник].[ТипыЗадач] types
                ON types.Ссылка = task._Fld231RRef AND types.Наименование = 'Импорт'
            WHERE tasks.КодЗадания = '{task_id}')
        JOIN [rway].[Справочник].[Источники] t_source
            ON t_source.Ссылка = ИсточникИнформации

    '''.format(top=top, task_id=task_id)
    
    cursor.execute(query)    
    data = cursor.fetchall()
    # Те же самые преобрзования, как в функции с характеристиками
    df = pd.DataFrame(map(lambda x: list(x), data))
    df.columns = list(map(lambda x: x[0].replace('.', '_'), cursor.description))
    df['КодЗадания'] = task_id
    df['ДатаЗадания'] = date[0]
#     df = pd.read_sql(sql=query, con=conn)
    return df
    

# Боевой запуск
Здесь необходимо указать код задания, по которому будет происходить сбор данных.

In [25]:
task_id = '0001-0410'

In [26]:
# Сбор основных данных из "ПредложенияОбъектовНедвижимости"
base_df = get_base_info_by_task_id(task_id)

get_base_info_by_task_id выполнилась за время 29.28s


Вывести таблицу с базовыми характеристиками

In [27]:
base_df

Unnamed: 0,Код,Ссылка,КодЗадачи,Источник,АдресAhunter,АктуальнаяСсылкаИсточника,ДатаПересмотраЭкспозиции,ДатаПроверкиАктуальности,ДатаРазмещения,Город,Описание,Подсегмент,Сегмент,Субъект,СсылкаИсточника,ТипРынка,ТипСделки,КодЗадания,ДатаЗадания
0,190801W01016375,"b""\xb5\x9e\x08\x80i\xf7\x9d\xadD\x9f\x84\xfd\x...",0001-0410-0057,MOVE.ru,"Респ Крым, р-н Симферопольский, с Мирное, ул Т...",,2019-08-01 00:00:00,2019-08-01 18:42:11,2019-07-26 00:00:00,,Предлагаем к покупке нежилое помещение общей п...,,Коммерческая Недвижимость,Крым Респ,https://krim.move.ru/objects/prodaetsya_psn_pl...,,,0001-0410,2019-07-31 12:03:55
1,190801W00724809,b'\xbc\xf6F\xb7M\x1b\xd4rFB\xd4v0-w\x02',0001-0410-0040,СИТИСТАР,,,2019-08-01 00:00:00,2019-08-01 17:20:58,2019-08-01 00:00:00,,нет данных,,Коммерческая Недвижимость,Самарская обл,http://samara_realty.citystar.ru/realty/sdacha...,Вторичный,,0001-0410,2019-07-31 12:03:55
2,190801W00087563,b'\xbc\x83\xaa\x16\xa7C\xf2\xc4LO\xd1\x15}\x17...,0001-0410-0053,Vladimirhouse.ru,,,2019-08-01 00:00:00,2019-08-01 14:08:08,2019-08-01 00:00:00,,�5484. ������� � ������ ������� ��������� 267 ...,,Коммерческая Недвижимость,Владимирская обл,http://vladimirhouse.ru/item/374675/,Вторичный,,0001-0410,2019-07-31 12:03:55
3,190801W00087561,"b'\xbbd3\xc1.\xcb""_N\x97\xc9\xa1\xc4\xaf\xe9b'",0001-0410-0053,Vladimirhouse.ru,,,2019-08-01 00:00:00,2019-08-01 14:10:11,2019-08-01 00:00:00,,�4049. ������� � ������ �������� ��������� ���...,,Коммерческая Недвижимость,Владимирская обл,http://vladimirhouse.ru/item/261350/,Вторичный,,0001-0410,2019-07-31 12:03:55
4,190801W00096236,b'\xbb=i\xf9\xb7\x15O\x01I^\x19\xdfI\xdd9\xe6',0001-0410-0053,Vladimirhouse.ru,,,2019-08-01 00:00:00,2019-08-01 14:14:47,2019-08-01 00:00:00,,�3426. ��������� �������-������� ��������� 582...,,Коммерческая Недвижимость,Владимирская обл,http://vladimirhouse.ru/item/218173/,Вторичный,,0001-0410,2019-07-31 12:03:55
5,190801W00125400,b'\xb86\x81Vw\xe7\xc0\xe1Iu\xe4\\/P\xacY',0001-0410-0053,Vladimirhouse.ru,,,2019-08-01 00:00:00,2019-08-01 14:38:41,2019-08-01 00:00:00,,12385. Ñäàåòñÿ â àðåíäó òîðãî...,,Коммерческая Недвижимость,Владимирская обл,http://vladimirhouse.ru/item/113220/,Вторичный,,0001-0410,2019-07-31 12:03:55
6,190801W00220598,b'\xb8B\xc8\x90\x9a\xf6W\x8cA\xc1\xec\xf9\x9aSng',0001-0410-0046,Олимп - АН,,,2019-08-01 00:00:00,2019-08-01 15:00:52,2019-08-01 00:00:00,,нет данных,,Коммерческая Недвижимость,Краснодарский край,http://olymprealty.ru/sale/445955/nedvizhimost...,Вторичный,,0001-0410,2019-07-31 12:03:55
7,190801W00075680,b'\xb6\xd1\x0f\xcf\xaa\\\xb6\x07Dk\x0cI\xa6\x0...,0001-0410-0053,Vladimirhouse.ru,,,2019-08-01 00:00:00,2019-08-01 14:01:52,2019-08-01 00:00:00,,������������������� ���������-��������������� ...,,Коммерческая Недвижимость,Владимирская обл,http://vladimirhouse.ru/item/391507/,Вторичный,,0001-0410,2019-07-31 12:03:55
8,190801W00075679,b'\xb6?[ \x062\xf7\x9eAj\xfe\xde\xf3\x99\xb3n',0001-0410-0053,Vladimirhouse.ru,,,2019-08-01 00:00:00,2019-08-01 14:01:54,2019-08-01 00:00:00,,"��������������� �����, ����������� �����. ��� ...",,Коммерческая Недвижимость,Владимирская обл,http://vladimirhouse.ru/item/363727/,Вторичный,,0001-0410,2019-07-31 12:03:55
9,190801W00996124,b'\xb5\x96oe[I\xe6rB\xde=\xa40<\xa8|',0001-0410-0040,СИТИСТАР,,,2019-08-01 00:00:00,2019-08-01 19:02:51,2019-08-01 00:00:00,,нет данных,,Коммерческая Недвижимость,Самарская обл,http://samara_realty.citystar.ru/realty/sdacha...,Вторичный,,0001-0410,2019-07-31 12:03:55


Сбор характеристик по ссылкам из основного DataFrame base_df

In [None]:
har_df = get_harks_by_object_keys(task_id)

Вывести таблицу со значениями харакетристик из ПВХ.

In [None]:
har_df

Собираем обе таблицы в одну большую

In [None]:
result_df = pd.merge(base_df, har_df, on='Ссылка', how='left')

In [None]:
result_df

Функция, в которой и происходит тестирование.

In [None]:
@benchmark
def make_test():
    new_df = pd.DataFrame(columns=set(result_df.loc[:, 'Источник']), index=list(result_df.columns.fillna(0)) + ['Всего'])
    nan = float('nan')
    for source in set(result_df['Источник']):
        filtered = result_df[result_df['Источник'] == source]
        new_df.loc['Всего', source] = len(filtered)
        count_s = filtered.replace('', nan).replace('НетДанных', nan).replace('0.000000', nan).replace('нет данных', nan).count()
        for k, v in count_s.items():
            new_df.loc[k, source] = v * 100 / new_df.loc['Всего', source]
        new_df.loc['КодЗадания', source] = list(filtered['КодЗадания'])[0]
        new_df.loc['КодЗадачи', source] = list(filtered['КодЗадачи'])[0]
    new_df.loc['ДатаЗадания'] = list(filtered['ДатаЗадания'])[0]
    new_df = new_df.T

    return new_df

In [None]:
test = make_test()

Вывести на экран таблицу с результатами теста

In [None]:
test

Выгрузка данных в `csv` файл для удобного просмотра в Excel

In [None]:
# test.to_csv('test_result.csv', header=list(test.columns), encoding='cp1251', sep=';')
test.columns = list(map(lambda x: x.replace('(', '_').replace(')', '_').replace('.', '_').replace(' ', '_'), test.columns))

Запись результатов теста в базу

In [None]:
test.to_sql('fill_rate', con=engine, if_exists='append')