In [59]:
import pandas as pd
import chardet
import json
import requests
import vertica_python

Получение списка всех групп из Vertica:

In [72]:
def get_groups_from_vertica():
    conn_info = {'host': 'vertica-dwh-proxy',
             'port': 5435,
             'user': 'sakornilova',
             'password': 'YaJZtNfel2P8TSH',
             'database': 'DWH'
            }

    def executeScriptsFromFile(filename, connection_cursor):

        fd = open(filename, 'r')
        sqlFile = fd.read()
        fd.close()

        sqlCommands = sqlFile.split(';')

        for command in sqlCommands:
            try:
                connection_cursor.execute(command)
            except Exception:
                print(Exception)

    filename = 'sql_file.sql'

    with vertica_python.connect(**conn_info) as connection:
        cur = connection.cursor('dict')
        executeScriptsFromFile(filename, cur)
        df = pd.DataFrame(cur.fetchall())

    df.loc[df['Region'].isin(['Москва', 'Санкт-Петербург', 'Московская область'])]
    df1 = df[['User_id_ext', 'Item_id_ext', 'parent_pe_key']]
    grouped = df1.groupby(['parent_pe_key', 'User_id_ext']).agg(list).reset_index()
    df_grouped = pd.DataFrame({
            'userId': grouped['User_id_ext'], 
            'description': grouped['parent_pe_key'].map(str) + ' ' + grouped['User_id_ext'].map(str),
            'itemIds': grouped['Item_id_ext']
        })
    df_grouped.reset_index(drop=True, inplace=True)
    return df_grouped

In [61]:
get_groups_from_vertica()

Unnamed: 0,userId,description,itemIds
0,133160569,0IMD8MD5RZ 133160569,"[1329318286, 1236189091, 1439883909, 129552973..."
1,146169090,0QYYRJ4ISR 146169090,"[1427087462, 1760716680, 1322246636, 134171098..."
2,161469546,1FUQCSPCJA 161469546,"[1017967177, 1313026395, 1481931059, 147293015..."
3,150841778,1FVLTV88BV 150841778,[1375938285]
4,133088366,1VIKR53WQU 133088366,"[1555907932, 1615502313, 1049118236, 177251652..."
5,144322111,21GELHCVQL 144322111,"[1631487431, 1616169068, 1379558378, 103377758..."
6,123130230,2YLYQGAQXE 123130230,"[1780065600, 1472655074, 1433591918, 135163473..."
7,161469546,38IYXFXAHA 161469546,"[1652446088, 941346956, 1666634180, 1028066098..."
8,161469546,3CVHRHQNTC 161469546,"[1297453839, 1389890627, 1431341480, 1198330750]"
9,161469546,3Y8YBZEUGW 161469546,"[1062754289, 1556361836, 1153153043, 162738365..."


Получение всех групп из API:

In [62]:
def get_groups_from_api():
    url = 'http://app00:8888/service-calltracking'+'/itemGroup/search'
    header = {'content-type': 'application/json'}

    payload = {'id': 21}
    r = requests.post(url, headers = header) #,data=json.dumps(payload))
    data = json.loads(r.text)
   
    df = pd.DataFrame(data['result']['items'])
    df_groups_api = pd.DataFrame({
        'groupId': df['groupId'],
        'userId': df['userId'], 
        'description': df['description'],
        'itemIds': df['itemIds']})
    df_groups_api.reset_index(drop=True, inplace=True)
    return df_groups_api

In [63]:
get_groups_from_api()

Unnamed: 0,groupId,userId,description,itemIds
0,1144861262,114486126,Луидор-Эксперт control,"[1061860533, 951064482, 1444508841, 1280074774..."
1,1144861261,114486126,Луидор-Эксперт test,"[1336623528, 1259304347, 1292808097, 937207360..."
2,685715332,68571533,КАН АВТО ЭКСПЕРТ control,"[1321760726, 1474308993, 1267777667, 119674681..."
3,685715331,68571533,КАН АВТО ЭКСПЕРТ test,"[1255384388, 1165239360, 1316940924, 142744737..."
4,208522522,20852252,СП БИЗНЕС КАР control,"[1091010439, 1060581163, 1548168636, 135369390..."
5,208522521,20852252,СП БИЗНЕС КАР test,"[976748295, 1295768947, 1413701103, 1616534291..."
6,22,38193706,ЖК «Дмитров Парк» 38193706,[]
7,21,141611872,ЖК «Ostrov» (Остров) 141611872,"[1299152908, 1320384852, 1323959423, 140426404..."
8,20,141611872,ЖК «NEWПИТЕР» (Ньюпитер) 141611872,"[991742757, 1139810723, 1299419001, 1404137374..."
9,19,141611872,ЖК «Сосновка» 141611872,"[1216949395, 1280344683, 1297054830, 131667543..."


**Сравнение списков групп:**
находим те группы, которые есть в Vertica, но отсутствуют в API

In [66]:
def get_new_groups():
    vertica_groups = get_groups_from_vertica()
    api_groups = get_groups_from_api().drop('groupId', 1)

    # ищем разные строки в файле и выгрузке из api
    # это работает, если в датафреймах нет дубликатов (их у нас не должно быть)
    diff = pd.concat([vertica_groups, api_groups]).drop_duplicates(['userId', 'description'], keep=False)

    # оставляем только те строки из diff, которые есть в файле
    diff = diff[diff.isin(vertica_groups)].dropna()
    diff.reset_index(drop=True, inplace=True)
    return diff

In [67]:
get_new_groups()

Unnamed: 0,userId,description,itemIds
0,133160569.0,0IMD8MD5RZ 133160569,"[1367456739, 1482804251, 1376518820, 133968777..."
1,146169090.0,0QYYRJ4ISR 146169090,"[1427087462, 1760716680, 1322246636, 134171098..."
2,161469546.0,1FUQCSPCJA 161469546,"[1472930150, 1589449514, 1280165563, 164028190..."
3,150841778.0,1FVLTV88BV 150841778,[1375938285]
4,133088366.0,1VIKR53WQU 133088366,"[1446730798, 1428504705, 1063302252, 146644101..."
5,144322111.0,21GELHCVQL 144322111,"[1604881964, 1100425498, 1541345720, 139429104..."
6,123130230.0,2YLYQGAQXE 123130230,"[1780463335, 1780695355, 1780665015, 137956410..."
7,161469546.0,38IYXFXAHA 161469546,"[1665429110, 1418335850, 1284474982, 168650062..."
8,161469546.0,3CVHRHQNTC 161469546,"[1389890627, 1431341480, 1198330750, 1297453839]"
9,161469546.0,3Y8YBZEUGW 161469546,"[1565914776, 1153153043, 1627383655, 161939821..."


Добавление новых групп и их items в API:
<br/>(на вход подается датафрейм с новыми группами, которых нет еще в api)

In [70]:
def add_new_groups(df_new_groups):
    url = 'http://app00:8888/service-calltracking'+'/itemGroup/createGroup'
    for i in range(0, len(df_new_groups)):
        data = {
                'userId': int(df_new_groups['id'][i]),
                'description': df_new_groups['description'][i],
                'itemIds': df_new_groups['itemIds'][i]
                    }
        r = requests.post(url, data = data)

Поиск отсутствующих items для существующих групп:

In [75]:
def get_new_items_for_existing_groups():
    df1 = get_groups_from_vertica()
    df2 = get_groups_from_api().drop('groupId', 1)

    # в df актуальные items
    df = pd.concat([df1,df2], sort=True)
    df['itemIds_actual'] = df['itemIds']

    # для удаления дубликатов сравниваем список itemIds в string формате
    df['itemIds_actual_str'] = df['itemIds'].astype(str)
    df.drop_duplicates(['userId','description', 'itemIds_actual_str'], keep=False)
    
    # удаляем дубликаты новых групп
    df = pd.concat([df, get_new_groups()], sort=True).drop_duplicates(['userId','description'], keep=False)
    df.reset_index(drop=True, inplace=True)

    # join таблиц по description, чтобы потом найти недостающие items для api
    df.set_index('description').join(df2.set_index('description'), lsuffix='_actual', rsuffix='_api', on='description')

    def diff(first, second):
        second = set(second)
        return [item for item in first if item not in second]

    # в этом столбце значения items, которые нужно добавить в api
    df['new_items'] = df.apply(lambda row: list(set(row.itemIds_actual) - set(row.itemIds)), axis=1)

    df = df.drop(['itemIds', 'itemIds_actual', 'itemIds_actual_str'], axis=1)
    
    # если пустой массив новых items, то исключаем строку
    #df = df[df['new_items'].map(lambda d: len(d)) > 0]
    return df

In [76]:
get_new_items_for_existing_groups()

Unnamed: 0,description,userId,new_items
0,Луидор-Эксперт control,114486126.0,[]
1,Луидор-Эксперт test,114486126.0,[]
2,КАН АВТО ЭКСПЕРТ control,68571533.0,[]
3,КАН АВТО ЭКСПЕРТ test,68571533.0,[]
4,СП БИЗНЕС КАР control,20852252.0,[]
5,СП БИЗНЕС КАР test,20852252.0,[]
6,ЖК «Дмитров Парк» 38193706,38193706.0,[]
7,ЖК «Ostrov» (Остров) 141611872,141611872.0,[]
8,ЖК «NEWПИТЕР» (Ньюпитер) 141611872,141611872.0,[]
9,ЖК «Сосновка» 141611872,141611872.0,[]


Получение groupId через userId и description:

In [309]:
def get_group_id_for_new_items():
    df_new_items = get_new_items_for_existing_groups()
    api_groups = get_groups_from_api()

    df_new_items_with_groupid = pd.merge(df_new_items, api_groups, on=['description', 'id'], how='left')
    return df_new_items_with_groupid

Добавление отсутствующих items для уже существующих групп в API:
<br/>(на вход подается df из метода get_group_id_for_new_items() )

In [310]:
def add_new_items_to_existing_groups(df_new_items_with_groupid):
    url = 'http://app00:8888/service-calltracking'+'/itemGroup/addItemToGroup'
    for i in range(0, len(df_new_items_with_groupid)):
        data = {
                'groupId': df_new_items_with_groupid['groupId'][i],
                'itemIds': df_new_items_with_groupid['new_items'][i]
                    }
        r = requests.post(url, data = data)