# СОДЕРЖАНИЕ
- 0. Описание новой проблемы. Почему не подошло 1-ое решение
- 3. Выявленные проблемы в работе прежней функции
- 5. **НОВОЕ РЕШЕНИЕ**
- 4. Новое решение step-by-step
- 1. Прежнее решение
- 2. Работа прежнего решения на данных с 6-ым уровнем связи

**Описание новой проблемы. Почему не подошло 1-ое решение**

Прошлое решение не дало корректного результата на тестовых данных. Есть большая вероятность того, что в тестовых данных была связь более глубокого уровня, чем 4-ый (1-ая верся функции ищет связь именно до 4-ого уровня). Таким образом, нужно переписать функцию (а возможно и всю ее логику), чтобы поиск данных осуществлялся на любом уровне!

# Выявленные проблемы в работе прежней функции
- нужна предобработка данных, включенная в функцию
    - переименование колонок в 'id_key', 'id_user', 'phone', 'mail'
    - парсинг данных в строки, как и было сделано в предыдущей версии, но за рамками функции (а нужно - внутри функции)
- input: одностраничный .xlsx файл (предобработка должна быть включена в функцию)
    - **RMK:** датафрейм в формате .xlsx открывается гораздо дольше, чем .csv, поэтому функция будет принимать именно загруженный датафрейм в одну из переменных
- уровни связи более 5-ого - проблема 

***

# НОВОЕ РЕШЕНИЕ

**README:**
1. загрузи данные в переменную (например, *df=pandas.read_csv(...)*)
2. приведи их к следующему виду:
        колонка 1: ключ
        колонка 2: id пользователя
        колонка 3: телефон
        колонка 4: почта
3. запусти функцию с данными о переменной, содержащей данные, и строкой запроса

In [1]:
# 1. загрузка данных в переменную
import pandas as pd
df = pd.read_csv('test_data_by_sber.csv', sep=';')

# 2. приведение их к виду: ключ, пользователь, телефон, почта
df = df.drop(columns=['Unnamed: 0'])

In [2]:
## проверка соответсвтия нужному виду
df.head(1)

Unnamed: 0,key,id,phone,mail
0,0,89001,84758280647,fcormbgnvgwxyrxrndfzsnjb@mail.ru


In [3]:
# 3. запускаем функцию со строкой запроса
import FUNCTION as f
query_string = 'id_user = 22296'
res = f.connection_query(df=df, query_s=query_string)
res.head()

Unnamed: 0,key,id,phone,mail
8068,8068,16137,86350580710,twrnepja@mail.ru
28326,28326,22296,82750671293,jfcivwlghrampynyexio@mail.ru
58141,58141,36057,80775677213,krgxswekentolramxxwyjvymwyiqtbfbln@mail.ru
111729,111729,22296,87875724457,rpdbkihbzxebilouiwuomzfle@mail.ru
130000,130000,22296,88171207757,fsldrjgam@mail.ru


***

# Новое решение step-by-step

In [4]:
import pandas as pd

In [5]:
# очень долгая загрузка
# pd.read_excel('test_data_by_sber.xlsx', engine='openpyxl')

In [6]:
# загрузка данных в переменную
df = pd.read_csv('test_data_by_sber.csv', sep=';')

In [7]:
df.head(3)

Unnamed: 0.1,Unnamed: 0,key,id,phone,mail
0,0,0,89001,84758280647,fcormbgnvgwxyrxrndfzsnjb@mail.ru
1,1,1,78010,83572782012,rjmrvewiqzmcjqjbfqbxjztklzojyiw@mail.ru
2,2,2,97883,82971429310,alqinkfjqtqdruoczxyxrjjjzxsjxmr@mail.ru


In [8]:
# приведение их к общему виду: ключ, пользователь, телефон, почта
df = df.drop(columns=['Unnamed: 0'])

In [9]:
df.head(3)

Unnamed: 0,key,id,phone,mail
0,0,89001,84758280647,fcormbgnvgwxyrxrndfzsnjb@mail.ru
1,1,78010,83572782012,rjmrvewiqzmcjqjbfqbxjztklzojyiw@mail.ru
2,2,97883,82971429310,alqinkfjqtqdruoczxyxrjjjzxsjxmr@mail.ru


In [10]:
# функция

In [11]:
def connection_query(df, query_s):
    
    # функция работает со строковыми данными
    # поэтому приведем все данные в DF в строки
    df = df.applymap(str)
    # в конце работы ф-ции вернем типы данных обратно
    
    # сохраним изначально заданные имена колонок
    cols_init = df.columns
    '''test'''
    print('перед циклом while')
    print('\t изначальные колонки:')
    print(cols_init)
    input()
    # унифицированно переименуем колонки, чтобы удобно ссылаться
    cols_unify = ['id_key', 'id_user' , 'phone', 'email']
    df.set_axis(labels=cols_unify, axis=1, inplace=True)
    '''test'''
    print('перед циклом while')
    print('\t уже измененные колонки:')
    print(df.columns)
    input()
    # в конце работы функции переименуем колонки обратно
    
    # приведение к алгоритмическому решению
    '''cols = df.columns.to_list()[1:]'''
    input_ = query_s  
    
    # выделяем из запроса колонку и значение
    col = input_.split(' = ')[0]
    val = input_.split(' = ')[1]
    
    # создаем строку запроса
    q=f'{col} == "{val}"'
    
    # берем из основного DF данные по id_key, удовлетворяющие запросу q
    # прямой запрос по input (связь 1-ого уровня)
    S = []
    for i in df.query(q).id_key.tolist():
        S.append(i)
    
    T = []  # сюда будут складываться id_key связанных данных на всех уровнях связи
    # а из S - наоборот, будут удаляться
    
    '''test'''
    print('после цикла for и перед циклом while')
    print('\tS:')
    print(S)
    print('\tT:')
    print(T)
    input()

    
    # для каждого 1-ого элемента из списка S осуществляем поиск связанных данных так,
    # что в конце список S останется пустой
    # для этого создаем цикл
    
    while S != []:
        
        el_ = S[0]       # берем i-ый элемент
        T.append(el_)  # сохраняем его в итоговый список связаанных id_key
        
        '''test'''
        print('в цикле while')
        print('\tэлемент:')
        print(el_)
        print('\tT:')
        print(T)
        input()
                
        # формируем запрос
        q = f'id_key == "{el_}"'  
        
        '''test'''
        print('в цикле while')
        print('\tзапрос:')
        print(q)
        input()
        
        # сохраняем результат сформированного запроса (РСЗ)
        r = df.query(q)
#         '''test'''
#         print('в цикле while')
#         print('\tрезультат запроса:')
#         print(r)
#         input()
        
        # для k-ой колонки
        for k in r.columns.tolist()[1:]:

            # сохраняем название колонки, с которой работаем
            col_ = k
            
            '''test'''
            print('в цикле while и k')
            print('\t взяли колонку:')
            print(col_)
            input()

            # из результата (РСЗ) возьмем данные из k-ой искомой колонки
            # это будет единственное значение (value), т.к. id_key может быть !только уникальным
            v = r[col_].iloc[0]
            
            '''test'''
            print('в цикле while и k')
            print('\tзначение:')
            print(v)
            input()

            # формируем запрос на поиск связанных с k-ой колонкой данных в id_key
            q = f'{col_} == "{v}"'
            
#             '''test'''
#             print('в цикле while и k')
#             print('\t запрос:')
#             print(q)
#             input()

            # ищем связанные с этим значением (value) данные
            # и сохраняем id_key этих связанных данных
            for j in df.query(q).id_key.tolist():
                S.append(j)
#                 '''test'''
#                 print('в цикле while и k и j')
#                 print('\t S:')
#                 print(S)
#                 input()
        
        '''test'''
        print('в цикле while после k и j')
        print('\t S:')
        print(S)
        input()
        
        # теперь у нас есть набор id_key в списке S
        # но этот набор с дубликатами и несортированный
        
        # удаляем дубликаты
        S = list(dict.fromkeys(S))

        # сортируем
        S = list(map(int, S))
        S.sort()
        S = list(map(str, S))
        
        '''test'''
        print('в цикле while после k и j')
        print('\t S без дубликатов и сортированный:')
        print(S)
        input()
        
        # теперь список S у нас отсортирован и без дубликатов
        # S должен содержать id_key, к-рые нужно еще проверить
        # но на данном этапе S как минимум содержит текущий проверяемый элемент (el_)
        # удалим из S все уже проверенные на связь id_key, к-рые сейчас - в списке T
        S = list(map(str, (set(list(map(int, S))) - set(list(map(int, T))))))
        # теперь в списке S - только те id_key, к-рые нужно еще проверить
        
        '''test'''
        print('в цикле while после k и j')
        print('\t S - id key предстоящие к проверке:')
        print(S)
        input()

        # рано или поздно S == [], тогда нужно выйти из цикла
        if S == []:
            '''test'''
            print('в цикле while')
            print('\t S ПУСТОЙ!:')
            input()
            break
        else:
            '''test'''
            print('в цикле while')
            print('\t S не пустой - продолжаем:')
            input()
            pass

    # вернем изначальный тип данных для колонок: ключ, id пользователя, телефон
    df[["id_key", "id_user", "phone"]] = df[["id_key", "id_user", "phone"]].apply(pd.to_numeric)
    # вернем первоначальные названия колонок
    df.set_axis(labels=cols_init, axis=1, inplace=True)
    
    T = list(map(int, T))


    # возвращаем DF с запросом в качестве output
    return df.query(f'{df.columns[0]} in {T}')


# Прежнее решение

In [12]:
import pandas as pd

In [13]:
df = pd.read_csv('test_data.csv', sep=';')
df = df.applymap(str)
df

Unnamed: 0,id_key,id_user,phone,email
0,1,12345,89997776655,test@mail.ru
1,2,54321,87778885566,two@mail.ru
2,3,98765,87776664577,three@mail.ru
3,4,66678,87778885566,four@mail.ru
4,5,34567,84547895566,four@mail.ru
5,6,34567,89087545678,five@mail.ru


In [14]:
df.dtypes

id_key     object
id_user    object
phone      object
email      object
dtype: object

In [15]:
def connection_query(df, query_s):
    
    # приведение к алгоритмическому решению
    cols = df.columns.to_list()[1:]
    input_ = query_s  
    
    # выделяем из запроса колонку и значение
    col = input_.split(' = ')[0]
    val = input_.split(' = ')[1]
    
    # создаем строку запроса
    q=f'{col} == "{val}"'
    
    # берем из основного DF данные по id_key, удовлетворяющие запросу q
    # то есть находим связь 1-ого уровня
    s1 = []
    for i in df.query(q).id_key.tolist():
        s1.append(i)
        
    '''
    # далее в коде нам понадобится ссылаться на имена колонок, поэтому
    cols = df.columns.to_list()[1:]
    '''
    
    # для каждого элемента из списка id_key перого уровня (s1) осуществляем поиск
    # задача: сформировать список id_key 2-ого уровня (s2)
    
    ####################
    # напишем ф-цию формирования списка id_key i-ого уровня из списка (i-1)-ого уровня
    def get_down(take_from, save_to, columns):
        
        ## для i-ого элемента верхнего уровня будем искать значения колонки 1 (id_user)
        for i in take_from:
            
            ### берем i-ый элемент верхнего уровня
            el_ = i

            ### формируем запрос
            q = f'id_key == "{el_}"'

            ### сохраняем результат запроса
            r = df.query(q)
            
            ### колонки нашего DataFrame'а
            cols = columns

            ### для k-ой колонки
            for k in cols:

                ### сохраняем название колонки, с которой работаем
                col_ = k

                ### из результата возьмем все данные из k-ой искомой колонки
                ### и сразу проведем поиск связанных данных
                v = r[col_].iloc[0]

                ### формируем запрос на поиск связанных с k-ой колонкой данных в id_key
                q = f'{col_} == "{v}"'

                ### ищем связанные с этим id_user данные в id_key
                ### и сохраняем эти id_key в список 2-ого уровня
                for i in df.query(q).id_key.tolist():
                    save_to.append(i)
    ####################
    
    # написали ф-цию формирования списка id_key i-ого уровня из списка (i-1)-ого уровня
    # вернемся к задаче
    
    ####################    
    # задача: сформировать список id_key 2-ого уровня (s2)
    # выполним ее с помощью ф-ции get_down()
    # для нее нужны:
    # take_from - список с id_keys верхнего уровня, 
    # save_to   - пустой список для id_keys нижнего уровня, 
    # columns   - список колонок DF, по к-рым будет осущ. поиск связи
    
    # take_from == s1
    s2 = []  # save_to
    # columns == cols
    
    # формируем список 2-ого уровня
    get_down(take_from=s1, save_to=s2, columns=cols)
    # теперь у нас есть сформированный список 2-ого уровня (s2)
    
    # удаляем дупликаты
    s2 = list(dict.fromkeys(s2))

    # сортируем
    s2 = list(map(int, s2))
    s2.sort()
    s2 = list(map(str, s2))

    # получаем список тех id_key, который мы еще не проверили на связь с первоначальным запросом
    # т.е. мы смотрим связь 2-ого уровня
    s2 = list(set(s2) - set(s1))
    ####################
    
    ####################    
    # задача: сформировать список id_key 3-ого уровня (s3)
    # выполним ее с помощью ф-ции get_down(), для к-рой нужны:
    # take_from == s2  - список с id_keys верхнего уровня, 
    s3 = []  # save_to - пустой список для id_keys нижнего уровня, 
    # columns == cols  - список колонок DF, по к-рым будет осущ. поиск связи
    
    # формируем список 3-его уровня
    get_down(take_from=s2, save_to=s3, columns=cols)
    # теперь у нас есть сформированный список 3-его уровня (s3)
    
    # удаляем дупликаты
    s3 = list(dict.fromkeys(s3))

    # сортируем
    s3 = list(map(int, s3))
    s3.sort()
    s3 = list(map(str, s3))

    # получаем список тех id_key, который мы еще не проверили на связь с первоначальным запросом
    # т.е. мы смотрим связь 3-его уровня
    s3 = list(set(s3) - set(s2) - set(s1))
    ####################

    ####################    
    # задача: сформировать список id_key 4-ого (финального для DataFrame'ов такого типа) уровня (s4)
    # выполним ее с помощью ф-ции get_down(), для к-рой нужны:
    # take_from == s3  - список с id_keys верхнего уровня, 
    s4 = []  # save_to - пустой список для id_keys нижнего уровня, 
    # columns == cols  - список колонок DF, по к-рым будет осущ. поиск связи
    
    # формируем список 4-ого уровня
    get_down(take_from=s3, save_to=s4, columns=cols)
    # теперь у нас есть сформированный список 4-его уровня (s4)
    
    # удаляем дупликаты
    s4 = list(dict.fromkeys(s4))

    # сортируем
    s4 = list(map(int, s4))
    s4.sort()
    s4 = list(map(str, s4))

    # получаем список тех id_key, который мы еще не проверили на связь с первоначальным запросом
    # т.е. мы смотрим связь 4-ого уровня
    s4 = list(set(s4) - set(s3) - set(s2) - set(s1))
    ####################    
    
    # не должно остаться id_key, которые мы не проверили на связь
    if s4 == []:
        pass
    else:
        res = 'ERROR: похоже, есть связь 5-ого и более уровней, т.к. список s4 не пуст'
        return res
    
    # формируем финальный список id_keys, которые мы должны отобразить в output
    S = set()
    S.update(set(s1))
    S.update(set(s2))
    S.update(set(s3))

    # возвращаем DF с запросом в качестве output
    
    return df.query(f'id_key in {list(S)}')

In [16]:
res = connection_query(df=df, query_s="phone = 87778885566")
res

Unnamed: 0,id_key,id_user,phone,email
1,2,54321,87778885566,two@mail.ru
3,4,66678,87778885566,four@mail.ru
4,5,34567,84547895566,four@mail.ru
5,6,34567,89087545678,five@mail.ru


# Работа прежнего решения на данных с 6-ым уровнем связи

In [17]:
df1 = pd.read_csv('test_data_ver_2.csv', sep=';')
df1 = df1.applymap(str)
df1

Unnamed: 0,id_key,id_user,phone,email
0,1,12345,89997776655,test@mail.ru
1,2,54321,87778885566,two@mail.ru
2,3,98765,87776664577,three@mail.ru
3,4,66678,87778885566,four@mail.ru
4,5,34567,84547895566,four@mail.ru
5,6,34567,89087545678,five@mail.ru
6,7,11111,84547895566,six@mail.ru
7,8,22222,89087545678,seven@mail.ru
8,9,11111,81111111111,six@mail.ru


In [18]:
res = connection_query(df=df1, query_s="phone = 87778885566")
res

'ERROR: похоже, есть связь 5-ого и более уровней, т.к. список s4 не пуст'

# Работа прежнего решения на тестовых данных Сбера

In [19]:
df1 = pd.read_csv('test_data_by_sber.csv', sep=';')
df1 = df1.applymap(str)
df1 = df1.rename(columns={'key': 'id_key', 'id': 'id_user'}).drop(columns=['Unnamed: 0'])

In [20]:
res = connection_query(df=df1, query_s="id_user = 22296")
res

Unnamed: 0,id_key,id_user,phone,mail
8068,8068,16137,86350580710,twrnepja@mail.ru
28326,28326,22296,82750671293,jfcivwlghrampynyexio@mail.ru
58141,58141,36057,80775677213,krgxswekentolramxxwyjvymwyiqtbfbln@mail.ru
111729,111729,22296,87875724457,rpdbkihbzxebilouiwuomzfle@mail.ru
130000,130000,22296,88171207757,fsldrjgam@mail.ru
135531,135531,22296,81787715958,wivq@mail.ru
202906,202906,22296,86393323637,fmhgxo@mail.ru
209486,209486,36057,80654020342,ndqfguqwdaersxeepjswbglvjgwqccscxvr@mail.ru
282349,282349,22296,82305242696,eiyxknwueikmyeiunpzskuvd@mail.ru
291893,291893,61570,84112805432,qsqanznsfykicgnqzycadfozdkntxfigjq@mail.ru


In [21]:
# def connection_query(df, query_s):
    
#     # функция работает со строковыми данными
#     # поэтому приведем все данные в DF в строки
#     df = df.applymap(str)
#     # в конце работы ф-ции вернем типы данных обратно
    
#     # сохраним изначально заданные имена колонок
#     cols_init = df.columns

#     # унифицированно переименуем колонки, чтобы удобно ссылаться
#     cols_unify = ['id_key', 'id_user' , 'phone', 'email']
#     df.set_axis(labels=cols_unify, axis=1, inplace=True)

#     # в конце работы функции переименуем колонки обратно
    
#     # приведение к алгоритмическому решению
#     '''cols = df.columns.to_list()[1:]'''
#     input_ = query_s  
    
#     # выделяем из запроса колонку и значение
#     col = input_.split(' = ')[0]
#     val = input_.split(' = ')[1]
    
#     # создаем строку запроса
#     q=f'{col} == "{val}"'
    
#     # берем из основного DF данные по id_key, удовлетворяющие запросу q
#     # прямой запрос по input (связь 1-ого уровня)
#     S = []
#     for i in df.query(q).id_key.tolist():
#         S.append(i)
    
#     T = []  # сюда будут складываться id_key связанных данных на всех уровнях связи
#     # а из S - наоборот, будут удаляться
    
#     # для каждого 1-ого элемента из списка S осуществляем поиск связанных данных так,
#     # что в конце список S останется пустой
#     # для этого создаем цикл
    
#     while S != []:
        
#         el_ = S[0]       # берем i-ый элемент
#         T.append(el_)  # сохраняем его в итоговый список связаанных id_key
                
#         # формируем запрос
#         q = f'id_key == "{el_}"'  
        
#         # сохраняем результат сформированного запроса (РСЗ)
#         r = df.query(q)
        
#         # для k-ой колонки
#         for k in r.columns.tolist()[1:]:

#             # сохраняем название колонки, с которой работаем
#             col_ = k

#             # из результата (РСЗ) возьмем данные из k-ой искомой колонки
#             # это будет единственное значение (value), т.к. id_key может быть !только уникальным
#             v = r[col_].iloc[0]

#             # формируем запрос на поиск связанных с k-ой колонкой данных в id_key
#             q = f'{col_} == "{v}"'

#             # ищем связанные с этим значением (value) данные
#             # и сохраняем id_key этих связанных данных
#             for j in df.query(q).id_key.tolist():
#                 S.append(j)
        
#         # теперь у нас есть набор id_key в списке S
#         # но этот набор с дубликатами и несортированный
        
#         # удаляем дубликаты
#         S = list(dict.fromkeys(S))

#         # сортируем
#         S = list(map(int, S))
#         S.sort()
#         S = list(map(str, S))
        
#         # теперь список S у нас отсортирован и без дубликатов
#         # S должен содержать id_key, к-рые нужно еще проверить
#         # но на данном этапе S как минимум содержит текущий проверяемый элемент (el_)
#         # удалим из S все уже проверенные на связь id_key, к-рые сейчас - в списке T
#         S = list(map(str, (set(list(map(int, S))) - set(list(map(int, T))))))
#         # теперь в списке S - только те id_key, к-рые нужно еще проверить

#         # рано или поздно S == [], тогда нужно выйти из цикла
#         if S == []:
#             break
#         else:
#             pass

#     # вернем изначальный тип данных для колонок: ключ, id пользователя, телефон
#     df[["id_key", "id_user", "phone"]] = df[["id_key", "id_user", "phone"]].apply(pd.to_numeric)
#     # вернем первоначальные названия колонок
#     df.set_axis(labels=cols_init, axis=1, inplace=True)
    
#     T = list(map(int, T))


#     # возвращаем DF с запросом в качестве output
#     return df.query(f'{df.columns[0]} in {T}')