In [2]:
import pandas as pd
import re
from nltk import edit_distance
from rapidfuzz import fuzz

In [3]:
def phone_convert(phone_number: str) -> str:
    res = ''
    for sym in phone_number:
        if sym.isnumeric():
            res += sym
    return res[1:] if len(res) == 11 else None

def check_string_similarity(str1, str2, threshold=0.8) -> bool:
    str1, str2 = str1.lower(), str2.lower()
    if 1 - (edit_distance(str1, str2) / max(len(str1), len(str2))) >= threshold: return True
    if re.search(str1, str2): return True
    if fuzz.partial_ratio(str1, str2) / 100 >= threshold: return True
    return False

def mail_to_string(mail:str) -> str:
    mail = mail.replace("@","").lower()
    if "." in mail:
        mail = mail.split('.')[0]
    return mail

In [4]:
df1 = pd.read_csv('main1.csv', low_memory=True)
df1['email'] = df1['email'].astype(str)
df1['full_name'] = df1['full_name'].astype(str).apply(lambda x: x.lower())
df1['phone'] = df1['phone'].astype(str).apply(phone_convert)
email_list = []
for row in df1.itertuples():
    email_list.append(mail_to_string(row.email))
df1['email'] = email_list
df1.head()
df1.head(10)

Unnamed: 0,uid,full_name,email,address,sex,birthdate,phone
0,8357db00-b4ce-4c33-a66e-1842744d0ce4,балкибаев углы мамасаид карлито,mamasaid_balkibaev0example,"г. Урус-Мартан, пер. Шмидта, д. 233 к. 6/4, 63...",m,1954-06-15,206450526.0
1,a40182ff-7b3c-4fe4-9455-505414bf6f1c,игинова ютта кондратьевнп,jutta_iginova1yandex,"бул. Есенина, д. 2/3 стр. 180, 881977",f,1981-11-24,1971286327.0
2,2b401a4a-33c0-47e0-b527-300e17b3a8da,миродилов зафер роберт,zafer_mirodilov2mail,"ст. Красногорск (Моск.), ул. Урожайная, д. 4/9...",m,1954-07-03,5857627855.0
3,a844b52d-6fc8-4aac-9180-092cf3cba7b0,5миродилов зафер роберт,zafer_mirodilov2mail,"ст. Красногорск (Моск.), ул. Урожайная, д. 4/9...",m,954-01-01,5857627855.0
4,95b72c05-1620-4f55-b3d4-c5151ff83184,боровая шахзода николаевна,shahzoda_borovaja3gmail,"к. Устюжна, ш. Инженерное, д. 1/7 к. 4, 782855",f,1989-07-15,175118662.0
5,6345b698-10e6-4f73-be20-ba6f6bed61a9,курбонова нврсулу фниас,nursulu_kurbonova4example,"клх Кулу, пер. Кирова, д. 8 стр. 51, 713661",f,2000-10-21,1807592151.0
6,465ee3ba-1585-4bb6-90a7-f44deada619a,беттиншнр анна александрлвна,anna_bettinger5yandex,"г. Шахты, ул. Павлика Морозова, д. 3/7, 304052",f,2002,3121835172.0
7,ad64731a-1034-4e03-a131-6005ecc98530,крилов оглы юрий якуп,jurij_krilov6example,"с. Солнечногорск, ш. Краснопартизанское, д. 83...",m,1965-01-01,2541166576.0
8,bec6df67-5031-442a-9ec8-35a4e0d9ce61,kri-lov \nрий яkуп,jurih_кrilov6zexamplеlоrg,"с. Солнечногорсу, ш. Краснлпарьижмнскоп, д. э3...",m,1965,
9,2cb36637-9214-4c3a-bc0c-c2a8f232f121,йохансен углы айжамал ивановна,ajzhamal_johansen7mail,"к. Тарко-Сале, бул. Ленинградский, д. 1 стр. 3...",f,2982-10-26,9649909624.0


In [5]:
df2 = pd.read_csv('main2.csv', low_memory=True)
df2['middle_name'] = df2['middle_name'].astype(str).apply(lambda x: x.lower())
df2['first_name'] = df2['first_name'].astype(str).apply(lambda x: x.lower())
df2['last_name'] = df2['last_name'].astype(str).apply(lambda x: x.lower())
df2['full_name'] = df2.apply(lambda row: " ".join([row['first_name'], row['middle_name'], row['last_name']]), axis=1)
df2 = df2.drop(['first_name', 'middle_name', 'last_name'], axis=1)
df2['phone'] = df2['phone'].astype(str).apply(phone_convert)
df2.head(10)

Unnamed: 0,uid,birthdate,phone,address,full_name
0,fd0eb198-eeef-4ff9-a983-26dd9aebb084,1954-06-15,206450526.0,"г. Урус-Мартан, пер. Шмидта, д. 233 к. 6/4, 63...",мамасаид карлито бaлkибаeв
1,7ac130fe-690e-4e39-9b25-b141095f3eec,1954-07-03,5857627855.0,"ст. Красногорск (Моск.), ул. Урожайная, д. 4/9...",зафер роберт мииродилов
2,f564db39-b7b1-4643-8d24-4759d5ba6ba5,1989-07-15,,"к. Устюжна, ш. Инженерное, д. 1/7 к. 4, 782855",шахзода николаевна боровая
3,93c32877-6cf0-48f9-bb1e-c67794f08541,2000-10-21,1807592151.0,"клх Кулу, пер. Кирова, д. 8 стр. 51, 713661",нурсулу неетт курбонова
4,a207993d-185f-4b86-bda6-6ce2c0c6a0ff,1965-05-31,,"с. Солнечногорск, ш. Краснопартизанское, д. 83...",юррий якуп крилов
5,33b21a5e-de52-4e07-a209-0dbaab1f5dd3,1982-10-26,9649909624.0,"к. Тарко-Сале, бул. Ленинградский, д. 1 стр. 3...",айжамал ивановна йохансен
6,accb983e-1d0c-47ea-b633-fc9ba05fdc00,1960-07-06,3020096437.0,"г. Кудымкар, бул. Л.Толстого, д. 592, 617939",гено владимирович салокоски
7,adfc5dbd-d7af-4df5-bb5f-b7ba553e9668,1978-01-10,1807100977.0,"к. Яшалта, пер. Азина, д. 6/3 стр. 3/7, 726128",кюлликки александровна уоидли
8,4fbedf43-c37d-4498-b20e-a2f36429247b,975-06-02,3472329206.0,"г. Тула, пер. Ярославский, д. 368 к. 2/2, 500850",владислав феликсович lendeki
9,9a23a9ed-f2a4-4054-9dc9-501d2b98f50d,1989-08-14,,"д. Токсово, наб. Маяковского, д. 2 стр. 2/6, 2...",жахонгир чaрльз нет


In [6]:
df3 = pd.read_csv('main3.csv', low_memory=True)
df3['email'] = df3['email'].astype(str)
email_list = []
for row in df3.itertuples():
    email_list.append(mail_to_string(row.email))
df3['email'] = email_list
df3['name'] = df3['name'].astype(str).apply(lambda x: x.lower())
df3.head(10)

Unnamed: 0,uid,name,email,birthdate,sex
0,9185f879-6289-4ad6-9cb0-ed7cb6cb652b,мамасаид ьадкибаев,mamasaid_balkibaev0example,9145-06-15,m
1,289fcf9e-af05-43cf-a6d4-1d1d3cf5131f,ютта игинова,jutta_ihinova1;yanddx,1981-11-24,f
2,c2b04755-ebd8-4625-b8bb-4131ca049415,зафер миродилов,zafer_mirodilov2mail,1954,m
3,49978ae8-51fe-4a74-908e-22ec9e693855,шахзода боровая,shahzoda_borovaja3gmail,2989-07-15,f
4,75e199c5-86fa-4d3b-b1ea-783ecc26b021,нурсулу курбонова,nursulu_kurbonova4example,2000-10-21,f
5,8743ab3c-260b-4911-8ff9-f10187e1ab7c,анна беттингер огли,anna_bettinger5yandex,1002-04-02,f
6,2e49b72b-487d-4f17-835d-0a04051bc654,юрий крилов,jurij_krilov6example,1965-05-31,m
7,265e4734-ba29-432c-852c-e29c941568e6,айжамал йохансен,ajzhamal_johansen7mail,982-10-26,f
8,d491b555-9507-43e0-a3e3-8a0071ec7761,гено салокоски,geno_salokoski8example,1960-07-06,m
9,6d875c40-e409-479b-807e-13ee3d7ca445,кюлликки уоидли,kjullikki_uoidli9gmail,1978-01-10,f


In [7]:
combined_df = pd.concat([df1, df2])
value_counts = combined_df['phone'].value_counts()
duplicates = value_counts[value_counts > 1].index.tolist()
repeated_values_df1 = df1.loc[df1['phone'].isin(duplicates)]
repeated_values_df2 = df2.loc[df2['phone'].isin(duplicates)]

In [8]:
repeated_values_df2.head(100)
repeated_values_df2[repeated_values_df2['phone'] == '1396436459'].head()

Unnamed: 0,uid,birthdate,phone,address,full_name
9249274,20c34649-e9c1-4281-9820-afa4767ff045,2001-06-30,1396436459,"п. Ркза, еаб. Тельмана, д. 6/8 стр. 846, 869753",0даниэле умаршоевич вуачунов
9366892,238e26d1-b428-426d-b29b-a38efcc3f8dd,2001,1396436459,"наб. Тельмана,п. Руза, д. 6/8 стр. 846, 869753",даниэле у0маршоeвич суксуров


In [9]:
grouped_df = repeated_values_df2.groupby('phone')['uid'].apply(list).reset_index()

In [10]:
value_counts = df1['address'].value_counts()
duplicates = value_counts[value_counts > 1].index.tolist()
repeated_values_df1 = df1.loc[df1['address'].isin(duplicates)]
repeated_values_df2 = df2.loc[df2['address'].isin(duplicates)]
repeated_values_df1 = repeated_values_df1[['uid', 'address']]
repeated_values_df2 = repeated_values_df2[['uid', 'address']]
repeated_values_df2.head()

Unnamed: 0,uid,address
1,7ac130fe-690e-4e39-9b25-b141095f3eec,"ст. Красногорск (Моск.), ул. Урожайная, д. 4/9..."
230,e820580f-e32d-47d3-a667-8cacf6a42a6c,"с. Казань, пер. Щербакова, д. 208 стр. 11, 440914"
317,91fec9c0-b1ef-4955-b674-ea4f935d5faf,"клх Архыз, ул. Механизаторов, д. 923, 999459"
380,2c5562b9-3e64-4dee-8bab-7426fe3bcc40,"д. Балашов, пер. Прудовой, д. 3, 574631"
429,1a4488b9-2de7-499b-acaf-2df1e125cc4d,"клх Благовещенск (Амур.), пр. Учительский, д. ..."


In [11]:
repeated_values_df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 241028 entries, 2 to 8639801
Data columns (total 2 columns):
 #   Column   Non-Null Count   Dtype 
---  ------   --------------   ----- 
 0   uid      241028 non-null  object
 1   address  241028 non-null  object
dtypes: object(2)
memory usage: 5.5+ MB


In [13]:
res = pd.DataFrame()
for i1, raw1 in repeated_values_df1.iterrows():
    first_arr_els = [raw1['uid']]
    sec_arr_els = []
    for i2, raw2 in repeated_values_df1.iterrows():
        if raw1['address'] == raw2['address']:
            first_arr_els.append(raw2['uid'])
    for i2, raw2 in repeated_values_df2.iterrows():
        if raw1['address'] == raw2['address']:
            sec_arr_els.append(raw2['uid'])
    new_row_df = pd.DataFrame([{'id_is1': first_arr_els, 'id_is2': sec_arr_els, 'id_is3': []}])
    res = pd.concat([res, new_row_df], ignore_index=True) 
    print(res)
    if len(res) > 10:
        break
res.head(10)

                                              id_is1  \
0  [2b401a4a-33c0-47e0-b527-300e17b3a8da, 2b401a4...   

                                   id_is2 id_is3  
0  [7ac130fe-690e-4e39-9b25-b141095f3eec]     []  
                                              id_is1  \
0  [2b401a4a-33c0-47e0-b527-300e17b3a8da, 2b401a4...   
1  [a844b52d-6fc8-4aac-9180-092cf3cba7b0, 2b401a4...   

                                   id_is2 id_is3  
0  [7ac130fe-690e-4e39-9b25-b141095f3eec]     []  
1  [7ac130fe-690e-4e39-9b25-b141095f3eec]     []  
                                              id_is1  \
0  [2b401a4a-33c0-47e0-b527-300e17b3a8da, 2b401a4...   
1  [a844b52d-6fc8-4aac-9180-092cf3cba7b0, 2b401a4...   
2  [119ab1b6-db9f-4e6a-bea9-6bca43ed6858, 119ab1b...   

                                   id_is2 id_is3  
0  [7ac130fe-690e-4e39-9b25-b141095f3eec]     []  
1  [7ac130fe-690e-4e39-9b25-b141095f3eec]     []  
2                                      []     []  
                                  

Unnamed: 0,id_is1,id_is2,id_is3
0,"[2b401a4a-33c0-47e0-b527-300e17b3a8da, 2b401a4...",[7ac130fe-690e-4e39-9b25-b141095f3eec],[]
1,"[a844b52d-6fc8-4aac-9180-092cf3cba7b0, 2b401a4...",[7ac130fe-690e-4e39-9b25-b141095f3eec],[]
2,"[119ab1b6-db9f-4e6a-bea9-6bca43ed6858, 119ab1b...",[],[]
3,"[36758a02-0a51-4bc5-9290-e8d99dd1eb99, 119ab1b...",[],[]
4,"[24e1ac10-cf24-4a64-a179-b027b60ecdb0, 24e1ac1...",[e820580f-e32d-47d3-a667-8cacf6a42a6c],[]
5,"[f59c67d5-f0b1-406d-a2ae-cdde53cdd265, 24e1ac1...",[e820580f-e32d-47d3-a667-8cacf6a42a6c],[]
6,"[df1e64b1-2572-41d6-9290-3501db25fed4, df1e64b...",[91fec9c0-b1ef-4955-b674-ea4f935d5faf],[]
7,"[c88d83b7-c613-4774-a490-88bd348fcc95, c88d83b...",[],[]
8,"[834951e4-2e15-4ec8-9603-69777fc41d6f, 834951e...",[],[]
9,"[2bdb6a7d-f3c8-4690-979e-550b21be37b0, 2bdb6a7...",[2c5562b9-3e64-4dee-8bab-7426fe3bcc40],[]
