In [None]:
import email
import pandas as pd
import os
import uuid

def load_data():
    """
    Tải dữ liệu email từ URL và trả về DataFrame chứa dữ liệu email.
    
    Returns:
        DataFrame chúa dữ liệu email.
        
    """
    df = pd.read_csv('https://raw.githubusercontent.com/tnhanh/data-midterm-17A/refs/heads/main/email.csv')
    processed_indices_path = 'processed_indices.csv'
    
    if os.path.exists(processed_indices_path):
        processed_indices = pd.read_csv(processed_indices_path)['index'].tolist()
    else:
        processed_indices = []

    unprocessed_df = df.loc[~df.index.isin(processed_indices)]
    return unprocessed_df.sample(5), processed_indices

def splitEmailAddresses(emailString: str):
    '''
    The function splits a comma-separated string of email addresses into a unique list.
    
    Args:
        emailString: A string containing email addresses separated by commas.
        
    Returns:
        A list of unique email addresses.
    '''
    if emailString:
        addresses = emailString.split(',')
        uniqueAddresses = list(frozenset(map(lambda x: x.strip(), addresses)))
        return uniqueAddresses
    return []

def extractEmailDetailsFromRawText(rawEmail: str):
    '''
    The function extracts relevant details from a raw email message string.
    
    Args:
        rawEmail: A string representing the raw email message.
        
    Returns:
        A Row object containing the extracted email details.
    '''
    emailMessage = email.message_from_string(rawEmail)
    emailContentParts = []
    for part in emailMessage.walk():
        if part.get_content_type() == 'text/plain':
            emailContentParts.append(part.get_payload())

    emailContent = ''.join(emailContentParts)

    fromAddresses = splitEmailAddresses(emailMessage.get("From"))
    toAddresses = splitEmailAddresses(emailMessage.get("To"))
    ccEmail = splitEmailAddresses(emailMessage.get("Cc"))
    return emailMessage.get("Date"), fromAddresses, toAddresses, emailMessage.get("Subject"), ccEmail, emailContent

def process_emails(sample_df):
    """
    Xử lý dữ liệu email từ DataFrame chứa các email đã chọn lọc.
    
    Args:
        sample_df: DataFrame chứa các email đã chọn lọc.
        processed_indices: Danh sách các chỉ số đã xử lý.
        
    Returns:
        emails_data: Danh sách các email đã xử lý.
        addresses_data: Danh sách các địa chỉ email đã xử lý.
        email_addresses_data: Danh sách các cặp email và địa chỉ email đã xử lý.
    """
    emails_data = []
    addresses_data = []
    email_addresses_data = []
    addresses_dict = {}

    for index, row in sample_df.iterrows():
        rawEmail = row['message']
        date, fromAddresses, toAddresses, subject, ccEmail, emailContent = extractEmailDetailsFromRawText(rawEmail)

        email_id = str(uuid.uuid4())

        emails_data.append({
            'email_id': email_id,
            'date': date,
            'subject': subject,
            'content': emailContent
        })

        allAddresses = {
            'from': fromAddresses,
            'to': toAddresses,
            'cc': ccEmail
        }

        for role, addresses in allAddresses.items():
            for address in addresses:
                if address not in addresses_dict:
                    address_id = str(uuid.uuid4())
                    addresses_data.append({
                        'address_id': address_id,
                        'email_address': address
                    })
                    addresses_dict[address] = address_id

                email_addresses_data.append({
                    'email_id': email_id,
                    'address_id': addresses_dict[address],
                    'role': role
                })


    return emails_data, addresses_data, email_addresses_data

    
def main():
    sample_df, processed_indices = load_data()
    emails_data, addresses_data, email_addresses_data = process_emails(sample_df, processed_indices)
    
    emails_df = pd.DataFrame(emails_data)
    addresses_df = pd.DataFrame(addresses_data)
    email_addresses_df = pd.DataFrame(email_addresses_data)
    
    emails_df.to_csv('emails.csv', index=False)
    addresses_df.to_csv('addresses.csv', index=False)
    email_addresses_df.to_csv('email_addresses.csv', index=False)
    
    processed_indices_df = pd.DataFrame({'index': processed_indices})
    processed_indices_df.to_csv('processed_indices.csv', index=False)

if __name__ == '__main__':
    main()

In [None]:
# # Khởi tạo các danh sách để lưu trữ dữ liệu cho các bảng
# emails_data = []
# addresses_data = []
# email_addresses_data = []

# # Bộ đếm ID tự động tăng
# email_id_counter = 1
# address_id_counter = 1

# # Từ điển để theo dõi các địa chỉ email đã xử lý
# addresses_dict = {}

# # Xử lý từng email trong DataFrame
# for index, row in df.iterrows():
#     rawEmail = row['message']
#     date, fromAddresses, toAddresses, subject, ccEmail, emailContent = extractEmailDetailsFromRawText(rawEmail)

#     # Thêm vào danh sách emails_data
#     emails_data.append({
#         'email_id': email_id_counter,
#         'date': date,
#         'subject': subject,
#         'content': emailContent
#     })

#     # Tập hợp tất cả các địa chỉ với vai trò của chúng
#     allAddresses = {
#         'from': fromAddresses,
#         'to': toAddresses,
#         'cc': ccEmail
#     }

#     # Xử lý từng địa chỉ và thêm vào addresses_data và email_addresses_data
#     for role, addresses in allAddresses.items():
#         for address in addresses:
#             # Kiểm tra nếu địa chỉ đã tồn tại
#             if address not in addresses_dict:
#                 # Thêm vào danh sách addresses_data
#                 addresses_data.append({
#                     'address_id': address_id_counter,
#                     'email_address': address
#                 })
#                 addresses_dict[address] = address_id_counter
#                 address_id_counter += 1

#             # Thêm vào danh sách email_addresses_data
#             email_addresses_data.append({
#                 'email_id': email_id_counter,
#                 'address_id': addresses_dict[address],
#                 'role': role
#             })

#     # Tăng email_id_counter
#     email_id_counter += 1

# # Chuyển đổi danh sách thành DataFrame
# emails_df = pd.DataFrame(emails_data)
# addresses_df = pd.DataFrame(addresses_data)
# email_addresses_df = pd.DataFrame(email_addresses_data)

# # Xuất dữ liệu ra các tệp CSV
# emails_df.to_csv('Emails.csv', index=False)
# addresses_df.to_csv('Addresses.csv', index=False)
# email_addresses_df.to_csv('EmailAddresses.csv', index=False)

In [43]:
import pymongo
import email
import pandas as pd
import json

# df = pd.read_csv('https://raw.githubusercontent.com/tnhanh/data-midterm-17A/refs/heads/main/email.csv')
# df_sample = df.sample(5)
# # Kết nối đến MongoDB
client = pymongo.MongoClient("mongodb://admin:admin@localhost:27012/")
db = client["test"]

# lấu data từ collection chuyển thành dataframe
def get_data_from_collection(collection_name):
    collection = db[collection_name]
    data = collection.find()
    df = pd.DataFrame(list(data))
    return df

# lấy dữ liệu từ collection
data = get_data_from_collection("emails")
data.drop(columns=['_id'], inplace=True)
data


Unnamed: 0,file,message
0,dasovich-j/sent/4405.,Message-ID: <32177617.1075843886888.JavaMail.e...
1,shapiro-r/discussion_threads/57.,Message-ID: <31629750.1075844225487.JavaMail.e...
2,beck-s/discussion_threads/1075.,Message-ID: <10273907.1075855833478.JavaMail.e...
3,lay-k/notes_inbox/754.,Message-ID: <33049857.1075840277414.JavaMail.e...
4,kean-s/discussion_threads/2797.,Message-ID: <23500797.1075848153211.JavaMail.e...


In [None]:
# import email
# import pandas as pd
# import uuid

# # Hàm và các đoạn mã khác giữ nguyên...

# # Khởi tạo các danh sách để lưu trữ dữ liệu cho các bảng
# emails_data = []
# addresses_data = []
# email_addresses_data = []

# # Từ điển để theo dõi các địa chỉ email đã xử lý
# addresses_dict = {}

# # Xử lý từng email trong DataFrame
# for index, row in df.iterrows():
#     rawEmail = row['message']
#     date, fromAddresses, toAddresses, subject, ccEmail, emailContent = extractEmailDetailsFromRawText(rawEmail)

#     # Tạo UUID cho email_id
#     email_id = str(uuid.uuid4())

#     # Thêm vào danh sách emails_data
#     emails_data.append({
#         'email_id': email_id,
#         'date': date,
#         'subject': subject,
#         'content': emailContent
#     })

#     # Tập hợp tất cả các địa chỉ với vai trò của chúng
#     allAddresses = {
#         'from': fromAddresses,
#         'to': toAddresses,
#         'cc': ccEmail
#     }

#     # Xử lý từng địa chỉ và thêm vào addresses_data và email_addresses_data
#     for role, addresses in allAddresses.items():
#         for address in addresses:
#             # Kiểm tra nếu địa chỉ đã tồn tại
#             if address not in addresses_dict:
#                 # Tạo UUID cho address_id
#                 address_id = str(uuid.uuid4())
                
#                 # Thêm vào danh sách addresses_data
#                 addresses_data.append({
#                     'address_id': address_id,
#                     'email_address': address
#                 })
#                 addresses_dict[address] = address_id

#             # Thêm vào danh sách email_addresses_data
#             email_addresses_data.append({
#                 'email_id': email_id,
#                 'address_id': addresses_dict[address],
#                 'role': role
#             })

# # Chuyển đổi danh sách thành DataFrame
# emails_df = pd.DataFrame(emails_data)
# addresses_df = pd.DataFrame(addresses_data)
# email_addresses_df = pd.DataFrame(email_addresses_data)

# # Xuất dữ liệu ra các tệp CSV
# emails_df.to_csv('Emails.csv', index=False)
# addresses_df.to_csv('Addresses.csv', index=False)
# email_addresses_df.to_csv('EmailAddresses.csv', index=False)


In [1]:
from Utils.postgres_tool import PostgresTool

config = {
  'host': 'localhost',
  'port': '5434',
  'user': 'test',
  'password': 'test',
  'database': 'test',
}
conn = PostgresTool(**config)
print(conn.get_all_table())

['Emails', 'EmailAddresses', 'Addresses']
