In [8]:
import pandas as pd

file_path = "BDS.csv"

In [9]:
try:
    df = pd.read_csv(file_path)

    initial_row_count = len(df)
    print(f"Số lượng hàng ban đầu: {initial_row_count}")

    columns_to_check = [
        'ad_type_name', 'area', 'price', 
        'address', 'property_legal_document', 'rooms', 'toilets'
    ]
    
    missing_cols = [col for col in columns_to_check if col not in df.columns]
    
    if missing_cols:

        print(f"Lỗi: Các cột sau đây bị thiếu trong tệp CSV: {missing_cols}")
    else:
        df_cleaned = df.dropna(subset=columns_to_check).copy()

        count_after_dropna = len(df_cleaned)
        print(f"Số lượng hàng sau khi lọc hàng rỗng: {count_after_dropna}")
        print(f"Số lượng hàng đã bị xóa (do rỗng): {initial_row_count - count_after_dropna}")

        if 'date' in df_cleaned.columns:
            df_cleaned = df_cleaned.drop(columns=['date'])
            print("Đã loại bỏ thành công cột 'date'.")
        else:
            print("Không tìm thấy cột 'date' để loại bỏ.")
        
        
        legal_doc_mapping = {
            1: 'đã có sổ', 1.0: 'đã có sổ',
            2: 'đang chờ sổ', 2.0: 'đang chờ sổ',
            3: 'chưa rõ', 3.0: 'chưa rõ',
            4: 'không có sổ', 4.0: 'không có sổ',
            5: 'chưa rõ', 5.0: 'chưa rõ',
            6: 'sổ hồng riêng', 6.0: 'sổ hồng riêng'
        }

        df_cleaned['property_legal_document'] = df_cleaned['property_legal_document'].replace(legal_doc_mapping)
        print("Đã cập nhật xong trường 'property_legal_document'.")
        
        final_cleaned_count = len(df_cleaned)
        
        if final_cleaned_count > 2000:
            df_final = df_cleaned.sample(n=2000, random_state=42)
            print(f"Đã lấy ngẫu nhiên 2000 hàng từ {final_cleaned_count} hàng đã làm sạch.")
        else:
            df_final = df_cleaned
            print(f"Số lượng hàng sau khi làm sạch ({final_cleaned_count}) nhỏ hơn 2000. Giữ lại tất cả.")

        output_file = "BDS_cleaned.csv"
        
        df_final.to_csv(output_file, index=False, encoding='utf-8')

        print(f"Đã xử lý và lưu thành công {len(df_final)} hàng vào tệp '{output_file}'.")

except FileNotFoundError:
    print(f"Lỗi: Không tìm thấy tệp '{file_path}'.")
except Exception as e:
    print(f"Đã xảy ra lỗi: {e}")

Số lượng hàng ban đầu: 4000
Số lượng hàng sau khi lọc hàng rỗng: 2215
Số lượng hàng đã bị xóa (do rỗng): 1785
Đã loại bỏ thành công cột 'date'.
Đã cập nhật xong trường 'property_legal_document'.
Đã lấy ngẫu nhiên 2000 hàng từ 2215 hàng đã làm sạch.
Đã xử lý và lưu thành công 2000 hàng vào tệp 'BDS_cleaned.csv'.
