In [2]:
import os
import pandas as pd
from datetime import datetime

In [11]:
def merge_csv_files(folder_path: str, merged_filename: str):
    """
    Nối tất cả các file CSV trong thư mục thành một file CSV duy nhất.

    Args:
        folder_path (str): Đường dẫn đến thư mục chứa các file CSV.
        merged_filename (str): Tên file CSV sau khi ghép.

    Returns:
        str: Đường dẫn file CSV đã ghép hoặc None nếu lỗi.
    """
    # Lấy danh sách file CSV
    csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

    if not csv_files:
        print("Không tìm thấy file CSV nào trong thư mục.")
        return None

    df_list = []
    for file in csv_files:
        file_path = os.path.join(folder_path, file)
        try:
            # Đọc file với encoding phổ biến, bỏ lỗi dòng hỏng
            df = pd.read_csv(file_path, encoding="utf-8", on_bad_lines="skip", low_memory=False)
            df_list.append(df)
        except Exception as e:
            print(f"Lỗi khi đọc file {file}: {e}")

    if not df_list:
        print("Không có file nào hợp lệ để ghép.")
        return None

    # Ghép tất cả DataFrame
    merged_df = pd.concat(df_list, ignore_index=True)

    # Lưu file CSV đã ghép
    output_path = os.path.join(folder_path, merged_filename)
    merged_df.to_csv(output_path, index=False, encoding="utf-8-sig")

    print(f"Đã ghép tất cả các file CSV thành {output_path}")
    return output_path

In [12]:
merge_csv_files("csv", "jobsgo.csv")

Đã ghép tất cả các file CSV thành csv\jobsgo.csv


'csv\\jobsgo.csv'

In [13]:
def clean_csv(input_file: str, output_file: str):
    """
    Xóa các dòng có giá trị rỗng trong cột 'branch' hoặc 'job_skills' và lưu file mới.

    Args:
        input_file (str): Đường dẫn file CSV gốc.
        output_file (str): Đường dẫn file CSV sau khi lọc.

    Returns:
        int: Số dòng còn lại sau khi lọc.
    """
    # Đọc file CSV
    df = pd.read_csv(input_file, encoding="utf-8")

    # Xóa dòng có giá trị rỗng trong cột 'branch' hoặc 'job_skills'
    df_cleaned = df.dropna(subset=["branch", "job_skills"])  # Loại bỏ NaN
    df_cleaned = df_cleaned[(df_cleaned["branch"].astype(str).str.strip() != "") & 
                            (df_cleaned["job_skills"].astype(str).str.strip() != "")]  # Loại bỏ chuỗi rỗng

    # Lưu file mới
    df_cleaned.to_csv(output_file, index=False, encoding="utf-8-sig")

    # In ra số dòng còn lại
    num_rows = len(df_cleaned)
    print(f"File sau khi lọc có {num_rows} dòng và đã lưu vào: {output_file}")

    return num_rows

In [14]:
clean_csv("csv/jobsgo.csv", "jobsgo.csv")

File sau khi lọc có 23894 dòng và đã lưu vào: jobsgo.csv


23894