Problem 01:

In [72]:
import pandas as pd
import csv

In [73]:
def fix_csv_quotes(file_path, output_path):
    with open(file_path, 'r', encoding='utf-8') as infile, open(output_path, 'w', newline='', encoding='utf-8') as outfile:
        reader = infile.readlines()
        writer = csv.writer(outfile)

        for line in reader:
            # Check if the line has mismatched quotes and fix it
            num_quotes = line.count('"')
            if num_quotes % 2 != 0:
                # If odd number of quotes, add a quote at the end
                line = line.strip() + '"\n'
            writer.writerow(next(csv.reader([line])))

In [74]:
# Define the input and output file paths
input_file = '../Data/temp_data.csv'
output_file = '../Data/clean_data.csv'

# Call the function to fix the CSV quotes
fix_csv_quotes(input_file, output_file)


In [75]:
import pandas as pd
import re

def clean_string(string):

    """
    Hàm này sẽ làm sạch chuỗi bằng cách loại bỏ các biểu tượng và ký tự không cần thiết.
    (nhưng giữ lại các kí tự chữ (hoa và thường), số, dấu chấm, dấu phẩy, dấu | )
    
    string: Chuỗi cần làm sạch.
    cleanString: Chuỗi đã được làm sạch.

    """

    # Hàm isinstance check xem data input của mìn có phải là string không 
    if isinstance(string, str):
        cleanString = re.sub(r'[^\w\s.,|]', '', string)
        return cleanString
    else:
        return string

def clean_file_csv(input_csv, output_csv, column_index):

    """
    Hàm này sẽ làm sạch một cột cụ thể trong file CSV, do có những cột khác (VD cột Postdate có dấu : ), 
    Vì vậy nếu apply full file csv nó sẽ fix hết cả những cột không cần thiết -> chỉ áp dụng chính xác cột cần xử lí thôi.

    input_csv (str): Đường dẫn tới file CSV đầu vào (temp_data).
    output_csv (str): Đường dẫn tới file CSV đầu ra (clean_data).
    column_index (int): Chỉ số của cột cần làm sạch.
    """

    # Đọc file CSV vào DataFrame
    df = pd.read_csv(input_csv, on_bad_lines = 'skip')

    # Kiểm tra xem chỉ số cột có hợp lệ không
    if column_index < len(df.columns):
        # Áp dụng hàm làm sạch cho cột cụ thể
        col = df.columns[column_index]
        df[col] = df[col].apply(clean_string)
    else:
        print(f"Invalid column index !")

    # Lưu lại DataFrame đã được làm sạch thành file CSV mới
    df.to_csv(output_csv, index = False)

# Ví dụ sử dụng hàm
input_csv = '../Data/temp_data.csv'
output_csv = '../Data/clean_data.csv'
column_index = 8  # Chỉ số của cột cần làm sạch (bắt đầu từ 0), cột 8 là cột Description
clean_file_csv(input_csv, output_csv, column_index)


In [76]:
# Đọc lại file csv, xoá các dòng bị lỗi 
# (mình nhận thấy số lượng dòng bị lỗi không nhiều ~ 10 dòng nên mình sẽ skip luôn vì tụi mình có nhiều data mà =))))
df = pd.read_csv('../Data/clean_data.csv', on_bad_lines = 'skip')

# Loại bỏ cột No và cột Title không cần thiết 
df = df.drop(columns = df.columns[[0, 2]])

# Load lại những thay đổi vào file clean_data.csv
df.to_csv('../Data/clean_data.csv', index=False)

In [77]:
# import pandas as pd
# import re

# def clean_string(string):
#     """
#     Hàm này sẽ làm sạch chuỗi bằng cách loại bỏ các biểu tượng và ký tự không cần thiết.

#     Args:
#     string: Chuỗi cần làm sạch.

#     Returns:
#     clean_string: Chuỗi đã được làm sạch.
#     """
#     if isinstance(string, str):
#         clean_string = re.sub(r'[^\w\s.,]', '', string)
#         return clean_string
#     else:
#         return string

# def clean_file_csv(input_csv, output_csv):
#     """
#     Hàm này sẽ làm sạch toàn bộ file CSV.
    
#     Args:
#     input_csv (str): Đường dẫn tới file CSV đầu vào.
#     output_csv (str): Đường dẫn tới file CSV đầu ra.
#     """
#     # Đọc file CSV vào DataFrame
#     df = pd.read_csv(input_csv, on_bad_lines = 'skip')

#     # Áp dụng hàm làm sạch cho từng phần tử trong DataFrame
#     df = df.applymap(clean_string)

#     # Lưu lại DataFrame đã được làm sạch thành file CSV mới
#     df.to_csv(output_csv, index=False)

# # Ví dụ sử dụng hàm
# input_csv = '../Data/temp_data.csv'
# output_csv = '../Data/clean_data.csv'
# clean_file_csv(input_csv, output_csv)
