In [None]:
import pandas as pd

# Danh sách các file
files = ['diem_thi_2020.csv', 'diem_thi_2021.csv', 'diem_thi_2022.csv', 'diem_thi_2023.csv', 'diem_thi_2024.csv']

# Hàm chuẩn hóa tên cột
def standardize_columns(df):
    column_mapping = {
        'Toán': 'Toán', 'Lý': 'Lý', 'Hoá': 'Hoá', 'Sinh': 'Sinh',
        'Văn': 'Văn', 'Lịch Sử': 'Sử', 'Địa Lý': 'Địa', 'GDCD': 'GDCD', 'Ngoại Ngữ': 'Ngoại Ngữ',
        'toan': 'Toán', 'ly': 'Lý', 'hoa': 'Hoá', 'sinh': 'Sinh',
        'van': 'Văn', 'lich_su': 'Sử', 'dia_ly': 'Địa', 'gdcd': 'GDCD', 'ngoai_ngu': 'Ngoại Ngữ'
    }
    df = df.rename(columns=column_mapping)
    return df

# Hàm phân loại Tự nhiên và Xã hội
def classify(row):
    natural_subjects = ['Toán', 'Lý', 'Hoá', 'Sinh']
    social_subjects = ['Văn', 'Sử', 'Địa', 'GDCD']
    natural_score = any([row[subject] for subject in natural_subjects if pd.notna(row[subject])])
    social_score = any([row[subject] for subject in social_subjects if pd.notna(row[subject])])
    
    if natural_score:
        return 'Tự nhiên'
    elif social_score:
        return 'Xã hội'
    else:
        return 'Không phân loại'

# Xử lý từng file
for file in files:
    # Đọc file
    df = pd.read_csv(file)
    
    # Chuẩn hóa tên cột
    df = standardize_columns(df)
    
    # Áp dụng phân loại và thêm cột 'to_hop' cho thí sinh thi lần đầu
    df['to_hop'] = df.apply(lambda row: classify(row) if row['phan_loai'] == 'thi lan dau' else None, axis=1)
    
    # Lưu lại vào một file mới hoặc hiển thị
    output_file = file.replace('.csv', '_with_to_hop.csv')
    df.to_csv(output_file, index=False)
    print(f"Đã lưu dữ liệu có cột 'to_hop' vào file {output_file}")



In [7]:
import pandas
import os
files = ['diem_thi_2020_with_to_hop.csv', 'diem_thi_2021_with_to_hop.csv', 'diem_thi_2022_with_to_hop.csv', 'diem_thi_2023_with_to_hop.csv', 'diem_thi_2024_with_to_hop.csv']
for file in files:
    if os.path.exists(file):
     os.remove(file)
     print("File đã được xóa thành công.")


File đã được xóa thành công.
File đã được xóa thành công.
File đã được xóa thành công.
File đã được xóa thành công.
File đã được xóa thành công.


In [9]:
import pandas as pd

# Danh sách các file
files = ['diem_thi_2020.csv', 'diem_thi_2021.csv', 'diem_thi_2022.csv', 'diem_thi_2023.csv', 'diem_thi_2024.csv']

# Hàm chuẩn hóa tên cột
def standardize_columns(df):
    column_mapping = {
        'Toán': 'Toán', 'Lý': 'Lý', 'Hoá': 'Hoá', 'Sinh': 'Sinh',
        'Văn': 'Văn', 'Lịch Sử': 'Sử', 'Địa Lý': 'Địa', 'GDCD': 'GDCD', 'Ngoại Ngữ': 'Ngoại Ngữ',
        'toan': 'Toán', 'vat_li': 'Lý', 'hoa_hoc': 'Hoá', 'sinh_hoc': 'Sinh',
        'ngu_van': 'Văn', 'lich_su': 'Sử', 'dia_li': 'Địa', 'gdcd': 'GDCD', 'ngoai_ngu': 'Ngoại Ngữ'
    }
    df = df.rename(columns=column_mapping)
    return df

# Hàm phân loại Tự nhiên và Xã hội
def classify(row):
    # Các môn Tự nhiên và Xã hội
    natural_subjects = ['Lý', 'Hoá', 'Sinh']
    social_subjects = ['Sử', 'Địa', 'GDCD']
    
    # Kiểm tra điểm của các môn Tự nhiên và Xã hội
    has_natural = any([pd.notna(row[subject]) and row[subject] > 0 for subject in natural_subjects])
    has_social = any([pd.notna(row[subject]) and row[subject] > 0 for subject in social_subjects])
    
    # Phân loại dựa trên các môn thi có điểm
    if has_natural and not has_social:
        return 'Tự nhiên'
    elif has_social and not has_natural:
        return 'Xã hội'
    else:
        return 'Không phân loại'

# Xử lý từng file
for file in files:
    try:
        # Đọc file
        df = pd.read_csv(file)
        
        # Kiểm tra cột 'phan_loai'
        if 'phan_loai' not in df.columns:
            print(f"File {file} không có cột 'phan_loai'. Bỏ qua file này.")
            continue
        
        # Chuẩn hóa tên cột  
        df = standardize_columns(df)
      
        # Áp dụng phân loại và thêm cột 'to_hop' cho thí sinh thi lần đầu
        df['to_hop'] = df.apply(lambda row: classify(row) if row['phan_loai'] == 'thi lan dau' else None, axis=1)
        
        # Lưu lại vào một file mới hoặc hiển thị
        output_file = file.replace('.csv', '_with_to_hop.csv')
        df.to_csv(output_file, index=False)
        print(f"Đã lưu dữ liệu có cột 'to_hop' vào file {output_file}")
    except Exception as e:
        print(f"Đã xảy ra lỗi khi xử lý file {file}: {e}")


Đã lưu dữ liệu có cột 'to_hop' vào file diem_thi_2020_with_to_hop.csv
Đã lưu dữ liệu có cột 'to_hop' vào file diem_thi_2021_with_to_hop.csv
Đã lưu dữ liệu có cột 'to_hop' vào file diem_thi_2022_with_to_hop.csv
Đã lưu dữ liệu có cột 'to_hop' vào file diem_thi_2023_with_to_hop.csv
Đã lưu dữ liệu có cột 'to_hop' vào file diem_thi_2024_with_to_hop.csv
