In [1]:
import pandas as pd
import streamlit as st
import pandas as pd
from unidecode import unidecode
import re
import numpy as np

In [9]:
def xu_ly_file_upload(uploaded_file, loai_bao_cao, file_extension='xlsx'):
    import pandas as pd

    if uploaded_file is None:
        return None

    # Đọc file không có header để dò dòng tiêu đề
    if file_extension in ['xlsx', 'xls']:
        df = pd.read_excel(uploaded_file, header=None)
    elif file_extension == 'csv':
        df = pd.read_csv(uploaded_file, header=None, encoding='utf-8')
    else:
        return None

    current_year = pd.Timestamp.now().year
    start_row = None

    for i in range(len(df)):
        row = df.iloc[i]
        year_count = 0

        # Bỏ qua dòng nếu cột đầu tiên là năm
        try:
            first_val = float(row[0])
            if first_val.is_integer() and 2000 <= int(first_val) <= current_year:
                continue  # Không hợp lệ nếu cột đầu là năm
        except:
            pass  # OK nếu không phải năm

        # Đếm số cột là năm (từ cột thứ 2 trở đi)
        for j in range(1, len(row)):
            try:
                val = float(row[j])
                if val.is_integer() and 2000 <= int(val) <= current_year:
                    year_count += 1
            except:
                continue

        # Chấp nhận nếu có ít nhất 3 cột là năm
        if year_count >= 3:
            start_row = i
            break

    if start_row is None:
        return None

    # Đọc lại file với header đúng
    if file_extension in ['xlsx', 'xls']:
        df = pd.read_excel(uploaded_file, header=start_row)
    elif file_extension == 'csv':
        df = pd.read_csv(uploaded_file, header=start_row, encoding='utf-8')

    df.columns = df.columns.astype(str).str.strip()
    df.fillna(0, inplace=True)

    return df


In [3]:
search_terms_LCTT = {
    # LCTT (Báo cáo Lưu chuyển Tiền tệ)
    "DTRTHDKD": "Lưu chuyển tiền thuần từ hoạt động kinh doanh",
    "DTRTHDDT": "Lưu chuyển tiền thuần từ hoạt động đầu tư",
    "DTRTHDTC": "Lưu chuyển tiền thuần từ hoạt động tài chính",
    "KH": "Khấu hao TSCĐ và BĐSĐT",
}

search_terms_CDKT = {
    # CDKT (Bảng Cân đối Kế toán)
    "TTS": "TỔNG CỘNG TÀI SẢN",
    "TSNH": "TÀI SẢN NGẮN HẠN",
    "TVCKTDT": "Tiền và các khoản tương đương tiền",
    "HTK": "Hàng tồn kho",
    "TSCDHH": "Tài sản cố định hữu hình",
    "TSCD": "Tài sản cố định",
    "CKPTNH": "Các khoản phải thu ngắn hạn",
    "VCSH": "VỐN CHỦ SỞ HỮU",
    "NPT": "NỢ PHẢI TRẢ",
    "NNH": "Nợ ngắn hạn",
    "NDH": "Nợ dài hạn",
    "PTNBNH": "Phải trả người bán ngắn hạn",
}

search_terms_KQKD = {
    # KQHDKD (Báo cáo Kết quả Hoạt động Kinh doanh)
    "DTT": "Doanh thu thuần về bán hàng và cung cấp dịch vụ",
    "LNT": "Lợi nhuận thuần từ hoạt động kinh doanh",
    "LNR": "Lợi nhuận sau thuế thu nhập doanh nghiệp",
    "LNG": "Lợi nhuận gộp về bán hàng và cung cấp dịch vụ",
    "GVHB": "Giá vốn hàng bán",
    "LCBTCP": "Lãi cơ bản trên cổ phiếu",
    "CPLV": "Chi phí lãi vay",
}

In [4]:
def normalize_text(text):
    # Kiểm tra nếu text là kiểu chuỗi
    if isinstance(text, str):
        # Chuyển thành chữ thường và loại bỏ dấu tiếng Việt
        text = text.lower()
        text = unidecode(text)
        text = text.strip()
        # Loại bỏ các ký tự không mong muốn (ngoài a-z, 0-9 và khoảng trắng)
        text = re.sub(r'[^a-z0-9\s]', '', text)
    # Nếu là kiểu số thì không làm gì, giữ nguyên
    return text

def clean_column_name(col):
    try:
        num = float(col)
        if num.is_integer():
            return str(int(num))  # Bỏ '.0'
        else:
            return str(num)
    except:
        return col  # Nếu không chuyển được thì giữ nguyên

In [7]:
def gop_file(df_CDKT, df_KQKD, df_LCTT, Ma_Cty):
    # Chuẩn hóa tên cột
    for df in [df_CDKT, df_KQKD, df_LCTT]:
        df.columns = df.columns.astype(str).str.strip()
         
    df_CDKT.fillna(0, inplace=True)
    df_KQKD.fillna(0, inplace=True)
    df_LCTT.fillna(0, inplace=True) 
    
    # Dictionary chứa dữ liệu cho từng công ty
    df_total = pd.DataFrame([])
    dong_hien_tai = 0
    
    #Lấy năm của công ty
    Nam_CDKT = df_CDKT.columns.tolist()
    Nam_KQKD = df_KQKD.columns.tolist()
    Nam_LCTT = df_LCTT.columns.tolist()

    # Chuyển các danh sách thành tập hợp (set) và lấy giao (intersection)
    Nam_trung = set(Nam_CDKT) & set(Nam_KQKD) & set(Nam_LCTT)

    # Xóa số 0, sắp xếp tăng dần
    Nam_trung = sorted(n for n in Nam_trung if n != '0' and n != 'Chỉ số')
    # Dictionary chứa dữ liệu cho từng công ty

    for year in Nam_trung:  # Lặp qua từng năm trùng
        df_total.at[dong_hien_tai, 'Id'] = int(dong_hien_tai + 1)
        df_total.at[dong_hien_tai, 'Ma_Cty'] = Ma_Cty
        df_total.at[dong_hien_tai, 'Nam'] = year

        # Áp dụng normalize_text vào cột đầu tiên của DataFrame
        df_CDKT.iloc[:, 0] = df_CDKT.iloc[:, 0].apply(normalize_text)
        df_KQKD.iloc[:, 0] = df_KQKD.iloc[:, 0].apply(normalize_text)
        df_LCTT.iloc[:, 0] = df_LCTT.iloc[:, 0].apply(normalize_text)

        # Duyệt qua các từ khóa tìm kiếm
        for key, term in search_terms_CDKT.items():  
            df_processing = df_CDKT              
            # Tìm trong các file, sử dụng normalize_text cho cột đầu tiên\
            matched_rows = df_processing.loc[df_processing.iloc[:, 0].str.contains(normalize_text(term), na=False), year]
           
            value = matched_rows.values

            if value.size >= 1:
                df_total.at[dong_hien_tai, key] = float(value[0])

        # Duyệt qua các từ khóa tìm kiếm
        for key, term in search_terms_KQKD.items():  
            df_processing = df_KQKD              
            # Tìm trong các file, sử dụng normalize_text cho cột đầu tiên\
            matched_rows = df_processing.loc[df_processing.iloc[:, 0].str.contains(normalize_text(term), na=False), year]
            value = matched_rows.values
            
            if value.size >= 1:
                df_total.at[dong_hien_tai, key] = float(value[0])      
                
        for key, term in search_terms_LCTT.items():  
            df_processing = df_LCTT              
            # Tìm trong các file, sử dụng normalize_text cho cột đầu tiên\
            matched_rows = df_processing.loc[df_processing.iloc[:, 0].str.contains(normalize_text(term), na=False), year]
            value = matched_rows.values
            
            if value.size >= 1:
                df_total.at[dong_hien_tai, key] = float(value[0])
        
        dong_hien_tai += 1  # Tiến sang dòng tiếp theo
        

    # Lấy index của các dòng có NaN trong 'Nam'
    na_indexes = df_total[df_total['Nam'].isna()].index
    print("Chỉ số các dòng có NaN trong cột 'Nam':", list(na_indexes))

    # Xoá các dòng có NaN trong 'Nam'
    df_total = df_total.drop(index=na_indexes).reset_index(drop=True)
    
    # Đổi kiểu dữ liệu
    for column in df_total.columns[3:]:
        df_total[column] = pd.to_numeric(df_total[column], errors='coerce').astype('float64')
        
    df_total['Nam'] = pd.to_numeric(df_total['Nam'], errors='coerce').astype('Int64')

    # Gộp tất cả các từ khóa lại với hậu tố tương ứng
    all_keys = (
        [key for key in search_terms_LCTT.keys()] +
        [key for key in search_terms_CDKT.keys()] +
        [key for key in search_terms_KQKD.keys()]
    )

    # Lấy danh sách các cột trong dataframe
    df_columns = df_total.columns.tolist()

    # Tìm các key bị thiếu
    missing_keys = [key for key in all_keys if key not in df_columns]

    # In ra kết quả
    if not missing_keys:
        print("✅ Tất cả các key đều có mặt trong df.columns")
    else:
        print("❌ Thiếu các key sau trong df.columns:")
        print(missing_keys)
    return df_total

In [10]:
df_CDKT = xu_ly_file_upload(r"D:\Nam4\KHÓA LUẬN\DATA TEST\AAA_CDKT.xlsx", 'CDKT')
df_LCTT = xu_ly_file_upload(r"D:\Nam4\KHÓA LUẬN\DATA TEST\AAA_LCTT.xlsx", 'LCTT')
df_KQKD = xu_ly_file_upload(r"D:\Nam4\KHÓA LUẬN\DATA TEST\AAA_KQKD.xlsx", 'KQKD')

In [11]:
gop_file(df_CDKT, df_KQKD, df_LCTT, 'AAA')

  df_total.at[dong_hien_tai, 'Ma_Cty'] = Ma_Cty
  df_total.at[dong_hien_tai, 'Nam'] = year


Chỉ số các dòng có NaN trong cột 'Nam': []
✅ Tất cả các key đều có mặt trong df.columns


Unnamed: 0,Id,Ma_Cty,Nam,TTS,TSNH,TVCKTDT,HTK,TSCDHH,TSCD,CKPTNH,...,LNT,LNR,LNG,GVHB,LCBTCP,CPLV,DTRTHDKD,DTRTHDDT,DTRTHDTC,KH
0,1.0,AAA,2007,153510400.0,100276900.0,8973523.0,35275720.0,43524660.0,53087650.0,42683770.0,...,16298742.0,16407162.0,22645180.0,85892110.0,2835.0,1109102.0,-49933010.0,-64585970.0,123492500.0,3327113.0
1,2.0,AAA,2008,271331400.0,143553700.0,3681471.0,39977630.0,102264100.0,125999000.0,90092760.0,...,22821680.0,22874647.0,51978420.0,196355000.0,3445.0,13158802.0,-46372820.0,-61241570.0,102179600.0,6302616.0
2,3.0,AAA,2009,435850800.0,182826300.0,37821760.0,48690500.0,202398700.0,210278500.0,84576400.0,...,37817350.0,37722752.0,83597560.0,300935900.0,5716.0,17140936.0,52329610.0,-114679800.0,96440830.0,12603828.0
3,4.0,AAA,2010,644978500.0,284630000.0,20196090.0,80619240.0,301604700.0,344040700.0,161950000.0,...,98906274.0,90222093.0,186689900.0,492624800.0,10315.0,23323421.0,-797726.0,-160705200.0,103872000.0,25694184.0
4,5.0,AAA,2011,816618000.0,294682000.0,32921080.0,125599000.0,415158600.0,438773100.0,110425900.0,...,76689465.0,65671439.0,197742900.0,712891200.0,6614.0,34840627.0,56132860.0,-164121900.0,120704600.0,34064170.0
5,6.0,AAA,2012,900493800.0,433003100.0,103421000.0,195577700.0,382879500.0,430583400.0,93812820.0,...,64021126.0,56177588.0,186339500.0,823693700.0,4850.0,29362607.0,111120500.0,-15809200.0,-24792940.0,46632888.0
6,7.0,AAA,2013,1150569000.0,495025000.0,130266700.0,200026000.0,534173800.0,605159800.0,146942400.0,...,63819232.0,55471541.0,178535200.0,978972600.0,2775.0,17108189.0,83524440.0,-208641500.0,151816100.0,48746209.0
7,8.0,AAA,2014,1421651000.0,694379200.0,336807700.0,137522100.0,618302900.0,679968800.0,154088500.0,...,50265261.0,47780875.0,182744900.0,1377899000.0,1895.0,17187220.0,99299540.0,-127559900.0,234422400.0,64200063.0
8,9.0,AAA,2015,1954765000.0,1071561000.0,470061700.0,214186600.0,595375400.0,636532200.0,363509700.0,...,48754415.0,40548814.0,189807800.0,1424741000.0,642.0,24065811.0,-73349080.0,-244369200.0,450835500.0,83358285.0
9,10.0,AAA,2016,3077616000.0,1361646000.0,406676800.0,450591300.0,1338478000.0,1434278000.0,455567600.0,...,165553233.0,142925018.0,307035400.0,1836734000.0,2611.0,27284472.0,80169550.0,-1011689000.0,868037000.0,92958744.0
