In [95]:
import pandas as pd
import numpy as np

# Đọc dữ liệu chính từ file Excel của bạn
df = pd.read_excel('tong_hop.xlsx', sheet_name='DuLieuGoc')
df['NgayNhap'] = pd.to_datetime(df['NgayNhap'])  # chuẩn hóa ngày

print("DỮ LIỆU KHO HÀNG CÔNG NGHỆ 24H (19 sản phẩm từ SP002 → SP020)")
print(df.head(3))
print(f"Tổng cộng: {len(df)} sản phẩm\n")

DỮ LIỆU KHO HÀNG CÔNG NGHỆ 24H (19 sản phẩm từ SP002 → SP020)
   STT   MaSP                     TenSP  SoLuong   DonGia   NgayNhap
0    2  SP002  Chuột không dây Logitech      150   350000 2025-01-16
1    3  SP003  Màn hình Samsung 27 inch       25  7200000 2025-01-17
2    4  SP004          Bàn phím cơ AKKO       80  1850000 2025-01-18
Tổng cộng: 19 sản phẩm




### ============== CHỦ ĐỀ 1: THỐNG KÊ CƠ BẢN VỚI NUMPY ==============

In [96]:
print("CHỦ ĐỀ 1: THỐNG KÊ CƠ BẢN VỚI NUMPY\n")

sl = df['SoLuong'].values
dg = df['DonGia'].values

print("Ví dụ 1.1:")
print(f"Trung bình số lượng tồn   : {np.mean(sl):.1f} cái")
print(f"Trung bình đơn giá        : {np.mean(dg)/1e6:.2f} triệu")
print(f"Độ lệch chuẩn số lượng    : {np.std(sl):.1f}")
print(f"Đơn giá cao nhất          : {np.max(dg):,} đ → {df.loc[np.argmax(dg), 'TenSP']}")

print("\nVí dụ 1.2:")
print(f"Tổng giá trị tồn kho      : {np.sum(sl * dg):,} đ")
print(f"Số lượng tồn trung bình (median): {np.median(sl)} cái")
print(f"Phạm vi số lượng (max-min): {np.ptp(sl)} cái")

CHỦ ĐỀ 1: THỐNG KÊ CƠ BẢN VỚI NUMPY

Ví dụ 1.1:
Trung bình số lượng tồn   : 92.5 cái
Trung bình đơn giá        : 4.59 triệu
Độ lệch chuẩn số lượng    : 107.1
Đơn giá cao nhất          : 28,900,000 đ → Điện thoại iPhone 15 Pro

Ví dụ 1.2:
Tổng giá trị tồn kho      : 1,981,550,000 đ
Số lượng tồn trung bình (median): 35.0 cái
Phạm vi số lượng (max-min): 395 cái



###  ============== CHỦ ĐỀ 2: FILTERING & BOOLEAN INDEXING ==============

In [97]:
print("\nCHỦ ĐỀ 2: LỌC DỮ LIỆU VỚI NUMPY BOOLEAN INDEXING\n")

print("Ví dụ 2.1: Hàng sắp hết kho (< 20 cái)")
mask_het = sl < 20
print(df[mask_het][['TenSP', 'SoLuong', 'DonGia']].to_string(index=False))

print("\nVí dụ 2.2: Sản phẩm giá trên 5 triệu")
mask_gia_cao = dg > 5_000_000
print(f"Có {np.sum(mask_gia_cao)} sản phẩm cao cấp:")
print(df[mask_gia_cao][['TenSP', 'DonGia']].to_string(index=False))


CHỦ ĐỀ 2: LỌC DỮ LIỆU VỚI NUMPY BOOLEAN INDEXING

Ví dụ 2.1: Hàng sắp hết kho (< 20 cái)
                   TenSP  SoLuong   DonGia
Tai nghe Sony WH-1000XM5       18  8500000
      Máy in laser Canon        8  5200000
   Máy chiếu mini Xiaomi        5 11500000
Điện thoại iPhone 15 Pro        7 28900000
 Máy lọc không khí Sharp       15  7200000

Ví dụ 2.2: Sản phẩm giá trên 5 triệu
Có 6 sản phẩm cao cấp:
                   TenSP   DonGia
Màn hình Samsung 27 inch  7200000
Tai nghe Sony WH-1000XM5  8500000
      Máy in laser Canon  5200000
   Máy chiếu mini Xiaomi 11500000
Điện thoại iPhone 15 Pro 28900000
 Máy lọc không khí Sharp  7200000



###  ============== CHỦ ĐỀ 3: SORTING & RANKING ==============

In [98]:
print("\nCHỦ ĐỀ 3: SẮP XẾP VÀ XẾP HẠNG\n")

print("Ví dụ 3.1: Top 5 sản phẩm tồn kho nhiều nhất")
top5_sl = df.iloc[np.argsort(-sl)[:5]]
print(top5_sl[['TenSP', 'SoLuong']].to_string(index=False))

print("\nVí dụ 3.2: Xếp hạng sản phẩm theo giá trị tồn kho")
giatri_ton = sl * dg
rank = np.argsort(-giatri_ton) + 1
df_temp = df.copy()
df_temp['XepHang'] = rank
print("Top 5 giá trị tồn kho cao nhất:")
print(df_temp.nlargest(5, 'XepHang')[['TenSP', 'SoLuong', 'DonGia', 'XepHang']].to_string(index=False))


CHỦ ĐỀ 3: SẮP XẾP VÀ XẾP HẠNG

Ví dụ 3.1: Top 5 sản phẩm tồn kho nhiều nhất
                       TenSP  SoLuong
      Ốp lưng iPhone da thật      400
      Đèn LED bàn học Xiaomi      300
   Pin sạc dự phòng 20000mAh      200
Túi chống sốc laptop 15 inch      180
    Chuột không dây Logitech      150

Ví dụ 3.2: Xếp hạng sản phẩm theo giá trị tồn kho
Top 5 giá trị tồn kho cao nhất:
                   TenSP  SoLuong   DonGia  XepHang
    Bàn di chuột lớn RGB      120   280000       19
      Máy in laser Canon        8  5200000       18
   Máy chiếu mini Xiaomi        5 11500000       17
Điện thoại iPhone 15 Pro        7 28900000       16
  Ổ cứng SSD 1TB Samsung       45  2200000       15



###  ============== CHỦ ĐỀ 4: TOÁN HỌC TRÊN MẢNG ==============

In [99]:
print("\nCHỦ ĐỀ 4: PHÉP TÍNH TRÊN MẢNG NUMPY\n")

print("Ví dụ 4.1: Tính thành tiền tồn kho từng sản phẩm")
thanhtien = np.multiply(sl, dg)
df['ThanhTienTon'] = thanhtien
print(df[['TenSP', 'SoLuong', 'DonGia', 'ThanhTienTon']].head().to_string(index=False))

print(f"\nTổng giá trị tồn kho toàn shop: {np.sum(thanhtien):,} đồng")

print("\nVí dụ 4.2: Tỷ lệ đóng góp giá trị tồn kho (%)")
ty_le = np.divide(thanhtien, np.sum(thanhtien)) * 100
top3 = df.iloc[np.argsort(-ty_le)[:3]]
print("Top 3 sản phẩm chiếm nhiều giá trị tồn nhất:")
for i, row in top3.iterrows():
    print(f"• {row['TenSP']}: {ty_le[row.name]:.2f}%")


CHỦ ĐỀ 4: PHÉP TÍNH TRÊN MẢNG NUMPY

Ví dụ 4.1: Tính thành tiền tồn kho từng sản phẩm
                   TenSP  SoLuong  DonGia  ThanhTienTon
Chuột không dây Logitech      150  350000      52500000
Màn hình Samsung 27 inch       25 7200000     180000000
        Bàn phím cơ AKKO       80 1850000     148000000
Tai nghe Sony WH-1000XM5       18 8500000     153000000
  Ổ cứng SSD 1TB Samsung       45 2200000      99000000

Tổng giá trị tồn kho toàn shop: 1,981,550,000 đồng

Ví dụ 4.2: Tỷ lệ đóng góp giá trị tồn kho (%)
Top 3 sản phẩm chiếm nhiều giá trị tồn nhất:
• Điện thoại iPhone 15 Pro: 10.21%
• Màn hình Samsung 27 inch: 9.08%
• Tai nghe Sony WH-1000XM5: 7.72%



###  ============== CHỦ ĐỀ 5: ADVANCED INDEXING & SLICING ===============

In [100]:
print("\nCHỦ ĐỀ 5: INDEXING NÂNG CAO VỚI NUMPY\n")

print("Ví dụ 5.1: Sản phẩm vừa ít hàng (<30) vừa giá cao (>7tr)")
idx_it = np.where(sl < 30)[0]
idx_gia_cao = np.where(dg > 7_000_000)[0]
idx_canh_bao = np.intersect1d(idx_it, idx_gia_cao)

print(f"Cảnh báo: {len(idx_canh_bao)} sản phẩm cần nhập gấp!")
print(df.iloc[idx_canh_bao][['TenSP', 'SoLuong', 'DonGia']].to_string(index=False))

print("\nVí dụ 5.2: Lấy mỗi 3 sản phẩm một (step = 3)")
print(df.iloc[::3][['TenSP', 'SoLuong']].to_string(index=False))


CHỦ ĐỀ 5: INDEXING NÂNG CAO VỚI NUMPY

Ví dụ 5.1: Sản phẩm vừa ít hàng (<30) vừa giá cao (>7tr)
Cảnh báo: 5 sản phẩm cần nhập gấp!
                   TenSP  SoLuong   DonGia
Màn hình Samsung 27 inch       25  7200000
Tai nghe Sony WH-1000XM5       18  8500000
   Máy chiếu mini Xiaomi        5 11500000
Điện thoại iPhone 15 Pro        7 28900000
 Máy lọc không khí Sharp       15  7200000

Ví dụ 5.2: Lấy mỗi 3 sản phẩm một (step = 3)
                      TenSP  SoLuong
   Chuột không dây Logitech      150
   Tai nghe Sony WH-1000XM5       18
       Webcam Logitech C920       35
   Loa Bluetooth JBL Flip 6       90
      Máy chiếu mini Xiaomi        5
   Bút cảm ứng Apple Pencil       22
Nồi chiên không dầu Philips       30


### ============== CHỦ ĐỀ 6: ĐIỀU KIỆN NÂNG CAO ==============

In [101]:
print("\nCHỦ ĐỀ 6: PHÂN LOẠI SẢN PHẨM THEO GIÁ\n")

nhom = np.select(
    [dg < 1_000_000, dg < 5_000_000, dg < 15_000_000],
    ['Giá rẻ', 'Trung bình', 'Cao cấp'],
    default='Siêu cao cấp'
)
df['NhomGia'] = nhom

print("Ví dụ 6.1:")
print(df['NhomGia'].value_counts().to_string())

print("\nVí dụ 6.2: Gán nhãn khuyến mãi")

khuyenmai = np.where(dg > 10_000_000, 'Giảm 20%', 
                    np.where(dg > 5_000_000, 'Giảm 10%', 'Không giảm'))
df['KhuyenMai'] = khuyenmai
print("Sản phẩm được giảm giá mạnh:")
print(df[df['KhuyenMai'] != 'Không giảm'][['TenSP', 'DonGia', 'KhuyenMai']].to_string(index=False))


CHỦ ĐỀ 6: PHÂN LOẠI SẢN PHẨM THEO GIÁ

Ví dụ 6.1:
NhomGia
Trung bình      7
Giá rẻ          6
Cao cấp         5
Siêu cao cấp    1

Ví dụ 6.2: Gán nhãn khuyến mãi
Sản phẩm được giảm giá mạnh:
                   TenSP   DonGia KhuyenMai
Màn hình Samsung 27 inch  7200000  Giảm 10%
Tai nghe Sony WH-1000XM5  8500000  Giảm 10%
      Máy in laser Canon  5200000  Giảm 10%
   Máy chiếu mini Xiaomi 11500000  Giảm 20%
Điện thoại iPhone 15 Pro 28900000  Giảm 20%
 Máy lọc không khí Sharp  7200000  Giảm 10%


### ============== CHỦ ĐỀ 7: GROUPING VỚI NUMPY ==============

In [102]:
print("\nCHỦ ĐỀ 7: NHÓM THEO KHOẢNG GIÁ (np.digitize)\n")

bins = [0, 1_000_000, 5_000_000, 15_000_000, np.inf]
labels = ['Rẻ', 'Trung', 'Cao', 'Siêu cao']
nhom_idx = np.digitize(dg, bins) 

for i, label in enumerate(labels, 1):
    mask = nhom_idx == i
    if np.any(mask):
        tong_sl = np.sum(sl[mask])
        print(f"{label:8}: {np.sum(mask)} sản phẩm → Tổng tồn: {tong_sl} cái")


CHỦ ĐỀ 7: NHÓM THEO KHOẢNG GIÁ (np.digitize)

Rẻ      : 6 sản phẩm → Tổng tồn: 1350 cái
Trung   : 7 sản phẩm → Tổng tồn: 330 cái
Cao     : 5 sản phẩm → Tổng tồn: 71 cái
Siêu cao: 1 sản phẩm → Tổng tồn: 7 cái


### ============== CHỦ ĐỀ 8: CHUẨN HÓA DỮ LIỆU ==============

In [103]:
print("\nCHỦ ĐỀ 8: CHUẨN HÓA (Normalization & Standardization)\n")

# Min-Max Normalization số lượng
sl_norm = (sl - np.min(sl)) / (np.max(sl) - np.min(sl))
print("Ví dụ 8.1: Số lượng sau Min-Max (0→1):")
print(f"Ốp lưng iPhone: {sl_norm[df[df['TenSP'].str.contains('Ốp lưng')].index[0]]:.3f}")
print(f"Đèn LED Xiaomi : {sl_norm[df[df['TenSP'].str.contains('Đèn LED')].index[0]]:.3f}")

# Z-score đơn giá
dg_clean = np.where(np.isnan(dg), np.nanmean(dg), dg)  # thay NaN bằng mean nếu có
dg_z = (dg_clean - np.mean(dg_clean)) / np.std(dg_clean)
print("\nVí dụ 8.2: Đơn giá sau Z-score:")
print(f"iPhone 15 Pro   : {dg_z[df[df['MaSP']=='SP015'].index[0]]:+.2f} (rất cao)")
print(f"Chuột Logitech  : {dg_z[df[df['MaSP']=='SP002'].index[0]]:+.2f}")


CHỦ ĐỀ 8: CHUẨN HÓA (Normalization & Standardization)

Ví dụ 8.1: Số lượng sau Min-Max (0→1):
Ốp lưng iPhone: 1.000
Đèn LED Xiaomi : 0.747

Ví dụ 8.2: Đơn giá sau Z-score:
iPhone 15 Pro   : +3.72 (rất cao)
Chuột Logitech  : -0.65


### ============== CHỦ ĐỀ 9: TƯƠNG QUAN ==============

In [104]:
print("\nCHỦ ĐỀ 9: TƯƠNG QUAN GIỮA SỐ LƯỢNG VÀ ĐƠN GIÁ\n")

corr = np.corrcoef(sl, dg)[0,1]
print(f"Hệ số tương quan Pearson: {corr:.3f}")
if corr < -0.3:
    print("→ Có xu hướng: hàng càng đắt thì tồn càng ít (hợp lý!)")
else:
    print("→ Không có tương quan mạnh")


CHỦ ĐỀ 9: TƯƠNG QUAN GIỮA SỐ LƯỢNG VÀ ĐƠN GIÁ

Hệ số tương quan Pearson: -0.458
→ Có xu hướng: hàng càng đắt thì tồn càng ít (hợp lý!)


### ============== CHỦ ĐỀ 10: TÌM KIẾM NHANH ==============

In [108]:
# CHỦ ĐỀ 10: TÌM KIẾM NHANH + QUERY (PANDAS MỚI NHẤT)
print("\nCHỦ ĐỀ 10: TÌM KIẾM & TRUY VẤN SIÊU NHANH\n")
df_kho = pd.read_excel('tong_hop.xlsx', sheet_name='DuLieuGoc', engine='openpyxl')

# Ví dụ 10.1 – Tìm theo từ khóa
print("Sản phẩm có chữ 'Logitech' hoặc 'Sony':")
mask = df_kho['TenSP'].str.contains('Logitech|Sony', case=False, regex=True)
print(df_kho[mask][['TenSP','SoLuong','DonGia']].to_string(index=False))

# Ví dụ 10.2 – Dùng query() 
print("\nHàng tồn >100 cái và giá dưới 2 triệu:")
print(df_kho.query("SoLuong > 100 and DonGia < 2000000")[['TenSP','SoLuong','DonGia']]
      .to_string(index=False))


CHỦ ĐỀ 10: TÌM KIẾM & TRUY VẤN SIÊU NHANH

Sản phẩm có chữ 'Logitech' hoặc 'Sony':
                   TenSP  SoLuong  DonGia
Chuột không dây Logitech      150  350000
Tai nghe Sony WH-1000XM5       18 8500000
    Webcam Logitech C920       35 1650000

Hàng tồn >100 cái và giá dưới 2 triệu:
                       TenSP  SoLuong  DonGia
    Chuột không dây Logitech      150  350000
   Pin sạc dự phòng 20000mAh      200  650000
        Bàn di chuột lớn RGB      120  280000
      Đèn LED bàn học Xiaomi      300  450000
      Ốp lưng iPhone da thật      400  350000
Túi chống sốc laptop 15 inch      180  420000
