In [None]:
import pandas as pd
import numpy as np

# -------------------------
# CẤU HÌNH
# -------------------------
# Đường dẫn đến file dữ liệu của bạn
FILE_PATH = "/content/drive/MyDrive/Dữ liệu/BK_20_Test_3.csv"

# -------------------------
# 1. Tải Dữ liệu
# -------------------------
try:
    df = pd.read_csv(FILE_PATH)
    print(f"--- Đã tải thành công file: {FILE_PATH} ---")
except FileNotFoundError:
    print(f"LỖI: Không tìm thấy file tại đường dẫn: {FILE_PATH}")
    # Trong một script thực tế, bạn có thể muốn dừng ở đây
    # exit()
except Exception as e:
    print(f"Một lỗi đã xảy ra khi đọc file: {e}")
    # exit()

# -------------------------
# 2. Đánh giá Tổng quan (Cột, Hàng, Tên)
# -------------------------
print("\n## 1. Đánh giá Tổng quan ##")

# Kiểm tra xem df đã được tải thành công chưa
if 'df' in locals():
    # Lấy số hàng và cột
    num_rows, num_cols = df.shape

    print(f"Số lượng hàng (rows):    {num_rows}")
    print(f"Số lượng cột (columns): {num_cols}")

    print("\n--- Tên cột và Kiểu dữ liệu (dtype) ---")
    # In danh sách tên cột và kiểu dữ liệu của chúng
    # df.info() là một cách nhanh, nhưng đây là cách chi tiết hơn
    column_info = pd.DataFrame({
        'Kiểu dữ liệu': df.dtypes,
        'Ví dụ dữ liệu': df.iloc[0] # Lấy dòng đầu tiên làm ví dụ
    })
    print(column_info)

# -------------------------
# 3. Đánh giá Dữ liệu Thiếu (Missing Data)
# -------------------------
    print("\n## 2. Phân tích Dữ liệu Thiếu (Missing Data) ##")

    # Tính số ô trống (NaN/Null) cho từng cột
    missing_counts = df.isna().sum()

    # Tính tỷ lệ % dữ liệu thiếu
    # (chia số ô trống cho tổng số hàng)
    missing_percentage = (missing_counts / num_rows) * 100

    # Tạo một DataFrame thống kê để xem cho đẹp
    missing_stats = pd.DataFrame({
        'Số ô trống': missing_counts,
        'Tỷ lệ % thiếu': missing_percentage
    })

    # Chỉ lọc ra những cột CÓ dữ liệu thiếu để báo cáo
    missing_stats_filtered = missing_stats[missing_stats['Số ô trống'] > 0]

    if missing_stats_filtered.empty:
        print("\nTUYỆT VỜI: Không có dữ liệu thiếu trong bất kỳ cột nào.")
    else:
        # Sắp xếp để xem cột nào thiếu nhiều nhất
        missing_stats_sorted = missing_stats_filtered.sort_values(by='Số ô trống', ascending=False)

        print(f"\nTìm thấy {len(missing_stats_sorted)} cột có dữ liệu thiếu:")

        # Định dạng output cho đẹp
        pd.set_option('display.float_format', '{:.2f}'.format)
        print(missing_stats_sorted)

    print("\n--- Đánh giá hoàn tất ---")

else:
    print("Không thể thực hiện đánh giá vì DataFrame chưa được tải.")

--- Đã tải thành công file: /content/drive/MyDrive/Dữ liệu/BK_20_Test_3.csv ---

## 1. Đánh giá Tổng quan ##
Số lượng hàng (rows):    1828
Số lượng cột (columns): 22

--- Tên cột và Kiểu dữ liệu (dtype) ---
                            Kiểu dữ liệu   Ví dụ dữ liệu
Date                              object  8/17/2020 0:00
Buffer pressure min              float64            47.0
Buffer pressure max              float64            55.0
Wellhead pressure min            float64            15.0
Wellhead pressure max            float64            15.0
Tubing pressure min              float64            15.0
Tubing pressure max              float64            18.0
Bottomhole pressure              float64            23.0
T min                            float64            34.0
T max                            float64            44.0
Qliq                             float64           150.0
Qoil                             float64       94.345679
Water cut                        float64            