In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from google.colab import drive
import os

# 1) Mount Google Drive
drive.mount('/content/drive')

# 2) Đường dẫn file CSV
file_path = "/content/drive/MyDrive/Nhập môn học máy/imdb_top_1000.csv"

# 3) Kiểm tra file có tồn tại không
if not os.path.exists(file_path):
    raise FileNotFoundError(f"❌ Không tìm thấy file tại: {file_path}")

# 4) Đọc file CSV
df = pd.read_csv(file_path, encoding="utf-8")
print("✅ Đọc dữ liệu thành công!")
print("📌 Các cột trong file:", list(df.columns))

# 5) Xử lý dữ liệu cơ bản
# Chuyển Rating thành số
if "IMDB_Rating" in df.columns:
    df["IMDB_Rating"] = pd.to_numeric(df["IMDB_Rating"], errors="coerce")

# Chuyển Gross (doanh thu) về số
if "Gross" in df.columns:
    df["Gross"] = df["Gross"].astype(str).str.replace(",", "").str.strip()
    df["Gross"] = pd.to_numeric(df["Gross"], errors="coerce")

# 6) Biểu đồ Top 10 phim có điểm IMDB cao nhất
top_rating = df.nlargest(10, "IMDB_Rating")[["Series_Title", "IMDB_Rating"]]

plt.figure(figsize=(10, 6))
plt.barh(top_rating["Series_Title"], top_rating["IMDB_Rating"], color="skyblue")
plt.xlabel("Điểm IMDB")
plt.ylabel("Tên phim")
plt.title("Top 10 phim có điểm IMDB cao nhất")
plt.gca().invert_yaxis()
plt.show()

# 7) Biểu đồ Top 10 phim có doanh thu cao nhất (Gross)
if "Gross" in df.columns:
    top_gross = df.nlargest(10, "Gross")[["Series_Title", "Gross"]]

    plt.figure(figsize=(10, 6))
    plt.barh(top_gross["Series_Title"], top_gross["Gross"], color="orange")
    plt.xlabel("Doanh thu (Gross)")
    plt.ylabel("Tên phim")
    plt.title("Top 10 phim có doanh thu cao nhất")
    plt.gca().invert_yaxis()
    plt.show()

# 8) Biểu đồ phân bố thể loại phim (Genre)
if "Genre" in df.columns:
    genres = df["Genre"].str.split(",").explode().str.strip()
    top_genres = genres.value_counts().head(10)

    plt.figure(figsize=(10, 6))
    top_genres.plot(kind="bar", color="green")
    plt.title("Top 10 thể loại phim phổ biến nhất")
    plt.xlabel("Thể loại")
    plt.ylabel("Số lượng phim")
    plt.show()
