BUỔI 5: NUMPY VÀ PANDAS


I. Giới thiệu NumPy

NumPy là thư viện cơ bản cho tính toán khoa học trong Python:
- **Mảng đa chiều** hiệu suất cao (ndarray)
- **Các hàm toán học** để thao tác với mảng  
- **Công cụ** cho đại số tuyến tính, biến đổi Fourier
- **Broadcasting** và vectorization

In [3]:
# 0. Tại sao nên dùng các thư viện như Numpy
import numpy as np
import time
import sys

size = 1000000
python_list = list(range(size))
numpy_array = np.arange(size)
start_time = time.time()
sum_list = sum(python_list)
list_time = time.time() - start_time

start_time = time.time()
sum_numpy = np.sum(numpy_array)
numpy_time = time.time() - start_time

print(f"Python List: {list_time:.6f}s")
print(f"NumPy Array: {numpy_time:.6f}s")
print(f"NumPy nhanh hơn: {list_time/numpy_time:.1f} lần")



Python List: 0.022285s
NumPy Array: 0.001230s
NumPy nhanh hơn: 18.1 lần


In [5]:
# 1. Cài đặt và import
import numpy as np
print(np.__version__)

2.0.2


## II. Tạo mảng NumPy

In [None]:
# 2. Tạo mảng cơ bản
print("🔸 2.1 Tạo mảng từ lists/tuples:")
arr = np.array([1, 2, 3, 4, 5])
print(f"1D array: {arr}")
print(f"Type: {type(arr)}")

# Mảng 2D
arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print(f"\n2D array:\n{arr2d}")

# Từ tuple
arr_tuple = np.array((7, 8, 9))
print(f"\nFrom tuple: {arr_tuple}")

# Kiểu của mảng - auto detection
arr_mixed = np.array([1.1, 2, 3, 4, 5])  # sẽ thành float
print(f"\nMixed types: {arr_mixed}")
print(f"Auto dtype: {arr_mixed.dtype}")

In [None]:
# Thuộc tính cơ bản của mảng
print("📊 Thuộc tính cơ bản:")
sample_arr = np.array([[1, 2, 3], [4, 5, 6]])

print(f"Array:\n{sample_arr}")
print(f"📐 Shape: {sample_arr.shape}")      # Kích thước
print(f"🔢 Dimensions (ndim): {sample_arr.ndim}")  # Số chiều
print(f"📦 Size: {sample_arr.size}")        # Tổng số phần tử
print(f"🏷️  Data type: {sample_arr.dtype}")  # Kiểu dữ liệu
print(f"💾 Item size: {sample_arr.itemsize} bytes")  # Kích thước mỗi phần tử
print(f"📊 Total bytes: {sample_arr.nbytes} bytes")  # Tổng bộ nhớ

In [None]:
# Các hàm tạo mảng đặc biệt
print("🔸 2.2 Các hàm tạo mảng đặc biệt:")

# Empty array - không khởi tạo giá trị (nhanh nhất)
empty_arr = np.empty((3, 3))
print(f"Empty array (3x3):\n{empty_arr}")

# Ma trận đơn vị
print(f"\n🔸 Ma trận đơn vị:")
eye_arr = np.eye(4, 6)  # 4 hàng, 6 cột
print(f"Eye (4x6):\n{eye_arr}")

identity_arr = np.identity(4)  # Luôn vuông
print(f"\nIdentity (4x4):\n{identity_arr}")

# Ma trận 0 và 1
print(f"\n🔸 Ma trận zeros và ones:")
zeros_arr = np.zeros((3, 3))
print(f"Zeros (3x3):\n{zeros_arr}")

# Với dtype khác
zeros_int = np.zeros((3, 3), dtype=int)
print(f"\nZeros int:\n{zeros_int}")

ones_arr = np.ones((5, 7))
print(f"\nOnes (5x7):\n{ones_arr}")

# Thử dtype string
ones_str = np.ones((2, 3), dtype=str)
print(f"\nOnes string:\n{ones_str}")

In [None]:
# Tạo dãy số với arange
print("🔸 2.3 Tạo dãy số với arange:")
print("Cú pháp: np.arange(start, stop, step, dtype)")

arr1 = np.arange(5)  # 0 đến 4
print(f"arange(5): {arr1}")

arr2 = np.arange(2, 8)  # 2 đến 7
print(f"arange(2, 8): {arr2}")

arr3 = np.arange(0, 10, 2)  # 0 đến 8, bước 2
print(f"arange(0, 10, 2): {arr3}")

arr4 = np.arange(10, 0, -1)  # 10 đến 1, đếm ngược
print(f"arange(10, 0, -1): {arr4}")

# Với float
arr_float = np.arange(0, 1, 0.1)
print(f"\narange float (0, 1, 0.1): {arr_float}")

# Full array
print(f"\n🔸 Full array:")
full_arr = np.full((4, 6), 5)
print(f"Full with 5 (4x6):\n{full_arr}")

# Linspace - số lượng phần tử xác định
print(f"\n🔸 Linspace:")
linspace_arr = np.linspace(0, 10, 5)  # 5 số từ 0 đến 10
print(f"linspace(0, 10, 5): {linspace_arr}")

# So sánh arange vs linspace
print(f"\n💡 So sánh:")
print(f"arange: Biết bước nhảy")
print(f"linspace: Biết số phần tử")

In [None]:
# Tạo mảng ngẫu nhiên
print("🔸 2.4 Mảng ngẫu nhiên:")

# Set seed cho reproducibility
np.random.seed(2210)
print("🌱 Seed = 2210 (có thể tái tạo kết quả)")

# Random [0, 1)
random_arr = np.random.random((3, 3))
print(f"\nRandom [0,1):\n{random_arr}")

# Random integers
random_int = np.random.randint(1, 10, (3, 3))
print(f"\nRandom integers [1,10):\n{random_int}")

# Normal distribution
normal_arr = np.random.randn(2, 3)  # mean=0, std=1
print(f"\nNormal distribution:\n{normal_arr}")

# Custom normal
custom_normal = np.random.normal(100, 15, (2, 3))  # mean=100, std=15
print(f"\nCustom normal (mean=100, std=15):\n{custom_normal}")

# Random choice
choices = np.random.choice(['A', 'B', 'C'], size=10)
print(f"\nRandom choice: {choices}")

# Weighted choice
weighted = np.random.choice(['Win', 'Lose'], size=10, p=[0.7, 0.3])
print(f"Weighted choice (70% Win): {weighted}")

## III. Indexing và Slicing

In [None]:
# 3. Indexing và Slicing
print("🎯 3. INDEXING VÀ SLICING")
print("=" * 40)

# Tạo mảng mẫu
arr = np.random.randint(0, 10, (5))
arr2 = np.random.randint(0, 10, (3, 5))
arr3 = np.random.randint(0, 10, (3, 3, 3))

print(f"1D array: {arr}")
print(f"2D array:\n{arr2}")
print(f"3D array shape: {arr3.shape}")

# 1D Indexing
print(f"\n🔸 1D Indexing:")
print(f"arr[0] = {arr[0]}")
print(f"arr[3] = {arr[3]}")
print(f"arr[-1] = {arr[-1]}")
print(f"arr[-4] = {arr[-4]}")

# 1D Slicing
print(f"\n🔸 1D Slicing:")
print(f"arr[1:4] = {arr[1:4]}")
print(f"arr[:3] = {arr[:3]}")
print(f"arr[2:] = {arr[2:]}")
print(f"arr[::2] = {arr[::2]}")
print(f"arr[::-1] = {arr[::-1]}")

In [None]:
# 2D Indexing và Slicing
print(f"🔸 2D Indexing:")
print(f"2D array:\n{arr2}")

print(f"\nBasic 2D indexing:")
print(f"arr2[0, 0] = {arr2[0, 0]}")
print(f"arr2[1, 2] = {arr2[1, 2]}")
print(f"arr2[-1, -1] = {arr2[-1, -1]}")
print(f"arr2[2, 1] = {arr2[2, 1]}")

print(f"\n🔸 2D Slicing:")
print(f"Hàng đầu arr2[0, :] = {arr2[0, :]}")
print(f"Cột đầu arr2[:, 0] = {arr2[:, 0]}")
print(f"Hàng cuối arr2[-1, :] = {arr2[-1, :]}")
print(f"Cột cuối arr2[:, -1] = {arr2[:, -1]}")

print(f"\nAdvanced 2D slicing:")
print(f"2 hàng đầu:\n{arr2[:2, :]}")
print(f"2 cột cuối:\n{arr2[:, -2:]}")
print(f"Vùng giữa (từ hàng 1, cột 1-3):\n{arr2[1:, 1:4]}")

In [None]:
# Advanced Indexing
print(f"🔸 Advanced Indexing:")

# Boolean indexing
condition = arr > 5
print(f"\nArray: {arr}")
print(f"Condition (arr > 5): {condition}")
print(f"Elements > 5: {arr[condition]}")

# Fancy indexing
indices = [0, 2, 4]
print(f"\nFancy indexing arr[{indices}]: {arr[indices]}")

# Where function
result = np.where(arr > 5, arr, 0)  # If >5 keep, else 0
print(f"Where arr > 5: {result}")

# Multiple conditions
multi_result = np.where((arr > 2) & (arr < 8), arr, -1)
print(f"Where 2 < arr < 8: {multi_result}")

# 2D boolean indexing
print(f"\n2D Boolean indexing:")
condition_2d = arr2 > 5
print(f"Elements > 5 in 2D: {arr2[condition_2d]}")

## IV. Biến đổi mảng

In [None]:
# 4. Biến đổi ma trận
print("🔄 4. BIẾN ĐỔI MẢNG")
print("=" * 40)

# Reshape
print("🔸 Reshape:")
arr = np.arange(1, 25)
print(f"Original array: {arr}")
print(f"Shape: {arr.shape}")

# Các cách reshape khác nhau
print(f"\nReshape examples:")
print(f"(2, 12):\n{arr.reshape(2, 12)}")
print(f"\n(3, 8):\n{arr.reshape(3, 8)}")
print(f"\n(4, 6):\n{arr.reshape(4, 6)}")
print(f"\n(4, 3, 2):\n{arr.reshape(4, 3, 2)}")

# Auto reshape với -1
print(f"\n🔸 Auto reshape với -1:")
auto1 = arr.reshape(-1, 6)  # -1 tự động = 4
auto2 = arr.reshape(3, -1)  # -1 tự động = 8
print(f"reshape(-1, 6): shape = {auto1.shape}")
print(f"reshape(3, -1): shape = {auto2.shape}")

In [None]:
# Transpose
print("🔸 Transpose:")
matrix = np.arange(1, 13).reshape(3, 4)
print(f"Original matrix (3x4):\n{matrix}")
print(f"\nTransposed (4x3):\n{matrix.T}")
print(f"\nUsing transpose():\n{matrix.transpose()}")

# Flatten và ravel
print(f"\n🔸 Flatten vs Ravel:")
print(f"Original matrix:\n{matrix}")

flattened = matrix.flatten()  # Tạo copy
raveled = matrix.ravel()      # Tạo view nếu có thể

print(f"Flattened: {flattened}")
print(f"Raveled: {raveled}")

# Test sự khác biệt
matrix[0, 0] = 999
print(f"\nSau khi thay đổi matrix[0,0] = 999:")
print(f"Matrix:\n{matrix}")
print(f"Flattened: {flattened}")  # Không đổi (copy)
print(f"Raveled: {raveled}")      # Có thể đổi (view)

# Reset matrix
matrix = np.arange(1, 13).reshape(3, 4)

## V. Các phép toán và hàm toán học

In [None]:
# 5. Các phép toán và hàm toán học
print("🧮 5. CÁC PHÉP TOÁN VÀ HÀM TOÁN HỌC")
print("=" * 50)

# Element-wise operations
print("🔸 Element-wise operations:")
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print(f"a = {a}")
print(f"b = {b}")
print(f"a + b = {a + b}")
print(f"a - b = {a - b}")
print(f"a * b = {a * b}")
print(f"a / b = {a / b}")
print(f"a ** 2 = {a ** 2}")
print(f"a % 3 = {a % 3}")

# Broadcasting
print(f"\n🔸 Broadcasting:")
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])
scalar = 100

print(f"Matrix (2x3):\n{matrix}")
print(f"Vector (3,): {vector}")
print(f"Scalar: {scalar}")

print(f"\nMatrix + Vector:\n{matrix + vector}")
print(f"\nMatrix + Scalar:\n{matrix + scalar}")
print(f"\nMatrix * Vector:\n{matrix * vector}")

In [None]:
# Mathematical functions
print(f"🔸 Mathematical functions:")
arr = np.array([1, 4, 9, 16, 25])
print(f"Array: {arr}")

print(f"\nBasic math:")
print(f"sqrt(arr) = {np.sqrt(arr)}")
print(f"square(arr) = {np.square(arr)}")
print(f"abs(arr) = {np.abs(arr)}")

print(f"\nTrigonometric:")
angles = np.array([0, np.pi/4, np.pi/2, np.pi])
print(f"angles = {angles}")
print(f"sin(angles) = {np.sin(angles)}")
print(f"cos(angles) = {np.cos(angles)}")

print(f"\nExponential and log:")
print(f"exp(arr) = {np.exp(arr)}")
print(f"log(arr) = {np.log(arr)}")
print(f"log10(arr) = {np.log10(arr)}")

# Rounding functions
float_arr = np.array([1.2, 2.7, -1.8, -2.3, 3.5])
print(f"\n🔸 Rounding functions:")
print(f"Float array: {float_arr}")
print(f"round: {np.round(float_arr)}")
print(f"floor: {np.floor(float_arr)}")
print(f"ceil: {np.ceil(float_arr)}")

In [None]:
# Statistical functions
print(f"🔸 Statistical functions:")
data = np.random.normal(50, 10, 100)  # Normal distribution
print(f"Data sample (first 10): {data[:10]}")

print(f"\nBasic statistics:")
print(f"Mean: {np.mean(data):.2f}")
print(f"Median: {np.median(data):.2f}")
print(f"Std: {np.std(data):.2f}")
print(f"Var: {np.var(data):.2f}")
print(f"Min: {np.min(data):.2f}")
print(f"Max: {np.max(data):.2f}")
print(f"Sum: {np.sum(data):.2f}")

# Percentiles
print(f"\nPercentiles:")
print(f"25th percentile: {np.percentile(data, 25):.2f}")
print(f"50th percentile: {np.percentile(data, 50):.2f}")
print(f"75th percentile: {np.percentile(data, 75):.2f}")

# Axis operations
print(f"\n🔸 Axis operations:")
matrix_2d = np.random.randint(1, 10, (3, 4))
print(f"Matrix (3x4):\n{matrix_2d}")
print(f"Sum axis=0 (columns): {np.sum(matrix_2d, axis=0)}")
print(f"Sum axis=1 (rows): {np.sum(matrix_2d, axis=1)}")
print(f"Mean axis=0: {np.mean(matrix_2d, axis=0)}")
print(f"Max axis=1: {np.max(matrix_2d, axis=1)}")

## VI. Dot Product và Linear Algebra

In [None]:
# 6. Dot Product và Linear Algebra
print("🎯 6. DOT PRODUCT VÀ LINEAR ALGEBRA")
print("=" * 50)

# Basic dot product
print("🔸 Vector dot product:")
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])

dot_result = np.dot(v1, v2)
print(f"v1 = {v1}")
print(f"v2 = {v2}")
print(f"v1 • v2 = {dot_result}")
print(f"Using @ operator: {v1 @ v2}")
print(f"Manual calculation: {1*4 + 2*5 + 3*6} = {dot_result}")

# Matrix multiplication
print(f"\n🔸 Matrix multiplication:")
A = np.array([[1, 2], [3, 4]])  # 2x2
B = np.array([[5, 6], [7, 8]])  # 2x2

C = np.dot(A, B)
print(f"A (2x2):\n{A}")
print(f"B (2x2):\n{B}")
print(f"A @ B (2x2):\n{C}")

# Matrix × Vector
print(f"\n🔸 Matrix × Vector:")
matrix = np.array([[1, 2, 3], [4, 5, 6]])  # 2x3
vector = np.array([7, 8, 9])               # 3x1

result = np.dot(matrix, vector)
print(f"Matrix (2x3):\n{matrix}")
print(f"Vector (3,): {vector}")
print(f"Result (2,): {result}")

# Practical example: Weighted average
print(f"\n🔸 Practical example - Weighted scores:")
subjects = ['Math', 'Physics', 'Chemistry', 'Biology']
scores = np.array([85, 90, 78, 92])
weights = np.array([0.3, 0.3, 0.2, 0.2])

weighted_avg = np.dot(scores, weights)
print(f"Subjects: {subjects}")
print(f"Scores: {scores}")
print(f"Weights: {weights}")
print(f"Weighted average: {weighted_avg:.2f}")

# Revenue calculation
print(f"\n🔸 Business example - Revenue calculation:")
products = ['Product A', 'Product B', 'Product C']
quantities = np.array([10, 5, 8])
prices = np.array([100, 200, 150])

total_revenue = np.dot(quantities, prices)
print(f"Products: {products}")
print(f"Quantities sold: {quantities}")
print(f"Prices: {prices}")
print(f"Total revenue: ${total_revenue:,}")

---
# 🐼 **PHẦN 2: PANDAS - PANEL DATA**

Pandas cung cấp cấu trúc dữ liệu và công cụ phân tích dữ liệu mạnh mẽ:
- 📊 **Series**: mảng 1 chiều có nhãn
- 📋 **DataFrame**: bảng dữ liệu 2 chiều
- 🔧 **Công cụ**: xử lý dữ liệu thiếu, merge, group by

In [None]:
# Import Pandas
import pandas as pd
import numpy as np

print(f"📋 Pandas version: {pd.__version__}")
print("🐼 Ready to work with data!")

## I. Pandas Series

In [None]:
# 1. Pandas Series
print("📊 1. PANDAS SERIES")
print("=" * 30)

# Tạo Series cơ bản
print("🔸 Tạo Series:")
s1 = pd.Series([1, 3, 5, 7, 9])
print(f"Series cơ bản:\n{s1}")

# Series với index tùy chỉnh
s2 = pd.Series([100, 200, 300], index=['A', 'B', 'C'])
print(f"\nSeries với custom index:\n{s2}")

# Series từ dictionary
data_dict = {'Apple': 150, 'Banana': 80, 'Orange': 120, 'Mango': 200}
s3 = pd.Series(data_dict)
print(f"\nSeries từ dictionary:\n{s3}")

# Series từ numpy array
np_arr = np.random.randint(50, 100, 5)
s4 = pd.Series(np_arr, index=['Mon', 'Tue', 'Wed', 'Thu', 'Fri'])
print(f"\nSeries từ numpy (điểm số tuần):\n{s4}")

print(f"\n🔸 Thuộc tính Series:")
print(f"Values: {s3.values}")
print(f"Index: {s3.index.tolist()}")
print(f"Data type: {s3.dtype}")
print(f"Size: {s3.size}")
print(f"Shape: {s3.shape}")

In [None]:
# Truy xuất dữ liệu Series
print("🔸 Truy xuất dữ liệu Series:")
print(f"Series: {s3}")

# Label-based indexing
print(f"\nLabel-based indexing:")
print(f"s3['Apple'] = {s3['Apple']}")
print(f"s3[['Apple', 'Mango']] = \n{s3[['Apple', 'Mango']]}")

# Position-based indexing
print(f"\nPosition-based indexing:")
print(f"s3.iloc[0] = {s3.iloc[0]}")
print(f"s3.iloc[1:3] = \n{s3.iloc[1:3]}")

# Boolean indexing
print(f"\nBoolean indexing:")
expensive = s3 > 100
print(f"Expensive fruits (>100): \n{s3[expensive]}")

# Operations on Series
print(f"\n🔸 Operations on Series:")
print(f"Original prices:\n{s3}")
print(f"\nPrice * 1.1 (10% increase):\n{s3 * 1.1}")
print(f"\nPrice + 20 (add 20):\n{s3 + 20}")
print(f"\nMath operations:")
print(f"Sum: {s3.sum()}")
print(f"Mean: {s3.mean():.2f}")
print(f"Max: {s3.max()}")
print(f"Min: {s3.min()}")
print(f"Std: {s3.std():.2f}")

## II. Pandas DataFrame

In [None]:
# 2. Pandas DataFrame
print("📋 2. PANDAS DATAFRAME")
print("=" * 35)

# Tạo DataFrame từ dictionary
print("🔸 Tạo DataFrame từ dictionary:")
data = {
    'Tên': ['An', 'Bình', 'Chi', 'Dung', 'Em', 'Phong'],
    'Tuổi': [25, 30, 35, 28, 22, 27],
    'Lương': [5000, 6000, 7000, 5500, 4500, 5800],
    'Thành phố': ['Hà Nội', 'HCM', 'Đà Nẵng', 'Hà Nội', 'HCM', 'Cần Thơ'],
    'Kinh nghiệm': [2, 5, 8, 4, 1, 3]
}

df = pd.DataFrame(data)
print("DataFrame nhân viên:")
print(df)

# Tạo DataFrame từ list of lists
print(f"\n🔸 DataFrame từ list of lists:")
data_list = [
    ['Product A', 100, 'Electronics'],
    ['Product B', 150, 'Clothing'],
    ['Product C', 80, 'Books'],
    ['Product D', 200, 'Electronics']
]
df_products = pd.DataFrame(data_list, columns=['Product', 'Price', 'Category'])
print("DataFrame sản phẩm:")
print(df_products)

# Thông tin cơ bản về DataFrame
print(f"\n🔸 Thông tin cơ bản về DataFrame:")
print(f"Shape: {df.shape}")
print(f"Columns: {list(df.columns)}")
print(f"Index: {list(df.index)}")
print(f"Size: {df.size}")
print(f"\nData types:\n{df.dtypes}")

In [None]:
# Xem và khám phá dữ liệu
print("🔸 Xem và khám phá dữ liệu:")

print("Head (3 dòng đầu):")
print(df.head(3))

print("\nTail (3 dòng cuối):")
print(df.tail(3))

print("\nInfo (thông tin tổng quan):")
print(df.info())

print("\nDescribe (thống kê mô tả cho cột số):")
print(df.describe())

print("\nDescribe cho tất cả cột:")
print(df.describe(include='all'))

In [None]:
# Truy xuất dữ liệu DataFrame
print("🔸 Truy xuất dữ liệu DataFrame:")

# Truy xuất cột
print("Truy xuất cột 'Tên':")
print(df['Tên'])
print(f"Type: {type(df['Tên'])}")

print("\nTruy xuất nhiều cột:")
print(df[['Tên', 'Lương', 'Thành phố']])

# Truy xuất hàng
print("\n🔸 Truy xuất hàng:")
print("Hàng đầu tiên (iloc - position):")
print(df.iloc[0])

print("\nHàng đầu tiên (loc - label):")
print(df.loc[0])

print("\nNhiều hàng (iloc):")
print(df.iloc[1:4])

print("\nNhiều hàng (loc):")
print(df.loc[1:3])  # Inclusive end với loc

# Truy xuất ô cụ thể
print(f"\n🔸 Truy xuất ô cụ thể:")
print(f"df.iloc[0, 1] (hàng 0, cột 1): {df.iloc[0, 1]}")
print(f"df.loc[0, 'Tuổi'] (hàng 0, cột 'Tuổi'): {df.loc[0, 'Tuổi']}")
print(f"df.at[0, 'Tên'] (nhanh nhất cho 1 ô): {df.at[0, 'Tên']}")

# Truy xuất với điều kiện
print(f"\n🔸 Slice với điều kiện:")
print("Lấy tên và lương của 3 người đầu:")
print(df.loc[0:2, ['Tên', 'Lương']])

## III. Lọc và tìm kiếm dữ liệu

In [None]:
# 3. Lọc và tìm kiếm dữ liệu
print("🔍 3. LỌC VÀ TÌM KIẾM DỮ LIỆU")
print("=" * 40)

print("DataFrame gốc:")
print(df)

# Lọc theo điều kiện đơn
print("\n🔸 Lọc theo điều kiện đơn:")
high_salary = df[df['Lương'] > 5500]
print("Người có lương > 5500:")
print(high_salary)

young_people = df[df['Tuổi'] < 30]
print("\nNgười trẻ (<30 tuổi):")
print(young_people[['Tên', 'Tuổi', 'Lương']])

# Lọc theo nhiều điều kiện
print("\n🔸 Lọc theo nhiều điều kiện:")
young_high_salary = df[(df['Tuổi'] < 30) & (df['Lương'] > 5000)]
print("Tuổi < 30 VÀ lương > 5000:")
print(young_high_salary[['Tên', 'Tuổi', 'Lương']])

experienced_or_young = df[(df['Kinh nghiệm'] >= 5) | (df['Tuổi'] <= 25)]
print("\nKinh nghiệm ≥ 5 HOẶC tuổi ≤ 25:")
print(experienced_or_young[['Tên', 'Tuổi', 'Kinh nghiệm']])

# Lọc theo string
print("\n🔸 Lọc theo string:")
hanoi_people = df[df['Thành phố'] == 'Hà Nội']
print("Người ở Hà Nội:")
print(hanoi_people[['Tên', 'Thành phố', 'Lương']])

# Contains string
name_with_n = df[df['Tên'].str.contains('n', case=False)]
print("\nTên chứa chữ 'n':")
print(name_with_n[['Tên']])

In [None]:
# Lọc nâng cao
print("🔸 Lọc nâng cao:")

# Lọc theo danh sách
selected_cities = df[df['Thành phố'].isin(['Hà Nội', 'HCM'])]
print("Người ở Hà Nội hoặc HCM:")
print(selected_cities[['Tên', 'Thành phố']])

# Lọc theo range
mid_range_salary = df[df['Lương'].between(5000, 6000)]
print("\nLương từ 5000-6000:")
print(mid_range_salary[['Tên', 'Lương']])

# Query method (SQL-like)
print("\n🔸 Sử dụng query() method:")
result1 = df.query('Tuổi >= 28 and Lương <= 6000')
print("Query: 'Tuổi >= 28 and Lương <= 6000'")
print(result1[['Tên', 'Tuổi', 'Lương']])

result2 = df.query('Thành_phố == "Hà Nội" and Kinh_nghiệm > 2')
print("\nQuery: 'Thành_phố == "Hà Nội" and Kinh_nghiệm > 2'")
print(result2[['Tên', 'Thành phố', 'Kinh nghiệm']])

# Negate conditions
print("\n🔸 Điều kiện phủ định:")
not_hanoi = df[~(df['Thành phố'] == 'Hà Nội')]
print("Không ở Hà Nội:")
print(not_hanoi[['Tên', 'Thành phố']])

# Top/Bottom records
print("\n🔸 Top/Bottom records:")
top_salary = df.nlargest(3, 'Lương')
print("Top 3 lương cao nhất:")
print(top_salary[['Tên', 'Lương']])

youngest = df.nsmallest(2, 'Tuổi')
print("\n2 người trẻ nhất:")
print(youngest[['Tên', 'Tuổi']])

## IV. Thêm, sửa, xóa dữ liệu

In [None]:
# 4. Thêm, sửa, xóa dữ liệu
print("➕ 4. THÊM, SỬA, XÓA DỮ LIỆU")
print("=" * 40)

# Tạo copy để không ảnh hưởng df gốc
df_work = df.copy()

# Thêm cột mới
print("🔸 Thêm cột mới:")
print("DataFrame gốc:")
print(df_work[['Tên', 'Lương']])

# Thêm cột tính toán
df_work['Thưởng'] = df_work['Lương'] * 0.1
df_work['Tổng_thu_nhập'] = df_work['Lương'] + df_work['Thưởng']

# Thêm cột điều kiện
df_work['Cấp_độ'] = df_work['Tuổi'].apply(lambda x: 'Senior' if x >= 30 else 'Junior')

# Thêm cột với multiple conditions
def classify_employee(row):
    if row['Kinh nghiệm'] >= 5:
        return 'Expert'
    elif row['Kinh nghiệm'] >= 3:
        return 'Experienced'
    else:
        return 'Beginner'

df_work['Phân_loại'] = df_work.apply(classify_employee, axis=1)

print("\nSau khi thêm cột:")
print(df_work[['Tên', 'Lương', 'Thưởng', 'Tổng_thu_nhập', 'Cấp_độ', 'Phân_loại']])

# Thêm hàng mới
print("\n🔸 Thêm hàng mới:")
new_employees = [
    {'Tên': 'Giang', 'Tuổi': 26, 'Lương': 5200, 'Thành phố': 'Hà Nội', 'Kinh nghiệm': 2},
    {'Tên': 'Hoàng', 'Tuổi': 32, 'Lương': 6500, 'Thành phố': 'HCM', 'Kinh nghiệm': 6}
]

df_new = pd.concat([df, pd.DataFrame(new_employees)], ignore_index=True)
print("DataFrame sau khi thêm 2 nhân viên mới:")
print(df_new.tail(4))  # Show last 4 rows

In [None]:
# Sửa dữ liệu
print("🔸 Sửa dữ liệu:")
df_edit = df.copy()

print("Trước khi sửa:")
print(df_edit.loc[0, ['Tên', 'Lương']])

# Sửa 1 ô
df_edit.loc[0, 'Lương'] = 5200
print(f"\nSau khi sửa lương An thành 5200:")
print(df_edit.loc[0, ['Tên', 'Lương']])

# Sửa nhiều ô
df_edit.loc[df_edit['Tên'] == 'Bình', ['Lương', 'Tuổi']] = [6200, 31]
print(f"\nSau khi sửa thông tin Bình:")
print(df_edit[df_edit['Tên'] == 'Bình'][['Tên', 'Tuổi', 'Lương']])

# Sửa cả cột
print(f"\nTrước khi tăng tuổi:")
print(df_edit[['Tên', 'Tuổi']])

df_edit['Tuổi'] = df_edit['Tuổi'] + 1  # Tăng tuổi 1
print(f"\nSau khi tăng tuổi toàn bộ:")
print(df_edit[['Tên', 'Tuổi']])

# Sửa theo điều kiện
print(f"\nTrước khi tăng lương cho người lương thấp:")
low_salary_before = df_edit[df_edit['Lương'] < 5500][['Tên', 'Lương']]
print(low_salary_before)

df_edit.loc[df_edit['Lương'] < 5500, 'Lương'] *= 1.1  # Tăng 10%
print(f"\nSau khi tăng lương 10% cho người có lương < 5500:")
updated_salaries = df_edit[df_edit.index.isin(low_salary_before.index)][['Tên', 'Lương']]
print(updated_salaries)

In [None]:
# Xóa dữ liệu
print("🔸 Xóa dữ liệu:")
df_delete = df.copy()

print("DataFrame gốc:")
print(df_delete.columns.tolist())
print(f"Shape: {df_delete.shape}")

# Xóa cột
df_dropped_col = df_delete.drop('Thành phố', axis=1)
print(f"\nSau khi xóa cột 'Thành phố':")
print(df_dropped_col.columns.tolist())
print(f"Shape: {df_dropped_col.shape}")

# Xóa nhiều cột
df_dropped_cols = df_delete.drop(['Thành phố', 'Kinh nghiệm'], axis=1)
print(f"\nSau khi xóa 2 cột:")
print(df_dropped_cols.columns.tolist())

# Xóa hàng
print(f"\nTrước khi xóa hàng:")
print(df_delete[['Tên', 'Tuổi']])

df_dropped_row = df_delete.drop(0, axis=0)  # Xóa hàng index 0
print(f"\nSau khi xóa hàng đầu tiên (An):")
print(df_dropped_row[['Tên', 'Tuổi']])

# Xóa nhiều hàng
df_dropped_rows = df_delete.drop([0, 2], axis=0)  # Xóa An và Chi
print(f"\nSau khi xóa hàng 0 và 2 (An và Chi):")
print(df_dropped_rows[['Tên', 'Tuổi']])

# Xóa theo điều kiện
df_conditional_drop = df_delete[df_delete['Tuổi'] >= 25]  # Giữ lại người >= 25 tuổi
print(f"\nSau khi xóa người < 25 tuổi:")
print(df_conditional_drop[['Tên', 'Tuổi']])

# Reset index sau khi xóa
df_reset = df_dropped_rows.reset_index(drop=True)
print(f"\nSau khi reset index:")
print(df_reset[['Tên', 'Tuổi']])

## V. Xử lý dữ liệu thiếu

In [None]:
# 5. Xử lý dữ liệu thiếu (Missing Data)
print("🔧 5. XỬ LÝ DỮ LIỆU THIẾU")
print("=" * 40)

# Tạo dữ liệu có giá trị thiếu
print("🔸 Tạo dữ liệu thiếu:")
df_missing = df.copy()

# Thêm một số giá trị NaN
df_missing.loc[1, 'Lương'] = np.nan
df_missing.loc[3, 'Tuổi'] = np.nan
df_missing.loc[4, 'Thành phố'] = np.nan
df_missing.loc[2, 'Kinh nghiệm'] = np.nan
df_missing.loc[5, 'Lương'] = np.nan

print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# Kiểm tra dữ liệu thiếu
print("\n🔸 Kiểm tra dữ liệu thiếu:")
print("Số giá trị thiếu mỗi cột:")
missing_count = df_missing.isnull().sum()
print(missing_count)

print("\nPhần trăm giá trị thiếu:")
missing_percent = (df_missing.isnull().sum() / len(df_missing) * 100).round(2)
print(missing_percent)

# Tổng hợp thông tin missing data
missing_info = pd.DataFrame({
    'Missing_Count': missing_count,
    'Missing_Percent': missing_percent
})
print("\nTổng hợp missing data:")
print(missing_info[missing_info['Missing_Count'] > 0])

# Kiểm tra hàng nào có dữ liệu thiếu
print("\nHàng có dữ liệu thiếu:")
rows_with_missing = df_missing[df_missing.isnull().any(axis=1)]
print(rows_with_missing)

In [None]:
# Xử lý dữ liệu thiếu - các phương pháp khác nhau
print("🔸 Các phương pháp xử lý dữ liệu thiếu:")

# Phương pháp 1: Điền giá trị cố định
print("\n1. Điền giá trị cố định:")
df_filled_0 = df_missing.fillna(0)
print("Điền 0 cho tất cả NaN:")
print(df_filled_0[['Tên', 'Tuổi', 'Lương', 'Thành phố', 'Kinh nghiệm']])

# Phương pháp 2: Điền giá trị theo cột
print("\n2. Điền giá trị khác nhau cho từng cột:")
df_filled_custom = df_missing.copy()
df_filled_custom['Tuổi'].fillna(df_filled_custom['Tuổi'].mean(), inplace=True)
df_filled_custom['Lương'].fillna(df_filled_custom['Lương'].median(), inplace=True)
df_filled_custom['Kinh nghiệm'].fillna(df_filled_custom['Kinh nghiệm'].mean(), inplace=True)
df_filled_custom['Thành phố'].fillna('Unknown', inplace=True)

print("Điền mean/median cho số, 'Unknown' cho text:")
print(df_filled_custom)

# Phương pháp 3: Forward fill và backward fill
print("\n3. Forward fill và backward fill:")
df_ffill = df_missing.fillna(method='ffill')  # Điền giá trị từ trước
print("Forward fill (ffill):")
print(df_ffill[['Tên', 'Tuổi', 'Lương']])

df_bfill = df_missing.fillna(method='bfill')  # Điền giá trị từ sau
print("\nBackward fill (bfill):")
print(df_bfill[['Tên', 'Tuổi', 'Lương']])

# Phương pháp 4: Interpolation
print("\n4. Interpolation (cho cột số):")
df_interpolated = df_missing.copy()
df_interpolated['Lương'] = df_interpolated['Lương'].interpolate()
df_interpolated['Tuổi'] = df_interpolated['Tuổi'].interpolate()
print("Interpolated values:")
print(df_interpolated[['Tên', 'Tuổi', 'Lương']])

In [None]:
# Xóa dữ liệu thiếu
print("\n5. Xóa dữ liệu thiếu:")

# Xóa tất cả hàng có NaN
df_dropped_any = df_missing.dropna()
print(f"Xóa tất cả hàng có NaN:")
print(f"Shape trước: {df_missing.shape}")
print(f"Shape sau: {df_dropped_any.shape}")
print(df_dropped_any)

# Xóa hàng có tất cả NaN
df_dropped_all = df_missing.dropna(how='all')
print(f"\nXóa hàng có tất cả NaN:")
print(f"Shape: {df_dropped_all.shape}")

# Xóa hàng có NaN trong cột cụ thể
df_dropped_subset = df_missing.dropna(subset=['Lương'])
print(f"\nXóa hàng có NaN trong cột 'Lương':")
print(f"Shape: {df_dropped_subset.shape}")
print(df_dropped_subset[['Tên', 'Lương']])

# Xóa cột có quá nhiều NaN
threshold = len(df_missing) * 0.5  # Giữ cột có ít hơn 50% NaN
df_dropped_cols = df_missing.dropna(thresh=threshold, axis=1)
print(f"\nXóa cột có >50% NaN:")
print(f"Columns: {df_dropped_cols.columns.tolist()}")

# Phương pháp 6: Advanced filling
print("\n6. Advanced filling strategies:")
df_advanced = df_missing.copy()

# Điền based trên group
df_advanced['Lương'] = df_advanced.groupby('Thành phố')['Lương'].transform(
    lambda x: x.fillna(x.mean())
)

print("Điền lương theo mean của từng thành phố:")
print(df_advanced[['Tên', 'Thành phố', 'Lương']])

# So sánh các phương pháp
print("\n📊 So sánh các phương pháp:")
methods_comparison = pd.DataFrame({
    'Method': ['Original', 'Fill 0', 'Fill Mean/Median', 'Drop NaN', 'Interpolate'],
    'Shape': [df_missing.shape, df_filled_0.shape, df_filled_custom.shape,
              df_dropped_any.shape, df_interpolated.shape],
    'Missing_Count': [df_missing.isnull().sum().sum(), df_filled_0.isnull().sum().sum(),
                     df_filled_custom.isnull().sum().sum(), df_dropped_any.isnull().sum().sum(),
                     df_interpolated.isnull().sum().sum()]
})
print(methods_comparison)

## VI. Thống kê và phân tích dữ liệu

In [None]:
# 6. Thống kê và phân tích dữ liệu
print("📊 6. THỐNG KÊ VÀ PHÂN TÍCH DỮ LIỆU")
print("=" * 45)

# Thống kê cơ bản
print("🔸 Thống kê cơ bản:")
print(f"Lương trung bình: {df['Lương'].mean():.2f}")
print(f"Lương trung vị: {df['Lương'].median():.2f}")
print(f"Độ lệch chuẩn lương: {df['Lương'].std():.2f}")
print(f"Lương min: {df['Lương'].min()}")
print(f"Lương max: {df['Lương'].max()}")
print(f"Tổng lương: {df['Lương'].sum():,}")

print(f"\nTuổi thống kê:")
print(f"Tuổi TB: {df['Tuổi'].mean():.1f}")
print(f"Tuổi min: {df['Tuổi'].min()}")
print(f"Tuổi max: {df['Tuổi'].max()}")

# Quartiles và percentiles
print(f"\n🔸 Quartiles và percentiles:")
print(f"Q1 (25%): {df['Lương'].quantile(0.25)}")
print(f"Q2 (50% - Median): {df['Lương'].quantile(0.5)}")
print(f"Q3 (75%): {df['Lương'].quantile(0.75)}")
print(f"90th percentile: {df['Lương'].quantile(0.9)}")

# Value counts
print("\n🔸 Đếm tần suất:")
print("Phân bố theo thành phố:")
city_counts = df['Thành phố'].value_counts()
print(city_counts)

print("\nPhân bố theo độ tuổi:")
age_counts = df['Tuổi'].value_counts().sort_index()
print(age_counts)

print("\nPhân bố theo kinh nghiệm:")
exp_counts = df['Kinh nghiệm'].value_counts().sort_index()
print(exp_counts)

# Normalize value counts (percentage)
print("\n🔸 Phần trăm phân bố:")
city_percent = df['Thành phố'].value_counts(normalize=True) * 100
print("Phần trăm theo thành phố:")
print(city_percent.round(2))

In [None]:
# Group By operations
print("🔸 Group By operations:")

# Group by single column
print("Thống kê theo thành phố:")
city_stats = df.groupby('Thành phố').agg({
    'Lương': ['mean', 'max', 'min', 'count'],
    'Tuổi': 'mean',
    'Kinh nghiệm': ['mean', 'max']
})
print(city_stats)

# Flatten column names
city_stats.columns = ['_'.join(col).strip() for col in city_stats.columns]
print("\nCùng dữ liệu với column names đơn giản:")
print(city_stats)

# Group by với điều kiện
print("\n🔸 Group by với điều kiện:")
df['Age_Group'] = df['Tuổi'].apply(lambda x: 'Young' if x < 30 else 'Senior')
age_group_stats = df.groupby('Age_Group').agg({
    'Lương': ['mean', 'count'],
    'Kinh nghiệm': 'mean'
})
print("Thống kê theo nhóm tuổi:")
print(age_group_stats)

# Multiple groupby
print("\n🔸 Multiple Group By:")
multi_group = df.groupby(['Thành phố', 'Age_Group'])['Lương'].agg(['mean', 'count'])
print("Thống kê theo thành phố và nhóm tuổi:")
print(multi_group)

# Custom aggregation function
print("\n🔸 Custom aggregation:")
def salary_range(series):
    return series.max() - series.min()

custom_agg = df.groupby('Thành phố')['Lương'].agg([
    ('Avg_Salary', 'mean'),
    ('Salary_Range', salary_range),
    ('Total_Employees', 'count')
])
print("Custom aggregation:")
print(custom_agg)

In [None]:
# Correlation analysis
print("🔸 Correlation analysis:")
print("Ma trận tương quan giữa các biến số:")
correlation_matrix = df[['Tuổi', 'Lương', 'Kinh nghiệm']].corr()
print(correlation_matrix)

print("\nTương quan mạnh nhất:")
# Tìm correlation cao nhất (không tính diagonal)
corr_values = correlation_matrix.values
np.fill_diagonal(corr_values, 0)  # Set diagonal to 0
max_corr_idx = np.unravel_index(np.argmax(np.abs(corr_values)), corr_values.shape)
cols = correlation_matrix.columns
print(f"Tương quan cao nhất: {cols[max_corr_idx[0]]} vs {cols[max_corr_idx[1]]} = {corr_values[max_corr_idx]:.3f}")

# Pivot table
print("\n🔸 Pivot Table:")
pivot = df.pivot_table(
    values='Lương',
    index='Thành phố',
    columns='Age_Group',
    aggfunc=['mean', 'count'],
    fill_value=0
)
print("Pivot table - Lương theo thành phố và nhóm tuổi:")
print(pivot)

# Cross tabulation
print("\n🔸 Cross Tabulation:")
crosstab = pd.crosstab(df['Thành phố'], df['Age_Group'], margins=True)
print("Cross tabulation - Số lượng nhân viên:")
print(crosstab)

# Percentage cross tabulation
crosstab_pct = pd.crosstab(df['Thành phố'], df['Age_Group'], normalize='index') * 100
print("\nCross tabulation (percentage by city):")
print(crosstab_pct.round(2))

---
# 🎯 **PHẦN 3: BÀI TẬP THỰC HÀNH**

## Bài tập tổng hợp kiến thức NumPy và Pandas

### 🔢 **BÀI TẬP NUMPY**

In [None]:
# Bài tập NumPy
print("🔢 BÀI TẬP NUMPY")
print("=" * 30)

print("\n📝 Bài tập 1: Tạo và thao tác mảng cơ bản")
print("-" * 50)

# Tạo mảng 2D từ 1 đến 20, reshape thành 4x5
matrix = np.arange(1, 21).reshape(4, 5)
print(f"Ma trận 4x5:")
print(matrix)

# Tính tổng từng hàng và từng cột
row_sums = np.sum(matrix, axis=1)
col_sums = np.sum(matrix, axis=0)
print(f"\nTổng từng hàng: {row_sums}")
print(f"Tổng từng cột: {col_sums}")

# Tìm giá trị lớn nhất và nhỏ nhất
print(f"\nGiá trị lớn nhất: {np.max(matrix)}")
print(f"Giá trị nhỏ nhất: {np.min(matrix)}")
print(f"Vị trí max: {np.unravel_index(np.argmax(matrix), matrix.shape)}")
print(f"Vị trí min: {np.unravel_index(np.argmin(matrix), matrix.shape)}")

# Tính trung bình
print(f"\nTrung bình toàn bộ: {np.mean(matrix):.2f}")
print(f"Trung bình từng hàng: {np.mean(matrix, axis=1)}")
print(f"Trung bình từng cột: {np.mean(matrix, axis=0)}")

print("\n📝 Bài tập 2: Broadcasting và phép toán")
print("-" * 50)

# Tạo mảng và vector
A = np.random.randint(1, 10, (3, 4))
v = np.array([1, 2, 3, 4])

print(f"Ma trận A (3x4):")
print(A)
print(f"\nVector v: {v}")

# Broadcasting operations
print(f"\nA + v (broadcasting):")
print(A + v)

print(f"\nA * v (broadcasting):")
print(A * v)

# Normalize rows (chia mỗi hàng cho tổng của nó)
row_sums = np.sum(A, axis=1, keepdims=True)
normalized = A / row_sums
print(f"\nNormalized rows (sum=1):")
print(normalized)
print(f"\nKiểm tra tổng từng hàng: {np.sum(normalized, axis=1)}")

In [None]:
print("\n📝 Bài tập 3: Dot product thực tế")
print("-" * 50)

# Scenario: Portfolio investment
print("🏦 Scenario: Tính toán portfolio đầu tư")

# Stock prices và quantities
stocks = ['AAPL', 'GOOGL', 'MSFT', 'TSLA', 'AMZN']
prices = np.array([150, 2500, 300, 800, 3200])  # Giá cổ phiếu
quantities = np.array([10, 2, 5, 3, 1])         # Số lượng sở hữu

print(f"Stocks: {stocks}")
print(f"Prices: {prices}")
print(f"Quantities: {quantities}")

# Tổng giá trị portfolio
total_value = np.dot(prices, quantities)
print(f"\n💰 Tổng giá trị portfolio: ${total_value:,}")

# Weight của mỗi stock
weights = (prices * quantities) / total_value
print(f"\n📊 Tỷ trọng từng cổ phiếu:")
for stock, weight in zip(stocks, weights):
    print(f"  {stock}: {weight:.2%}")

# Giả sử giá thay đổi +5%, -3%, +2%, +10%, -1%
price_changes = np.array([0.05, -0.03, 0.02, 0.10, -0.01])
new_prices = prices * (1 + price_changes)
new_value = np.dot(new_prices, quantities)

print(f"\n📈 Sau khi giá thay đổi:")
print(f"New prices: {new_prices}")
print(f"New portfolio value: ${new_value:,}")
print(f"Change: ${new_value - total_value:,.2f} ({((new_value - total_value)/total_value):.2%})")

print("\n📝 Bài tập 4: Matrix operations")
print("-" * 50)

# Transformation matrix
print("🔄 Linear transformation")

# Points to transform
points = np.array([[1, 2], [3, 4], [5, 6]])  # 3 points in 2D
print(f"Original points:")
print(points)

# Rotation matrix (45 degrees)
angle = np.pi / 4  # 45 degrees in radians
rotation_matrix = np.array([
    [np.cos(angle), -np.sin(angle)],
    [np.sin(angle), np.cos(angle)]
])

print(f"\nRotation matrix (45°):")
print(rotation_matrix)

# Apply transformation
transformed_points = points @ rotation_matrix.T
print(f"\nTransformed points:")
print(transformed_points)

# Scaling matrix
scale_matrix = np.array([[2, 0], [0, 3]])  # Scale x by 2, y by 3
scaled_points = points @ scale_matrix.T
print(f"\nScaled points (2x, 3y):")
print(scaled_points)

### 🐼 **BÀI TẬP PANDAS**

In [None]:
# Bài tập Pandas
print("🐼 BÀI TẬP PANDAS")
print("=" * 30)

print("\n📝 Bài tập 1: Phân tích dữ liệu sinh viên")
print("-" * 50)

# Tạo dataset sinh viên
np.random.seed(42)
n_students = 100

students_data = {
    'StudentID': [f'ST{i+1:03d}' for i in range(n_students)],
    'Name': [f'Student_{i+1}' for i in range(n_students)],
    'Math': np.random.normal(75, 15, n_students).clip(0, 100),
    'Physics': np.random.normal(70, 12, n_students).clip(0, 100),
    'Chemistry': np.random.normal(72, 14, n_students).clip(0, 100),
    'English': np.random.normal(78, 10, n_students).clip(0, 100),
    'Class': np.random.choice(['A', 'B', 'C', 'D'], n_students),
    'Gender': np.random.choice(['Male', 'Female'], n_students),
    'Age': np.random.randint(18, 23, n_students)
}

df_students = pd.DataFrame(students_data)

# Làm tròn điểm số
df_students[['Math', 'Physics', 'Chemistry', 'English']] = df_students[['Math', 'Physics', 'Chemistry', 'English']].round(1)

print("Dataset sinh viên (10 dòng đầu):")
print(df_students.head(10))

print(f"\n📊 Thông tin cơ bản:")
print(f"Tổng số sinh viên: {len(df_students)}")
print(f"Số lớp: {df_students['Class'].nunique()}")
print(f"Phân bố giới tính:\n{df_students['Gender'].value_counts()}")
print(f"Độ tuổi: {df_students['Age'].min()}-{df_students['Age'].max()}")

In [None]:
# Phân tích dữ liệu sinh viên
print("\n🔸 Tính điểm trung bình và xếp loại:")

# Tính điểm trung bình
subject_columns = ['Math', 'Physics', 'Chemistry', 'English']
df_students['Average'] = df_students[subject_columns].mean(axis=1)

# Tạo cột xếp loại
def classify_grade(avg):
    if avg >= 85:
        return 'Excellent'
    elif avg >= 75:
        return 'Good'
    elif avg >= 65:
        return 'Average'
    elif avg >= 50:
        return 'Below Average'
    else:
        return 'Poor'

df_students['Grade'] = df_students['Average'].apply(classify_grade)

print("Top 10 sinh viên có điểm TB cao nhất:")
top_students = df_students.nlargest(10, 'Average')[['Name', 'Class', 'Average', 'Grade']]
print(top_students)

print("\n🔸 Phân bố xếp loại:")
grade_distribution = df_students['Grade'].value_counts()
print(grade_distribution)
print("\nPhần trăm:")
print((grade_distribution / len(df_students) * 100).round(2))

print("\n🔸 Thống kê theo lớp:")
class_stats = df_students.groupby('Class').agg({
    'Average': ['mean', 'max', 'min', 'std'],
    'Name': 'count'
}).round(2)
class_stats.columns = ['Avg_Score', 'Max_Score', 'Min_Score', 'Std_Score', 'Student_Count']
print(class_stats)

print("\n🔸 Thống kê theo giới tính:")
gender_stats = df_students.groupby('Gender')[subject_columns + ['Average']].mean().round(2)
print(gender_stats)

print("\n🔸 Tương quan giữa các môn học:")
subject_correlation = df_students[subject_columns].corr().round(3)
print(subject_correlation)

In [None]:
print("\n📝 Bài tập 2: Phân tích dữ liệu bán hàng")
print("-" * 50)

# Tạo dataset bán hàng
np.random.seed(123)
n_transactions = 1000

# Tạo date range
date_range = pd.date_range('2024-01-01', '2024-12-31', freq='D')
products = ['Laptop', 'Phone', 'Tablet', 'Watch', 'Headphones', 'Speaker', 'Camera']
regions = ['North', 'South', 'East', 'West', 'Central']
salespersons = [f'Sales_{i+1}' for i in range(20)]

sales_data = {
    'TransactionID': [f'T{i+1:04d}' for i in range(n_transactions)],
    'Date': np.random.choice(date_range, n_transactions),
    'Product': np.random.choice(products, n_transactions),
    'Quantity': np.random.randint(1, 5, n_transactions),
    'Unit_Price': np.random.uniform(100, 1500, n_transactions).round(2),
    'Region': np.random.choice(regions, n_transactions),
    'Salesperson': np.random.choice(salespersons, n_transactions),
    'Customer_Type': np.random.choice(['New', 'Returning'], n_transactions, p=[0.3, 0.7])
}

df_sales = pd.DataFrame(sales_data)

# Tính revenue
df_sales['Revenue'] = df_sales['Quantity'] * df_sales['Unit_Price']

# Extract time features
df_sales['Year'] = df_sales['Date'].dt.year
df_sales['Month'] = df_sales['Date'].dt.month
df_sales['Quarter'] = df_sales['Date'].dt.quarter
df_sales['Day_of_Week'] = df_sales['Date'].dt.day_name()

print("Dataset bán hàng (10 dòng đầu):")
print(df_sales.head(10))

print(f"\n📊 Tổng quan:")
print(f"Tổng số giao dịch: {len(df_sales):,}")
print(f"Tổng doanh thu: ${df_sales['Revenue'].sum():,.2f}")
print(f"Doanh thu trung bình/giao dịch: ${df_sales['Revenue'].mean():.2f}")
print(f"Giao dịch lớn nhất: ${df_sales['Revenue'].max():,.2f}")
print(f"Số sản phẩm: {df_sales['Product'].nunique()}")
print(f"Số vùng: {df_sales['Region'].nunique()}")
print(f"Số nhân viên bán hàng: {df_sales['Salesperson'].nunique()}")

In [None]:
# Phân tích bán hàng chi tiết
print("\n🔸 Phân tích theo sản phẩm:")
product_analysis = df_sales.groupby('Product').agg({
    'Revenue': ['sum', 'mean', 'count'],
    'Quantity': 'sum',
    'Unit_Price': 'mean'
}).round(2)

product_analysis.columns = ['Total_Revenue', 'Avg_Revenue', 'Transaction_Count', 'Total_Quantity', 'Avg_Price']
product_analysis = product_analysis.sort_values('Total_Revenue', ascending=False)
print(product_analysis)

print("\n🔸 Phân tích theo vùng:")
region_analysis = df_sales.groupby('Region').agg({
    'Revenue': ['sum', 'mean'],
    'TransactionID': 'count'
}).round(2)
region_analysis.columns = ['Total_Revenue', 'Avg_Revenue', 'Transaction_Count']
region_analysis['Revenue_Share'] = (region_analysis['Total_Revenue'] / region_analysis['Total_Revenue'].sum() * 100).round(2)
print(region_analysis.sort_values('Total_Revenue', ascending=False))

print("\n🔸 Phân tích theo tháng:")
monthly_analysis = df_sales.groupby('Month').agg({
    'Revenue': 'sum',
    'TransactionID': 'count'
}).round(2)
monthly_analysis.columns = ['Total_Revenue', 'Transaction_Count']
monthly_analysis['Avg_Revenue_per_Transaction'] = (monthly_analysis['Total_Revenue'] / monthly_analysis['Transaction_Count']).round(2)
print(monthly_analysis)

print("\n🔸 Top 10 nhân viên bán hàng:")
top_salespeople = df_sales.groupby('Salesperson').agg({
    'Revenue': 'sum',
    'TransactionID': 'count'
}).round(2)
top_salespeople.columns = ['Total_Revenue', 'Transaction_Count']
top_salespeople['Avg_Revenue_per_Transaction'] = (top_salespeople['Total_Revenue'] / top_salespeople['Transaction_Count']).round(2)
top_salespeople = top_salespeople.sort_values('Total_Revenue', ascending=False).head(10)
print(top_salespeople)

print("\n🔸 Phân tích theo loại khách hàng:")
customer_analysis = df_sales.groupby('Customer_Type').agg({
    'Revenue': ['sum', 'mean', 'count']
}).round(2)
customer_analysis.columns = ['Total_Revenue', 'Avg_Revenue', 'Transaction_Count']
print(customer_analysis)

print("\n🔸 Phân tích theo ngày trong tuần:")
day_analysis = df_sales.groupby('Day_of_Week').agg({
    'Revenue': ['sum', 'mean'],
    'TransactionID': 'count'
}).round(2)
day_analysis.columns = ['Total_Revenue', 'Avg_Revenue', 'Transaction_Count']
# Reorder by day of week
day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
day_analysis = day_analysis.reindex(day_order)
print(day_analysis)

---
# 🎉 **KẾT LUẬN VÀ BƯỚC TIẾP THEO**

## 📚 **Tóm tắt kiến thức đã học:**

### **NumPy:**
- ✅ Tạo và thao tác mảng đa chiều
- ✅ Indexing, slicing, broadcasting
- ✅ Các phép toán toán học và thống kê
- ✅ Dot product và linear algebra
- ✅ Random number generation

### **Pandas:**
- ✅ Series và DataFrame
- ✅ Đọc, ghi, và thao tác dữ liệu
- ✅ Lọc và tìm kiếm dữ liệu
- ✅ Xử lý dữ liệu thiếu
- ✅ Group by và aggregation
- ✅ Thống kê và phân tích dữ liệu

## 🚀 **Bước tiếp theo:**
1. **Matplotlib/Seaborn** - Visualization
2. **Scikit-learn** - Machine Learning
3. **Jupyter Notebook** - Interactive analysis
4. **Real projects** - Áp dụng vào dự án thực tế

## 💡 **Tips để thành thạo:**
- Thực hành hàng ngày với dataset thật
- Tham gia các competition trên Kaggle
- Đọc documentation và examples
- Build portfolio projects

---
**🎓 Chúc bạn học tập hiệu quả và thành công với Data Science!**