## BUỔI 5: NUMPY VÀ PANDAS


## I. NumPy

NumPy là thư viện cơ bản cho tính toán khoa học trong Python:
- **Mảng đa chiều** hiệu suất cao (ndarray)
- **Các hàm toán học** để thao tác với mảng  
- **Công cụ** cho đại số tuyến tính, biến đổi Fourier
- **Broadcasting** và vectorization

In [3]:
# 0. Tại sao nên dùng các thư viện như Numpy
import numpy as np
import time
import sys

size = 1000000
python_list = list(range(size))
numpy_array = np.arange(size)
start_time = time.time()
sum_list = sum(python_list)
list_time = time.time() - start_time

start_time = time.time()
sum_numpy = np.sum(numpy_array)
numpy_time = time.time() - start_time

print(f"Python List: {list_time:.6f}s")
print(f"NumPy Array: {numpy_time:.6f}s")
print(f"NumPy nhanh hơn: {list_time/numpy_time:.1f} lần")



Python List: 0.022285s
NumPy Array: 0.001230s
NumPy nhanh hơn: 18.1 lần


In [5]:
# 1. Cài đặt và import
import numpy as np
print(np.__version__)

2.0.2


A. Tạo Mảng/Ma trận với NumPy

In [6]:
#tạo mảng cơ bản
#1d
arr = np.array([1, 2, 3, 4, 5])
print(arr)
print(type(arr))

[1 2 3 4 5]
<class 'numpy.ndarray'>


In [7]:
#2d
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)

[[1 2 3]
 [4 5 6]]


In [8]:
#tuple
arr = np.array((7, 8, 9))
print(arr)


[7 8 9]


In [11]:
#kiểu của mảng - auto detection
arr = np.array([1.1, 2, 3, 4, 5])
print(arr)

[1.1 2.  3.  4.  5. ]


B. Các thuộc tính của Mảng

In [21]:
#thuộc tính cơ bản của mảng
arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr)

[[1 2 3]
 [4 5 6]]


In [22]:
#kích thước
print(arr.shape)

(2, 3)


In [23]:
 #số chiều
print(arr.ndim)

2


In [24]:
#tổng số phần tử
print(arr.size)

6


In [25]:
#kiểu dữ liệu
print(arr.dtype)

int64


C. Các hàm tạo Mảng

In [28]:
# Empty
empty_arr = np.empty((3, 3))
print(empty_arr)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [29]:
# Ma trận đơn vị
eye_arr = np.eye(4, 6)
print(eye_arr)

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]]


In [30]:
identity_arr = np.identity(4)
print(identity_arr)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [31]:
# Ma trận 0
zeros_arr = np.zeros((3, 3))
print(zeros_arr)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [32]:
ones_arr = np.ones((5, 7))
print(ones_arr)

[[1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]]


In [33]:
# Tạo dãy số với arange: np.arange(start, stop, step, dtype)
arr1 = np.arange(5)
print(arr1)

[0 1 2 3 4]


In [34]:
arr2 = np.arange(2, 8)
print(arr2)

[2 3 4 5 6 7]


In [35]:
arr3 = np.arange(0, 10, 2)
print(arr3)

[0 2 4 6 8]


In [36]:
arr4 = np.arange(10, 0, -1)
print(arr4)

[10  9  8  7  6  5  4  3  2  1]


In [40]:
# Tạo mảng ngẫu nhiên
# np.random.seed(2210)

# Random [0, 1)
random_arr = np.random.random((3, 3))
print(random_arr)

[[0.60233155 0.42211725 0.43571595]
 [0.80995802 0.3814851  0.20479196]
 [0.89715092 0.91423299 0.73233411]]


In [54]:
# Random integers
arr = np.random.randint(1, 100, (3, 3))
print(arr)

[[77 30 34]
 [ 1 51 57]
 [93 99 37]]


In [61]:
mean = np.mean(arr)           # Trung bình
median = np.median(arr)       # Trung vị
std = np.std(arr)            # Độ lệch chuẩn
var = np.var(arr)            # Phương sai
min_val = np.min(arr)        # Giá trị nhỏ nhất
max_val = np.max(arr)        # Giá trị lớn nhất

print(mean)
print(median)
print(std)
print(var)
print(min_val)
print(max_val)

106.70681128985426
106.99034747506649
17.140012477109035
293.7800277154534
85.5713939296516
127.24638956118517


D. Indexing và Slicing

In [62]:
arr = np.random.randint(0, 10, (5))
arr2 = np.random.randint(0, 10, (3, 5))
arr3 = np.random.randint(0, 10, (3, 3, 3))

print(arr)
print(arr2)
print(arr3)

[2 7 8 8 1]
[[1 3 8 0 8]
 [2 1 3 5 3]
 [7 4 7 9 3]]
[[[3 2 9]
  [1 0 9]
  [2 3 2]]

 [[9 6 0]
  [4 1 4]
  [6 5 8]]

 [[3 0 4]
  [2 4 1]
  [3 2 6]]]


In [63]:
#1d
print(arr[0])
print(arr[3])
print(arr[-1])
print(arr[-4])

print(arr[1:4])
print(arr[:3])
print(arr[2:])
print(arr[::2])
print(arr[::-1])

2
8
1
7
[7 8 8]
[2 7 8]
[8 8 1]
[2 8 1]
[1 8 8 7 2]


In [64]:
#2d
print(arr2)

print(arr2[0, 0])
print(arr2[1, 2])
print(arr2[-1, -1])
print(arr2[2, 1])

print(arr2[0, :])
print(arr2[:, 0])
print(arr2[-1, :])
print(arr2[:, -1])

print(arr2[:2, :])
print(arr2[:, -2:])
print(arr2[1:, 1:4])

[[1 3 8 0 8]
 [2 1 3 5 3]
 [7 4 7 9 3]]
1
3
3
4
[1 3 8 0 8]
[1 2 7]
[7 4 7 9 3]
[8 3 3]
[[1 3 8 0 8]
 [2 1 3 5 3]]
[[0 8]
 [5 3]
 [9 3]]
[[1 3 5]
 [4 7 9]]


E. Biến đổi mảng

In [67]:
# Reshape
arr = np.arange(1, 25)
print(arr)
print(arr)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24]
[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24]


In [69]:
print(arr.reshape(2, 12))

[[ 1  2  3  4  5  6  7  8  9 10 11 12]
 [13 14 15 16 17 18 19 20 21 22 23 24]]


In [70]:
print(arr.reshape(3, 8))

[[ 1  2  3  4  5  6  7  8]
 [ 9 10 11 12 13 14 15 16]
 [17 18 19 20 21 22 23 24]]


In [71]:
print(arr.reshape(4, 6))

[[ 1  2  3  4  5  6]
 [ 7  8  9 10 11 12]
 [13 14 15 16 17 18]
 [19 20 21 22 23 24]]


In [72]:
print(arr.reshape(4, 3, 2))

[[[ 1  2]
  [ 3  4]
  [ 5  6]]

 [[ 7  8]
  [ 9 10]
  [11 12]]

 [[13 14]
  [15 16]
  [17 18]]

 [[19 20]
  [21 22]
  [23 24]]]


In [73]:
# Auto reshape với -1
auto1 = arr.reshape(-1, 6)
auto2 = arr.reshape(3, -1)
print(auto1.shape)
print(auto2.shape)

(4, 6)
(3, 8)


In [78]:
# Transpose
matrix = np.arange(1, 13).reshape(3, 4)
print(matrix)
print()
# print(matrix.T)
print(matrix.transpose())
print()
print(matrix)


[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


F. Các phép toán và hàm toán học

In [79]:

a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print(f"a = {a}")
print(f"b = {b}")
print(f"a + b = {a + b}")
print(f"a - b = {a - b}")
print(f"a * b = {a * b}")
print(f"a / b = {a / b}")
print(f"a ** 2 = {a ** 2}")
print(f"a % 3 = {a % 3}")

a = [1 2 3 4]
b = [5 6 7 8]
a + b = [ 6  8 10 12]
a - b = [-4 -4 -4 -4]
a * b = [ 5 12 21 32]
a / b = [0.2        0.33333333 0.42857143 0.5       ]
a ** 2 = [ 1  4  9 16]
a % 3 = [1 2 0 1]


In [83]:
#broadcasting
matrix = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])
scalar = 100

print(matrix)
print(vector)
print(scalar)

print(matrix + vector)
print(matrix + scalar)
print(matrix * vector)

[[1 2 3]
 [4 5 6]]
[10 20 30]
100
[[11 22 33]
 [14 25 36]]
[[101 102 103]
 [104 105 106]]
[[ 10  40  90]
 [ 40 100 180]]


In [84]:
#mathematical functions
arr = np.array([1, 4, 9, 16, 25])
print(arr)

[ 1  4  9 16 25]


In [85]:
print(np.sqrt(arr))
print(np.square(arr))
print(np.abs(arr))

[1. 2. 3. 4. 5.]
[  1  16  81 256 625]
[ 1  4  9 16 25]


In [86]:
#statistical functions
data = np.random.normal(50, 10, 100)
print(data[:10])

print(f"Mean: {np.mean(data):.2f}")
print(f"Median: {np.median(data):.2f}")
print(f"Std: {np.std(data):.2f}")
print(f"Var: {np.var(data):.2f}")
print(f"Min: {np.min(data):.2f}")
print(f"Max: {np.max(data):.2f}")
print(f"Sum: {np.sum(data):.2f}")

[62.15927421 42.62882284 27.76669075 35.80650986 48.52927984 39.78268108
 31.62254036 55.2096101  46.14563055 50.15922024]
Mean: 48.12
Median: 46.86
Std: 9.25
Var: 85.60
Min: 27.77
Max: 72.55
Sum: 4811.71


II. Pandas

Pandas cung cấp cấu trúc dữ liệu và công cụ phân tích dữ liệu mạnh mẽ:
- **Series**: mảng 1 chiều có nhãn
- **DataFrame**: bảng dữ liệu 2 chiều
- **Công cụ**: xử lý dữ liệu thiếu, merge, group by

In [5]:
#Import Pandas
import pandas as pd
import numpy as np
print(pd.__version__)


2.2.2


A. Pandas Series

In [100]:
# 1. Tạo Series
s1 = pd.Series([1, 3, 5, 7, 9])
print(s1)

0    1
1    3
2    5
3    7
4    9
dtype: int64


In [92]:
s2 = pd.Series([100, 200, 300], index=['A', 'B', 'C'])
print(s2)

A    100
B    200
C    300
dtype: int64


In [6]:
data_dict = {'Apple': 150, 'Banana': 80, 'Orange': 120, 'Mango': 200}
s3 = pd.Series(data_dict)
print(s3)

Apple     150
Banana     80
Orange    120
Mango     200
dtype: int64


In [94]:
np_arr = np.random.randint(50, 100, 5)
s4 = pd.Series(np_arr, index=['Mon', 'Tue', 'Wed', 'Thu', 'Fri'])
print(s4)

Mon    57
Tue    55
Wed    77
Thu    56
Fri    98
dtype: int64


In [98]:
#2. Thuộc tính
print(s3.values)
# print(s3.index)
print(s3.index.tolist())
print(s3.dtype)
print(s3.size)
print(s3.shape)


[150  80 120 200]
['Apple', 'Banana', 'Orange', 'Mango']
int64
4
(4,)


In [9]:
print(s3)
print()
print(s3['Apple'])
print()
print(s3[['Apple', 'Mango']])

Apple     150
Banana     80
Orange    120
Mango     200
dtype: int64

150

Apple    150
Mango    200
dtype: int64


In [14]:
print(s3.iloc[0])
print(s3.iloc[0:3])

150
Apple     150
Banana     80
Orange    120
dtype: int64


In [20]:
# Boolean indexing
expensive = s3 < 100
print(expensive)

print(s3[expensive])

Apple     False
Banana     True
Orange    False
Mango     False
dtype: bool
Banana    80
dtype: int64


In [29]:
#Operations
data_dict = {'Apple': 1, 'Banana': 2, 'Orange': 3, 'Mango': 4, 'Egg': 5}
s3 = pd.Series(data_dict)
print(s3)

Apple     1
Banana    2
Orange    3
Mango     4
Egg       5
dtype: int64


In [30]:
print(s3 * 1.1)

Apple     1.1
Banana    2.2
Orange    3.3
Mango     4.4
Egg       5.5
dtype: float64


In [31]:
print(s3 + 20)

Apple     21
Banana    22
Orange    23
Mango     24
Egg       25
dtype: int64


In [32]:
print(s3.sum())

15


In [33]:
print(s3.mean())

3.0


In [34]:
print(s3.max())

5


In [35]:
print(s3.min())

1


In [36]:
print(s3.std())

1.5811388300841898


B. Pandas DataFrame

In [39]:
#1. Tạo DataFrame
#Dictionary
data = {
    'Tên': ['An', 'Bình', 'Chi', 'Dung', 'Em', 'Phong'],
    'Tuổi': [25, 30, 35, 28, 22, 27],
    'Lương': [5000, 6000, 7000, 5500, 4500, 5800],
    'Thành phố': ['Hà Nội', 'HCM', 'Đà Nẵng', 'Hà Nội', 'HCM', 'Cần Thơ'],
    'Kinh nghiệm': [2, 5, 8, 4, 1, 3]
}

df = pd.DataFrame(data)
print(df)


     Tên  Tuổi  Lương Thành phố  Kinh nghiệm
0     An    25   5000    Hà Nội            2
1   Bình    30   6000       HCM            5
2    Chi    35   7000   Đà Nẵng            8
3   Dung    28   5500    Hà Nội            4
4     Em    22   4500       HCM            1
5  Phong    27   5800   Cần Thơ            3


In [40]:
#List of lists
data_list = [
    ['Product A', 100, 'Electronics'],
    ['Product B', 150, 'Clothing'],
    ['Product C', 80, 'Books'],
    ['Product D', 200, 'Electronics']
]
df = pd.DataFrame(data_list, columns=['Product', 'Price', 'Category'])
print(df)


     Product  Price     Category
0  Product A    100  Electronics
1  Product B    150     Clothing
2  Product C     80        Books
3  Product D    200  Electronics


In [43]:
#2. Thuộc Tính
#shape
print(df.shape)

(4, 3)


In [44]:
#columns
print(df.columns)
print(list(df.columns))

Index(['Product', 'Price', 'Category'], dtype='object')
['Product', 'Price', 'Category']


In [45]:
#index
print(df.index)
print(list(df.index))

RangeIndex(start=0, stop=4, step=1)
[0, 1, 2, 3]


In [46]:
#size
print(df.size)

12


In [47]:
#dtypes
print(df.dtypes)

Product     object
Price        int64
Category    object
dtype: object


In [49]:
#3 Truy cập dữ liệu
data = {
    'Tên': ['An', 'Bình', 'Chi', 'Dung', 'Em', 'Phong'],
    'Tuổi': [25, 30, 35, 28, 22, 27],
    'Lương': [5000, 6000, 7000, 5500, 4500, 5800],
    'Thành phố': ['Hà Nội', 'HCM', 'Đà Nẵng', 'Hà Nội', 'HCM', 'Cần Thơ'],
    'Kinh nghiệm': [2, 5, 8, 4, 1, 3]
}

df = pd.DataFrame(data)
print(df)

     Tên  Tuổi  Lương Thành phố  Kinh nghiệm
0     An    25   5000    Hà Nội            2
1   Bình    30   6000       HCM            5
2    Chi    35   7000   Đà Nẵng            8
3   Dung    28   5500    Hà Nội            4
4     Em    22   4500       HCM            1
5  Phong    27   5800   Cần Thơ            3


In [50]:
print(df.head(3))
print(df.tail(3))

    Tên  Tuổi  Lương Thành phố  Kinh nghiệm
0    An    25   5000    Hà Nội            2
1  Bình    30   6000       HCM            5
2   Chi    35   7000   Đà Nẵng            8
     Tên  Tuổi  Lương Thành phố  Kinh nghiệm
3   Dung    28   5500    Hà Nội            4
4     Em    22   4500       HCM            1
5  Phong    27   5800   Cần Thơ            3


In [51]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Tên          6 non-null      object
 1   Tuổi         6 non-null      int64 
 2   Lương        6 non-null      int64 
 3   Thành phố    6 non-null      object
 4   Kinh nghiệm  6 non-null      int64 
dtypes: int64(3), object(2)
memory usage: 372.0+ bytes
None


In [52]:
print(df.describe())

            Tuổi        Lương  Kinh nghiệm
count   6.000000     6.000000     6.000000
mean   27.833333  5633.333333     3.833333
std     4.445972   864.098760     2.483277
min    22.000000  4500.000000     1.000000
25%    25.500000  5125.000000     2.250000
50%    27.500000  5650.000000     3.500000
75%    29.500000  5950.000000     4.750000
max    35.000000  7000.000000     8.000000


In [53]:
print(df.describe(include='all'))

        Tên       Tuổi        Lương Thành phố  Kinh nghiệm
count     6   6.000000     6.000000         6     6.000000
unique    6        NaN          NaN         4          NaN
top      An        NaN          NaN    Hà Nội          NaN
freq      1        NaN          NaN         2          NaN
mean    NaN  27.833333  5633.333333       NaN     3.833333
std     NaN   4.445972   864.098760       NaN     2.483277
min     NaN  22.000000  4500.000000       NaN     1.000000
25%     NaN  25.500000  5125.000000       NaN     2.250000
50%     NaN  27.500000  5650.000000       NaN     3.500000
75%     NaN  29.500000  5950.000000       NaN     4.750000
max     NaN  35.000000  7000.000000       NaN     8.000000


In [54]:
#4. Truy Xuất
#Truy xuất cột
print(df['Tên'])
print(type(df['Tên']))
print(df[['Tên', 'Lương', 'Thành phố']])

0       An
1     Bình
2      Chi
3     Dung
4       Em
5    Phong
Name: Tên, dtype: object
<class 'pandas.core.series.Series'>
     Tên  Lương Thành phố
0     An   5000    Hà Nội
1   Bình   6000       HCM
2    Chi   7000   Đà Nẵng
3   Dung   5500    Hà Nội
4     Em   4500       HCM
5  Phong   5800   Cần Thơ


In [57]:
# Truy xuất hàng
print(df.iloc[0])

Tên                An
Tuổi               25
Lương            5000
Thành phố      Hà Nội
Kinh nghiệm         2
Name: 0, dtype: object


In [58]:
print(df.loc[0])

Tên                An
Tuổi               25
Lương            5000
Thành phố      Hà Nội
Kinh nghiệm         2
Name: 0, dtype: object


In [59]:
print(df.iloc[1:4])

    Tên  Tuổi  Lương Thành phố  Kinh nghiệm
1  Bình    30   6000       HCM            5
2   Chi    35   7000   Đà Nẵng            8
3  Dung    28   5500    Hà Nội            4


In [60]:
print(df.loc[1:3])

    Tên  Tuổi  Lương Thành phố  Kinh nghiệm
1  Bình    30   6000       HCM            5
2   Chi    35   7000   Đà Nẵng            8
3  Dung    28   5500    Hà Nội            4


In [63]:
# Truy xuất ô cụ thể
print(df.iloc[0, 1])
print(df.loc[1, 'Tuổi'])
print(df.at[2, 'Tên'])

25
30
Chi


In [66]:
# Truy xuất với điều kiện
print(df.loc[0:2, ['Tên', 'Lương']])

    Tên  Lương
0    An   5000
1  Bình   6000
2   Chi   7000


In [None]:
# 5. Lọc và tìm kiếm dữ liệu
data = {
    'Tên': ['An', 'Bình', 'Chi', 'Dung', 'Em', 'Phong'],
    'Tuổi': [25, 30, 35, 28, 22, 27],
    'Lương': [5000, 6000, 7000, 5500, 4500, 5800],
    'Thành phố': ['Hà Nội', 'HCM', 'Đà Nẵng', 'Hà Nội', 'HCM', 'Cần Thơ'],
    'Kinh nghiệm': [2, 5, 8, 4, 1, 3]
}

df = pd.DataFrame(data)
print(df)

In [72]:
#1 điều kiện
a = df['Lương'].mean()
print(a)
high_salary = df[df['Lương'] > a]
print(high_salary)

# young_people = df[df['Tuổi'] < 30]
# print("\nNgười trẻ (<30 tuổi):")
# print(young_people[['Tên', 'Tuổi', 'Lương']])



5633.333333333333
     Tên  Tuổi  Lương Thành phố  Kinh nghiệm
1   Bình    30   6000       HCM            5
2    Chi    35   7000   Đà Nẵng            8
5  Phong    27   5800   Cần Thơ            3


In [None]:
# Lọc theo nhiều điều kiện
print("\n🔸 Lọc theo nhiều điều kiện:")
young_high_salary = df[(df['Tuổi'] < 30) & (df['Lương'] > 5000)]
print("Tuổi < 30 VÀ lương > 5000:")
print(young_high_salary[['Tên', 'Tuổi', 'Lương']])

experienced_or_young = df[(df['Kinh nghiệm'] >= 5) | (df['Tuổi'] <= 25)]
print("\nKinh nghiệm ≥ 5 HOẶC tuổi ≤ 25:")
print(experienced_or_young[['Tên', 'Tuổi', 'Kinh nghiệm']])



In [None]:
# Lọc theo string
print("\n🔸 Lọc theo string:")
hanoi_people = df[df['Thành phố'] == 'Hà Nội']
print("Người ở Hà Nội:")
print(hanoi_people[['Tên', 'Thành phố', 'Lương']])

# Contains string
name_with_n = df[df['Tên'].str.contains('n', case=False)]
print("\nTên chứa chữ 'n':")
print(name_with_n[['Tên']])

In [None]:
# Lọc nâng cao
print("🔸 Lọc nâng cao:")

# Lọc theo danh sách
selected_cities = df[df['Thành phố'].isin(['Hà Nội', 'HCM'])]
print("Người ở Hà Nội hoặc HCM:")
print(selected_cities[['Tên', 'Thành phố']])

# Lọc theo range
mid_range_salary = df[df['Lương'].between(5000, 6000)]
print("\nLương từ 5000-6000:")
print(mid_range_salary[['Tên', 'Lương']])

# Query method (SQL-like)
print("\n🔸 Sử dụng query() method:")
result1 = df.query('Tuổi >= 28 and Lương <= 6000')
print("Query: 'Tuổi >= 28 and Lương <= 6000'")
print(result1[['Tên', 'Tuổi', 'Lương']])

result2 = df.query('Thành_phố == "Hà Nội" and Kinh_nghiệm > 2')
print("\nQuery: 'Thành_phố == "Hà Nội" and Kinh_nghiệm > 2'")
print(result2[['Tên', 'Thành phố', 'Kinh nghiệm']])

# Negate conditions
print("\n🔸 Điều kiện phủ định:")
not_hanoi = df[~(df['Thành phố'] == 'Hà Nội')]
print("Không ở Hà Nội:")
print(not_hanoi[['Tên', 'Thành phố']])

# Top/Bottom records
print("\n🔸 Top/Bottom records:")
top_salary = df.nlargest(3, 'Lương')
print("Top 3 lương cao nhất:")
print(top_salary[['Tên', 'Lương']])

youngest = df.nsmallest(2, 'Tuổi')
print("\n2 người trẻ nhất:")
print(youngest[['Tên', 'Tuổi']])

## IV. Thêm, sửa, xóa dữ liệu

In [None]:
# 4. Thêm, sửa, xóa dữ liệu
print("➕ 4. THÊM, SỬA, XÓA DỮ LIỆU")
print("=" * 40)

# Tạo copy để không ảnh hưởng df gốc
df_work = df.copy()

# Thêm cột mới
print("🔸 Thêm cột mới:")
print("DataFrame gốc:")
print(df_work[['Tên', 'Lương']])

# Thêm cột tính toán
df_work['Thưởng'] = df_work['Lương'] * 0.1
df_work['Tổng_thu_nhập'] = df_work['Lương'] + df_work['Thưởng']

# Thêm cột điều kiện
df_work['Cấp_độ'] = df_work['Tuổi'].apply(lambda x: 'Senior' if x >= 30 else 'Junior')

# Thêm cột với multiple conditions
def classify_employee(row):
    if row['Kinh nghiệm'] >= 5:
        return 'Expert'
    elif row['Kinh nghiệm'] >= 3:
        return 'Experienced'
    else:
        return 'Beginner'

df_work['Phân_loại'] = df_work.apply(classify_employee, axis=1)

print("\nSau khi thêm cột:")
print(df_work[['Tên', 'Lương', 'Thưởng', 'Tổng_thu_nhập', 'Cấp_độ', 'Phân_loại']])

# Thêm hàng mới
print("\n🔸 Thêm hàng mới:")
new_employees = [
    {'Tên': 'Giang', 'Tuổi': 26, 'Lương': 5200, 'Thành phố': 'Hà Nội', 'Kinh nghiệm': 2},
    {'Tên': 'Hoàng', 'Tuổi': 32, 'Lương': 6500, 'Thành phố': 'HCM', 'Kinh nghiệm': 6}
]

df_new = pd.concat([df, pd.DataFrame(new_employees)], ignore_index=True)
print("DataFrame sau khi thêm 2 nhân viên mới:")
print(df_new.tail(4))  # Show last 4 rows

In [None]:
# Sửa dữ liệu
print("🔸 Sửa dữ liệu:")
df_edit = df.copy()

print("Trước khi sửa:")
print(df_edit.loc[0, ['Tên', 'Lương']])

# Sửa 1 ô
df_edit.loc[0, 'Lương'] = 5200
print(f"\nSau khi sửa lương An thành 5200:")
print(df_edit.loc[0, ['Tên', 'Lương']])

# Sửa nhiều ô
df_edit.loc[df_edit['Tên'] == 'Bình', ['Lương', 'Tuổi']] = [6200, 31]
print(f"\nSau khi sửa thông tin Bình:")
print(df_edit[df_edit['Tên'] == 'Bình'][['Tên', 'Tuổi', 'Lương']])

# Sửa cả cột
print(f"\nTrước khi tăng tuổi:")
print(df_edit[['Tên', 'Tuổi']])

df_edit['Tuổi'] = df_edit['Tuổi'] + 1  # Tăng tuổi 1
print(f"\nSau khi tăng tuổi toàn bộ:")
print(df_edit[['Tên', 'Tuổi']])

# Sửa theo điều kiện
print(f"\nTrước khi tăng lương cho người lương thấp:")
low_salary_before = df_edit[df_edit['Lương'] < 5500][['Tên', 'Lương']]
print(low_salary_before)

df_edit.loc[df_edit['Lương'] < 5500, 'Lương'] *= 1.1  # Tăng 10%
print(f"\nSau khi tăng lương 10% cho người có lương < 5500:")
updated_salaries = df_edit[df_edit.index.isin(low_salary_before.index)][['Tên', 'Lương']]
print(updated_salaries)

In [None]:
# Xóa dữ liệu
print("🔸 Xóa dữ liệu:")
df_delete = df.copy()

print("DataFrame gốc:")
print(df_delete.columns.tolist())
print(f"Shape: {df_delete.shape}")

# Xóa cột
df_dropped_col = df_delete.drop('Thành phố', axis=1)
print(f"\nSau khi xóa cột 'Thành phố':")
print(df_dropped_col.columns.tolist())
print(f"Shape: {df_dropped_col.shape}")

# Xóa nhiều cột
df_dropped_cols = df_delete.drop(['Thành phố', 'Kinh nghiệm'], axis=1)
print(f"\nSau khi xóa 2 cột:")
print(df_dropped_cols.columns.tolist())

# Xóa hàng
print(f"\nTrước khi xóa hàng:")
print(df_delete[['Tên', 'Tuổi']])

df_dropped_row = df_delete.drop(0, axis=0)  # Xóa hàng index 0
print(f"\nSau khi xóa hàng đầu tiên (An):")
print(df_dropped_row[['Tên', 'Tuổi']])

# Xóa nhiều hàng
df_dropped_rows = df_delete.drop([0, 2], axis=0)  # Xóa An và Chi
print(f"\nSau khi xóa hàng 0 và 2 (An và Chi):")
print(df_dropped_rows[['Tên', 'Tuổi']])

# Xóa theo điều kiện
df_conditional_drop = df_delete[df_delete['Tuổi'] >= 25]  # Giữ lại người >= 25 tuổi
print(f"\nSau khi xóa người < 25 tuổi:")
print(df_conditional_drop[['Tên', 'Tuổi']])

# Reset index sau khi xóa
df_reset = df_dropped_rows.reset_index(drop=True)
print(f"\nSau khi reset index:")
print(df_reset[['Tên', 'Tuổi']])

## V. Xử lý dữ liệu thiếu

In [None]:
# 5. Xử lý dữ liệu thiếu (Missing Data)
print("🔧 5. XỬ LÝ DỮ LIỆU THIẾU")
print("=" * 40)

# Tạo dữ liệu có giá trị thiếu
print("🔸 Tạo dữ liệu thiếu:")
df_missing = df.copy()

# Thêm một số giá trị NaN
df_missing.loc[1, 'Lương'] = np.nan
df_missing.loc[3, 'Tuổi'] = np.nan
df_missing.loc[4, 'Thành phố'] = np.nan
df_missing.loc[2, 'Kinh nghiệm'] = np.nan
df_missing.loc[5, 'Lương'] = np.nan

print("DataFrame với dữ liệu thiếu:")
print(df_missing)

# Kiểm tra dữ liệu thiếu
print("\n🔸 Kiểm tra dữ liệu thiếu:")
print("Số giá trị thiếu mỗi cột:")
missing_count = df_missing.isnull().sum()
print(missing_count)

print("\nPhần trăm giá trị thiếu:")
missing_percent = (df_missing.isnull().sum() / len(df_missing) * 100).round(2)
print(missing_percent)

# Tổng hợp thông tin missing data
missing_info = pd.DataFrame({
    'Missing_Count': missing_count,
    'Missing_Percent': missing_percent
})
print("\nTổng hợp missing data:")
print(missing_info[missing_info['Missing_Count'] > 0])

# Kiểm tra hàng nào có dữ liệu thiếu
print("\nHàng có dữ liệu thiếu:")
rows_with_missing = df_missing[df_missing.isnull().any(axis=1)]
print(rows_with_missing)

In [None]:
# Xử lý dữ liệu thiếu - các phương pháp khác nhau
print("🔸 Các phương pháp xử lý dữ liệu thiếu:")

# Phương pháp 1: Điền giá trị cố định
print("\n1. Điền giá trị cố định:")
df_filled_0 = df_missing.fillna(0)
print("Điền 0 cho tất cả NaN:")
print(df_filled_0[['Tên', 'Tuổi', 'Lương', 'Thành phố', 'Kinh nghiệm']])

# Phương pháp 2: Điền giá trị theo cột
print("\n2. Điền giá trị khác nhau cho từng cột:")
df_filled_custom = df_missing.copy()
df_filled_custom['Tuổi'].fillna(df_filled_custom['Tuổi'].mean(), inplace=True)
df_filled_custom['Lương'].fillna(df_filled_custom['Lương'].median(), inplace=True)
df_filled_custom['Kinh nghiệm'].fillna(df_filled_custom['Kinh nghiệm'].mean(), inplace=True)
df_filled_custom['Thành phố'].fillna('Unknown', inplace=True)

print("Điền mean/median cho số, 'Unknown' cho text:")
print(df_filled_custom)

# Phương pháp 3: Forward fill và backward fill
print("\n3. Forward fill và backward fill:")
df_ffill = df_missing.fillna(method='ffill')  # Điền giá trị từ trước
print("Forward fill (ffill):")
print(df_ffill[['Tên', 'Tuổi', 'Lương']])

df_bfill = df_missing.fillna(method='bfill')  # Điền giá trị từ sau
print("\nBackward fill (bfill):")
print(df_bfill[['Tên', 'Tuổi', 'Lương']])

# Phương pháp 4: Interpolation
print("\n4. Interpolation (cho cột số):")
df_interpolated = df_missing.copy()
df_interpolated['Lương'] = df_interpolated['Lương'].interpolate()
df_interpolated['Tuổi'] = df_interpolated['Tuổi'].interpolate()
print("Interpolated values:")
print(df_interpolated[['Tên', 'Tuổi', 'Lương']])

In [None]:
# Xóa dữ liệu thiếu
print("\n5. Xóa dữ liệu thiếu:")

# Xóa tất cả hàng có NaN
df_dropped_any = df_missing.dropna()
print(f"Xóa tất cả hàng có NaN:")
print(f"Shape trước: {df_missing.shape}")
print(f"Shape sau: {df_dropped_any.shape}")
print(df_dropped_any)

# Xóa hàng có tất cả NaN
df_dropped_all = df_missing.dropna(how='all')
print(f"\nXóa hàng có tất cả NaN:")
print(f"Shape: {df_dropped_all.shape}")

# Xóa hàng có NaN trong cột cụ thể
df_dropped_subset = df_missing.dropna(subset=['Lương'])
print(f"\nXóa hàng có NaN trong cột 'Lương':")
print(f"Shape: {df_dropped_subset.shape}")
print(df_dropped_subset[['Tên', 'Lương']])

# Xóa cột có quá nhiều NaN
threshold = len(df_missing) * 0.5  # Giữ cột có ít hơn 50% NaN
df_dropped_cols = df_missing.dropna(thresh=threshold, axis=1)
print(f"\nXóa cột có >50% NaN:")
print(f"Columns: {df_dropped_cols.columns.tolist()}")

# Phương pháp 6: Advanced filling
print("\n6. Advanced filling strategies:")
df_advanced = df_missing.copy()

# Điền based trên group
df_advanced['Lương'] = df_advanced.groupby('Thành phố')['Lương'].transform(
    lambda x: x.fillna(x.mean())
)

print("Điền lương theo mean của từng thành phố:")
print(df_advanced[['Tên', 'Thành phố', 'Lương']])

# So sánh các phương pháp
print("\n📊 So sánh các phương pháp:")
methods_comparison = pd.DataFrame({
    'Method': ['Original', 'Fill 0', 'Fill Mean/Median', 'Drop NaN', 'Interpolate'],
    'Shape': [df_missing.shape, df_filled_0.shape, df_filled_custom.shape,
              df_dropped_any.shape, df_interpolated.shape],
    'Missing_Count': [df_missing.isnull().sum().sum(), df_filled_0.isnull().sum().sum(),
                     df_filled_custom.isnull().sum().sum(), df_dropped_any.isnull().sum().sum(),
                     df_interpolated.isnull().sum().sum()]
})
print(methods_comparison)

## VI. Thống kê và phân tích dữ liệu

In [None]:
# 6. Thống kê và phân tích dữ liệu
print("📊 6. THỐNG KÊ VÀ PHÂN TÍCH DỮ LIỆU")
print("=" * 45)

# Thống kê cơ bản
print("🔸 Thống kê cơ bản:")
print(f"Lương trung bình: {df['Lương'].mean():.2f}")
print(f"Lương trung vị: {df['Lương'].median():.2f}")
print(f"Độ lệch chuẩn lương: {df['Lương'].std():.2f}")
print(f"Lương min: {df['Lương'].min()}")
print(f"Lương max: {df['Lương'].max()}")
print(f"Tổng lương: {df['Lương'].sum():,}")

print(f"\nTuổi thống kê:")
print(f"Tuổi TB: {df['Tuổi'].mean():.1f}")
print(f"Tuổi min: {df['Tuổi'].min()}")
print(f"Tuổi max: {df['Tuổi'].max()}")

# Quartiles và percentiles
print(f"\n🔸 Quartiles và percentiles:")
print(f"Q1 (25%): {df['Lương'].quantile(0.25)}")
print(f"Q2 (50% - Median): {df['Lương'].quantile(0.5)}")
print(f"Q3 (75%): {df['Lương'].quantile(0.75)}")
print(f"90th percentile: {df['Lương'].quantile(0.9)}")

# Value counts
print("\n🔸 Đếm tần suất:")
print("Phân bố theo thành phố:")
city_counts = df['Thành phố'].value_counts()
print(city_counts)

print("\nPhân bố theo độ tuổi:")
age_counts = df['Tuổi'].value_counts().sort_index()
print(age_counts)

print("\nPhân bố theo kinh nghiệm:")
exp_counts = df['Kinh nghiệm'].value_counts().sort_index()
print(exp_counts)

# Normalize value counts (percentage)
print("\n🔸 Phần trăm phân bố:")
city_percent = df['Thành phố'].value_counts(normalize=True) * 100
print("Phần trăm theo thành phố:")
print(city_percent.round(2))

In [None]:
# Group By operations
print("🔸 Group By operations:")

# Group by single column
print("Thống kê theo thành phố:")
city_stats = df.groupby('Thành phố').agg({
    'Lương': ['mean', 'max', 'min', 'count'],
    'Tuổi': 'mean',
    'Kinh nghiệm': ['mean', 'max']
})
print(city_stats)

# Flatten column names
city_stats.columns = ['_'.join(col).strip() for col in city_stats.columns]
print("\nCùng dữ liệu với column names đơn giản:")
print(city_stats)

# Group by với điều kiện
print("\n🔸 Group by với điều kiện:")
df['Age_Group'] = df['Tuổi'].apply(lambda x: 'Young' if x < 30 else 'Senior')
age_group_stats = df.groupby('Age_Group').agg({
    'Lương': ['mean', 'count'],
    'Kinh nghiệm': 'mean'
})
print("Thống kê theo nhóm tuổi:")
print(age_group_stats)

# Multiple groupby
print("\n🔸 Multiple Group By:")
multi_group = df.groupby(['Thành phố', 'Age_Group'])['Lương'].agg(['mean', 'count'])
print("Thống kê theo thành phố và nhóm tuổi:")
print(multi_group)

# Custom aggregation function
print("\n🔸 Custom aggregation:")
def salary_range(series):
    return series.max() - series.min()

custom_agg = df.groupby('Thành phố')['Lương'].agg([
    ('Avg_Salary', 'mean'),
    ('Salary_Range', salary_range),
    ('Total_Employees', 'count')
])
print("Custom aggregation:")
print(custom_agg)

In [None]:
# Correlation analysis
print("🔸 Correlation analysis:")
print("Ma trận tương quan giữa các biến số:")
correlation_matrix = df[['Tuổi', 'Lương', 'Kinh nghiệm']].corr()
print(correlation_matrix)

print("\nTương quan mạnh nhất:")
# Tìm correlation cao nhất (không tính diagonal)
corr_values = correlation_matrix.values
np.fill_diagonal(corr_values, 0)  # Set diagonal to 0
max_corr_idx = np.unravel_index(np.argmax(np.abs(corr_values)), corr_values.shape)
cols = correlation_matrix.columns
print(f"Tương quan cao nhất: {cols[max_corr_idx[0]]} vs {cols[max_corr_idx[1]]} = {corr_values[max_corr_idx]:.3f}")

# Pivot table
print("\n🔸 Pivot Table:")
pivot = df.pivot_table(
    values='Lương',
    index='Thành phố',
    columns='Age_Group',
    aggfunc=['mean', 'count'],
    fill_value=0
)
print("Pivot table - Lương theo thành phố và nhóm tuổi:")
print(pivot)

# Cross tabulation
print("\n🔸 Cross Tabulation:")
crosstab = pd.crosstab(df['Thành phố'], df['Age_Group'], margins=True)
print("Cross tabulation - Số lượng nhân viên:")
print(crosstab)

# Percentage cross tabulation
crosstab_pct = pd.crosstab(df['Thành phố'], df['Age_Group'], normalize='index') * 100
print("\nCross tabulation (percentage by city):")
print(crosstab_pct.round(2))

---
# 🎯 **PHẦN 3: BÀI TẬP THỰC HÀNH**

## Bài tập tổng hợp kiến thức NumPy và Pandas

### 🔢 **BÀI TẬP NUMPY**

In [None]:
# Bài tập NumPy
print("🔢 BÀI TẬP NUMPY")
print("=" * 30)

print("\n📝 Bài tập 1: Tạo và thao tác mảng cơ bản")
print("-" * 50)

# Tạo mảng 2D từ 1 đến 20, reshape thành 4x5
matrix = np.arange(1, 21).reshape(4, 5)
print(f"Ma trận 4x5:")
print(matrix)

# Tính tổng từng hàng và từng cột
row_sums = np.sum(matrix, axis=1)
col_sums = np.sum(matrix, axis=0)
print(f"\nTổng từng hàng: {row_sums}")
print(f"Tổng từng cột: {col_sums}")

# Tìm giá trị lớn nhất và nhỏ nhất
print(f"\nGiá trị lớn nhất: {np.max(matrix)}")
print(f"Giá trị nhỏ nhất: {np.min(matrix)}")
print(f"Vị trí max: {np.unravel_index(np.argmax(matrix), matrix.shape)}")
print(f"Vị trí min: {np.unravel_index(np.argmin(matrix), matrix.shape)}")

# Tính trung bình
print(f"\nTrung bình toàn bộ: {np.mean(matrix):.2f}")
print(f"Trung bình từng hàng: {np.mean(matrix, axis=1)}")
print(f"Trung bình từng cột: {np.mean(matrix, axis=0)}")

print("\n📝 Bài tập 2: Broadcasting và phép toán")
print("-" * 50)

# Tạo mảng và vector
A = np.random.randint(1, 10, (3, 4))
v = np.array([1, 2, 3, 4])

print(f"Ma trận A (3x4):")
print(A)
print(f"\nVector v: {v}")

# Broadcasting operations
print(f"\nA + v (broadcasting):")
print(A + v)

print(f"\nA * v (broadcasting):")
print(A * v)

# Normalize rows (chia mỗi hàng cho tổng của nó)
row_sums = np.sum(A, axis=1, keepdims=True)
normalized = A / row_sums
print(f"\nNormalized rows (sum=1):")
print(normalized)
print(f"\nKiểm tra tổng từng hàng: {np.sum(normalized, axis=1)}")

In [None]:
print("\n📝 Bài tập 3: Dot product thực tế")
print("-" * 50)

# Scenario: Portfolio investment
print("🏦 Scenario: Tính toán portfolio đầu tư")

# Stock prices và quantities
stocks = ['AAPL', 'GOOGL', 'MSFT', 'TSLA', 'AMZN']
prices = np.array([150, 2500, 300, 800, 3200])  # Giá cổ phiếu
quantities = np.array([10, 2, 5, 3, 1])         # Số lượng sở hữu

print(f"Stocks: {stocks}")
print(f"Prices: {prices}")
print(f"Quantities: {quantities}")

# Tổng giá trị portfolio
total_value = np.dot(prices, quantities)
print(f"\n💰 Tổng giá trị portfolio: ${total_value:,}")

# Weight của mỗi stock
weights = (prices * quantities) / total_value
print(f"\n📊 Tỷ trọng từng cổ phiếu:")
for stock, weight in zip(stocks, weights):
    print(f"  {stock}: {weight:.2%}")

# Giả sử giá thay đổi +5%, -3%, +2%, +10%, -1%
price_changes = np.array([0.05, -0.03, 0.02, 0.10, -0.01])
new_prices = prices * (1 + price_changes)
new_value = np.dot(new_prices, quantities)

print(f"\n📈 Sau khi giá thay đổi:")
print(f"New prices: {new_prices}")
print(f"New portfolio value: ${new_value:,}")
print(f"Change: ${new_value - total_value:,.2f} ({((new_value - total_value)/total_value):.2%})")

print("\n📝 Bài tập 4: Matrix operations")
print("-" * 50)

# Transformation matrix
print("🔄 Linear transformation")

# Points to transform
points = np.array([[1, 2], [3, 4], [5, 6]])  # 3 points in 2D
print(f"Original points:")
print(points)

# Rotation matrix (45 degrees)
angle = np.pi / 4  # 45 degrees in radians
rotation_matrix = np.array([
    [np.cos(angle), -np.sin(angle)],
    [np.sin(angle), np.cos(angle)]
])

print(f"\nRotation matrix (45°):")
print(rotation_matrix)

# Apply transformation
transformed_points = points @ rotation_matrix.T
print(f"\nTransformed points:")
print(transformed_points)

# Scaling matrix
scale_matrix = np.array([[2, 0], [0, 3]])  # Scale x by 2, y by 3
scaled_points = points @ scale_matrix.T
print(f"\nScaled points (2x, 3y):")
print(scaled_points)

### 🐼 **BÀI TẬP PANDAS**

In [None]:
# Bài tập Pandas
print("🐼 BÀI TẬP PANDAS")
print("=" * 30)

print("\n📝 Bài tập 1: Phân tích dữ liệu sinh viên")
print("-" * 50)

# Tạo dataset sinh viên
np.random.seed(42)
n_students = 100

students_data = {
    'StudentID': [f'ST{i+1:03d}' for i in range(n_students)],
    'Name': [f'Student_{i+1}' for i in range(n_students)],
    'Math': np.random.normal(75, 15, n_students).clip(0, 100),
    'Physics': np.random.normal(70, 12, n_students).clip(0, 100),
    'Chemistry': np.random.normal(72, 14, n_students).clip(0, 100),
    'English': np.random.normal(78, 10, n_students).clip(0, 100),
    'Class': np.random.choice(['A', 'B', 'C', 'D'], n_students),
    'Gender': np.random.choice(['Male', 'Female'], n_students),
    'Age': np.random.randint(18, 23, n_students)
}

df_students = pd.DataFrame(students_data)

# Làm tròn điểm số
df_students[['Math', 'Physics', 'Chemistry', 'English']] = df_students[['Math', 'Physics', 'Chemistry', 'English']].round(1)

print("Dataset sinh viên (10 dòng đầu):")
print(df_students.head(10))

print(f"\n📊 Thông tin cơ bản:")
print(f"Tổng số sinh viên: {len(df_students)}")
print(f"Số lớp: {df_students['Class'].nunique()}")
print(f"Phân bố giới tính:\n{df_students['Gender'].value_counts()}")
print(f"Độ tuổi: {df_students['Age'].min()}-{df_students['Age'].max()}")

In [None]:
# Phân tích dữ liệu sinh viên
print("\n🔸 Tính điểm trung bình và xếp loại:")

# Tính điểm trung bình
subject_columns = ['Math', 'Physics', 'Chemistry', 'English']
df_students['Average'] = df_students[subject_columns].mean(axis=1)

# Tạo cột xếp loại
def classify_grade(avg):
    if avg >= 85:
        return 'Excellent'
    elif avg >= 75:
        return 'Good'
    elif avg >= 65:
        return 'Average'
    elif avg >= 50:
        return 'Below Average'
    else:
        return 'Poor'

df_students['Grade'] = df_students['Average'].apply(classify_grade)

print("Top 10 sinh viên có điểm TB cao nhất:")
top_students = df_students.nlargest(10, 'Average')[['Name', 'Class', 'Average', 'Grade']]
print(top_students)

print("\n🔸 Phân bố xếp loại:")
grade_distribution = df_students['Grade'].value_counts()
print(grade_distribution)
print("\nPhần trăm:")
print((grade_distribution / len(df_students) * 100).round(2))

print("\n🔸 Thống kê theo lớp:")
class_stats = df_students.groupby('Class').agg({
    'Average': ['mean', 'max', 'min', 'std'],
    'Name': 'count'
}).round(2)
class_stats.columns = ['Avg_Score', 'Max_Score', 'Min_Score', 'Std_Score', 'Student_Count']
print(class_stats)

print("\n🔸 Thống kê theo giới tính:")
gender_stats = df_students.groupby('Gender')[subject_columns + ['Average']].mean().round(2)
print(gender_stats)

print("\n🔸 Tương quan giữa các môn học:")
subject_correlation = df_students[subject_columns].corr().round(3)
print(subject_correlation)

In [None]:
print("\n📝 Bài tập 2: Phân tích dữ liệu bán hàng")
print("-" * 50)

# Tạo dataset bán hàng
np.random.seed(123)
n_transactions = 1000

# Tạo date range
date_range = pd.date_range('2024-01-01', '2024-12-31', freq='D')
products = ['Laptop', 'Phone', 'Tablet', 'Watch', 'Headphones', 'Speaker', 'Camera']
regions = ['North', 'South', 'East', 'West', 'Central']
salespersons = [f'Sales_{i+1}' for i in range(20)]

sales_data = {
    'TransactionID': [f'T{i+1:04d}' for i in range(n_transactions)],
    'Date': np.random.choice(date_range, n_transactions),
    'Product': np.random.choice(products, n_transactions),
    'Quantity': np.random.randint(1, 5, n_transactions),
    'Unit_Price': np.random.uniform(100, 1500, n_transactions).round(2),
    'Region': np.random.choice(regions, n_transactions),
    'Salesperson': np.random.choice(salespersons, n_transactions),
    'Customer_Type': np.random.choice(['New', 'Returning'], n_transactions, p=[0.3, 0.7])
}

df_sales = pd.DataFrame(sales_data)

# Tính revenue
df_sales['Revenue'] = df_sales['Quantity'] * df_sales['Unit_Price']

# Extract time features
df_sales['Year'] = df_sales['Date'].dt.year
df_sales['Month'] = df_sales['Date'].dt.month
df_sales['Quarter'] = df_sales['Date'].dt.quarter
df_sales['Day_of_Week'] = df_sales['Date'].dt.day_name()

print("Dataset bán hàng (10 dòng đầu):")
print(df_sales.head(10))

print(f"\n📊 Tổng quan:")
print(f"Tổng số giao dịch: {len(df_sales):,}")
print(f"Tổng doanh thu: ${df_sales['Revenue'].sum():,.2f}")
print(f"Doanh thu trung bình/giao dịch: ${df_sales['Revenue'].mean():.2f}")
print(f"Giao dịch lớn nhất: ${df_sales['Revenue'].max():,.2f}")
print(f"Số sản phẩm: {df_sales['Product'].nunique()}")
print(f"Số vùng: {df_sales['Region'].nunique()}")
print(f"Số nhân viên bán hàng: {df_sales['Salesperson'].nunique()}")

In [None]:
# Phân tích bán hàng chi tiết
print("\n🔸 Phân tích theo sản phẩm:")
product_analysis = df_sales.groupby('Product').agg({
    'Revenue': ['sum', 'mean', 'count'],
    'Quantity': 'sum',
    'Unit_Price': 'mean'
}).round(2)

product_analysis.columns = ['Total_Revenue', 'Avg_Revenue', 'Transaction_Count', 'Total_Quantity', 'Avg_Price']
product_analysis = product_analysis.sort_values('Total_Revenue', ascending=False)
print(product_analysis)

print("\n🔸 Phân tích theo vùng:")
region_analysis = df_sales.groupby('Region').agg({
    'Revenue': ['sum', 'mean'],
    'TransactionID': 'count'
}).round(2)
region_analysis.columns = ['Total_Revenue', 'Avg_Revenue', 'Transaction_Count']
region_analysis['Revenue_Share'] = (region_analysis['Total_Revenue'] / region_analysis['Total_Revenue'].sum() * 100).round(2)
print(region_analysis.sort_values('Total_Revenue', ascending=False))

print("\n🔸 Phân tích theo tháng:")
monthly_analysis = df_sales.groupby('Month').agg({
    'Revenue': 'sum',
    'TransactionID': 'count'
}).round(2)
monthly_analysis.columns = ['Total_Revenue', 'Transaction_Count']
monthly_analysis['Avg_Revenue_per_Transaction'] = (monthly_analysis['Total_Revenue'] / monthly_analysis['Transaction_Count']).round(2)
print(monthly_analysis)

print("\n🔸 Top 10 nhân viên bán hàng:")
top_salespeople = df_sales.groupby('Salesperson').agg({
    'Revenue': 'sum',
    'TransactionID': 'count'
}).round(2)
top_salespeople.columns = ['Total_Revenue', 'Transaction_Count']
top_salespeople['Avg_Revenue_per_Transaction'] = (top_salespeople['Total_Revenue'] / top_salespeople['Transaction_Count']).round(2)
top_salespeople = top_salespeople.sort_values('Total_Revenue', ascending=False).head(10)
print(top_salespeople)

print("\n🔸 Phân tích theo loại khách hàng:")
customer_analysis = df_sales.groupby('Customer_Type').agg({
    'Revenue': ['sum', 'mean', 'count']
}).round(2)
customer_analysis.columns = ['Total_Revenue', 'Avg_Revenue', 'Transaction_Count']
print(customer_analysis)

print("\n🔸 Phân tích theo ngày trong tuần:")
day_analysis = df_sales.groupby('Day_of_Week').agg({
    'Revenue': ['sum', 'mean'],
    'TransactionID': 'count'
}).round(2)
day_analysis.columns = ['Total_Revenue', 'Avg_Revenue', 'Transaction_Count']
# Reorder by day of week
day_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
day_analysis = day_analysis.reindex(day_order)
print(day_analysis)

---
# 🎉 **KẾT LUẬN VÀ BƯỚC TIẾP THEO**

## 📚 **Tóm tắt kiến thức đã học:**

### **NumPy:**
- ✅ Tạo và thao tác mảng đa chiều
- ✅ Indexing, slicing, broadcasting
- ✅ Các phép toán toán học và thống kê
- ✅ Dot product và linear algebra
- ✅ Random number generation

### **Pandas:**
- ✅ Series và DataFrame
- ✅ Đọc, ghi, và thao tác dữ liệu
- ✅ Lọc và tìm kiếm dữ liệu
- ✅ Xử lý dữ liệu thiếu
- ✅ Group by và aggregation
- ✅ Thống kê và phân tích dữ liệu

## 🚀 **Bước tiếp theo:**
1. **Matplotlib/Seaborn** - Visualization
2. **Scikit-learn** - Machine Learning
3. **Jupyter Notebook** - Interactive analysis
4. **Real projects** - Áp dụng vào dự án thực tế

## 💡 **Tips để thành thạo:**
- Thực hành hàng ngày với dataset thật
- Tham gia các competition trên Kaggle
- Đọc documentation và examples
- Build portfolio projects

---
**🎓 Chúc bạn học tập hiệu quả và thành công với Data Science!**