In [20]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
np.set_printoptions(precision=3, suppress=True)

print(pd.__version__)

1.2.4


# 1. Ghép nối/trộn các dataframe

In [21]:
np.random.seed(1)
a1 = pd.DataFrame(np.random.randint(0, 10, size=(10,2)), columns=['C1', 'C2'])
a2 = pd.DataFrame(np.random.randint(0, 10, size=(10,2)), columns=['C3', 'C4'])

In [22]:
a1

Unnamed: 0,C1,C2
0,5,8
1,9,5
2,0,0
3,1,7
4,6,9
5,2,4
6,5,2
7,4,2
8,4,7
9,7,9


In [23]:
a2

Unnamed: 0,C3,C4
0,1,7
1,0,6
2,9,9
3,7,6
4,9,1
5,0,1
6,8,8
7,3,9
8,8,7
9,3,6


## 1.1. Sử dụng hàm `pd.concat`

**Ghép theo chiều ngang**

In [24]:
pd.concat([a1,a2], axis=1)

Unnamed: 0,C1,C2,C3,C4
0,5,8,1,7
1,9,5,0,6
2,0,0,9,9
3,1,7,7,6
4,6,9,9,1
5,2,4,0,1
6,5,2,8,8
7,4,2,3,9
8,4,7,8,7
9,7,9,3,6


**Ghép theo chiều dọc**

(Tên cột phải giống nhau)

In [25]:
np.random.seed(2)
a3 = pd.DataFrame(np.random.randint(0, 10, size=(10,2)), columns=['C1', 'C2'])
pd.concat([a1,a3]).reset_index(drop=True)

Unnamed: 0,C1,C2
0,5,8
1,9,5
2,0,0
3,1,7
4,6,9
5,2,4
6,5,2
7,4,2
8,4,7
9,7,9


## 1.2. Sử dụng hàm `append`

(Ghép theo chiều dọc)

In [26]:
a1.append(a2, ignore_index=True)

Unnamed: 0,C1,C2,C3,C4
0,5.0,8.0,,
1,9.0,5.0,,
2,0.0,0.0,,
3,1.0,7.0,,
4,6.0,9.0,,
5,2.0,4.0,,
6,5.0,2.0,,
7,4.0,2.0,,
8,4.0,7.0,,
9,7.0,9.0,,


In [27]:
a1.append(a3)

Unnamed: 0,C1,C2
0,5,8
1,9,5
2,0,0
3,1,7
4,6,9
5,2,4
6,5,2
7,4,2
8,4,7
9,7,9


## 1.3. Sử dụng hàm `join`

(Ghép theo chiều ngang)

In [28]:
a1.join(a2)

Unnamed: 0,C1,C2,C3,C4
0,5,8,1,7
1,9,5,0,6
2,0,0,9,9
3,1,7,7,6
4,6,9,9,1
5,2,4,0,1
6,5,2,8,8
7,4,2,3,9
8,4,7,8,7
9,7,9,3,6


In [29]:
# Trùng tên cột?
a1.join(a3)

ValueError: columns overlap but no suffix specified: Index(['C1', 'C2'], dtype='object')

## 1.4. Sử dụng hàm `merge`

(Theo kiểu SQL)

In [None]:
left = pd.DataFrame({"key": ["foo", "bar"], "C1": [1, 2]})
right = pd.DataFrame({"key": ["foo", "bar", "ok"], "C2": [4, 5, 6]})
pd.merge(left, right, on="key")

Unnamed: 0,key,C1,C2
0,foo,1,4
1,bar,2,5


**Thử với dữ liệu InstaCart**

In [None]:
product_order = pd.DataFrame({"product": ["banana", "beer", "milk", "bread"], "ID": [1, 2, 5, 7]})
product_info = pd.DataFrame({"ID": [1,2,3,4,5,6,7], 
                      "Aisle": ["fruits", "liquor", "coffee", "tea", "drink", "vegetables", "food"]})

In [None]:
product_order

Unnamed: 0,product,ID
0,banana,1
1,beer,2
2,milk,5
3,bread,7


In [None]:
product_info

Unnamed: 0,ID,Aisle
0,1,fruits
1,2,liquor
2,3,coffee
3,4,tea
4,5,drink
5,6,vegetables
6,7,food


In [None]:
pd.merge(product_order, product_info, on="ID")

Unnamed: 0,product,ID,Aisle
0,banana,1,fruits
1,beer,2,liquor
2,milk,5,drink
3,bread,7,food


# 2. Một số hàm thống kê thông dụng

## 2.1. Một số thống kê cơ bản

In [30]:
np.random.seed(1)
a = np.random.randint(20, 25, size=(20,4))
df1 = pd.DataFrame(data=a, index=range(1,21), columns=list('ABCD'), dtype='uint8')
df1.head()

Unnamed: 0,A,B,C,D
1,23,24,20,21
2,23,20,20,21
3,24,24,21,22
4,24,22,24,23
5,24,22,24,22


In [31]:
df1.describe()

Unnamed: 0,A,B,C,D
count,20.0,20.0,20.0,20.0
mean,22.1,22.4,21.25,21.5
std,1.518309,1.535544,1.332785,1.147079
min,20.0,20.0,20.0,20.0
25%,20.75,21.0,20.0,21.0
50%,22.5,23.0,21.0,21.0
75%,23.0,24.0,22.0,22.0
max,24.0,24.0,24.0,24.0


In [32]:
df1.min(axis=0)

A    20
B    20
C    20
D    20
dtype: uint8

In [33]:
df1.max(axis=0)

A    24
B    24
C    24
D    24
dtype: uint8

In [34]:
df1.mean(axis=0)

A    22.10
B    22.40
C    21.25
D    21.50
dtype: float64

In [35]:
df1.median(axis=0)

A    22.5
B    23.0
C    21.0
D    21.0
dtype: float64

In [36]:
df1.mode(axis='rows')
# df1.mode(axis=0)

Unnamed: 0,A,B,C,D
0,23.0,24.0,20,21.0
1,,,21,


**Lấy ra `n` dòng lớn nhất của một cột nào đó**

In [37]:
df1.nlargest(5, columns=['A'])

Unnamed: 0,A,B,C,D
3,24,24,21,22
4,24,22,24,23
5,24,22,24,22
6,24,21,21,20
1,23,24,20,21


In [38]:
df1.nlargest(5, columns=['A','C'])

Unnamed: 0,A,B,C,D
4,24,22,24,23
5,24,22,24,22
3,24,24,21,22
6,24,21,21,20
16,23,24,23,21


# 3. Sử dụng hàm value_counts

In [39]:
df1.value_counts(ascending=False)

A   B   C   D 
23  24  20  21    2
20  23  21  21    1
23  20  20  21    1
24  22  24  23    1
            22    1
    21  21  20    1
23  24  23  21    1
        22  24    1
    20  20  22    1
22  21  23  24    1
20  23  21  22    1
22  21  20  21    1
    20  20  21    1
21  23  20  20    1
    21  21  21    1
20  24  21  22    1
            20    1
    23  22  21    1
24  24  21  22    1
dtype: int64

In [40]:
df1

Unnamed: 0,A,B,C,D
1,23,24,20,21
2,23,20,20,21
3,24,24,21,22
4,24,22,24,23
5,24,22,24,22
6,24,21,21,20
7,21,21,21,21
8,20,24,21,20
9,20,23,22,21
10,20,23,21,21


In [None]:
# Sort theo số lượng đã đếm được
df1['A'].value_counts(ascending=True)

21    2
22    3
24    4
20    5
23    6
Name: A, dtype: int64

In [None]:
# Sort theo giá trị
df1['A'].value_counts().sort_index(ascending=True)

20    5
21    2
22    3
23    6
24    4
Name: A, dtype: int64

In [41]:
# Sort theo số lượng đã đếm được và giá trị
df1['A'].value_counts().sort_values(ascending=True)

21    2
22    3
24    4
20    5
23    6
Name: A, dtype: int64

In [42]:
# Đếm theo bins (dành cho dữ liệu số thực hoặc liên tục)
df1['A'].value_counts(bins=3).to_frame().reset_index()

Unnamed: 0,index,A
0,"(22.667, 24.0]",10
1,"(19.994999999999997, 21.333]",7
2,"(21.333, 22.667]",3


In [43]:
df1['A']

1     23
2     23
3     24
4     24
5     24
6     24
7     21
8     20
9     20
10    20
11    23
12    23
13    20
14    20
15    22
16    23
17    23
18    22
19    22
20    21
Name: A, dtype: uint8

In [47]:
# Phải tự gán lại tên cột!!!
count_A = df1['A'].value_counts().sort_index(ascending=True).reset_index()
count_A

Unnamed: 0,index,A
0,20,5
1,21,2
2,22,3
3,23,6
4,24,4


In [None]:
count_A.keys()

Index(['index', 'A'], dtype='object')

In [None]:
count_A.columns

Index(['index', 'A'], dtype='object')

In [None]:
count_A.columns = ['Unique_A', 'counts']
count_A

Unnamed: 0,Unique_A,counts
0,20,5
1,21,2
2,22,3
3,23,6
4,24,4


# 4. Groupby

In [None]:
df1.groupby(['A'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f5d8d17fdc0>

In [None]:
# Các groups được lưu thành dict, 
# - Mỗi key là 1 group
# - Mỗi value là 1 list các index của group đó
df1.groupby(['A']).groups

{20: [8, 9, 10, 13, 14], 21: [7, 20], 22: [15, 18, 19], 23: [1, 2, 11, 12, 16, 17], 24: [3, 4, 5, 6]}

In [None]:
df1.groupby(['A']).groups[21]

Int64Index([7, 20], dtype='int64')

**Lấy ra một group**

In [None]:
df1.groupby(['A'], sort=True, dropna=True).get_group(20)

Unnamed: 0,A,B,C,D
8,20,24,21,20
9,20,23,22,21
10,20,23,21,21
13,20,23,21,22
14,20,24,21,22


In [54]:
df1.loc[df1.groupby(['A']).groups[20]]

Unnamed: 0,A,B,C,D
8,20,24,21,20
9,20,23,22,21
10,20,23,21,21
13,20,23,21,22
14,20,24,21,22


In [55]:
df1

Unnamed: 0,A,B,C,D
1,23,24,20,21
2,23,20,20,21
3,24,24,21,22
4,24,22,24,23
5,24,22,24,22
6,24,21,21,20
7,21,21,21,21
8,20,24,21,20
9,20,23,22,21
10,20,23,21,21


**Kết hợp với các hàm khác: `sum`, `mean`,...**

In [61]:
df1.groupby(['A']).sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20,117,106,106
21,44,41,41
22,62,63,66
23,136,125,130
24,89,90,87


In [62]:
df1.groupby(['A']).mean()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20,23.4,21.2,21.2
21,22.0,20.5,20.5
22,20.666667,21.0,22.0
23,22.666667,20.833333,21.666667
24,22.25,22.5,21.75


In [64]:
df1.groupby(['A']).get_group(20)

Unnamed: 0,A,B,C,D
8,20,24,21,20
9,20,23,22,21
10,20,23,21,21
13,20,23,21,22
14,20,24,21,22


In [66]:
df1.groupby(['A']).count()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20,5,5,5
21,2,2,2
22,3,3,3
23,6,6,6
24,4,4,4


In [70]:
df1.groupby(['A'])['B'].value_counts()

A   B 
20  23    3
    24    2
21  21    1
    23    1
22  21    2
    20    1
23  24    4
    20    2
24  22    2
    21    1
    24    1
Name: B, dtype: int64

In [68]:
df1.groupby(['A', 'B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
20,23,64,64
20,24,42,42
21,21,21,21
21,23,20,20
22,20,20,21
22,21,43,45
23,20,40,43
23,24,85,87
24,21,21,20
24,22,48,45


## Ví dụ: sử dụng Groupby với danh sách sản phẩm của 2 chi nhánh

In [71]:
cn1 = pd.Series(['banana', 'beer', 'bread', 'milk', 'milk', 'beer'], name='product')
cn1

0    banana
1      beer
2     bread
3      milk
4      milk
5      beer
Name: product, dtype: object

In [72]:
cn2 = pd.Series(['banana', 'bread', 'bread', 'milk', 'milk', 'milk'], name='product')
cn2

0    banana
1     bread
2     bread
3      milk
4      milk
5      milk
Name: product, dtype: object

**Thông tin về sp của từng chi nhánh**

In [78]:
cn1_count = cn1.value_counts().reset_index()
cn1_count.columns = ['product', 'count']
cn1_count

Unnamed: 0,product,count
0,milk,2
1,beer,2
2,bread,1
3,banana,1


In [79]:
cn2_count = cn2.value_counts().reset_index()
cn2_count.columns = ['product', 'count']
cn2_count

Unnamed: 0,product,count
0,milk,3
1,bread,2
2,banana,1


**Tổng hợp lại**

In [80]:
tonghop = pd.concat([cn1_count, cn2_count])
tonghop

Unnamed: 0,product,count
0,milk,2
1,beer,2
2,bread,1
3,banana,1
0,milk,3
1,bread,2
2,banana,1


In [None]:
tonghop.groupby(['product']).sum().reset_index()

Unnamed: 0,product,count
0,banana,2
1,beer,2
2,bread,3
3,milk,5
