In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
np.set_printoptions(precision=3, suppress=True)

print(pd.__version__)

1.3.4


# 1. Series

## 1.1. Khởi tạo Series

In [2]:
# Khởi tạo một Series với các thông tin cơ bản: values, index, dtype, name
s1 = pd.Series([5, 1, 3, 7, 6, 8, 4], dtype=np.int16, index=range(10,17), name="Chuoi-S1")
print(s1)

10    5
11    1
12    3
13    7
14    6
15    8
16    4
Name: Chuoi-S1, dtype: int16


In [3]:
# Khởi tạo một Series gồm danh sách các học viên
ds_hv = ['Nam', 'Lan', 'Long', 'Mai', 'Việt', 'Peter', 'Alex']
s_hv = pd.Series(ds_hv)
s_hv

0      Nam
1      Lan
2     Long
3      Mai
4     Việt
5    Peter
6     Alex
dtype: object

In [4]:
# Series có thể chứa dữ liệu khuyết (giá trị NaN) và index tùy chọn
s2 = pd.Series(data=[5, 1, 3, 7, np.nan, 6, 8, 4], 
               #index=range(1,9),
               index=list("abcdefgh"),
               dtype='float16', 
               name='my-series', 
               copy=False
              )
s2

a    5.0
b    1.0
c    3.0
d    7.0
e    NaN
f    6.0
g    8.0
h    4.0
Name: my-series, dtype: float16

In [5]:
# Index có thể trùng lặp
ds_hv = ['Nam', 'Lan', 'Long', 'Mai', 'Việt', 'Peter', 'Alex']
s_hv = pd.Series(ds_hv, index=[1,2,2,3,4,5,6])
s_hv

1      Nam
2      Lan
2     Long
3      Mai
4     Việt
5    Peter
6     Alex
dtype: object

## 1.2. Thực hiện `reset_index()`

Reset lại index theo thứ tự từ 0,1,2... --> n
<br>
- `drop=True`: bỏ đi cột index cũ
- `inplace=True`: thực hiện thay đổi luôn trong Series hiện tại, không tạo copy

In [6]:
# Chỉ gọi hàm reset_index()
s1.reset_index()
print(s1)

10    5
11    1
12    3
13    7
14    6
15    8
16    4
Name: Chuoi-S1, dtype: int16


In [7]:
# Thực hiện lại và in ra kết quả
print(s1.reset_index())

   index  Chuoi-S1
0     10         5
1     11         1
2     12         3
3     13         7
4     14         6
5     15         8
6     16         4


In [8]:
# Sử dụng cả drop và inplace
s2.reset_index(drop=True, inplace=True)
s2

0    5.0
1    1.0
2    3.0
3    7.0
4    NaN
5    6.0
6    8.0
7    4.0
Name: my-series, dtype: float16

## 1.3. Truy cập vào một số thông tin của Series
- `index`
- `values`
- `name`

In [9]:
s1.index

RangeIndex(start=10, stop=17, step=1)

In [10]:
s1.values

array([5, 1, 3, 7, 6, 8, 4], dtype=int16)

In [11]:
s1.name

'Chuoi-S1'

## 1.4. Truy cập phần tử trong Series

In [12]:
s1

10    5
11    1
12    3
13    7
14    6
15    8
16    4
Name: Chuoi-S1, dtype: int16

In [13]:
# Truy cập phần tử dựa vào chỉ số
s1[10]

5

In [14]:
s1[15] = -20
print(s1)

10     5
11     1
12     3
13     7
14     6
15   -20
16     4
Name: Chuoi-S1, dtype: int16


In [15]:
# Sử dụng phương thức loc/at: chỉ số trên cột index
s1.loc[57] = 500
print(s1)

10      5
11      1
12      3
13      7
14      6
15    -20
16      4
57    500
Name: Chuoi-S1, dtype: int64


In [16]:
s1.at[57]

500

In [17]:
# Sử dụng phương thức iloc/iat: chỉ số theo quy tắc List/Numpy-Array
s1.iloc[5]

-20

In [18]:
s1.at[60] = 100

In [19]:
s1.iat[8]

100

# 2. DataFrame

## 2.1. Khởi tạo DataFrame

**Tạo DataFrame từ mảng Numpy**

In [20]:
a = np.random.randint(0, 10, size=(10,4))
a

array([[9, 0, 7, 8],
       [6, 4, 6, 6],
       [5, 0, 8, 7],
       [8, 2, 9, 7],
       [9, 0, 8, 9],
       [1, 5, 4, 4],
       [3, 6, 8, 7],
       [3, 0, 0, 7],
       [4, 4, 8, 3],
       [0, 0, 8, 2]])

In [21]:
# Tạo một DF với tên cột, index, dtype
df1 = pd.DataFrame(a, columns=['C1', 'C2', 'C3', 'C4'], index=range(1,11), dtype=np.int16)
df1

Unnamed: 0,C1,C2,C3,C4
1,9,0,7,8
2,6,4,6,6
3,5,0,8,7
4,8,2,9,7
5,9,0,8,9
6,1,5,4,4
7,3,6,8,7
8,3,0,0,7
9,4,4,8,3
10,0,0,8,2


**Lấy ra mảng Numpy**

In [22]:
# Lấy ra values
df1.values

array([[9, 0, 7, 8],
       [6, 4, 6, 6],
       [5, 0, 8, 7],
       [8, 2, 9, 7],
       [9, 0, 8, 9],
       [1, 5, 4, 4],
       [3, 6, 8, 7],
       [3, 0, 0, 7],
       [4, 4, 8, 3],
       [0, 0, 8, 2]], dtype=int16)

In [23]:
# Dùng hàm to_numpy()
df1.to_numpy()

array([[9, 0, 7, 8],
       [6, 4, 6, 6],
       [5, 0, 8, 7],
       [8, 2, 9, 7],
       [9, 0, 8, 9],
       [1, 5, 4, 4],
       [3, 6, 8, 7],
       [3, 0, 0, 7],
       [4, 4, 8, 3],
       [0, 0, 8, 2]], dtype=int16)

**Tạo DataFrame từ `dict`**

In [24]:
# Lấy ra 2 cột trong mảng a và thực hiện mapping vào tên cột
pd.DataFrame({'C1': a[:,0], 'C2': a[:,2]})

Unnamed: 0,C1,C2
0,9,7
1,6,6
2,5,8
3,8,9
4,9,8
5,1,4
6,3,8
7,3,0
8,4,8
9,0,8


**Tạo copy và thay đổi tên cột**

In [25]:
# Tạo một bản copy của df1
df2 = df1.copy()
df2

Unnamed: 0,C1,C2,C3,C4
1,9,0,7,8
2,6,4,6,6
3,5,0,8,7
4,8,2,9,7
5,9,0,8,9
6,1,5,4,4
7,3,6,8,7
8,3,0,0,7
9,4,4,8,3
10,0,0,8,2


In [26]:
# Đổi tên cột trong df2
df2.columns = ["A", "B", "C", "D"]
df2

Unnamed: 0,A,B,C,D
1,9,0,7,8
2,6,4,6,6
3,5,0,8,7
4,8,2,9,7
5,9,0,8,9
6,1,5,4,4
7,3,6,8,7
8,3,0,0,7
9,4,4,8,3
10,0,0,8,2


## 2.2. Truy cập vào phần tử trong DataFrame

### 2.2.1. Truy cập vào CỘT - DÒNG với dấu ngoặc vuông [ ]

**Lấy ra cột**<br>
(Chỉ số theo tên cột)

In [27]:
# Lấy ra một cột
df2["A"]

1     9
2     6
3     5
4     8
5     9
6     1
7     3
8     3
9     4
10    0
Name: A, dtype: int16

In [28]:
c = df2['B']
print(c)

1     0
2     4
3     0
4     2
5     0
6     5
7     6
8     0
9     4
10    0
Name: B, dtype: int16


In [29]:
# Kiểm tra xem cột lấy ra là loại gì?
type(c)

pandas.core.series.Series

**Lấy ra một số cột**

In [30]:
# Sử dụng danh sách các cột trong dấu [ ]
df2[['B','D','A']]

Unnamed: 0,B,D,A
1,0,8,9
2,4,6,6
3,0,7,5
4,2,7,8
5,0,9,9
6,5,4,1
7,6,7,3
8,0,7,3
9,4,3,4
10,0,2,0


**Lấy ra dòng với dấu ngoặc vuông [ ]**<br>
(Lưu ý: Phải dùng slicing. Chỉ số theo quy tắc numpy)

In [None]:
# Không lấy ra được dòng theo cách truy cập như Series
# df2[5] #==> Lỗi

In [31]:
# Lấy ra một dòng: dùng quy tắc slicing
df2[0:1]

Unnamed: 0,A,B,C,D
1,9,0,7,8


In [32]:
# Để lấy một hay vài dòng
df2[5:]

Unnamed: 0,A,B,C,D
6,1,5,4,4
7,3,6,8,7
8,3,0,0,7
9,4,4,8,3
10,0,0,8,2


In [None]:
# Lưu ý: Không lấy được các dòng trong danh sách (như với cột)
# df2[[0,2]] #==> Lỗi

**Để lấy một phần tử cụ thể: cột - dòng**

In [33]:
# Lưu ý: Cột trước, Dòng sau
df2['A'][1] = 10
print(df2)

     A  B  C  D
1   10  0  7  8
2    6  4  6  6
3    5  0  8  7
4    8  2  9  7
5    9  0  8  9
6    1  5  4  4
7    3  6  8  7
8    3  0  0  7
9    4  4  8  3
10   0  0  8  2


**Kết hợp slicing và danh sách cột** <br>
Lưu ý: khi slicing, chỉ số tuân theo quy tắc List/Numpy-Array

In [34]:
# Dùng slicing: Dòng trước, Cột sau
df2[1:5][['A','C']]

Unnamed: 0,A,C
2,6,6
3,5,8
4,8,9
5,9,8


In [35]:
# Dùng slicing: Cột trước, Dòng sau
df2[['A','C']][1:5]

Unnamed: 0,A,C
2,6,6
3,5,8
4,8,9
5,9,8


### 2.2.2. Truy cập vào các DÒNG với các hàm `loc, iloc` và `at, iat`

**Sử dụng các hàm `loc`, `iloc`**
- loc: dựa vào tên của chỉ số
- iloc: dựa vào vị trí của chỉ số (theo quy tắc List/Numpy-Array)

In [36]:
# Tạo ra df3 và thay đổi index - columns
df3 = df2.copy()
df3.index = list("abcdefghij")
df3.columns = ["C1", "C2",  "C3", "C4"]
df3

Unnamed: 0,C1,C2,C3,C4
a,10,0,7,8
b,6,4,6,6
c,5,0,8,7
d,8,2,9,7
e,9,0,8,9
f,1,5,4,4
g,3,6,8,7
h,3,0,0,7
i,4,4,8,3
j,0,0,8,2


In [37]:
# Dùng loc lấy ra 1 dòng
df3.loc['b']

C1    6
C2    4
C3    6
C4    6
Name: b, dtype: int16

In [38]:
# Dùng iloc lấy ra 1 dòng
df3.iloc[1]

C1    6
C2    4
C3    6
C4    6
Name: b, dtype: int16

In [39]:
# Dùng loc lấy ra các dòng
df3.loc['b':'f'][['C1', 'C3']]

Unnamed: 0,C1,C3
b,6,6
c,5,8
d,8,9
e,9,8
f,1,4


In [40]:
# Có thể dùng slicing tương tự như loc ở trên
df3['b':'f']

Unnamed: 0,C1,C2,C3,C4
b,6,4,6,6
c,5,0,8,7
d,8,2,9,7
e,9,0,8,9
f,1,5,4,4


In [41]:
# Dùng iloc lấy ra các dòng
df3.iloc[1:6][['C1','C3']]

Unnamed: 0,C1,C3
b,6,6
c,5,8
d,8,9
e,9,8
f,1,4


In [42]:
# Có thể dùng slicing tương tự như iloc ở trên
df3[1:6]

Unnamed: 0,C1,C2,C3,C4
b,6,4,6,6
c,5,0,8,7
d,8,2,9,7
e,9,0,8,9
f,1,5,4,4


**Sử dụng các hàm `at`, `iat`** <br>
(Lưu ý: chỉ lấy ra các giá trị đơn lẻ)

In [43]:
# Dùng iat, at (single value)
df2.at[1,'A']

10

In [44]:
df2.iat[0,0]

10

**Dùng iloc truy cập nhiều dòng, nhiều cột theo index như array của Numpy**

In [45]:
# Lấy từ dòng 3 trở đi, cột 2 trở đi
df2.iloc[3:,2:]

Unnamed: 0,C,D
4,9,7
5,8,9
6,4,4
7,8,7
8,0,7
9,8,3
10,8,2


### 2.2.3. Lọc ra các DÒNG theo giá trị của CỘT

In [46]:
# Lọc ra các dòng mà giá trị trong cột 'A' đều lớn hơn 5
df2[df2['A'] > 5]

Unnamed: 0,A,B,C,D
1,10,0,7,8
2,6,4,6,6
4,8,2,9,7
5,9,0,8,9


In [47]:
# Dùng loc
df2.loc[df2['A'] > 5]

Unnamed: 0,A,B,C,D
1,10,0,7,8
2,6,4,6,6
4,8,2,9,7
5,9,0,8,9


**Kết hợp điều kiện**
- and: &
- or: |

In [48]:
# Các dòng giá trị cột A lớn hơn 2 VÀ cột C lớn hơn 5 
df2.loc[(df2['A'] > 2) & (df2['C'] > 5)]

Unnamed: 0,A,B,C,D
1,10,0,7,8
2,6,4,6,6
3,5,0,8,7
4,8,2,9,7
5,9,0,8,9
7,3,6,8,7
9,4,4,8,3


In [49]:
# Các dòng giá trị cột A lớn hơn 2 HOẶC cột C lớn hơn 5 
df2.loc[(df2['A'] > 2) | (df2['C'] > 5)]

Unnamed: 0,A,B,C,D
1,10,0,7,8
2,6,4,6,6
3,5,0,8,7
4,8,2,9,7
5,9,0,8,9
7,3,6,8,7
8,3,0,0,7
9,4,4,8,3
10,0,0,8,2


### 2.2.4. Sắp xếp theo một số cột

In [50]:
# Sắp xếp tăng: ascending = True
df2.sort_values(['D', 'B'], ascending=True)

Unnamed: 0,A,B,C,D
10,0,0,8,2
9,4,4,8,3
6,1,5,4,4
2,6,4,6,6
3,5,0,8,7
8,3,0,0,7
4,8,2,9,7
7,3,6,8,7
1,10,0,7,8
5,9,0,8,9


In [51]:
# Sắp xếp giảm: ascending = False
df2.sort_values(['D', 'B'], ascending=False)

Unnamed: 0,A,B,C,D
5,9,0,8,9
1,10,0,7,8
7,3,6,8,7
4,8,2,9,7
3,5,0,8,7
8,3,0,0,7
2,6,4,6,6
6,1,5,4,4
9,4,4,8,3
10,0,0,8,2


### 2.2.5. Lặp qua các dòng, cột với `iterrows, items, itertuples`

In [52]:
# Lặp qua các phần tử chính của DF: chỉ là tên các cột
for item in df2:
    print(item)

A
B
C
D


In [53]:
[i for i in df2]

['A', 'B', 'C', 'D']

In [54]:
# Lặp qua các cột trong DataFrame: Mỗi cột là 1 Series
for col_label, col in df2.items():
    print(col_label)
    #print(col)
print(type(col))

A
B
C
D
<class 'pandas.core.series.Series'>


In [55]:
# Lặp qua các dòng trong DataFrame: Mỗi dòng là một Series
for idx,row in df2.iterrows():
    print(row.index, row)
print(type(row))

Index(['A', 'B', 'C', 'D'], dtype='object') A    10
B     0
C     7
D     8
Name: 1, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    6
B    4
C    6
D    6
Name: 2, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    5
B    0
C    8
D    7
Name: 3, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    8
B    2
C    9
D    7
Name: 4, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    9
B    0
C    8
D    9
Name: 5, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    1
B    5
C    4
D    4
Name: 6, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    3
B    6
C    8
D    7
Name: 7, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    3
B    0
C    0
D    7
Name: 8, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    4
B    4
C    8
D    3
Name: 9, dtype: int16
Index(['A', 'B', 'C', 'D'], dtype='object') A    0
B    0
C    8
D    2
Name: 10, dtype: int16
<class 'pandas.core.series.Series'>


In [56]:
# Lặp theo từng dòng: Mỗi dòng là một tuple
for t in df2.itertuples():
    print(t)

Pandas(Index=1, A=10, B=0, C=7, D=8)
Pandas(Index=2, A=6, B=4, C=6, D=6)
Pandas(Index=3, A=5, B=0, C=8, D=7)
Pandas(Index=4, A=8, B=2, C=9, D=7)
Pandas(Index=5, A=9, B=0, C=8, D=9)
Pandas(Index=6, A=1, B=5, C=4, D=4)
Pandas(Index=7, A=3, B=6, C=8, D=7)
Pandas(Index=8, A=3, B=0, C=0, D=7)
Pandas(Index=9, A=4, B=4, C=8, D=3)
Pandas(Index=10, A=0, B=0, C=8, D=2)


## 2.3. Lấy thông tin cơ bản của DataFrame

### 2.3.1. Các thông tin mô tả một DF

In [57]:
# Thông tin cột
print(df1.columns)
print(df1.columns.values)

Index(['C1', 'C2', 'C3', 'C4'], dtype='object')
['C1' 'C2' 'C3' 'C4']


In [58]:
# Thông tin index (dòng)
print(df1.index)
print(df1.index.values)

RangeIndex(start=1, stop=11, step=1)
[ 1  2  3  4  5  6  7  8  9 10]


In [59]:
# Thông tin về kích thước
print(df1.shape)
print(df1.ndim)
print(df1.size)

(10, 4)
2
40


### 2.3.2. Các thông tin mô tả dữ liệu trong DF

In [60]:
df1.head(3)

Unnamed: 0,C1,C2,C3,C4
1,9,0,7,8
2,6,4,6,6
3,5,0,8,7


In [61]:
df1.tail()

Unnamed: 0,C1,C2,C3,C4
6,1,5,4,4
7,3,6,8,7
8,3,0,0,7
9,4,4,8,3
10,0,0,8,2


In [62]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 1 to 10
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   C1      10 non-null     int16
 1   C2      10 non-null     int16
 2   C3      10 non-null     int16
 3   C4      10 non-null     int16
dtypes: int16(4)
memory usage: 212.0 bytes


In [63]:
df1.describe()

Unnamed: 0,C1,C2,C3,C4
count,10.0,10.0,10.0,10.0
mean,4.8,2.1,6.6,6.0
std,3.190263,2.424413,2.716207,2.260777
min,0.0,0.0,0.0,2.0
25%,3.0,0.0,6.25,4.5
50%,4.5,1.0,8.0,7.0
75%,7.5,4.0,8.0,7.0
max,9.0,6.0,9.0,9.0


In [64]:
df1.memory_usage(index=False, deep=True)

C1    20
C2    20
C3    20
C4    20
dtype: int64

## 2.4. Một số phép toán trên DataFrame

In [65]:
# Phép gán
df2[df2 < 5] = 5
df2

Unnamed: 0,A,B,C,D
1,10,5,7,8
2,6,5,6,6
3,5,5,8,7
4,8,5,9,7
5,9,5,8,9
6,5,5,5,5
7,5,6,8,7
8,5,5,5,7
9,5,5,8,5
10,5,5,8,5


In [66]:
df1

Unnamed: 0,C1,C2,C3,C4
1,9,0,7,8
2,6,4,6,6
3,5,0,8,7
4,8,2,9,7
5,9,0,8,9
6,1,5,4,4
7,3,6,8,7
8,3,0,0,7
9,4,4,8,3
10,0,0,8,2


In [68]:
# Phép chia element-wise 
df1.reset_index() / df2.reset_index()

Unnamed: 0,A,B,C,C1,C2,C3,C4,D,index
0,,,,,,,,,1.0
1,,,,,,,,,1.0
2,,,,,,,,,1.0
3,,,,,,,,,1.0
4,,,,,,,,,1.0
5,,,,,,,,,1.0
6,,,,,,,,,1.0
7,,,,,,,,,1.0
8,,,,,,,,,1.0
9,,,,,,,,,1.0


In [69]:
# Phép cộng với 1 giá trị
df1 + 1

Unnamed: 0,C1,C2,C3,C4
1,10,1,8,9
2,7,5,7,7
3,6,1,9,8
4,9,3,10,8
5,10,1,9,10
6,2,6,5,5
7,4,7,9,8
8,4,1,1,8
9,5,5,9,4
10,1,1,9,3


In [70]:
# Phép cộng với Broadcasting
df1 + np.array([1,2,3,4])

Unnamed: 0,C1,C2,C3,C4
1,10,2,10,12
2,7,6,9,10
3,6,2,11,11
4,9,4,12,11
5,10,2,11,13
6,2,7,7,8
7,4,8,11,11
8,4,2,3,11
9,5,6,11,7
10,1,2,11,6


## 2.5. Thêm/Xóa/Thay thế

**Xóa cột**

In [71]:
df3.pop('C3')

a    7
b    6
c    8
d    9
e    8
f    4
g    8
h    0
i    8
j    8
Name: C3, dtype: int16

In [72]:
df3

Unnamed: 0,C1,C2,C4
a,10,0,8
b,6,4,6
c,5,0,7
d,8,2,7
e,9,0,9
f,1,5,4
g,3,6,7
h,3,0,7
i,4,4,3
j,0,0,2


**Thêm cột**

In [73]:
df1['E'] = np.arange(10)

In [74]:
df1

Unnamed: 0,C1,C2,C3,C4,E
1,9,0,7,8,0
2,6,4,6,6,1
3,5,0,8,7,2
4,8,2,9,7,3
5,9,0,8,9,4
6,1,5,4,4,5
7,3,6,8,7,6
8,3,0,0,7,7
9,4,4,8,3,8
10,0,0,8,2,9


In [75]:
df1.insert(loc=2, column='F', value=np.arange(10)[::-1])
df1

Unnamed: 0,C1,C2,F,C3,C4,E
1,9,0,9,7,8,0
2,6,4,8,6,6,1
3,5,0,7,8,7,2
4,8,2,6,9,7,3
5,9,0,5,8,9,4
6,1,5,4,4,4,5
7,3,6,3,8,7,6
8,3,0,2,0,7,7
9,4,4,1,8,3,8
10,0,0,0,8,2,9


**Thay thế(Sửa)**

In [76]:
df1.replace([0,9],[10,19])

Unnamed: 0,C1,C2,F,C3,C4,E
1,19,10,19,7,8,10
2,6,4,8,6,6,1
3,5,10,7,8,7,2
4,8,2,6,19,7,3
5,19,10,5,8,19,4
6,1,5,4,4,4,5
7,3,6,3,8,7,6
8,3,10,2,10,7,7
9,4,4,1,8,3,8
10,10,10,10,8,2,19


**Sử dụng where và mask**

In [77]:
# Thay thế nếu điều kiện KHÔNG THỎA
df1.where(df1 > 5, 5, inplace=False)

Unnamed: 0,C1,C2,F,C3,C4,E
1,9,5,9,7,8,5
2,6,5,8,6,6,5
3,5,5,7,8,7,5
4,8,5,6,9,7,5
5,9,5,5,8,9,5
6,5,5,5,5,5,5
7,5,6,5,8,7,6
8,5,5,5,5,7,7
9,5,5,5,8,5,8
10,5,5,5,8,5,9


In [78]:
# Thay thế nếu điều kiện THỎA
df1.mask(df1 > 5, 5, inplace=False)

Unnamed: 0,C1,C2,F,C3,C4,E
1,5,0,5,5,5,0
2,5,4,5,5,5,1
3,5,0,5,5,5,2
4,5,2,5,5,5,3
5,5,0,5,5,5,4
6,1,5,4,4,4,5
7,3,5,3,5,5,5
8,3,0,2,0,5,5
9,4,4,1,5,3,5
10,0,0,0,5,2,5


**Thiết lập cột làm index**

In [79]:
df4 = df1.copy()
df4

Unnamed: 0,C1,C2,F,C3,C4,E
1,9,0,9,7,8,0
2,6,4,8,6,6,1
3,5,0,7,8,7,2
4,8,2,6,9,7,3
5,9,0,5,8,9,4
6,1,5,4,4,4,5
7,3,6,3,8,7,6
8,3,0,2,0,7,7
9,4,4,1,8,3,8
10,0,0,0,8,2,9


In [80]:
df4.set_index('F', inplace=True)

In [81]:
df4

Unnamed: 0_level_0,C1,C2,C3,C4,E
F,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
9,9,0,7,8,0
8,6,4,6,6,1
7,5,0,8,7,2
6,8,2,9,7,3
5,9,0,8,9,4
4,1,5,4,4,5
3,3,6,8,7,6
2,3,0,0,7,7
1,4,4,8,3,8
0,0,0,8,2,9


# 2.6. Sự Tương Quan

In [82]:
df4.corr()

Unnamed: 0,C1,C2,C3,C4,E
C1,1.0,-0.313171,0.335946,0.770271,-0.736216
C2,-0.313171,1.0,0.057368,-0.283806,0.128666
C3,0.335946,0.057368,1.0,-0.018094,-0.162133
C4,0.770271,-0.283806,-0.018094,1.0,-0.649313
E,-0.736216,0.128666,-0.162133,-0.649313,1.0
