# Pandas (1)

(Thư viện pandas)

## Giới thiệu

**pandas** (https://pandas.pydata.org/) là thư viện được xây dựng dựa trên NumPy, hỗ trợ hiệu quả và linh hoạt các thao tác trên các **bảng dữ liệu** (data table) như các chương trình **bảng tính** (spreadsheet) hay **cơ sở dữ liệu** (database). pandas được xem là thư viện quan trọng nhất của hệ sinh thái khoa học dữ liệu Python.

Các bảng dữ liệu có thể **không đồng nhất** (heterogeneous) và có các **dữ liệu bị thiếu** (missing data). Hơn nữa, các dòng và cột trong bảng có thể được gắn nhãn ("đặt tên").

Tài liệu tham khảo: [pandas Getting started](https://pandas.pydata.org/docs/getting_started/index.html), [pandas User guide](https://pandas.pydata.org/docs/user_guide/index.html), [pandas Reference](https://pandas.pydata.org/docs/reference/index.html).

Nạp thư viện `pandas` với tên qui ước `pd`

In [76]:
import pandas as pd
import numpy as np

pd.__version__

'2.1.0'

## Các đối tượng cơ bản của pandas

pandas có 3 cấu trúc dữ liệu cơ bản là `Series`, `DataFrame` và `Index`.

### Series

`Series` là mảng một chiều các giá trị được chỉ mục. Có thể xem `Series` là các cột dữ liệu.

In [77]:
sr = pd.Series([10, 20, 30, 40, 50])
sr

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [78]:
type(sr)

pandas.core.series.Series

Thuộc tính `values` trả về mảng các giá trị (là đối tượng 1D-array của NumPy)

In [79]:
sr.values

array([10, 20, 30, 40, 50])

In [80]:
print(type(sr.values), sr.values.ndim, sr.values.shape)

<class 'numpy.ndarray'> 1 (5,)


Thuộc tính `index` trả về mảng các chỉ mục (là đối tượng `Index` của pandas)

In [81]:
sr.index

RangeIndex(start=0, stop=5, step=1)

In [82]:
type(sr.index)

pandas.core.indexes.range.RangeIndex

Mặc định (khi không cung cấp) thì chỉ mục là mảng số thứ tự (tính từ 0, như chỉ số của `list` hay `ndarray`).

Ta có thể truy cập các phần tử trong `Series` tương tự 1D-array của NumPy.

In [83]:
print(sr[0])           # index
print(sr[:3])          # slice
print(sr[[1, 3]])      # fancy index
print(sr[sr > 30])    # mask

10
0    10
1    20
2    30
dtype: int64
1    20
3    40
dtype: int64
3    40
4    50
dtype: int64


In [84]:
sr[:2] = 0
sr

0     0
1     0
2    30
3    40
4    50
dtype: int64

Quan trọng, ta có thể gắn chỉ mục (không nhất thiết là số nguyên) cho các phần tử của `Series` và truy cập thông qua chỉ mục.

In [85]:
sr = pd.Series([10, 20, 30, 40, 50], index=["a", "b", "c", "d", "e"])
sr

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [86]:
sr.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [87]:
print(sr["a"])
print(sr[0])

10
10


  print(sr[0])


In [88]:
print(sr[:"c"])
print(sr[:3])

a    10
b    20
c    30
dtype: int64
a    10
b    20
c    30
dtype: int64


In [89]:
print(sr[["b", "d"]])
print(sr[[1, 3]]) 

b    20
d    40
dtype: int64
b    20
d    40
dtype: int64


  print(sr[[1, 3]])


Ta cũng có thể xem `Series` như là một từ điển với key là chỉ mục (index) và value là giá trị.

In [90]:
sr = pd.Series({"a": 10, "b": 20, "c": 30, "d": 40, "e": 50})
sr

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [91]:
sr.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [92]:
list(sr.items())

[('a', 10), ('b', 20), ('c', 30), ('d', 40), ('e', 50)]

**Bài tập**

Cho `sr` là `Series` tạo bởi ô lệnh sau.
1. Cho biết mảng giá trị, mảng chỉ mục của `sr`.
2. Cho biết giá trị của các phần tử có chỉ mục lần lượt là  5, 8, 2.
3. Cho biết chỉ mục các phần tử có giá trị `'o'`.
4. Tạo một `Series` cho biết tần số các kí tự có trong `sr`.

In [93]:
data = list("Hello World")
sr = pd.Series(data, index=range(1, len(data) + 1))

In [94]:
print(sr)

1     H
2     e
3     l
4     l
5     o
6      
7     W
8     o
9     r
10    l
11    d
dtype: object


In [95]:
print ('Gia tri tai chi muc:\n{0}'.format(sr[[5,8,2]]))

Gia tri tai chi muc:
5    o
8    o
2    e
dtype: object


In [96]:
print ('Chỉ mục các phần tử có giá trị {0}:\n{1}'.format('o',sr[sr=='o'].index.values))

Chỉ mục các phần tử có giá trị o:
[5 8]


In [97]:
print('Tần số:\n{0}'.format(sr.value_counts()))

Tần số:
l    3
o    2
H    1
e    1
     1
W    1
r    1
d    1
Name: count, dtype: int64


### DataFrame

`DataFrame` là mảng 2 chiều các giá trị được chỉ mục theo cả dòng lẫn cột. Có thể xem `DataFrame` là bảng dữ liệu mà các cột là các `Series`. Hơn nữa các cột sẽ được gióng hàng với nhau theo chỉ mục.

In [98]:
col1 = pd.Series({"a": 1, "b": 2, "c": 3})
col2 = pd.Series({"b": 2.5, "c": 3.5, "a": 3.5})

df = pd.DataFrame({"A": col1, "B": col2})
df

Unnamed: 0,A,B
a,1,3.5
b,2,2.5
c,3,3.5


Các thuộc tính `index`, `columns` cho biết chỉ mục theo dòng, cột.

In [99]:
df.index

Index(['a', 'b', 'c'], dtype='object')

In [100]:
df.columns

Index(['A', 'B'], dtype='object')

Thuộc tính `values` cho biết các giá trị (là 2D-array của NumPy)

In [101]:
df.values

array([[1. , 3.5],
       [2. , 2.5],
       [3. , 3.5]])

In [102]:
print(type(df.values))
print(df.values.ndim)
print(df.values.shape)

<class 'numpy.ndarray'>
2
(3, 2)


Nếu không chỉ rõ `index` và/hoặc `columns` thì chúng là mảng các số thứ tự (tính từ 0).

In [103]:
df = pd.DataFrame(np.arange(12).reshape(3, 4))
df

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [104]:
df.index

RangeIndex(start=0, stop=3, step=1)

In [105]:
df.columns

RangeIndex(start=0, stop=4, step=1)

In [106]:
df.index = ['a', 'b', 'c']
df.columns = ['A', 'B', 'C', 'D']
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11


## Truy cập dữ liệu của `DataFrame`

Ta có thể xem `DataFrame` như từ điển trong đó key là chỉ mục cột và value là `Series` tương ứng.

In [107]:
df = pd.DataFrame(np.arange(12).reshape(3, 4), 
                    index=["dòng 1", "dòng 2", "dòng 3"], 
                    columns=[f"cột {i + 1}" for i in range(4)])
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4
dòng 1,0,1,2,3
dòng 2,4,5,6,7
dòng 3,8,9,10,11


In [108]:
df["cột 1"]

dòng 1    0
dòng 2    4
dòng 3    8
Name: cột 1, dtype: int64

In [109]:
df["cột 1"]["dòng 2"] = -10
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4
dòng 1,0,1,2,3
dòng 2,-10,5,6,7
dòng 3,8,9,10,11


In [110]:
df["cột mới"] = np.array(['a', 'b', 'c'])
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới
dòng 1,0,1,2,3,a
dòng 2,-10,5,6,7,b
dòng 3,8,9,10,11,c


In [111]:
df["cột 12"] = df["cột 1"] + df["cột 2"]
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới,cột 12
dòng 1,0,1,2,3,a,1
dòng 2,-10,5,6,7,b,-5
dòng 3,8,9,10,11,c,17


Ta cũng có thể xem `DataFrame` như mảng 2 chiều.

In [112]:
df.values

array([[0, 1, 2, 3, 'a', 1],
       [-10, 5, 6, 7, 'b', -5],
       [8, 9, 10, 11, 'c', 17]], dtype=object)

In [113]:
df.values[:, :2]

array([[0, 1],
       [-10, 5],
       [8, 9]], dtype=object)

Một cách trực tiếp, ta dùng thuộc tính `loc` của `DataFrame` để truy cập các phần tử (đọc/ghi) theo chỉ mục (`index`, `columns`).

In [114]:
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới,cột 12
dòng 1,0,1,2,3,a,1
dòng 2,-10,5,6,7,b,-5
dòng 3,8,9,10,11,c,17


In [115]:
df.loc["dòng 3", :]

cột 1       8
cột 2       9
cột 3      10
cột 4      11
cột mới     c
cột 12     17
Name: dòng 3, dtype: object

In [116]:
df.loc[:, ["cột 12", "cột 3"]]

Unnamed: 0,cột 12,cột 3
dòng 1,1,2
dòng 2,-5,6
dòng 3,17,10


In [117]:
df.loc[df["cột 1"] >= 0, :"cột 3"]

Unnamed: 0,cột 1,cột 2,cột 3
dòng 1,0,1,2
dòng 3,8,9,10


Ta cũng có thể dùng thuộc tính `iloc` của `DataFrame` để truy cập các phần tử (đọc/ghi) theo chỉ số dòng, cột (tương tự `ndarray`).

In [118]:
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới,cột 12
dòng 1,0,1,2,3,a,1
dòng 2,-10,5,6,7,b,-5
dòng 3,8,9,10,11,c,17


In [119]:
df.iloc[:2, :3] = 0
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4,cột mới,cột 12
dòng 1,0,0,0,3,a,1
dòng 2,0,0,0,7,b,-5
dòng 3,8,9,10,11,c,17


**Bài tập**

1. Tạo một `DataFrame` có chỉ mục các dòng, cột đều là các số nguyên từ 1 đến 9 với phần tử ở dòng $i$ cột $j$ có giá trị là $i \times j$ (như là bảng cửu chương).
2. Trích ra bảng cửu chương 2 (2x1, 2x2, ..., 2x9)
3. Trích ra góc phần tư cuối bảng (dòng 5 trở xuống, cột 5 trở qua)

In [120]:
numbers = list(range(1,10))
values =[[i * j for j in numbers] for i in numbers]
mul_table = pd.DataFrame(values, index= numbers, columns= numbers)
mul_table

Unnamed: 0,1,2,3,4,5,6,7,8,9
1,1,2,3,4,5,6,7,8,9
2,2,4,6,8,10,12,14,16,18
3,3,6,9,12,15,18,21,24,27
4,4,8,12,16,20,24,28,32,36
5,5,10,15,20,25,30,35,40,45
6,6,12,18,24,30,36,42,48,54
7,7,14,21,28,35,42,49,56,63
8,8,16,24,32,40,48,56,64,72
9,9,18,27,36,45,54,63,72,81


In [121]:
m = 2 # Giá trị cột cửu chương
tab = mul_table[m]
print(tab)

1     2
2     4
3     6
4     8
5    10
6    12
7    14
8    16
9    18
Name: 2, dtype: int64


## Các phép toán trên `DataFrame` và `Series`

Giống như NumPy, các phép toán được thực hiện trên từng phần tử rất hiệu quả trong pandas. Hơn nữa, pandas sẽ duy trì các chỉ mục.

In [122]:
sr = pd.Series([10, 20, 30, 40, 50], index=["a", "b", "c", "d", "e"])
sr

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [123]:
2**sr

a                1024
b             1048576
c          1073741824
d       1099511627776
e    1125899906842624
dtype: int64

In [124]:
df = pd.DataFrame(np.arange(12).reshape(3, 4), 
                    index=["dòng 1", "dòng 2", "dòng 3"], 
                    columns=[f"cột {i + 1}" for i in range(4)])
df

Unnamed: 0,cột 1,cột 2,cột 3,cột 4
dòng 1,0,1,2,3
dòng 2,4,5,6,7
dòng 3,8,9,10,11


In [125]:
np.power(2, df)

Unnamed: 0,cột 1,cột 2,cột 3,cột 4
dòng 1,1,2,4,8
dòng 2,16,32,64,128
dòng 3,256,512,1024,2048


Khi thực hiện phép toán trên nhiều `DataFrame` hay `Series`, padas sẽ thực hiện việc **canh chỉ mục** (index alignment).

In [126]:
sr2 = pd.Series({"c": 4, "d": 10, "f": 100})
print(sr)
print(sr2)

a    10
b    20
c    30
d    40
e    50
dtype: int64
c      4
d     10
f    100
dtype: int64


In [127]:
sr * sr2

a      NaN
b      NaN
c    120.0
d    400.0
e      NaN
f      NaN
dtype: float64

Giá trị `NaN` đánh dấu **thiếu dữ liệu**.

Ta cũng có thể chỉ rõ giá trị điền cho dữ liệu bị thiếu.

In [128]:
sr.mul(sr2, fill_value=0)

a      0.0
b      0.0
c    120.0
d    400.0
e      0.0
f      0.0
dtype: float64

Với `DataFrame`, việc canh chỉ mục được thực hiện cho cả chỉ mục dòng (`index`) lẫn cột (`columns`).

In [129]:
df1 = pd.DataFrame(np.random.randint(0, 100, (2, 2)), columns=list('AB'))
df1

Unnamed: 0,A,B
0,76,39
1,88,8


In [130]:
df2 = pd.DataFrame(np.random.randint(0, 100, (3, 3)), columns=list('BAC'))
df2

Unnamed: 0,B,A,C
0,62,99,52
1,14,83,96
2,97,22,14


In [131]:
df1 * df2

Unnamed: 0,A,B,C
0,7524.0,2418.0,
1,7304.0,112.0,
2,,,


Thao tác giữa `DataFrame` với `Series` được tiến hành tương tự như giữa 2D-array với 1D-array của NumPy.

In [132]:
df = pd.DataFrame(np.random.randint(0, 100, (3, 4)), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,14,53,95,44
1,70,34,6,38
2,34,82,13,56


In [133]:
print(df.iloc[0])
print(df - df.iloc[0]) # trừ dòng 0 vào tất cả các dòng

A    14
B    53
C    95
D    44
Name: 0, dtype: int64
    A   B   C   D
0   0   0   0   0
1  56 -19 -89  -6
2  20  29 -82  12


In [134]:
df.subtract(df["A"], axis=0) # trừ cột A vào tất cả các cột

Unnamed: 0,A,B,C,D
0,0,39,81,30
1,0,-36,-64,-32
2,0,48,-21,22


In [135]:
df.iloc[0, :2]

A    14
B    53
Name: 0, dtype: int64

In [136]:
df - df.iloc[0, :2]

Unnamed: 0,A,B,C,D
0,0.0,0.0,,
1,56.0,-19.0,,
2,20.0,29.0,,


Các phép toán thu gọn (reduce) hay tổng hợp (aggregate) được thực hiện tương tự như trên NumPy.

In [137]:
df

Unnamed: 0,A,B,C,D
0,14,53,95,44
1,70,34,6,38
2,34,82,13,56


In [138]:
df.A.max()  # max cột A

70

In [139]:
df.iloc[0].max() # max dòng 0

95

In [140]:
df.max() # max từng cột

A    70
B    82
C    95
D    56
dtype: int64

In [141]:
df.max(axis=1) # max từng dòng

0    95
1    70
2    82
dtype: int64

**Bài tập**

Từ bảng dữ liệu `df` trên, tính:
1. Tổng mỗi dòng
1. Tổng mỗi cột
1. Tổng các số lớn nhất trên mỗi cột
1. Cột chứa số lớn nhất trên mỗi dòng
1. Dòng chứa số lớn nhất trên mỗi cột

In [142]:
df

Unnamed: 0,A,B,C,D
0,14,53,95,44
1,70,34,6,38
2,34,82,13,56


In [143]:
df.sum(axis=1)

0    206
1    148
2    185
dtype: int64

In [144]:
#1
df.sum(axis=0)

A    118
B    169
C    114
D    138
dtype: int64

In [145]:
#2
df.max(axis=0)

A    70
B    82
C    95
D    56
dtype: int64

In [146]:
#3
df.max(axis=1)

0    95
1    70
2    82
dtype: int64

In [147]:
#4
df.idxmax(axis=1)

0    C
1    A
2    B
dtype: object

## Đọc bảng số liệu từ tập tin vào `DataFrame`

Dữ liệu `Iris Data Set`: https://archive.ics.uci.edu/ml/datasets/Iris.

Ta đọc dữ liệu trong file CSV vào `DataFrame` bằng hàm [`pd.read_csv`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv)

In [148]:
iris_names = ["sepal_length", "sepal_width", "petal_length", "petal_width", "class"]
iris = pd.read_csv('iris.data', names=iris_names)
iris 

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [149]:
iris.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [150]:
iris.tail(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [151]:
iris.iloc[-5:,:]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [152]:
iris.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'], dtype='object')

In [153]:
iris.index

RangeIndex(start=0, stop=150, step=1)

In [154]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [155]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [156]:
iris["class"].value_counts()

class
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

In [157]:
iris.loc[iris["sepal_length"] < 5, :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa
11,4.8,3.4,1.6,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
22,4.6,3.6,1.0,0.2,Iris-setosa


In [158]:
iris.loc[(iris.sepal_length < 5) & (iris.sepal_width < 3), :]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
8,4.4,2.9,1.4,0.2,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
57,4.9,2.4,3.3,1.0,Iris-versicolor
106,4.9,2.5,4.5,1.7,Iris-virginica


Ta cũng có thể trích riêng các cột (nhưng thường không cần thiết).

In [159]:
iris_classes = iris["class"]
iris_classes

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: class, Length: 150, dtype: object

Ta có thể đọc dữ liệu từ các định dạng khác với các hàm `pd.read_*` và ghi dữ liệu với các hàm `pd.to_*`. Chẳng hạn đọc, ghi dữ liệu từ tập tin Excel bằng hàm `pd.read_excel`, `pd.to_excel`.

In [160]:
# %pip install openpyxl

In [162]:
iris.to_excel("iris_data.xlsx", index=False)

In [163]:
pd.read_excel("iris_data.xlsx")

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


**Bài tập**

Trên bảng dữ liệu `iris`.
1. Trích bảng con các dòng mà sepal_width lớn hơn 3.5.
1. Trích bảng con các dòng mà sepal_width lớn hơn 3.5 hoặc petal_width lớn hơn 1.8.
1. Tính trung bình cột sepal_width.
1. Trích bảng con các dòng mà sepal_width lớn hơn trung bình của các sepal_width.
1. Tính min, max, range (max - min), mean từng cột.
1. Tìm dòng đạt min tại sepal_length.
1. Tìm dòng đạt max tại sepal_width.

In [None]:
#1 Trích bảng con các dòng mà sepal_width lớn hơn 3.5.
iris.loc[iris['sepal_width'] > 3.5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa
18,5.7,3.8,1.7,0.3,Iris-setosa
19,5.1,3.8,1.5,0.3,Iris-setosa
21,5.1,3.7,1.5,0.4,Iris-setosa
22,4.6,3.6,1.0,0.2,Iris-setosa


In [None]:
#2 Trích bảng con các dòng mà sepal_width lớn hơn 3.5 hoặc petal_width lớn hơn 1.8
iris.loc[(iris['sepal_width']> 3.5) | (iris['petal_width'] > 1.8) ]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa
18,5.7,3.8,1.7,0.3,Iris-setosa
19,5.1,3.8,1.5,0.3,Iris-setosa
21,5.1,3.7,1.5,0.4,Iris-setosa
22,4.6,3.6,1.0,0.2,Iris-setosa


In [None]:
#3 Tính trung bình cột sepal_width.
mean_sepal_width = iris['sepal_width'].mean()
mean_sepal_width

3.0540000000000003

In [None]:
#4 Trích bảng con các dòng mà sepal_width lớn hơn trung bình của các sepal_width.
iris.loc[iris['sepal_width']> mean_sepal_width ]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
...,...,...,...,...,...
140,6.7,3.1,5.6,2.4,Iris-virginica
141,6.9,3.1,5.1,2.3,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica


In [164]:
#5. Tính min, max, range (max - min), mean từng cột.
iris[['sepal_length','sepal_width','petal_length','petal_width']].aggregate(['min','max','mean'])

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
min,4.3,2.0,1.0,0.1
max,7.9,4.4,6.9,2.5
mean,5.843333,3.054,3.758667,1.198667


**Bài tập**

Trên bảng dữ liệu `iris`.
1. Đếm số lượng hoa Iris giống virginica có sepal width lớn hơn 3.
1. Cho biết min, max, mean của sepal width của các hoa Iris giống virginica.
1. Cho biết có cây hoa Iris giống virginica nào có petal length nhỏ hơn 4 hay không.

In [None]:
#1 Đếm số lượng hoa Iris giống virginica có sepal width lớn hơn 3.
((iris['class'] == 'Iris-virginica') & (iris['sepal_width'] > 3)).sum()

17

In [166]:
#2 Cho biết min, max, mean của sepal width của các hoa Iris giống virginica.
iris[['sepal_width']].loc[iris['class'] == 'Iris-virginica'].aggregate(['min','max','mean'])

Unnamed: 0,sepal_width
min,2.2
max,3.8
mean,2.974


In [167]:
#3 Cho biết có cây hoa Iris giống virginica nào có petal length nhỏ hơn 4 hay không.
result = iris['petal_length'].loc[iris['class'] == 'Iris-virginica'] < 4
#result
if not result.all():
    print ('Không có cây hoa nào giống virginica có petal_length < 4')

Không có cây hoa nào giống virginica có petal_length < 4


**Bài tập**

Trên bảng dữ liệu `iris`.
1. Thêm một cột mới `sepal_length_inch` là sepal length nhưng tính theo đơn vị inch.
1. Thêm một cột mới `all_cm` là tích của các cột cm.
1. Tạo bảng dữ liệu mới `iris_centered` với dữ liệu đã được canh giữa (centering).
1. Lưu bảng dữ liệu mới `iris_centered` vào tập tin Excel.

In [168]:
#1 Thêm một cột mới `sepal_length_inch` là sepal length nhưng tính theo đơn vị inch.

iris['sepal_length_inch'] = iris['sepal_length'] * 0.393701
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class,sepal_length_inch
0,5.1,3.5,1.4,0.2,Iris-setosa,2.007875
1,4.9,3.0,1.4,0.2,Iris-setosa,1.929135
2,4.7,3.2,1.3,0.2,Iris-setosa,1.850395
3,4.6,3.1,1.5,0.2,Iris-setosa,1.811025
4,5.0,3.6,1.4,0.2,Iris-setosa,1.968505
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,2.637797
146,6.3,2.5,5.0,1.9,Iris-virginica,2.480316
147,6.5,3.0,5.2,2.0,Iris-virginica,2.559057
148,6.2,3.4,5.4,2.3,Iris-virginica,2.440946


In [173]:
#2 Thêm một cột mới `all_cm` là tích của các cột cm.
iris['all_cm'] = iris['sepal_length']*iris['sepal_width']*iris['petal_length']*iris['petal_width']
iris


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class,sepal_length_inch,all_cm
0,5.1,3.5,1.4,0.2,Iris-setosa,2.007875,4.9980
1,4.9,3.0,1.4,0.2,Iris-setosa,1.929135,4.1160
2,4.7,3.2,1.3,0.2,Iris-setosa,1.850395,3.9104
3,4.6,3.1,1.5,0.2,Iris-setosa,1.811025,4.2780
4,5.0,3.6,1.4,0.2,Iris-setosa,1.968505,5.0400
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,2.637797,240.3960
146,6.3,2.5,5.0,1.9,Iris-virginica,2.480316,149.6250
147,6.5,3.0,5.2,2.0,Iris-virginica,2.559057,202.8000
148,6.2,3.4,5.4,2.3,Iris-virginica,2.440946,261.8136


In [220]:
#3 Tạo bảng dữ liệu mới `iris_centered` với dữ liệu đã được canh giữa (centering).
#pip3 install jinja2 
iris_centered = iris.style.set_properties(**{'text-align': 'center'})
iris_centered

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class,sepal_length_inch,all_cm
0,5.1,3.5,1.4,0.2,Iris-setosa,2.007875,4.998
1,4.9,3.0,1.4,0.2,Iris-setosa,1.929135,4.116
2,4.7,3.2,1.3,0.2,Iris-setosa,1.850395,3.9104
3,4.6,3.1,1.5,0.2,Iris-setosa,1.811025,4.278
4,5.0,3.6,1.4,0.2,Iris-setosa,1.968505,5.04
5,5.4,3.9,1.7,0.4,Iris-setosa,2.125985,14.3208
6,4.6,3.4,1.4,0.3,Iris-setosa,1.811025,6.5688
7,5.0,3.4,1.5,0.2,Iris-setosa,1.968505,5.1
8,4.4,2.9,1.4,0.2,Iris-setosa,1.732284,3.5728
9,4.9,3.1,1.5,0.1,Iris-setosa,1.929135,2.2785


In [221]:
#4 Lưu bảng dữ liệu mới `iris_centered` vào tập tin Excel.
iris_centered.to_excel("iris_centered.xlsx", index=False)
print('iris_centered.xlsx is written to Excel File successfully.')

iris_centered.xlsx is written to Excel File successfully.
