# Làm việc với Series

Trước khi sử dụng chúng ta cần phải tải thư viện `Pandas` và `Numpy`

In [45]:
import pandas as pd
import numpy as np

In [46]:
#Ví dụ 1: Không truyền index
s = pd.Series([0,1,2,3])
print(s)

0    0
1    1
2    2
3    3
dtype: int64


In [47]:
#Ví dụ 2: Có truyền index
s = pd.Series([0,1,2,3], index=['a','b','c','d'])
print(s)

a    0
b    1
c    2
d    3
dtype: int64


In [48]:
#Ví dụ 3: Tạo Series từ dict
data = {'a' : -1.3, 'b' : 11.7, 'd' : 2.0, 'f': 10, 'g': 5}
ser = pd.Series(data,index=['a','c','b','d','e','f'])
print(ser)

a    -1.3
c     NaN
b    11.7
d     2.0
e     NaN
f    10.0
dtype: float64


In [49]:
#Ví dụ 4: Tạo Series từ Scalar Nếu dữ liệu là một giá trị scalar, index phải được cung cấp. Giá trị sẽ được lặp lại để phù hợp với độ dài của index.
ser = pd.Series(5, index=[1, 2, 3, 4, 5])
print(ser)

1    5
2    5
3    5
4    5
5    5
dtype: int64


In [50]:
#Tạo dữ liệu Series 5:
S = pd.Series(np.random.randint(100, size = 4))
print(S)
print(S.index)
print(S.values)


0    22
1    81
2    70
3     2
dtype: int32
RangeIndex(start=0, stop=4, step=1)
[22 81 70  2]


In [51]:
#Tạo dữ liệu Series 6:
chi_so = ["Ke toan", "KT", "CNTT", "Co khi"]
gia_tri = [310, 360, 580, 340]
S = pd.Series(gia_tri, index=chi_so)
print(S)
print(S.index)
print(S.values)



Ke toan    310
KT         360
CNTT       580
Co khi     340
dtype: int64
Index(['Ke toan', 'KT', 'CNTT', 'Co khi'], dtype='object')
[310 360 580 340]


In [52]:
#Tạo dữ liệu Series 7:
chi_so = ["KT", "KT", "CNTT", "Co khi"] # trùng KT với nhau
gia_tri = [310, 360, 580, 340]
S = pd.Series(gia_tri, index=chi_so)
print(S)
print(S.index)
print(S.values)


KT        310
KT        360
CNTT      580
Co khi    340
dtype: int64
Index(['KT', 'KT', 'CNTT', 'Co khi'], dtype='object')
[310 360 580 340]


In [53]:
#Ví dụ 1: Lấy dữ liệu tại index cụ thể.
data = {'a' : -1.3, 'b' : 11.7, 'd' : 2.0, 'f': 10, 'g': 5}
ser = pd.Series(data,index=['a','c','b','d','e','f'])
print(ser['d'])
print(ser['c'])
print(ser)


2.0
nan
a    -1.3
c     NaN
b    11.7
d     2.0
e     NaN
f    10.0
dtype: float64


In [54]:
#Ví dụ 2: Lấy dữ liệu từ đầu đến vị trí index cụ thể
data = {'a' : -1.3, 'b' : 11.7, 'd' : 2.0, 'f': 10, 'g': 5}
ser = pd.Series(data,index=['a','c','b','d','e','f'])
print(ser[:'d'])


a    -1.3
c     NaN
b    11.7
d     2.0
dtype: float64


In [55]:
#Ví dụ 3: Lấy dữ liệu theo vị trí: 2 dữ liệu đầu
data = {'a' : -1.3, 'b' : 11.7, 'd' : 2.0, 'f': 10, 'g': 5}
ser = pd.Series(data,index=['a','c','b','d','e','f'])
print(ser[:2])

a   -1.3
c    NaN
dtype: float64


In [56]:
#Ví dụ 4: Lấy 3 dữ liệu cuối
data = {'a' : -1.3, 'b' : 11.7, 'd' : 2.0, 'f': 10, 'g': 5}
ser = pd.Series(data,index=['a','c','b','d','e','f'])
print(ser[-3:])

d     2.0
e     NaN
f    10.0
dtype: float64


In [57]:
#Chuyển đổi sang dạng khác
#Ví dụ 5: Lấy dạng array của Series bằng numpy.asarray
data = {'a' : -1.3, 'b' : 11.7, 'd' : 2.0, 'f': 10, 'g': 5}
ser = pd.Series(data,index=['a','c','b','d','e','f'])
a = np.asarray(ser)
print(a)

[-1.3  nan 11.7  2.   nan 10. ]


In [58]:
#Truy xuất dữ liệu thông qua chỉ số:
chi_so = ["KT", "KT", "CNTT", "Co khi"] # trùng nhau
gia_tri = [310, 360, 580, 340]
S = pd.Series(gia_tri, index=chi_so)
print(S['Co khi'])
print(S['KT'])
print(S.CNTT)

340
KT    310
KT    360
dtype: int64
580


In [59]:
#Phép toán trên Series:
chi_so = ["Ke toan", "KT", "CNTT", "Co khi"]
gia_tri = [310, 360, 580, 340]
# chỉ số giống nhau thì tính gộp, nếu không thì NaN
S = pd.Series(gia_tri, index=chi_so)
P = pd.Series([100, 100], ['CNTT', 'PM'])
Y = S + P
print(Y)

CNTT       680.0
Co khi       NaN
KT           NaN
Ke toan      NaN
PM           NaN
dtype: float64


### Một số phương thức hữu ích:

In [None]:
'''
 S.axes: trả về danh sách các chỉ mục của S
 S.dtype: trả về kiểu dữ liệu các phần tử của S
 S.empty: trả về True nếu S rỗng
 S.ndim: trả về số chiều của S (1)
 S.size: trả về số phần tử của S
 S.values: trả về list các phần tử của S
 S.head(n): trả về n phần tử đầu tiên của S
 S.tail(n): trả về n phần tử cuối cùng của S
'''

In [43]:
#Hàm Apply():
def Tang(x):
    return x if x > 500 else x + 1000
chi_so = ["Ke toan", "KT", "CNTT", "Co khi"]
gia_tri = [310, 360, 580, 340]
S = pd.Series(gia_tri, chi_so)
# áp dụng Tang trên S (không thay đổi S)
print(S.apply(Tang))


Ke toan    1310
KT         1360
CNTT        580
Co khi     1340
dtype: int64


# Làm việc với Dataframe

In [63]:
#Tạo DataFrame từ dict các Series 2:
# tạo dict từ các series
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
# tạo DataFrame từ dict theo các index được chọn
df = pd.DataFrame(s, index=['a','c','d'])
print(df)

   một  hai
a  1.0  1.0
c  3.0  3.0
d  NaN  4.0


In [64]:
#Tạo dataframe tử list:
names = ['MIT',"Stanford","DHTL"]
df = pd.DataFrame(names)
print(df)
names_rank=[['MIT',1],["Stanford",2],["DHTL",200]]
df = pd.DataFrame(names_rank)
print(df)


          0
0       MIT
1  Stanford
2      DHTL
          0    1
0       MIT    1
1  Stanford    2
2      DHTL  200


In [65]:
#Tạo dataframe tử dictionary các list:
crimes_rates = {
"Year":[1960,1961,1962,1963,1964],
"Population":[179323175,182992000,185771000,188483000,191141000],
"Total":[3384200,3488000,3752200,4109500,4564600],
"Violent":[288460,289390,301510,316970,364220] }
crimes_dataframe = pd.DataFrame(crimes_rates)
print(crimes_dataframe)

   Year  Population    Total  Violent
0  1960   179323175  3384200   288460
1  1961   182992000  3488000   289390
2  1962   185771000  3752200   301510
3  1963   188483000  4109500   316970
4  1964   191141000  4564600   364220


In [66]:
#Tạo dataframe tử list các dictionary:
data = [ {'MIT': 5000, 'Stanford': 4500, "DHTL":15000},
{'MIT': 1, 'Stanford': 2, "DHTL":200} ]
df = pd.DataFrame(data, index=['NumOfStudents', "ranking"])
print(df)
print(df.DHTL.dtype)

                MIT  Stanford   DHTL
NumOfStudents  5000      4500  15000
ranking           1         2    200
int64


In [67]:
#Tạo dataframe tử dictionary series:
data = { "one": pd.Series([1,23,45], index = [1,2,3]),
"two": pd.Series([1000,2400,1132,3434], index = [1,2,3,4]) }
df = pd.DataFrame(data)
print(df)

    one   two
1   1.0  1000
2  23.0  2400
3  45.0  1132
4   NaN  3434


In [68]:
#Các thao tác chọn, thêm, xóa cột
#Ví dụ 3: Chọn cột (column selection)
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
'ba': pd.Series([9., -1.3, 3.5, 41.1], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(s)
# chọn cột hai
df_hai = df['hai']
print(df_hai)

a    1.0
b    2.0
c    3.0
d    4.0
e    NaN
Name: hai, dtype: float64


In [72]:
#Các thao tác chọn, thêm, xóa cột
#Ví dụ 4: Một số cách thêm cột (column addition)
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
'ba': pd.Series([9., -1.3, 3.5, 41.1], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(s)
# thêm cột bốn với giá trị mỗi ô theo công thức
df['bốn'] = df['hai'] - df['ba']
print(df['hai'])

a    1.0
b    2.0
c    3.0
d    4.0
e    NaN
Name: hai, dtype: float64


In [74]:
#Các thao tác chọn, thêm, xóa cột
# thêm cột với giá trị vô hướng (scalar value)
df['Chuẩn'] = 'OK'
# thêm cột không cùng số lượng index với DataFrame
df['Khác'] = df['hai'][:3]
# thêm cột True/False theo điều kiện
df['KT'] = df['một'] == 3.0
# dùng hàm insert. Cột "chèn" bên dưới sẽ ở vị trí 2 (tính từ 0), có giá trị bằng cột một
df.insert(2, 'chèn', df['một'])
print(df)

   một  hai  chèn    ba   bốn Chuẩn  Khác     KT
a  1.0  1.0   1.0   9.0  -8.0    OK   1.0  False
b  2.0  2.0   2.0  -1.3   3.3    OK   2.0  False
c  3.0  3.0   3.0   3.5  -0.5    OK   3.0   True
d  NaN  4.0   NaN  41.1 -37.1    OK   NaN  False
e  5.0  NaN   5.0   NaN   NaN    OK   NaN  False


In [76]:
#Ví dụ 5: Xóa cột (column deletion). Có thể xóa cột bằng lệnh def hoặc hàm pop
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
'ba': pd.Series([9., -1.3, 3.5, 41.1], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(s)
# xóa cột hai
del df['hai']
# pop cột ba với dict tv_ba
tv_ba = df.pop('ba')
print( df)

   một
a  1.0
b  2.0
c  3.0
d  NaN
e  5.0


In [78]:
# Các thao tác chọn, thêm, xóa cột
# Ví dụ 1: Chọn dòng theo labe
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
'ba': pd.Series([9., -1.3, 3.5, 41.1], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(s)
# chọn dòng theo label
d = df.loc['a']
print(d)


một    1.0
hai    1.0
ba     9.0
Name: a, dtype: float64


In [79]:
#Ví dụ 2: Chọn dòng theo vị trí nguyên
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
'ba': pd.Series([9., -1.3, 3.5, 41.1], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(s)
# chọn dòng theo vị trí nguyên
d = df.iloc[4]
print(d)


một    5.0
hai    NaN
ba     NaN
Name: e, dtype: float64


In [205]:
#Ví dụ 3: Cắt (slice) các dòng
s = {'một': pd.Series([1., 2., 3., 5.], index=['a', 'b', 'c', 'e']),
'hai': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
'ba': pd.Series([9., -1.3, 3.5, 41.1], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(s)
# cắt lấy ra từ dòng 3 đến dòng 4
d = df[2:4]
print(d)

   một  hai    ba
c  3.0  3.0   3.5
d  NaN  4.0  41.1


# Cách đọc dữ liệu trong Pandas

Đọc bộ dữ liệu `sample_grades.csv`

Bộ dữ liệu này chứa kết quả đánh giá điểm của sinh viên (Pass hoặc Fail) cho một lớp học gồm 40 sinh viên.

Dữ liệu có các trường dữ liệu như sau:

- `Student ID`: mã sinh viên


- `Gender`: giới tính


- `Project Phase 1`: điểm project giai đoạn 1, tối đa 20 điểm.


- `Project Phase 2`: điểm project giai đoạn 2, tối đa 30 điểm.


- `Mid-Semester Test`: điểm giữa kỳ, tối đa 100 điểm


- `Final Exam`: điểm cuối kỳ, tối đa 100 điểm.


- `Grade`: Xếp loại sinh viên đậu (PA) hay rớt (NN)

Trước tiên, cần đọc dữ liệu.

In [142]:
#Cách đọc dữ liệu từ một file CSV
grades = pd.read_csv('sample_grades.csv', header=0)

# Cách xuất dữ liệu từ DataFrame ra file CSV



In [136]:
#Cách xuất dữ liệu từ DataFrame ra file CSV
df.to_csv('sample_grades.csv')


# Cách tạo ra dữ liệu Test

In [104]:
#Tạo ra một bảng gồm 23 dòng và 4 cột, được điền vào những giá trị ngẫu nhiên từ Numpy
pd.DataFrame(np.random.rand(23,4))

Unnamed: 0,0,1,2,3
0,0.619936,0.693036,0.816917,0.4635
1,0.034502,0.557377,0.877002,0.217858
2,0.125841,0.479769,0.369142,0.160976
3,0.51229,0.470293,0.942856,0.125242
4,0.723619,0.149343,0.727792,0.976695
5,0.286497,0.568475,0.064308,0.693451
6,0.73256,0.850417,0.658763,0.237938
7,0.283885,0.127292,0.883669,0.080524
8,0.180149,0.084879,0.194515,0.207224
9,0.398099,0.389738,0.282127,0.787774


In [108]:
#Cách tạo ra series từ một list
pd.Series([1,2,3,4,5])


0    1
1    2
2    3
3    4
4    5
dtype: int64

In [134]:
#Cách thêm index là cột ngày tháng
df.index = pd.date_range( '1999/1/31', periods=df.shape[0])
print(df)


            một  hai    ba
1999-01-31  1.0  1.0   9.0
1999-02-01  2.0  2.0  -1.3
1999-02-02  3.0  3.0   3.5
1999-02-03  NaN  4.0  41.1
1999-02-04  5.0  NaN   NaN


# Cách xem và kiểm tra dữ liệu

In [144]:
#Cách xem n dòng đầu tiên của DataFrame
grades.head(10)

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
0,101,Male,18.25,15.5,94,61.0,PA
1,102,Female,17.75,30.0,79,62.0,PA
2,103,Male,0.0,0.0,78,15.0,NN
3,104,Male,20.0,25.0,69,65.0,PA
4,105,Male,18.75,30.0,96,51.0,PA
5,106,Male,17.0,23.5,80,59.0,PA
6,107,,19.75,19.5,82,76.0,PA
7,108,Male,20.0,28.0,95,44.0,PA
8,109,M,18.0,23.0,50,33.0,NN
9,110,Female,20.0,30.0,92,63.0,PA


In [145]:
#Cách xem n dòng cuối cùng của DataFrame
grades.tail(10)

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
30,131,Male,0.0,,60,,NN
31,132,Female,17.5,20.0,42,47.0,NN
32,133,F,20.0,28.0,58,74.0,PA
33,134,Male,20.0,15.5,46,76.0,PA
34,135,Male,20.0,30.0,61,6.0,NN
35,136,Male,18.5,22.0,26,68.0,PA
36,137,Female,20.0,26.0,89,63.0,PA
37,138,Male,18.75,30.0,59,52.0,PA
38,139,Male,19.0,30.0,70,,PA
39,140,Male,20.0,29.0,84,77.0,PA


In [146]:
#Cách lấy số dòng số cột của DataFrame
grades.shape

(40, 7)

In [147]:
#Xem thông tin về Index, kiểu dữ liệu và dung lượng của DataFrame
grades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40 entries, 0 to 39
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Student ID         40 non-null     int64  
 1   Gender             37 non-null     object 
 2   Project Phase 1    40 non-null     float64
 3   Project Phase 2    37 non-null     float64
 4   Mid-Semester Test  40 non-null     int64  
 5   Final Exam         36 non-null     float64
 6   Grade              40 non-null     object 
dtypes: float64(3), int64(2), object(2)
memory usage: 2.3+ KB


In [148]:
#Tổng kết thông tin thống kê cho các cột có kiểu dữ liệu là số
grades.describe()

Unnamed: 0,Student ID,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam
count,40.0,40.0,37.0,40.0,36.0
mean,120.5,16.9875,23.75,72.1,56.055556
std,11.690452,5.964626,7.509716,19.664885,20.520296
min,101.0,0.0,0.0,26.0,6.0
25%,110.75,17.6875,20.0,59.75,45.5
50%,120.5,19.5,25.5,76.0,60.0
75%,130.25,20.0,30.0,86.0,71.75
max,140.0,20.0,35.0,100.0,91.0


In [150]:
#Xem giá trị duy nhất và đếm số giá trị này, đếm cả trường hợp NA
#Lưu ý Áp dụng cho đối tượng Series
grades.value_counts(dropna=False)

Student ID  Gender  Project Phase 1  Project Phase 2  Mid-Semester Test  Final Exam  Grade
101         Male    18.25            15.50            94                 61.0        PA       1
102         Female  17.75            30.00            79                 62.0        PA       1
103         Male    0.00             0.00             78                 15.0        NN       1
104         Male    20.00            25.00            69                 65.0        PA       1
105         Male    18.75            30.00            96                 51.0        PA       1
106         Male    17.00            23.50            80                 59.0        PA       1
107         NaN     19.75            19.50            82                 76.0        PA       1
108         Male    20.00            28.00            95                 44.0        PA       1
109         M       18.00            23.00            50                 33.0        NN       1
110         Female  20.00            30.00   

# Trích xuất một phần dữ liệu trong Pandas DataFrame

In [157]:
# Trả về một cột của DataFrame dưới dạng Series
# Trả về cột có label là col như một Series
grades['Gender']

0       Male
1     Female
2       Male
3       Male
4       Male
5       Male
6        NaN
7       Male
8          M
9     Female
10    Female
11    Female
12    Female
13      Male
14      Male
15    Female
16       NaN
17      Male
18      Male
19      Male
20    Female
21    Female
22      Male
23      Male
24       NaN
25    Female
26    Female
27    Female
28      Male
29      Male
30      Male
31    Female
32         F
33      Male
34      Male
35      Male
36    Female
37      Male
38      Male
39      Male
Name: Gender, dtype: object

In [156]:
#Trả về các cột trong danh sách dưới dạng một DataFrame mới
grades[['Student ID', 'Grade']]

Unnamed: 0,Student ID,Grade
0,101,PA
1,102,PA
2,103,NN
3,104,PA
4,105,PA
5,106,PA
6,107,PA
7,108,PA
8,109,NN
9,110,PA


In [153]:
# Chọn dữ liệu theo vị trí
grades.iloc[0]


Student ID             101
Gender                Male
Project Phase 1      18.25
Project Phase 2       15.5
Mid-Semester Test       94
Final Exam            61.0
Grade                   PA
Name: 0, dtype: object

In [160]:
#Chọn dữ liệu theo index
grades.loc[1]

Student ID              102
Gender               Female
Project Phase 1       17.75
Project Phase 2        30.0
Mid-Semester Test        79
Final Exam             62.0
Grade                    PA
Name: 1, dtype: object

In [161]:
# Chọn dữ liệu ở dòng đầu tiên
grades.iloc[0,:]


Student ID             101
Gender                Male
Project Phase 1      18.25
Project Phase 2       15.5
Mid-Semester Test       94
Final Exam            61.0
Grade                   PA
Name: 0, dtype: object

In [162]:
#Chọn dữ liệu ở dòng đầu tiên, ô thứ nhất của DataFrame
grades.iloc[0,0]

np.int64(101)

# Cách làm sạch dữ liệu trong Pandas DataFrame

In [170]:
# Kiểm tra dữ liệu với giá trị null
grades.isnull()

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
5,False,False,False,False,False,False,False
6,False,True,False,False,False,False,False
7,False,False,False,False,False,False,False
8,False,False,False,False,False,False,False
9,False,False,False,False,False,False,False


In [171]:
#Kiểm tra dữ liệu với giá trị khác null
grades.notnull()

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
0,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True
5,True,True,True,True,True,True,True
6,True,False,True,True,True,True,True
7,True,True,True,True,True,True,True
8,True,True,True,True,True,True,True
9,True,True,True,True,True,True,True


In [172]:
#Cách bỏ toàn bộ dòng có dữ liệu null
grades.dropna()

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
0,101,Male,18.25,15.5,94,61.0,PA
1,102,Female,17.75,30.0,79,62.0,PA
2,103,Male,0.0,0.0,78,15.0,NN
3,104,Male,20.0,25.0,69,65.0,PA
4,105,Male,18.75,30.0,96,51.0,PA
5,106,Male,17.0,23.5,80,59.0,PA
7,108,Male,20.0,28.0,95,44.0,PA
8,109,M,18.0,23.0,50,33.0,NN
9,110,Female,20.0,30.0,92,63.0,PA
10,111,Female,19.5,13.0,95,52.0,PA


In [173]:
#Cách bỏ toàn bộ cột có dữ liệu null
grades.dropna(axis=1)

Unnamed: 0,Student ID,Project Phase 1,Mid-Semester Test,Grade
0,101,18.25,94,PA
1,102,17.75,79,PA
2,103,0.0,78,NN
3,104,20.0,69,PA
4,105,18.75,96,PA
5,106,17.0,80,PA
6,107,19.75,82,PA
7,108,20.0,95,PA
8,109,18.0,50,NN
9,110,20.0,92,PA


In [174]:
#Cách bỏ các dòng có nhiều hơn n giá trị null
grades.dropna(axis=1, thresh=2)

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
0,101,Male,18.25,15.5,94,61.0,PA
1,102,Female,17.75,30.0,79,62.0,PA
2,103,Male,0.0,0.0,78,15.0,NN
3,104,Male,20.0,25.0,69,65.0,PA
4,105,Male,18.75,30.0,96,51.0,PA
5,106,Male,17.0,23.5,80,59.0,PA
6,107,,19.75,19.5,82,76.0,PA
7,108,Male,20.0,28.0,95,44.0,PA
8,109,M,18.0,23.0,50,33.0,NN
9,110,Female,20.0,30.0,92,63.0,PA


In [177]:
#Cách thay toàn bộ giá trị null bằng giá trị x
grades.fillna(100)

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
0,101,Male,18.25,15.5,94,61.0,PA
1,102,Female,17.75,30.0,79,62.0,PA
2,103,Male,0.0,0.0,78,15.0,NN
3,104,Male,20.0,25.0,69,65.0,PA
4,105,Male,18.75,30.0,96,51.0,PA
5,106,Male,17.0,23.5,80,59.0,PA
6,107,100,19.75,19.5,82,76.0,PA
7,108,Male,20.0,28.0,95,44.0,PA
8,109,M,18.0,23.0,50,33.0,NN
9,110,Female,20.0,30.0,92,63.0,PA


In [191]:
#Cách đổi tên cột cụ thể trong DataFrame
grades.rename(columns={'Student ID': 'Name'})

Unnamed: 0,Name,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
0,101,Male,18.25,15.5,94,61.0,PA
1,102,Female,17.75,30.0,79,62.0,PA
2,103,Male,0.0,0.0,78,15.0,NN
3,104,Male,20.0,25.0,69,65.0,PA
4,105,Male,18.75,30.0,96,51.0,PA
5,106,Male,17.0,23.5,80,59.0,PA
6,107,,19.75,19.5,82,76.0,PA
7,108,Male,20.0,28.0,95,44.0,PA
8,109,M,18.0,23.0,50,33.0,NN
9,110,Female,20.0,30.0,92,63.0,PA


In [194]:
#Cách đổi index trong DataFrame
grades.set_index('Gender')

Unnamed: 0_level_0,Student ID,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Male,101,18.25,15.5,94,61.0,PA
Female,102,17.75,30.0,79,62.0,PA
Male,103,0.0,0.0,78,15.0,NN
Male,104,20.0,25.0,69,65.0,PA
Male,105,18.75,30.0,96,51.0,PA
Male,106,17.0,23.5,80,59.0,PA
,107,19.75,19.5,82,76.0,PA
Male,108,20.0,28.0,95,44.0,PA
M,109,18.0,23.0,50,33.0,NN
Female,110,20.0,30.0,92,63.0,PA


In [195]:
#Cách đổi index hàng loạt trong DataFrame
grades.rename(index=lambda x: x + 1)

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
1,101,Male,18.25,15.5,94,61.0,PA
2,102,Female,17.75,30.0,79,62.0,PA
3,103,Male,0.0,0.0,78,15.0,NN
4,104,Male,20.0,25.0,69,65.0,PA
5,105,Male,18.75,30.0,96,51.0,PA
6,106,Male,17.0,23.5,80,59.0,PA
7,107,,19.75,19.5,82,76.0,PA
8,108,Male,20.0,28.0,95,44.0,PA
9,109,M,18.0,23.0,50,33.0,NN
10,110,Female,20.0,30.0,92,63.0,PA


# Cách lọc, sắp xếp, nhóm dữ liệu trong Pandas DataFrame

In [199]:
# Lọc dữ liệu theo điều kiện
# Lọc ra các dòng thỏa mãn điều kiện col bé hơn 50
grades[ grades['Final Exam'] < 50 ]


Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
2,103,Male,0.0,0.0,78,15.0,NN
7,108,Male,20.0,28.0,95,44.0,PA
8,109,M,18.0,23.0,50,33.0,NN
16,117,,15.75,10.0,81,34.0,NN
17,118,Male,12.5,10.0,30,22.0,NN
18,119,Male,17.5,20.0,61,31.0,NN
20,121,Female,17.75,30.0,56,46.0,PA
21,122,Female,20.0,23.0,37,25.0,NN
29,130,Male,19.5,13.0,62,39.0,NN
31,132,Female,17.5,20.0,42,47.0,NN


In [217]:
#Lọc ra các dòng thỏa mãn điều kiện: có giá trị cột col trong khoảng 50 đến 100
grades[(grades['Final Exam'] > 50) & (grades['Final Exam'] < 100)]

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
0,101,Male,18.25,15.5,94,61.0,PA
1,102,Female,17.75,30.0,79,62.0,PA
3,104,Male,20.0,25.0,69,65.0,PA
4,105,Male,18.75,30.0,96,51.0,PA
5,106,Male,17.0,23.5,80,59.0,PA
6,107,,19.75,19.5,82,76.0,PA
9,110,Female,20.0,30.0,92,63.0,PA
10,111,Female,19.5,13.0,95,52.0,PA
13,114,Male,20.0,22.75,85,78.0,PA
14,115,Male,19.5,26.0,100,79.0,PA


In [218]:
# Sắp xếp dữ liệu
# Sắp xếp dữ liệu trong cột col1 theo chiều thuận (ascending)
grades.sort_values('Final Exam')


Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
34,135,Male,20.0,30.0,61,6.0,NN
2,103,Male,0.0,0.0,78,15.0,NN
17,118,Male,12.5,10.0,30,22.0,NN
21,122,Female,20.0,23.0,37,25.0,NN
18,119,Male,17.5,20.0,61,31.0,NN
8,109,M,18.0,23.0,50,33.0,NN
16,117,,15.75,10.0,81,34.0,NN
29,130,Male,19.5,13.0,62,39.0,NN
7,108,Male,20.0,28.0,95,44.0,PA
20,121,Female,17.75,30.0,56,46.0,PA


In [219]:
# Sắp xếp dữ liệu trong cột col2 theo chiều nghịch (descending)
grades.sort_values('Final Exam', ascending=False)


Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
27,128,Female,20.0,30.0,84,91.0,PA
28,129,Male,20.0,30.0,64,86.0,PA
26,127,Female,20.0,35.0,84,83.0,PA
14,115,Male,19.5,26.0,100,79.0,PA
13,114,Male,20.0,22.75,85,78.0,PA
39,140,Male,20.0,29.0,84,77.0,PA
6,107,,19.75,19.5,82,76.0,PA
33,134,Male,20.0,15.5,46,76.0,PA
32,133,F,20.0,28.0,58,74.0,PA
23,124,Male,20.0,30.0,90,71.0,PA


In [222]:
#Sắp xếp col1 theo chiều thuận và col2 theo chiều nghịch
grades.sort_values(['Mid-Semester Test','Final Exam'],ascending=[True,False])

Unnamed: 0,Student ID,Gender,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam,Grade
35,136,Male,18.5,22.0,26,68.0,PA
17,118,Male,12.5,10.0,30,22.0,NN
21,122,Female,20.0,23.0,37,25.0,NN
31,132,Female,17.5,20.0,42,47.0,NN
33,134,Male,20.0,15.5,46,76.0,PA
8,109,M,18.0,23.0,50,33.0,NN
19,120,Male,14.5,23.5,54,58.0,PA
20,121,Female,17.75,30.0,56,46.0,PA
32,133,F,20.0,28.0,58,74.0,PA
37,138,Male,18.75,30.0,59,52.0,PA


# Thống kê dữ liệu bằng Pandas DataFrame

In [231]:
#Thống kê dữ liệu cho các cột số
grades.describe()

Unnamed: 0,Student ID,Project Phase 1,Project Phase 2,Mid-Semester Test,Final Exam
count,36.0,36.0,36.0,36.0,36.0
mean,120.138889,18.347222,23.576389,71.861111,56.055556
std,11.642662,3.590303,7.540562,20.088593,20.520296
min,101.0,0.0,0.0,26.0,6.0
25%,109.75,17.9375,20.0,58.75,45.5
50%,120.5,19.75,25.25,78.5,60.0
75%,129.25,20.0,30.0,86.0,71.75
max,140.0,20.0,35.0,100.0,91.0


In [234]:
#Đếm số giá trị không null cho các cột
grades.count()

Student ID           36
Gender               33
Project Phase 1      36
Project Phase 2      36
Mid-Semester Test    36
Final Exam           36
Grade                36
dtype: int64

In [241]:
#Tìm giá trị lớn nhất cho một cột
grades['Final Exam'].max()

np.float64(91.0)

In [243]:
#Tìm giá trị nhỏ nhất cho một cột
grades['Final Exam'].min()

np.float64(6.0)

In [245]:
#Tìm giá trị median cho một cột
grades['Final Exam'].median()

np.float64(60.0)

In [250]:
#Tìm giá trị độ lệch tiêu chuẩn cho một cột
grades['Final Exam'].std()

np.float64(20.52029579909948)