In [1]:
import numpy as np
import pandas as pd
# Series
data = pd.Series([1,2,5,7])
data

0    1
1    2
2    5
3    7
dtype: int64

In [2]:
data.values

array([1, 2, 5, 7], dtype=int64)

In [3]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
data[1]

2

In [5]:
data[1:3]
# Bỏ biên bên phải nếu index là số

1    2
2    5
dtype: int64

In [6]:
print(data.count())

4


In [7]:
# Index có thể rời rạc, thứ tự lộn xộn
data = pd.Series([1,2,5,7], index=['a','b','c','d'])
data

a    1
b    2
c    5
d    7
dtype: int64

In [8]:
# Tạo series từ Dictionary
pop_dic = {'Hà Nội':387,'Sài Gòn':210,'Hải Phòng':310}
pop = pd.Series(pop_dic)
pop

Hà Nội       387
Sài Gòn      210
Hải Phòng    310
dtype: int64

In [9]:
pop['Hà Nội']

387

In [10]:
pop['Hà Nội':'Sài Gòn']
# Lấy cả biên bên phải nếu index là string

Hà Nội     387
Sài Gòn    210
dtype: int64

In [11]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

In [12]:
pd.Series(5,index=[100,200,300])
# Tạo ra nhiều giá trị giống nhau theo index

100    5
200    5
300    5
dtype: int64

In [13]:
# Tạo ra từ dic nhưng có index=>Chỉ tạo theo index. Nếu có index không có giá trị thì NaN
pd.Series({2:'a',1:'b',3:'c'},index=[3,2])

3    c
2    a
dtype: object

In [14]:
pop_area = {'Hà Nội':110,'Sài Gòn':200,'Hải Phòng':110}
area = pd.Series(pop_area)
area

Hà Nội       110
Sài Gòn      200
Hải Phòng    110
dtype: int64

In [15]:
# Tạo từ dic, key là tên cột
state = pd.DataFrame({'pop':pop,'area':area})
state

Unnamed: 0,pop,area
Hà Nội,387,110
Sài Gòn,210,200
Hải Phòng,310,110


In [16]:
state.index

Index(['Hà Nội', 'Sài Gòn', 'Hải Phòng'], dtype='object')

In [17]:
# Truy cập dữ liệu của cột thông qua tên cột
state['area']

Hà Nội       110
Sài Gòn      200
Hải Phòng    110
Name: area, dtype: int64

In [18]:
# Khởi tạo từ 1 series
pd.DataFrame(area,columns=['area'])

Unnamed: 0,area
Hà Nội,110
Sài Gòn,200
Hải Phòng,110


In [19]:
# Tạo từ list dict
data = [{'a':i,'b':2*i} for i in range(3)]
data
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [20]:
# pandas with NaN values
pd.DataFrame([{'a':1,'b':2},{'b':3,'c':4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [21]:
# Tạo từ array numpy, theo kích thước array nếu sai thì lỗi
pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.93875,0.247516
b,0.497285,0.19956
c,0.597366,0.801797


# From a Numpy structured array

In [22]:
A=np.zeros(3,dtype=[('A','i8'),('B','f8')])

In [23]:
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [24]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# The Pandas index Object

In [25]:
# Không chỉnh sửa đc
ind = pd.Index([2,3,4,5,7,11])
ind

Int64Index([2, 3, 4, 5, 7, 11], dtype='int64')

In [26]:
ind[1]

3

In [27]:
ind[::2]

Int64Index([2, 4, 7], dtype='int64')

In [28]:
print(ind.size, ind.shape,ind.ndim, ind.dtype)
# shape là vecto
# ndim là số chiều

6 (6,) 1 int64


In [29]:
# Thao tác với index
# intersection => &
# union => |
# symmetric_difference => ^

ind2 = pd.Index([1,3,4,5,7,15])

In [30]:
ind & ind2

  ind & ind2


Int64Index([3, 4, 5, 7], dtype='int64')

In [31]:
ind.intersection(ind2)

Int64Index([3, 4, 5, 7], dtype='int64')

In [32]:
ind | ind2

  ind | ind2


Int64Index([1, 2, 3, 4, 5, 7, 11, 15], dtype='int64')

In [33]:
ind.union(ind2)

Int64Index([1, 2, 3, 4, 5, 7, 11, 15], dtype='int64')

In [34]:
ind ^ ind2

  ind ^ ind2


Int64Index([1, 2, 11, 15], dtype='int64')

In [35]:
ind.symmetric_difference(ind2)

Int64Index([1, 2, 11, 15], dtype='int64')

# 4 Data indexing and selection

## Data Selection in Series

In [36]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [37]:
# Chỉ số tường minh
data['b']

0.5

In [38]:
# Chỉ số ngầm định
data[1]

0.5

In [39]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [40]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [41]:
# Extend
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

In [42]:
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [43]:
data[0:2]

a    0.25
b    0.50
dtype: float64

In [44]:
# masking
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [45]:
#fancy indexing: truyền vào 1 list index
data[['a','e']]

a    0.25
e    1.25
dtype: float64

## indexers: loc, iloc

In [46]:
data = pd.Series(['a','b','c'],index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [47]:
# Chỉ số tuowngf minh
data[1]

'a'

In [48]:
# Chỉ số ngầm định khi slicing
data[1:3]

3    b
5    c
dtype: object

In [49]:
data.loc[1]

'a'

In [50]:
data.iloc[1]

'b'

## data Select in dataframe

# Working with DataFrame
###### Làm việc với các file (csv, xls,xlsx,json,fdf5,html...)
###### Mô tả cấu trúc dữ liệu DF
###### Chỉnh sửa cấu trúc bộ dữ liệu
###### Xác định các giá trị thống kê mô tả của các biến định tính, định lượng
###### Hợp nhất dữ liệu từ nhiều DF
###### Tạo bảng tổng hợp pivot table

In [51]:
import pandas as pd
data = pd.read_csv('Data/students.csv', encoding = 'utf-8')
data

Unnamed: 0,Mã học sinh,Họ tên,Ngày sinh,Giới tính,Quê quán,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh
0,20205210,Nguyễn Đức Bình,3/10/2000,Nam,Hà Nội,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5
1,20205211,Lê Minh Hoàng,2/11/2001,Nam,Quảng Bình,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0
2,20205212,Trần Trang Nhung,7/5/2002,Nữ,Hà Nam,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5
3,20205213,Nguyễn Thị Linh,12/17/2000,Nữ,Bắc Ninh,8.0,5.6,6.5,7.0,7.5,6.5,5.6,6.0
4,20205214,Đặng Ngọc Sơn,1/25/2000,Nam,Thái Bình,9.3,5.8,7.5,4.5,6.5,4.5,7.8,3.8
5,20205215,Hà Trung Kiên,4/3/2000,Nam,Hà Nội,5.6,7.0,5.6,5.0,6.4,3.8,8.0,4.9
6,20205216,Võ Hoàng Yến,6/21/2000,Nữ,Nam Định,6.7,6.8,7.3,6.0,6.7,8.0,9.5,7.6
7,20205217,Hoàng Trung Sơn,8/27/2000,Nam,Bắc Ninh,7.5,9.0,7.0,2.0,5.2,2.0,7.0,6.5
8,20205218,Nguyễn Văn Thành,5/20/2000,Nam,Hà Nội,7.0,7.4,6.4,9.0,8.5,9.2,8.4,7.8
9,20205219,Nguyễn Thanh Oai,5/25/2000,Nam,Hà Nội,8.2,7.0,8.7,6.5,4.8,4.6,4.8,5.5


In [52]:
data['Khối A'] = data['Toán']+data['Lý']+data['Hoá']
data

Unnamed: 0,Mã học sinh,Họ tên,Ngày sinh,Giới tính,Quê quán,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh,Khối A
0,20205210,Nguyễn Đức Bình,3/10/2000,Nam,Hà Nội,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5,23.8
1,20205211,Lê Minh Hoàng,2/11/2001,Nam,Quảng Bình,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0,19.3
2,20205212,Trần Trang Nhung,7/5/2002,Nữ,Hà Nam,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5,16.1
3,20205213,Nguyễn Thị Linh,12/17/2000,Nữ,Bắc Ninh,8.0,5.6,6.5,7.0,7.5,6.5,5.6,6.0,20.1
4,20205214,Đặng Ngọc Sơn,1/25/2000,Nam,Thái Bình,9.3,5.8,7.5,4.5,6.5,4.5,7.8,3.8,22.6
5,20205215,Hà Trung Kiên,4/3/2000,Nam,Hà Nội,5.6,7.0,5.6,5.0,6.4,3.8,8.0,4.9,18.2
6,20205216,Võ Hoàng Yến,6/21/2000,Nữ,Nam Định,6.7,6.8,7.3,6.0,6.7,8.0,9.5,7.6,20.8
7,20205217,Hoàng Trung Sơn,8/27/2000,Nam,Bắc Ninh,7.5,9.0,7.0,2.0,5.2,2.0,7.0,6.5,23.5
8,20205218,Nguyễn Văn Thành,5/20/2000,Nam,Hà Nội,7.0,7.4,6.4,9.0,8.5,9.2,8.4,7.8,20.8
9,20205219,Nguyễn Thanh Oai,5/25/2000,Nam,Hà Nội,8.2,7.0,8.7,6.5,4.8,4.6,4.8,5.5,23.9


In [53]:
df = data.drop(columns=['Họ tên','Ngày sinh','Quê quán','Giới tính'])
df

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0,19.3
2,20205212,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5,16.1
3,20205213,8.0,5.6,6.5,7.0,7.5,6.5,5.6,6.0,20.1
4,20205214,9.3,5.8,7.5,4.5,6.5,4.5,7.8,3.8,22.6
5,20205215,5.6,7.0,5.6,5.0,6.4,3.8,8.0,4.9,18.2
6,20205216,6.7,6.8,7.3,6.0,6.7,8.0,9.5,7.6,20.8
7,20205217,7.5,9.0,7.0,2.0,5.2,2.0,7.0,6.5,23.5
8,20205218,7.0,7.4,6.4,9.0,8.5,9.2,8.4,7.8,20.8
9,20205219,8.2,7.0,8.7,6.5,4.8,4.6,4.8,5.5,23.9


In [54]:
# Không lưu tiếng Việt
df.to_csv('Data/studentsA.csv',encoding='utf-8')

In [55]:
# Lưu tiếng Việt
df.to_csv('Data/studentsA.csv',encoding='utf-8-sig')

## Chỉnh sửa caấu trúc boộ dữ liệu

### Đổi tên cột index

In [56]:
df.head(3)

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Văn,Sử,Địa,Tiếng Anh,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0,19.3
2,20205212,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5,16.1


In [57]:
df.rename(columns={'Văn':'Ngữ Văn','Tiếng Anh':'Anh Văn'},inplace=True)
df.head(3)

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Sử,Địa,Anh Văn,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0,19.3
2,20205212,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5,16.1


In [58]:
# df.rename(index={i:10*i for i in range(10)},inplace=True)
# df

## Thêm cột moi

In [59]:
df['Khối B'] = df['Toán']+df['Sinh']+df['Hoá']
df.head(3)

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Sử,Địa,Anh Văn,Khối A,Khối B
0,20205210,7.0,8.0,8.8,6.8,4.0,5.4,5.6,8.5,23.8,22.6
1,20205211,5.6,7.7,6.0,7.0,6.5,6.0,3.4,9.0,19.3,18.6
2,20205212,4.2,6.5,5.4,8.0,7.0,7.5,4.3,5.5,16.1,17.6


In [60]:
df.insert(10,'Khối A1',pd.Series('10', index=df.index))
df.tail(3)

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Sử,Địa,Anh Văn,Khối A,Khối A1,Khối B
7,20205217,7.5,9.0,7.0,2.0,5.2,2.0,7.0,6.5,23.5,10,16.5
8,20205218,7.0,7.4,6.4,9.0,8.5,9.2,8.4,7.8,20.8,10,22.4
9,20205219,8.2,7.0,8.7,6.5,4.8,4.6,4.8,5.5,23.9,10,23.4


## Thêm dòng vào cuối df

In [63]:
row = {'Mã học sinh':'20205220','Toán':10,'Lý':10}
df = df.append(row, ignore_index = True)
df.tail(3)

  df = df.append(row, ignore_index = True)


Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Sử,Địa,Anh Văn,Khối A,Khối A1,Khối B
8,20205218,7.0,7.4,6.4,9.0,8.5,9.2,8.4,7.8,20.8,10.0,22.4
9,20205219,8.2,7.0,8.7,6.5,4.8,4.6,4.8,5.5,23.9,10.0,23.4
10,20205220,10.0,10.0,,,,,,,,,


In [65]:
df_demo = pd.DataFrame([{'A':12,'B':10}])
df_demo

Unnamed: 0,A,B
0,12,10


In [66]:
df_demo = df_demo.append({'A':45,'B':20}, ignore_index = True)

  df_demo = df_demo.append({'A':45,'B':20}, ignore_index = True)


In [67]:
df_demo.tail(3)

Unnamed: 0,A,B
0,12,10
1,45,20


## Xóa cột dòng

In [68]:
#Sử dụng từ khóa del
del df['Sử ']

In [69]:
df

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A,Khối A1,Khối B
0,20205210,7.0,8.0,8.8,6.8,4.0,5.6,8.5,23.8,10.0,22.6
1,20205211,5.6,7.7,6.0,7.0,6.5,3.4,9.0,19.3,10.0,18.6
2,20205212,4.2,6.5,5.4,8.0,7.0,4.3,5.5,16.1,10.0,17.6
3,20205213,8.0,5.6,6.5,7.0,7.5,5.6,6.0,20.1,10.0,21.5
4,20205214,9.3,5.8,7.5,4.5,6.5,7.8,3.8,22.6,10.0,21.3
5,20205215,5.6,7.0,5.6,5.0,6.4,8.0,4.9,18.2,10.0,16.2
6,20205216,6.7,6.8,7.3,6.0,6.7,9.5,7.6,20.8,10.0,20.0
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5,10.0,16.5
8,20205218,7.0,7.4,6.4,9.0,8.5,8.4,7.8,20.8,10.0,22.4
9,20205219,8.2,7.0,8.7,6.5,4.8,4.8,5.5,23.9,10.0,23.4


In [70]:
#sử dụng pop trả về serries bị xóa
delete_col = df.pop('Khối B')

In [71]:
df

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A,Khối A1
0,20205210,7.0,8.0,8.8,6.8,4.0,5.6,8.5,23.8,10.0
1,20205211,5.6,7.7,6.0,7.0,6.5,3.4,9.0,19.3,10.0
2,20205212,4.2,6.5,5.4,8.0,7.0,4.3,5.5,16.1,10.0
3,20205213,8.0,5.6,6.5,7.0,7.5,5.6,6.0,20.1,10.0
4,20205214,9.3,5.8,7.5,4.5,6.5,7.8,3.8,22.6,10.0
5,20205215,5.6,7.0,5.6,5.0,6.4,8.0,4.9,18.2,10.0
6,20205216,6.7,6.8,7.3,6.0,6.7,9.5,7.6,20.8,10.0
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5,10.0
8,20205218,7.0,7.4,6.4,9.0,8.5,8.4,7.8,20.8,10.0
9,20205219,8.2,7.0,8.7,6.5,4.8,4.8,5.5,23.9,10.0


In [72]:
delete_col

0     22.6
1     18.6
2     17.6
3     21.5
4     21.3
5     16.2
6     20.0
7     16.5
8     22.4
9     23.4
10     NaN
Name: Khối B, dtype: float64

In [74]:
type(delete_col)

pandas.core.series.Series

In [75]:
#axis = 1: Xóa cột
#inplace = True : Thay đổi trực tiếp trên dataframe chứ ko tạo bản copy

df.drop('Khối A1', axis = 1, inplace = True)

In [76]:
df

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.0,6.5,3.4,9.0,19.3
2,20205212,4.2,6.5,5.4,8.0,7.0,4.3,5.5,16.1
3,20205213,8.0,5.6,6.5,7.0,7.5,5.6,6.0,20.1
4,20205214,9.3,5.8,7.5,4.5,6.5,7.8,3.8,22.6
5,20205215,5.6,7.0,5.6,5.0,6.4,8.0,4.9,18.2
6,20205216,6.7,6.8,7.3,6.0,6.7,9.5,7.6,20.8
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5
8,20205218,7.0,7.4,6.4,9.0,8.5,8.4,7.8,20.8
9,20205219,8.2,7.0,8.7,6.5,4.8,4.8,5.5,23.9


In [77]:
#xóa dòng sử dụng drop với axis = 0
#10 là chỉ số của dòng muốn xóa
df.drop(10, axis = 0, inplace = True)
df

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.0,6.5,3.4,9.0,19.3
2,20205212,4.2,6.5,5.4,8.0,7.0,4.3,5.5,16.1
3,20205213,8.0,5.6,6.5,7.0,7.5,5.6,6.0,20.1
4,20205214,9.3,5.8,7.5,4.5,6.5,7.8,3.8,22.6
5,20205215,5.6,7.0,5.6,5.0,6.4,8.0,4.9,18.2
6,20205216,6.7,6.8,7.3,6.0,6.7,9.5,7.6,20.8
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5
8,20205218,7.0,7.4,6.4,9.0,8.5,8.4,7.8,20.8
9,20205219,8.2,7.0,8.7,6.5,4.8,4.8,5.5,23.9


In [78]:
#xóa nhiều dòng
df.drop([8,9], axis = 0, inplace = True)
df

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.0,6.5,3.4,9.0,19.3
2,20205212,4.2,6.5,5.4,8.0,7.0,4.3,5.5,16.1
3,20205213,8.0,5.6,6.5,7.0,7.5,5.6,6.0,20.1
4,20205214,9.3,5.8,7.5,4.5,6.5,7.8,3.8,22.6
5,20205215,5.6,7.0,5.6,5.0,6.4,8.0,4.9,18.2
6,20205216,6.7,6.8,7.3,6.0,6.7,9.5,7.6,20.8
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5


In [81]:
print(df[1:4].index)

RangeIndex(start=1, stop=4, step=1)


## Truy cập dữ liệu

In [82]:
df.iloc[1]

Mã học sinh    20205211
Toán                5.6
Lý                  7.7
Hoá                 6.0
Sinh                7.0
Ngữ Văn             6.5
Địa                 3.4
Anh Văn             9.0
Khối A             19.3
Name: 1, dtype: object

In [83]:
#truy cập nhiều dòng rời rạc
df.iloc[[1,3,5,7]]

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
1,20205211,5.6,7.7,6.0,7.0,6.5,3.4,9.0,19.3
3,20205213,8.0,5.6,6.5,7.0,7.5,5.6,6.0,20.1
5,20205215,5.6,7.0,5.6,5.0,6.4,8.0,4.9,18.2
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5


In [84]:
df.iloc[5:]

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
5,20205215,5.6,7.0,5.6,5.0,6.4,8.0,4.9,18.2
6,20205216,6.7,6.8,7.3,6.0,6.7,9.5,7.6,20.8
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5


In [86]:
df.iloc[:,1]

0    7.0
1    5.6
2    4.2
3    8.0
4    9.3
5    5.6
6    6.7
7    7.5
Name: Toán, dtype: float64

In [87]:
#truy cập nhiều cột
df[["Toán","Lý"]]

Unnamed: 0,Toán,Lý
0,7.0,8.0
1,5.6,7.7
2,4.2,6.5
3,8.0,5.6
4,9.3,5.8
5,5.6,7.0
6,6.7,6.8
7,7.5,9.0


In [88]:
df.iloc[:,[1,2]]

Unnamed: 0,Toán,Lý
0,7.0,8.0
1,5.6,7.7
2,4.2,6.5
3,8.0,5.6
4,9.3,5.8
5,5.6,7.0
6,6.7,6.8
7,7.5,9.0


In [90]:
#nhiều cột, nhiều dòng liên tục
df.iloc[:2,1:4]

Unnamed: 0,Toán,Lý,Hoá
0,7.0,8.0,8.8
1,5.6,7.7,6.0


In [92]:
df.loc[df.loc[:,'Toán']>=7]

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.6,8.5,23.8
3,20205213,8.0,5.6,6.5,7.0,7.5,5.6,6.0,20.1
4,20205214,9.3,5.8,7.5,4.5,6.5,7.8,3.8,22.6
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5


In [94]:
df.loc[df.loc[:,'Lý']>=7]

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.0,6.5,3.4,9.0,19.3
5,20205215,5.6,7.0,5.6,5.0,6.4,8.0,4.9,18.2
7,20205217,7.5,9.0,7.0,2.0,5.2,7.0,6.5,23.5


## Cập nhật giá trị trên dataframe

In [97]:
#Cập nhật trên toàn bộ dữ liệu
df.replace(7,7.2,inplace = True)
df

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
0,20205210,7.2,8.0,8.8,6.8,4.0,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.2,6.5,3.4,9.0,19.3
2,20205212,4.2,6.5,5.4,8.0,7.2,4.3,5.5,16.1
3,20205213,8.0,5.6,6.5,7.2,7.5,5.6,6.0,20.1
4,20205214,9.3,5.8,7.5,4.5,6.5,7.8,3.8,22.6
5,20205215,5.6,7.2,5.6,5.0,6.4,8.0,4.9,18.2
6,20205216,6.7,6.8,7.3,6.0,6.7,9.5,7.6,20.8
7,20205217,7.5,9.0,7.2,2.0,5.2,7.2,6.5,23.5


In [98]:
#Cập nhật 1 cột cụ thể => Truy cập cột trước
df['Toán'].replace(7.2,7.0,inplace = True)
df

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
0,20205210,7.0,8.0,8.8,6.8,4.0,5.6,8.5,23.8
1,20205211,5.6,7.7,6.0,7.2,6.5,3.4,9.0,19.3
2,20205212,4.2,6.5,5.4,8.0,7.2,4.3,5.5,16.1
3,20205213,8.0,5.6,6.5,7.2,7.5,5.6,6.0,20.1
4,20205214,9.3,5.8,7.5,4.5,6.5,7.8,3.8,22.6
5,20205215,5.6,7.2,5.6,5.0,6.4,8.0,4.9,18.2
6,20205216,6.7,6.8,7.3,6.0,6.7,9.5,7.6,20.8
7,20205217,7.5,9.0,7.2,2.0,5.2,7.2,6.5,23.5


In [99]:
df.count()

Mã học sinh    8
Toán           8
Lý             8
Hoá            8
Sinh           8
Ngữ Văn        8
Địa            8
Anh Văn        8
Khối A         8
dtype: int64

In [100]:
df['Toán'].count()

8

In [101]:
df['Toán'][df['Toán']>=8].count()

2

In [102]:
df.min()

Mã học sinh    20205210
Toán                4.2
Lý                  5.6
Hoá                 5.4
Sinh                2.0
Ngữ Văn             4.0
Địa                 3.4
Anh Văn             3.8
Khối A             16.1
dtype: object

In [103]:
df.max()

Mã học sinh    20205217
Toán                9.3
Lý                  9.0
Hoá                 8.8
Sinh                8.0
Ngữ Văn             7.5
Địa                 9.5
Anh Văn             9.0
Khối A             23.8
dtype: object

In [105]:
df['Toán'].max()

9.3

In [104]:
#giá trị xuất hiện nhiều nhất của biến định lượng
df.mode()

Unnamed: 0,Mã học sinh,Toán,Lý,Hoá,Sinh,Ngữ Văn,Địa,Anh Văn,Khối A
0,20205210,5.6,5.6,5.4,7.2,6.5,5.6,3.8,16.1
1,20205211,,5.8,5.6,,,,4.9,18.2
2,20205212,,6.5,6.0,,,,5.5,19.3
3,20205213,,6.8,6.5,,,,6.0,20.1
4,20205214,,7.2,7.2,,,,6.5,20.8
5,20205215,,7.7,7.3,,,,7.6,22.6
6,20205216,,8.0,7.5,,,,8.5,23.5
7,20205217,,9.0,8.8,,,,9.0,23.8


In [107]:
#trung vị: Giá trị ở giữa => Chia ra 2 phần có số lượng phần tử = nhau
df.median()

Mã học sinh    20205213.50
Toán                  6.85
Lý                    7.00
Hoá                   6.85
Sinh                  6.40
Ngữ Văn               6.50
Địa                   6.40
Anh Văn               6.25
Khối A               20.45
dtype: float64

In [109]:
df['Toán'][df['Toán']>df['Toán'].median()].count()

4

In [110]:
df['Toán'][df['Toán']<df['Toán'].median()].count()

4

In [111]:
#giá trị trung bình
df.mean()

Mã học sinh    2.020521e+07
Toán           6.737500e+00
Lý             7.075000e+00
Hoá            6.787500e+00
Sinh           5.837500e+00
Ngữ Văn        6.250000e+00
Địa            6.425000e+00
Anh Văn        6.475000e+00
Khối A         2.055000e+01
dtype: float64

# Hợp nhất các dataframe

In [112]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],'hire_date': [2004, 2008, 2012, 2014]})
print(df1)
print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


In [113]:
#Hợp nhất dựa theo ID
df3 = pd.merge(df1,df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [114]:
#Hợp nhất dựa trên cột chung
pd.merge(df1,df2,on='employee')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [115]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],'salary': [70000, 80000, 120000, 90000]})
df3

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000
