In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
np.set_printoptions(precision=3, suppress=True)

print(pd.__version__)

# 1. Series

## 1.1. Khởi tạo Series

In [None]:
s = pd.Series([5, 1, 3, 7, np.nan, 6, 8, 4])
print(s)

In [None]:
s = pd.Series(data=[5, 1, 3, 7, np.nan, 6, 8, 4], index=range(1,9), 
              dtype='float16', name='my-series', copy=False)
print(s)

In [None]:
# Gán index theo ý muốn
s.index = list("abcdefgh")
print(s)

In [None]:
# Reset lại index theo thứ tự từ 0,1,2... --> n
s = s.reset_index(drop=True)
s

In [None]:
# Reset lại index theo thứ tự từ 0,1,2... --> n
s.reset_index(drop=True, inplace=True)
s

In [None]:
s.index

In [311]:
s.values

array([ 5.,  1.,  3.,  7., nan,  6.,  8.,  4.], dtype=float16)

In [320]:
s.keys

<bound method Series.keys of 0    5.0
1    1.0
2    3.0
3    7.0
4    NaN
5    6.0
6    8.0
7    4.0
Name: my-series, dtype: float16>

In [315]:
s.describe()

count    7.000000
mean     4.855469
std      2.410156
min      1.000000
25%      3.500000
50%      5.000000
75%      6.500000
max      8.000000
Name: my-series, dtype: float64

## 1.2. Truy cập phần tử trong Series

In [None]:
# Truy cập phần tử dựa vào chỉ số
s[0] = 7
s

In [None]:
# Sử dụng hàm iloc: chỉ số dạng số học
s.iloc[1] = 5
s

In [None]:
# Sử dụng hàm loc: chỉ số dạng text 
s.loc['e'] = 9
s

## 1.3. Slicing

In [None]:
s[1:3]

In [None]:
s[0:7:2]

In [None]:
s[-3:-1]

In [None]:
s[::-1]

In [None]:
# Sử dụng hàm iloc: chỉ số dạng số học
s.iloc[1:3]

In [None]:
# Sử dụng hàm loc: chỉ số dạng text
s.loc['a':'f']

# 2. DataFrame

## 2.1. Khởi tạo DataFrame

In [None]:
a = np.random.randint(0, 10, size=(10,4))
a

In [None]:
df1 = pd.DataFrame(data=a, index=range(1,11), columns=list('ABCD'), dtype='uint8')
df1

In [234]:
# Lấy ra mảng Numpy
df1.values

array([[3, 6, 9, 2],
       [3, 5, 4, 2],
       [0, 2, 2, 7],
       [4, 9, 6, 4],
       [1, 9, 8, 2],
       [5, 9, 8, 2],
       [1, 3, 6, 0],
       [9, 5, 9, 6],
       [6, 8, 8, 3],
       [3, 6, 2, 7]], dtype=uint8)

In [None]:
# Lấy ra mảng Numpy
df1.to_numpy()

In [None]:
b = a.T
d = {'A':b[0], 'B':b[1], 'C':b[2], 'D':b[3]}
df2 = pd.DataFrame(d, copy=False)
df2

In [None]:
df2['A'][0] = 1
print(b)
print(d)

## 2.2. Truy cập vào phần tử trong DataFrame

In [None]:
# Dùng slicing
df2[1:5][['A','C']]

In [None]:
df2[['A','C']][1:5]

In [None]:
# Dùng iloc, loc
print(df2.iloc[1:3][['A','C']])
print(df2.loc[1:3][['A', 'C']])

In [None]:
# Đảo ngược lại cách truy cập theo cột - dòng?
# print(df2.iloc[['A','C']][1:3])
print(df2.loc['A'][1:3])

In [None]:
# Dùng iat, at (single value)
df2.at[1,'A']

In [None]:
df2.iat[1,1]

In [None]:
# Dùng iloc truy cập nhiều dòng, nhiều cột theo index như array của Numpy
df2.iloc[1:4,1:3]

In [None]:
df2.loc[1:4, ['A','C']]

**Lọc theo giá trị của cột**

In [323]:
df2.loc[df2['A'] > 5]

Unnamed: 0,A,B,C,D
7,9,5,9,6
8,6,8,8,3


In [335]:
df2.loc[(df2['A'] > 2) & (df2['C'] > 8)]

Unnamed: 0,A,B,C,D
7,9,5,9,6


In [338]:
df2.loc[(df2['A'] > 2) | (df2['C'] > 8)]

Unnamed: 0,A,B,C,D
0,1,6,9,2
1,3,5,4,2
3,4,9,6,4
5,5,9,8,2
7,9,5,9,6
8,6,8,8,3
9,3,6,2,7


In [332]:
df2.loc[(df2['A'] > 2) & (df2['C']%2 == 0)]

Unnamed: 0,A,B,C,D
1,3,5,4,2
3,4,9,6,4
5,5,9,8,2
8,6,8,8,3
9,3,6,2,7


**Lặp qua các dòng, cột với iterrows, items**

In [339]:
for item in df2:
    print(item)

A
B
C
D


In [255]:
# Lặp qua các dòng trong DataFrame
for idx,row in df2.iterrows():
    print(row.index, row.values)
print(type(row))

Index(['A', 'B', 'C', 'D'], dtype='object') [1 6 9 2]
Index(['A', 'B', 'C', 'D'], dtype='object') [3 5 4 2]
Index(['A', 'B', 'C', 'D'], dtype='object') [0 2 2 7]
Index(['A', 'B', 'C', 'D'], dtype='object') [4 9 6 4]
Index(['A', 'B', 'C', 'D'], dtype='object') [1 9 8 2]
Index(['A', 'B', 'C', 'D'], dtype='object') [5 9 8 2]
Index(['A', 'B', 'C', 'D'], dtype='object') [1 3 6 0]
Index(['A', 'B', 'C', 'D'], dtype='object') [9 5 9 6]
Index(['A', 'B', 'C', 'D'], dtype='object') [6 8 8 3]
Index(['A', 'B', 'C', 'D'], dtype='object') [3 6 2 7]
<class 'pandas.core.series.Series'>


In [259]:
# Lặp qua các cột trong DataFrame
for col_label, col_vals in df2.items():
    print(col_label, col_vals.values)
print(type(col_vals))

A [1 3 0 4 1 5 1 9 6 3]
B [6 5 2 9 9 9 3 5 8 6]
C [9 4 2 6 8 8 6 9 8 2]
D [2 2 7 4 2 2 0 6 3 7]
<class 'pandas.core.series.Series'>


In [264]:
for t in df2.itertuples():
    print(t)

Pandas(Index=0, A=1, B=6, C=9, D=2)
Pandas(Index=1, A=3, B=5, C=4, D=2)
Pandas(Index=2, A=0, B=2, C=2, D=7)
Pandas(Index=3, A=4, B=9, C=6, D=4)
Pandas(Index=4, A=1, B=9, C=8, D=2)
Pandas(Index=5, A=5, B=9, C=8, D=2)
Pandas(Index=6, A=1, B=3, C=6, D=0)
Pandas(Index=7, A=9, B=5, C=9, D=6)
Pandas(Index=8, A=6, B=8, C=8, D=3)
Pandas(Index=9, A=3, B=6, C=2, D=7)


## 2.3. Lấy thông tin cơ bản của DataFrame

In [None]:
# Thông tin cột
print(df1.columns)
print(df1.columns.values)

In [None]:
# Thông tin index (dòng)
print(df1.index)
print(df1.index.values)

In [None]:
# Thông tin về kích thước
print(df1.shape)
print(df1.ndim)
print(df1.size)

In [None]:
df1.head(3)

In [None]:
df1.tail(3)

In [None]:
df1.info()

In [None]:
df1.describe()

In [None]:
df1.memory_usage(index=False, deep=True)

## 2.4. Một số phép toán trên DataFrame

In [None]:
df2[df2 > 3].head()

In [None]:
df1.reset_index() / df2

In [233]:
df1 + 1

Unnamed: 0,A,B,C,D
1,4,7,10,3
2,4,6,5,3
3,1,3,3,8
4,5,10,7,5
5,2,10,9,3
6,6,10,9,3
7,2,4,7,1
8,10,6,10,7
9,7,9,9,4
10,4,7,3,8


In [236]:
# Broadcasting
df1 + np.array([1,2,3,4])

Unnamed: 0,A,B,C,D
1,4,8,12,6
2,4,7,7,6
3,1,4,5,11
4,5,11,9,8
5,2,11,11,6
6,6,11,11,6
7,2,5,9,4
8,10,7,12,10
9,7,10,11,7
10,4,8,5,11


## 2.5. Thêm/Xóa/Thay thế

**Xóa cột**

In [270]:
df3 = df1.copy()
df3.pop('C')

1     9
2     4
3     2
4     6
5     8
6     8
7     6
8     9
9     8
10    2
Name: C, dtype: uint8

In [None]:
df3

**Thêm cột**

In [290]:
df1['E'] = np.arange(10)

In [291]:
df1

Unnamed: 0,A,B,C,D,E
1,3,6,9,2,0
2,3,5,4,2,1
3,0,2,2,7,2
4,4,9,6,4,3
5,1,9,8,2,4
6,5,9,8,2,5
7,1,3,6,0,6
8,9,5,9,6,7
9,6,8,8,3,8
10,3,6,2,7,9


In [293]:
df1.insert(loc=2, column='F', value=np.arange(10)[::-1])
df1

Unnamed: 0,A,B,F,C,D,E
1,3,6,9,9,2,0
2,3,5,8,4,2,1
3,0,2,7,2,7,2
4,4,9,6,6,4,3
5,1,9,5,8,2,4
6,5,9,4,8,2,5
7,1,3,3,6,0,6
8,9,5,2,9,6,7
9,6,8,1,8,3,8
10,3,6,0,2,7,9


**Thay thế(Sửa)**

In [300]:
df1.replace([0,9],[10,19])

Unnamed: 0,A,B,F,C,D,E
1,3,6,19,19,2,10
2,3,5,8,4,2,1
3,10,2,7,2,7,2
4,4,19,6,6,4,3
5,1,19,5,8,2,4
6,5,19,4,8,2,5
7,1,3,3,6,10,6
8,19,5,2,19,6,7
9,6,8,1,8,3,8
10,3,6,10,2,7,19


**Sử dụng where và mask**

In [304]:
# Thay thế nếu điều kiện KHÔNG THỎA
df1.where(df1 > 5, 5, inplace=False)

Unnamed: 0,A,B,F,C,D,E
1,5,6,9,9,5,5
2,5,5,8,5,5,5
3,5,5,7,5,7,5
4,5,9,6,6,5,5
5,5,9,5,8,5,5
6,5,9,5,8,5,5
7,5,5,5,6,5,6
8,9,5,5,9,6,7
9,6,8,5,8,5,8
10,5,6,5,5,7,9


In [305]:
# Thay thế nếu điều kiện THỎA
df1.mask(df1 > 5, 5, inplace=False)

Unnamed: 0,A,B,F,C,D,E
1,3,5,5,5,2,0
2,3,5,5,4,2,1
3,0,2,5,2,5,2
4,4,5,5,5,4,3
5,1,5,5,5,2,4
6,5,5,4,5,2,5
7,1,3,3,5,0,5
8,5,5,2,5,5,5
9,5,5,1,5,3,5
10,3,5,0,2,5,5


## 2.6. Ghép nối/Trộn DataFrame

**2.6.1. Concat**

In [279]:
np.random.seed(1)
a1 = pd.DataFrame(np.random.randint(0, 10, size=(10,2)), columns=['C1', 'C2'])
a2 = pd.DataFrame(np.random.randint(0, 10, size=(10,2)), columns=['C3', 'C4'])

In [None]:
pd.concat([a1,a2], axis=1)

In [None]:
np.random.seed(2)
a3 = pd.DataFrame(np.random.randint(0, 10, size=(10,2)), columns=['C1', 'C2'])
pd.concat([a1,a3]).reset_index(drop=True)

**2.6.2. Append** (thực hiện cho dòng)

In [None]:
# Appending chỉ thực hiện cho rows
a1.append(a2, ignore_index=True)

In [None]:
a1.append(a3)

**2.6.3. Join** (thực hiện cho cột)

In [288]:
a1.join(a2)

Unnamed: 0,C1,C2,C3,C4
0,5,8,1,7
1,9,5,0,6
2,0,0,9,9
3,1,7,7,6
4,6,9,9,1
5,2,4,0,1
6,5,2,8,8
7,4,2,3,9
8,4,7,8,7
9,7,9,3,6


In [None]:
# Trùng tên cột?
a1.join(a3)

**2.6.4. Merge** (Theo kiểu SQL)

In [223]:
left = pd.DataFrame({"key": ["foo", "bar"], "C1": [1, 2]})
right = pd.DataFrame({"key": ["foo", "bar", "ok"], "C2": [4, 5, 6]})
pd.merge(left, right, on="key")

Unnamed: 0,key,C1,C2
0,foo,1,4
1,bar,2,5


In [231]:
product_order = pd.DataFrame({"product": ["banana", "beer", "milk", "bread"], "ID": [1, 2, 5, 7]})
product_info = pd.DataFrame({"ID": [1,2,3,4,5,6,7], 
                      "Aisle": ["fruits", "liquor", "coffee", "tea", "drink", "vegetables", "food"]})
pd.merge(product_order, product_info, on="ID")

Unnamed: 0,product,ID,Aisle
0,banana,1,fruits
1,beer,2,liquor
2,milk,5,drink
3,bread,7,food


In [232]:
pd.merge(product_order, product_info, on="ID")['Aisle']

0    fruits
1    liquor
2     drink
3      food
Name: Aisle, dtype: object