In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
np.set_printoptions(precision=3, suppress=True)

print(pd.__version__)

1.3.4


# 1. Text

## 1.1. Tạo dữ liệu string trong Pandas

In [2]:
pd.Series(['Hoàng', 'Nam', 'Thắng', 'Vân'])

0    Hoàng
1      Nam
2    Thắng
3      Vân
dtype: object

**Thay loại `object` bằng `string`**

In [3]:
pd.Series(['Hoàng', 'Nam', 'Thắng', 'Vân'], dtype='string')

0    Hoàng
1      Nam
2    Thắng
3      Vân
dtype: string

In [4]:
pd.Series(['Hoàng', 'Nam', 'Thắng', 'Vân'], dtype=pd.StringDtype())

0    Hoàng
1      Nam
2    Thắng
3      Vân
dtype: string

## 1.2. Một số thao tác trên string

In [5]:
ds_hv = pd.Series(['Hoàng', 'Nam', 'Thắng', 'Vân', 'nam'])
ds_hv

0    Hoàng
1      Nam
2    Thắng
3      Vân
4      nam
dtype: object

**Chuyển sang dạng chữ in hoa hoặc thường**

In [7]:
ds_hv.str.upper()

0    HOÀNG
1      NAM
2    THẮNG
3      VÂN
4      NAM
dtype: object

In [8]:
ds_hv.str.lower()

0    hoàng
1      nam
2    thắng
3      vân
4      nam
dtype: object

**Đếm các giá trị**

In [9]:
# Hàm count: tạo ra vector
ds_hv = ds_hv.str.lower()
ds_hv.str.count('nam')

0    0
1    1
2    0
3    0
4    1
dtype: int64

In [6]:
# Hàm value_counts(tương tự 'unique()'' với 'return_counts=True')
ds_hv.str.lower().value_counts()

nam      2
hoàng    1
thắng    1
vân      1
dtype: int64

**Bỏ các item khuyết**

In [10]:
ds_hv = pd.Series(['Hoàng  Minh    ', 'Văn-Nam', 'Quốc_Thắng', np.nan, '  Hồng Vân']).astype('string')
ds_hv

0    Hoàng  Minh    
1            Văn-Nam
2         Quốc_Thắng
3               <NA>
4           Hồng Vân
dtype: string

In [11]:
# Dùng hàm dropna(inplace=True/False)
ds_hv.dropna()

0    Hoàng  Minh    
1            Văn-Nam
2         Quốc_Thắng
4           Hồng Vân
dtype: string

**Loại bỏ khoảng trắng ở 2 đầu chuỗi**

In [12]:
ds_hv = ds_hv.dropna().str.strip()
ds_hv

0    Hoàng  Minh
1        Văn-Nam
2     Quốc_Thắng
4       Hồng Vân
dtype: string

**Thay thế ký tự/chuỗi con**

In [13]:
# Thay thế hai khoảng trắng bằng 1 khoảng trắng
ds_hv = ds_hv.str.replace('  ', ' ')
ds_hv

0    Hoàng Minh
1       Văn-Nam
2    Quốc_Thắng
4      Hồng Vân
dtype: string

In [14]:
# Tương tự: thay thế '-' bằng ' '
ds_hv = ds_hv.str.replace('-', ' ')
ds_hv

0    Hoàng Minh
1       Văn Nam
2    Quốc_Thắng
4      Hồng Vân
dtype: string

In [15]:
# Tương tự: thay thế '_' bằng ' '
ds_hv = ds_hv.str.replace('_', ' ')
ds_hv.str.lower()

0    hoàng minh
1       văn nam
2    quốc thắng
4      hồng vân
dtype: string

**Kết hợp nhiều lệnh trong một dòng**

In [16]:
ds_hv = pd.Series(['Hoàng  Minh    ', 'Văn-Nam', 'Quốc_Thắng', np.nan, '  Hồng Vân']).astype('string')
ds_hv.dropna().str.strip().str.lower().str.replace('-', ' ').str.replace('_', ' ').str.replace('  ', ' ')

0    hoàng minh
1       văn nam
2    quốc thắng
4      hồng vân
dtype: string

# 2. Datetime

### 2.1. Chuỗi các ngày

In [17]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [18]:
dates = pd.date_range("20220113", periods=6)
dates

DatetimeIndex(['2022-01-13', '2022-01-14', '2022-01-15', '2022-01-16',
               '2022-01-17', '2022-01-18'],
              dtype='datetime64[ns]', freq='D')

In [19]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2022-01-13,-0.810241,-1.240634,-1.515587,-0.070148
2022-01-14,-0.73311,0.360084,1.173754,-0.296382
2022-01-15,-1.761437,0.905596,0.512103,-1.307575
2022-01-16,1.596819,0.212973,-0.386892,-0.215306
2022-01-17,0.511306,-0.007567,-0.511205,0.779516
2022-01-18,1.460334,0.037713,0.71481,0.573433


### 2.2. Một số cách chuyển đổi từ text và dữ liệu số sang datetime

**Gọi hàm `to_datetime`**

In [20]:
# Tạo dataframe chứa dữ liệu
df2 = pd.DataFrame({'date': ['3/10/2000', '3/11/2000', '3/12/2000'],
                   'value': [2, 3, 4]})
df2

Unnamed: 0,date,value
0,3/10/2000,2
1,3/11/2000,3
2,3/12/2000,4


In [21]:
# Thực hiện chuyển đổi cột date (dạng text)
# Lưu ý: phải thực hiện phép gán
df2['date'] = pd.to_datetime(df2['date'], dayfirst=True)
df2

Unnamed: 0,date,value
0,2000-10-03,2
1,2000-11-03,3
2,2000-12-03,4


**Sử dụng format như `datetime` trong Python**

In [22]:
df3 = pd.DataFrame({'date': ['2016-6-10 20:30:0', 
                            '2016-7-1 19:45:30', 
                            '2013-10-12 4:5:1'],
                   'value': [2, 3, 4]})
df3['date'] = pd.to_datetime(df3['date'], format="%Y-%d-%m %H:%M:%S")
df3

Unnamed: 0,date,value
0,2016-10-06 20:30:00,2
1,2016-01-07 19:45:30,3
2,2013-12-10 04:05:01,4


**Convert một DataFrame chứa các cột thành phần biểu diễn thời gian**

In [45]:
df4 = pd.DataFrame({'year': [2015, 2015, 2015, 2016, 2016],
                    'month': [2, 3, 3, 3, 2],
                    'day': [4, 5, 15, 8, 4],
                    'hour': [12, 15, 12, 11, 15],
                    'minute': [30, 45, 50, 45, 20]})
#df4['date'] = pd.to_datetime(df4)
df4

Unnamed: 0,year,month,day,hour,minute
0,2015,2,4,12,30
1,2015,3,5,15,45
2,2015,3,15,12,50
3,2016,3,8,11,45
4,2016,2,4,15,20


In [46]:
vd = pd.to_datetime(df4)
vd 

0   2015-02-04 12:30:00
1   2015-03-05 15:45:00
2   2015-03-15 12:50:00
3   2016-03-08 11:45:00
4   2016-02-04 15:20:00
dtype: datetime64[ns]

In [47]:
df4['date'] = pd.to_datetime(df4)
df4

Unnamed: 0,year,month,day,hour,minute,date
0,2015,2,4,12,30,2015-02-04 12:30:00
1,2015,3,5,15,45,2015-03-05 15:45:00
2,2015,3,15,12,50,2015-03-15 12:50:00
3,2016,3,8,11,45,2016-03-08 11:45:00
4,2016,2,4,15,20,2016-02-04 15:20:00


**Select các dòng dữ liệu theo thời gian**

In [48]:
df4 = df4.set_index('date')
df4

Unnamed: 0_level_0,year,month,day,hour,minute
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-02-04 12:30:00,2015,2,4,12,30
2015-03-05 15:45:00,2015,3,5,15,45
2015-03-15 12:50:00,2015,3,15,12,50
2016-03-08 11:45:00,2016,3,8,11,45
2016-02-04 15:20:00,2016,2,4,15,20


In [29]:
list(df4.index)

[Timestamp('2015-02-04 12:30:00'),
 Timestamp('2015-03-05 15:45:00'),
 Timestamp('2015-03-15 12:50:00'),
 Timestamp('2016-03-08 11:45:00')]

In [49]:
df4.loc['2015-03']

Unnamed: 0_level_0,year,month,day,hour,minute
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-03-05 15:45:00,2015,3,5,15,45
2015-03-15 12:50:00,2015,3,15,12,50


In [50]:
# Thực hiện lại với năm 2016
df4.loc['2016']

Unnamed: 0_level_0,year,month,day,hour,minute
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-03-08 11:45:00,2016,3,8,11,45
2016-02-04 15:20:00,2016,2,4,15,20


# 3. Dữ liệu dạng categorical

**Khởi tạo với tham số dtype**

In [31]:
sc1 = pd.Series(['very bad', 'good','bad', 'good', 'very good', 'good', 'bad'], dtype='category')
sc1

0     very bad
1         good
2          bad
3         good
4    very good
5         good
6          bad
dtype: category
Categories (4, object): ['bad', 'good', 'very bad', 'very good']

**Khởi tạo bằng lớp Categorical**

In [32]:
pd.Categorical(['very bad','good','bad', 'good', 'very good', 'good', 'bad'])

['very bad', 'good', 'bad', 'good', 'very good', 'good', 'bad']
Categories (4, object): ['bad', 'good', 'very bad', 'very good']

In [33]:
# Sử dụng các phân loại được định sẵn và thứ tự (order):
# 2 tham số: categories và ordered
c = ['very bad', 'bad', 'good', 'very good']
sc2 = pd.Categorical(['very bad','good','bad', 'good', 'very good', 'good', 'bad'], 
                     categories=c, 
                     ordered=True
                    )
sc2

['very bad', 'good', 'bad', 'good', 'very good', 'good', 'bad']
Categories (4, object): ['very bad' < 'bad' < 'good' < 'very good']

**Tự định nghĩa một loại dữ liệu Categorical**

In [35]:
from pandas.api.types import CategoricalDtype
my_type = CategoricalDtype(categories=['very bad', 'bad', 'good', 'very good'], ordered=True)

sc3 = pd.Series(['very bad', 'good','bad', 'good', 'very good', 'good', 'bad']).astype(my_type)
sc3

0     very bad
1         good
2          bad
3         good
4    very good
5         good
6          bad
dtype: category
Categories (4, object): ['very bad' < 'bad' < 'good' < 'very good']

In [37]:
# Thực hiện lại với tham số dtype
sc4 = pd.Series(['very bad', 'good','bad', 'good', 'very good', 'good', 'bad'], dtype=my_type)
sc4

0     very bad
1         good
2          bad
3         good
4    very good
5         good
6          bad
dtype: category
Categories (4, object): ['very bad' < 'bad' < 'good' < 'very good']

**Sort dữ liệu với chỉ định thứ tự các category**

In [38]:
# Với Series thông thường: theo thứ tự ABC
sc1.sort_values()

2          bad
6          bad
1         good
3         good
5         good
0     very bad
4    very good
dtype: category
Categories (4, object): ['bad', 'good', 'very bad', 'very good']

In [53]:
# Với Series dạng Categorical: theo thứ tự được định nghĩa
sc2.sort_values()

['very bad', 'bad', 'bad', 'good', 'good', 'good', 'very good']
Categories (4, object): ['very bad' < 'bad' < 'good' < 'very good']