# Pandas

Khi bắt tay vào công việc phân tích số liệu, việc đầu tiên ta cần phải làm là thu thập dữ liệu từ nhiều nguồn khác nhau. Sau khi hoàn thành xong bước này, ta sẽ phải dành phần lớn thời gian để làm sạch, biến đổi và tổng hợp dữ liệu nhằm tìm kiếm các insights hoặc chuẩn bị dữ liệu cho các bước xây dựng mô hình, dự báo.

Với python, định dạng dữ liệu cho phép phân tích & xử lý dữ liệu gọi là `DataFrame` - tương tự như dataframe trong R. Tuy nhiên, định dạng này không có mặc định trong python mà phải đi qua thư viện `pandas` (viết tắt của `panel data`). Trong chương này, ta sẽ tìm hiểu thư viện nổi tiếng nhất trong `python` trong việc làm sạch và biến đổi dữ liệu là `pandas`.

Ta có thể cài đặt & gọi pandas như sau

```python
# install
pip install pandas
# load
import pandas as pd
```

## Giới thiệu về pandas

`Pandas` là viết tắt của `panel data`, pandas dataframe có thể coi như `dataframe` trong R

In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Option hiển thị tối đa 5 dòng
pd.options.display.max_rows = 5

In [2]:
# Kiểm tra version pandas
pd.__version__

'2.2.2'

`DataFrame` có thể được tạo ra từ 2 cách:

- Tạo ra trực tiếp từ  `Series` từ `list` hoặc `dictionary`. `Series` là một dạng dữ liệu kiểu vector (chỉ hỗ trợ với `pandas`) - 
- Tạo ra từ `dictionary`

In [3]:
# Tạo các data cần thiết
# series
population = pd.Series({'Germany': 81.3, 'Belgium': 11.3, 'France': 64.3, 
                        'United Kingdom': 64.9, 'Netherlands': 16.9})
population

Germany           81.3
Belgium           11.3
France            64.3
United Kingdom    64.9
Netherlands       16.9
dtype: float64

In [4]:
# dataframe
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

Unnamed: 0,country,population,area,capital
0,Belgium,11.3,30510,Brussels
1,France,64.3,671308,Paris
2,Germany,81.3,357050,Berlin
3,Netherlands,16.9,41526,Amsterdam
4,United Kingdom,64.9,244820,London


### Series

Series là mảng một chiều, `Series` có thể chứa `index` và `values`. Series có thể coi như là mảng một chiều mở rộng của numpy array

In [5]:
obj = pd.Series([4,5,-7, 6])
obj

0    4
1    5
2   -7
3    6
dtype: int64

In [6]:
obj.values

array([ 4,  5, -7,  6], dtype=int64)

In [7]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [8]:
# Lấy thành phần từ 1 đến 2
obj[1:3]

1    5
2   -7
dtype: int64

In [9]:
# Đổi lại index
obj.index = ['a','b','c','d']
obj.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [10]:
obj['a']

4

In [11]:
obj[obj > 0]

a    4
b    5
d    6
dtype: int64

In [12]:
obj*2

a     8
b    10
c   -14
d    12
dtype: int64

In [13]:
pd.isnull(obj)

a    False
b    False
c    False
d    False
dtype: bool

In [14]:
obj['a']

4

In [15]:
pd.notnull(obj)

a    True
b    True
c    True
d    True
dtype: bool

---

**Biến category**: Trong pandas cho phép sử dụng biến category - là loại định dạng dữ liệu cho phép tạo các nhóm. Định dạng này tương tự như `factor` của R

In [16]:
s = pd.Series(["a","b","c","a"], dtype="category")
s.describe()

count     4
unique    3
top       a
freq      2
dtype: object

Ta cũng có thể biến đổi định dạng dữ liệu sang category theo các cách khác như sau

In [17]:
x = pd.Series(["a", "a", "b"])
x = x.astype("category")
type(x)

pandas.core.series.Series

In [18]:
x.describe()

count     3
unique    2
top       a
freq      2
dtype: object

### DataFrame 

DataFrame có cấu trúc tương tự như R dataframe. Một dataframe có thể được tạo ra từ `dictionary` hoặc `Series`.

In [19]:
# Tạo dictionary
df_dict = {'group': ['a', 'b', 'a', 'b', 'c'],
'value': [1, 2, 4, 2, 3]}

In [20]:
df_dict

{'group': ['a', 'b', 'a', 'b', 'c'], 'value': [1, 2, 4, 2, 3]}

In [21]:
# Convert sang data.frame
df = pd.DataFrame(df_dict)

In [22]:
df

Unnamed: 0,group,value
0,a,1
1,b,2
2,a,4
3,b,2
4,c,3


In [23]:
df2 = pd.DataFrame(df_dict, columns=['group', 'value'],
                  index=['one', 'two', 'three', 'four', 'five'])

In [24]:
df2

Unnamed: 0,group,value
one,a,1
two,b,2
three,a,4
four,b,2
five,c,3


---

Trong công việc biến đổi dữ liệu, bất kỳ ngôn ngữ phân tích nào cũng có 3 nhóm hàm lớn.

- **Nhóm 1** - các hàm truy vấn dữ liệu: Lấy dữ liệu theo dòng, theo cột và theo điều kiện. 
- **Nhóm 2** - Các hàm tổng hợp dữ liệu: Tính toán tổng hợp dữ liệu theo nhiều chiều. 
- **Nhóm 3** - Các hàm biến đổi dữ liệu: Tạo mới, biến đổi các dữ liệu cũ thành các dữ liệu mới, join

Trong phần này, chúng ta sẽ giới thiệu nhanh các nhóm câu lệnh cơ bản trên.

**Lưu ý**: Khác với R, cấu trúc dữ liệu dataframe cho phép xử lý và tính toán dữ liệu cơ bản theo dạng `method`.

Để thực hành 1 số câu lệnh cơ bản của pandas, ta dùng tập dữ liệu `mtcars` từ thư viện `plotnine`, module `data`

```python
pip install plotnine
```

In [25]:
from plotnine.data import mtcars

Với dataframe, có 3 `method` thường dùng là

- `head`: Hiển thị các dòng đầu tiên
- `describe`: Thống kê cơ bản các biến
- `info`: Định dạng các biến

In [26]:
# Hiển thị 3 dòng đầu tiên
mtcars.head(3)

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


In [27]:
# Thống kê cơ bản
mtcars.describe()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
count,32.000000,32.0000,32.000000,32.0000,32.000000,32.00000,32.00000,32.0000,32.00000,32.0000,32.0000
mean,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125
...,...,...,...,...,...,...,...,...,...,...,...
75%,22.800000,8.0000,326.000000,180.0000,3.920000,3.61000,18.90000,1.0000,1.00000,4.0000,4.0000
max,33.900000,8.0000,472.000000,335.0000,4.930000,5.42400,22.90000,1.0000,1.00000,5.0000,8.0000


In [28]:
# Hiển thị định dạng dữ liệu
mtcars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 12 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    32 non-null     object 
 1   mpg     32 non-null     float64
 2   cyl     32 non-null     int64  
 3   disp    32 non-null     float64
 4   hp      32 non-null     int64  
 5   drat    32 non-null     float64
 6   wt      32 non-null     float64
 7   qsec    32 non-null     float64
 8   vs      32 non-null     int64  
 9   am      32 non-null     int64  
 10  gear    32 non-null     int64  
 11  carb    32 non-null     int64  
dtypes: float64(5), int64(6), object(1)
memory usage: 3.1+ KB


## Nhóm câu lệnh truy vấn dữ liệu


### Chọn biến

Trong pandas có 2 cách chọn các biến

- **Cách 1**: Sử dụng dạng attribute - bị giới hạn và chỉ dùng với 1 biến
- **Cách 2**: Sử dụng các biến dưới dạng list

In [29]:
# Cách 1: Chọn biến mpg theo attribute
mtcars.mpg

0     21.0
1     21.0
      ... 
30    15.0
31    21.4
Name: mpg, Length: 32, dtype: float64

In [30]:
# Cách 2: Chọn biến theo dạng list
mtcars['mpg']

0     21.0
1     21.0
      ... 
30    15.0
31    21.4
Name: mpg, Length: 32, dtype: float64

In [31]:
mtcars[['mpg', 'cyl']]

Unnamed: 0,mpg,cyl
0,21.0,6
1,21.0,6
...,...,...
30,15.0,8
31,21.4,4


In [32]:
var = ['mpg', 'cyl', 'vs']
mtcars[var]

Unnamed: 0,mpg,cyl,vs
0,21.0,6,0
1,21.0,6,0
...,...,...,...
30,15.0,8,0
31,21.4,4,1


Ngoài cách trên, ta có thể sử dụng method `filter` như sau

In [33]:
mtcars.\
    filter(['mpg', 'cyl', 'am'])

Unnamed: 0,mpg,cyl,am
0,21.0,6,1
1,21.0,6,1
...,...,...,...
30,15.0,8,1
31,21.4,4,1


### Lọc dữ liệu theo dòng

Ta có thể lấy thứ tự số dòng trong 1 dataframe với `iloc`

In [34]:
# Lấy các dòng từ 1 đến 4
mtcars.iloc[1:4]

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1


`iloc` cũng cho phép lấy theo cột

In [35]:
# 3 dòng đầu tiên, 2 biến đầu tiên
mtcars.iloc[1:4, 1:3]

Unnamed: 0,mpg,cyl
1,21.0,6
2,22.8,4
3,21.4,6


---

**Lưu ý**: Trong pandas, ta có thể kết hợp truy vấn cả cột và dòng theo dạng `pipe` khi áp dụng method do mỗi object biến đổi dữ liệu trong pandas đều là một DataFrame

In [36]:
mtcars[['mpg', 'cyl']].\
    iloc[1:4]

Unnamed: 0,mpg,cyl
1,21.0,6
2,22.8,4
3,21.4,6


### Lọc dữ liệu theo điều kiện

`pandas` cho phép lọc theo điều kiện theo 2 cách:

- Sử dụng phương pháp lọc thông thường, cấu truc: `df[df.var1 > a & df.var2 < b]`
- Sử dụng `query` method

**Ví dụ sử dụng phương pháp lọc thông thường**

In [37]:
# Lọc mpg >= 20
mtcars[mtcars.mpg >= 20]

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.90,2.620,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.90,2.875,17.02,0,1,4,4
...,...,...,...,...,...,...,...,...,...,...,...,...
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.90,1,1,5,2
31,Volvo 142E,21.4,4,121.0,109,4.11,2.780,18.60,1,1,4,2


In [38]:
# mpg >= 20 & cyl = 4
mtcars[(mtcars.mpg >= 20) & (mtcars.cyl == 4)]

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
2,Datsun 710,22.8,4,108.0,93,3.85,2.320,18.61,1,1,4,1
7,Merc 240D,24.4,4,146.7,62,3.69,3.190,20.00,1,0,4,2
...,...,...,...,...,...,...,...,...,...,...,...,...
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.90,1,1,5,2
31,Volvo 142E,21.4,4,121.0,109,4.11,2.780,18.60,1,1,4,2


Với cách thức như trên, ta sẽ gặp khó khăn trong trường hợp các bước truy vấn dữ liệu xảy ra liên tục.
Ví dụ:

- Từ `mtcars` lấy các dòng có `mpg >= 20`
- Từ tập dữ liệu vừa có, lọc tiếp `cyl = 4`

Để giải quyết các trường hợp trên, ta có thể sử dụng query method như sau

In [39]:
# mpg >= 20
mtcars.query('mpg >= 20')

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.90,2.620,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.90,2.875,17.02,0,1,4,4
...,...,...,...,...,...,...,...,...,...,...,...,...
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.90,1,1,5,2
31,Volvo 142E,21.4,4,121.0,109,4.11,2.780,18.60,1,1,4,2


In [40]:
# Lấy thêm điều kiện cyl == 4
mtcars.\
    query('mpg >= 20').\
    query('cyl == 4')

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
2,Datsun 710,22.8,4,108.0,93,3.85,2.320,18.61,1,1,4,1
7,Merc 240D,24.4,4,146.7,62,3.69,3.190,20.00,1,0,4,2
...,...,...,...,...,...,...,...,...,...,...,...,...
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.90,1,1,5,2
31,Volvo 142E,21.4,4,121.0,109,4.11,2.780,18.60,1,1,4,2


**Lưu ý**: Ta có thể kết hợp liên tục các điều kiện lọc theo dòng & cột tương tự như pipe operator trong R như sau

In [41]:
mtcars.\
    query('mpg >= 20').\
    query('cyl == 4')\
    [['mpg', 'am']].\
    query('am == 1')

Unnamed: 0,mpg,am
2,22.8,1
17,32.4,1
...,...,...
27,30.4,1
31,21.4,1


Trong ví dụ trên, ta trải qua 4 bước như sau:

1. Từ tập mtcars, lấy ra `mpg >= 20`
2. Được kêt quả bao nhiêu, lọc điều kiện `cyl == 4`
3. Được kết quả bao nhiêu, lấy 2 cột `mpg và am`
4. Được kết quả bao nhiêu, lọc điều kiện `am == 1`

---

**Lưu ý**: `pandas` cho phép chúng ta có thể sử dụng linh hoạt nhiều cách thức truy vấn dữ liệu. Tuy nhiên, với phương thức lấy dữ liệu theo dòng và cột thuận tiên, ta nên sử dụng kết hợp giữa `filter` & `query`.

In [42]:
mtcars.\
    query('mpg >= 20 & am == 1').\
    filter(['mpg', 'am']).\
    iloc[1:4]

Unnamed: 0,mpg,am
1,21.0,1
2,22.8,1
17,32.4,1


### Sắp xếp lại dữ liệu

Ta có thể sort lại dữ liệu với method `sort_values`

In [43]:
# Lọc từ thấp đến cao
mtcars.sort_values('mpg')

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
15,Lincoln Continental,10.4,8,460.0,215,3.00,5.424,17.82,0,0,3,4
14,Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.250,17.98,0,0,3,4
...,...,...,...,...,...,...,...,...,...,...,...,...
17,Fiat 128,32.4,4,78.7,66,4.08,2.200,19.47,1,1,4,1
19,Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.90,1,1,4,1


In [44]:
# Lọc từ cao đến thấp
mtcars.sort_values('mpg', ascending = False)

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
19,Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.90,1,1,4,1
17,Fiat 128,32.4,4,78.7,66,4.08,2.200,19.47,1,1,4,1
...,...,...,...,...,...,...,...,...,...,...,...,...
15,Lincoln Continental,10.4,8,460.0,215,3.00,5.424,17.82,0,0,3,4
14,Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.250,17.98,0,0,3,4


## Nhóm câu lệnh biến đổi dữ liệu

### Đổi tên biến

**Cấu trúc**:
`df.rename(columns = {old_var : new_var})`

In [45]:
mtcars_2 = mtcars.rename(columns = {
    'mpg' : 'mpg_new',
    'cyl' : 'cyl_new'
})
mtcars_2.head()

Unnamed: 0,name,mpg_new,cyl_new,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


### Tạo & xóa biến mới 

Ta có thể tạo và xóa biến bằng cách gán một cột mới và sử dụng `drop` method

In [46]:
# Tạo biến mới
mtcars['new_var'] = 4
mtcars.head(3)

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,new_var
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,4


In [47]:
# Drop biến new_var
mtcars.drop('new_var',\
            axis = 'columns').\
        head(3)

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


**Lưu ý**: Khi drop biến, ta phải lưu ý gán lại giá trị vào dataframe ban đầu. Như cách viết trên, `mtcars` sẽ chưa được loại bỏ biến `new_var`

In [48]:
mtcars.head(3)

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,new_var
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,4


In [49]:
# Xóa hoàn toàn new_var
mtcars = mtcars.drop('new_var', axis = 'columns')
mtcars.head(3)

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


Bên cạnh các phương pháp trên, để thuận tiện cho việc tạo `chain operator`, ta có thể dùng `assign` method

In [50]:
mtcars.assign(
    cyl_sqrt = lambda row: row["cyl"] ** 2,
    mpg_new = lambda row: row["mpg"] / row["cyl"]
).filter(['mpg', 'cyl', 'cyl_sqrt', 'mpg_new'])

Unnamed: 0,mpg,cyl,cyl_sqrt,mpg_new
0,21.0,6,36,3.500
1,21.0,6,36,3.500
...,...,...,...,...
30,15.0,8,64,1.875
31,21.4,4,16,5.350


### Tạo biến mới theo nhóm

Ta có thể tạo biến mới theo nhóm bằng cách kết hợp giữa `groupby` và `transform`. Công thức như sau


```python
df['new_var'] = df.groupby('group_var')['calculated_var'].transform(`function`)
```

In [51]:
# Biến đổi biến value thành mean trong từng nhóm
mtcars.groupby('am')['mpg'].transform('mean')

0     24.392308
1     24.392308
        ...    
30    24.392308
31    24.392308
Name: mpg, Length: 32, dtype: float64

In [52]:
# Tạo biến mới
mtcars['new_var'] = mtcars.groupby('am')['mpg'].transform('mean')

In [53]:
mtcars.query('am == 0')

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,new_var
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,17.147368
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.440,17.02,0,0,3,2,17.147368
...,...,...,...,...,...,...,...,...,...,...,...,...,...
23,Camaro Z28,13.3,8,350.0,245,3.73,3.840,15.41,0,0,3,4,17.147368
24,Pontiac Firebird,19.2,8,400.0,175,3.08,3.845,17.05,0,0,3,2,17.147368


In [54]:
mtcars.query('am == 1')

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,new_var
0,Mazda RX4,21.0,6,160.0,110,3.90,2.620,16.46,0,1,4,4,24.392308
1,Mazda RX4 Wag,21.0,6,160.0,110,3.90,2.875,17.02,0,1,4,4,24.392308
...,...,...,...,...,...,...,...,...,...,...,...,...,...
30,Maserati Bora,15.0,8,301.0,335,3.54,3.570,14.60,0,1,5,8,24.392308
31,Volvo 142E,21.4,4,121.0,109,4.11,2.780,18.60,1,1,4,2,24.392308


### Join

Tương tự như R, join trong Python có thể dùng hàm `merge`

In [55]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake'],
                    'hire_date': [2004, 2008, 2012]})
print(df1); print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012


In [56]:
pd.merge(df1, df2)

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004


**Lưu ý**: Khi dùng merge, sẽ tự động bỏ các trường không chứa trong cả 2 bảng. Nếu muốn chuyển thành `left_join`, cần thêm option `how`

In [57]:
pd.merge(df1, df2, how = "left")

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008.0
1,Jake,Engineering,2012.0
2,Lisa,Engineering,2004.0
3,Sue,HR,


In [58]:
pd.merge(df1, df2, how = 'right')

Unnamed: 0,employee,group,hire_date
0,Lisa,Engineering,2004
1,Bob,Accounting,2008
2,Jake,Engineering,2012


---

Với trường hợp bảng dữ liệu khác key, ta cần lựa chọn các biến ở bảng

In [59]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
print(df1); print(df3);

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000


In [60]:
pd.merge(df1, df3, left_on = 'employee', right_on = 'name')

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


In [61]:
# Drop name khi không cần thiết
pd.merge(df1, df3, 
         left_on = 'employee', 
         right_on = 'name').\
    drop('name', axis = 1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


### Ghép dữ liệu

Với pandas, cấu trúc của DataFrame được chia thành hàng và cột. Do đó, cả 2 trường hợp ghép dòng và ghép cột, ta có thể dùng hàm `concat`

#### Ghép dòng

In [62]:
df1 = pd.DataFrame(
{"a" : [4 ,5, 6], 
"b" : [7, 8, 9]},    
index = [1, 2, 3])

df2 = pd.DataFrame({
    "a" : [1,2],
    "b" : [8, 9]
})
print(df1); print(df2)

   a  b
1  4  7
2  5  8
3  6  9
   a  b
0  1  8
1  2  9


In [63]:
import pandas as pd
pd.concat([df1, df2])

Unnamed: 0,a,b
1,4,7
2,5,8
3,6,9
0,1,8
1,2,9


#### Ghép theo cột

In [64]:
df3 = pd.DataFrame({
    "c" : ['x', 'y', 'z']})

In [65]:
pd.concat([df1, df3], axis = 1)

Unnamed: 0,a,b,c
1,4.0,7.0,y
2,5.0,8.0,z
3,6.0,9.0,
0,,,x


**Lưu ý**: Xảy ra lỗi trên vì df1 và df3 đang có 2 hệ thống index khác nhau. Muốn ghép theo cột bình thường cần reset index của dataframe đầu tiên.

In [66]:
pd.concat([df1.reset_index(), df3], axis = 1)

Unnamed: 0,index,a,b,c
0,1,4,7,x
1,2,5,8,y
2,3,6,9,z


## Tổng hợp dữ liệu

### groupby & aggregate

`pandas` cho phép sử dụng nhiều cách linh hoạt để tổng hợp dữ liệu nhanh chóng với `agg` method kết hợp với `groupby` method

In [67]:
# Summary toàn bộ data.frame
mtcars.describe()

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,new_var
count,32.000000,32.0000,32.000000,32.0000,32.000000,32.00000,32.00000,32.0000,32.00000,32.0000,32.0000,32.000000
mean,20.090625,6.1875,230.721875,146.6875,3.596563,3.21725,17.84875,0.4375,0.40625,3.6875,2.8125,20.090625
...,...,...,...,...,...,...,...,...,...,...,...,...
75%,22.800000,8.0000,326.000000,180.0000,3.920000,3.61000,18.90000,1.0000,1.00000,4.0000,4.0000,24.392308
max,33.900000,8.0000,472.000000,335.0000,4.930000,5.42400,22.90000,1.0000,1.00000,5.0000,8.0000,24.392308


In [68]:
#Summary theo nhóm với biến mpg
mtcars.\
    groupby(['am', 'vs'])['mpg'].\
    describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
am,vs,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,0,12.0,15.05,2.774396,10.4,14.05,15.2,16.625,19.2
0,1,7.0,20.742857,2.471071,17.8,18.65,21.4,22.15,24.4
1,0,6.0,19.75,4.008865,15.0,16.775,20.35,21.0,26.0
1,1,7.0,28.371429,4.757701,21.4,25.05,30.4,31.4,33.9


In [69]:
# Summary theo nhóm, chuyển thành data.frame
mtcars.\
    groupby(['am', 'vs'])['mpg'].\
    describe().\
    unstack()

Unnamed: 0_level_0,count,count,mean,mean,std,std,min,min,25%,25%,50%,50%,75%,75%,max,max
vs,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1
am,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
0,12.0,7.0,15.05,20.742857,2.774396,2.471071,10.4,17.8,14.05,18.65,15.2,21.4,16.625,22.15,19.2,24.4
1,6.0,7.0,19.75,28.371429,4.008865,4.757701,15.0,21.4,16.775,25.05,20.35,30.4,21.0,31.4,26.0,33.9


---

Trong pandas, có 3 cách chính tổng hợp dữ liệu như sau:

- Dùng list: `df['x'].agg(['mean', 'max'])`
- Dùng dictionary: `df.agg(['x': ['mean', 'max']])`
- Dùng tupple: `df.agg(mean_x = ('x', 'mean'), max_x = ('x', 'max'))`

In [70]:
# Dùng list
mtcars.groupby('am')['mpg'].agg(['mean', 'max'])
# agg có thể viết đầy đủ thành aggregate

Unnamed: 0_level_0,mean,max
am,Unnamed: 1_level_1,Unnamed: 2_level_1
0,17.147368,24.4
1,24.392308,33.9


In [71]:
# Dùng dictionary
mtcars.\
    groupby('am').\
    agg({'mpg': ['mean', 'max'], 
         'wt': ['min', 'max', lambda x: np.percentile(x, 0.5)]})

Unnamed: 0_level_0,mpg,mpg,wt,wt,wt
Unnamed: 0_level_1,mean,max,min,max,<lambda_0>
am,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
0,17.147368,24.4,2.465,5.424,2.52665
1,24.392308,33.9,1.513,3.57,1.51912


Với cách viết trên, sẽ hiện tên cột không như mong muốn, ta có thể sửa lại như sau:

In [72]:
p25 = lambda x: x.quantile(0.25)
p25.__name__ = "25%"

mtcars.\
    groupby('am').\
    agg({'mpg': ['mean', p25]})  

Unnamed: 0_level_0,mpg,mpg
Unnamed: 0_level_1,mean,25%
am,Unnamed: 1_level_2,Unnamed: 2_level_2
0,17.147368,14.95
1,24.392308,21.0


Với cách thứ 3, dùng dưới dạng thể hiện tuple sẽ cho phép ta tùy biến nhanh chóng việc tổng hợp dữ liệu

In [73]:
# Dùng tuple
mtcars.\
    groupby('am').\
    agg(q25_x = ('mpg', lambda x: np.percentile(x, 0.25)))

Unnamed: 0_level_0,q25_x
am,Unnamed: 1_level_1
0,10.4
1,15.024


### Pivot table

Bên cạnh nhóm `groupby` & `agg`, `pandas` cho phép sử dụng `pivot_table` để tổng hợp dữ liệu nhiều chiều

In [74]:
mtcars.pivot_table(
    index = 'am', 
    columns = 'vs',
    aggfunc = {'mpg': 'sum',
               'wt' : 'mean'}
)

Unnamed: 0_level_0,mpg,mpg,wt,wt
vs,0,1,0,1
am,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,180.6,145.2,4.104083,3.194286
1,118.5,198.6,2.8575,2.028286


## Các hàm nâng cao

### select_dtype

pandas cho phép select cùng lúc các biến cùng thuộc một kiểu dữ liệu. Xem ví dụ dưới đây:

In [75]:
df = pd.DataFrame({
    'x': [1, 2, 3],
    'y' : ['a', 'b', 'c'],
    'z' : [4, 5, 6],
    't' : [0.5, 6.2, 7.8]
})
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   x       3 non-null      int64  
 1   y       3 non-null      object 
 2   z       3 non-null      int64  
 3   t       3 non-null      float64
dtypes: float64(1), int64(2), object(1)
memory usage: 228.0+ bytes


In [76]:
# Chọn các biến là biến số dạng integer
df.select_dtypes(include = 'int64')

Unnamed: 0,x,z
0,1,4
1,2,5
2,3,6


In [77]:
# Chọn các biến là biến số
df.select_dtypes(include = ['int64', 'float64'])

Unnamed: 0,x,z,t
0,1,4,0.5
1,2,5,6.2
2,3,6,7.8


### Xoay chiều dữ liệu

Pandas cho phép xoay chiều dữ liệu từ ngang sang dọc và dọc sang ngang với 2 hàm:

-  `melt`
- `long_to_wide`

In [78]:
my_df = pd.DataFrame({
    'id' : [1,2,3],
    'var1' : [3,4,5],
    'var2' : ['a', 'a', 'b'],
    'var3' : ['x', 'y', 'z']
})

In [79]:
my_df

Unnamed: 0,id,var1,var2,var3
0,1,3,a,x
1,2,4,a,y
2,3,5,b,z


In [80]:
pd.melt(my_df, 'id')

Unnamed: 0,id,variable,value
0,1,var1,3
1,2,var1,4
...,...,...,...
7,2,var3,y
8,3,var3,z


In [81]:
pd.melt(my_df, ['id', 'var1'])

Unnamed: 0,id,var1,variable,value
0,1,3,var2,a
1,2,4,var2,a
...,...,...,...,...
4,2,4,var3,y
5,3,5,var3,z


---

Xoay chiều từ dọc sang ngang

In [82]:
df2 = pd.melt(my_df, 'id')
df2

Unnamed: 0,id,variable,value
0,1,var1,3
1,2,var1,4
...,...,...,...
7,2,var3,y
8,3,var3,z


In [83]:
df2.pivot_table(index = 'id', columns = 'variable', 
                values = 'value', aggfunc = 'first').\
    reset_index()

variable,id,var1,var2,var3
0,1,3,a,x
1,2,4,a,y
2,3,5,b,z


### Làm việc với missing value

In [84]:
data_null = pd.Series([1, np.nan, 'hello', None])

In [85]:
data_null.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [86]:
df_null = pd.DataFrame([[1, np.nan, 3],
                        [2, 3, np.nan],
                        [1,2,3]])
df_null

Unnamed: 0,0,1,2
0,1,,3.0
1,2,3.0,
2,1,2.0,3.0


In [87]:
# dropna sẽ loại tất cả các dòng chứa missing value
df_null.dropna()

Unnamed: 0,0,1,2
2,1,2.0,3.0


In [88]:
df_null.dropna(axis = 'columns')

Unnamed: 0,0
0,1
1,2
2,1


- `fillna`: Cho phép điền giá trị thiếu vào missing value

In [89]:
df_null.fillna(99)

Unnamed: 0,0,1,2
0,1,99.0,3.0
1,2,3.0,99.0
2,1,2.0,3.0


### Các hàm khác

#### Lag

In [90]:
df = pd.DataFrame({
    'date' : [1,2,3],
    'value' : [6,7,8]
})
df

Unnamed: 0,date,value
0,1,6
1,2,7
2,3,8


In [91]:
df['value_1'] = df['value'].shift(1)

In [92]:
df

Unnamed: 0,date,value,value_1
0,1,6,
1,2,7,6.0
2,3,8,7.0


#### Rank

In [93]:
my_df = pd.DataFrame({
    'id' : [1,2,3],
    'var1' : [5,4,2],
    'var2' : ['a', 'a', 'b'],
    'var3' : ['x', 'y', 'z']
})

## Đọc & ghi dữ liệu


### Import dữ liệu


#### Kết nối với database

Ta có thể đọc dữ liệu từ SQL Server thông qua odbc


```python
import pyodbc
conn = pyodbc.connect(
    r'DRIVER={ODBC Driver 13 for SQL Server};'
    r'SERVER=ADMINMI-JTBJEPG;' # Name of server
    r'DATABASE=learningsql;'   # Data base
    r'UID=user_name;'                 # User
    r'PWD=pwd'              # Password
    )
# cursor = conn.cursor()
import pandas as pd

df = pd.read_sql_query('SELECT * FROM ACCOUNT', conn)
df.head
```



**Ghi dữ liệu vào database**: Khi có một dataframe tên df, ta có thể sử dụng method `to_sql` để ghi vào server như sau

```python
from sqlalchemy import create_engine
con = create_engine('mssql+pyodbc://user_name:password@ADMIN/analytics?driver=ODBC Driver 13 for SQL Server')
dataframe.to_sql('tip', con, if_exists='replace')
```

#### Import từ file

```python
df = pd.read_csv("file.csv")
```

- Kiểm tra các kiểu dữ liệu có thể đọc

In [94]:
?pd.read_*

pd.read_clipboard
pd.read_csv
pd.read_excel
pd.read_feather
pd.read_fwf
pd.read_gbq
pd.read_hdf
pd.read_html
pd.read_json
pd.read_orc
pd.read_parquet
pd.read_pickle
pd.read_sas
pd.read_spss
pd.read_sql
pd.read_sql_query
pd.read_sql_table
pd.read_stata
pd.read_table
pd.read_xml

### Lưu dữ liệu

**Lưu dưới dạng pickle**

In [95]:
my_df = pd.DataFrame({
    'x' : [1,2,3],
    'y' : [3,4,5],
    'group' : ['a', 'a', 'b']
})

In [96]:
import pickle 

```python
# Save data
my_df.to_pickle('my_df.pkl')
```

```python
# Load dữ liệu
my_df2 = pd.read_pickle('my_df.pkl')
```

---

Ngoài ra, pandas có thể hỗ trợ dễ dàng lưu trữ thành các định dạng khác như xlsx, parquet,...

In [97]:
my_df.to_excel('test_excel_pdf.xlsx')
my_df.to_parquet('test_pq.xlsx')

## Tài liệu tham khảo

- [https://github.com/jorisvandenbossche/pandas-tutorial]()
- [https://aeturrell.github.io/python4DS/data-tidy.html]()