# Pandas

## Cơ bản về pandas

`Pandas` là viết tắt của `panel data`, pandas dataframe có thể coi như `dataframe` trong R

In [53]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Option hiển thị tối đa 8 dòng
pd.options.display.max_rows = 8

In [54]:
# Kiểm tra version pandas
pd.__version__

'2.0.3'

`dataframe` có thể được tạo ra từ các `Series`. `Series` có thể coi tương tự như `vector` trong R

In [55]:
# Tạo các data cần thiết
# series
population = pd.Series({'Germany': 81.3, 'Belgium': 11.3, 'France': 64.3, 
                        'United Kingdom': 64.9, 'Netherlands': 16.9})
population

Germany           81.3
Belgium           11.3
France            64.3
United Kingdom    64.9
Netherlands       16.9
dtype: float64

In [56]:
# dataframe
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

Unnamed: 0,country,population,area,capital
0,Belgium,11.3,30510,Brussels
1,France,64.3,671308,Paris
2,Germany,81.3,357050,Berlin
3,Netherlands,16.9,41526,Amsterdam
4,United Kingdom,64.9,244820,London


### Các cấu trúc dữ liệu cơ bản 

- List

In [57]:
x = ['One', "Two"]
x

['One', 'Two']

In [58]:
type(x)

list

- Dictionary: Có thêm index và không nhất thiết phải độ dài bằng nhau

In [59]:
df = {'state': ['Ohio', 'Ohio', 'Nevada'],
     'year': [2000, 2001, 2002, 2003]}
df

{'state': ['Ohio', 'Ohio', 'Nevada'], 'year': [2000, 2001, 2002, 2003]}

#### Series

Series là mảng một chiều, `Series` có thể chứa `index` và `values`. Series có thể coi như là mảng một chiều mở rộng của numpy array

In [60]:
import pandas as pd
obj = pd.Series([4,5,-7, 6])
obj

0    4
1    5
2   -7
3    6
dtype: int64

In [61]:
obj.values

array([ 4,  5, -7,  6], dtype=int64)

In [62]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [63]:
# Lấy thành phần từ 1 đến 2
obj[1:3]

1    5
2   -7
dtype: int64

In [64]:
# Đổi lại index
obj.index = ['a','b','c','d']
obj.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [65]:
obj['a']

4

In [66]:
obj[obj > 0]

a    4
b    5
d    6
dtype: int64

In [67]:
obj*2

a     8
b    10
c   -14
d    12
dtype: int64

In [68]:
pd.isnull(obj)

a    False
b    False
c    False
d    False
dtype: bool

In [69]:
obj['a']

4

In [70]:
pd.notnull(obj)

a    True
b    True
c    True
d    True
dtype: bool

**Biến category**: Trong pandas cho phép sử dụng biến category tương tự như factor của R

In [71]:
s = pd.Series(["a","b","c","a"], dtype="category")
s.describe()

count     4
unique    3
top       a
freq      2
dtype: object

#### DataFrame 

DataFrame có cấu trúc tương tự như R dataframe. Một dataframe có thể được tạo ra từ `dictionary` hoặc `Series`.

In [72]:
# Tạo dictionary
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002],
'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [73]:
data

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [74]:
# Convert sang data.frame
frame = pd.DataFrame(data)

In [75]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [76]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                  index=['one', 'two', 'three', 'four', 'five'])

In [77]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


### Làm việc với DataFrame

Khác với R, cấu trúc dữ liệu dataframe cho phép xử lý và tính toán dữ liệu cơ bản theo dạng `method`.

#### Chọn một biến

In [78]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

In [79]:
frame2['year']

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

In [80]:
frame2[['year', 'state']]

Unnamed: 0,year,state
one,2000,Ohio
two,2001,Ohio
three,2002,Ohio
four,2001,Nevada
five,2002,Nevada


#### Tạo biến mới

In [81]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [82]:
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


#### Index với loc và iloc

In [83]:
data = pd.Series(['a', 'b', 'c'], index = [1,3,5])

In [84]:
data

1    a
3    b
5    c
dtype: object

In [85]:
# Sử dụng index
data[1]

'a'

In [86]:
data.loc[3]

'b'

Với cách sử dụng `loc`, dataframe sẽ sử dụng index cho việc truy vấn dữ liệu. Nếu tên của index không đúng, sẽ không thể lọc được dữ liệu theo mục tiêu ban đầu.

---

In [87]:
# Sử dụng index theo vị trí, không phụ thuộc vào index
data.iloc[1]

'b'

In [88]:
data.iloc[2]

'c'

## Import dữ liệu trong pandas

### Kết nối với database

**Đọc dữ liệu từ Database**

```python
# Do not run
import pyodbc
conn = pyodbc.connect(
    r'DRIVER={ODBC Driver 13 for SQL Server};'
    r'SERVER=ADMINMI-JTBJEPG;' # Name of server
    r'DATABASE=learningsql;'   # Data base
    r'UID=sa;'                 # User
    r'PWD=123456'              # Password
    )
# cursor = conn.cursor()
import pandas as pd

df = pd.read_sql_query('SELECT * FROM ACCOUNT', conn)
df.head
df.describe()
```

**Ghi dữ liệu vào database**

```python
tip = pd.read_csv("99_dataset/tips.csv")
from sqlalchemy import create_engine

con = create_engine('mssql+pyodbc://sa:123@ADMIN/analytics?driver=ODBC Driver 13 for SQL Server')
tip.to_sql('tip', con, if_exists='replace')
```

### Import từ csv

```python
df = pd.read_csv("file.csv")
```

- Kiểm tra các kiểu dữ liệu có thể đọc

In [89]:
?pd.read_*

pd.read_clipboard
pd.read_csv
pd.read_excel
pd.read_feather
pd.read_fwf
pd.read_gbq
pd.read_hdf
pd.read_html
pd.read_json
pd.read_orc
pd.read_parquet
pd.read_pickle
pd.read_sas
pd.read_spss
pd.read_sql
pd.read_sql_query
pd.read_sql_table
pd.read_stata
pd.read_table
pd.read_xml

In [90]:
?pd.read_csv

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mread_csv[0m[1;33m([0m[1;33m
[0m    [0mfilepath_or_buffer[0m[1;33m:[0m [1;34m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[0m[1;33m,[0m[1;33m
[0m    [1;33m*[0m[1;33m,[0m[1;33m
[0m    [0msep[0m[1;33m:[0m [1;34m'str | None | lib.NoDefault'[0m [1;33m=[0m [1;33m<[0m[0mno_default[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0mdelimiter[0m[1;33m:[0m [1;34m'str | None | lib.NoDefault'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mheader[0m[1;33m:[0m [1;34m"int | Sequence[int] | None | Literal['infer']"[0m [1;33m=[0m [1;34m'infer'[0m[1;33m,[0m[1;33m
[0m    [0mnames[0m[1;33m:[0m [1;34m'Sequence[Hashable] | None | lib.NoDefault'[0m [1;33m=[0m [1;33m<[0m[0mno_default[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0mindex_col[0m[1;33m:[0m [1;34m'IndexLabel | Literal[False] | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0musecols[0m[1;33m=

## Các câu lệnh cơ bản với dataframe 

In [91]:
from sklearn import datasets
df = datasets.load_iris()

In [92]:
import pandas as pd

In [93]:
iris = pd.DataFrame(df.data,
                   columns = df.feature_names)
iris.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [94]:
iris.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

### Rename

**Cấu trúc**:
`df.rename(columns = {old_var : new_var})`

In [95]:
iris2 = iris.rename(columns = {'sepal length (cm)' : 'sepal_length',\
                   'sepal width (cm)' : 'sepal_width',
                   'petal length (cm)' : 'petal_length',
                   'petal width (cm)' : 'petal_width'})

In [96]:
iris2.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width'], dtype='object')

### Tạo biến mới 

In [97]:
iris2['new_var'] = 17

In [98]:
iris2.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,new_var
0,5.1,3.5,1.4,0.2,17
1,4.9,3.0,1.4,0.2,17
2,4.7,3.2,1.3,0.2,17


In [99]:
# Drop biến
iris2 = iris2.drop('new_var',\
                  axis = 'columns')

In [100]:
iris2.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


- Trong `pandas`, do DF được xử lý theo cả hai chiều nên cần khai báo axis = 'columns'
- Có thể rename index, khi đó khai báo `axis = 'index'`

In [101]:
iris2.rename({1:'a'}, axis = 'index').head(4)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
a,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2


### Select 

- Trong pandas, cách chọn biến không cho phép sử dụng `lazy evaluation` nên phép select phải liệt kê các cột tương tự như trong R base.

**R**

select(df, var1, var2)

select(df, -var3)

**Python**

df[['var1', 'var2']]

df.drop('var3', 1)

In [102]:
col_var = ['sepal_length', 'sepal_width']

In [103]:
iris2[col_var].head(4)

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1


In [104]:
# Bỏ biến sepal_length
iris2.drop('sepal_length', 1).head(3)

TypeError: DataFrame.drop() takes from 1 to 2 positional arguments but 3 were given

**Lưu ý**: Do dataframe của Python đánh dấu theo hai chiều: 0 - dòng, 1 - cột. Do đó, cần thêm index 1 để thể hiện drop theo cột

- Select trong pandas cho phép tương tự `select_if` trong dplyr

In [105]:
iris2.select_dtypes(include = ['float64']).head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


- Chọn theo row cho phép sử dụng toán tử `:` như R

In [106]:
iris2[1:3]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


#### Select nâng cao

Trong pandas, ta có thể lọc biến nâng cao với 3 options: `loc`, `iloc` và `ix`. 

- `iloc`: Cho phép lấy biến theo vị trí dạng integer
- `loc`: Cho phép lọc theo tên 


In [107]:
# 3 dòng đầu tiên, 2 cột đầu tiên
iris2.iloc[:3, :2]

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2


In [108]:
# 4 dòng đầu tiên, các cột từ sepal_width đến petal_width
iris2.loc[:4,'sepal_width':'petal_width']

Unnamed: 0,sepal_width,petal_length,petal_width
0,3.5,1.4,0.2
1,3.0,1.4,0.2
2,3.2,1.3,0.2
3,3.1,1.5,0.2
4,3.6,1.4,0.2


### Arrange

Không giống như R, `sort_values` là `method` trong Python

`df.sort_values('var1')`

`df.sort_values('var1', ascending=False)`

In [109]:
iris2.sort_values('sepal_length').head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
13,4.3,3.0,1.1,0.1
42,4.4,3.2,1.3,0.2
38,4.4,3.0,1.3,0.2


### Filter

**R**

```
filter(df, var > 20000 & var < 30000) 

filter(df, var == 'string')

df %>% filter(var != 'string')

df %>% filter(var != 'string')

df %>% group_by(group) %>% filter(sum(var) > 2000000)
```

**Python**

```
df[(df['var'] > 20000) & (df['var'] < 30000)]

df[df['var'] == 'string']

df[df['var'] != 'string']

df.groupby('group').filter(lambda x: sum(x['var']) > 2000000)
```

Cấu trúc filter của Pandas tương tự như R base

In [110]:
iris2[iris2['sepal_length'] <10]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
...,...,...,...,...
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


In [111]:
iris2.filter('sepal_length')

0
1
2
3
...
146
147
148
149


- `Pandas` cho phép filter theo hai cách là `loc` và `iloc`
    - `loc` cho phép lọc theo tên
    - `iloc` cho phép lọc theo vị trí

In [112]:
iris2.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [113]:
iris2.index

RangeIndex(start=0, stop=150, step=1)

In [114]:
# Lấy theo iloc của index
iris2.iloc[2]

sepal_length    4.7
sepal_width     3.2
petal_length    1.3
petal_width     0.2
Name: 2, dtype: float64

In [115]:
iris2[iris2['sepal_length'] == 5.1]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
17,5.1,3.5,1.4,0.3
19,5.1,3.8,1.5,0.3
21,5.1,3.7,1.5,0.4
...,...,...,...,...
39,5.1,3.4,1.5,0.2
44,5.1,3.8,1.9,0.4
46,5.1,3.8,1.6,0.2
98,5.1,2.5,3.0,1.1


**Tìm hiêu thêm về loc và iloc**:

- `df.loc[row_index, column_index]`: cho phép lựa chọn theo thứ tự và sử dụng toán tử `:` như R nhưng chỉ cho phép từ `index_1` đến `index_2-1`

- `df.iloc[row_index, column_index]`

In [116]:
iris2.iloc[2:5, 0:2]

Unnamed: 0,sepal_length,sepal_width
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


In [117]:
iris2.loc[2:5, ['sepal_length', 'petal_length']]

Unnamed: 0,sepal_length,petal_length
2,4.7,1.3
3,4.6,1.5
4,5.0,1.4
5,5.4,1.7


Các phương pháp này có thể được sử dụng trong việc gán

In [118]:
iris2.iloc[1:4, 3:4] = 1

In [119]:
iris2.iloc[1:4, 3:4]

Unnamed: 0,petal_width
1,1.0
2,1.0
3,1.0


### group by

**R**

```
df %>% group_by(group) 

df %>% group_by(group1, group2)

df %>% ungroup()
```

**Python**

```
df.groupby('group1')

df.groupby(['group1', 'group2'])

df.reset_index() 

df.groupby('group1', as_index=False)
```

In [120]:
df = pd.DataFrame({'group': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'value1': [3,2,1,4,5,3],
                     'value2': [2,4,3,2,1,5]})

In [121]:
df.head(3)

Unnamed: 0,group,value1,value2
0,A,3,2
1,B,2,4
2,C,1,3


In [122]:
df.groupby('group')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F1EE56B410>

#### Group summarise

**R**

```r
df %>% group_by(group) %>% summarise(mean_var1 = mean(var1))

df %>% group_by(group1, group2) %>% summarise(mean_var1 = mean(var1), 
                                              sum_var1 = sum(var1), 
                                              count_var1 = n())
```

**Python**

```python
df.groupby('group1')['var1'].agg({'mean_col' : np.mean()})

df.groupby(['group1', 'group2'])['var1]'].agg(['mean', 'sum', 'count'])
```

Tương ứng như `group_by` trong `dplyr`, `groupby` trong Python cho phép nhóm và thực hiện các câu lệnh tương ứng. Khi không đặt điều kiện cụ thể, nhóm aggregate sẽ áp dụng cho tất cả các biến

In [123]:
df = pd.DataFrame({
  'group': ['a', 'b', 'a', 'c'],
  'value1': np.arange(4),
  'value2': np.random.random(4)
})

In [124]:
df.groupby('group')['value1'].agg(['mean', 'sum', 'max'])

Unnamed: 0_level_0,mean,sum,max
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1.0,2,2
b,1.0,1,1
c,3.0,3,3


In [125]:
df.groupby('group').aggregate(np.mean)

Unnamed: 0_level_0,value1,value2
group,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1.0,0.176262
b,1.0,0.058276
c,3.0,0.175079


- Summarise theo các biến khác nhau

In [126]:
df.groupby('group').agg({
  'value1' : ['min', 'max'],
  'value2' : 'median'
})

Unnamed: 0_level_0,value1,value1,value2
Unnamed: 0_level_1,min,max,median
group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,0,2,0.176262
b,1,1,0.058276
c,3,3,0.175079


- Đổi tên biến summarise, sử dụng với `tupple`

In [127]:
df.groupby('group').agg(
  min_value1 = ('value1', 'min'),
  max_value1 = ('value1', 'max'),
  q25_value1 = ('value1', lambda x: np.quantile(x, 0.25))
)

Unnamed: 0_level_0,min_value1,max_value1,q25_value1
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0,2,0.5
b,1,1,1.0
c,3,3,3.0


#### Group mutate

**R**

df %>% group_by(group) %>% mutate(mean_var1 = mean(var1))

**Python**

df.groupby('group')['var1'].transform(np.mean)

In [128]:
# Biến đổi biến value thành mean trong từng nhóm
df.groupby('group').transform('mean')

Unnamed: 0,value1,value2
0,1.0,0.176262
1,1.0,0.058276
2,1.0,0.176262
3,3.0,0.175079


In [129]:
df['mean_value1'] = df.groupby('group')['value1'].transform('mean')

In [130]:
df

Unnamed: 0,group,value1,value2,mean_value1
0,a,0,0.206049,1.0
1,b,1,0.058276,1.0
2,a,2,0.146475,1.0
3,c,3,0.175079,3.0


- Tạo thêm biến mới

In [131]:
# Tạo hàm normalize
def normalize(x):
    return (x - np.mean(x)) / np.std(x)

In [132]:
x = [3,2,3,1,3,4,5,6,8]

In [133]:
np.mean(x)

3.888888888888889

In [134]:
np.std(x)

2.0245407953653998

In [135]:
normalize(x)

array([-0.43905704, -0.93299621, -0.43905704, -1.42693538, -0.43905704,
        0.05488213,  0.5488213 ,  1.04276047,  2.03063881])

In [136]:
df.groupby('group').transform(normalize)

Unnamed: 0,value1,value2,mean_value1
0,-1.0,1.0,
1,,,
2,1.0,-1.0,
3,,,


## Join

Tương tự như R, join trong Python có thể dùng hàm `merge`

### Cùng tên key

In [137]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake'],
                    'hire_date': [2004, 2008, 2012]})
print(df1); print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012


In [138]:
pd.merge(df1, df2)

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004


**Lưu ý**: Khi dùng merge, sẽ tự động bỏ các trường không chứa trong cả 2 bảng. Nếu muốn chuyển thành `left_join`, cần thêm option `how`

In [139]:
pd.merge(df1, df2, how = "left")

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008.0
1,Jake,Engineering,2012.0
2,Lisa,Engineering,2004.0
3,Sue,HR,


In [140]:
pd.merge(df1, df2, how = 'right')

Unnamed: 0,employee,group,hire_date
0,Lisa,Engineering,2004
1,Bob,Accounting,2008
2,Jake,Engineering,2012


### Khác tên key

In [141]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
print(df1); print(df3);

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000


In [142]:
pd.merge(df1, df3, left_on = 'employee', right_on = 'name')

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


In [143]:
# Drop name khi không cần thiết
pd.merge(df1, df3, left_on = 'employee', right_on = 'name').drop('name', axis = 1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


## Ghép dữ liệu

### Ghép dòng

In [144]:
df1 = pd.DataFrame(
{"a" : [4 ,5, 6], 
"b" : [7, 8, 9]},    
index = [1, 2, 3])

df2 = pd.DataFrame({
    "a" : [1,2],
    "b" : [8, 9]
})
print(df1); print(df2)

   a  b
1  4  7
2  5  8
3  6  9
   a  b
0  1  8
1  2  9


In [145]:
import pandas as pd
pd.concat([df1, df2])

Unnamed: 0,a,b
1,4,7
2,5,8
3,6,9
0,1,8
1,2,9


In [146]:
df3 = pd.DataFrame({
    "c" : ['x', 'y', 'z']})

In [147]:
pd.concat([df1, df3], axis = 1)

Unnamed: 0,a,b,c
1,4.0,7.0,y
2,5.0,8.0,z
3,6.0,9.0,
0,,,x


**Lưu ý**: Xảy ra lỗi trên vì df1 và df3 đang có 2 hệ thống index khác nhau. Muốn concat bình thường cần reset index

In [148]:
pd.concat([df1.reset_index(), df3], axis = 1)

Unnamed: 0,index,a,b,c
0,1,4,7,x
1,2,5,8,y
2,3,6,9,z


### Tổng hợp dữ liệu

In [149]:
my_df = pd.DataFrame({
    'group' : np.random.randint(1,5, 20),
    'x' : np.random.normal(10,1, 20),
    'y' : np.random.normal(1, 10, 20)
})
my_df

Unnamed: 0,group,x,y
0,2,10.222938,2.434105
1,3,8.335543,12.491412
2,3,10.411019,2.739797
3,3,8.265384,12.264567
...,...,...,...
16,3,10.630153,-4.672248
17,1,9.199517,11.096556
18,3,8.668900,1.545228
19,4,11.034319,-6.716728


In [150]:
# Summary toàn bộ data.frame
my_df.describe()

Unnamed: 0,group,x,y
count,20.0,20.0,20.0
mean,2.7,9.853291,0.796115
std,1.080935,0.939774,7.200215
min,1.0,8.265384,-15.044962
25%,2.0,9.176421,-3.747555
50%,3.0,10.064845,1.123586
75%,3.25,10.604171,5.097685
max,4.0,11.114436,12.491412


In [151]:
#Summary theo nhóm
my_df.groupby('group')['x'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,4.0,9.940815,1.254035,8.558697,9.039312,10.07985,10.981353,11.044866
2,3.0,10.261118,0.317032,9.964905,10.093921,10.222938,10.409224,10.595511
3,8.0,9.401066,0.942029,8.265384,8.585561,9.366372,10.226344,10.630153
4,5.0,10.262134,0.813653,9.318169,9.60343,10.240316,11.034319,11.114436


In [152]:
# Summary theo nhóm, chuyển thành data.frame
my_df.groupby('group')['x'].describe().unstack()

       group
count  1         4.000000
       2         3.000000
       3         8.000000
       4         5.000000
                  ...    
max    1        11.044866
       2        10.595511
       3        10.630153
       4        11.114436
Length: 32, dtype: float64

Trong pandas, có 3 cách chính tổng hợp dữ liệu như sau:

- Dùng list: `df['x'].agg(['mean', 'max'])`
- Dùng dictionary: `df.agg(['x': ['mean', 'max']])`
- Dùng tupple: `df.agg(mean_x = ('x', 'mean'), max_x = ('x', 'max'))`

In [153]:
# Dùng list
my_df.groupby('group')['x'].agg(['mean', 'max'])

Unnamed: 0_level_0,mean,max
group,Unnamed: 1_level_1,Unnamed: 2_level_1
1,9.940815,11.044866
2,10.261118,10.595511
3,9.401066,10.630153
4,10.262134,11.114436


In [154]:
# Dùng dictionary
my_df.groupby('group').agg({'x': ['mean', 'max'], 'y': ['min', 'max', lambda x: np.percentile(x, 0.5)]})

Unnamed: 0_level_0,x,x,y,y,y
Unnamed: 0_level_1,mean,max,min,max,<lambda_0>
group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,9.940815,11.044866,-3.144919,11.096556,-3.087216
2,10.261118,10.595511,-9.264218,5.993608,-9.147235
3,9.401066,10.630153,-4.672248,12.491412,-4.663865
4,10.262134,11.114436,-15.044962,4.23085,-14.878397


Với cách viết trên, sẽ hiện tên cột không như mong muốn, ta có thể sửa lại như sau:

In [155]:
p25 = lambda x: x.quantile(0.25)
p25.__name__ = "25%"

my_df.groupby('group').agg({'x': ['mean', p25]})  

Unnamed: 0_level_0,x,x
Unnamed: 0_level_1,mean,25%
group,Unnamed: 1_level_2,Unnamed: 2_level_2
1,9.940815,9.039312
2,10.261118,10.093921
3,9.401066,8.585561
4,10.262134,9.60343


In [156]:
# Dùng tuple
my_df.groupby('group').agg(q25_x = ('x', lambda x: np.percentile(x, 0.25)))

Unnamed: 0_level_0,q25_x
group,Unnamed: 1_level_1
1,8.563503
2,9.966195
3,8.266612
4,9.321021


### Aggregate, filter, transform & apply

Tương tự như R, Python cũng có thể áp dụng phương pháp: filter, transform, apply

In [157]:
# Set seed
rng = np.random.RandomState(0)
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                    'data1': range(6),
                    'data2': rng.randint(0, 10, 6)},
                    columns = ['key', 'data1', 'data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,5
1,B,1,0
2,C,2,3
3,A,3,3
4,B,4,7
5,C,5,9


In [158]:
df.groupby('key').aggregate(['min', np.median])

Unnamed: 0_level_0,data1,data1,data2,data2
Unnamed: 0_level_1,min,median,min,median
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,0,1.5,3,4.0
B,1,2.5,0,3.5
C,2,3.5,3,6.0


In [159]:
# Tìm min của data1 và max data2

In [160]:
df.groupby('key').aggregate({'data1': 'min',
                           'data2': np.median})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4.0
B,1,3.5
C,2,6.0


### Filter

In [161]:
def filter_func(x):
    return x['data2'].std > 4

In [162]:
#df.groupby('key').std()
df2 = df.groupby('key').aggregate('std')
print(df); print(df2)
df2

  key  data1  data2
0   A      0      5
1   B      1      0
2   C      2      3
3   A      3      3
4   B      4      7
5   C      5      9
       data1     data2
key                   
A    2.12132  1.414214
B    2.12132  4.949747
C    2.12132  4.242641


Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2.12132,1.414214
B,2.12132,4.949747
C,2.12132,4.242641


### Apply

Toán tử `x/= y` tương ứng với $x = \frac{x}{y}$

In [163]:
def norm_data2(x):
    x['data1'] /= x['data2'].sum()
    return x

In [164]:
df.groupby('key').apply(norm_data2)

Unnamed: 0_level_0,Unnamed: 1_level_0,key,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,0,A,0.0,5
A,3,A,0.375,3
B,1,B,0.142857,0
B,4,B,0.571429,7
C,2,C,0.166667,3
C,5,C,0.416667,9


### Kiểm tra các đặc tính khác của df

In [165]:
df.dtypes

key      object
data1     int64
data2     int32
dtype: object

In [166]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   key     6 non-null      object
 1   data1   6 non-null      int64 
 2   data2   6 non-null      int32 
dtypes: int32(1), int64(1), object(1)
memory usage: 252.0+ bytes


### Làm việc với missing value

In [167]:
data_null = pd.Series([1, np.nan, 'hello', None])

In [168]:
data_null.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [169]:
df_null = pd.DataFrame([[1, np.nan, 3],
                        [2, 3, np.nan],
                        [1,2,3]])
df_null

Unnamed: 0,0,1,2
0,1,,3.0
1,2,3.0,
2,1,2.0,3.0


In [170]:
# dropna sẽ loại tất cả các dòng chứa missing value
df_null.dropna()

Unnamed: 0,0,1,2
2,1,2.0,3.0


In [171]:
df_null.dropna(axis = 'columns')

Unnamed: 0,0
0,1
1,2
2,1


- `fillna`: Cho phép điền giá trị thiếu vào missing value

In [172]:
df_null.fillna(99)

Unnamed: 0,0,1,2
0,1,99.0,3.0
1,2,3.0,99.0
2,1,2.0,3.0


## Pivot table

Tương tự như reshape2 của R với dcast, pandas cho phép sử dụng pivot table

In [173]:
import seaborn as sns

In [174]:
titanic = pd.read_csv('./99_dataset/titanic.csv')

In [175]:
titanic.pivot_table(index = 'sex', columns = 'class',
                   aggfunc = {'survived': sum,
                             'fare': 'mean'})

Unnamed: 0_level_0,fare,fare,fare,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,106.125798,21.970121,16.11881,91,70,72
male,67.226127,19.741782,12.661633,45,17,47


## Melt data

In [176]:
my_df = pd.DataFrame({
    'id' : [1,2,3],
    'var1' : [3,4,5],
    'var2' : ['a', 'a', 'b'],
    'var3' : ['x', 'y', 'z']
})

In [177]:
my_df

Unnamed: 0,id,var1,var2,var3
0,1,3,a,x
1,2,4,a,y
2,3,5,b,z


In [178]:
pd.melt(my_df, 'id')

Unnamed: 0,id,variable,value
0,1,var1,3
1,2,var1,4
2,3,var1,5
3,1,var2,a
...,...,...,...
5,3,var2,b
6,1,var3,x
7,2,var3,y
8,3,var3,z


In [179]:
pd.melt(my_df, ['id', 'var1'])

Unnamed: 0,id,var1,variable,value
0,1,3,var2,a
1,2,4,var2,a
2,3,5,var2,b
3,1,3,var3,x
4,2,4,var3,y
5,3,5,var3,z


## Các hàm khác

### Lag

In [180]:
df = pd.DataFrame({
    'date' : [1,2,3],
    'value' : [6,7,8]
})
df

Unnamed: 0,date,value
0,1,6
1,2,7
2,3,8


In [181]:
df['value_1'] = df['value'].shift(1)

In [182]:
df

Unnamed: 0,date,value,value_1
0,1,6,
1,2,7,6.0
2,3,8,7.0


### Rank

In [183]:
my_df = pd.DataFrame({
    'id' : [1,2,3],
    'var1' : [5,4,2],
    'var2' : ['a', 'a', 'b'],
    'var3' : ['x', 'y', 'z']
})

## Lưu dữ liệu

In [184]:
my_df = pd.DataFrame({
    'x' : [1,2,3],
    'y' : [3,4,5],
    'group' : ['a', 'a', 'b']
})

In [185]:
import pickle 

In [186]:
#| eval: false
# Save data
my_df.to_pickle('my_df.pkl')

In [187]:
# Load dữ liệu
my_df2 = pd.read_pickle('my_df.pkl')

In [188]:
my_df2.head()

Unnamed: 0,x,y,group
0,1,3,a
1,2,4,a
2,3,5,b


## Tài liệu tham khảo
- https://github.com/jorisvandenbossche/pandas-tutorial
