# 2. Combining Datasets: Merge and Join

In [1]:
import pandas as pd
import numpy as np

class display(object):
    """Display HTML representation of multiple objects"""
    template = """<div style="float: left; padding: 10px;">
    <p style='font-family:"Courier New", Courier, monospace'>{0}</p>{1}
    </div>"""
    def __init__(self, *args):
        self.args = args
        
    def _repr_html_(self):
        return '\n'.join(self.template.format(a, eval(a)._repr_html_())
                         for a in self.args)
    
    def __repr__(self):
        return '\n\n'.join(a + '\n' + repr(eval(a))
                           for a in self.args)

## One to one joins

In [2]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})
display('df1', 'df2')

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


Sử dụng `merge` để merge 2 bảng với nhau. `merge` sẽ tự nhận ra 2 bảng có cùng 1 cột là `employee`.<br>
Các giá trị trong `employee` được dùng làm key để join 2 bảng, thứ tự của các giá trị trong cột này ở 2 bảng không cần khớp với nhau.

In [3]:
df3 = pd.merge(df1, df2)
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


## Many-to-one joins

Merge many to one là cột key của MỘT trong 2 bảng sẽ có giá trị duplicate, khi đó tất cả các giá trị duplicate đó sẽ đồng thời được merge với giá trị của cột kia

In [4]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})
display('df3', 'df4', 'pd.merge(df3, df4)')

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014

Unnamed: 0,group,supervisor
0,Accounting,Carly
1,Engineering,Guido
2,HR,Steve

Unnamed: 0,employee,group,hire_date,supervisor
0,Bob,Accounting,2008,Carly
1,Jake,Engineering,2012,Guido
2,Lisa,Engineering,2004,Guido
3,Sue,HR,2014,Steve


## Many to many joins

Many to many joins khi cột key của cả 2 bảng đều có giá trị duplicate, khi này các dòng sẽ được sinh ra thêm tự động để đảm bảo mọi giá trị của cả 2 bảng đều được sử dụng để tạo ra các dòng không trùng lặp

In [5]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})
display('df1', 'df5', "pd.merge(df1, df5)")

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,group,skills
0,Accounting,math
1,Accounting,spreadsheets
2,Engineering,coding
3,Engineering,linux
4,HR,spreadsheets
5,HR,organization

Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


## Join với các điều kiện thủ công

Tự chọn cột nào là cột key để join 2 bảng với param `on`. Có thể truyền vào `on` tên 1 cột hoặc 1 list nhiều cột

In [6]:
display('df1', 'df2', "pd.merge(df1, df2, on='employee')")

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


Trong trường hợp cột cần chọn làm key khác tên ở 2 bảng thì có thể sử dụng `left_on` và `right_on` để chọn cột làm key cho từng bảng

In [7]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})
display('df1', 'df3', 'pd.merge(df1, df3, left_on="employee", right_on="name")')

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000

Unnamed: 0,employee,group,name,salary
0,Bob,Accounting,Bob,70000
1,Jake,Engineering,Jake,80000
2,Lisa,Engineering,Lisa,120000
3,Sue,HR,Sue,90000


Sau khi `merge` thì cả 2 cột key là khác tên, do đó đều được giữ lại. Chúng ta có thể xóa đi bằng `drop`

In [8]:
pd.merge(df1, df3, left_on="employee", right_on="name").drop('name', axis=1)

Unnamed: 0,employee,group,salary
0,Bob,Accounting,70000
1,Jake,Engineering,80000
2,Lisa,Engineering,120000
3,Sue,HR,90000


Ngoài ra có thể `merge` bằng index của từng bảng.

In [9]:
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')
display('df1a', 'df2a')

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014


In [10]:
display('df1a', 'df2a',
        "pd.merge(df1a, df2a, left_index=True, right_index=True)")

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


Để đơn giản hơn, có thể sử dụng `join` của `pandas` để merge 2 bảng lại với key là index của từng bảng

In [11]:
display('df1a', 'df2a', 'df1a.join(df2a)')

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0_level_0,hire_date
employee,Unnamed: 1_level_1
Lisa,2004
Bob,2008
Jake,2012
Sue,2014

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


Thậm chí có thể kết hợp index và column name để làm key cho từng bảng khi merge

In [12]:
display('df1a', 'df3', "pd.merge(df1a, df3, left_index=True, right_on='name')")

Unnamed: 0_level_0,group
employee,Unnamed: 1_level_1
Bob,Accounting
Jake,Engineering
Lisa,Engineering
Sue,HR

Unnamed: 0,name,salary
0,Bob,70000
1,Jake,80000
2,Lisa,120000
3,Sue,90000

Unnamed: 0,group,name,salary
0,Accounting,Bob,70000
1,Engineering,Jake,80000
2,Engineering,Lisa,120000
3,HR,Sue,90000


## Join bảng với các điều kiện giá trị không tồn tại

Khi cột key của 2 bảng không hoàn toàn khớp nhau. Mặc định join chỉ merge những key chung của cả 2 bảng (intersection)

In [13]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])
display('df6', 'df7', 'pd.merge(df6, df7)')

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Mary,bread,wine


Intersection còn được gọi là `inner join`

In [14]:
pd.merge(df6, df7, how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


Các keyword có thể được truyền vào `how`: `inner`, `outer`, `left`, `right`.<br>
`outer` giống như `union` trong toán học, hay còn được gọi là hợp của 2 set.<br>
Giá trị trong 2 cột key đều xuất hiện trong bảng sau khi merge, những giá trị bị thiếu sẽ được điền tự động bằng null

In [15]:
display('df6', 'df7', "pd.merge(df6, df7, how='outer')")

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


`left` và `right` tương ứng sẽ merge dựa vào key của cột bên trái hoặc phải, những giá trị khác cột key tương ứng sẽ bị xóa

In [16]:
display('df6', 'df7', "pd.merge(df6, df7, how='left')")

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


Trong 2 bảng có nhiều hơn 1 cột trùng tên nhau<br>
Mặc định `merge` sẽ tạo ra các suffix default là `_x` và `_y` để khiến các cột trong bảng sau khi join được unique

In [17]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})
display('df8', 'df9', 'pd.merge(df8, df9, on="name")')

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2

Unnamed: 0,name,rank_x,rank_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


Chúng ta có thể customize suffix bằng keyword `suffixes`

In [18]:
display('df8', 'df9', 'pd.merge(df8, df9, on="name", suffixes=["_L", "_R"])')

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2

Unnamed: 0,name,rank_L,rank_R
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


## Một số ví dụ kết hợp những functions đã học

Data về US

In [19]:
pop = pd.read_csv('../data/state-population.csv')
areas = pd.read_csv('../data/state-areas.csv')
abbrevs = pd.read_csv('../data/state-abbrevs.csv')
display('pop.head()', 'areas.head()', 'abbrevs.head()')

Unnamed: 0,state/region,ages,year,population
0,AL,under18,2012,1117489.0
1,AL,total,2012,4817528.0
2,AL,under18,2010,1130966.0
3,AL,total,2010,4785570.0
4,AL,under18,2011,1125763.0

Unnamed: 0,state,area (sq. mi)
0,Alabama,52423
1,Alaska,656425
2,Arizona,114006
3,Arkansas,53182
4,California,163707

Unnamed: 0,state,abbreviation
0,Alabama,AL
1,Alaska,AK
2,Arizona,AZ
3,Arkansas,AR
4,California,CA


### Đề bài: sắp sếp US state theo mật độ dân số của năm 2010

#### Step 1: Cần join các bảng chứa thông tin lại với nhau -> Bảng pop và abbrevs để có thông tin state theo năm

In [20]:
merged = pd.merge(pop, abbrevs, how='outer',
                  left_on='state/region', right_on='abbreviation')
merged = merged.drop('abbreviation', axis=1) # drop duplicate info
merged.head()

Unnamed: 0,state/region,ages,year,population,state
0,AL,under18,2012,1117489.0,Alabama
1,AL,total,2012,4817528.0,Alabama
2,AL,under18,2010,1130966.0,Alabama
3,AL,total,2010,4785570.0,Alabama
4,AL,under18,2011,1125763.0,Alabama


#### Step 2: Kiểm tra xem có cột nào chưa được match với nhau

In [21]:
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state            True
dtype: bool

Kiểm tra những dòng có population null

In [22]:
merged[merged['population'].isnull()].head()

Unnamed: 0,state/region,ages,year,population,state
2448,PR,under18,1990,,
2449,PR,total,1990,,
2450,PR,total,1991,,
2451,PR,under18,1991,,
2452,PR,total,1993,,


In [23]:
x = merged[merged['population'].isnull()]
x.loc[x['year'] > 2000].shape[0]

0

Những dòng không có thông tin population thường là những dòng có năm trước 2000, có thể lúc đó chưa có data, target của chúng ta là ở năm 2010. Nên những trường hợp này cũng không cần xử lý gì thêm<br>
Cột `state` cũng có giá trị null, đồng nghĩa với giá trị của một số state ở bảng `abbrevs` bị trống

In [24]:
merged.loc[merged['state'].isnull(), 'state/region'].unique()

array(['PR', 'USA'], dtype=object)

#### Step 3: Xử lý các thông tin không được match
Chỉ có 2 giá trị thuộc `state/region` có những dòng bị trống cột `state`. Chúng ta có thể manually set giá trị cho chúng:

In [25]:
merged.loc[merged['state/region'] == "PR", 'state'] = "Puerto Rico"
merged.loc[merged['state/region'] == "USA", 'state'] = "United States"
merged.isnull().any()

state/region    False
ages            False
year            False
population       True
state           False
dtype: bool

#### Quay lại bước 1: Merge thông tin từ population vào area

In [26]:
final = pd.merge(merged, areas, on='state', how='left')
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


Kiểm tra thông tin mismatch

In [27]:
final.isnull().any()

state/region     False
ages             False
year             False
population        True
state            False
area (sq. mi)     True
dtype: bool

In [28]:
final.loc[final["area (sq. mi)"].isnull(), "state"].unique()

array(['United States'], dtype=object)

US là cả nước, nếu thiếu thông tin về area thì có thể bổ sung bằng sum area của tất cả các bang, tuy nhiên đề bài không hỏi sắp sếp theo US, mà theo các states, nên có thể drop thông tin các dòng của US

In [29]:
final.dropna(inplace=True)
final.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
0,AL,under18,2012,1117489.0,Alabama,52423.0
1,AL,total,2012,4817528.0,Alabama,52423.0
2,AL,under18,2010,1130966.0,Alabama,52423.0
3,AL,total,2010,4785570.0,Alabama,52423.0
4,AL,under18,2011,1125763.0,Alabama,52423.0


Kiểm tra lại thông tin của bảng 1 lần nữa

In [30]:
final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2476 entries, 0 to 2495
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   state/region   2476 non-null   object 
 1   ages           2476 non-null   object 
 2   year           2476 non-null   int64  
 3   population     2476 non-null   float64
 4   state          2476 non-null   object 
 5   area (sq. mi)  2476 non-null   float64
dtypes: float64(2), int64(1), object(3)
memory usage: 135.4+ KB


Filter ra những rows thuộc năm 2010 và ages bằng total

In [31]:
#data2010 = final.loc[final["year"] == 2010 & final["ages"] == "total"]

In [32]:
final[(final["year"] == 2010) & (final["ages"] == "total")].shape

(52, 6)

In [33]:
data2010 = final.loc[(final["year"] == 2010) & (final["ages"] == "total")]

In [34]:
data2010.head()

Unnamed: 0,state/region,ages,year,population,state,area (sq. mi)
3,AL,total,2010,4785570.0,Alabama,52423.0
91,AK,total,2010,713868.0,Alaska,656425.0
101,AZ,total,2010,6408790.0,Arizona,114006.0
189,AR,total,2010,2922280.0,Arkansas,53182.0
197,CA,total,2010,37333601.0,California,163707.0


Bắt đầu tính mật độ dân số của từng bang

In [35]:
data2010.set_index('state', inplace=True)
density = data2010['population'] / data2010['area (sq. mi)']

In [36]:
density

state
Alabama                   91.287603
Alaska                     1.087509
Arizona                   56.214497
Arkansas                  54.948667
California               228.051342
Colorado                  48.493718
Connecticut              645.600649
Delaware                 460.445752
District of Columbia    8898.897059
Florida                  286.597129
Georgia                  163.409902
Hawaii                   124.746707
Idaho                     18.794338
Illinois                 221.687472
Indiana                  178.197831
Iowa                      54.202751
Kansas                    34.745266
Kentucky                 107.586994
Louisiana                 87.676099
Maine                     37.509990
Maryland                 466.445797
Massachusetts            621.815538
Michigan                 102.015794
Minnesota                 61.078373
Mississippi               61.321530
Missouri                  86.015622
Montana                    6.736171
Nebraska              

In [37]:
x = [1,2,37,65,4]
x_ = sorted(x)
x_

[1, 2, 4, 37, 65]

In [38]:
x.sort()


In [39]:
x

[1, 2, 4, 37, 65]

In [40]:
x = [("a", 4), ("u", 9), ("uj", 0)]
y = sorted(x, key=lambda i: i[1])

In [41]:
y

[('uj', 0), ('a', 4), ('u', 9)]

Sắp xếp giá trị giảm dần theo mật độ dân số

In [42]:
density.sort_values(ascending=False, inplace=True)
density.head()

state
District of Columbia    8898.897059
Puerto Rico             1058.665149
New Jersey              1009.253268
Rhode Island             681.339159
Connecticut              645.600649
dtype: float64

# 1. Read Google Sheet from Python

## 1.1 Create a service account and credential

1. Create a project: https://console.developers.google.com/projectselector/apis/library?pli=1&supportedpurview=project
2. Enable API for google sheet and google drive
3. Create credentials (service account keys)
    - Service account details: name it
    - Grant this service account access to project: Editor
4. Download key credentials (json)
```
{
    "type": "service_account",
    "project_id": "api-project-XXX",
    "private_key_id": "2cd … ba4",
    "private_key": "-----BEGIN PRIVATE KEY-----\nNrDyLw … jINQh/9\n-----END PRIVATE KEY-----\n",
    "client_email": "473000000000-yoursisdifferent@developer.gserviceaccount.com",
    "client_id": "473 … hd.apps.googleusercontent.com",
    ...
}
```
5. Move credentials file to `~/.config/gspread/service_account.json`, or yiu can put it anywhere but remember its path

## 1.2 Read a spreadsheet using name, link, id

1. Create a sheet and share it to `client_email` in the credentials just downloaded
2. Create a sheet using API

In [43]:
import gspread

Đọc credentials trực tiếp từ `~/.config/gspread/service_account.json`

In [44]:
gc = gspread.service_account()

Đọc credentials từ path truyền vào thủ công

In [45]:
#gc = gspread.service_account(filename="~/.config/gspread/service_account.json")

Đọc google sheet từ tên sheet

In [46]:
sheet = gc.open('Film collection')

Đọc google sheet từ id sheet (trên link)

In [47]:
sheet = gc.open_by_key("1Qrfa-u4fdRCHRwgqom0bbZjrZRqQLGcc7H1F35NI7f8")

Đọc google sheet trực tiếp từ link

In [48]:
sheet = gc.open_by_url("https://docs.google.com/spreadsheets/d/1Qrfa-u4fdRCHRwgqom0bbZjrZRqQLGcc7H1F35NI7f8/edit#gid=1193572116")

## 1.3 Tạo vad share spreadsheet

In [49]:
new_sheet = gc.create('A new spreadsheet test')

Share spreadsheet<br>
- Share to whom (email), None, group email, domain name<br>
- perm_type: user or group or domain or anyone
- role: onwer, reader, writer
- notify: need to notify to users being shared?
- email_message: email message sent to users

In [50]:
new_sheet.share('otto@example.com', perm_type='user', role='writer')

## 1.4 Selecting a Worksheet

1. By index

In [51]:
worksheet = sheet.get_worksheet(1)

In [52]:
worksheet

<Worksheet 'Trang tính2' id:1193572116>

2. By name

In [53]:
#worksheet = sheet.worksheet("January")

WorksheetNotFound: January

3. By sheet 1 (basic case)

In [None]:
worksheet = sheet.sheet1
worksheet.id

0

4. Get list of all worksheet

In [None]:
worksheet_list = sheet.worksheets()
worksheet_list

[<Worksheet 'Trang tính1' id:0>, <Worksheet 'Trang tính2' id:1193572116>]

5. Create a new worksheet

In [None]:
worksheet = sheet.add_worksheet(title="A new worksheet", rows=50, cols=20)

APIError: {'code': 403, 'message': 'The caller does not have permission', 'status': 'PERMISSION_DENIED'}

6. Xóa worksheet

In [None]:
#sheet.del_worksheet(worksheet)

7. Lấy giá trị của cell

Sử dụng A1 notation

In [None]:
val = worksheet.acell('B1').value
val

'Tv Series Name'

Sử dụng vị trí dòng và cột

In [None]:
val = worksheet.cell(1, 2).value
val

'Tv Series Name'

Nếu muốn lấy formula thì truyền thêm tham số `value_render_option='FORMULA'` vào hàm `acell` hoặc `cell`

Lấy giá trị của cả dòng hoặc cả cột

In [None]:
values_list = worksheet.row_values(1)
values_list = worksheet.col_values(1)

Lấy giá trị của cả worksheet, return list of lists

In [None]:
data = worksheet.get_all_values()

In [None]:
df = pd.DataFrame(data[1:], columns=data[0])

In [None]:
df.head()

Unnamed: 0,STT,Tv Series Name,Season,Status,Link,Quality
0,1.0,11 22 63,All season,Finish,https://www.fshare.vn/folder/ZBBBGZEP469H,1080p
1,2.0,12 Monkeys,All season,On going,https://www.fshare.vn/folder/8T63MLVCQHXX,1080p
2,3.0,13 Reasons Why,Season 1,Finish,https://www.fshare.vn/folder/ZA6QYCJCV4LF,1080p
3,,,Season 2,Finish,https://www.fshare.vn/folder/IL5QW4J2HVRU,1080p
4,4.0,A Series of Unfortunate Events,All season,On going,https://www.fshare.vn/folder/DV3HVQQ7HK5Q,1080p


Lấy toàn bộ giá trị hoặc 1 range theo A1 notation

In [None]:
data2 = worksheet.get() #fetches all values from a range of cells.

In [None]:
data2

[['STT', 'Tv Series Name', 'Season', 'Status', 'Link', 'Quality'],
 ['1',
  '11 22 63',
  'All season',
  'Finish',
  'https://www.fshare.vn/folder/ZBBBGZEP469H',
  '1080p'],
 ['2',
  '12 Monkeys',
  'All season',
  'On going',
  'https://www.fshare.vn/folder/8T63MLVCQHXX',
  '1080p'],
 ['3',
  '13 Reasons Why',
  'Season 1',
  'Finish',
  'https://www.fshare.vn/folder/ZA6QYCJCV4LF',
  '1080p'],
 ['',
  '',
  'Season 2',
  'Finish',
  'https://www.fshare.vn/folder/IL5QW4J2HVRU',
  '1080p'],
 ['4',
  'A Series of Unfortunate Events',
  'All season',
  'On going',
  'https://www.fshare.vn/folder/DV3HVQQ7HK5Q',
  '1080p'],
 ['5',
  'Agent X',
  'All season',
  'Finish',
  'https://www.fshare.vn/folder/SMF1KHHNLPJA',
  '1080p'],
 ['6',
  'American Crime',
  'All season',
  'Finish',
  'https://www.fshare.vn/folder/LQOWAEUS54RB',
  '1080p'],
 ['7',
  'American Crime Story',
  'Season 1-2',
  'On going',
  'https://www.fshare.vn/folder/NLRSEB38M8VJ',
  '1080p'],
 ['8',
  'American Horror Sto

Lấy toàn bộ giá tị của worksheet về dictionary

In [None]:
list_of_dicts = worksheet.get_all_records()

In [None]:
list_of_dicts

[{'STT': 1,
  'Tv Series Name': '11 22 63',
  'Season': 'All season',
  'Status': 'Finish',
  'Link': 'https://www.fshare.vn/folder/ZBBBGZEP469H',
  'Quality': '1080p'},
 {'STT': 2,
  'Tv Series Name': '12 Monkeys',
  'Season': 'All season',
  'Status': 'On going',
  'Link': 'https://www.fshare.vn/folder/8T63MLVCQHXX',
  'Quality': '1080p'},
 {'STT': 3,
  'Tv Series Name': '13 Reasons Why',
  'Season': 'Season 1',
  'Status': 'Finish',
  'Link': 'https://www.fshare.vn/folder/ZA6QYCJCV4LF',
  'Quality': '1080p'},
 {'STT': '',
  'Tv Series Name': '',
  'Season': 'Season 2',
  'Status': 'Finish',
  'Link': 'https://www.fshare.vn/folder/IL5QW4J2HVRU',
  'Quality': '1080p'},
 {'STT': 4,
  'Tv Series Name': 'A Series of Unfortunate Events',
  'Season': 'All season',
  'Status': 'On going',
  'Link': 'https://www.fshare.vn/folder/DV3HVQQ7HK5Q',
  'Quality': '1080p'},
 {'STT': 5,
  'Tv Series Name': 'Agent X',
  'Season': 'All season',
  'Status': 'Finish',
  'Link': 'https://www.fshare.vn/fol

Chỉ lấy những columns được chỉ định bằng `expected_headers`

In [None]:
#list_of_dicts = worksheet.get_all_records(expected_headers=["a", "b", "c"])

## 1.5 Tìm cell

Tìm cell match exact string

In [None]:
cell = worksheet.find("Black Lightning")
print("Found something at R%sC%s" % (cell.row, cell.col))

Found something at R19C2


Tìm cell theo regex

In [None]:
import re
pattern_search = re.compile(r"black|house", re.IGNORECASE)
cell = worksheet.find(pattern_search)
print("Found something at R%sC%s" % (cell.row, cell.col))

Found something at R19C2


In [None]:
worksheet.cell(cell.row, cell.col)

<Cell R19C2 'Black Lightning'>

Cell object

In [None]:
print(cell.value)
print(cell.col)
print(cell.row)
print(cell.address) #a1 notation

Black Lightning
2
19
B19


Tìm tất cả các cell match pattern

In [None]:
cells = worksheet.findall(pattern_search)
len(cells)

9

Tìm tất cả các cell match exact string

In [None]:
cells = worksheet.findall("On going", case_sensitive=False)
len(cells)

143

Xóa worksheet theo range

In [None]:
worksheet.batch_clear(["A1:B1", "C2:E2"])

Xóa toàn bộ worksheet

worksheet.clear()

## 1.6 Updating Cells

Sử dụng A1 Notation

In [None]:
#worksheet.update("A2", "TEST")

Sử dụng index dòng và cột

In [None]:
#worksheet.update_cell(2, 1, "TEST1")

Update range

In [None]:
#worksheet.update("A1:B2", [["TEST1", "TEST2"], ["TEST3", "TEST4"]])

## 1.7 Edit format text

Bold các giá trị trong khoảng A1 -> B1

In [None]:
worksheet.format('A1:B1', {'textFormat': {'bold': True}})

Thay đổi các format khác, có thể tham khảo thư viện API của google: https://developers.google.com/sheets/api/reference/rest/v4/spreadsheets/cells#cellformat

In [None]:
worksheet.format("A2:B2", {
    "backgroundColor": {
      "red": 0.0,
      "green": 0.0,
      "blue": 0.0
    },
    "horizontalAlignment": "CENTER",
    "textFormat": {
      "foregroundColor": {
        "red": 1.0,
        "green": 1.0,
        "blue": 1.0
      },
      "fontSize": 12,
      "bold": True
    }
})

## 1.8 Chuyển sheet về pandas dataframe 

In [None]:
import pandas as pd

dataframe = pd.DataFrame(worksheet.get_all_records())

In [None]:
dataframe.head()

Unnamed: 0,STT,Tv Series Name,Season,Status,Link,Quality
0,1.0,11 22 63,All season,Finish,https://www.fshare.vn/folder/ZBBBGZEP469H,1080p
1,2.0,12 Monkeys,All season,On going,https://www.fshare.vn/folder/8T63MLVCQHXX,1080p
2,3.0,13 Reasons Why,Season 1,Finish,https://www.fshare.vn/folder/ZA6QYCJCV4LF,1080p
3,,,Season 2,Finish,https://www.fshare.vn/folder/IL5QW4J2HVRU,1080p
4,4.0,A Series of Unfortunate Events,All season,On going,https://www.fshare.vn/folder/DV3HVQQ7HK5Q,1080p
