# **GIỚI THIỆU VỀ PANDAS (TIẾP TỤC)**

Trong phần này, chúng ta sẽ học về
- Groupby
- Apply
- .str in Pandas

df.pivot_table(values=['Price', 'Year'], index='ProductName', aggfunc ={'Price': 'sum','Year': 'max'})

In [None]:
# Nhập thư viện
import pandas as pd

In [None]:
# Đọc dữ liệu restaurant.csv
df = pd.read_csv('restaurant.csv')

## 1. Groupby

Với `groupby` chúng ta đang đề cập tới một quá trình bao gồm một hoặc nhiều bước sau:
* **Splitting**: tách dữ liệu thành các nhóm
* **Applying**: áp hàm tổng hợp vào mỗi nhóm
* **Combining**: gộp kết quả lại thành một cấu trúc dữ liệu

In [None]:
df.groupby('day')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7c4e72dab190>

In [None]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [None]:
# Trung bình tip theo ngày
# group theo cột category nào -- chọn value cần tính -- method
df.groupby('day')['tip'].mean()

day
Fri     2.734737
Sat     2.993103
Sun     3.255132
Thur    2.771452
Name: tip, dtype: float64

***Group by theo nhiều cột và một hàm tổng hợp***

In [None]:
# GROUP BY 2 CỘT: NGÀY (DAY) VÀ GIỚI TÍNH (SEX)
df.groupby(['day', 'sex'])['tip'].mean()

day   sex   
Fri   Female    2.781111
      Male      2.693000
Sat   Female    2.801786
      Male      3.083898
Sun   Female    3.367222
      Male      3.220345
Thur  Female    2.575625
      Male      2.980333
Name: tip, dtype: float64

In [None]:
# Ngoặc vuông: select, có nhiều hơn 1 cột
# Ngoặc tròn: hàm -- groupby(), mean(), sum(), .info(), sort_values()
# Ngoặc nhọn: (dictionary)

In [None]:
# Tìm tip trung bình theo day và sex, sau đó tìm giá trị cụ thể tại ngày thứ 6 (Fri) và giới tính nữ (sex: Female)
# YOUR CODE HERE
df.groupby(['day', 'sex'])['tip'].mean()['Fri']['Female']

2.781111111111111

***Groupby theo một cột và nhiều hàm tổng hợp***

In [None]:
# Dùng .agg
ls_gp = ['tip', 'total_bill']
df.groupby('day')[ls_gp].agg(['mean', 'sum'])

Unnamed: 0_level_0,tip,tip,total_bill,total_bill
Unnamed: 0_level_1,mean,sum,mean,sum
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Fri,2.734737,51.96,17.151579,325.88
Sat,2.993103,260.4,20.441379,1778.4
Sun,3.255132,247.39,21.41,1627.16
Thur,2.771452,171.83,17.682742,1096.33


***Groupby theo nhiều cột và nhiều hàm tổng hợp***

In [None]:
# Dùng dictionary để assign từng method cho từng value
df.groupby('day')[['tip', 'total_bill']].agg({'tip':'sum', 'total_bill':'mean'})

Unnamed: 0_level_0,tip,total_bill
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Fri,51.96,17.151579
Sat,260.4,20.441379
Sun,247.39,21.41
Thur,171.83,17.682742


##2. Pivot Table

Bảng pivot là bảng giúp tóm tắt thông tin và tổng hợp dữ liệu từ một bảng lớn. Thông tin được tổng hợp có thể bao gồm: tổng (sum), giá trị trung bình (average), hoặc các thông số khác.


OFFICIAL DOCUMENTATION ▸ https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html

EXPLANATION ▸ https://pbpython.com/pandas-pivot-table-explained.html

In [None]:
df.groupby(['day', 'sex'])['total_bill'].mean()

day   sex   
Fri   Female    14.145556
      Male      19.857000
Sat   Female    19.680357
      Male      20.802542
Sun   Female    19.872222
      Male      21.887241
Thur  Female    16.715312
      Male      18.714667
Name: total_bill, dtype: float64

In [None]:
# Tạo bảng pivot tổng hợp giá trị total bill trung bình theo ngày và theo giới tính
pd.pivot_table(data=df, index='sex', columns='day', values='total_bill', aggfunc='mean', margins=True)

day,Fri,Sat,Sun,Thur,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Female,14.145556,19.680357,19.872222,16.715312,18.056897
Male,19.857,20.802542,21.887241,18.714667,20.744076
All,17.151579,20.441379,21.41,17.682742,19.785943


In [None]:
# Tạo bảng pivot dựa trên nhiều cột giá tị
# Ví dụ: tip, total_bill
pd.pivot_table(data=df,
               index='day',
               columns='sex',
               values=['tip', 'total_bill'],
               aggfunc='mean')

Unnamed: 0_level_0,tip,tip,total_bill,total_bill
sex,Female,Male,Female,Male
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Fri,2.781111,2.693,14.145556,19.857
Sat,2.801786,3.083898,19.680357,20.802542
Sun,3.367222,3.220345,19.872222,21.887241
Thur,2.575625,2.980333,16.715312,18.714667


In [None]:
# Tạo bảng pivot dựa trên nhiều cột giá trị và một hàm tổng hợp
# ví dụ: cột giá trị: tip, total_bill; hàm tổng hợp: mean
pd.pivot_table(data=df,
               index='day',
               columns='sex',
               values=['tip', 'total_bill'],
               aggfunc='mean')

Unnamed: 0_level_0,tip,tip,total_bill,total_bill
sex,Female,Male,Female,Male
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Fri,2.781111,2.693,14.145556,19.857
Sat,2.801786,3.083898,19.680357,20.802542
Sun,3.367222,3.220345,19.872222,21.887241
Thur,2.575625,2.980333,16.715312,18.714667


In [None]:
# Tạo bảng pivot dựa trên nhiều cột giá trị và nhiều hàm tổng hợp
# Ví dụ: cột giá trị: tip, total_bill; hàm tổng hợp: mean, sum
pd.pivot_table(data=df,
               index='day',
               columns='sex',
               values=['tip', 'total_bill'],
               aggfunc={'tip':'mean', 'total_bill':'sum'})

Unnamed: 0_level_0,tip,tip,total_bill,total_bill
sex,Female,Male,Female,Male
day,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Fri,2.781111,2.693,127.31,198.57
Sat,2.801786,3.083898,551.05,1227.35
Sun,3.367222,3.220345,357.7,1269.46
Thur,2.575625,2.980333,534.89,561.44


Cho sinh viên làm:

1. tạo bảng pivot dựa trên giá trị tip theo day và sex và hàm tổng hợp: mean, sum

2. tìm giá trị total_bill trung bình của Male

In [None]:
pd.pivot_table(data=df,
               index='day',
               columns='sex',
               values=['tip'],
               aggfunc={'mean', 'sum'})

Unnamed: 0_level_0,tip,tip,tip,tip
Unnamed: 0_level_1,mean,mean,sum,sum
sex,Female,Male,Female,Male
day,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3
Fri,2.781111,2.693,25.03,26.93
Sat,2.801786,3.083898,78.45,181.95
Sun,3.367222,3.220345,60.61,186.78
Thur,2.575625,2.980333,82.42,89.41


-- Cách 1: Select sau khi groupby
-- Cách 2: Select trước khi bạn groupby



In [None]:
df.groupby('sex')['total_bill'].mean()['Male']

20.74407643312102

In [None]:
df[df['sex'] == 'Male']['total_bill'].mean()

20.744076433121016

## Ôn lại về Function (Hàm)

**Function** (Hàm) là một nhóm các câu lệnh nhằm thực hiện một công việc cụ thể nào đó.  

Lợi ích của sử dụng Function:

- Chia bài toán thành những phần nhỏ
- Giúp code gọn gàng và dễ theo dõi hơn
- Tránh lặp code

![](https://i.imgur.com/WxOQ2dA.png)

Cấu trúc của một Function:

```python
def function_name(parameters):
    statement(parameters)
    return( )
```



In [None]:
def check_number(number):
    if number > 100:
        return 'More'
    else:
        return 'Equal or Less'

In [None]:
a = check_number(10004)

In [None]:
# print chỉ display
# return trả về kết qủa
a

'More'

## 3. Apply

Trong thư viện pandas của Python, hàm `apply()` được sử dụng để áp dụng một hàm cụ thể lên mỗi phần tử của một Series hoặc mỗi hàng hoặc cột của một DataFrame.

Ví dụ: Nếu số tiền  ```tip``` > 3, trả về 'High', nếu không phải thì trả về 'Low'.

### **Ví dụ 1** : Áp dụng lên **Dataframe**

In [None]:
# Hàm nhận parameter là từng dòng
def check_tip(row):
    if row['tip'] > 3:
        return 'High'
    else:
        return 'Low'

In [None]:
# Áp dụng hàm lên dataframe
df.apply(check_tip, axis=1)

0       Low
1       Low
2      High
3      High
4      High
       ... 
239    High
240     Low
241     Low
242     Low
243     Low
Length: 244, dtype: object

In [None]:
# Thêm cột mới về loại Tip (TipType) vào dataframe
df['TipType'] = df.apply(check_tip, axis=1)
df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,TipType
0,16.99,1.01,Female,No,Sun,Dinner,2,Low
1,10.34,1.66,Male,No,Sun,Dinner,3,Low
2,21.01,3.50,Male,No,Sun,Dinner,3,High
3,23.68,3.31,Male,No,Sun,Dinner,2,High
4,24.59,3.61,Female,No,Sun,Dinner,4,High
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,High
240,27.18,2.00,Female,Yes,Sat,Dinner,2,Low
241,22.67,2.00,Male,Yes,Sat,Dinner,2,Low
242,17.82,1.75,Male,No,Sat,Dinner,2,Low


### **Ví Dụ 2**: Áp dụng lên **Series**

In [None]:
df['tip']

0      1.01
1      1.66
2      3.50
3      3.31
4      3.61
       ... 
239    5.92
240    2.00
241    2.00
242    1.75
243    3.00
Name: tip, Length: 244, dtype: float64

In [None]:
def check_tip(x):
    if x > 3:
        return 'High'
    else:
        return 'Low'

In [None]:
# áp dụng lên Series
df['tip'].apply(check_tip)

0       Low
1       Low
2      High
3      High
4      High
       ... 
239    High
240     Low
241     Low
242     Low
243     Low
Name: tip, Length: 244, dtype: object

# TỔNG KẾT

1. GROUPBY

```python
<table_name>.groupby(<column_name>).<aggregation_function>

# Groupby một cột, một giá trị:
df.groupby('day')['total_bill'].mean()

# Groupby một cột, một giá trị, nhiều hàm tổng hợp:
df.groupby('day')['total_bill'].agg(['mean', 'sum'])

# Groupby một cột, nhiều giá trị, nhiều hàm tổng hợp:
df.groupby('day')[['total_bill', 'tip']].agg({'total_bill':'mean', 'tip':'sum'})

# Groupby hai cột, một giá trị:
df.groupby(['day', 'sex'])['total_bill'].mean()

```

2. PIVOT TABLE

```python
pd.pivot_table(data=<table_name>,
               index=<groupby_col_on_row>,
               columns=<groupby_col_on_col>,
               values=<values_to_groupby>,
               aggfunc=<agg_method>)

# Ví dụ
pd.pivot_table(data=df,
               index='day,
               columns='sex',
               values=['tip', 'total_bill'],
               aggfunc='mean')
```

3. APPLY

```python
# Áp dụng lên DataFrame
<table_name>.apply(<function>, axis=<0_or_1>)
# Ví Dụ
df.apply(check_tip, axis=1)


# Áp dụng lên Series
<Series>.apply(<function>)
# Ví dụ
df['tip'].apply(check_tip)
```

4. Ôn lại về function (hàm) trong Python:

```python
def <function_name>(<parameter_name>)
    expression(<parameter_name>)
    return

# Ví dụ
def check_tip(x):
    if x > 3:
        return "High"
    else:
        return "Low"
```