# Pandas: Counting and Summarizing

這個章節將更系統化地用實際案例來介紹，
1. Reading files: `pd.read_csv('data.csv')`或讀取JSON `pd.read_json('data.json')`
2. Filtering data: Slicing data `df[0:10]`、Selecting data `df['col1']`、Filtering data `df[df['col1'] > 0]`
3. Mutating a new variable(on column), Observing a variable, Changing data type
4. Summarizing data (group by columns): `df.groupby('col1').mean()`
5. Arranging (Sorting) data: `df.sort_values(by = 'col1')`
6.  Concatenating data: `pd.concat([df1, df2])`

## P1. Read data

### 1.1 Read CSV: 違規藥品廣告

違規藥品廣告資料集 https://data.nat.gov.tw/dataset/14196

In [2]:
import pandas as pd
drug_df = pd.read_csv('https://raw.githubusercontent.com/p4css/py4css/main/data/drug_156_2.csv')
# drug_df
drug_df.head()

Unnamed: 0,違規產品名稱,違規廠商名稱或負責人,處分機關,處分日期,處分法條,違規情節,刊播日期,刊播媒體類別,刊播媒體,查處情形
0,維他肝,豐怡生化科技股份有限公司/朱O,,03 31 2022 12:00AM,,廣告內容誇大不實,02 2 2022 12:00AM,廣播電台,噶瑪蘭廣播電台股份有限公司,
1,現貨澳洲Swisse ULTIBOOST維他命D片calcium vitamin VITAM...,張O雯/張O雯,,01 21 2022 12:00AM,,廣告違規,11 30 2021 12:00AM,網路,蝦皮購物,輔導結案
2,✈日本 代購 參天製藥 處方簽點眼液,蘇O涵/蘇O涵,,01 25 2022 12:00AM,,無照藥商,08 27 2021 12:00AM,網路,蝦皮購物,
3,✈日本 代購 TSUMURA 中將湯 24天包裝,蘇O涵/蘇O涵,,01 25 2022 12:00AM,,無照藥商,08 27 2021 12:00AM,網路,蝦皮購物,輔導結案
4,_Salty.shop 日本代購 樂敦小花,曾O嫺/曾O嫺,,02 17 2022 12:00AM,藥事法第27條,無照藥商,12 6 2021 12:00AM,網路,蝦皮購物,處分結案


In [3]:
# `%who` is a magic command that lists all variables of the current session
%who

Counter	 drug_df	 pd	 


### 1.2 Display and rename columns

1. 要大概觀察DataFrame的內容，我們可以使用`.head()`方法。這個方法將預設顯示DataFrame的前5行資料，以便我們快速查看資料的結構和內容。
2. 有時候，我們可能想要更改DataFrame中欄位的名稱，以使其更具描述性或符合我們的需求。可以像下面一樣直接將所有新欄位名稱傳遞給`.columns`屬性，或者使用`.rename()`方法來將舊欄位名稱映射到新欄位名稱。例如`df.rename(columns={'Name': 'Full Name', 'Age': 'Years Old'}, inplace=True)`

In [4]:
# Check all variables of the dataframe
drug_df.columns

Index(['違規產品名稱', '違規廠商名稱或負責人', '處分機關', '處分日期', '處分法條', '違規情節', '刊播日期',
       '刊播媒體類別', '刊播媒體', '查處情形'],
      dtype='object')

In [5]:
drug_df.columns = [
    'pname', 'cname', 'agency', 'issuedate', 'law', 'fact', 
    'pubDate', 'pubMediaType', 'pubMedia', 'trace']
drug_df.columns
drug_df.head()

Unnamed: 0,pname,cname,agency,issuedate,law,fact,pubDate,pubMediaType,pubMedia,trace
0,維他肝,豐怡生化科技股份有限公司/朱O,,03 31 2022 12:00AM,,廣告內容誇大不實,02 2 2022 12:00AM,廣播電台,噶瑪蘭廣播電台股份有限公司,
1,現貨澳洲Swisse ULTIBOOST維他命D片calcium vitamin VITAM...,張O雯/張O雯,,01 21 2022 12:00AM,,廣告違規,11 30 2021 12:00AM,網路,蝦皮購物,輔導結案
2,✈日本 代購 參天製藥 處方簽點眼液,蘇O涵/蘇O涵,,01 25 2022 12:00AM,,無照藥商,08 27 2021 12:00AM,網路,蝦皮購物,
3,✈日本 代購 TSUMURA 中將湯 24天包裝,蘇O涵/蘇O涵,,01 25 2022 12:00AM,,無照藥商,08 27 2021 12:00AM,網路,蝦皮購物,輔導結案
4,_Salty.shop 日本代購 樂敦小花,曾O嫺/曾O嫺,,02 17 2022 12:00AM,藥事法第27條,無照藥商,12 6 2021 12:00AM,網路,蝦皮購物,處分結案


### 1.3 Pandas series

Pandas Series 是一種一維陣列結構，用於存儲同類型的資料，並且每個資料點都有一個與之相關聯的索引。與 Python 的原生 list 不同，Pandas Series 提供了更豐富的功能和操作，包括但不限於資料對齊、切片、過濾以及集成的描述性統計方法。除了這些，Pandas Series 支援更多複雜的資料類型，並且能夠更高效地進行向量化操作。簡而言之，雖然 Pandas Series 和 list 都可以用於存儲一維資料，但 Series 提供了更多專為數據分析而設計的功能和優化。

In [6]:
print(type(drug_df.pubMediaType))
pubMediaType = list(drug_df.pubMediaType)
print(type(pubMediaType))

drug_df.pubMediaType
# print(set(drug_df.pubMediaType))
# drug_df

<class 'pandas.core.series.Series'>
<class 'list'>


0       廣播電台
1         網路
2         網路
3         網路
4         網路
        ... 
2967      網路
2968      網路
2969      網路
2970      網路
2971      網路
Name: pubMediaType, Length: 2972, dtype: object

### 1.4 Counting

接下來希望計算一下每個廣告類型`pubMediaType`的數量，以便我們可以了解哪些類型的廣告最多。

過去我們會用`collections`套件的`Counter`方法來計算。但是現在我們可以使用`.value_counts()`方法來計算每個類型的廣告數量。這個方法將返回一個包含每個類型廣告數量的 Pandas Series，其中索引是廣告類型，值是廣告數量。

In [7]:
# Using `Counter` to count the number of each type of publication media
from collections import Counter

type_dict = Counter(drug_df.pubMediaType)
print(type_dict)
print(Counter(drug_df.fact).most_common(10))

Counter({'網路': 2609, '廣播電台': 119, '平面媒體': 117, '電視': 109, '其他': 16, nan: 2})
[('無照藥商', 1434), ('廣告違規', 248), ('無違規', 185), ('其刊登或宣播之廣告內容與原核准廣告內容不符', 134), (nan, 132), ('非藥商刊登或宣播藥物廣告', 108), ('藥品未申請查驗登記', 94), ('刊播未申請核准之廣告', 85), ('廣告內容誇大不實', 67), ('禁藥', 40)]


In [10]:
drug_df.pubMediaType.value_counts()
# drug_df['pubMediaType'].value_counts()

pubMediaType
網路      2609
廣播電台     119
平面媒體     117
電視       109
其他        16
Name: count, dtype: int64

## P2. Read JSON : Youbike

### 2.1 Convert dict of dict to list of dict, then to DataFrame

In [24]:
import pandas as pd

pd.set_option('display.max_columns', None)  # 顯示所有欄位

import requests
data = requests.get('https://tcgbusfs.blob.core.windows.net/blobyoubike/YouBikeTP.gz').json()



# Convert dict of dict to list of dict
all_list = []
for k, v in data["retVal"].items():
    all_list.append(v)

# Using list comprehension
# all_list = [v for v in data["retVal"].values()]
    

ubike_df = pd.DataFrame(all_list)

### 2.2 Display part of columns

1. Subsetting them by passing a list of column names inside the square brackets `df[['col1', 'col2']]`
2. Using the `.drop()` method to drop columns `df.drop(['col1', 'col2'], axis=1)`

In [26]:
ubike_df[['sno', 'sna', 'tot', 'sbi', 'sarea']].head()
ubike_df.drop(['ar', 'aren', 'snaen', 'lat', 'lng'], axis=1).head()

Unnamed: 0,sno,sna,tot,sbi,sarea,mday,sareaen,bemp,act
1,1,捷運市政府站(3號出口),84,74,信義區,20221030185227,Xinyi Dist.,10,1
2,2,捷運國父紀念館站(2號出口),16,4,大安區,20221030185231,Daan Dist.,12,1
4,4,市民廣場,32,0,信義區,20221030185217,Xinyi Dist.,31,1
5,5,興雅國中,10,1,信義區,20221030185241,Xinyi Dist.,9,1
6,6,臺北南山廣場,54,11,信義區,20221030185230,Xinyi Dist.,43,1


### 2.3 Using built-in function to pandas

In [25]:
# Using pandas built-in function to convert dictionary to pandas df

import requests
data = requests.get('https://tcgbusfs.blob.core.windows.net/blobyoubike/YouBikeTP.gz').json()
ubike_df = pd.DataFrame.from_dict(data['retVal'], orient='index')

## P2. Observing data

**Oberserving data** `df.info()` and `df.describe()` 觀察各個變數的分佈 to check data type or get basic summary of data 。

### 2.4 Overview whole df

In [27]:
ubike_df.shape

(369, 14)

In [14]:
ubike_df.describe()

Unnamed: 0,sno,sna,tot,sbi,sarea,mday,lat,lng,ar,sareaen,snaen,aren,bemp,act
count,371,371,371,371,371,371,371.0,371.0,371,371,371,371,371,371
unique,371,371,27,30,12,41,369.0,370.0,371,12,370,369,40,1
top,1,捷運市政府站(3號出口),12,0,中山區,20220922232223,25.06853,121.525322,忠孝東路/松仁路(東南側),Zhongshan Dist.,Nangang Park,"The N.S. side of Lianyun St. & Sec. 2, Xinyi Rd.",7,1
freq,1,1,50,54,44,18,2.0,2.0,1,44,2,2,32,371


### 2.5 Access data by index

In [30]:
# Access single row
ubike_df.iloc[2]

sno                                                 0004
sna                                                 市民廣場
tot                                                   32
sbi                                                    0
sarea                                                信義區
mday                                      20221030185217
lat                                        25.0360361111
lng                                           121.562325
ar                  市府路/松壽路(西北側)(鄰近台北101/台北世界貿易中心/台北探索館)
sareaen                                      Xinyi Dist.
snaen                                     Citizen Square
aren       The N.W. side of Road Shifu & Road Song Shou.
bemp                                                  31
act                                                    1
Name: 0004, dtype: object

In [31]:
# Access single cell
ubike_df.iloc[2, 0]

'0004'

### 2.6 Slice and access data

In [34]:
ubike_df[:3][['sno', 'sna', 'tot', 'sbi', 'sarea']]

Unnamed: 0,sno,sna,tot,sbi,sarea
1,1,捷運市政府站(3號出口),84,74,信義區
2,2,捷運國父紀念館站(2號出口),16,4,大安區
4,4,市民廣場,32,0,信義區


### 2.7 Convert variable type

**Cleaning data** `pd.to_numeric(var)` 修改變數型態 to convert data type 


In [35]:
# ratio = sbi/tot
print(type(ubike_df['sbi']))
ubike_df['ratio'] = pd.to_numeric(ubike_df['sbi'])/pd.to_numeric(ubike_df['tot'])
ubike_df[['sno', 'sna', 'tot', 'sbi', 'ratio']].head()

<class 'pandas.core.series.Series'>


Unnamed: 0,sno,sna,tot,sbi,ratio
1,1,捷運市政府站(3號出口),84,74,0.880952
2,2,捷運國父紀念館站(2號出口),16,4,0.25
4,4,市民廣場,32,0,0.0
5,5,興雅國中,10,1,0.1
6,6,臺北南山廣場,54,11,0.203704


### 2.8 Mutate new variable

* `df = df.assign(new_var = old_var1 / old_var2)` 產生新的變數（方法一） to create or convert new variable. Be careful! You must assign to left to overwrite original df. 
* `df["new_var"] = df.old_var1 / df.old_var2` 產生新的變數（方法二）
* Creating `ratio = sbi/tot` for ubike data
* `pd.to_numeric()` to covert one variable type


In [40]:
ubike_df = ubike_df.assign(
    sbi = pd.to_numeric(ubike_df.sbi),
    tot = pd.to_numeric(ubike_df.tot))

ubike_df["ratio"] = ubike_df.sbi / ubike_df.tot
# ubike_df.ratio2 = ubike_df.sbi / ubike_df.tot
# ubike_df = ubike_df.assign(ratio = ubike_df.sbi/ubike_df.tot)
# ubike_df.info()
ubike_df[['sno', 'sna', 'tot', 'sbi', 'ratio']].head()

Unnamed: 0,sno,sna,tot,sbi,ratio
1,1,捷運市政府站(3號出口),84,74,0.880952
2,2,捷運國父紀念館站(2號出口),16,4,0.25
4,4,市民廣場,32,0,0.0
5,5,興雅國中,10,1,0.1
6,6,臺北南山廣場,54,11,0.203704


In [39]:
ubike_df.describe()

Unnamed: 0,tot,sbi,ratio
count,369.0,369.0,369.0
mean,17.02439,6.094851,0.370046
std,9.633611,5.780327,0.218623
min,4.0,0.0,0.0
25%,10.0,3.0,0.2
50%,14.0,5.0,0.333333
75%,20.0,8.0,0.5
max,84.0,74.0,1.0


## P3. Summarizing data

- Tutorial: [groupby pandas](https://jamesrledoux.com/code/group-by-aggregate-pandas)
* `df.groupby(col1)[col2].count()` summarize col2 according to col1 by counting
* `df.groupby(col1)[col2].mean()` summarize col2 according to col1 by calculating their average of each category
* `df.groupby([col1, col3])[col2].count()` summarize col2 according to col1 and col3 by counting

### 3.1 Count single variable by `value_counts()`

In [29]:
# Conventional way
from collections import Counter
Counter(drug_df.pubMediaType)

Counter({'廣播電台': 119, '網路': 2609, '平面媒體': 117, '其他': 16, '電視': 109, nan: 2})

In [41]:
drug_df.head()

Unnamed: 0,pname,cname,agency,issuedate,law,fact,pubDate,pubMediaType,pubMedia,trace
0,維他肝,豐怡生化科技股份有限公司/朱O,,03 31 2022 12:00AM,,廣告內容誇大不實,02 2 2022 12:00AM,廣播電台,噶瑪蘭廣播電台股份有限公司,
1,現貨澳洲Swisse ULTIBOOST維他命D片calcium vitamin VITAM...,張O雯/張O雯,,01 21 2022 12:00AM,,廣告違規,11 30 2021 12:00AM,網路,蝦皮購物,輔導結案
2,✈日本 代購 參天製藥 處方簽點眼液,蘇O涵/蘇O涵,,01 25 2022 12:00AM,,無照藥商,08 27 2021 12:00AM,網路,蝦皮購物,
3,✈日本 代購 TSUMURA 中將湯 24天包裝,蘇O涵/蘇O涵,,01 25 2022 12:00AM,,無照藥商,08 27 2021 12:00AM,網路,蝦皮購物,輔導結案
4,_Salty.shop 日本代購 樂敦小花,曾O嫺/曾O嫺,,02 17 2022 12:00AM,藥事法第27條,無照藥商,12 6 2021 12:00AM,網路,蝦皮購物,處分結案


In [43]:
# Pandas way
drug_df.pubMediaType.value_counts()

pubMediaType
網路      2609
廣播電台     119
平面媒體     117
電視       109
其他        16
Name: count, dtype: int64

### 3.2 `groupby()` then `count()`

In [32]:
drug_df.groupby('pubMediaType')['pname', 'agency'].count()

  drug_df.groupby('pubMediaType')['pname', 'agency'].count()


Unnamed: 0_level_0,pname,agency
pubMediaType,Unnamed: 1_level_1,Unnamed: 2_level_1
其他,16,0
平面媒體,117,117
廣播電台,119,0
網路,2609,0
電視,109,0


### 3.3 `groupby()` then summarize

Format: `df.groupby(col_for_group)[variable_to_group].func()`

- `col_for_group`: 要作為群組根據的variable，例如將村里彙整為鄉鎮市區資料時，鄉鎮市區資料極為group的根據
- `variable_to_group`: 哪些要根據上述的群組來彙整，通常是值，如上例，那就是人口數、土地面積等。
- `func()`: 要用什麼函式來計算，是要計算每組組內的加總或平均？ 

In [44]:
ubike_df[['sarea', 'tot', 'sbi']]

Unnamed: 0,sarea,tot,sbi
0001,信義區,84,74
0002,大安區,16,4
0004,信義區,32,0
0005,信義區,10,1
0006,信義區,54,11
...,...,...,...
0401,中山區,8,4
0402,內湖區,12,3
0403,內湖區,10,2
0404,大同區,10,5


In [48]:
# sum up tot in each region(town-level)

ubike_df.groupby("sarea")["tot"].sum()

sarea
中山區    672
中正區    588
信義區    624
內湖區    756
北投區    482
南港區    388
士林區    620
大同區    238
大安區    666
文山區    450
松山區    442
萬華區    356
Name: tot, dtype: int64

In [52]:
ubike_stat = ubike_df.groupby("sarea").agg({"tot": "sum", "sbi": "sum"}).reset_index()
ubike_stat

Unnamed: 0,sarea,tot,sbi
0,中山區,672,177
1,中正區,588,236
2,信義區,624,236
3,內湖區,756,246
4,北投區,482,170
5,南港區,388,168
6,士林區,620,159
7,大同區,238,75
8,大安區,666,235
9,文山區,450,176


## P4. Sort-by (Arrange)

In [53]:
# ascending=False to sort by dscending order
ubike_stat.sort_values('tot', ascending=False)

Unnamed: 0,sarea,tot,sbi
3,內湖區,756,246
0,中山區,672,177
8,大安區,666,235
2,信義區,624,236
6,士林區,620,159
1,中正區,588,236
4,北投區,482,170
9,文山區,450,176
10,松山區,442,202
5,南港區,388,168


In [55]:
ubike_df.sort_values('ratio', ascending=False)[['sno', 'sna', 'tot', 'sbi', 'ratio']].head(10)

Unnamed: 0,sno,sna,tot,sbi,ratio
119,119,捷運劍南路站(2號出口),10,10,1.0
158,158,捷運東湖站,18,17,0.944444
120,120,捷運龍山寺站(1號出口),14,13,0.928571
1,1,捷運市政府站(3號出口),84,74,0.880952
344,344,捷運忠孝復興站(5號出口),22,19,0.863636
363,363,復興南路一段340巷口,12,10,0.833333
265,265,中央北路四段30巷口,12,10,0.833333
58,58,捷運善導寺站(1號出口),12,10,0.833333
95,95,東園國小,12,10,0.833333
364,364,嘉興公園,12,10,0.833333
