# 成為初級資料分析師 | Python 與資料科學應用

> 網頁資料擷取（a.k.a. 網路爬蟲）

郭耀仁

## 大綱

- 網頁資料擷取的核心任務
- 擷取 JSON 格式網頁資料
- 擷取 XML 格式網頁資料
- 擷取 HTML 格式網頁資料
- 瀏覽器自動化

## 網頁資料擷取的核心任務

## 盤點核心任務

以 Python 豐富的套件、Chrome 瀏覽器外掛與開發者工具來進行兩項核心任務：

1. 請求資料 Requesting Data
2. 解析資料 Parsing Data

## 請求資料

- 使用 [Quick JavaScript Switcher](https://chrome.google.com/webstore/detail/quick-javascript-switcher/geddoclleiomckbhadiaipdggiiccfje) 與 Chrome 開發者工具判斷網頁資料類型
- 以 `requests` 或 `selenium` 發送 HTTP 請求獲得網頁資料

## 常用的 `requests` 方法、屬性

- `requests.get()`：進行 GET 請求
- `r.status_code`：查看 HTTP 狀態碼
- `r.json()`：將回應直接轉換為 Python 的資料結構（`list` 或 `dict`）
- `r.content`：將回應轉換為 `bytes`
- `r.text`：將回應轉換為 `str`

## 解析資料

- 如果資料是 JSON 格式：以 `requests` 獲取後可直接以 Python 資料結構解析
- 如果資料是 XML 格式：以 `lxml` 搭配 XPath 解析
- 如果資料是 HTML 格式：以 `bs4`、`pyquery` 或 `selenium` 搭配 CSS Selector/XPath 解析

## 擷取 JSON 格式網頁資料

## JSON 格式網頁資料範例

- [空氣品質指標(AQI)](https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json)
- [data.nba](http://data.nba.net/prod/v1/today.json)
- [PChome](https://ecshweb.pchome.com.tw/search/v3.3/all/results?q=macbook&page=1&sort=sale/dc)

## 幫助瀏覽 JSON 資料的 Chrome 外掛

[JSON View](https://chrome.google.com/webstore/detail/jsonview/chklaanhfefbnpoihckbnefhakgolnmc)

## 擷取 JSON 格式網頁資料步驟

- `requests.get()`
- `r.json()`
- 視需求進行摘要

## 以 <https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json> 示範

In [None]:
import requests

aqi_url = "https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json"
r = requests.get(aqi_url, verify=False)
aqi = r.json()
print(type(aqi))
print(aqi)

## 隨堂練習

## 台灣的測站共有幾個？

In [None]:
n_sites = len(aqi)
print("台灣的測站共有 {} 個".format(n_sites))

## 位於台北市與新北市的測站共有幾個？

In [None]:
sites_in_tp = [d["SiteName"] for d in aqi if (d["County"] == "臺北市") or (d["County"] == "新北市")]
print("位於台北市與新北市的測站共有 {} 個：".format(len(sites_in_tp)))
print(sites_in_tp)

## 過去一小時 PM2.5_AVG 最高與最低的測站分別為？

In [None]:
pm25_avg = [float(d["PM2.5_AVG"]) for d in aqi]
max_val, min_val = max(pm25_avg), min(pm25_avg)
max_sites, min_sites = [], []
for d in aqi:
    if float(d["PM2.5_AVG"]) == max_val:
        max_sites.append(d["SiteName"])
    elif float(d["PM2.5_AVG"]) == min_val:
        min_sites.append(d["SiteName"])
print("過去一小時 PM2.5_AVG 最高為 {}，測站為：".format(max_val), max_sites)
print("過去一小時 PM2.5_AVG 最低為 {}，測站為：".format(min_val), min_sites)

## 擷取 XML 格式網頁資料

## 擷取 XML 格式網頁資料步驟

- `requests.get()`
- `r.content`
- 以 `lxml` 搭配 XPath 解析

## 以 <https://opendata.epa.gov.tw/ws/Data/AQI/?$format=xml> 示範

In [None]:
import requests

aqi_url = "https://opendata.epa.gov.tw/ws/Data/AQI/?$format=xml"
r = requests.get(aqi_url, verify=False)

In [None]:
from lxml import etree
from io import BytesIO

f = BytesIO(r.content)
tree = etree.parse(f)
site_names = [t.text for t in tree.xpath("//SiteName")]
print(site_names)

## 擷取 HTML 格式網頁資料

## 擷取 HTML 格式網頁資料步驟

- `requests.get()`
- `r.text`
- 以 `bs4` 或 `pyquery` 搭配 Tag Name/CSS Selector 解析

## 常見用來標示 HTML 資料的方法

- **HTML 的標籤名稱**
- HTML 標籤中給予的 id
- HTML 標籤中給予的 class
- **資料所在的 CSS 選擇器（CSS Selector）**
- 資料所在的 XPath

## 幫助 CSS 選擇的 Chrome 外掛

[SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb)

## [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb) 的使用方法

1. 點選 SelectorGadget 的外掛圖示
2. 留意 SelectorGadget 的 CSS 選擇器
3. 移動滑鼠到想要定位的元素
3. 在想要定位的資料上面點選左鍵，留意 Clear 後面數字表示有多少個元素被選擇到
4. 移動滑鼠點選不要選擇的元素（改以紅底標記），並同時注意 CSS 選擇器位址與 Clear 後面數字

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb) 的使用方法

- 電影名稱
- 電影海報
- 評分
- 劇情類型
- 演員陣容

## 使用 bs4 或 pyquery 解析網頁資料

```python
from bs4 import BeautifulSoup
from pyquery import PyQuery as pq
```

## 常用的 bs4 方法、屬性

- `BeautifulSoup()`：創建 `soup` 類別
- `soup.find()`：尋找第一個符合標記名稱的資料
- `soup.find_all()`：尋找所有符合標記名稱的資料
- `soup.select()`：尋找所有符合 CSS Selectors 的資料
- `element.Tag.text`：取出標記中的文字值
- `element.Tag.get(attr)`：取出標記中的指定屬性

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 bs4

In [None]:
import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
soup = BeautifulSoup(html_doc)
print(type(soup))

In [None]:
print(soup.find("h1"))
print(type(soup.find("h1")))
print(soup.find("h1").text)

In [None]:
print(len(soup.find_all("img")))
print(soup.find_all("img")[2])
print(soup.find_all("img")[2].get("alt"))
print(soup.find_all("img")[2].get("src"))

In [None]:
print(soup.select("strong span"))
print(float(soup.select("strong span")[0].text))

## 隨堂練習

## 以 `requests` 搭配 `bs4` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的劇情類型

In [None]:
import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
soup = BeautifulSoup(html_doc)
genre = soup.select(".subtext a")
genre.pop()
for g in genre:
    print(g.text)

## 以 `requests` 搭配 `bs4` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的演員陣容

In [None]:
import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
soup = BeautifulSoup(html_doc)
n_cast = 15
end_num = 1 + 4*n_cast
i = 1
cast = []
while i < end_num:
    star = soup.find_all("td")[i].find("a").find("img").get("alt")
    cast.append(star)
    i += 4
print(cast)

## 常用的 pyquery 方法、屬性

- `PyQuery()`：創建 `PyQuery` 類別
- `d("YOUR-CSS-SELECTOR")`：尋找所有符合 CSS Selectors 的資料
- `d("YOUR-CSS-SELECTOR").items()`：回傳所有符合 CSS Selectors 的文字與屬性
- `elem.text()`：取出標記中的文字值
- `elem.attr(ATTR)`：取出標記中的指定屬性

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 PyQuery

In [None]:
import requests
from pyquery import PyQuery as pq

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
d = pq(html_doc)
print(type(d))

In [None]:
print(d("h1"))
print(type(d("h1")))
for i in d("h1").items():
    print(i.text())

In [None]:
for i in d(".poster img").items():
    print(i.attr("src"))

In [None]:
for i in d("strong span").items():
    print(float(i.text()))

## 隨堂練習

## 以 `requests` 搭配 `pyquery` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的劇情類型

In [None]:
import requests
from pyquery import PyQuery as pq

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
d = pq(html_doc)
genre = [i.text() for i in d(".subtext a").items()]
genre.pop()
print(genre)

## 以 `requests` 搭配 `pyquery` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的演員陣容

In [None]:
import requests
from pyquery import PyQuery as pq

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
d = pq(html_doc)
cast = [i.text() for i in d(".primary_photo+ td a").items()]
print(cast)

## 自訂一個函數 `get_movie_data(movie_url)`

```
## get_movie_data("https://www.imdb.com/title/tt4154796")
## {'movieTitle': 'Avengers: Endgame\xa0(2019)',
##  'moviePoster': 'https://m.media-amazon.com/images/M/MV5BMTc5MDE2ODcwNV5BMl5BanBnXkFtZTgwMzI2NzQ2NzM@._V1_UX182_CR0,0,182,268_AL_.jpg',
##  'movieRating': 8.8,
##  'movieGenre': ['Action', 'Adventure', 'Sci-Fi'],
##  'movieCast': ['Robert Downey Jr.',
##   'Chris Evans',
##   'Mark Ruffalo',
##   'Chris Hemsworth',
##   'Scarlett Johansson',
##   'Jeremy Renner',
##   'Don Cheadle',
##   'Paul Rudd',
##   'Benedict Cumberbatch',
##   'Chadwick Boseman',
##   'Brie Larson',
##   'Tom Holland',
##   'Karen Gillan',
##   'Zoe Saldana',
##   'Evangeline Lilly']}
```

In [None]:
import requests
from pyquery import PyQuery as pq

def get_movie_data(movie_url):
    r = requests.get(movie_url)
    d = pq(r.text)
    movie_title = [i.text() for i in d("h1").items()][0]
    movie_poster = [i.attr("src") for i in d(".poster img").items()][0]
    movie_rating = [float(i.text()) for i in d("strong span").items()][0]
    movie_genre = [i.text() for i in d(".subtext a").items()]
    movie_genre.pop()
    movie_cast = [i.text() for i in d(".primary_photo+ td a").items()]
    movie_data = {
        "movieTitle": movie_title,
        "moviePoster": movie_poster,
        "movieRating": movie_rating,
        "movieGenre": movie_genre,
        "movieCast": movie_cast
    }
    return movie_data

## 讓 `get_movie_data()` 更方便使用

- 可以輸入電影名稱，而非 URL！
- 以 `urllib.parse.quote_plus()` 製作 query string

In [None]:
from urllib.parse import quote_plus

query_str = quote_plus("Avengers: Endgame (2019)")
print(query_str)

In [None]:
query_str = quote_plus("Avengers: Endgame (2019)")
query_url = "https://www.imdb.com/find?q={}&s=tt&ttype=ft&ref_=fn_ft".format(query_str)
print(query_url)

## 隨堂練習

## 自訂一個函數 `get_movie_data(movie_title)`

```
## get_movie_data("Avengers: Endgame (2019)")
## {'movieTitle': 'Avengers: Endgame\xa0(2019)',
##  'moviePoster': 'https://m.media-amazon.com/images/M/MV5BMTc5MDE2ODcwNV5BMl5BanBnXkFtZTgwMzI2NzQ2NzM@._V1_UX182_CR0,0,182,268_AL_.jpg',
##  'movieRating': 8.8,
##  'movieGenre': ['Action', 'Adventure', 'Sci-Fi'],
##  'movieCast': ['Robert Downey Jr.',
##   'Chris Evans',
##   'Mark Ruffalo',
##   'Chris Hemsworth',
##   'Scarlett Johansson',
##   'Jeremy Renner',
##   'Don Cheadle',
##   'Paul Rudd',
##   'Benedict Cumberbatch',
##   'Chadwick Boseman',
##   'Brie Larson',
##   'Tom Holland',
##   'Karen Gillan',
##   'Zoe Saldana',
##   'Evangeline Lilly']}
```

In [None]:
import requests
from pyquery import PyQuery as pq
from urllib.parse import quote_plus

def get_movie_data(movie_title):
    query_str = quote_plus(movie_title)
    query_url = "https://www.imdb.com/find?q={}&s=tt&ttype=ft&ref_=fn_ft".format(query_str)
    r = requests.get(query_url)
    d = pq(r.text)
    search_results = [i.attr("href") for i in d(".result_text a").items()]
    movie_url = "https://www.imdb.com" + search_results[0]
    r = requests.get(movie_url)
    d = pq(r.text)
    movie_title = [i.text() for i in d("h1").items()][0]
    movie_poster = [i.attr("src") for i in d(".poster img").items()][0]
    movie_rating = [float(i.text()) for i in d("strong span").items()][0]
    movie_genre = [i.text() for i in d(".subtext a").items()]
    movie_genre.pop()
    movie_cast = [i.text() for i in d(".primary_photo+ td a").items()]
    movie_data = {
        "movieTitle": movie_title,
        "moviePoster": movie_poster,
        "movieRating": movie_rating,
        "movieGenre": movie_genre,
        "movieCast": movie_cast
    }
    return movie_data

get_movie_data("Avengers: Endgame (2019)")

## 有時候 `requests` 送出的請求需要攜帶餅乾（cookies），否則回傳的資料會不符合預期

- [PTT 八卦版](https://www.ptt.cc/bbs/Gossiping/index.html)
- [華航機上電影清單](http://www.fantasy-sky.com/ContentList.aspx?section=002)

In [None]:
import requests

r = requests.get("https://www.ptt.cc/bbs/Gossiping/index.html")
print(r.text)

In [None]:
import requests
from bs4 import BeautifulSoup

r = requests.get("http://www.fantasy-sky.com/ContentList.aspx?section=002")
soup = BeautifulSoup(r.text)
movie_titles = [i.text for i in soup.select(".movies-name")]
print(movie_titles)

## 幫助檢視 cookies 的 Chrome 外掛

[EditThisCookie](https://chrome.google.com/webstore/detail/editthiscookie/fngmhnnpilhplaeedifhccceomclgfbg)

In [None]:
import requests

r = requests.get("https://www.ptt.cc/bbs/Gossiping/index.html", cookies={'over18': '1'})
print(r.text)

In [None]:
import requests
from bs4 import BeautifulSoup

r = requests.get("http://www.fantasy-sky.com/ContentList.aspx?section=002", cookies={'COOKIE_LANGUAGE': 'en'})
soup = BeautifulSoup(r.text)
movie_titles = [i.text for i in soup.select(".movies-name")]
print(movie_titles)

## 隨堂練習

## 擷取所有華航機上電影清單

In [None]:
import requests

ca_movie_urls = ["http://www.fantasy-sky.com/ContentList.aspx?section=002&category=0020{}".format(i) for i in range(1, 5)]
ca_movie_titles = []
for ca_url in ca_movie_urls:
    r = requests.get(ca_url, cookies={'COOKIE_LANGUAGE': 'en'})
    d = pq(r.text)
    movie_titles = [i.text() for i in d(".movies-name").items()]
    ca_movie_titles += movie_titles
print(ca_movie_titles)

## 瀏覽器自動化

## 在研究如何使 `get_movie_data()` 更方便的過程中我們做了幾個動作

1. 前往 <https://www.imdb.com/> 首頁
2. 輸入電影名稱
3. 點選搜尋
4. 點選 Movie 分類標籤
5. 點選相似度最高的搜尋結果

## 這些操作可以利用 `selenium` 來自動化！

## 什麼是 Selenium

- Selenium 是瀏覽器自動化測試的解決方案
- Python 透過 Selenium WebDriver 呼叫瀏覽器驅動程式，再由瀏覽器驅動程式去呼叫瀏覽器
- 對 Google Chrome 與 Mozilla Firefox 兩個主流瀏覽器的支援最好

## Selenium 環境設定：Chrome

- 前往 [Chrome 官方網站](https://www.google.com/chrome/)下載最新版的瀏覽器
- 下載最新版的瀏覽器驅動程式 [ChromeDriver](http://chromedriver.chromium.org/)
- 下載完成以後解壓縮在熟悉路徑讓後續指派較為方便

## Selenium 環境設定：Firefox

- 前往 [Firefox 官方網站](https://www.mozilla.org/zh-TW/firefox/new/)下載最新版的瀏覽器
- 下載最新版的瀏覽器驅動程式 [geckodriver](https://github.com/mozilla/geckodriver/releases)
- 下載完成以後解壓縮在熟悉路徑讓後續指派較為方便

## 測試是否設定完成

用程式碼透過 ChromeDriver 操控 Chrome 瀏覽器前往 IMDB 首頁並將首頁的網址印出再關閉瀏覽器

In [None]:
#!pip install selenium
from selenium import webdriver

driver_path = "/YOUR/PATH/TO/CHROMEDRIVER"
imdb_home = "https://www.imdb.com/"
driver = webdriver.Chrome(executable_path=driver_path) # Use Chrome
driver.get(imdb_home)
print(driver.current_url)
driver.close()

## 測試是否設定完成

用程式碼透過 geckodriver 操控 Firefox 瀏覽器前往 IMDB 首頁並將首頁的網址印出再關閉瀏覽器

In [None]:
#!pip install selenium
from selenium import webdriver

driver_path = "/YOUR/PATH/TO/GECKODRIVER"
imdb_home = "https://www.imdb.com/"
driver = webdriver.Firefox(executable_path=driver_path) # Use Firefox
driver.get(imdb_home)
print(driver.current_url)
driver.close()

## 常使用的方法、屬性

- `driver.get()` ：前往指定網址
- `driver.find_element_by_css_selector()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（單數）
- `driver.find_elements_by_css_selector()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（複數）
- `driver.find_element_by_xpath()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（單數）
- `driver.find_elements_by_xpath()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（複數）
- `driver.current_url` ：取得當下瀏覽器的網址
- `elem.send_keys()` ：輸入電影名稱
- `elem.click()` ：按下搜尋按鈕與連結
- `elem.text`：取出標記中的文字值
- `elem.get_attribute(ATTR)`：取出標記中的指定屬性

## 幫助檢視 XPath 的 Chrome 外掛

[XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl)

## [XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl) 的使用方法

- 點選 XPath Helper 的外掛圖示
- 留意 XPath Helper 介面左邊的 XPath 與右邊被定位到的資料
- 按住 shift 鍵移動滑鼠到想要定位的元素
- 試著縮減 XPath，從最前面開始刪減並置換為 `//`

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 [XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl) 的使用方法

- 電影名稱
- 電影海報
- 評分
- 劇情類型
- 演員陣容

## 隨堂練習

## 以 `selenium` 實作 `get_movie_data(movie_title)`

In [None]:
from selenium import webdriver

def get_movie_data(movie_title):
    chrome_driver_path = "/YOUR/PATH/TO/CHROMEDRIVER"
    driver = webdriver.Chrome(executable_path=chrome_driver_path)
    driver.get("https://www.imdb.com")
    elem = driver.find_element_by_xpath("//input[@id='navbar-query']")
    elem.send_keys(movie_title)
    elem = driver.find_element_by_xpath("//div[@class='magnifyingglass navbarSprite']")
    elem.click()
    elem = driver.find_element_by_xpath("//ul[@class='findTitleSubfilterList']/li[1]/a")
    elem.click()
    elem = driver.find_element_by_xpath("//div[@class='findSection'][1]/table[@class='findList']/tbody/tr[@class='findResult odd'][1]/td[@class='result_text']/a")
    elem.click()
    elem = driver.find_element_by_xpath("//h1")
    movie_title = elem.text
    elem = driver.find_element_by_xpath("//strong/span")
    movie_rating = float(elem.text)
    elem = driver.find_element_by_xpath("//div[@class='poster']/a/img")
    movie_poster_link = elem.get_attribute("src")
    elem = driver.find_elements_by_xpath("//div[@class='subtext']/a")
    movie_genre = [i.text for i in elem]
    movie_genre.pop()
    elem = driver.find_elements_by_xpath("//tbody/tr/td[2]/a")
    movie_cast = [i.text for i in elem]
    driver.close()
    movie_data = {
        "movieTitle": movie_title,
        "moviePosterLink": movie_poster_link,
        "movieRating": movie_rating,
        "movieGenre": movie_genre,
        "movieCast": movie_cast
    }
    return movie_data

get_movie_data("Avengers: Endgame (2019)")

## 承接上題，擷取四部復仇者聯盟的電影資訊

```python
avengers_movies = ["The Avengers (2012)", "Avengers: Age of Ultron (2015)", "Avengers: Infinity War (2018)", "Avengers: Endgame (2019)"]
```

In [None]:
import random
import time

avengers_movies = ["The Avengers (2012)", "Avengers: Age of Ultron (2015)", "Avengers: Infinity War (2018)", "Avengers: Endgame (2019)"]
avengers_movie_data = []
for am in avengers_movies:
    print("開始擷取 {} 的電影資訊...".format(am))
    movie_data = get_movie_data(am)
    avengers_movie_data.append(movie_data)
    sleep_secs = random.randint(3, 10)
    print("休息 {} 秒...".format(sleep_secs))
    time.sleep(sleep_secs)

print(avengers_movie_data)

## 承接上題，將擷取的電影資訊匯出

In [None]:
import json

with open("avengers.json", "w") as f:
    json.dump(avengers_movie_data, f)

## 延伸閱讀 

- [Requests: HTTP for Humans](http://docs.python-requests.org/en/master/)
- [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#)
- [pyquery: a jquery-like library for python](https://pythonhosted.org/pyquery/)
- [Selenium with Python](https://selenium-python.readthedocs.io/)
- [Python 與網頁資料擷取 - DataInPoint](https://medium.com/datainpoint/web-scraping-with-python/home)

## 作業

## 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796/releaseinfo) 的上映日期列表，最多的上映日期為哪一天？有幾個國家在那天上映？

In [1]:
import requests
from bs4 import BeautifulSoup

def ans():
    r = requests.get("https://www.imdb.com/title/tt4154796/releaseinfo")
    soup = BeautifulSoup(r.text)
    countries = [i.text.strip() for i in soup.select(".release-date-item__country-name a")]
    release_dates = [i.text for i in soup.select(".release-date-item__date")]
    release_date_counter = {}
    for r_date in release_dates:
        if r_date in release_date_counter.keys():
            release_date_counter[r_date] += 1
        else:
            release_date_counter[r_date] = 1
    return release_date_counter

In [2]:
ans()

{'22 April 2019': 1,
 '23 April 2019': 1,
 '24 April 2019': 31,
 '25 April 2019': 22,
 '26 April 2019': 14,
 '28 April 2019': 1,
 '29 April 2019': 1}