# Nhận dữ liệu Covid-19 trực tiếp bằng Python

Covid-19 là một trong những chủ đề bạn có thể làm việc trong nhiều dự án khoa học dữ liệu độc đáo. Để làm việc trên bất kỳ loại dự án nào liên quan đến Covid-19, bạn phải làm việc bằng cách sử dụng bộ dữ liệu mới nhất. Vì vậy, nếu bạn muốn tìm hiểu cách lấy dữ liệu covid-19 mới nhất bằng ngôn ngữ lập trình Python, bài viết này là dành cho bạn. Trong bài viết này, tôi sẽ hướng dẫn bạn qua hướng dẫn quét web về cách lấy dữ liệu covid-19 trực tiếp bằng Python

Để nhận dữ liệu covid-19 trực tiếp bằng cách sử dụng ngôn ngữ lập trình Python, điều rất quan trọng trước tiên bạn phải tìm hiểu về một số phương pháp thu thập dữ liệu phổ biến từ web. Bạn có thể tìm hiểu về quét web bằng Python từ đây. Bây giờ quay trở lại để lấy bộ dữ liệu covid-19 mới nhất, nếu bạn muốn làm việc trên bất kỳ dự án nào liên quan đến covid-19, điều rất quan trọng là phải làm việc với nó bằng cách sử dụng bộ dữ liệu mới nhất vì các trường hợp đang gia tăng nhanh chóng trên toàn thế giới.

Để lấy dữ liệu covid-19 trực tiếp bằng Python, tôi sẽ sử dụng thư viện BeautifulSoup bằng Python. Nếu bạn chưa bao giờ sử dụng thư viện này trước đây thì bạn có thể dễ dàng cài đặt nó trên hệ thống của mình bằng cách sử dụng lệnh pip:

# pip cài đặt beautifulsoup4

In [18]:
import csv
from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd

html = urlopen("https://bit.ly/3jpMFRW")
soup = BeautifulSoup(html, "html.parser")
table = soup.findAll("table", {"class": "wikitable"})[0]
rows = table.findAll("tr")

# Sử dụng dấu gạch chéo ngược (\\) thay vì dấu gạch chéo đơn (\) trong đường dẫn tới file
with open("D:\\Advance Python\\data\\Dataset.csv", "wt+", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    for i in rows:
        row = []
        for cell in i.findAll(["td", "th"]):
            row.append(cell.get_text())
        writer.writerow(row)

data = pd.read_csv("D:\\Advance Python\\data\\Dataset.csv")
data.head()

Unnamed: 0,\n,Location\n,Cases\n,Deaths\n
0,\n,World[a]\n,"774,834,237\n","7,037,007\n"
1,\n,European Union[b]\n,"185,587,170\n","1,260,386\n"
2,\n,United States\n,"103,436,829\n","1,180,025\n"
3,\n,China[c]\n,"99,336,751\n","121,993\n"
4,\n,India\n,"45,030,212\n","533,495\n"


Sau khi thực thi đoạn mã trên, một tệp CSV mới sẽ được lưu trong cùng thư mục nơi tệp Python của bạn được đặt dưới dạng "Dataset.csv". Tập dữ liệu này đòi hỏi một số chuẩn bị trước khi bạn bắt đầu sử dụng nó trong bất kỳ loại dự án khoa học dữ liệu nào. Ví dụ: dưới đây là cách bạn có thể thay đổi tên của các cột của nó:

In [19]:
# Loại bỏ cột \n trong data
data = data.drop(columns=['\n'])
# Loại bỏ ký tự '\n' và khoảng trắng đằng sau mỗi tên cột
data.columns = data.columns.str.replace('\n', '').str.strip()
# Loại bỏ ký tự '\n' trong dữ liệu
data = data.replace('\n', '', regex=True)

# Loại bỏ dấu ngoặc vuông và kết hợp thành chuỗi
data['Location'] = data['Location'].str.replace(r'\[.*\]', '', regex=True)
data.head()

Unnamed: 0,Location,Cases,Deaths
0,World,774834237,7037007
1,European Union,185587170,1260386
2,United States,103436829,1180025
3,China,99336751,121993
4,India,45030212,533495


In [20]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240 entries, 0 to 239
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Location  239 non-null    object
 1   Cases     239 non-null    object
 2   Deaths    239 non-null    object
dtypes: object(3)
memory usage: 5.8+ KB


In [21]:
import plotly.express as px

# Dữ liệu ví dụ (đã được bạn cung cấp)
countries = data['Location']

# Tạo biểu đồ Choropleth
fig = px.choropleth(data, 
                    locations=countries,  # Chọn cột chứa thông tin vị trí
                    locationmode='country names',  # Chế độ xác định vị trí
                    hover_data=[data['Deaths'], data['Cases']],  # Thông tin hiển thị khi di chuột qua vị trí
                    color=data['Deaths'],  # Cột chứa giá trị màu sắc
                    scope='world',  # Phạm vi bản đồ
                    projection="orthographic",  # Loại dự án bản đồ
                    hover_name=countries,  # Thông tin hiển thị khi di chuột qua vị trí
                    height=700,  # Chiều cao của biểu đồ
                    title='Số ca mắc COVID-19 theo quốc gia',  # Tiêu đề của biểu đồ
                    color_continuous_scale='Viridis')  # Màu sắc liên tục

# Hiển thị biểu đồ
fig.show()


#VD1

In [22]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import pandas as pd

In [23]:
driver = webdriver.Chrome()
driver.get('https://en.wikipedia.org/wiki/Template:COVID-19_pandemic_data#covid-19-pandemic-data')
data = driver.find_elements(By.CSS_SELECTOR,'.scroll-container .wikitable tbody tr')
# country = [i.text.strip() for i in data]
country =[]
cases =[]
deaths =[]
for item in data:
    elem= item.find_elements(By.TAG_NAME,'td')
    if elem:
        country.append(elem[0].get_attribute('data-sort-value'))
        try:
            cases.append(elem[1].get_attribute('data-sort-value'))
            deaths.append(elem[2].get_attribute('data-sort-value'))
        except:
            cases.append(0)
            deaths.append(0)


In [24]:
df= pd.DataFrame({"country":country,
                    "cases":cases,
                    "deaths":deaths})
df['cases']= [int(i) for i in df['cases']]
df['deaths']= [int(i) for i in df['deaths']]

In [25]:
df

Unnamed: 0,country,cases,deaths
0,World,774834237,7037007
1,European Union,185587170,1260386
2,United States,103436829,1180025
3,China,99336751,121993
4,India,45030212,533495
...,...,...,...
235,Vatican City,26,0
236,Pitcairn Islands,4,0
237,North Korea,1,6
238,Turkmenistan,0,0


In [26]:
df =df.loc[3:,['country','cases','deaths']]
df

Unnamed: 0,country,cases,deaths
3,China,99336751,121993
4,India,45030212,533495
5,France,38997490,167985
6,Germany,38437756,174979
7,Brazil,37519960,702116
...,...,...,...
235,Vatican City,26,0
236,Pitcairn Islands,4,0
237,North Korea,1,6
238,Turkmenistan,0,0


In [27]:
df = df.iloc[1:-1,:]

In [28]:
df[df['deaths']== min(df['deaths'])]['country']

230    Saint Helena, Ascension and Tristan da Cunha
231                                Falkland Islands
233                                            Niue
234                                         Tokelau
235                                    Vatican City
236                                Pitcairn Islands
238                                    Turkmenistan
Name: country, dtype: object

#VD2

In [29]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
html = requests.get("https://en.wikipedia.org/wiki/Template:COVID-19_pandemic_data#covid-19-pandemic-data")
soup = BeautifulSoup(html.content, "html.parser")
table = soup.find("div",class_="scroll-container")
tbody = table.find('tbody')
data = tbody.find_all('tr')
country =[]
cases =[]
deaths =[]
for i in data:
    elem_title = i.find_all('td')
    if elem_title:
        country.append(elem_title[0].get('data-sort-value'))
        try:
            cases.append(elem_title[1].get('data-sort-value'))
            deaths.append(elem_title[2].get('data-sort-value'))
        except:
            cases.append(0)
            deaths.append(0)
df= pd.DataFrame({"country":country,
                    "cases":cases,
                    "deaths":deaths})


In [30]:
df[['cases','deaths']]= df[['cases','deaths']].astype(int)
df

Unnamed: 0,country,cases,deaths
0,World,774834237,7037007
1,European Union,185587170,1260386
2,United States,103436829,1180025
3,China,99336751,121993
4,India,45030212,533495
...,...,...,...
235,Vatican City,26,0
236,Pitcairn Islands,4,0
237,North Korea,1,6
238,Turkmenistan,0,0
