# Dự án Phân tích Dữ liệu COVID-19

## Phần 1: Hiểu biết nghiệp vụ, Thu thập, Hiểu và Chuẩn bị Dữ liệu

### 1.1. Hiểu biết nghiệp vụ (Business Understanding)

Mục tiêu chính của dự án này là **phân tích dữ liệu COVID-19 để hiểu rõ sự lây lan và tác động của đại dịch**. Để đạt được mục tiêu này, chúng ta cần đặt ra các câu hỏi cụ thể mà dữ liệu có thể giúp trả lời.

Dưới đây là các câu hỏi sơ lược ban đầu sẽ định hướng cho quá trình thu thập và phân tích dữ liệu:

*   **Sự lây lan của dịch bệnh:**
    *   Số ca nhiễm mới, số ca tử vong và số ca hồi phục thay đổi như thế nào theo thời gian (theo ngày, tuần, tháng)?
    *   Tốc độ lây lan của virus có sự khác biệt đáng kể giữa các quốc gia/khu vực không?
    *   Quốc gia/khu vực nào có số ca nhiễm và tử vong cao nhất/thấp nhất?
    *   Có mối tương quan nào giữa mật độ dân số và tốc độ lây lan của dịch bệnh không?

*   **Tác động của dịch bệnh:**
    *   Tỷ lệ tử vong (Case Fatality Rate - CFR) và tỷ lệ hồi phục (Recovery Rate) thay đổi như thế nào theo thời gian và giữa các quốc gia?
    *   Độ tuổi hoặc giới tính có phải là yếu tố ảnh hưởng đến mức độ nghiêm trọng của bệnh hoặc tỷ lệ tử vong không?
    *   Các biện pháp can thiệp của chính phủ (ví dụ: phong tỏa, giãn cách xã hội, tiêm chủng) có tác động như thế nào đến sự lây lan và tác động của dịch bệnh?
    *   Dịch bệnh đã ảnh hưởng đến các chỉ số kinh tế - xã hội (ví dụ: GDP, tỷ lệ thất nghiệp) như thế nào? (Nếu có dữ liệu liên quan)

*   **Các yếu tố khác:**
    *   Thời tiết hoặc mùa có ảnh hưởng đến sự lây lan của virus không? (Nếu có dữ liệu liên quan)
    *   Có sự khác biệt nào về tác động của dịch bệnh giữa các nhóm dân cư khác nhau (ví dụ: thành thị so với nông thôn)?

---

### 1.2. Thu thập Dữ liệu (Data Collection)

Dữ liệu cho dự án này được thu thập từ **Our World in Data**, một nguồn đáng tin cậy và toàn diện về dữ liệu COVID-19.

**Lưu ý quan trọng:** Kể từ ngày 19 tháng 8 năm 2024, các bộ dữ liệu COVID-19 trên GitHub của Our World in Data không còn được cập nhật trực tiếp.




In [1]:
import pandas as pd

# Đọc dữ liệu vào DataFrame
try:
    df = pd.read_csv(r'C:\Users\Admin\Downloads\Project_Final (1)\Project_Final\Data_main\Covid_raw_data.csv')
    print("Đã tải dữ liệu thành công!")
    print(f"Kích thước của DataFrame: {df.shape[0]} hàng, {df.shape[1]} cột.")
except Exception as e:
    print(f"Lỗi khi tải dữ liệu: {e}")
    df = None # Đặt df thành None nếu có lỗi để tránh lỗi ở các bước sau

Đã tải dữ liệu thành công!
Kích thước của DataFrame: 429435 hàng, 67 cột.


In [25]:
df.columns

Index(['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases',
       'new_cases_smoothed', 'total_deaths', 'new_deaths',
       'new_deaths_smoothed', 'total_cases_per_million',
       'new_cases_per_million', 'new_cases_smoothed_per_million',
       'total_deaths_per_million', 'new_deaths_per_million',
       'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients',
       'icu_patients_per_million', 'hosp_patients',
       'hosp_patients_per_million', 'weekly_icu_admissions',
       'weekly_icu_admissions_per_million', 'weekly_hosp_admissions',
       'weekly_hosp_admissions_per_million', 'total_tests', 'new_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
       'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations',
       'people_vaccinated', 'people_fully_vaccinated', 'total_boosters',
       'new_vaccinations', 'new_vaccinations_smoothed',
       't

In [4]:
# In 5 dòng đầu tiên của dữ liệu
print("5 dòng đầu tiên của dữ liệu:")
print(df.head())

# In 5 dòng cuối cùng của dữ liệu
print("\n5 dòng cuối cùng của dữ liệu:")
print(df.tail())


5 dòng đầu tiên của dữ liệu:
  iso_code continent     location      date  total_cases  new_cases  \
0      AFG      Asia  Afghanistan  1/5/2020          0.0        0.0   
1      AFG      Asia  Afghanistan  1/6/2020          0.0        0.0   
2      AFG      Asia  Afghanistan  1/7/2020          0.0        0.0   
3      AFG      Asia  Afghanistan  1/8/2020          0.0        0.0   
4      AFG      Asia  Afghanistan  1/9/2020          0.0        0.0   

   new_cases_smoothed  total_deaths  new_deaths  new_deaths_smoothed  ...  \
0                 NaN           0.0         0.0                  NaN  ...   
1                 NaN           0.0         0.0                  NaN  ...   
2                 NaN           0.0         0.0                  NaN  ...   
3                 NaN           0.0         0.0                  NaN  ...   
4                 NaN           0.0         0.0                  NaN  ...   

   male_smokers  handwashing_facilities  hospital_beds_per_thousand  \
0         

In [5]:
# Kiểm tra số lượng quốc gia/khu vực
num_countries = df['location'].nunique()
print(f"Số lượng quốc gia/khu vực: {num_countries}")

Số lượng quốc gia/khu vực: 255


In [3]:
# In thông tin tổng quan về DataFrame
print("Thông tin tổng quan về DataFrame:")
df.info()


Thông tin tổng quan về DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 429435 entries, 0 to 429434
Data columns (total 67 columns):
 #   Column                                      Non-Null Count   Dtype  
---  ------                                      --------------   -----  
 0   iso_code                                    429435 non-null  object 
 1   continent                                   402910 non-null  object 
 2   location                                    429435 non-null  object 
 3   date                                        429435 non-null  object 
 4   total_cases                                 411804 non-null  float64
 5   new_cases                                   410159 non-null  float64
 6   new_cases_smoothed                          408929 non-null  float64
 7   total_deaths                                411804 non-null  float64
 8   new_deaths                                  410608 non-null  float64
 9   new_deaths_smoothed                 

In [6]:

#Cấu hình hiển thị để không bị cắt bớt
# Đặt số lượng hàng tối đa hiển thị là None (không giới hạn)
pd.set_option('display.max_rows', None)
# Đặt số lượng cột tối đa hiển thị là None (không giới hạn)
pd.set_option('display.max_columns', None)
# Đặt chiều rộng hiển thị tối đa của DataFrame là None (không giới hạn)
pd.set_option('display.width', None)
# Đặt chiều rộng tối đa của nội dung cột là None (không giới hạn)
pd.set_option('display.max_colwidth', None)

In [7]:
# In thống kê mô tả cho các cột số
print("Thống kê mô tả cho các cột số (df.describe()):")
print(df.describe())


Thống kê mô tả cho các cột số (df.describe()):
        total_cases     new_cases  new_cases_smoothed  total_deaths  \
count  4.118040e+05  4.101590e+05        4.089290e+05  4.118040e+05   
mean   7.365292e+06  8.017360e+03        8.041026e+03  8.125957e+04   
std    4.477582e+07  2.296649e+05        8.661611e+04  4.411901e+05   
min    0.000000e+00  0.000000e+00        0.000000e+00  0.000000e+00   
25%    6.280750e+03  0.000000e+00        0.000000e+00  4.300000e+01   
50%    6.365300e+04  0.000000e+00        1.200000e+01  7.990000e+02   
75%    7.582720e+05  0.000000e+00        3.132860e+02  9.574000e+03   
max    7.758668e+08  4.423623e+07        6.319461e+06  7.057132e+06   

          new_deaths  new_deaths_smoothed  total_cases_per_million  \
count  410608.000000        409378.000000            411804.000000   
mean       71.852139            72.060873            112096.199396   
std      1368.322990           513.636567            162240.412419   
min         0.000000             

In [8]:
#Kiểm tra phạm vi ngày
print("Phạm vi ngày trong dữ liệu")
# Chuyển cột 'date' sang kiểu datetime để có thể sắp xếp và tìm min/max chính xác
df['date'] = pd.to_datetime(df['date'])
print(f"Ngày nhỏ nhất: {df['date'].min().strftime('%Y-%m-%d')}")
print(f"Ngày lớn nhất: {df['date'].max().strftime('%Y-%m-%d')}")

Phạm vi ngày trong dữ liệu
Ngày nhỏ nhất: 2020-01-01
Ngày lớn nhất: 2024-08-14


In [None]:


#Hàm hỗ trợ hiển thị theo hàng ngang với số lượng mục nhất định
def display_horizontal_chunks(items, items_per_chunk=20, item_width=25):
    """
    Hiển thị danh sách các mục theo hàng ngang, mỗi hàng có số lượng mục nhất định.

    Args:
    
        items (list): Danh sách các mục cần hiển thị.
        items_per_chunk (int): Số lượng mục trên mỗi hàng.
        item_width (int): Chiều rộng tối đa của mỗi mục để căn chỉnh.
    """
    if not items:
        print("Không có mục nào để hiển thị.")
        return

    current_chunk = []
    for i, item in enumerate(items):
        current_chunk.append(str(item).ljust(item_width)[:item_width]) # Căn trái và cắt bớt
        if (i + 1) % items_per_chunk == 0 or (i + 1) == len(items):
            print(" ".join(current_chunk))
            current_chunk = []
    if current_chunk: # In nốt nếu có phần còn lại
        print(" ".join(current_chunk))


        
#Kiểm tra số lượng và danh sách các quốc gia/khu vực
print("Thông tin về Quốc gia/Khu vực:")
unique_locations = df['location'].unique().tolist() # Chuyển sang list
print(f"Số lượng quốc gia/khu vực duy nhất: {len(unique_locations)}")
print("Danh sách các quốc gia/khu vực duy nhất (20 quốc gia mỗi hàng):")
display_horizontal_chunks(unique_locations, items_per_chunk=20, item_width=25)

Thông tin về Quốc gia/Khu vực:
Số lượng quốc gia/khu vực duy nhất: 255
Danh sách các quốc gia/khu vực duy nhất (20 quốc gia mỗi hàng):
Afghanistan               Africa                    Albania                   Algeria                   American Samoa            Andorra                   Angola                    Anguilla                  Antigua and Barbuda       Argentina                 Armenia                   Aruba                     Asia                      Australia                 Austria                   Azerbaijan                Bahamas                   Bahrain                   Bangladesh                Barbados                 
Belarus                   Belgium                   Belize                    Benin                     Bermuda                   Bhutan                    Bolivia                   Bonaire Sint Eustatius an Bosnia and Herzegovina    Botswana                  Brazil                    British Virgin Islands    Brunei                    Bulgari

In [10]:
# Kiểm tra số lượng mã ISO duy nhất
print("Thông tin về Mã ISO (iso_code)")
unique_iso_codes = df['iso_code'].unique()
print(f"Số lượng mã ISO duy nhất: {len(unique_iso_codes)}")

# In ra các mã ISO duy nhất (nếu muốn xem)
print("Danh sách các mã ISO duy nhất:")
print(unique_iso_codes)


Thông tin về Mã ISO (iso_code)
Số lượng mã ISO duy nhất: 255
Danh sách các mã ISO duy nhất:
['AFG' 'OWID_AFR' 'ALB' 'DZA' 'ASM' 'AND' 'AGO' 'AIA' 'ATG' 'ARG' 'ARM'
 'ABW' 'OWID_ASI' 'AUS' 'AUT' 'AZE' 'BHS' 'BHR' 'BGD' 'BRB' 'BLR' 'BEL'
 'BLZ' 'BEN' 'BMU' 'BTN' 'BOL' 'BES' 'BIH' 'BWA' 'BRA' 'VGB' 'BRN' 'BGR'
 'BFA' 'BDI' 'KHM' 'CMR' 'CAN' 'CPV' 'CYM' 'CAF' 'TCD' 'CHL' 'CHN' 'COL'
 'COM' 'COG' 'COK' 'CRI' 'CIV' 'HRV' 'CUB' 'CUW' 'CYP' 'CZE' 'COD' 'DNK'
 'DJI' 'DMA' 'DOM' 'TLS' 'ECU' 'EGY' 'SLV' 'OWID_ENG' 'GNQ' 'ERI' 'EST'
 'SWZ' 'ETH' 'OWID_EUR' 'OWID_EUN' 'FRO' 'FLK' 'FJI' 'FIN' 'FRA' 'GUF'
 'PYF' 'GAB' 'GMB' 'GEO' 'DEU' 'GHA' 'GIB' 'GRC' 'GRL' 'GRD' 'GLP' 'GUM'
 'GTM' 'GGY' 'GIN' 'GNB' 'GUY' 'HTI' 'OWID_HIC' 'HND' 'HKG' 'HUN' 'ISL'
 'IND' 'IDN' 'IRN' 'IRQ' 'IRL' 'IMN' 'ISR' 'ITA' 'JAM' 'JPN' 'JEY' 'JOR'
 'KAZ' 'KEN' 'KIR' 'OWID_KOS' 'KWT' 'KGZ' 'LAO' 'LVA' 'LBN' 'LSO' 'LBR'
 'LBY' 'LIE' 'LTU' 'OWID_LIC' 'OWID_LMC' 'LUX' 'MAC' 'MDG' 'MWI' 'MYS'
 'MDV' 'MLI' 'MLT' 'MHL' 'MTQ' 'MRT' 'MUS

In [11]:
# Lọc ra các hàng có iso_code bắt đầu bằng 'OWID_'
owid_locations_df = df[df['iso_code'].str.startswith('OWID_', na=False)]

print("Các hàng dữ liệu có iso_code bắt đầu bằng 'OWID_'")
print(f"Số lượng hàng có iso_code bắt đầu bằng 'OWID_': {owid_locations_df.shape[0]}")

# Hiển thị 5 dòng đầu tiên của các hàng đã lọc
print("\n5 dòng đầu tiên của các hàng này:")
print(owid_locations_df.head())

# Hiển thị các iso_code và location duy nhất của các hàng này
print("\nCác iso_code và location duy nhất của các hàng 'OWID_':")
owid_unique_pairs = owid_locations_df[['iso_code', 'location']].drop_duplicates()
print(owid_unique_pairs.to_string(index=False)) # In ra bảng không có index để dễ nhìn


Các hàng dữ liệu có iso_code bắt đầu bằng 'OWID_'
Số lượng hàng có iso_code bắt đầu bằng 'OWID_': 34124

5 dòng đầu tiên của các hàng này:
      iso_code continent location       date  total_cases  new_cases  \
1674  OWID_AFR       NaN   Africa 2020-01-05          0.0        0.0   
1675  OWID_AFR       NaN   Africa 2020-01-06          0.0        0.0   
1676  OWID_AFR       NaN   Africa 2020-01-07          0.0        0.0   
1677  OWID_AFR       NaN   Africa 2020-01-08          0.0        0.0   
1678  OWID_AFR       NaN   Africa 2020-01-09          0.0        0.0   

      new_cases_smoothed  total_deaths  new_deaths  new_deaths_smoothed  \
1674                 NaN           0.0         0.0                  NaN   
1675                 NaN           0.0         0.0                  NaN   
1676                 NaN           0.0         0.0                  NaN   
1677                 NaN           0.0         0.0                  NaN   
1678                 NaN           0.0         0.0   

In [12]:
# Lọc ra các hàng có iso_code bắt đầu bằng 'OWID_'
owid_locations_df = df[df['iso_code'].str.startswith('OWID_', na=False)]

# Lấy các cặp iso_code và location duy nhất từ DataFrame đã lọc
owid_unique_pairs = owid_locations_df[['iso_code', 'location']].drop_duplicates()

print("Danh sách các iso_code OWID và tên khu vực tương ứng")
# In ra bảng không có index để dễ nhìn
print(owid_unique_pairs.to_string(index=False))


Danh sách các iso_code OWID và tên khu vực tương ứng
iso_code                      location
OWID_AFR                        Africa
OWID_ASI                          Asia
OWID_ENG                       England
OWID_EUR                        Europe
OWID_EUN           European Union (27)
OWID_HIC         High-income countries
OWID_KOS                        Kosovo
OWID_LIC          Low-income countries
OWID_LMC Lower-middle-income countries
OWID_NAM                 North America
OWID_CYN               Northern Cyprus
OWID_NIR              Northern Ireland
OWID_OCE                       Oceania
OWID_SCT                      Scotland
OWID_SAM                 South America
OWID_UMC Upper-middle-income countries
OWID_WLS                         Wales
OWID_WRL                         World


In [13]:
#In ra danh sách tất cả các cột
print("Danh sách tất cả các cột")
all_columns = df.columns.tolist() # Chuyển sang list để in dễ hơn
print(f"Tổng số cột: {len(all_columns)}")
print("Tên các cột:")
print(all_columns) # In trực tiếp danh sách các cột

Danh sách tất cả các cột
Tổng số cột: 67
Tên các cột:
['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases', 'new_cases_smoothed', 'total_deaths', 'new_deaths', 'new_deaths_smoothed', 'total_cases_per_million', 'new_cases_per_million', 'new_cases_smoothed_per_million', 'total_deaths_per_million', 'new_deaths_per_million', 'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients', 'icu_patients_per_million', 'hosp_patients', 'hosp_patients_per_million', 'weekly_icu_admissions', 'weekly_icu_admissions_per_million', 'weekly_hosp_admissions', 'weekly_hosp_admissions_per_million', 'total_tests', 'new_tests', 'total_tests_per_thousand', 'new_tests_per_thousand', 'new_tests_smoothed', 'new_tests_smoothed_per_thousand', 'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'total_boosters', 'new_vaccinations', 'new_vaccinations_smoothed', 'total_vaccinations_per_hundred', 'people_vaccinated_per_hu

In [14]:
# Tính toán số lượng và tỷ lệ giá trị thiếu
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100

# Tạo một DataFrame mới để lưu trữ thông tin
missing_info = pd.DataFrame({
    'Số lượng giá trị thiếu': missing_values,
    'Tỷ lệ giá trị thiếu (%)': missing_percentage
})

# Sắp xếp DataFrame theo tỷ lệ giá trị thiếu giảm dần
missing_info_sorted = missing_info.sort_values(by='Tỷ lệ giá trị thiếu (%)', ascending=False)

print("Số lượng và Tỷ lệ giá trị thiếu trong mỗi cột")
print("(Được sắp xếp theo tỷ lệ thiếu giảm dần)\n")

# Lặp qua DataFrame đã sắp xếp và in ra từng dòng
for column_name, row in missing_info_sorted.iterrows():
    # Lấy số lượng và tỷ lệ thiếu từ mỗi hàng
    count = int(row['Số lượng giá trị thiếu'])
    percentage = row['Tỷ lệ giá trị thiếu (%)']

    # In ra theo định dạng bạn muốn, chỉ khi có giá trị thiếu
    if count > 0:
        print(f"{column_name.ljust(45)}: {count} giá trị thiếu ({percentage:.2f}%)")

# In ra thông báo cho các cột không có giá trị thiếu
print("Các cột không có giá trị thiếu")
# Lấy danh sách các cột không có giá trị thiếu
no_missing_columns = missing_info_sorted[missing_info_sorted['Số lượng giá trị thiếu'] == 0].index.tolist()
for col in no_missing_columns:
    print(f"- {col}")


Số lượng và Tỷ lệ giá trị thiếu trong mỗi cột
(Được sắp xếp theo tỷ lệ thiếu giảm dần)

weekly_icu_admissions_per_million            : 418442 giá trị thiếu (97.44%)
weekly_icu_admissions                        : 418442 giá trị thiếu (97.44%)
excess_mortality_cumulative_per_million      : 416024 giá trị thiếu (96.88%)
excess_mortality                             : 416024 giá trị thiếu (96.88%)
excess_mortality_cumulative                  : 416024 giá trị thiếu (96.88%)
excess_mortality_cumulative_absolute         : 416024 giá trị thiếu (96.88%)
weekly_hosp_admissions_per_million           : 404938 giá trị thiếu (94.30%)
weekly_hosp_admissions                       : 404938 giá trị thiếu (94.30%)
icu_patients                                 : 390319 giá trị thiếu (90.89%)
icu_patients_per_million                     : 390319 giá trị thiếu (90.89%)
hosp_patients_per_million                    : 388779 giá trị thiếu (90.53%)
hosp_patients                                : 388779 giá trị thi

In [15]:
# Tính toán số lượng giá trị thiếu
missing_values = df.isnull().sum()

# Lọc ra các cột không có giá trị thiếu (số lượng thiếu == 0)
full_columns = missing_values[missing_values == 0]

print(f"Có {len(full_columns)} cột có đủ giá trị (không có giá trị thiếu)")

# In ra danh sách các cột đó
for column_name in full_columns.index:
    print(f"- {column_name}")


Có 4 cột có đủ giá trị (không có giá trị thiếu)
- iso_code
- location
- date
- population


In [None]:
import pandas as pd

# --- Cấu hình hiển thị để không bị cắt bớt ---
pd.set_option('display.max_rows', None)

# Nhóm dữ liệu theo 'location' và áp dụng hàm tính tổng giá trị thiếu cho mỗi nhóm
# Chúng ta sử dụng .apply() để áp dụng hàm lambda cho mỗi nhóm
missing_by_country = df.groupby('location').apply(lambda x: x.isnull().sum())

# Tính tổng số giá trị thiếu trên tất cả các cột cho mỗi quốc gia
total_missing_per_country = missing_by_country.sum(axis=1)

# Sắp xếp các quốc gia dựa trên tổng số giá trị thiếu, từ ít đến nhiều
sorted_total_missing = total_missing_per_country.sort_values(ascending=True)

print("Thống kê tổng số giá trị thiếu cho từng quốc gia/khu vực")
print("(Được sắp xếp từ ít thiếu nhất đến nhiều thiếu nhất)\n")

# In ra DataFrame đã sắp xếp
print(sorted_total_missing)




--- Thống kê tổng số giá trị thiếu cho từng quốc gia/khu vực ---
(Được sắp xếp từ ít thiếu nhất đến nhiều thiếu nhất)

location
Western Sahara                          56
Czechia                              25343
Italy                                26374
Malaysia                             26743
Belgium                              30453
Estonia                              31710
Israel                               31768
Canada                               32351
United States                        34153
Chile                                34383
Lithuania                            34797
India                                35609
Argentina                            36130
France                               36152
Greece                               36272
Ireland                              36671
Switzerland                          37373
Macao                                37400
Luxembourg                           38027
South Africa                         38272
South Korea 

  missing_by_country = df.groupby('location').apply(lambda x: x.isnull().sum())


In [None]:
# Nhóm dữ liệu theo 'continent' và áp dụng hàm tính tổng giá trị thiếu cho mỗi nhóm
missing_by_continent = df.groupby('continent').apply(lambda x: x.isnull().sum())

# Tính tổng số giá trị thiếu trên tất cả các cột cho mỗi châu lục
total_missing_per_continent = missing_by_continent.sum(axis=1)

# Sắp xếp các châu lục dựa trên tổng số giá trị thiếu, từ ít đến nhiều
sorted_total_missing_continent = total_missing_per_continent.sort_values(ascending=True)

print("Thống kê tổng số giá trị thiếu cho từng Châu lục")
print("(Được sắp xếp từ ít thiếu nhất đến nhiều thiếu nhất)\n")

# In ra kết quả đã sắp xếp
print(sorted_total_missing_continent)




--- Thống kê tổng số giá trị thiếu cho từng Châu lục ---
(Được sắp xếp từ ít thiếu nhất đến nhiều thiếu nhất)

continent
South America     714122
Oceania          1595680
North America    2544375
Asia             2600827
Europe           2769532
Africa           3152267
dtype: int64


  missing_by_continent = df.groupby('continent').apply(lambda x: x.isnull().sum())


In [None]:

df_cleaned = df.copy()
print("Đã tạo bản sao df_cleaned để chuẩn bị dữ liệu.")

# Danh sách các cột cần loại bỏ
columns_to_drop = [
    'excess_mortality',
    'excess_mortality_cumulative',
    'excess_mortality_cumulative_absolute',
    'excess_mortality_cumulative_per_million',
    'icu_patients',
    'icu_patients_per_million',
    'hosp_patients',
    'hosp_patients_per_million',
    'weekly_icu_admissions',
    'weekly_icu_admissions_per_million',
    'weekly_hosp_admissions',
    'weekly_hosp_admissions_per_million',
    'tests_units'
]

# Ghi lại số cột ban đầu
initial_column_count = df_cleaned.shape[1]

# Loại bỏ các cột
df_cleaned = df_cleaned.drop(columns=columns_to_drop)

# Ghi lại số cột sau khi loại bỏ
final_column_count = df_cleaned.shape[1]

print("Đã loại bỏ các cột không cần thiết")
print(f"Số cột ban đầu: {initial_column_count}")
print(f"Số cột đã loại bỏ: {len(columns_to_drop)}")
print(f"Số cột còn lại: {final_column_count}")

# In ra 5 dòng đầu của DataFrame đã được làm sạch để kiểm tra
print("\n5 dòng đầu của DataFrame sau khi loại bỏ cột:")
print(df_cleaned.head())


Đã tạo bản sao df_cleaned để chuẩn bị dữ liệu.
--- Đã loại bỏ các cột không cần thiết ---
Số cột ban đầu: 67
Số cột đã loại bỏ: 13
Số cột còn lại: 54

5 dòng đầu của DataFrame sau khi loại bỏ cột:
  iso_code continent     location       date  total_cases  new_cases  \
0      AFG      Asia  Afghanistan 2020-01-05          0.0        0.0   
1      AFG      Asia  Afghanistan 2020-01-06          0.0        0.0   
2      AFG      Asia  Afghanistan 2020-01-07          0.0        0.0   
3      AFG      Asia  Afghanistan 2020-01-08          0.0        0.0   
4      AFG      Asia  Afghanistan 2020-01-09          0.0        0.0   

   new_cases_smoothed  total_deaths  new_deaths  new_deaths_smoothed  \
0                 NaN           0.0         0.0                  NaN   
1                 NaN           0.0         0.0                  NaN   
2                 NaN           0.0         0.0                  NaN   
3                 NaN           0.0         0.0                  NaN   
4         

In [39]:
# Tạo một bản sao của DataFrame để làm việc (nếu chưa có)
print("Đã tạo bản sao df_cleaned để chuẩn bị dữ liệu.")

# Chuyển đổi cột 'date' sang kiểu datetime
df_cleaned['date'] = pd.to_datetime(df_cleaned['date'])

print("Đã chuyển đổi kiểu dữ liệu cột 'date'")
# In ra kiểu dữ liệu của các cột để xác nhận
print(df_cleaned.info())


Đã tạo bản sao df_cleaned để chuẩn bị dữ liệu.
Đã chuyển đổi kiểu dữ liệu cột 'date'
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 429435 entries, 0 to 429434
Data columns (total 54 columns):
 #   Column                                      Non-Null Count   Dtype         
---  ------                                      --------------   -----         
 0   iso_code                                    429435 non-null  object        
 1   continent                                   402910 non-null  object        
 2   location                                    429435 non-null  object        
 3   date                                        429435 non-null  datetime64[ns]
 4   total_cases                                 429435 non-null  float64       
 5   new_cases                                   429435 non-null  float64       
 6   new_cases_smoothed                          429435 non-null  float64       
 7   total_deaths                                429435 non-null  float64  

In [40]:
# Lấy danh sách tất cả các cột
all_columns = df_cleaned.columns

# Xác định các cột cần loại trừ (không điền 0)
columns_to_exclude = ['iso_code', 'continent', 'location', 'date']

# Lặp qua tất cả các cột trong DataFrame
for col in all_columns:
    # Nếu cột không nằm trong danh sách loại trừ
    if col not in columns_to_exclude:
        # Điền 0 cho các giá trị thiếu
        df_cleaned[col] = df_cleaned[col].fillna(0)


# Kiểm tra lại số lượng giá trị thiếu còn lại
remaining_missing = df_cleaned.isnull().sum()
print("\n--- Số lượng giá trị thiếu còn lại sau khi điền ---")
print(remaining_missing[remaining_missing > 0])





--- Số lượng giá trị thiếu còn lại sau khi điền ---
continent    26525
dtype: int64


In [None]:
# Chọn tất cả các cột có kiểu dữ liệu là số
numeric_columns = df_cleaned.select_dtypes(include=['number']).columns

print("Bắt đầu kiểm tra các giá trị bất thường trong các cột số")

# 1. Kiểm tra giá trị âm
print("1. Kiểm tra giá trị âm")
found_negative_values = False
for col in numeric_columns:
    if (df_cleaned[col] < 0).any():
        found_negative_values = True
        num_negative = (df_cleaned[col] < 0).sum()
        min_negative = df_cleaned[col][df_cleaned[col] < 0].min()
        print(f"Cảnh báo: Cột '{col}' có chứa {num_negative} giá trị âm. Giá trị nhỏ nhất là {min_negative}.")

if not found_negative_values:
    print("Không có giá trị âm nào")



print("2. Kiểm tra giá trị không phải số")
found_non_numeric = False
for col in numeric_columns:
    # pd.to_numeric với errors='coerce' sẽ biến các giá trị không phải số thành NaT/NaN
    # Nếu có bất kỳ giá trị NaN nào được tạo ra, điều đó có nghĩa là có giá trị không phải số
    if pd.to_numeric(df_cleaned[col], errors='coerce').isnull().any():
        found_non_numeric = True
        # Đếm số lượng giá trị không phải số
        num_non_numeric = pd.to_numeric(df_cleaned[col], errors='coerce').isnull().sum()
        print(f"Cột '{col}' có chứa {num_non_numeric} giá trị không phải số.")

if not found_non_numeric:
    print("Không có giá trị không phải số")

print("Kiểm tra hoàn tất")

Kiểm tra dữ liệu số:
Kiểm tra xong!


In [44]:
# Xử lý giá trị âm trong 'reproduction_rate'
if 'reproduction_rate' in df_cleaned.columns:
    df_cleaned.loc[df_cleaned['reproduction_rate'] < 0, 'reproduction_rate'] = 0

In [48]:
is_owid_data = df_cleaned['iso_code'].str.startswith('OWID_', na=False)

# 1. Tách DataFrame tổng hợp
df_owid_aggregated = df_cleaned[is_owid_data].copy()

# 2. Lưu DataFrame tổng hợp ra file CSV
df_owid_aggregated.to_csv('../Data_main/covid_owid_aggregated_data.csv', index=False)

In [19]:
df_countries_cleaned = df_cleaned[~is_owid_data].copy()

# Lưu DataFrame đã làm sạch ra file CSV
df_countries_cleaned.to_csv('../Data_main/covid_cleaned_country_data.csv', index=False)


NameError: name 'df_cleaned' is not defined

In [20]:
df_after_cleaning = pd.read_csv('../Data_main/covid_cleaned_country_data.csv')

In [35]:
df_after_cleaning.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395311 entries, 0 to 395310
Data columns (total 54 columns):
 #   Column                                      Non-Null Count   Dtype  
---  ------                                      --------------   -----  
 0   iso_code                                    395311 non-null  object 
 1   continent                                   395311 non-null  object 
 2   location                                    395311 non-null  object 
 3   date                                        395311 non-null  object 
 4   total_cases                                 395311 non-null  float64
 5   new_cases                                   395311 non-null  float64
 6   new_cases_smoothed                          395311 non-null  float64
 7   total_deaths                                395311 non-null  float64
 8   new_deaths                                  395311 non-null  float64
 9   new_deaths_smoothed                         395311 non-null  float64
 

In [23]:
# Kiểm tra số lượng quốc gia/khu vực sau khi làm sạch
num_countries = df_after_cleaning['location'].nunique()
print(f"Số lượng quốc gia/khu vực sau khi làm sạch dữ liệu: {num_countries}")

Số lượng quốc gia/khu vực sau khi làm sạch dữ liệu: 237
