# Nhiệm Vụ 1: Khám Phá Dữ Liệu COVID-19

# Phân tích dữ liệu số ca nhiễm COVID-19 mới
Trong notebook này, chúng ta sẽ thực hiện các bước EDA cơ bản trên cột `new_cases` của bộ dữ liệu COVID-19.

## 1. Import thư viện cần thiết
Chúng ta sử dụng numpy, pandas và scipy để xử lý và phân tích dữ liệu.

In [1]:
import numpy as np
import pandas as pd
from scipy import stats

## 2. Đọc dữ liệu từ file CSV
Chỉ lấy các cột liên quan: mã quốc gia, châu lục, tên quốc gia, ngày, tổng số ca, số ca mới.

In [2]:
covid_data = pd.read_csv("../data/owid-covid-data.csv")
covid_data = covid_data[['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases']]

## 3. Khám phá dữ liệu ban đầu
Xem 5 dòng đầu, kiểu dữ liệu và kích thước bảng.

In [3]:
print(covid_data.head(5))
print(covid_data.dtypes)
print(covid_data.shape)

  iso_code continent     location        date  total_cases  new_cases
0      AFG      Asia  Afghanistan  2020-01-05          0.0        0.0
1      AFG      Asia  Afghanistan  2020-01-06          0.0        0.0
2      AFG      Asia  Afghanistan  2020-01-07          0.0        0.0
3      AFG      Asia  Afghanistan  2020-01-08          0.0        0.0
4      AFG      Asia  Afghanistan  2020-01-09          0.0        0.0
iso_code        object
continent       object
location        object
date            object
total_cases    float64
new_cases      float64
dtype: object
(429435, 6)


## 4. Kiểm tra và xử lý giá trị thiếu (NaN) ở cột `new_cases`
Đếm số lượng giá trị thiếu và thay thế bằng 0.

In [4]:
print(covid_data['new_cases'].isnull().sum())
covid_data['new_cases'] = covid_data['new_cases'].fillna(0)

19276


## 5. Tính các thống kê mô tả cơ bản cho cột `new_cases`
Bao gồm: Mean, Median, Mode, Variance, Standard Deviation, Range, Percentile, Quartile, IQR.

In [5]:
# Mean
data_mean = np.mean(covid_data["new_cases"])
print("Mean:", data_mean)

# Median
data_median = np.median(covid_data["new_cases"])
print("Median:", data_median)

# Mode
data_mode = stats.mode(covid_data["new_cases"], nan_policy='omit', keepdims=True)
print("Mode:", data_mode.mode[0])

# Variance
data_variance = np.var(covid_data["new_cases"])
print("Variance:", data_variance)

# Standard Deviation
data_sd = np.std(covid_data["new_cases"])
print("Standard Deviation:", data_sd)

# Range
data_max = np.max(covid_data["new_cases"])
data_min = np.min(covid_data["new_cases"])
data_range = data_max - data_min
print("Range:", data_range)

# 60th Percentile
data_percentile = np.percentile(covid_data["new_cases"], 60)
print("60th Percentile:", data_percentile)

# 75th Quartile (Q3)
data_quartile = np.quantile(covid_data["new_cases"], 0.75)
print("75th Quartile:", data_quartile)

# IQR
data_IQR = stats.iqr(covid_data["new_cases"])
print("IQR:", data_IQR)

Mean: 7657.48561016219
Median: 0.0
Mode: 0.0
Variance: 50380982412.98099
Standard Deviation: 224457.0836774393
Range: 44236227.0
60th Percentile: 0.0
75th Quartile: 0.0
IQR: 0.0


### Ý nghĩa các thống kê mô tả cơ bản cho cột `new_cases`
- **Mean (Trung bình):** Giá trị trung bình số ca nhiễm mới mỗi ngày, phản ánh xu hướng tổng thể của dữ liệu.
- **Median (Trung vị):** Giá trị nằm giữa khi sắp xếp tất cả số ca nhiễm mới, giúp giảm ảnh hưởng của các giá trị ngoại lai.
- **Mode (Giá trị xuất hiện nhiều nhất):** Số ca nhiễm mới phổ biến nhất trong dữ liệu.
- **Variance (Phương sai):** Đo độ phân tán của số ca nhiễm mới quanh giá trị trung bình.
- **Standard Deviation (Độ lệch chuẩn):** Đo mức độ biến động của số ca nhiễm mới so với trung bình.
- **Range (Khoảng biến thiên):** Hiệu số giữa giá trị lớn nhất và nhỏ nhất, cho biết độ rộng của dữ liệu.
- **Percentile (Phân vị):** Giá trị tại một vị trí phần trăm nhất định (ví dụ: 60th percentile là giá trị mà 60% dữ liệu nhỏ hơn nó).
- **Quartile (Tứ phân vị):** Chia dữ liệu thành 4 phần bằng nhau, Q3 là giá trị tại 75%.
- **IQR (Khoảng tứ phân vị):** Hiệu số giữa Q3 và Q1, đo độ phân tán của dữ liệu ở giữa.

# Nhiệm Vụ 2: Khám Phá Và Xử Lý Dữ Liệu Marketing Campaign

In [1]:
import pandas as pd

# Tải data (lưu ý sep='\t' vì file dùng tab)
marketing_data = pd.read_csv("../data/marketing_campaign.csv", sep='\t')
marketing_data = marketing_data[['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome', 'Teenhome', 'Dt_Customer', 'Recency', 'NumStorePurchases', 'NumWebVisitsMonth']]

In [2]:
print(marketing_data.head())  # Xem data

# Loại duplicates toàn bộ
marketing_data_duplicate = marketing_data.drop_duplicates()
print("Shape sau drop duplicates:", marketing_data_duplicate.shape)

# Xóa row cụ thể (index 1)
marketing_data = marketing_data.drop(labels=[1], axis=0)

# Xóa cột cụ thể
marketing_data = marketing_data.drop(labels=['Year_Birth'], axis=1)

     ID  Year_Birth   Education Marital_Status   Income  Kidhome  Teenhome  \
0  5524        1957  Graduation         Single  58138.0        0         0   
1  2174        1954  Graduation         Single  46344.0        1         1   
2  4141        1965  Graduation       Together  71613.0        0         0   
3  6182        1984  Graduation       Together  26646.0        1         0   
4  5324        1981         PhD        Married  58293.0        1         0   

  Dt_Customer  Recency  NumStorePurchases  NumWebVisitsMonth  
0  04-09-2012       58                  4                  7  
1  08-03-2014       38                  2                  5  
2  21-08-2013       26                 10                  4  
3  10-02-2014       26                  4                  6  
4  19-01-2014       94                  6                  5  
Shape sau drop duplicates: (2240, 11)


In [3]:
# Thay thế Teenhome: 0 -> 'has no teen', 1/2 -> 'has teen'
marketing_data['Teenhome_replaced'] = marketing_data['Teenhome'].replace([0, 1, 2], ['has no teen', 'has teen', 'has teen'])

# Fill NaN ở Income bằng 0
marketing_data['Income'] = marketing_data['Income'].fillna(0)

# Đổi kiểu Income sang int
marketing_data['Income_changed'] = marketing_data['Income'].astype(int)
print(marketing_data.head())  # Kiểm tra

     ID   Education Marital_Status   Income  Kidhome  Teenhome Dt_Customer  \
0  5524  Graduation         Single  58138.0        0         0  04-09-2012   
2  4141  Graduation       Together  71613.0        0         0  21-08-2013   
3  6182  Graduation       Together  26646.0        1         0  10-02-2014   
4  5324         PhD        Married  58293.0        1         0  19-01-2014   
5  7446      Master       Together  62513.0        0         1  09-09-2013   

   Recency  NumStorePurchases  NumWebVisitsMonth Teenhome_replaced  \
0       58                  4                  7       has no teen   
2       26                 10                  4       has no teen   
3       26                  4                  6       has no teen   
4       94                  6                  5       has no teen   
5       16                 10                  6          has teen   

   Income_changed  
0           58138  
2           71613  
3           26646  
4           58293  
5         

In [4]:
# Kiểm tra missing
print(marketing_data.isnull().sum())

# Drop rows có missing
marketing_data_withoutna = marketing_data.dropna(how='any')
print("Shape sau drop NaN:", marketing_data_withoutna.shape)

ID                   0
Education            0
Marital_Status       0
Income               0
Kidhome              0
Teenhome             0
Dt_Customer          0
Recency              0
NumStorePurchases    0
NumWebVisitsMonth    0
Teenhome_replaced    0
Income_changed       0
dtype: int64
Shape sau drop NaN: (2239, 12)


# 