# **PHÂN TÍCH KHÁM PHÁ DỮ LIỆU**

## **THỐNG KÊ MÔ TẢ**

### **ÔN TẬP LÝ THUYẾT**

### **BÀI LÀM MẪU**

#### **Bài toán 1**: Thực hiện các nhiệm vụ trong bài toán 1 để làm quen với các thao tác cần làm để khám phá dữ liệu

##### **Nhiệm vụ 1: Khám phá dữ liệu COVID**: lấy tại https://ourworldindata.org/coronavirus

1. Tính mean, median, mode, variance, standard deviation, range, percentile, quartile, interquartile range (IQR) sử dụng thư viện numpy và stats trên tập dữ liệu COVID.

**Import thư viện** 

In [1]:
# Import thư viện
import numpy as np
import pandas as pd
from scipy import stats

**Đọc dữ liệu từ file CSV**

In [43]:
# Đọc dữ liệu từ file CSV
covid_data = pd.read_csv("data/covid-data.csv")

**Lấy các cột cần thiết**

In [44]:
# Lấy các cột cần thiết
covid_data = covid_data[['code','continent','country','date','total_cases','new_cases']]

Ý nghĩa của từng cột:
1. `code`  
Ý nghĩa: Mã quốc gia ISO (3 ký tự)  
Ví dụ: AFG (Afghanistan), USA (United States), VNM (Vietnam)  
Mục đích: Định danh duy nhất cho mỗi quốc gia/vùng lãnh thổ  
2. `continent`  
Ý nghĩa: Tên lục địa  
Ví dụ: Asia, Europe, North America, Africa, South America, Oceania  
Mục đích: Phân loại dữ liệu theo khu vực địa lý lớn  
3. `country`  
Ý nghĩa: Tên đầy đủ của quốc gia/vùng lãnh thổ  
Ví dụ: Afghanistan, Vietnam, United States, Germany  
Mục đích: Hiển thị tên quốc gia dễ đọc cho con người  
4. `date`  
Ý nghĩa: Ngày ghi nhận dữ liệu  
Định dạng: YYYY-MM-DD (ví dụ: 2020-01-01)  
Mục đích: Theo dõi diễn biến theo thời gian  
5. `total_cases`  
Ý nghĩa: Tổng số ca nhiễm COVID-19 tích lũy đến ngày đó  
Đơn vị: Số ca  
Mục đích: Xem tổng quan mức độ lây lan tại mỗi quốc gia  
6. `new_cases`  
Ý nghĩa: Số ca nhiễm COVID-19 mới được ghi nhận trong ngày  
Đơn vị: Số ca  
Mục đích: Theo dõi tốc độ lây lan hàng ngày  


**Xem thông tin sơ bộ**

In [46]:
# Xem trước 5 dòng dữ liệu
covid_data.head(5)

Unnamed: 0,code,continent,country,date,total_cases,new_cases
0,AFG,Asia,Afghanistan,2020-01-01,,
1,AFG,Asia,Afghanistan,2020-01-02,,
2,AFG,Asia,Afghanistan,2020-01-03,,
3,AFG,Asia,Afghanistan,2020-01-04,0.0,0.0
4,AFG,Asia,Afghanistan,2020-01-05,0.0,0.0


In [47]:
# Xem kiểu dữ liệu của các cột
covid_data.dtypes

code            object
continent       object
country         object
date            object
total_cases    float64
new_cases      float64
dtype: object

In [48]:
# Xem kích thước dữ liệu
covid_data.shape

(530292, 6)

=> 530292 hàng, 6 cột

**Các thống kê cơ bản với cột `new_cases`**

- Trung bình (Mean)

In [8]:
# Trung bình (Mean) cho cột `new_cases`
data_mean = np.mean(covid_data['new_cases'])
print("Giá trị trung bình của new_cases:", data_mean)

Giá trị trung bình của new_cases: 10590.082678546372


=> Cho biết số ca trung bình mỗi ngày. Nhưng có thể bị ảnh hưởng mạnh bởi các ngày có ca tăng đột biến.

- Trung vị (Median)

In [9]:
# Trung vị (Median) cho cột `new_cases`

# Loại bỏ giá trị NaN trước khi tính toán
covid_data = covid_data.dropna(subset=['new_cases'])
# Tính trung vị
data_median = np.median(covid_data["new_cases"])
print("Giá trị trung vị của new_cases:", data_median)

Giá trị trung vị của new_cases: 0.0


=> Cho biết giá trị giữa => ít bị ảnh hưởng bởi giá trị ngoại lai. Dùng để hiểu xu hướng trung tâm khi dữ liệu lệch.

- Mode (Giá trị xuất hiện nhiều nhất)

In [10]:
# Mode (Giá trị xuất hiện nhiều nhất) cho cột `new_cases`

# Loại bỏ giá trị NaN trước khi tính mode
new_cases_clean = covid_data["new_cases"].dropna()
data_mode = stats.mode(new_cases_clean, keepdims=True)
print("Mode:", data_mode.mode[0], "Count:", data_mode.count[0])

Mode: 0.0 Count: 316034


=> Cho biết con số nào thường lặp lại nhất.


- Phương sai (Variance)

In [11]:
# Phương sai (Variance) cho cột `new_cases`
data_variance = np.var(covid_data["new_cases"])
print("Phương sai của new_cases:", data_variance)

Phương sai của new_cases: 13834902307.943613


=> Đo độ phân tán của dữ liệu (khoảng cách giữa các giá trị so với trung bình)

- Đo lệch chuẩn (Standard Deviation)

In [12]:
# Đo lệch chuẩn (Standard Deviation) cho cột `new_cases`
data_sd = np.std(covid_data["new_cases"])
print("Đo lệch chuẩn của new_cases:", data_sd)

Đo lệch chuẩn của new_cases: 117621.86152218308


=> Nếu std cao => số ca thay đổi bất thường, dịch diễn biến khó lường.

- Giá trị nhỏ nhất và lớn nhất

In [13]:
data_max = np.max(covid_data["new_cases"])
data_min = np.min(covid_data["new_cases"])
print("Giá trị lớn nhất của new_cases:", data_max)
print("Giá trị nhỏ nhất của new_cases:", data_min)

Giá trị lớn nhất của new_cases: 8401906.0
Giá trị nhỏ nhất của new_cases: 0.0


=> Cho thấy sự chênh lệch giữa ngày có số ca nhiều nhất và ít nhất.

- Phân vị (Percentile)

In [14]:
# Phân vị (Percentile) cho cột `new_cases`
data_percentile = np.percentile(covid_data["new_cases"],60)
print("Giá trị phân vị 60 của new_cases:", data_percentile)

Giá trị phân vị 60 của new_cases: 0.0


Tìm giá trị tại vị trí 60% khi sắp xếp dữ liệu tăng dần.  
Ví dụ: 60th percentile cho biết 60% số ngày có ca mới ≤ giá trị này. Giúp hiểu phân bố dữ liệu.

- Tứ phân vị (Quartile)

In [15]:
# Tứ phân vị (Quartile) cho cột `new_cases`
data_quartile = np.quantile(covid_data["new_cases"],0.75)
print("Giá trị tứ phân vị 75 của new_cases:", data_quartile)

Giá trị tứ phân vị 75 của new_cases: 64.0


Tìm Q3 (tứ phân vị thứ 3, 75%).  
Có nghĩa 75% dữ liệu nhỏ hơn giá trị này.  
=> Q1, Q2, Q3 chia dữ liệu thành 4 phần bằng nhau. Dễ thấy 25%, 50%, 75% dữ liệu nằm ở đâu.

- Khoảng tứ phân vị (IQR)

In [16]:
# Khoảng tứ phân vị (IQR) cho cột `new_cases`
data_IQR = stats.iqr(covid_data["new_cases"])
print("Khoảng tứ phân vị (IQR) của new_cases:", data_IQR)

Khoảng tứ phân vị (IQR) của new_cases: 64.0


`IQR = Q3 - Q1`  
Là khoảng giữa 25% dữ liệu dưới và 25% dữ liệu trên.  
Dùng để phát hiện outliers (giá trị ngoại lai).  

**Kết luận về Correlation trong dữ liệu COVID-19:**

1. **Mối quan hệ giữa `total_cases` và `new_cases`:**
   - Có tương quan dương mạnh (thường > 0.8) vì `total_cases` là tích lũy của `new_cases`
   - Khi `new_cases` tăng liên tục → `total_cases` tăng nhanh
   - Khi `new_cases` giảm → tốc độ tăng của `total_cases` chậm lại

2. **Ý nghĩa thực tiễn:**
   - Correlation cao cho thấy sự nhất quán trong dữ liệu
   - Giúp dự báo xu hướng dịch bệnh
   - Hỗ trợ đánh giá hiệu quả các biện pháp phòng chống dịch

3. **Hạn chế:**
   - Chỉ có 2 biến số nên phân tích correlation đơn giản
   - Cần thêm các biến khác (dân số, mật độ, chính sách...) để có cái nhìn toàn diện hơn

**→ Tóm lại:** Correlation giữa 2 cột này chủ yếu mang tính toán học (tích lũy), cần bổ sung thêm các yếu tố khác để phân tích sâu hơn về COVID-19.

##### **Nhiệm vụ 2**: Khám phá và xử lý dữ liệu Marketing Campaign lấy tại
https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis

**Import thư viện và nạp dữ liệu vào notebook**

In [62]:
# Import thư viện và nạp dữ liệu Marketing Campaign
import pandas as pd

In [63]:
# Đọc file với encoding phù hợp và bỏ ký tự tab nếu có
marketing_data = pd.read_csv('data/marketing_campaign.csv', sep=',')

In [64]:
# Lấy các cột cần thiết
marketing_data = marketing_data[['ID','Year_Birth', 'Education',
'Marital_Status','Income','Kidhome', 'Teenhome',
'Dt_Customer', 'Recency','NumStorePurchases',
'NumWebVisitsMonth']]

**Loại bỏ dữ liệu trùng lặp**

In [65]:
# Xem trước 5 dòng dữ liệu
marketing_data.head()

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,NumStorePurchases,NumWebVisitsMonth
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,4,7
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,2,5
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,10,4
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,4,6
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,6,5


In [66]:
# Loại bỏ dữ liệu trùng lặp
marketing_data_duplicate = marketing_data.drop_duplicates() 

In [67]:
# Xóa dòng có chỉ số 1
marketing_data.drop(labels=[1], axis=0)

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,NumStorePurchases,NumWebVisitsMonth
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,4,7
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,10,4
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,4,6
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,6,5
5,7446,1967,Master,Together,62513.0,0,1,09-09-2013,16,10,6
...,...,...,...,...,...,...,...,...,...,...,...
2235,10870,1967,Graduation,Married,61223.0,0,1,13-06-2013,46,4,5
2236,4001,1946,PhD,Together,64014.0,2,1,10-06-2014,56,5,7
2237,7270,1981,Graduation,Divorced,56981.0,0,0,25-01-2014,91,13,6
2238,8235,1956,Master,Together,69245.0,0,1,24-01-2014,8,10,3


In [68]:
# Xóa cột 'Year_Birth'
marketing_data.drop(labels=['Year_Birth'], axis=1)

Unnamed: 0,ID,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,NumStorePurchases,NumWebVisitsMonth
0,5524,Graduation,Single,58138.0,0,0,04-09-2012,58,4,7
1,2174,Graduation,Single,46344.0,1,1,08-03-2014,38,2,5
2,4141,Graduation,Together,71613.0,0,0,21-08-2013,26,10,4
3,6182,Graduation,Together,26646.0,1,0,10-02-2014,26,4,6
4,5324,PhD,Married,58293.0,1,0,19-01-2014,94,6,5
...,...,...,...,...,...,...,...,...,...,...
2235,10870,Graduation,Married,61223.0,0,1,13-06-2013,46,4,5
2236,4001,PhD,Together,64014.0,2,1,10-06-2014,56,5,7
2237,7270,Graduation,Divorced,56981.0,0,0,25-01-2014,91,13,6
2238,8235,Master,Together,69245.0,0,1,24-01-2014,8,10,3


**Thay thế dữ liệu và thay đổi định dạng của dữ liệu**

In [69]:
# Thay thế giá trị trong cột Teenhome bằng has teen và has no teen
marketing_data['Teenhome_replaced'] = marketing_data['Teenhome'].replace([0,1,2],['has no teen','has teen','has teen'])

In [70]:
# Thay thế các giá trị NaN trong cột Income bằng 0
marketing_data['Income'] = marketing_data['Income'].fillna(0)

In [71]:
# Thay đổi kiểu dữ liệu của cột Income từ float sang int
marketing_data['Income_changed'] = marketing_data['Income'].astype(int)

**Xử lý dữ liệu thiếu**

In [72]:
# Kiểm tra các giá trị bị thiếu
marketing_data.isnull().sum()


ID                   0
Year_Birth           0
Education            0
Marital_Status       0
Income               0
Kidhome              0
Teenhome             0
Dt_Customer          0
Recency              0
NumStorePurchases    0
NumWebVisitsMonth    0
Teenhome_replaced    0
Income_changed       0
dtype: int64

=> Không có giá trị bị thiếu trong các cột đã chọn

In [73]:
# Loại bỏ các hàng có giá trị bị thiếu
marketing_data_withoutna = marketing_data.dropna(how = 'any') # Loại bỏ các hàng có ít nhất một giá trị bị thiếu
marketing_data_withoutna.shape # Kích thước dữ liệu sau khi loại bỏ các hàng có giá trị bị thiếu

(2240, 13)

=> 2240 hàng và 13 cột