# EXPLORING DATA
---

Nhiệm vụ của phần này là làm sạch và phân tích dữ liệu đã được thu thập

## IMPORT

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Đọc dữ liệu

In [2]:
data = pd.read_csv('../Data/Time-Wasters on Social Media.csv')

In [3]:
data.head()

Unnamed: 0,UserID,Age,Gender,Location,Income,Debt,Owns Property,Profession,Demographics,Platform,...,ProductivityLoss,Satisfaction,Watch Reason,DeviceType,OS,Watch Time,Self Control,Addiction Level,CurrentActivity,ConnectionType
0,1,56,Male,Pakistan,82812,True,True,Engineer,Rural,Instagram,...,3,7,Procrastination,Smartphone,Android,9:00 PM,5,5,Commuting,Mobile Data
1,2,46,Female,Mexico,27999,False,True,Artist,Urban,Instagram,...,5,5,Habit,Computer,Android,5:00 PM,7,3,At school,Wi-Fi
2,3,32,Female,United States,42436,False,True,Engineer,Rural,Facebook,...,6,4,Entertainment,Tablet,Android,2:00 PM,8,2,At home,Mobile Data
3,4,60,Male,Barzil,62963,True,False,Waiting staff,Rural,YouTube,...,3,7,Habit,Smartphone,Android,9:00 PM,5,5,Commuting,Mobile Data
4,5,25,Male,Pakistan,22096,False,True,Manager,Urban,TikTok,...,8,2,Boredom,Smartphone,iOS,8:00 AM,10,0,At home,Mobile Data


## LÀM SẠCH VÀ PHÂN TÍCH DỮ LIỆU

### 1. Dữ liệu có bao nhiêu dòng, cột

In [4]:
data.shape

(1000, 31)

### 2. Thông tin về các dòng dữ liệu

#### 2.1. Ý nghĩa từng dòng dữ liệu

- Mỗi dòng là đại diện cho thông tin tổng hợp về một người dùng trong một ngày bao gồm thông tin, hành vi sử dụng và tác động tâm lý.

- Không có dòng nào có ý nghĩa khác với các dòng còn lại.

#### 2.2. Kiểm tra các dòng dữ liệu trùng lặp

In [5]:
n_duplicate = data.duplicated().sum()
n_duplicate

0

Dữ liệu không có các dòng trùng lặp

### 3. Thông tin về các cột dữ liệu
Dữ liệu có các cột sau

In [6]:
data.columns

Index(['UserID', 'Age', 'Gender', 'Location', 'Income', 'Debt',
       'Owns Property', 'Profession', 'Demographics', 'Platform',
       'Total Time Spent', 'Number of Sessions', 'Video ID', 'Video Category',
       'Video Length', 'Engagement', 'Importance Score', 'Time Spent On Video',
       'Number of Videos Watched', 'Scroll Rate', 'Frequency',
       'ProductivityLoss', 'Satisfaction', 'Watch Reason', 'DeviceType', 'OS',
       'Watch Time', 'Self Control', 'Addiction Level', 'CurrentActivity',
       'ConnectionType'],
      dtype='object')

#### 3.1. Ý nghĩa của các cột dữ liệu

Mỗi cột có ý nghĩa sau: 
|Tên cột|Ý nghĩa|
|-------|-------|
| UserID| Mã định danh duy nhất của người dùng|
| Age| Tuổi của người dùng|
| Gender| Giới tính của người dùng (nam, nữ, không xác định giới tính)|
| Location| Vị trí địa lý của người dùng (quốc gia)|
| Income| Thu nhập của người dùng|
| Debt| Người dùng có đang nợ hay không|
| Owns Property| Người dùng có sở hữu bất động sản hay không|
| Profession| Nghề nghiệp của người dùng|
| Demographics| Nhân khẩu học (nông thôn, thành thị)|
| Platform| Nền tảng mà người dùng truy cập|
| Total Time Spent| Tổng thời gian người dùng đã dành trên nên tảng (phút)|
| Number of Sessions| Số lần người dùng truy cập vào nền tảng|
| Video ID| Mã định danh của video được xem|
| Video Category| Thể loại của video|
| Video Length| Thời lượng của video|
| Engagement| Mức độ tương tác của người dùng với video (thích, bình luận, chia sẻ)|
| Importance Score| Điểm đánh giá tầm quan trọng của video đối với người dùng|
| Time Spent On Video| Thời gian người dùng dành để xem một video cụ thể|
| Number of Videos Watched| Số lượng video người dùng đã xem|
| Scroll Rate| Tỷ lệ người dùng cuộn qua nội dung|
| Frequency| Tần suất người dùng tương tác với nền tảng|
| ProductivityLoss| Tác động của việc sử dụng nền tảng đến năng suất của người dùng|
| Satisfaction| Mức độ hài lòng của người dùng|
| Watch Reason| Lý do người dùng xem video|
| DeviceType| Loại thiết bị mà người dùng sử dụng|
| OS| Hệ điều hành trên thiết bị của người dùng|
| Watch Time| Thời trong ngày mà người dùng xem video|
| Self Control| Mức độ kiểm soát việc sử dụng nền tảng của người dùng|
| Addiction Level| Mức độ nghiện của người dùng vào nền tảng|
| CurrentActivity| Người dùng đang làm gì khi xem video|
| ConnectionType| Loại kết nối mạng của người dùng|

Chủ đề đã chọn là: Phân tích thói quen sử dụng thời gian trên mạng xã hội và tác động của nó đến đời sống cá nhân, từ đó rút ra các tác động tiêu cực hoặc tích cực đối với con người.

Lọc ra các cột không liên quan trực tiếp đến chủ đề để tập trung vào các đặc trưng chính, giúp dữ liệu trở nên cô đọng và phù hợp hơn cho phân tích.

Các cột bị loại bỏ là: **UserID, Location, Debt, Owns Property, Demographics, Video ID, Video Length, Engagement, Scroll Rate, Device Type, OS, Watch Time, Connection Type**.

In [7]:
# Liệt kê các cột cần loại bỏ
columns_to_drop = ['UserID', 'Location', 'Debt', 'Owns Property', 
                   'Demographics', 'Video ID', 'Video Length', 'Engagement', 
                   'Scroll Rate', 'DeviceType', 'OS', 'Watch Time', 'ConnectionType']

# Bỏ các cột không cần thiết
data = data.drop(columns=columns_to_drop)

#### 3.2. Kiểm tra kiểu dữ liệu của mỗi cột
Kiểu dữ liệu hiện tại của các cột

In [8]:
data.dtypes

Age                          int64
Gender                      object
Income                       int64
Profession                  object
Platform                    object
Total Time Spent             int64
Number of Sessions           int64
Video Category              object
Importance Score             int64
Time Spent On Video          int64
Number of Videos Watched     int64
Frequency                   object
ProductivityLoss             int64
Satisfaction                 int64
Watch Reason                object
Self Control                 int64
Addiction Level              int64
CurrentActivity             object
dtype: object

Có một số cột dữ liệu chưa được xác định với các kiểu dữ liệu phù hợp.

- Cột **Gender** sẽ được tách thành 2 cột **Female** và **Male** với kiểu dữ liệu boolean.

- Đổi các cột **Platform, Video Category, Frequency, Watch Reason, CurrentActivity** thành kiểu dữ liệu Category.


In [9]:
# Gender
data['Female'] = data['Gender'] == 'Female'
data['Male'] = data['Gender'] == 'Male'
data = data.drop('Gender', axis = 1)

# Platform, Video Category, Frequency, Watch Reason, CurrentActivity
data['Platform'] = data['Platform'].astype('category')
data['Video Category'] = data['Video Category'].astype('category')
data['Frequency'] = data['Frequency'].astype('category')
data['Watch Reason'] = data['Watch Reason'].astype('category')
data['CurrentActivity'] = data['CurrentActivity'].astype('category')


Kiểm tra lại

In [10]:
data.dtypes

Age                            int64
Income                         int64
Profession                    object
Platform                    category
Total Time Spent               int64
Number of Sessions             int64
Video Category              category
Importance Score               int64
Time Spent On Video            int64
Number of Videos Watched       int64
Frequency                   category
ProductivityLoss               int64
Satisfaction                   int64
Watch Reason                category
Self Control                   int64
Addiction Level                int64
CurrentActivity             category
Female                          bool
Male                            bool
dtype: object

Các cột đã có kiểu dữ liệu phù hợp

#### 3.3. Sự phân bố dữ liệu của các cột có kiểu định lượng
Các cột có dữ liệu định lượng

In [18]:
numerical_columns = data.select_dtypes(include=['number']).columns.tolist()
print('Các cột có kiểu dữ liệu định lượng: ')
for col_name in numerical_columns:
    print(col_name)

Các cột có kiểu dữ liệu định lượng: 
Age
Income
Total Time Spent
Number of Sessions
Importance Score
Time Spent On Video
Number of Videos Watched
ProductivityLoss
Satisfaction
Self Control
Addiction Level


##### 3.3.1. Xử lý giá trị thiếu và tính toán các giá trị thống kê

Với mỗi cột có kiểu dữ liệu định lượng, thực hiện tính toán các giá trị thống kê cơ bản sau:
- Phần trăm (từ 0 đến 100) của giá trị thiếu
- Giá trị nhỏ nhất (Min)
- Tứ phân vị dưới (Lower quartile)
- Trung vị (Median)
- Tứ phân vị trên (Upper quartile)
- Giá trị lớn nhất (Max)

Các giá trị được làm tròn đến chữ số thập phân thứ nhất.

In [20]:
# Chọn ra những cột có kiểu định lượng
numeric_cols = data.select_dtypes(include=['number']).columns

# Tính toán các giá trị thống kê
def missing_ratio(series):
    return series.isnull().mean() * 100

def lower_quartile(series):
    return series.quantile(0.25)

def median(series):
    return series.median()

def upper_quartile(series):
    return series.quantile(0.75)

min_vals = data[numeric_cols].min()
max_vals = data[numeric_cols].max()
lower_quartiles = data[numeric_cols].apply(lower_quartile)
medians = data[numeric_cols].median()
upper_quartiles = data[numeric_cols].apply(upper_quartile)

# Tạo một DataFrame chứa các giá trị thống kê của những cột định lượng
num_col_info_df = pd.DataFrame({
    "Tỷ lệ giá trị thiếu": data[numeric_cols].apply(missing_ratio).round(1),
    "Giá trị nhỏ nhất": min_vals.round(1),
    "Tứ phân vị dưới": lower_quartiles.round(1),
    "Trung vị": medians.round(1),
    "Tứ phân vị trên": upper_quartiles.round(1),
    "Giá trị lớn nhất": max_vals.round(1)
}).T

# In ra
num_col_info_df

Unnamed: 0,Age,Income,Total Time Spent,Number of Sessions,Importance Score,Time Spent On Video,Number of Videos Watched,ProductivityLoss,Satisfaction,Self Control,Addiction Level
Tỷ lệ giá trị thiếu,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Giá trị nhỏ nhất,18.0,20138.0,10.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0,0.0
Tứ phân vị dưới,29.0,38675.2,78.0,6.0,3.0,8.0,14.0,3.0,4.0,5.0,2.0
Trung vị,42.0,58805.0,152.0,10.0,5.0,15.0,25.0,5.0,5.0,7.0,3.0
Tứ phân vị trên,52.0,79792.2,223.0,15.0,7.0,22.0,37.0,6.0,7.0,8.0,5.0
Giá trị lớn nhất,64.0,99676.0,298.0,19.0,9.0,29.0,49.0,9.0,9.0,10.0,7.0


Không có cột nào bị thiếu dữ liệu &rarr; Bỏ qua bước điền giá trị thiếu.

##### 3.3.2. Sự phân bố dữ liệu

##### 3.3.3. Xử lý dữ liệu lỗi hoặc bất thường

Chuẩn hóa dữ liệu nếu có

#### 3.4. Sự phân bố dữ liệu của các cột có kiểu định tính
Các cột có kiểu dữ liệu định tính

In [21]:
categorical_columns = data.select_dtypes(exclude=['number']).columns.tolist()
print('Các cột có kiểu dữ liệu định tính: ')
for col_name in categorical_columns:
    print(col_name)

Các cột có kiểu dữ liệu định tính: 
Profession
Platform
Video Category
Frequency
Watch Reason
CurrentActivity
Female
Male


#### 3.4.1 Tỉ lệ phần trăm các giá trị bị thiếu trong mỗi cột

#### 3.4.2 Số giá trị phân biệt của mỗi cột


Sự phân bố, vẽ biểu đồ

Đại khái d, tự đổi tên cell nha

#### 3.4.3 Xử lý dữ liệu bất thường

#### 3.4.4 Xử lý dữ liệu phân loại

Xử lý nếu có

## Sau các bước tiền xử lý

Số hàng, số cột của dữ liệu:

In [13]:
data.shape

(1000, 19)

Mỗi cột có ý nghĩa sau: 
|Tên cột|Ý nghĩa|
|-------|-------|
| Age| Tuổi của người dùng|
| Income| Thu nhập của người dùng|
| Profession| Nghề nghiệp của người dùng|
| Platform| Nền tảng mà người dùng truy cập|
| Total Time Spent| Tổng thời gian người dùng đã dành trên nên tảng|
| Number of Sessions| Số lần người dùng truy cập vào nền tảng|
| Video Category| Thể loại của video|
| Importance Score| Điểm đánh giá tầm quan trọng của video đối với người dùng|
| Time Spent On Video| Thời gian người dùng dành để xem một video cụ thể|
| Number of Videos Watched| Số lượng video người dùng đã xem|
| Frequency| Tần suất người dùng tương tác với nền tảng|
| ProductivityLoss| Tác động của việc sử dụng nền tảng đến năng suất của người dùng|
| Satisfaction| Mức độ hài lòng của người dùng|
| Watch Reason| Lý do người dùng xem video|
| Self Control| Mức độ kiểm soát việc sử dụng nền tảng của người dùng|
| Addiction Level| Mức độ nghiện của người dùng vào nền tảng|
| CurrentActivity| Người dùng đang làm gì khi xem video|
| Female| Giới tính nữ|
| Male| Giới tính nam|

Kiểu dữ liệu của các cột

In [14]:
data.dtypes

Age                            int64
Income                         int64
Profession                    object
Platform                    category
Total Time Spent               int64
Number of Sessions             int64
Video Category              category
Importance Score               int64
Time Spent On Video            int64
Number of Videos Watched       int64
Frequency                   category
ProductivityLoss               int64
Satisfaction                   int64
Watch Reason                category
Self Control                   int64
Addiction Level                int64
CurrentActivity             category
Female                          bool
Male                            bool
dtype: object

### Mô tả mối tương quan giữa các đặc trưng trong tập dữ liệu

Nhận xét:

Thực hiện lưu dữ liệu này vào 1 tệp mới và thực hiện phân tích trên tệp này.

In [None]:
data.to_csv('../Data/Time-Wasters on Social Media Clean.csv', index=False)

OSError: Cannot save file into a non-existent directory: 'Data'