# Data Exploration Task

# Mục lục
[1. Import](#i-ip)

[2. Data Exploration](#ii-de)
  - [2.1 Đọc dữ liệu từ file](#ddltf)
  - [2.2 Khám phá dữ liệu](#kpdl)
    - [Dữ liệu có bao nhiêu dòng bao nhiêu cột?](#q1)
    - [Ý nghĩa của từng dòng trong tập dữ liệu?](#q2)
    - [Có dòng nào bị trùng lặp hay không?](#q3)
    - [Từng cột trong tập dữ liệu có ý nghĩa gì?](#q4)
    - [Kiểu dữ liệu của từng cột là gì? Có cột nào có kiểu dữ liệu không phù hợp không?](#q5)
    - [Đối với các cột số, tỷ lệ phần trăm giá trị thiếu bằng bao nhiêu? Giá trị lớn nhất và nhỏ nhất là? ](#q6)
    - [Đối với các cột category, tỷ lệ phần trăm giá trị thiếu bằng bao nhiêu? Liệt kê giá trị mẫu, có giá trị nào bất thường hay không?](#q7)
    
[3. Hoàn tất tiền xử lý và khám phá dữ liệu, lưu lại dữ liệu đã qua xử lý thành file .csv](#stf)
    

## **1. Import** <a id="i-ip"></a>

In [1]:
import pandas as pd
import numpy as np 
import os
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

## **2. Data exploration** <a id="ii-de"></a>

### *2.1 Đọc dữ liệu từ file* <a id="ddltf"></a>

In [2]:

raw_df = pd.read_csv('data/Coursera.csv')
raw_df

Unnamed: 0,partner,course,skills,rating,reviewcount,level,certificatetype,duration,crediteligibility
0,Google,Google Cybersecurity,"{"" Network Security"","" Python Programming"","" L...",4.8,16.4k,Beginner,Professional Certificate,3 - 6 Months,False
1,Google,Google Data Analytics,"{"" Data Analysis"","" R Programming"","" SQL"","" Bu...",4.8,133.4k,Beginner,Professional Certificate,3 - 6 Months,True
2,Google,Google Project Management:,"{"" Project Management"","" Strategy and Operatio...",4.8,97.3k,Beginner,Professional Certificate,3 - 6 Months,True
3,Google,Google Digital Marketing & E-commerce,"{"" Digital Marketing"","" Marketing"","" Marketing...",4.8,21.4k,Beginner,Professional Certificate,3 - 6 Months,False
4,Google,Google IT Support,"{"" Computer Networking"","" Network Architecture...",4.8,181.4k,Beginner,Professional Certificate,3 - 6 Months,True
...,...,...,...,...,...,...,...,...,...
1134,IIT Guwahati,Post Graduate Certificate in Cloud Computing A...,,,,,University Certificate,6 - 12 Months,False
1135,IE Business School,Business Essentials University Certificate,"{"" Strategy and Operations"","" Leadership and M...",,,,University Certificate,6 - 12 Months,False
1136,IIT Roorkee,Post Graduate Certificate in Strategic Supply ...,"{"" Machine Learning"","" Python Programming"","" R...",,,,University Certificate,6 - 12 Months,False
1137,IIT Bombay,Power Electronics and Motors for Electric Vehi...,,,,,University Certificate,6 - 12 Months,False


### *2.2 Khám phá dữ liệu* <a id="kpdl"></a>

#### Dữ liệu có bao nhiêu dòng và bao nhiêu cột? <a id="q1"></a>

In [3]:
print("Number of rows: ",raw_df.shape[0])
print("Number of columns: ",raw_df.shape[1])

Number of rows:  1139
Number of columns:  9


Dữ liệu có 1139 dòng và 9 cột, đạt yêu cầu về kích cỡ của tập dữ liệu

#### - Ý nghĩa của từng dòng trong tập dữ liệu? <a id="q2"></a>

Mỗi dòng chứa thông tin của một khóa học cụ thể từ một nền tảng học trực tuyến

#### - Có dòng nào bị trùng lặp hay không? <a id="q3"></a>

In [4]:
duplicate_count = raw_df.duplicated().sum()
print (f"Số dòng trùng lặp trong tập dữ liệu: {duplicate_count}")

Số dòng trùng lặp trong tập dữ liệu: 10


Có 10 dòng trùng lặp trong tập dữ liệu, chúng ta sẽ tiến hành xóa chúng.

In [5]:
raw_df = raw_df.drop_duplicates()
duplicate_count = raw_df.duplicated().sum()
print (f"Số dòng trùng lặp trong tập dữ liệu: {duplicate_count}")

Số dòng trùng lặp trong tập dữ liệu: 0


#### - Từng cột trong tập dữ liệu có ý nghĩa gì? <a id="q4"></a>

- `parner`: đối tác tổ chức khóa học (Google, IBM,...)
- `course`: tên khóa học
- `skills`: tổng hợp các kĩ năng mà người học sẽ đạt được sau khóa học (Data Management,Market Analysis,...)
- `rating`: đánh giá trung bình của khóa học do người học thực hiện (0-5)
- `reviewcount`: số lượt đánh giá khóa học
- `level`: đối tượng phù hợp với khóa học nhất (Beginner,...)
- `certificatetype`: loại chứng chỉ mà người học được nhận khi kết thúc khóa học 
- `duration`: thời gian ước tính của khóa học
- `crediteligibility`: khóa học có đủ điều kiện để được quy thành tín chỉ ở đại học hay không (True/False)

#### - Kiểu dữ liệu của từng cột là gì? Có cột nào có kiểu dữ liệu không phù hợp không? <a id="q5"></a>

In [6]:
print (raw_df.dtypes)

partner               object
course                object
skills                object
rating               float64
reviewcount           object
level                 object
certificatetype       object
duration              object
crediteligibility       bool
dtype: object


Ta nhận thấy, cột `reviewcount` nên có kiểu dữ liệu là kiểu số thay vì object, nên ta sẽ tiến hành thay đổi nó. Nhưng trước tiên, vì giá trị số của cột đang tồn tại ở dạng đặc biệt (ví dụ: 100k) nên ta cần chuẩn hóa nó trước khi chuyển đổi kiểu dữ liệu

In [7]:
def convert_to_number(value):
    if isinstance(value, str): 
        value = value.strip() 
        if 'k' in value.lower():  
            return float(value.lower().replace('k', '')) * 1000
        else:
            return float(value)  
    return value 

raw_df['reviewcount'] = raw_df['reviewcount'].apply(convert_to_number)
raw_df['reviewcount'] = pd.to_numeric(raw_df['reviewcount'], errors='coerce')

print("\nKiểu dữ liệu sau khi chuẩn hóa:")
print(raw_df['reviewcount'].dtypes)
print (raw_df['reviewcount'])


Kiểu dữ liệu sau khi chuẩn hóa:
float64
0        16400.0
1       133400.0
2        97300.0
3        21400.0
4       181400.0
          ...   
1134         NaN
1135         NaN
1136         NaN
1137         NaN
1138         NaN
Name: reviewcount, Length: 1129, dtype: float64


Có vẻ các cột dữ liệu đều có kiểu dữ liệu phù hợp với ý nghĩa của nó

#### - Đối với các cột số, tỷ lệ phần trăm giá trị thiếu bằng bao nhiêu? Giá trị lớn nhất và nhỏ nhất là? <a id="q6"></a>

In [8]:
def analyze_numerical_columns(df):
    def find_outliers(series):
        q1 = series.quantile(0.25)  
        q3 = series.quantile(0.75)  
        iqr = q3 - q1               
        lower_bound = q1 - 1.5 * iqr  
        upper_bound = q3 + 1.5 * iqr  

        outliers = series[(series < lower_bound) | (series > upper_bound)]
        return outliers

    numerical_columns = df.select_dtypes(include=['number']).columns 
    analysis_results = []
    outliers_dict = {}  

    for col in numerical_columns:
        col_data = df[col]
        missing_percentage = col_data.isna().mean() * 100
        col_min = col_data.min()
        col_max = col_data.max()
        description = col_data.describe()

        outliers = find_outliers(col_data)
        outliers_dict[col] = outliers

        analysis_results.append({
            'Column': col,
            'Missing (%)': missing_percentage,
            'Min': col_min,
            'Max': col_max,
            'Outliers Count': len(outliers),
            'Outliers Percentage (%)': len(outliers) / len(col_data.dropna()) * 100,
        })

    return pd.DataFrame(analysis_results), outliers_dict


In [9]:
results, outliers = analyze_numerical_columns(raw_df)
print("Phân tích cột có dạng số: ")
print(results)

print("\nGiá trị bất thường:")
for col, outlier_values in outliers.items():
    print(f"Cột '{col}':")
    print(outlier_values)

Phân tích cột có dạng số: 
        Column  Missing (%)  Min       Max  Outliers Count  \
0       rating    12.046058  2.8       5.0              24   
1  reviewcount    12.046058  6.0  268600.0             141   

   Outliers Percentage (%)  
0                 2.416918  
1                14.199396  

Giá trị bất thường:
Cột 'rating':
224    4.0
312    4.2
321    3.3
344    3.9
351    3.9
358    4.2
399    4.0
456    3.9
490    4.2
559    2.8
570    3.9
617    4.0
640    4.2
667    4.2
722    3.7
777    4.0
819    4.2
822    4.2
852    4.2
867    4.0
906    3.2
937    2.9
970    3.9
999    4.2
Name: rating, dtype: float64
Cột 'reviewcount':
0       16400.0
1      133400.0
2       97300.0
3       21400.0
4      181400.0
         ...   
787     18800.0
877     13900.0
910     26800.0
916     22400.0
920     13600.0
Name: reviewcount, Length: 141, dtype: float64


Vậy cột có dạng số được phân tích ở đây là `rating` và `reviewcount`

- Với cột `rating`, tỷ lệ thiếu giá trị đạt 12.04%, và đạt 24 giá trị outliers
- Với cột `reviewcount`, tỷ lệ thiếu giá trị đạt 12.04%, và đạt 141 giá trị outliers

#### - Đối với các cột category, tỷ lệ phần trăm giá trị thiếu bằng bao nhiêu? <a id="q7"></a>

In [10]:
def missing_percentage_categorical(df):
    
    categorical_columns = df.select_dtypes(include=['object', 'category']).columns
    
    missing_percentages = {}
    for col in categorical_columns:
        missing_percentages[col] = df[col].isna().mean() * 100
        
    result_df = pd.DataFrame({
        "Column": list(missing_percentages.keys()),
        "Missing (%)": list(missing_percentages.values())
    })
    
    return result_df


In [11]:
print (missing_percentage_categorical(raw_df))

            Column  Missing (%)
0          partner     0.000000
1           course     0.000000
2           skills     4.517272
3            level    11.160319
4  certificatetype     1.151461
5         duration     1.151461


Như vậy, cột `partner` và cột `course` không có giá trị thiếu, cột đạt tỷ lệ giá trị thiếu cao nhất là cột `reviewcount`

#### - Mỗi cột như vậy có bao nhiêu giá trị phân biệt, nêu một vài giá trị mẫu?

In [12]:
def analyze_categorical_columns(df):

    categorical_columns = df.select_dtypes(include=['object', 'category']).columns
    results = []
    
    for col in categorical_columns:
        unique_count = df[col].nunique()               
        sample_values = df[col].dropna().unique()[:]
        
        results.append({
            'Column': col,
            'Unique Values Count': unique_count,
            'Sample Values': sample_values
        })
    
    result_df = pd.DataFrame(results)
    return result_df


In [13]:
print (analyze_categorical_columns(raw_df))

            Column  Unique Values Count  \
0          partner                  180   
1           course                 1106   
2           skills                  977   
3            level                    7   
4  certificatetype                    9   
5         duration                   36   

                                       Sample Values  
0  [Google, IBM, Multiple educators, DeepLearning...  
1  [Google Cybersecurity, Google Data Analytics, ...  
2  [{" Network Security"," Python Programming"," ...  
3  [Beginner , Intermediate , Advanced , Mixed , ...  
4  [ Professional Certificate ,  Specialization ,...  
5  [ 3 - 6 Months,  1 - 3 Months,  1 - 4 Weeks,  ...  


#### - Liệu có giá trị nào bất thường hay không?

In [14]:
def abnormal_values_all_columns(df):
    categorical_columns = df.select_dtypes(include=['object', 'category']).columns
    abnormal_values_dict = {}
    
    for col in categorical_columns:
        abnormal_values = df[df[col].isna() | (df[col].str.strip() == '')][col]
        
        if not abnormal_values.empty:
            abnormal_values_dict[col] = abnormal_values.unique()
    
    return abnormal_values_dict

In [15]:
abnormal = abnormal_values_all_columns(raw_df)
for column, values in abnormal.items():
    print(f"- {column}: {values}")

- skills: [nan]
- level: [nan]
- certificatetype: [nan]
- duration: [nan]


Như vậy, tất cả các giá trị bất thường trong các cột category đều là các giá trị bị thiếu.

## **3 Hoàn tất tiền xử lý và khám phá dữ liệu, lưu lại dữ liệu đã qua xử lý thành file .csv** <a id="stf"></a>

In [16]:
raw_df.to_csv('data/processed_data.csv')