<div style="text-align: center; background-color: #b1d1ff; font-family: 'Trebuchet MS', Arial, sans-serif; color: white; padding: 20px; font-size: 40px; font-weight: bold; border-radius: 0 0 0 0; box-shadow: 0px 6px 8px rgba(0, 0, 0, 0.2);">
Preprocessing
</div>

## Import

In [29]:
import numpy as np
import pandas as pd

### Read universities data from file

In [30]:
universities_df = None
file_path ='./Data/universities.csv'

# Try to read the CSV file
try:
    universities_df = pd.read_csv(file_path)
except FileNotFoundError:
    print(f"File '{file_path}' not found.")
except pd.errors.EmptyDataError:
    print(f"File '{file_path}' is empty.")
except pd.errors.ParserError as e:
    print(f"Error parsing CSV: {e}")

In [31]:
universities_df.head()

Unnamed: 0,Institution Name,Region,Country,Overall,Academic Reputation,Employer Reputation,Faculty Student Ratio,Citations Per Faculty,International Faculty Ratio,International Students Ratio,International Research Network,Employment Outcomes,Sustainability
0,Massachusetts Institute of Technology (MIT),North America,United States,100.0,100.0,100.0,100.0,100.0,100.0,88.2,94.3,100.0,95.2
1,University of Cambridge,Europe,United Kingdom,99.2,100.0,100.0,100.0,92.3,100.0,95.8,99.9,100.0,97.3
2,University of Oxford,Europe,United Kingdom,98.9,100.0,100.0,100.0,90.6,98.2,98.2,100.0,100.0,97.8
3,Harvard University,North America,United States,98.3,100.0,100.0,98.3,100.0,84.6,66.8,100.0,100.0,96.7
4,Stanford University,North America,United States,98.1,100.0,100.0,100.0,99.9,99.9,51.2,95.8,100.0,94.4


### How many rows and how many columns does the raw data have?

In [32]:
shape = None 

if universities_df is not None:
    shape = universities_df.shape
    
print(f"Current shape: {shape}")

Current shape: (1200, 13)


### What does each line mean? Does it matter if the lines have different meanings?

- Institution Name (Tên Trường): Tên chính thức của trường đại học.
- Region (Vùng): Khu vực địa lý hoặc lục địa mà trường đó thuộc về (ví dụ: Châu Âu, Châu Á, Châu Mỹ, Châu Phi).

- Country (Quốc Gia): Quốc gia mà trường đó đặt tại.

- Overall (Tổng trung bình): Xếp hạng tổng thể của trường đại học dựa trên các tiêu chí được đánh giá.

- Academic Reputation (Danh Tiếng Học Thuật): Danh tiếng của trường trong cộng đồng học thuật.

- Employer Reputation (Danh Tiếng Từ Nguồn Nhà Tuyển Dụng): Danh tiếng của trường từ phía các doanh nghiệp và nhà tuyển dụng.

- Faculty Student Ratio (Tỉ Lệ Giáo Viên-Sinh Viên): Tỉ lệ giữa số lượng giáo viên và số lượng sinh viên, thường được xem là một chỉ số về chất lượng giảng dạy.

- Citations Per Faculty (Số Lượng Trích Dẫn Trên Mỗi Giáo Viên): Số lượng bài nghiên cứu được trích dẫn trung bình cho mỗi giáo viên, thể hiện sức ảnh hưởng của nghiên cứu của trường.

- International Faculty Ratio (Tỉ Lệ Giáo Viên Quốc Tế): Tỉ lệ giáo viên quốc tế so với tổng số giáo viên.

- International Students Ratio (Tỉ Lệ Sinh Viên Quốc Tế): Tỉ lệ sinh viên quốc tế so với tổng số sinh viên.

- International Research Network (Mạng Lưới Nghiên Cứu Quốc Tế): Sự liên kết và hợp tác của trường với các tổ chức và trường đại học quốc tế.

- Employment Outcomes (Kết Quả Tuyển Dụng): Thông tin về việc làm của sinh viên sau khi tốt nghiệp, có thể bao gồm tỷ lệ tìm được việc làm và mức lương.

- Sustainability (Bền Vững): Mức độ cam kết và thành công của trường trong việc thực hiện các hoạt động và chính sách bền vững.

Tất cả các cột này cùng nhau tạo nên một cái nhìn tổng quan về chất lượng và đặc điểm của các trường đại học trên thế giới. 

Đôi khi, sự khác biệt trong ý nghĩa của các dòng có thể quan trọng tùy thuộc vào mục đích cụ thể của bạn khi sử dụng dữ liệu.

### Does the raw data have duplicate rows?

In [33]:
num_duplicated_rows = None

if universities_df is not None:
    num_duplicated_rows = universities_df.duplicated().sum()
    
if num_duplicated_rows == 0:
    print(f"Your raw data have no duplicated line.!")
else:
    if num_duplicated_rows > 1:
        ext = "lines"
    else:
        ext = "line"
    print(f"Your raw data have {num_duplicated_rows} duplicated " + ext + ". Please de-deduplicate your raw data.!")

Your raw data have no duplicated line.!


### What data type does each column currently have? Are there any columns whose data types are not suitable for further processing?

In [34]:
# YOUR CODE HERE
dtypes = None

# We format some column has int64 dtype
if universities_df is not None:
    for col in universities_df.columns:
        if universities_df[col].dtype == 'int64':
            universities_df[col] = universities_df[col].astype('float64')

if universities_df is not None:
    dtypes = universities_df.dtypes

In [35]:
dtypes

Institution Name                   object
Region                             object
Country                            object
Overall                           float64
Academic Reputation               float64
Employer Reputation               float64
Faculty Student Ratio             float64
Citations Per Faculty             float64
International Faculty Ratio       float64
International Students Ratio      float64
International Research Network    float64
Employment Outcomes               float64
Sustainability                    float64
dtype: object

Không có cột nào có kiểu dữ liệu không phù hợp để khám phá dữ liệu

### For each column with numeric data type, how are the values distributed? 

In [36]:
num_col_info_df = None

# Define the aggregation functions
def missing_ratio(col):
    return (col.isnull().sum() / len(col)) * 100    

def lower_quartile(col):
    return col.quantile(0.25)

def upper_quartile(col):
    return col.quantile(0.75)

def median(col):
    return col.quantile(0.5)

# Assuming raw_df has already been defined and contains your data
if universities_df is not None:
    num_col_info_df = universities_df.select_dtypes(include=['number'])

    # num_col_info_df.index = ["missing_ratio", "min", "lower_quartile", "median", "upper_quartile", "max"]   

    # Save the result using agg()
    num_col_info_df = num_col_info_df.agg([missing_ratio, "min", lower_quartile, median, upper_quartile, "max"])
    num_col_info_df = num_col_info_df.round(1)
    

In [37]:
num_col_info_df

Unnamed: 0,Overall,Academic Reputation,Employer Reputation,Faculty Student Ratio,Citations Per Faculty,International Faculty Ratio,International Students Ratio,International Research Network,Employment Outcomes,Sustainability
missing_ratio,49.8,0.0,0.0,0.1,0.0,4.8,2.1,0.2,0.1,3.9
min,19.8,1.6,1.0,1.0,1.0,1.1,1.0,1.0,1.0,1.0
lower_quartile,25.7,8.1,5.5,9.5,4.5,5.8,4.0,2.0,9.1,2.5
median,34.6,14.4,13.2,21.2,17.1,19.6,15.5,14.3,13.4,17.1
upper_quartile,51.3,28.9,32.6,51.2,45.5,67.1,49.2,52.1,26.8,53.4
max,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0


- Thường thường, tỉ lệ mất dữ liệu của cột trên 75% thì ta sẽ tiến hành xóa. Với dữ liệu các trường đại học thì tỉ lệ mất dữ liệu của các cột khá thấp. 

- Chỉ có tỉ lệ của cột 'Overall' là gần 50%. Nhưng vì đây là cột điểm trung bình và quyết định chính đến xếp hạng giữa các trường đại học nên ta không thể xóa. 

- Ta sẽ tiến hành dự đoán dữ liệu cho cột này ở các phần sau.

- Tiếp theo ta cần bổ sung các giá trị thiếu ở các cột khác để phục vụ phân tích dữ liệu.

In [38]:
def filling_missing_value(df: pd.DataFrame) -> pd.DataFrame:    
    numeric_cols = df.select_dtypes(include=['number']).columns
    cols_to_fill = [col for col in numeric_cols if col != 'Overall']
    
    df[cols_to_fill] = df[cols_to_fill] = df[cols_to_fill].fillna(df[cols_to_fill].mean())
    
    return df

In [39]:
universities_df = filling_missing_value(universities_df)

Kiểm tra sau khi thêm các dữ liệu thiếu

In [40]:
universities_df.select_dtypes(exclude='object').agg([missing_ratio, "min", lower_quartile, median, upper_quartile, "max"]).round(1)

Unnamed: 0,Overall,Academic Reputation,Employer Reputation,Faculty Student Ratio,Citations Per Faculty,International Faculty Ratio,International Students Ratio,International Research Network,Employment Outcomes,Sustainability
missing_ratio,49.8,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
min,19.8,1.6,1.0,1.0,1.0,1.1,1.0,1.0,1.0,1.0
lower_quartile,25.7,8.1,5.5,9.5,4.5,6.2,4.0,2.0,9.1,2.7
median,34.6,14.4,13.2,21.2,17.1,23.2,16.0,14.4,13.4,18.9
upper_quartile,51.3,28.9,32.6,51.2,45.5,63.4,47.0,52.0,26.7,51.0
max,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0


### For each column with a non-numeric data type, how are the values distributed?

In [41]:
def missing_ratio(col):
    return col.isnull().sum()

def num_values(col):
    return len(col.unique())

def value_ratios(col):
    # Sử dụng explode để chuyển các list thành các hàng riêng biệt
    column_exploded = col.explode()
    
    # Loại bỏ giá trị NaN
    column_exploded = column_exploded.dropna()
    
    # Tính toán tỷ lệ phần trăm xuất hiện của mỗi giá trị
    value_counts = column_exploded.value_counts(normalize=True) * 100
    
    # Làm tròn tỷ lệ phần trăm tới một chữ số thập phân
    value_ratios = value_counts.round(1)
    
    # Trả về 1 dictionary
    return value_ratios.to_dict()

cat_col_info_df = universities_df.select_dtypes(include='object')

cat_col_info_df = cat_col_info_df.agg([missing_ratio, num_values, value_ratios])
cat_col_info_df

Unnamed: 0,Institution Name,Region,Country
missing_ratio,0,0,0
num_values,1200,7,95
value_ratios,{'Massachusetts Institute of Technology (MIT) ...,"{'Europe': 36.8, 'Asia': 31.8, 'North America'...","{'United States': 14.3, 'United Kingdom': 7.4,..."


### Save your processed data

In [42]:
file_path ='./Data/universities_processed.csv'

universities_df.to_csv(file_path, index=False)

print(f'Data saved to {file_path}')

Data saved to ./Data/universities_processed.csv
