## I. Concatenate files into a single one

Our file "data" has many single csv file. We need to convert into only one

First of all, mount the drive as usual

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
cd /content/drive/My Drive/Data Analyst/Điểm thi đại học/data

/content/drive/My Drive/Data Analyst/Điểm thi đại học/data


In [3]:
# Import necessary libraries
import os
import pandas as pd
import numpy as np
import math

files = os.listdir()

In [None]:
# Concatenate many single files into one
data = pd.read_csv(files[1])
for file in files[2:]:
    other_data = pd.read_csv(file)
    data = pd.concat([data, other_data], ignore_index=True)

In [None]:
data.shape

(74718, 3)

## II. Clean SaiGon university entrance score data

In [None]:
data.head()

Unnamed: 0,Name,Content,Year_of_birth,Month_of_birth
0,PHẠM HOÀNG HƯƠNG ÁI,Toán: 6.60 Ngữ văn: 6.25 Lịch sử: 5.75 Địa lí:...,2002,11
1,ĐẶNG HUỲNH VĨNH AN,Toán: 8.20 Ngữ văn: 7.75 Lịch sử: 7.00 Địa lí:...,2002,12
2,LÂM NGUYỄN MỘNG THÙY AN,Toán: 6.80 Ngữ văn: 6.75 Lịch sử: 4.75 Địa lí:...,2001,4
3,LÊ TIÊU HOÀNG AN,Toán: 7.80 Ngữ văn: 6.25 Vật lí: 5.50 Hóa học:...,2002,11
4,LƯ THUẬN AN,Toán: 6.40 Ngữ văn: 6.50 Vật lí: 6.75 Hóa học:...,2002,1


In [None]:
# Drop NA values
data.dropna(inplace=True)
data.reset_index(drop=True, inplace=True)

In [None]:
# Create cols for year of birth and month of birth
data['Birth_of_date'] = data['Birth_of_date'].str.split('/')
data['Year_of_birth'] = data['Birth_of_date'].apply(lambda x: int(x[2]))
data['Month_of_birth'] = data['Birth_of_date'].apply(lambda x: int(x[1]))
data.drop(columns=['Birth_of_date'], inplace=True)

In [None]:
# Create more cols for subjects
cols = ['Math', 'Literature', 'English', 'Physics', 'Chemistry', 'Biology', 'Ethics', 'History', 'Geometry', 'Social_science', 'Natural_science',
            'French', 'Japanese', 'Chinese', 'Russian']
for col in cols:
    data[col] = np.nan

In [None]:
# Extract the score of each subject
subjects = ['Toán', 'Ngữ văn', 'Tiếng Anh', 'Vật lí', 'Hóa học', 'Sinh học', 'GDCD', 'Lịch sử', 'Địa lí', 'KHXH', 'KHTN', 'Tiếng Pháp', 'Tiếng Nhật', 'Tiếng Trung', 'Tiếng Nga']
for i in range(len(data)):
    content = data.loc[i, 'Content']
    for j in range(len(subjects)):
        if subjects[j] in content:
            idx = content.index(subjects[j])
            data.loc[i, cols[j]] = content[idx + len(subjects[j]) + 2: idx + len(subjects[j]) + 6]
    print(i)

In [None]:
# More cleaning
data['Social_science'] = data['Social_science'].str.replace(' Ti', '')
data['Natural_science'] = data['Natural_science'].str.replace(' Ti', '').str.replace(' Lị', '')

In [None]:
# Convert type of score from str to float
for col in cols:
    data[col] = data[col].astype(float)

In [None]:
data.to_csv('./cleaned_data.csv', index=False)