# THỐNG KÊ DỮ LIỆU

1. Yêu cầu chung: Thống kê được số lượng ảnh trong từng phân loại mà mỗi SV đóng góp

2. Yêu cầu cụ thể:
- Input:
    + Thư mục cha chứa các thư mục con - mỗi thư mục con tương ứng với tên của từng hiệu xe (Honda, Suzuki, VinFast, Yamaha, Others). Ví dụ: https://drive.google.com/drive/u/1/folders/12WrC9APRzQX36cataTccBiN_Z5F2C0yD
    + Các ảnh được đặt tên theo quy ước: các tập tin ảnh theo quy ước https://colab.research.google.com/drive/1sZBm78OiTUOqbg5-Z2UOKlk3B37TAgd8
- Output:
    + File MotocycleDataset-1.csv - Thống kê số lượng ảnh theo từng SV
      + Mỗi dòng sẽ có các thông tin cách nhau bằng dấu phẩy, theo quy ước: MSSV, All, Số lượng.
        
        Ví dụ: 20221234, All, 1.2
      + Số lượng có thể là số thực vì một ảnh có thể có đóng góp từ nhiều sinh viên
    + File MotocycleDataset-2.csv - Thống kê số lượng ảnh theo từng Hiệu xe mà từng SV đóng góp
      + Mỗi dòng sẽ có các thông tin cách nhau bằng dấu phẩy, theo quy ước: MSSV, Hiệu xe, Số lượng.
        
        Ví dụ: 20221234, Honda, 1.2
      + Số lượng có thể là số thực vì một ảnh có thể có đóng góp từ nhiều sinh viên
3. Nộp bài: SV share notebook. Các bài nộp sớm sẽ được full điểm. Deadline: 17:00 - 08/06/2024

4. Bài làm đạt yêu cầu sẽ được paste vào notebook với ghi nhận đóng góp từ tác giả.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Import library
import os
import re
import pandas as pd
from collections import defaultdict

In [None]:
# Path to public data folder
base_dir = '/content/drive/MyDrive/Public'

In [None]:
# Creeate dictionary
student_total_counts = defaultdict(float)
student_brand_counts = defaultdict(lambda: defaultdict(float))

In [None]:
valid_extensions = {'.jpg', '.jpeg', '.png', '.heic'}

# Process public folder
for brand in os.listdir(base_dir):
  brand_dir = os.path.join(base_dir, brand)
  if os.path.isdir(brand_dir):
    # Process each brand folders
    for filename in os.listdir(brand_dir):
      file_extension = os.path.splitext(filename)[1].lower()
      if file_extension in valid_extensions:
        # Use regex to extract information through file name
        match = re.match(r'((?:\d{8}-)*\d{8})\.(\w+)\.(\d+)\.(jpg|jpeg|png|heic)', filename, re.IGNORECASE)
        if match:
          sv_contributions = match.groups()
          students = sv_contributions[0].split('-')
          brand = sv_contributions[1]

          for student in students:
            student_total_counts[student] += 1/len(students)
            student_brand_counts[student][brand] += 1/len(students)


In [None]:
# Tạo dataframe cho file MotocycleDataset-1.csv
df1 = pd.DataFrame([(sv, 'All', count) for sv, count in student_total_counts.items()],
                   columns=['MSSV', 'All', 'Số lượng'])

# Tạo dataframe cho file MotocycleDataset-2.csv
df2 = pd.DataFrame([(sv, brand, count) for sv, brands in student_brand_counts.items() for brand, count in brands.items()],
                   columns=['MSSV', 'Hiệu xe', 'Số lượng'])

# Lưu các dataframe thành file CSV
df1.to_csv('MotocycleDataset-1.csv', index=False)
df2.to_csv('MotocycleDataset-2.csv', index=False)

TEST

In [None]:
filename = '21521007-21522629.Suzuki.8.jpg'
match = re.match(r'((?:\d{8}-)*\d{8})\.(\w+)\.(\d+)\.(jpg|jpeg|png|heic)', filename, re.IGNORECASE)

In [None]:
t = match.groups()

In [None]:
t[0].split('-')

['21521007', '21522629']