# THỐNG KÊ DỮ LIỆU

1. Yêu cầu chung: Thống kê được số lượng ảnh trong từng phân loại mà mỗi SV đóng góp

2. Yêu cầu cụ thể:
- Input:
    + Thư mục cha chứa các thư mục con - mỗi thư mục con tương ứng với tên của từng hiệu xe (Honda, Suzuki, VinFast, Yamaha, Others). Ví dụ: https://drive.google.com/drive/u/1/folders/12WrC9APRzQX36cataTccBiN_Z5F2C0yD
    + Các ảnh được đặt tên theo quy ước: các tập tin ảnh theo quy ước https://colab.research.google.com/drive/1sZBm78OiTUOqbg5-Z2UOKlk3B37TAgd8
- Output:
    + File MotocycleDataset-1.csv - Thống kê số lượng ảnh theo từng SV
      + Mỗi dòng sẽ có các thông tin cách nhau bằng dấu phẩy, theo quy ước: MSSV, All, Số lượng.
        
        Ví dụ: 20221234, All, 1.2
      + Số lượng có thể là số thực vì một ảnh có thể có đóng góp từ nhiều sinh viên
    + File MotocycleDataset-2.csv - Thống kê số lượng ảnh theo từng Hiệu xe mà từng SV đóng góp
      + Mỗi dòng sẽ có các thông tin cách nhau bằng dấu phẩy, theo quy ước: MSSV, Hiệu xe, Số lượng.
        
        Ví dụ: 20221234, Honda, 1.2
      + Số lượng có thể là số thực vì một ảnh có thể có đóng góp từ nhiều sinh viên
      + Chỉ chấp nhận file .jpg, .jpeg và .png
3. Nộp bài: SV share notebook. Các bài nộp sớm sẽ được full điểm. Deadline: 17:00 - 08/06/2024

4. Bài làm đạt yêu cầu sẽ được paste vào notebook với ghi nhận đóng góp từ tác giả.

*Thành viên nhóm:*

**Nguyễn Vũ Hoàng Long	21520058**

**Trần Quốc An	21521815**

**Lý Ngọc Thành Trung	21521591**





In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
import os
import csv

# Define the directory containing image folders
dir = '/content/drive/MyDrive/0A.B2DL/CS114.MachineLearning/xCS114.2024/ĐACK-Competition/MotocycleClassification/Dataset/Public'

# Paths to different automaker folders
yamaha_path = os.path.join(dir, 'Yamaha')
vinfast_path = os.path.join(dir, 'VinFast')
suzuki_path = os.path.join(dir, 'Suzuki')
others_path = os.path.join(dir, 'Others')
honda_path = os.path.join(dir, 'Honda')

# Dictionary mapping paths to automaker names
automakers = {
    yamaha_path: 'Yamaha',
    vinfast_path: 'VinFast',
    suzuki_path: 'Suzuki',
    others_path: 'Others',
    honda_path: 'Honda'
}

# Dictionary to store MSSV information
MSSVs = {}

# Iterate over each automaker's path
for path, name in automakers.items():
    # Walk through files in the current path
    for _, _, files in os.walk(path):
        for file_name in files:
            # Check if file is an image file
            if file_name.endswith(('.jpg', '.jpeg', '.png')):
                # Split file name by '.'
                li = file_name.split('.')
                # Check if file name format is correct
                if len(li) != 4:
                    continue
                # Check if image belongs to the correct automaker folder
                if li[-3] != name:
                    continue
                # Extract MSSV(s) from the file name
                mssvs = li[0].split('-')

                # Update MSSVs dictionary
                for mssv in mssvs:
                    if mssv in MSSVs:
                        if name in MSSVs[mssv]:
                            MSSVs[mssv][name] += 1
                        else:
                            MSSVs[mssv][name] = 1
                    else:
                        MSSVs[mssv] = {name: 1}

# Prepare data for CSV files
data_file1 = []
data_file2 = []

# Generate data for file1 and file2
for key, items in MSSVs.items():
    num_all = sum(items.values())  # Total count for all automakers

    # Append data for file1
    data_file1.append([key, 'All', num_all])

    # Append data for file2
    for automaker, count in items.items():
        data_file2.append([key, automaker, count])

    # Add entries for automakers with no images (count = 0)
    for automaker_path, automaker_name in automakers.items():
        if automaker_name not in items:
            data_file2.append([key, automaker_name, 0])

# Define output file paths
file1 = 'drive/MyDrive/MotocycleDataset-1.csv'
file2 = 'drive/MyDrive/MotocycleDataset-2.csv'

# Write data to CSV files
with open(file1, 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data_file1)

with open(file2, 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data_file2)

# Read CSV files into Pandas DataFrames
df1 = pd.read_csv(file1, names=['MSSV', 'All', 'Số lượng'])
df2 = pd.read_csv(file2, names=['MSSV', 'Hãng xe', 'Số lượng'])

# Print the DataFrames
print(f'MotocycleDataset-1.csv:\n\n{df1}\n\n')
print(f'MotocycleDataset-2.csv:\n\n{df2}\n')


MotocycleDataset-1.csv:

          MSSV  All  Số lượng
0     22520968  All      5353
1     22520996  All      5353
2     22520999  All      5353
3     22520929  All      5353
4     22521373  All      5353
..         ...  ...       ...
102   22520010  All        28
103   22520398  All        28
104   22520630  All        28
105   22520053  All        28
106  215202569  All         2

[107 rows x 3 columns]


MotocycleDataset-2.csv:

          MSSV  Hãng xe  Số lượng
0     22520968   Yamaha       963
1     22520968  VinFast       760
2     22520968   Suzuki       925
3     22520968   Others      1083
4     22520968    Honda      1622
..         ...      ...       ...
530  215202569    Honda         2
531  215202569   Yamaha         0
532  215202569  VinFast         0
533  215202569   Suzuki         0
534  215202569   Others         0

[535 rows x 3 columns]



In [None]:
!pwd
!ls

/content
drive  sample_data
