# THỐNG KÊ DỮ LIỆU

1. Yêu cầu chung: Thống kê được số lượng ảnh trong từng phân loại mà mỗi SV đóng góp

2. Yêu cầu cụ thể:
- Input:
    + Thư mục cha chứa các thư mục con - mỗi thư mục con tương ứng với tên của từng hiệu xe (Honda, Suzuki, VinFast, Others). Ví dụ: https://drive.google.com/drive/u/1/folders/1Uj0V9URNHpzSHeXHSB89AoGCjGki8Yra
    + Các ảnh được đặt tên theo quy ước: các tập tin ảnh theo quy ước https://colab.research.google.com/drive/1bUmXMM_ggnEXKo2qylfe6h0JnQuos-8_
- Output:
    + File CarDataset-1.csv - Thống kê số lượng ảnh theo từng SV
      + Mỗi dòng sẽ có các thông tin cách nhau bằng dấu phẩy, theo quy ước: MSSV, All, Số lượng.
        
        Ví dụ: 20221234, All, 1.2
      + Số lượng có thể là số thực vì một ảnh có thể có đóng góp từ nhiều sinh viên
    + File CarDataset-2.csv - Thống kê số lượng ảnh theo từng Hiệu xe mà từng SV đóng góp
      + Mỗi dòng sẽ có các thông tin cách nhau bằng dấu phẩy, theo quy ước: MSSV, Hiệu xe, Số lượng.
        
        Ví dụ: 20221234, Honda, 1.2
      + Số lượng có thể là số thực vì một ảnh có thể có đóng góp từ nhiều sinh viên
      + Chỉ chấp nhận file .jpg, .jpeg và .png
3. Nộp bài: SV share notebook. Các bài nộp sớm sẽ được full điểm. Deadline: 17:00 - ??/??/2024

4. Bài làm đạt yêu cầu sẽ được paste vào notebook với ghi nhận đóng góp từ tác giả.


Connect with goolge drive

In [1]:
from google.colab import drive
import os

drive.mount('/content/drive')

Mounted at /content/drive


import library

In [2]:

import os
import csv

In [3]:
EXPECT_IMG = {'.jpg', '.jpeg', '.png'}

In [4]:

def parse_file_name(file_name):
    try:
        base_name, _ = os.path.splitext(file_name)
        mssv, brand, contribution = base_name.split('.')
        return mssv, brand
    except (ValueError, IndexError):
        return None, None


In [5]:
def process_directory(root_dir):
    student_contributions = {}
    car_brand_contributions = {}

    for car_brand in os.listdir(root_dir):
        brand_dir = os.path.join(root_dir, car_brand)
        if not os.path.isdir(brand_dir):
            continue
        print(brand_dir)
        for file_name in os.listdir(brand_dir):
            file_path = os.path.join(brand_dir, file_name)
            if os.path.splitext(file_name)[-1].lower() not in EXPECT_IMG:
                continue

            mssv, brand = parse_file_name(file_name)
            if mssv and brand is not None:
                if mssv not in student_contributions:
                    student_contributions[mssv] = 0
                student_contributions[mssv] += 1
                if mssv not in car_brand_contributions:
                    car_brand_contributions[mssv] = {}
                if brand not in car_brand_contributions[mssv]:
                    car_brand_contributions[mssv][brand] = 0
                car_brand_contributions[mssv][brand] += 1

    return student_contributions, car_brand_contributions


In [6]:
def write_csv(file_path, data, headers):
    with open(file_path, mode='w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(headers)
        for row in data:
            writer.writerow(row)

In [8]:
def main():
    root_dir = "/content/drive/MyDrive/Public"
    output_1 = "CS114-1.csv"
    output_2 = "CS114-2.csv"
    student_contributions, car_brand_contributions = process_directory(root_dir)
    data_1 = [(mssv, "All", round(total, 2)) for mssv, total in student_contributions.items()]
    write_csv(output_1, data_1, headers=["MSSV", "All", "Số lượng"])
    data_2 = []
    for mssv, brands in car_brand_contributions.items():
        for brand, total in brands.items():
            data_2.append((mssv, brand, round(total, 2)))
    write_csv(output_2, data_2, headers=["MSSV", "Hiệu xe", "Số lượng"])

    print(f"Đã tạo thành công {output_1} và {output_2} ")

if __name__ == "__main__":
    main()

/content/drive/MyDrive/Public/Honda
/content/drive/MyDrive/Public/Hyundai
/content/drive/MyDrive/Public/KIA
/content/drive/MyDrive/Public/Mazda
/content/drive/MyDrive/Public/Mitsubishi
/content/drive/MyDrive/Public/Others
/content/drive/MyDrive/Public/Suzuki
/content/drive/MyDrive/Public/Toyota
/content/drive/MyDrive/Public/VinFast
Đã tạo thành công CS114-1.csv và CS114-2.csv 


In [9]:
import pandas as pd

In [10]:
df1 = pd.read_csv('CS114-1.csv')
df2 = pd.read_csv('CS114-2.csv')

In [11]:
df1.head(10)

Unnamed: 0,MSSV,All,Số lượng
0,22520394-22520395,All,3367
1,22520779-22521587,All,2730
2,22521070-22520211,All,2460
3,22521425-22520318,All,146
4,22521492-22521599,All,756
5,22521586-22521559,All,1472
6,22520914-22520915,All,709
7,21522500-21522771,All,1015
8,22521027-22520195-22521060,All,11969
9,22521692-22521676,All,1240


In [12]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   MSSV      31 non-null     object
 1   All       31 non-null     object
 2   Số lượng  31 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 872.0+ bytes


In [13]:
df2.head(10)

Unnamed: 0,MSSV,Hiệu xe,Số lượng
0,22520394-22520395,Honda,387
1,22520394-22520395,Hyundai,253
2,22520394-22520395,KIA,377
3,22520394-22520395,Mazda,321
4,22520394-22520395,Mitsubishi,422
5,22520394-22520395,Others,610
6,22520394-22520395,Suzuki,466
7,22520394-22520395,Toyota,366
8,22520394-22520395,VinFast,165
9,22520779-22521587,Honda,200


In [14]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 222 entries, 0 to 221
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   MSSV      222 non-null    object
 1   Hiệu xe   222 non-null    object
 2   Số lượng  222 non-null    int64 
dtypes: int64(1), object(2)
memory usage: 5.3+ KB
