In [2]:
import pandas as pd
import numpy as np

In [None]:
# crashes = pd.read_csv('cleaned_crashes.csv')
# people = pd.read_csv('cleaned_people.csv')
# vehicles = pd.read_csv('cleaned_vehicles.csv')
crashes = pd.read_csv('raw_datasets/crashes.csv')
people = pd.read_csv('raw_datasets/people.csv')
vehicles = pd.read_csv('raw_datasets/vehicles.csv')

In [35]:
people.columns

Index(['person_id', 'person_type', 'crash_record_id', 'vehicle_id',
       'crash_date', 'sex', 'age', 'safety_equipment', 'airbag_deployed',
       'ejection', 'injury_classification', 'driver_action',
       'physical_condition'],
      dtype='object')

In [16]:
def clean_column_names(df):
    df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')
    return df

In [17]:
crashes = clean_column_names(crashes)
vehicles = clean_column_names(vehicles)
people = clean_column_names(people)

In [18]:
dataframes = {
    'crashes': crashes,
    'vehicles': vehicles,
    'people': people
}

column_descriptions = {
    'crashes': {
        'crash_record_id': 'Mã định danh cho mỗi vụ tai nạn',
        'crash_date_est_i': 'Ngày xảy ra tai nạn có đuợc uớc tính hay không (thường khi tai nạn được phát hiện trễ)',
        'crash_date': 'Ngày xảy ra tại nạn',
        'posted_speed_limit': 'Giới hạn tốc độ vị trí xảy ra tai nạn',
        'traffic_control_device': 'Loại hình thức điều khiển giao thông',
        'device_condition': 'Tình trạng thiết bị điều khiển giao thông',
        'weather_condition': 'Tình trạng thời tiết',
        'lighting_condition': 'Điều kiện ánh sáng',
        'first_crash_type': 'Loại tai nạn đầu tiên xảy ra',
        'trafficway_type': 'Loại đuờng giao thông',
        'lane_cnt': 'Tổng số làn đuờng (0 là giao lộ)',
        'alignment': 'Sự định tuyến của làn đuờng',
        'roadway_surface_cond': 'Điều kiện bề mặt đường',
        'road_defect': 'Lỗi trên bề mặt đuờng',
        'report_type': 'Loại báo cáo',
        'crash_type': 'Loại tai nạn',
        'intersection_related_i': 'Liên quan đến giao lộ hay không',
        'not_right_of_way_i': 'Không đúng quyền ưu tiên hay không',
        'hit_and_run_i': 'Có bỏ trốn khi xảy ra tai nạn hay không',
        'damage': 'Thiệt hại',
        'date_police_notified': 'Ngày cảnh sát được thông báo',
        'prim_contributory_cause': 'Nguyên nhân chính gây tai nạn',
        'sec_contributory_cause': 'Nguyên nhân phụ gây tai nạn',
        'street_no': 'Số tên đường',
        'street_direction': 'Hướng đường',
        'street_name': 'Tên đường',
        'beat_of_occurrence': 'Mã số khu vực xảy ra tai nạn',
        'photos_taken_i': 'Có ảnh chụp hay không',
        'statements_taken_i': 'Có lời khai hay không',
        'dooring_i': 'Tai nạn do mở cửa xe hay không',
        'work_zone_i': 'Tai nạn có xảy ra trong khu vực công trình hay không',
        'work_zone_type': 'Loại khu vực công trình',
        'workers_present_i': 'Có công nhân làm việc tại hiện trường không',
        'num_units': 'Tổng số phương tiện liên quan đến vụ tai nạn',
        'most_severe_injury': 'Mức độ thương tích nghiêm trọng nhất',
        'injuries_total': 'Tổng số người bị thương trong vụ tai nạn',
        'injuries_fatal': 'Tổng số người tử vong trong vụ tai nạn',
        'injuries_incapacitating': 'Số người bị thương nghiêm trọng đến mức mất khả năng vận động',
        'injuries_non_incapacitating': 'Số người bị thương nhưng không bị mất khả năng vận động',
        'injuries_reported_not_evident': 'Số người báo cáo bị thương nhưng không có dấu hiệu rõ ràng',
        'injuries_no_indication': 'Số nguời không bị thương',
        'injuries_unknown': 'Số nguời không rõ bị thương tích hay không',
        'crash_hour': 'Giờ mà tai nạn xảy ra',
        'crash_day_of_week': 'Ngày trong tuần xảy ra tai nạn',
        'crash_month': 'Tháng xảy ra tai nạn',
        'latitude': 'Vĩ độ xảy ra tai nạn',
        'longitude': 'Kinh độ xảy ra tai nạn',
        'location': 'Địa điểm xảy ra tai nạn'
    },
    'vehicles': {
        'crash_unit_id': 'Mã định danh cho mỗi đơn vị tham gia tai nạn',
        'crash_record_id': 'Mã định danh cho mỗi vụ tai nạn',
        'crash_date': 'Ngày xảy ra tại nạn',
        'unit_no': 'Mã số duy nhất cho mỗi đơn vị trong một báo cáo tai nạn',
        'unit_type': 'Loại đơn vị',
        'num_passengers': 'Số lượng hành khách trên xe, không bao gồm tài xế',
        'vehicle_id': 'Mã số phương tiện',
        'cmrc_veh_i': 'Có phải phương tiện thương mại hay không',
        'make': 'Hãng xe',
        'model': 'Mẫu xe',
        'lic_plate_state': 'Tiểu bang cấp biển số xe',
        'vehicle_year': 'Năm sản xuất xe',
        'vehicle_defect': 'Lỗi phương tiện',
        'vehicle_type': 'Loại phương tiện',
        'vehicle_use': 'Mục đích sử dụng phương tiện',
        'travel_direction': 'Hướng di chuyển',
        'maneuver': 'Hành động mà đơn vị đang thực hiện trước khi xảy ra tai nạn',
        'towed_i': 'Chỉ báo liệu phương tiện có được kéo đi hay không',
        'fire_i': 'Chỉ báo liệu có xảy ra hỏa hoạn hay không',
        'occupant_cnt': 'Số người trên phương tiện',
        'exceed_speed_limit_i': 'Chỉ báo liệu đơn vị có vượt quá tốc độ giới hạn hay không',
        'towed_by': 'Đơn vị kéo xe',
        'towed_to': 'Địa điểm kéo đến',
        'first_contact_point': 'Vị trí đầu tiên trên phương tiện bị tác động trong vụ tai nạn'
    },
    'people': {
        'person_id': 'Mã định danh mỗi người',
        'person_type': 'Loại nguời tham gia tai nạn',
        'crash_record_id': 'Mã định danh cho mỗi vụ tai nạn',
        'vehicle_id': 'Mã số phương tiện',
        'crash_date': 'Ngày xảy ra tai nạn',
        'sex': 'Giới tính',
        'age': 'Tuổi',
        'safety_equipment': 'Thiết bị an toàn',
        'airbag_deployed': 'Tình trạng kích hoạt túi khí',
        'ejection': 'Tình trạng văng khỏi xe',
        'injury_classification': 'Phân loại mức độ thương tích',
        'hospital': 'Bệnh viện',
        'driver_action': 'Hành động của tài xế dẫn đến tai nạn',
        'physical_condition': 'Tình trạng thể chất'
    }
}
core_columns = {
    'crashes': [
        'crash_date', 'posted_speed_limit', 'traffic_control_device', 'weather_condition',
        'lighting_condition', 'first_crash_type', 'prim_contributory_cause', 'num_units',
        'most_severe_injury', 'injuries_total'
    ],
    'vehicles': [
        'unit_type', 'vehicle_type', 'vehicle_use', 'travel_direction', 'maneuver', 'occupant_cnt'
    ],
    'people': [
        'person_type', 'age', 'sex', 'safety_equipment', 'airbag_deployed', 'injury_classification',
        'driver_action', 'physical_condition'
    ]
}


In [26]:
def generate_dataset_template(dataframes, descriptions, core_columns=None):
    templates = {}

    for i, (name, df) in enumerate(dataframes.items()):
        # Convert các cột có tên chứa 'date' sang kiểu datetime
        for col in df.columns:
            if 'date' in col.lower():
                df[col] = pd.to_datetime(df[col], errors='coerce')

        categorical_cols = df.select_dtypes(include=['object']).columns.tolist()
        numerical_cols = df.select_dtypes(include=['number']).columns.tolist()
        datetime_cols = df.select_dtypes(include=['datetime']).columns.tolist()
        row_count = df.shape[0]
        col_count = df.shape[1]

        # Calculate percentage of missing values
        missing_percentage = (df.isnull().sum() / row_count * 100).round(2)

        # Lấy cột cốt lõi nếu được chỉ định
        core_cols = core_columns.get(name) if core_columns is not None else None
        if core_cols is not None:
            df = df[core_cols]

        # Tạo template mô tả
        description_template = pd.DataFrame({
            'Tên cột': df.columns,
            'Kiểu dữ liệu': [
                'Datetime' if col in datetime_cols else
                'Text' if col in categorical_cols else
                'Number'
                for col in df.columns
            ],
            'Mô tả': [
                descriptions[name].get(col.lower(), '') for col in df.columns
            ],
            'Ví dụ': [
                '' if 'id' in col.lower() or 'date' in col.lower() else ", ".join(map(str, df[col].dropna().unique()[:3]))
                for col in df.columns
            ],
            'Khoảng giá trị': [
                f"{df[col].min()} - {df[col].max()}" if col in numerical_cols else ''
                for col in df.columns
            ],
            'Phần trăm giá trị thiếu': [
                f'{missing_percentage[col]}%' for col in df.columns
            ]
        })

        ## Thông tin bổ sung
        summary_info = pd.DataFrame({
            'Thông tin': ['Số dòng', 'Số cột', 'Số biến phân loại', 'Số biến số'],
            'Giá trị': [
                row_count,
                col_count,
                len(categorical_cols),
                len(numerical_cols)
            ]
        })

        # Lưu kết quả vào dictionary
        templates[name] = {
            'summary': summary_info,
            'template': description_template
        }

    return templates

def export_templates_to_excel(templates, file_name):
    all_summaries = []

    with pd.ExcelWriter(file_name, engine='xlsxwriter') as writer:
        for dataset_name, info in templates.items():
            # Ghi summary riêng cho từng dataset
            # info['summary'].to_excel(writer, sheet_name=f"{dataset_name}_summary", index=False)
            info['template'].to_excel(writer, sheet_name=dataset_name, index=False)

            # Thêm vào bảng tổng hợp
            summary_data = {
                'Dataset': dataset_name,
                'Số dòng': info['summary'].iloc[0, 1],
                'Số cột': info['summary'].iloc[1, 1],
                'Số biến phân loại': info['summary'].iloc[2, 1],
                'Số biến số': info['summary'].iloc[3, 1]
            }
            all_summaries.append(summary_data)

        # Ghi bảng tổng hợp vào một sheet duy nhất
        all_summaries_df = pd.DataFrame(all_summaries)
        all_summaries_df.to_excel(writer, sheet_name="All_Summary", index=False)
def export_individual_templates_to_excel(templates, output_folder):
    all_summaries = []

    for dataset_name, info in templates.items():
        file_path = f"{output_folder}/{dataset_name}_template.xlsx"
        with pd.ExcelWriter(file_path, engine='xlsxwriter') as writer:
            # info['summary'].to_excel(writer, sheet_name="Summary", index=False)
            info['template'].to_excel(writer, sheet_name="Template", index=False)

        # Add dataset summary to a global summary
        summary_data = {
            'Dataset': dataset_name,
            'Số dòng': info['summary'].iloc[0, 1],
            'Số cột': info['summary'].iloc[1, 1],
            'Số biến phân loại': info['summary'].iloc[2, 1],
            'Số biến số': info['summary'].iloc[3, 1]
        }
        all_summaries.append(summary_data)

    # Export consolidated summary
    all_summaries_df = pd.DataFrame(all_summaries)
    all_summaries_df.to_excel(f"{output_folder}/All_Summary.xlsx", index=False)

In [40]:
len(vehicles['crash_unit_id'].unique())

614494

In [43]:
vehicles.head()

Unnamed: 0,crash_unit_id,crash_record_id,crash_date,unit_no,unit_type,vehicle_id,make,model,vehicle_type,vehicle_use,travel_direction,maneuver,occupant_cnt,first_contact_point
0,1717556,7b1763088507f77e0e552c009a6bf89a4d6330c7527706...,2023-12-06T15:24:00.000Z,1,DRIVER,1634931.0,NISSAN,SENTRA,UNKNOWN/NA,UNKNOWN/NA,S,SLOW/STOP IN TRAFFIC,1.0,FRONT
1,1717574,2603ff5a88f0b9b54576934c5ed4e4a64e8278e005687b...,2023-12-06T16:00:00.000Z,2,DRIVER,1634978.0,CHRYSLER,SEBRING,PASSENGER,PERSONAL,S,PASSING/OVERTAKING,1.0,REAR-RIGHT-CORNER
2,1717579,a52ef70e33d468b855b5be44e8638a564434dcf99c0edf...,2023-12-06T16:30:00.000Z,1,DRIVER,1634948.0,SUBARU,OUTBACK,PASSENGER,PERSONAL,W,TURNING RIGHT,1.0,FRONT
3,1720118,609055f4b1a72a44d6ec40ba9036cefd7c1287a755eb6c...,2023-12-10T12:12:00.000Z,1,DRIVER,1637401.0,TOYOTA,RAV4,PASSENGER,PERSONAL,E,STRAIGHT AHEAD,1.0,SIDE-LEFT-FRONT
4,1720119,609055f4b1a72a44d6ec40ba9036cefd7c1287a755eb6c...,2023-12-10T12:12:00.000Z,2,DRIVER,1637408.0,SUBARU,OUTBACK,PASSENGER,PERSONAL,W,STRAIGHT AHEAD,1.0,FRONT-LEFT-CORNER


In [47]:
len(vehicles['vehicle_id'].unique())

607651

In [41]:
vehicles.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 614494 entries, 0 to 614493
Data columns (total 14 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   crash_unit_id        614494 non-null  int64  
 1   crash_record_id      614494 non-null  object 
 2   crash_date           614494 non-null  object 
 3   unit_no              614494 non-null  int64  
 4   unit_type            614494 non-null  object 
 5   vehicle_id           607650 non-null  float64
 6   make                 614494 non-null  object 
 7   model                614494 non-null  object 
 8   vehicle_type         614494 non-null  object 
 9   vehicle_use          614494 non-null  object 
 10  travel_direction     614494 non-null  object 
 11  maneuver             614494 non-null  object 
 12  occupant_cnt         614494 non-null  float64
 13  first_contact_point  614494 non-null  object 
dtypes: float64(2), int64(2), object(10)
memory usage: 65.6+ MB


In [33]:
people['injury_classification'].value_counts()

injury_classification
NO INDICATION OF INJURY     601781
NONINCAPACITATING INJURY     36930
REPORTED, NOT EVIDENT        22366
INCAPACITATING INJURY         6112
FATAL                          397
Name: count, dtype: int64

In [48]:
vehicles['vehicle_type'].value_counts()

vehicle_type
PASSENGER                                 376050
SPORT UTILITY VEHICLE (SUV)                93007
UNKNOWN/NA                                 57896
VAN/MINI-VAN                               25239
PICKUP                                     22609
TRUCK - SINGLE UNIT                        10955
OTHER                                       8402
BUS OVER 15 PASS.                           6899
TRACTOR W/ SEMI-TRAILER                     5592
BUS UP TO 15 PASS.                          2605
MOTORCYCLE (OVER 150CC)                     1620
SINGLE UNIT TRUCK WITH TRAILER              1406
OTHER VEHICLE WITH TRAILER                   908
TRACTOR W/O SEMI-TRAILER                     725
MOPED OR MOTORIZED BICYCLE                   386
ALL-TERRAIN VEHICLE (ATV)                     65
AUTOCYCLE                                     54
3-WHEELED MOTORCYCLE (2 REAR WHEELS)          35
FARM EQUIPMENT                                24
RECREATIONAL OFF-HIGHWAY VEHICLE (ROV)        14
MOTOR D

In [37]:
# result = generate_dataset_template(dataframes, column_descriptions, core_columns=core_columns)
result = generate_dataset_template(dataframes, column_descriptions, core_columns=None)

In [94]:
export_individual_templates_to_excel(result, 'templates')

In [38]:
export_templates_to_excel(result, 'dataset_templates.xlsx')