# 02 – EDA: Thống kê mô tả & Phân phối điểm

- Thống kê mô tả tổng quát (mean, std, skewness, kurtosis)
- Phân bố số môn thi
- Histogram phân phối điểm từng môn
- Bar chart tỷ lệ đăng ký Ngoại ngữ
- Heatmap tương quan giữa các môn

In [None]:
import sys
sys.path.insert(0, '..')

import pandas as pd
import os
from src.config import SCORE_COLS, SUBJECT_LABELS, OUTPUT_DIR
from src.plotting import (
    setup_style,
    plot_all_subject_histograms,
    plot_foreign_language_histograms,
    plot_foreign_language_bar,
    plot_num_subjects_bar,
    plot_correlation_heatmap,
)

setup_style()
os.makedirs(f'../{OUTPUT_DIR}', exist_ok=True)

In [None]:
df = pd.read_parquet('../combined_data.parquet')
print(f'Rows: {len(df):,}  |  Cols: {list(df.columns)}')

## Thống kê mô tả

In [None]:
stats = df[SCORE_COLS].describe().T
stats['skewness'] = df[SCORE_COLS].skew()
stats['kurtosis'] = df[SCORE_COLS].kurtosis()
stats.index = [SUBJECT_LABELS.get(c, c) for c in stats.index]
stats.round(3)

## Phân bố số môn thi

In [None]:
plot_num_subjects_bar(df, output_dir=f'../{OUTPUT_DIR}')

## Histogram phân phối điểm từng môn

In [None]:
plot_all_subject_histograms(df, output_dir=f'../{OUTPUT_DIR}')

## Ngoại ngữ: histogram theo mã ngôn ngữ & bar chart tỷ lệ

In [None]:
plot_foreign_language_histograms(df, output_dir=f'../{OUTPUT_DIR}')
plot_foreign_language_bar(df, output_dir=f'../{OUTPUT_DIR}')

## Heatmap tương quan giữa các môn

In [None]:
plot_correlation_heatmap(df, output_dir=f'../{OUTPUT_DIR}')

## Phân bố theo tỉnh/thành

In [None]:
province_counts = df['tinh_moi'].value_counts().sort_values(ascending=False)
print(f'Số tỉnh/thành: {len(province_counts)}')
province_counts