In [385]:
from attributes import *
import polars as pl
import altair as alt

# get data
df = pl.read_csv("data/2_research_ethic_recognition.csv")

In [361]:
def basic_analysis(name):
    count = df.group_by(name).len().sort(name)
    proportion = count.with_columns(
        pct = pl.col("len") / pl.col("len").sum() * 100
    )
    mean = df.select(mean = pl.col(name).mean())
    std = df.select(std = pl.col(name).std())
    

In [362]:
def draw_bar_plot(df, x, y, title, MAP, rotate=True, legend=True):

    bar_x = alt.X(x, title=title, axis=None)
    bar_x = bar_x if MAP is None else bar_x.sort(MAP.values())

    txt_x = alt.X(x, sort=MAP.values()) if MAP is not None else alt.X(x)
    lgd_x = alt.Legend(orient='bottom', direction='horizontal')
    color = alt.Color(x, title=None, legend=lgd_x) if legend else alt.Color(x, title=None, legend=None)
    color = color.sort(MAP.values()) if MAP is not None else color

    bar = df.plot.bar().encode(
        x=bar_x,
        y=alt.Y(y, title=None),
        color=color,
    ).properties(
        title=title,
        width=400,
    )

    text = bar.mark_text(
        align="center",
        baseline="bottom",
    ).encode(
        x=txt_x,
        y=y,
        text=y,
        color=alt.value("black"),
    )
    return bar + text

In [363]:
# 
# 가. 연구자의 연구윤리 인식과 실천의 중요성 인식 
# 
title = "연구윤리 인식 및 실천의 중요성 인식"

# 1) counting
basic_analysis("Q1")

# 
# plot
# 
# bar = draw_bar_plot(rer_value_counts, "Q1:N", "count:Q", title, MAP_IMPORTANCE)
# bar.show()
# bar.save("figure/2/가_연구윤리_인식_및_실천의_중요성_인식.svg")

shape: (4, 3)
┌─────┬─────┬───────────┐
│ Q1  ┆ len ┆ pct       │
│ --- ┆ --- ┆ ---       │
│ i64 ┆ u32 ┆ f64       │
╞═════╪═════╪═══════════╡
│ 2   ┆ 1   ┆ 0.598802  │
│ 3   ┆ 2   ┆ 1.197605  │
│ 4   ┆ 52  ┆ 31.137725 │
│ 5   ┆ 112 ┆ 67.065868 │
└─────┴─────┴───────────┘ shape: (1, 1)
┌──────────┐
│ mean     │
│ ---      │
│ f64      │
╞══════════╡
│ 4.646707 │
└──────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 0.538604 │
└──────────┘


In [364]:
# 
# 나. 연구자의 연구윤리 준수 수준 
# 
basic_analysis("Q2")

# visualization
# bar = draw_bar_plot(Compilance, "Q2:N", "count:Q", title, None, legend=False)
# bar.show()
# bar.save("figure/2/나_연구윤리_준수_수준.svg")

shape: (8, 3)
┌─────┬─────┬───────────┐
│ Q2  ┆ len ┆ pct       │
│ --- ┆ --- ┆ ---       │
│ i64 ┆ u32 ┆ f64       │
╞═════╪═════╪═══════════╡
│ 3   ┆ 1   ┆ 0.598802  │
│ 4   ┆ 3   ┆ 1.796407  │
│ 5   ┆ 1   ┆ 0.598802  │
│ 6   ┆ 8   ┆ 4.790419  │
│ 7   ┆ 9   ┆ 5.389222  │
│ 8   ┆ 54  ┆ 32.335329 │
│ 9   ┆ 54  ┆ 32.335329 │
│ 10  ┆ 37  ┆ 22.155689 │
└─────┴─────┴───────────┘ shape: (1, 1)
┌──────────┐
│ mean     │
│ ---      │
│ f64      │
╞══════════╡
│ 8.497006 │
└──────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 1.307413 │
└──────────┘


In [371]:
# 
# 다. 연구자의 연구윤리 준수 영향 요인별
# 
print("연구윤리교육")
basic_analysis("Q3_1")

연구윤리교육
shape: (5, 3)
┌──────┬─────┬───────────┐
│ Q3_1 ┆ len ┆ pct       │
│ ---  ┆ --- ┆ ---       │
│ i64  ┆ u32 ┆ f64       │
╞══════╪═════╪═══════════╡
│ 1    ┆ 2   ┆ 1.197605  │
│ 2    ┆ 4   ┆ 2.39521   │
│ 3    ┆ 22  ┆ 13.173653 │
│ 4    ┆ 88  ┆ 52.694611 │
│ 5    ┆ 51  ┆ 30.538922 │
└──────┴─────┴───────────┘ shape: (1, 1)
┌─────────┐
│ mean    │
│ ---     │
│ f64     │
╞═════════╡
│ 4.08982 │
└─────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 0.797786 │
└──────────┘


In [372]:
# 
# 다. 연구자의 연구윤리 준수 영향 요인별
# 
print("연구윤리 관련 보도")
basic_analysis("Q3_2")


연구윤리 관련 보도
shape: (5, 3)
┌──────┬─────┬───────────┐
│ Q3_2 ┆ len ┆ pct       │
│ ---  ┆ --- ┆ ---       │
│ i64  ┆ u32 ┆ f64       │
╞══════╪═════╪═══════════╡
│ 1    ┆ 5   ┆ 2.994012  │
│ 2    ┆ 5   ┆ 2.994012  │
│ 3    ┆ 34  ┆ 20.359281 │
│ 4    ┆ 86  ┆ 51.497006 │
│ 5    ┆ 37  ┆ 22.155689 │
└──────┴─────┴───────────┘ shape: (1, 1)
┌──────────┐
│ mean     │
│ ---      │
│ f64      │
╞══════════╡
│ 3.868263 │
└──────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 0.895443 │
└──────────┘


In [367]:
# 
# 다. 연구자의 연구윤리 준수 영향 요인별
# 
print("연구자 간 대화 및 멘토링")
basic_analysis("Q3_3")

shape: (4, 3)
┌──────┬─────┬───────────┐
│ Q3_3 ┆ len ┆ pct       │
│ ---  ┆ --- ┆ ---       │
│ i64  ┆ u32 ┆ f64       │
╞══════╪═════╪═══════════╡
│ 2    ┆ 2   ┆ 1.197605  │
│ 3    ┆ 11  ┆ 6.586826  │
│ 4    ┆ 76  ┆ 45.508982 │
│ 5    ┆ 78  ┆ 46.706587 │
└──────┴─────┴───────────┘ shape: (1, 1)
┌──────────┐
│ mean     │
│ ---      │
│ f64      │
╞══════════╡
│ 4.377246 │
└──────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 0.664203 │
└──────────┘


In [373]:
# 
# 다. 연구자의 연구윤리 준수 영향 요인별
# 
print("관련 규정 및 지침")
basic_analysis("Q3_4")

관련 규정 및 지침
shape: (4, 3)
┌──────┬─────┬───────────┐
│ Q3_4 ┆ len ┆ pct       │
│ ---  ┆ --- ┆ ---       │
│ i64  ┆ u32 ┆ f64       │
╞══════╪═════╪═══════════╡
│ 2    ┆ 5   ┆ 2.994012  │
│ 3    ┆ 14  ┆ 8.383234  │
│ 4    ┆ 77  ┆ 46.107784 │
│ 5    ┆ 71  ┆ 42.51497  │
└──────┴─────┴───────────┘ shape: (1, 1)
┌──────────┐
│ mean     │
│ ---      │
│ f64      │
╞══════════╡
│ 4.281437 │
└──────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 0.743536 │
└──────────┘


In [374]:
# 
# 다. 연구자의 연구윤리 준수 영향 요인별
# 
print("부정행위 검증 및 제재")
basic_analysis("Q3_5")

부정행위 검증 및 제재
shape: (4, 3)
┌──────┬─────┬───────────┐
│ Q3_5 ┆ len ┆ pct       │
│ ---  ┆ --- ┆ ---       │
│ i64  ┆ u32 ┆ f64       │
╞══════╪═════╪═══════════╡
│ 2    ┆ 1   ┆ 0.598802  │
│ 3    ┆ 14  ┆ 8.383234  │
│ 4    ┆ 93  ┆ 55.688623 │
│ 5    ┆ 59  ┆ 35.329341 │
└──────┴─────┴───────────┘ shape: (1, 1)
┌──────────┐
│ mean     │
│ ---      │
│ f64      │
╞══════════╡
│ 4.257485 │
└──────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 0.630204 │
└──────────┘


In [375]:
# 
# 다. 연구자의 연구윤리 준수 영향 요인별
# 
print("학술지 및 학술 컨퍼런스 자료")
basic_analysis("Q3_6")

학술지 및 학술 컨퍼런스 자료
shape: (5, 3)
┌──────┬─────┬───────────┐
│ Q3_6 ┆ len ┆ pct       │
│ ---  ┆ --- ┆ ---       │
│ i64  ┆ u32 ┆ f64       │
╞══════╪═════╪═══════════╡
│ 1    ┆ 2   ┆ 1.197605  │
│ 2    ┆ 4   ┆ 2.39521   │
│ 3    ┆ 30  ┆ 17.964072 │
│ 4    ┆ 92  ┆ 55.08982  │
│ 5    ┆ 39  ┆ 23.353293 │
└──────┴─────┴───────────┘ shape: (1, 1)
┌─────────┐
│ mean    │
│ ---     │
│ f64     │
╞═════════╡
│ 3.97006 │
└─────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 0.787134 │
└──────────┘


In [386]:
# 
# 다. 연구자의 연구윤리 준수 영향 요인별
# 
print("기타")

count = df.group_by("Q4").len().sort("Q4")
proportion = count.with_columns(
    pct = pl.col("len") / pl.col("len").sum() * 100
)

print(count, proportion)

기타
shape: (11, 2)
┌───────────────────────┬─────┐
│ Q4                    ┆ len │
│ ---                   ┆ --- │
│ str                   ┆ u32 │
╞═══════════════════════╪═════╡
│ null                  ┆ 95  │
│ ETC (Leader)          ┆ 1   │
│ ETC (prevention)      ┆ 1   │
│ 개인 양심 및 윤리     ┆ 30  │
│ 규정과 지침           ┆ 8   │
│ …                     ┆ …   │
│ 연구 환경 및 준수     ┆ 10  │
│ 연구윤리 교육 및 훈련 ┆ 4   │
│ 의사소통과 협력       ┆ 5   │
│ 임금 및 노동 환경     ┆ 2   │
│ 평가, 처벌 및 책임    ┆ 5   │
└───────────────────────┴─────┘ shape: (11, 3)
┌───────────────────────┬─────┬───────────┐
│ Q4                    ┆ len ┆ pct       │
│ ---                   ┆ --- ┆ ---       │
│ str                   ┆ u32 ┆ f64       │
╞═══════════════════════╪═════╪═══════════╡
│ null                  ┆ 95  ┆ 56.886228 │
│ ETC (Leader)          ┆ 1   ┆ 0.598802  │
│ ETC (prevention)      ┆ 1   ┆ 0.598802  │
│ 개인 양심 및 윤리     ┆ 30  ┆ 17.964072 │
│ 규정과 지침           ┆ 8   ┆ 4.790419  │
│ …                     ┆ …   ┆ …         │


In [378]:
# 
# 라. KIOST 연구윤리 확립을 위한 자체 노력의 정도
# 
basic_analysis("Q5")

# bar = draw_bar_plot(effort_value_counts, "Q5:N", "count:Q", "KIOST 연구윤리 확립을 위한 자체 노력의 정도", MAP_GOOD)
# bar.save("figure/2/라_KIOST_연구윤리_확립을_위한_자체_노력의_정도.svg")

shape: (5, 3)
┌─────┬─────┬───────────┐
│ Q5  ┆ len ┆ pct       │
│ --- ┆ --- ┆ ---       │
│ i64 ┆ u32 ┆ f64       │
╞═════╪═════╪═══════════╡
│ 1   ┆ 2   ┆ 1.197605  │
│ 2   ┆ 2   ┆ 1.197605  │
│ 3   ┆ 57  ┆ 34.131737 │
│ 4   ┆ 78  ┆ 46.706587 │
│ 5   ┆ 28  ┆ 16.766467 │
└─────┴─────┴───────────┘ shape: (1, 1)
┌──────────┐
│ mean     │
│ ---      │
│ f64      │
╞══════════╡
│ 3.766467 │
└──────────┘ shape: (1, 1)
┌──────────┐
│ std      │
│ ---      │
│ f64      │
╞══════════╡
│ 0.783459 │
└──────────┘


In [337]:
from scipy import stats

#
# Chi-square test
#
personal_info = pl.read_csv("data/6_personal_info.csv")
recognition_stats = df.join(personal_info, on="ID")

def run_chi2_test(target_name):
    chi_analysis = {}
    for key, value in MAP_PERSON.items():
        target = recognition_stats.pivot(target_name, index=value, values=target_name, aggregate_function='count', sort_columns=True).fill_null(0).drop(value)
        chi_analysis[key] = stats.chi2_contingency(target)
    return chi_analysis

chi_recognition = run_chi2_test("Q1")
chi_compliance = run_chi2_test("Q2")
chi_compliance_influencing_factor_1 = run_chi2_test("Q3_1")
chi_compliance_influencing_factor_2 = run_chi2_test("Q3_2")
chi_compliance_influencing_factor_3 = run_chi2_test("Q3_3")
chi_compliance_influencing_factor_4 = run_chi2_test("Q3_4")
chi_compliance_influencing_factor_5 = run_chi2_test("Q3_5")
chi_compliance_influencing_factor_6 = run_chi2_test("Q3_6")
chi_effort = run_chi2_test("Q5")

  target = recognition_stats.pivot(target_name, index=value, values=target_name, aggregate_function='count', sort_columns=True).fill_null(0).drop(value)
