In [1]:
from dash import Dash, html, dcc, Input, Output, callback, dash_table
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

In [2]:
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rcParams['axes.unicode_minus'] = False
import seaborn as sns
from scipy import stats
plt.rc('font', family='Malgun Gothic')

In [3]:
# 데이터 불러오기

df = pd.read_excel('data/교육통계데이터_2015_2022_최종.xlsx') 

In [4]:
# 데이터프레임 확인 

df

Unnamed: 0,연도,시도,행정구역,학제,학교수,학생수_계,교원수_정규_계,교원수_정규_상담_계,학업중단자_계,학업중단자_비율,교사수_비율
0,2015,서울,종로구,고등학교,15,12653,840,8,179,1.414684,0.952381
1,2015,서울,중구,고등학교,12,8933,637,5,97,1.085861,0.784929
2,2015,서울,용산구,고등학교,10,7580,538,6,100,1.319261,1.115242
3,2015,서울,성동구,고등학교,7,6428,467,3,118,1.835719,0.642398
4,2015,서울,광진구,고등학교,9,10936,586,2,168,1.536211,0.341297
...,...,...,...,...,...,...,...,...,...,...,...
1471,2020,경남,합천군,고등학교,6,713,109,1,22,3.085554,0.917431
1472,2020,경남,소계,고등학교,190,89026,7296,71,1301,1.461371,0.973136
1473,2020,제주,제주시,고등학교,20,14495,976,12,171,1.179717,1.229508
1474,2020,제주,서귀포시,고등학교,10,4184,383,5,66,1.577438,1.305483


In [5]:
# 시와 연도별로 학업중단자와 교사수의 비율 평균을 계산함 

In [6]:
# 학업중단자와 교사수 비율의 소수점이 너무 많아 데이터를 확인하기 힘들어 소수점 둘째짜리까지로 수정함 

In [7]:
df2 = round(df.groupby(['시도', '연도'])['학업중단자_비율'].mean(), 2)
df2

시도  연도  
강원  2015    1.41
    2016    1.46
    2017    1.46
    2018    1.66
    2019    1.77
            ... 
충북  2016    1.81
    2017    2.09
    2018    2.12
    2019    2.55
    2020    2.20
Name: 학업중단자_비율, Length: 102, dtype: float64

In [8]:
df3 = round(df.groupby(['시도', '연도'])['교사수_비율'].mean(), 2)
df3

시도  연도  
강원  2015    0.37
    2016    0.43
    2017    0.48
    2018    0.86
    2019    1.02
            ... 
충북  2016    0.97
    2017    0.96
    2018    1.10
    2019    1.17
    2020    1.27
Name: 교사수_비율, Length: 102, dtype: float64

In [9]:
# 두 데이터프레임을 옆으로 합침

In [10]:
df4 = pd.concat([df2, df3], axis=1)

In [11]:
df4 = df4.reset_index() # 인덱스를 재설정하여 시도와 연도를 인덱스에서 빼냄

In [12]:
df4

Unnamed: 0,시도,연도,학업중단자_비율,교사수_비율
0,강원,2015,1.41,0.37
1,강원,2016,1.46,0.43
2,강원,2017,1.46,0.48
3,강원,2018,1.66,0.86
4,강원,2019,1.77,1.02
...,...,...,...,...
97,충북,2016,1.81,0.97
98,충북,2017,2.09,0.96
99,충북,2018,2.12,1.10
100,충북,2019,2.55,1.17


In [13]:
# 위의 데이터프레임을 복사하여 각각 기준란에 학업중단자의 비율인지 교사수의 비율인지를 표시함 

In [14]:
df5 = df4.copy()

In [15]:
for i in range(len(df4)):
    df4.loc[i,'비율값'] = df4.loc[i, '학업중단자_비율']
    df4.loc[i,'기준'] = "학업중단자"

In [16]:
for i in range(len(df5)):
    df5.loc[i,'비율값'] = df5.loc[i, '교사수_비율']
    df5.loc[i,'기준'] = "교사수"

In [17]:
df4

Unnamed: 0,시도,연도,학업중단자_비율,교사수_비율,비율값,기준
0,강원,2015,1.41,0.37,1.41,학업중단자
1,강원,2016,1.46,0.43,1.46,학업중단자
2,강원,2017,1.46,0.48,1.46,학업중단자
3,강원,2018,1.66,0.86,1.66,학업중단자
4,강원,2019,1.77,1.02,1.77,학업중단자
...,...,...,...,...,...,...
97,충북,2016,1.81,0.97,1.81,학업중단자
98,충북,2017,2.09,0.96,2.09,학업중단자
99,충북,2018,2.12,1.10,2.12,학업중단자
100,충북,2019,2.55,1.17,2.55,학업중단자


In [18]:
df5

Unnamed: 0,시도,연도,학업중단자_비율,교사수_비율,비율값,기준
0,강원,2015,1.41,0.37,0.37,교사수
1,강원,2016,1.46,0.43,0.43,교사수
2,강원,2017,1.46,0.48,0.48,교사수
3,강원,2018,1.66,0.86,0.86,교사수
4,강원,2019,1.77,1.02,1.02,교사수
...,...,...,...,...,...,...
97,충북,2016,1.81,0.97,0.97,교사수
98,충북,2017,2.09,0.96,0.96,교사수
99,충북,2018,2.12,1.10,1.10,교사수
100,충북,2019,2.55,1.17,1.17,교사수


In [19]:
# 학업중단자 비율과 교사수 비율 column을 없애고 비율값과 기준만 남겨둠 

In [20]:
df4 = df4.drop(['학업중단자_비율', '교사수_비율'], axis=1)

In [21]:
df5 = df5.drop(['학업중단자_비율', '교사수_비율'], axis=1)

In [22]:
df_graph = pd.concat([df4, df5])
df_graph

Unnamed: 0,시도,연도,비율값,기준
0,강원,2015,1.41,학업중단자
1,강원,2016,1.46,학업중단자
2,강원,2017,1.46,학업중단자
3,강원,2018,1.66,학업중단자
4,강원,2019,1.77,학업중단자
...,...,...,...,...
97,충북,2016,0.97,교사수
98,충북,2017,0.96,교사수
99,충북,2018,1.10,교사수
100,충북,2019,1.17,교사수


In [23]:
# 대시보드에서 보여줄 테이블을 정리함 
# 테이블은 연도, 시도, 행정구역, 학업중단자 비율과 교사수 비율만 보여줌 

In [24]:
df_table = df[['연도', '시도', '행정구역', '학업중단자_비율', '교사수_비율']]

In [25]:
app = Dash(__name__)

app.layout = html.Div([
    # 제목 
    html.H2(children='전문상담 교사 유무와 학업 중단자의 연관성 분석', style={'textAlign': 'center'}),
    
    # 그래프는 시도를 기준으로 Dropdown하여 보여줌
    # 서울을 먼저 보여줌
    dcc.Dropdown(df_graph['시도'].unique(), '서울', id='dropdown-selection'),
    
    # 전문상담 교사 비율과 학업 중단자의 비율을 paired plot으로 표현 
    html.H3(children='<연도별 전문상담교사와 학업중단자 비율 비교>', style={'textAlign': 'center'}),
    dcc.Graph(figure={}, id='graph-content1'),
    
    # 전문상담 교사 비율과 학업 중단자의 연도별 추세 표현 
    html.H3(children='<연도별 전문상담교사와 학업중단자 추세 비교>', style={'textAlign': 'center'}),
    dcc.Graph(figure={}, id='graph-content2'),
    
    # 테이블은 시도별 업데이트를 하지않고 한번에 전체 시도의 테이블을 출력
    dash_table.DataTable(data=df_table.to_dict('records'), page_size=10) 
])


@app.callback(
    Output("graph-content1", "figure"), 
    Input("dropdown-selection", "value"))

def update_bar_chart(value):
    dff = df_graph[df_graph['시도']==value]
    return px.bar(dff, x="연도", y="비율값", color="기준", barmode="group",
                 labels=dict(비율값="연도별 전문상담교사와 학업중단자 비율"))

@app.callback(
    Output("graph-content2", "figure"), 
    Input("dropdown-selection", "value"))

def update_graph(value):
    dff = df_graph[df_graph['시도']==value]
    return px.line(dff, x="연도", y="비율값",color='기준', symbol='기준',
                  labels=dict(비율값="연도별 전문상담교사와 학업중단자 비율")) 

if __name__ == "__main__":
    app.run_server(debug=True)
