## 기본 데이터 분석

In [11]:
import pandas as pd
df19 = pd.read_csv('./data/1. 19년도-과정이수및평가점수.csv', encoding='euc-kr')
df15 = pd.read_excel('./data/2. 15-19년전체집계.xlsx')

----------------
<span style="color:yellow">1. pandas 로 데이터 전처리 및 저장<span>

사전 데이터 분석 결과로부터 사실은 결측치일 가능성이 높다고 판명된, df15 자료의 0점 처리된 C, E, F, G 과목성적을 다시 결측치로 치환한다.  
또한 학과명 실내디자인과(학부) 를 실내디자인과 로 치환 후 새로운 파일로 저장한다.

In [12]:
df15 = df15.replace({'학과': {'실내디자인과(학부)':'실내디자인과'}})

In [13]:
from numpy import NaN
df15 = df15.replace({'C과목': {0.0: NaN}})
df15 = df15.replace({'E과목': {0.0: NaN}})
df15 = df15.replace({'F과목': {0.0: NaN}})
df15 = df15.replace({'G과목': {0.0: NaN}})
df15.to_excel('./data/pdf15.xlsx', index=False)
pdf15 = pd.read_excel('./data/pdf15.xlsx')

In [14]:
pdf15.head()

Unnamed: 0,연도,학과,학생구분,응시자수,A과목,B과목,F과목,D과목,G과목,C과목,E과목
0,2019,건축설비소방과,신입생,70,3.028571,4.514286,,3.4,,3.914286,3.728571
1,2019,건축학부,신입생,229,2.982533,4.90393,,3.489083,,3.572052,3.58952
2,2019,경영학부,신입생,147,2.829932,4.544218,,3.993197,,3.659864,3.741497
3,2019,글로벌외식조리학부,신입생,147,3.136054,4.265306,,3.47619,,3.70068,3.829932
4,2019,기계과,신입생,87,3.022989,4.321839,,3.229885,,3.701149,3.747126


In [15]:
pdf15.tail()

Unnamed: 0,연도,학과,학생구분,응시자수,A과목,B과목,F과목,D과목,G과목,C과목,E과목
273,2015,스포츠지도과,재학생,40,2.65,4.375,3.475,3.3,3.85,,
274,2015,호텔조리과,재학생,15,3.933333,5.266667,3.466667,4.133333,4.333333,,
275,2015,호텔외식서비스과,재학생,15,3.4,4.533333,3.4,3.8,4.333333,,
276,2015,언어재활과,재학생,29,3.586207,5.103448,3.724138,3.206897,4.482759,,
277,2015,중국비즈니스과,재학생,27,2.851852,4.814815,3.444444,3.925926,4.333333,,


----------------
<span style="color:yellow">2. 학과별 NCS 직업기초능력 시험평가 응시자 수 분석<span>

전체 응시자 수 변화

In [16]:
test_num = pdf15.groupby(['학생구분', '연도'])['응시자수'].sum().reset_index(drop=False)
test_num

Unnamed: 0,학생구분,연도,응시자수
0,신입생,2015,1080
1,신입생,2016,2244
2,신입생,2017,2318
3,신입생,2018,1188
4,신입생,2019,2008
5,재학생,2015,926
6,재학생,2016,859
7,재학생,2017,902
8,재학생,2018,869
9,재학생,2019,1469


In [17]:
%matplotlib notebook
import matplotlib.pyplot as plt
import seaborn as sns

In [18]:
plt.rc('font', family='D2Coding') 
plt.rcParams['axes.grid'] = True

In [19]:
plt.rcParams["figure.figsize"] = (7,5)
sns.lineplot(x='연도', y='응시자수', hue='학생구분', style='학생구분', data=test_num, markers=True, dashes=False)
plt.savefig("./image/3_1fig.png")

<IPython.core.display.Javascript object>

![3_1fig.png](./image/3_1fig.png)

주어진 자료는 NCS 직업기초능력 시험평가에 대한 것으로  A : 대인관계, B : 의사소통, C : 자기개발, D : 조직이해, E : 문제해결, F, G : 자원관리, 직업윤리 과목의 응시자 수와 성적 자료를 제공한다.  
일반적으로 학생 정원은 재학생이 신입생보다 많을 것으로 생각되지만, 자료에 따르면 응시자 수는 신입생이 재학생보다 많으며, 이는 응시자 수가 학생 정원과는 별 관계가 없을 수 있음을 보여준다.  
또한 응시자 수가 어떠한 변수에 의해 결정되는지 아무런 정보도 주어지고 있지 않으므로, 시각화를 통해 패턴을 볼 수는 있겠지만 의미있는 분석을 하기 어렵다.  
여기서는 삼십여개에 달하는 학과에 대해 일일이 나열하는 것보단 각 케이스에 대해 교육 목적상 한번씩 시각화를 해보는 것에 만족하기로 한다.

학과별 응시자 수 변화

In [20]:
plt.rcParams["figure.figsize"] = (4,5)
sns.relplot(x='연도', y='응시자수', hue='학생구분', style='학생구분', col='학과', col_wrap=6, height=3, 
aspect=.75, linewidth=2.5, kind='line', data=pdf15, markers=True, dashes=False)
plt.savefig("./image/3_2fig.png")

<IPython.core.display.Javascript object>

![3_2fig.png](./image/3_2fig.png)

2019년도 학과별 응시자 수

In [21]:
pdf15_19 = pdf15[pdf15['연도']==2019]

In [22]:
plt.rcParams["figure.figsize"] = (11,12)
sns.barplot(x='학과', y='응시자수', hue='학생구분', data=pdf15_19)
plt.xticks(rotation='-75')
plt.savefig("./image/3_3fig.png")

<IPython.core.display.Javascript object>

![3_3fig.png](./image/3_3fig.png)

----------------
<span style="color:yellow">3. 학과별 NCS 직업기초능력 시험평가 점수 분석<span>