In [2]:
from xml.etree.ElementTree import parse
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import font_manager,rc

import random

font_location = "C:\Windows\Fonts\malgun.ttf"
font_name = font_manager.FontProperties(fname=font_location).get_name()
rc('font',family=font_name)
plt.rcParams['axes.unicode_minus'] = False

In [3]:
def get_record_column_names(items):
    for item in items.iter("record"):
        column_list = []
        is_first = True
        for column_data in item.iter():
            if is_first:
                is_first = False
                continue
            column_list.append(column_data.tag)

        return column_list

def get_all_records(items):

    all_records = []
    for item in items.iter("record"):

        simple_row_list=[] # 행 데이터

        is_first = True
        for column_data in item.iter():
            if is_first:
                is_first = False
                continue
            simple_row_list.append(column_data.text)
        all_records.append(simple_row_list)

    return all_records


tree = parse("전국대학별등록금정보표준데이터.xml")
response = tree.getroot()
items = response.find('records')



print(get_record_column_names(items))

all_records = get_all_records(items)
column_list = get_record_column_names(items)
#print(all_records)
#print(column_list)
df = pd.DataFrame(all_records, columns=column_list)
#df.to_csv('전국대학별등록금정보표준데이터.csv', encoding='cp949', index=False)

['기준연도', '시도코드', '시도명', '대학구분명', '대학교명', '본분교구분명', '설립형태구분명', '평균입학금액', '평균등록금액', '데이터기준일자', '제공기관코드', '제공기관명']


In [4]:
df.head()

Unnamed: 0,기준연도,시도코드,시도명,대학구분명,대학교명,본분교구분명,설립형태구분명,평균입학금액,평균등록금액,데이터기준일자,제공기관코드,제공기관명
0,2022,41,경기도,대학,가톨릭대학교,본교,사립,176000,6997600.0,2022-11-22,B552529,한국장학재단
1,2022,30,대전광역시,대학,목원대학교,본교,사립,0,7271240.2,2022-11-22,B552529,한국장학재단
2,2022,11,서울특별시,대학,감리교신학대학교,본교,사립,165400,6304000.0,2022-11-22,B552529,한국장학재단
3,2022,41,경기도,대학,강남대학교,본교,사립,178000,7464484.2,2022-11-22,B552529,한국장학재단
4,2022,11,서울특별시,대학,건국대학교,본교,사립,187000,8275634.2,2022-11-22,B552529,한국장학재단


In [7]:
df.tail()

Unnamed: 0,기준연도,시도코드,시도명,대학구분명,대학교명,본분교구분명,설립형태구분명,평균입학금액,평균등록금액,데이터기준일자,제공기관코드,제공기관명
918,2022,47,경상북도,전문대학,동국대학교(WISE),분교,사립,0,0,2022-11-22,B552529,한국장학재단
919,2022,36,세종특별자치시,전문대학,고려대학교(세종),분교,사립,1234000,13144000,2022-11-22,B552529,한국장학재단
920,2022,11,서울특별시,전문대학,가톨릭대학교,제2캠퍼,사립,0,0,2022-11-22,B552529,한국장학재단
921,2022,11,서울특별시,전문대학,명지대학교,제2캠퍼,사립,930000,12616000,2022-11-22,B552529,한국장학재단
922,2022,42,강원도,전문대학,강원대학교,제2캠퍼,국립,178000,5492000,2022-11-22,B552529,한국장학재단


In [8]:
df.shape

(923, 12)

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 923 entries, 0 to 922
Data columns (total 12 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   기준연도     923 non-null    object
 1   시도코드     923 non-null    object
 2   시도명      923 non-null    object
 3   대학구분명    923 non-null    object
 4   대학교명     923 non-null    object
 5   본분교구분명   923 non-null    object
 6   설립형태구분명  923 non-null    object
 7   평균입학금액   923 non-null    object
 8   평균등록금액   923 non-null    object
 9   데이터기준일자  923 non-null    object
 10  제공기관코드   923 non-null    object
 11  제공기관명    923 non-null    object
dtypes: object(12)
memory usage: 86.7+ KB


In [10]:
df.isnull().sum()

기준연도       0
시도코드       0
시도명        0
대학구분명      0
대학교명       0
본분교구분명     0
설립형태구분명    0
평균입학금액     0
평균등록금액     0
데이터기준일자    0
제공기관코드     0
제공기관명      0
dtype: int64

In [11]:
df.columns

Index(['기준연도', '시도코드', '시도명', '대학구분명', '대학교명', '본분교구분명', '설립형태구분명', '평균입학금액',
       '평균등록금액', '데이터기준일자', '제공기관코드', '제공기관명'],
      dtype='object')

## 전처리 작업: 입학금과 등록금이 object 타입이므로 float타입으로 변경

In [12]:
df["평균입학금액"]=df["평균입학금액"].astype('float')
df["평균등록금액"]=df["평균등록금액"].astype('float')

In [13]:
df.dtypes

기준연도        object
시도코드        object
시도명         object
대학구분명       object
대학교명        object
본분교구분명      object
설립형태구분명     object
평균입학금액     float64
평균등록금액     float64
데이터기준일자     object
제공기관코드      object
제공기관명       object
dtype: object

In [14]:
df['데이터기준일자'].unique()

array(['2022-11-22'], dtype=object)

In [15]:
df['제공기관코드'].unique()

array(['B552529'], dtype=object)

In [16]:
df['제공기관명'].unique()

array(['한국장학재단'], dtype=object)

In [17]:
df.drop(['데이터기준일자','제공기관코드','제공기관명'],axis=1)

Unnamed: 0,기준연도,시도코드,시도명,대학구분명,대학교명,본분교구분명,설립형태구분명,평균입학금액,평균등록금액
0,2022,41,경기도,대학,가톨릭대학교,본교,사립,176000.0,6997600.0
1,2022,30,대전광역시,대학,목원대학교,본교,사립,0.0,7271240.2
2,2022,11,서울특별시,대학,감리교신학대학교,본교,사립,165400.0,6304000.0
3,2022,41,경기도,대학,강남대학교,본교,사립,178000.0,7464484.2
4,2022,11,서울특별시,대학,건국대학교,본교,사립,187000.0,8275634.2
...,...,...,...,...,...,...,...,...,...
918,2022,47,경상북도,전문대학,동국대학교(WISE),분교,사립,0.0,0.0
919,2022,36,세종특별자치시,전문대학,고려대학교(세종),분교,사립,1234000.0,13144000.0
920,2022,11,서울특별시,전문대학,가톨릭대학교,제2캠퍼,사립,0.0,0.0
921,2022,11,서울특별시,전문대학,명지대학교,제2캠퍼,사립,930000.0,12616000.0


In [18]:
round(df.describe(),2)

Unnamed: 0,평균입학금액,평균등록금액
count,923.0,923.0
mean,374370.22,7035567.09
std,359788.14,3290629.18
min,0.0,0.0
25%,0.0,5458044.5
50%,204000.0,6682805.2
75%,700000.0,8448630.8
max,1360232.8,46650000.0


## 1차 탐색적 분석
### Step1            
#### 데이터 분석의 목적, 대상 또는 가설을 세운다.
* 전국 지역별 국립대가 사립대보다 등록금이 더 낮을 것이다.
* 입학금을 안내는 대학은 등록금도 낮을 것이다.
* 본캠퍼스외 다른캠퍼스는 등록금이 더 낮을 것이다.
* 지방대비 수도권에 대학이 더 많을 것이다.
* 국립대는 지방에 더 많이 있을 것이다.
* 수도권 대학이 지방권 대학보다 등록금이 더 비쌀것이다.