In [71]:
import pandas as pd

# 특정 자료형으로 열을 구분하기

* 자료형 마다 데이터를 분석할 수 있는 패턴이 다르다.  
* 예를 들어 숫자 타입인 경우 평균, 최소값, 최대값, 분산, 표준편차, 1사분위, 2사분위, 3사분위, 4사분위, Outlier 등 분석할 수 있는 패턴이 정해져있다. 이러한 분석패턴은 다른타입, 예를 들어 문자열 타입에는 적용할 수 없다.  
* 따라서 자료형별 열을 구분하는 기능은 데이터 자료형별 데이터 분석을 할 수 있도록 도와준다.

In [55]:
college = pd.read_csv("data/2017_college_tuition.csv", encoding='cp949')
college.head()

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967


In [56]:
college.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 196 entries, 0 to 195
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   학교명     196 non-null    object
 1   설립구분    196 non-null    object
 2   평균등록금   196 non-null    int64 
dtypes: int64(1), object(2)
memory usage: 4.7+ KB


### 열의 데이터 타입만 조회하기

In [57]:
college.dtypes

학교명      object
설립구분     object
평균등록금     int64
dtype: object

### 열의 타입으로 데이터 조회하기

* 모든 숫자타입의 열 조회

In [58]:
college.select_dtypes(include = ['int64']).head()

Unnamed: 0,평균등록금
0,4262
1,4116
2,3771
3,4351
4,3967


* 모든 문자열 타입의 열 조회

In [59]:
college.select_dtypes(include = ['object']).head()

Unnamed: 0,학교명,설립구분
0,강릉원주대학교,국공립
1,강원대학교,국공립
2,경남과학기술대학교,국공립
3,경북대학교,국공립
4,경상대학교,국공립


### 유일 데이터 구분

In [60]:
college.head(20)

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
5,경인교육대학교,국공립,3189
6,공주교육대학교,국공립,3424
7,공주대학교,국공립,3824
8,광주교육대학교,국공립,3477
9,군산대학교,국공립,3914


## 범주형 데이터

* 위 데이터에서 설립구분 열은 데이터의 분류상 '범주형 데이터' 라고 한다.  
* 범주형 데이터는 데이터의 범위가 정해져 있는 성격의 데이터를 뜻한다.  
예) 성별, 지역, 혈액형  
* 범주형 데이터의 특징: 데이터가 중복이 된다. 범위는 한정적이다. (무한한 범위내에 정의된 값은 아니다.)

### 범주형 데이터의 유형을 파악하는데 도움이 되는 함수 => unique()

In [61]:
college['설립구분'].unique()

array(['국공립', '사립'], dtype=object)

### 범주형 데이터 유형별 갯수를 파악하는 함수 => value_counts()

In [62]:
college['설립구분'].value_counts()

설립구분
사립     156
국공립     40
Name: count, dtype: int64

In [63]:
pd.DataFrame(college['설립구분'].value_counts())

Unnamed: 0_level_0,count
설립구분,Unnamed: 1_level_1
사립,156
국공립,40


### 숫자타입 열에 대한 간단한 분석

In [64]:
college.head(10)

Unnamed: 0,학교명,설립구분,평균등록금
0,강릉원주대학교,국공립,4262
1,강원대학교,국공립,4116
2,경남과학기술대학교,국공립,3771
3,경북대학교,국공립,4351
4,경상대학교,국공립,3967
5,경인교육대학교,국공립,3189
6,공주교육대학교,국공립,3424
7,공주대학교,국공립,3824
8,광주교육대학교,국공립,3477
9,군산대학교,국공립,3914


* 평균 등록금 상위 Top5

In [65]:
college['평균등록금'].nlargest(5)

173    9004
132    8824
128    8649
147    8526
146    8499
Name: 평균등록금, dtype: int64

In [66]:
college.iloc[173]

학교명      한국산업기술대학교
설립구분            사립
평균등록금         9004
Name: 173, dtype: object

* 평균 등록금 하위 Top5

In [67]:
college['평균등록금'].nsmallest(5)

61        0
157    1760
137    2000
20     2390
15     3024
Name: 평균등록금, dtype: int64

In [68]:
college.iloc[61]

학교명      광주가톨릭대학교
설립구분           사립
평균등록금           0
Name: 61, dtype: object

### 특정열의 값을 기준으로 데이터프레임 형태로 필터링

* 평균 등록금 상위 Top20인 모든 행 정보

In [69]:
college.nlargest(20,'평균등록금').head()

Unnamed: 0,학교명,설립구분,평균등록금
173,한국산업기술대학교,사립,9004
132,연세대학교,사립,8824
128,신한대학교,사립,8649
147,이화여자대학교,사립,8526
146,을지대학교,사립,8499


* 평균 등록금 하위 Top20인 모든 행 정보

In [70]:
college.nsmallest(20, '평균등록금').head()

Unnamed: 0,학교명,설립구분,평균등록금
61,광주가톨릭대학교,사립,0
157,중앙승가대학교,사립,1760
137,영산선학대학교,사립,2000
20,서울시립대학교,국공립,2390
15,부산교육대학교,국공립,3024
