# 범주형 데이터에 value_counts() 함수 적용
### 범주형 데이터 : 관측 결과가 몇개의 범주 또는 항목의 형태로 나타나는 자료
### ex. 성별(남,여), 선호도(좋다, 보통, 싫다), 혈액형(A,B,O,AB) 등

### - 각 값이 차지하는 개수 파악, 비율 파악이 가능
### - 유니크한 값들의 개수, 비율을 알 수 있음   -> 비율을 알기위해서는 normalize = True 작성

In [1]:
import pandas as pd
data = pd.read_csv("D:/boston.csv")

In [2]:
data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2


In [3]:
# 개수 파악이 가능
data["RAD"].value_counts()

24    132
5     115
4     110
3      38
6      26
8      24
2      24
1      20
7      17
Name: RAD, dtype: int64

In [4]:
# normalize = True를 통해 비율 파악이 가능
data["RAD"].value_counts(normalize = True)

24    0.260870
5     0.227273
4     0.217391
3     0.075099
6     0.051383
8     0.047431
2     0.047431
1     0.039526
7     0.033597
Name: RAD, dtype: float64

In [5]:
# 100을 곱하면 퍼센트 단위로 변환 가능
data["RAD"].value_counts(normalize = True)*100

24    26.086957
5     22.727273
4     21.739130
3      7.509881
6      5.138340
8      4.743083
2      4.743083
1      3.952569
7      3.359684
Name: RAD, dtype: float64

In [6]:
# 데이터프레임으로 변환 가능
pd.DataFrame(data["RAD"].value_counts(normalize = True)*100)

Unnamed: 0,RAD
24,26.086957
5,22.727273
4,21.73913
3,7.509881
6,5.13834
8,4.743083
2,4.743083
1,3.952569
7,3.359684


# 데이터프레임에 value_counts() 함수 사용
### 행을 하나의 value로 설정하고 동일한 행이 몇번 나타났는지 반환
### 행의 경우가 인덱스로 개수된 값이 value로 표시되는 Series 반환
### - 여러개 열을 선택해서 두개 모두가 같은 값들 별로 파악도 가능하다.

In [7]:
data[["CHAS","RAD"]].value_counts(normalize = True)*100

CHAS  RAD
0     24     24.505929
      5      20.553360
      4      20.158103
      3       7.114625
      6       5.138340
      2       4.743083
      8       3.754941
      1       3.754941
      7       3.359684
1     5       2.173913
      24      1.581028
      4       1.581028
      8       0.988142
      3       0.395257
      1       0.197628
dtype: float64

In [8]:
# 데이터 프레임으로 만들 수 있음.
pd.DataFrame(data[["CHAS","RAD"]].value_counts(normalize = True)*100,columns = ["percents"])

Unnamed: 0_level_0,Unnamed: 1_level_0,percents
CHAS,RAD,Unnamed: 2_level_1
0,24,24.505929
0,5,20.55336
0,4,20.158103
0,3,7.114625
0,6,5.13834
0,2,4.743083
0,8,3.754941
0,1,3.754941
0,7,3.359684
1,5,2.173913


In [9]:
data[["CHAS","RAD"]].value_counts().sort_values()

CHAS  RAD
1     1        1
      3        2
      8        5
      24       8
      4        8
      5       11
0     7       17
      8       19
      1       19
      2       24
      6       26
      3       36
      4      102
      5      104
      24     124
dtype: int64