##### 공분산과 상관계수

두 변수의 '선형관계'를 나타내는 공분산과 상관계수

* cov() : 두 변수의 공분산 또는 여러 변수의 공분산 행렬
* corr() : 두 변수의 상관계쑤 또는 여러 변수의 상관계수 행렬
* corrwith() : 특정 변수와 다른 변수들 간의 상관계수

상관계수 : 양의 상관 / 무상관 / 음의 상관관계

    * cov(x,y) > 0 : x가 증가할때 y도 증가
    * cov(x,y) > 0 : x가 증가할때 y는 감소
    * cov(x,y) = 0 : 두 변수간 '선형관계'가 없음. 서로 독립적인 관계
        * 그러나 항상 두 변수가 독립적이라고는 볼 수 없음
        
공분산 : (x의 편차)(y의 편차), 둘을 곱한 것의 평균

    * 공분산의 문제점 : X와 Y 단위 크기에 영향을 받게 됨
        * x,y의 크기가 10이면 상관성은 높지만 공분산은 작음
        * x,y의 크기가 1000이면 상관성은 낮지만 공분산은 큼
        
이런 문제를 보완하기위해 나온 것이 *"상관계수(Correlation)"*

    * 크기에 영향을 받지 않기위해 나온 개념으로, 분산의 크기만큼 나눴다고 생각하면 됨

###### 상관계수


1. 상관계수의 절대값은 1을 넘을 수 없다.

2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.

3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.

    양의 선형관계면 1, 음의 선형관계면 -1

In [1]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [19]:
steel_data=np.loadtxt("C:/Users/Affinity/Downloads/Python_Data/ch02_data/steel.txt",skiprows=5, delimiter="\t")
df=DataFrame(steel_data, columns=["y","x1","x2"])
print("DataFrame\n{0}\n".format(df))

# 공분산 값을 넣어주자
df["x21"]=df.x2*10
df

DataFrame
       y     x1    x2
0   81.4  195.0  57.0
1  122.2  179.0  61.0
2  101.7  205.0  60.0
3  175.6  204.0  62.0
4  150.3  201.0  61.0
5   64.8  184.0  54.0
6   92.1  210.0  58.0
7  113.8  209.0  61.0



Unnamed: 0,y,x1,x2,x21
0,81.4,195.0,57.0,570.0
1,122.2,179.0,61.0,610.0
2,101.7,205.0,60.0,600.0
3,175.6,204.0,62.0,620.0
4,150.3,201.0,61.0,610.0
5,64.8,184.0,54.0,540.0
6,92.1,210.0,58.0,580.0
7,113.8,209.0,61.0,610.0


In [24]:
# 공분산, 공분산 행렬

print("x1과 y의 공분산\n{0}\n".format(df.x1.cov(df.y)))
print("공분산행렬\n{0}".format(df.cov()))

df.cov()

# 공분산을 구하면, 대칭으로 각 값들이 같은걸 볼 수 있음
# 그래서 공분산 값은 행렬에서 대각선으로 나눈 부분중 한쪽만 봐도 된다.

x1과 y의 공분산
108.85535714285713

공분산행렬
               y          x1         x2         x21
y    1325.868393  108.855357  85.246429  852.464286
x1    108.855357  131.982143  11.178571  111.785714
x2     85.246429   11.178571   7.357143   73.571429
x21   852.464286  111.785714  73.571429  735.714286


Unnamed: 0,y,x1,x2,x21
y,1325.868393,108.855357,85.246429,852.464286
x1,108.855357,131.982143,11.178571,111.785714
x2,85.246429,11.178571,7.357143,73.571429
x21,852.464286,111.785714,73.571429,735.714286


In [26]:
# 상관계수, 상관계수 행렬

print("x1과 y의 상관계수\n{0}\n".format(df.x1.corr(df.y)))
print("상관계수 행렬\n{0}\n".format(df.corr()))
print("y와 x1, x2의 상관계수 행렬\n{0}".format(df.corrwith(df.y)))

df.corr()

# 상관계수값 추출시, 0~1 사이의 값으로 비교가 가능함

x1과 y의 상관계수
0.2602208017100887

상관계수 행렬
            y        x1        x2       x21
y    1.000000  0.260221  0.863120  0.863120
x1   0.260221  1.000000  0.358735  0.358735
x2   0.863120  0.358735  1.000000  1.000000
x21  0.863120  0.358735  1.000000  1.000000

y와 x1, x2의 상관계수 행렬
y      1.000000
x1     0.260221
x2     0.863120
x21    0.863120
dtype: float64


Unnamed: 0,y,x1,x2,x21
y,1.0,0.260221,0.86312,0.86312
x1,0.260221,1.0,0.358735,0.358735
x2,0.86312,0.358735,1.0,1.0
x21,0.86312,0.358735,1.0,1.0


##### 유일 값, 값 세기

* isin() : Series의 각 원소가 특정 원소를 포함하는지 체크
* unique() : Series에서 중복된 값을 제거하고 유일한 값만 배열로 반환
* value_counts() : Series에서 유일한 값에 대한 색인과 도수를 반환

In [5]:
s=Series([22,13,14,22,14,11,14])
print("Series\n{0}".format(s))

Series
0    22
1    13
2    14
3    22
4    14
5    11
6    14
dtype: int64


In [10]:
# 각 메소드들의 출력 특징

print("Series 유일값\n{0}\n".format(s.unique()))
print("Series 유일값 빈도\n{0}\n".format(s.value_counts()))
print("Series [10, 14] 존재여부\n{0}".format(s.isin([10, 14])))

Series 유일값
[22 13 14 11]

Series 유일값 빈도
14    3
22    2
13    1
11    1
dtype: int64

Series [10, 14] 존재여부
0    False
1    False
2     True
3    False
4     True
5    False
6     True
dtype: bool


In [47]:
# dictionary 형 자료가 주어졌을 때, 각 열의 값들을 비교해보자.

data={"att":[10,9,10,10,8],"hw":[10,8,10,10,8],"mid":[25,29,25,27,30],"fin":[29,25,28,25,27]}
df=DataFrame(data, index=["st1", "st2", "st3", "st4", "st5"])
print("DataFrame\n{0}\n".format(df))
print("열 att의 유일값\n{0}\n".format(df.att.unique()))
print("열 att의 유일값 빈도\n{0}\n".format(df.att.value_counts()))

# result=df.apply(pd.value_counts).fillna(0)
result=df.apply(pd.value_counts)
result
result.fillna(0)

DataFrame
     att  hw  mid  fin
st1   10  10   25   29
st2    9   8   29   25
st3   10  10   25   28
st4   10  10   27   25
st5    8   8   30   27

열 att의 유일값
[10  9  8]

열 att의 유일값 빈도
10    3
9     1
8     1
Name: att, dtype: int64



Unnamed: 0,att,hw,mid,fin
8,1.0,2.0,0.0,0.0
9,1.0,0.0,0.0,0.0
10,3.0,3.0,0.0,0.0
25,0.0,0.0,2.0,2.0
27,0.0,0.0,1.0,1.0
28,0.0,0.0,0.0,1.0
29,0.0,0.0,1.0,1.0
30,0.0,0.0,1.0,0.0


In [30]:
print("각 열별 유일값 빈도\n{0}\n".format(df.apply(pd.value_counts)))
print("각 열별 유일값 빈도\n{0}".format(df.apply(pd.value_counts).fillna(0)))

각 열별 유일값 빈도
    att   hw  mid  fin
8   1.0  2.0  NaN  NaN
9   1.0  NaN  NaN  NaN
10  3.0  3.0  NaN  NaN
25  NaN  NaN  2.0  2.0
27  NaN  NaN  1.0  1.0
28  NaN  NaN  NaN  1.0
29  NaN  NaN  1.0  1.0
30  NaN  NaN  1.0  NaN

각 열별 유일값 빈도
    att   hw  mid  fin
8   1.0  2.0  0.0  0.0
9   1.0  0.0  0.0  0.0
10  3.0  3.0  0.0  0.0
25  0.0  0.0  2.0  2.0
27  0.0  0.0  1.0  1.0
28  0.0  0.0  0.0  1.0
29  0.0  0.0  1.0  1.0
30  0.0  0.0  1.0  0.0


### 누락된 데이터 처리

##### 누락된 데이터

* pandas 에선 누락값을 NaN으로 처리, 파이썬의 내장 None 값 또한 NA로 취급

* dropna() : 누락된 자료가 있는 축(행,열)을 제외
    * 어느 정도의누락 데이터까지 요인할 건지 지정 가능
* fillna() : 누락값을 대신 채울 것을 지정 (ffill,bfill 처럼 보간 지정 가능)
* isnull() : 누락되거나 NA인 값인지 체크
* notnull()

##### dropna

Series : 누락된 값을 제거하고 반환함

DataFrame : 적어도 하나의 열에 누락된 값이 포함되어있는 그 행을 삭제

    * how = "all" 옵션 적용하면 모든 열이 누락된 값인 행을 삭제한다.
    * 몇개 이상의 값이 들어있는 행만 선택하고 싶으면 "thresh" 옵션 지정

In [31]:
from numpy import nan as NA

s=Series([7,5,6,7,10,NA,5,4,NA,None])
print("Series\n{0}\n\nNA제거\n{1}".format(s, s.dropna()))

Series
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5     NaN
6     5.0
7     4.0
8     NaN
9     NaN
dtype: float64

NA제거
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
6     5.0
7     4.0
dtype: float64


In [36]:
data={"att":[10,9,NA,10,8],"hw":[10,8,NA,NA,8],"mid":[NA,29,NA,27,30],
      "fin":[29,25,NA,25,27]}
df=DataFrame(data, index=["st1", "st2", "st3", "st4", "st5"])
print("DataFrame\n{0}\n\nNA가 있는 행 제거\n{1}\n".format(df, df.dropna()))
print("모든 열이 NA인 행 제거\n{0}\n".format(df.dropna(how="all")))
print("값이 4개 이상 입력된 열\n{0}".format(df.dropna(axis=1, thresh=4)))

DataFrame
      att    hw   mid   fin
st1  10.0  10.0   NaN  29.0
st2   9.0   8.0  29.0  25.0
st3   NaN   NaN   NaN   NaN
st4  10.0   NaN  27.0  25.0
st5   8.0   8.0  30.0  27.0

NA가 있는 행 제거
     att   hw   mid   fin
st2  9.0  8.0  29.0  25.0
st5  8.0  8.0  30.0  27.0

모든 열이 NA인 행 제거
      att    hw   mid   fin
st1  10.0  10.0   NaN  29.0
st2   9.0   8.0  29.0  25.0
st4  10.0   NaN  27.0  25.0
st5   8.0   8.0  30.0  27.0

값이 4개 이상 입력된 열
      att   fin
st1  10.0  29.0
st2   9.0  25.0
st3   NaN   NaN
st4  10.0  25.0
st5   8.0  27.0


##### fillna

* 대신할 값을 '사전'으로 지정


* method 옵션 : ffill / bfill 채우기
* inplace=True 옵션 : 복사본을 생성하지 않고 현재 객체 변경
* limit 옵션 : 앞/뒤에서 몇개까지 값을 채울지 지정

In [45]:
s=Series([7,5,6,7,10,NA,5,4,NA,None])
print("Series\n{0}\n\nNA->0\n{1}".format(s, s.fillna(value=0)))

Series
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5     NaN
6     5.0
7     4.0
8     NaN
9     NaN
dtype: float64

NA->0
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5     0.0
6     5.0
7     4.0
8     0.0
9     0.0
dtype: float64


In [49]:
# method = ffill / bfill

print("NA->앞쪽 값(최대 1개)\n{0}\n".format(s.fillna(method="ffill", limit=1)))
print("NA->뒤쪽 값(최대 1개)\n{0}\n".format(s.fillna(method="bfill", limit=1)))

NA->앞쪽 값(최대 1개)
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5    10.0
6     5.0
7     4.0
8     4.0
9     NaN
dtype: float64

NA->뒤쪽 값(최대 1개)
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5     5.0
6     5.0
7     4.0
8     NaN
9     NaN
dtype: float64



In [52]:
# DataFrame 에서의 적용

data={"att":[10,9,NA,10,8],"hw":[10,8,NA,NA,8],"mid":[NA,29,NA,27,30],
      "fin":[29,25,NA,25,27]}
df=DataFrame(data, index=["st1", "st2", "st3", "st4", "st5"])
print("DataFrame\n{0}\n\nNA->0\n{1}".format(df, df.fillna(0)))

df
df.fillna(0)

DataFrame
      att    hw   mid   fin
st1  10.0  10.0   NaN  29.0
st2   9.0   8.0  29.0  25.0
st3   NaN   NaN   NaN   NaN
st4  10.0   NaN  27.0  25.0
st5   8.0   8.0  30.0  27.0

NA->0
      att    hw   mid   fin
st1  10.0  10.0   0.0  29.0
st2   9.0   8.0  29.0  25.0
st3   0.0   0.0   0.0   0.0
st4  10.0   0.0  27.0  25.0
st5   8.0   8.0  30.0  27.0


Unnamed: 0,att,hw,mid,fin
st1,10.0,10.0,0.0,29.0
st2,9.0,8.0,29.0,25.0
st3,0.0,0.0,0.0,0.0
st4,10.0,0.0,27.0,25.0
st5,8.0,8.0,30.0,27.0


In [60]:
# 특정 행/열을 특정 값으로 채워넣기

print("열 att NA->0, mid NA->5\n{0}\n".format(df.fillna({"att":0, "mid":5})))
print("각 열의 평균값\n{0}\n".format(df.mean()))
print("NA->각 열의 평균값\n{0}".format(df.fillna(df.mean())))

df.fillna({"att":0, "mid":5})

열 att NA->0, mid NA->5
      att    hw   mid   fin
st1  10.0  10.0   5.0  29.0
st2   9.0   8.0  29.0  25.0
st3   0.0   NaN   5.0   NaN
st4  10.0   NaN  27.0  25.0
st5   8.0   8.0  30.0  27.0

각 열의 평균값
att     9.250000
hw      8.666667
mid    28.666667
fin    26.500000
dtype: float64

NA->각 열의 평균값
       att         hw        mid   fin
st1  10.00  10.000000  28.666667  29.0
st2   9.00   8.000000  29.000000  25.0
st3   9.25   8.666667  28.666667  26.5
st4  10.00   8.666667  27.000000  25.0
st5   8.00   8.000000  30.000000  27.0


Unnamed: 0,att,hw,mid,fin
st1,10.0,10.0,5.0,29.0
st2,9.0,8.0,29.0,25.0
st3,0.0,,5.0,
st4,10.0,,27.0,25.0
st5,8.0,8.0,30.0,27.0


### 계층적 색인

##### 계층적 색인

축에 대해서, 2개 이상의 다중 색인을 지정할 수 있다.

In [62]:
# 계층적 색인이란?

s=Series(np.random.binomial(n=10, p=0.4, size=10), index=[["stat", "stat", "stat", "econ", "econ", 
                                                           "comp", "comp", "comp", "math", "math"],
                                                          [1,2,3,1,2,2,3,4,3,4]])
print("Series\n{0}\n\nSeries 색인\n{1}".format(s, s.index))

# stat에 1,2,3 배분, econ에 1,2 배분, comp에 2,3,4 배분, math에 3,4 배분
# levels, codes 의 두 가지 색인이 생긴 것을 볼 수 있음.

Series
stat  1    1
      2    5
      3    2
econ  1    2
      2    3
comp  2    4
      3    4
      4    3
math  3    4
      4    6
dtype: int32

Series 색인
MultiIndex(levels=[['comp', 'econ', 'math', 'stat'], [1, 2, 3, 4]],
           codes=[[3, 3, 3, 1, 1, 0, 0, 0, 2, 2], [0, 1, 2, 0, 1, 1, 2, 3, 2, 3]])


In [92]:
# 시리즈에서 상위, 하위계층을 바로 지정할 수도 있음

# stat 색인 중 2라는 색인만, math 색인 중 3이라는 색인 만 바로 추출
s[[("stat", 2),("math", 3)]]

stat  2    5
math  3    4
dtype: int32

In [67]:
print("하위색인 2\n{0}\n".format(s[:,2]))
print("색인 stat, comp 하위색인 2\n{0}".format(s[["stat", "comp"]][:,2]))

# 각 열별 색인 2인 값만 추출해서 준다

하위색인 2
stat    5
econ    3
comp    4
dtype: int32

색인 stat, comp 하위색인 2
stat    5
comp    4
dtype: int32


In [100]:
# 중첩 색인/해제
# 대부분 색인에서는 중복값을 굳이 막지는 않는데, 중첩되는 색인 자체를 차단할 수 있음

# unstack 을 해서 Series 를 DataFrame 화 시킴
print("중첩 해제\n{0}\n".format(s.unstack()))
# 다시 Series 형태로 돌리기
print("중첩 설정\n{0}\n".format(s.unstack().stack()))

s.unstack()

중첩 해제
        1    2    3    4
comp  NaN  4.0  4.0  3.0
econ  2.0  3.0  NaN  NaN
math  NaN  NaN  4.0  6.0
stat  1.0  5.0  2.0  NaN

중첩 설정
comp  2    4.0
      3    4.0
      4    3.0
econ  1    2.0
      2    3.0
math  3    4.0
      4    6.0
stat  1    1.0
      2    5.0
      3    2.0
dtype: float64



Unnamed: 0,1,2,3,4
comp,,4.0,4.0,3.0
econ,2.0,3.0,,
math,,,4.0,6.0
stat,1.0,5.0,2.0,


In [117]:
# 색인이 여러가지일때 계층적 색인

np.random.seed(123789)
data=np.random.binomial(n=10, p=0.6, size=40).reshape(10,4)
data

df=DataFrame(data, index=[["stat", "stat", "stat", "econ", "econ", 
                           "comp", "comp", "comp", "math", "math"],
                          [1,2,3,1,2,2,3,4,3,4]],
            columns=[["서울", "서울", "경기", "경기"], ["M", "F", "M", "F"]])

# 각 행,열의 계층 순서 지정
df.index.names=["dept", "cls"] # 행 색인에 대한 설명, 0번째 index는 dept, 1번째는 cls
df.columns.names=["area", "gender"] # 열 색인에 대한 설명, 0번째 columns는 area, 1번째는 gender
print("DataFrame\n{0}\n\nDataFrame 색인\n{1}\n\nDataFrame 열\n{2}".format(df, df.index, df.columns))

df

DataFrame
area     서울    경기   
gender    M  F  M  F
dept cls            
stat 1    8  8  6  2
     2    7  7  6  3
     3    8  7  4  4
econ 1    5  5  7  5
     2    6  8  5  6
comp 2    6  4  4  6
     3    3  6  6  6
     4    8  4  8  4
math 3    6  5  7  8
     4    2  9  5  6

DataFrame 색인
MultiIndex(levels=[['comp', 'econ', 'math', 'stat'], [1, 2, 3, 4]],
           codes=[[3, 3, 3, 1, 1, 0, 0, 0, 2, 2], [0, 1, 2, 0, 1, 1, 2, 3, 2, 3]],
           names=['dept', 'cls'])

DataFrame 열
MultiIndex(levels=[['경기', '서울'], ['F', 'M']],
           codes=[[1, 1, 0, 0], [1, 0, 1, 0]],
           names=['area', 'gender'])


Unnamed: 0_level_0,area,서울,서울,경기,경기
Unnamed: 0_level_1,gender,M,F,M,F
dept,cls,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
stat,1,8,8,6,2
stat,2,7,7,6,3
stat,3,8,7,4,4
econ,1,5,5,7,5
econ,2,6,8,5,6
comp,2,6,4,4,6
comp,3,3,6,6,6
comp,4,8,4,8,4
math,3,6,5,7,8
math,4,2,9,5,6


In [79]:
print("DataFrame 색인\n{0}\n\nDataFrame 열\n{1}".format(df.index, df.columns))

DataFrame 색인
MultiIndex(levels=[['comp', 'econ', 'math', 'stat'], [1, 2, 3, 4]],
           codes=[[3, 3, 3, 1, 1, 0, 0, 0, 2, 2], [0, 1, 2, 0, 1, 1, 2, 3, 2, 3]])

DataFrame 열
MultiIndex(levels=[['경기', '서울'], ['F', 'M']],
           codes=[[1, 1, 0, 0], [1, 0, 1, 0]])


In [84]:
# 각 열과 색인별로 탐색 가능

print("색인 stat\n{0}\n\n열 서울\n{1}\n\n".format(df.loc["stat"], df["서울"]))
print("색인 econ, 서울, F\n{0}".format(df.loc["ecbon"]["서울"]["F"]))

색인 stat
  서울    경기   
   M  F  M  F
1  8  8  6  2
2  7  7  6  3
3  8  7  4  4

열 서울
        M  F
stat 1  8  8
     2  7  7
     3  8  7
econ 1  5  5
     2  6  8
comp 2  6  4
     3  3  6
     4  8  4
math 3  6  5
     4  2  9


색인 econ, 서울, F
1    5
2    8
Name: F, dtype: int32


In [124]:
# DataFrame 으로 추출해보면,

# 1차 색인 stat, 2차 색인 1,2
# 1차 색인 지역, 2차 색인 성별
df.loc[[("stat", 1), ("stat", 2)]][[("서울", "M"), ("경기", "M")]]

# 다음은 데이터프레임에서 허용하지 않는다
# df.loc[[("stat",[1:2])]]

Unnamed: 0_level_0,area,서울,경기
Unnamed: 0_level_1,gender,M,M
dept,cls,Unnamed: 2_level_2,Unnamed: 3_level_2
stat,1,8,6
stat,2,7,6


In [119]:
# 색인의 순서도 변경이 가능하다
# swaplevel 메소드를 사용함

print("색인 순서 변경\n{0}\n\n".format(df.swaplevel(i=1, j=0)))
print("색인 순서 변경 후 정렬\n{0}".format(df.swaplevel(i=1, j=0).sort_index(0)))

# 행별 정렬
df.swaplevel(i=1, j=0).sort_index(1)

색인 순서 변경
area     서울    경기   
gender    M  F  M  F
cls dept            
1   stat  8  8  6  2
2   stat  7  7  6  3
3   stat  8  7  4  4
1   econ  5  5  7  5
2   econ  6  8  5  6
    comp  6  4  4  6
3   comp  3  6  6  6
4   comp  8  4  8  4
3   math  6  5  7  8
4   math  2  9  5  6


색인 순서 변경 후 정렬
area     서울    경기   
gender    M  F  M  F
cls dept            
1   econ  5  5  7  5
    stat  8  8  6  2
2   comp  6  4  4  6
    econ  6  8  5  6
    stat  7  7  6  3
3   comp  3  6  6  6
    math  6  5  7  8
    stat  8  7  4  4
4   comp  8  4  8  4
    math  2  9  5  6


Unnamed: 0_level_0,area,경기,경기,서울,서울
Unnamed: 0_level_1,gender,F,M,F,M
cls,dept,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,stat,2,6,8,8
2,stat,3,6,7,7
3,stat,4,4,7,8
1,econ,5,7,5,5
2,econ,6,5,8,6
2,comp,6,4,4,6
3,comp,6,6,6,3
4,comp,4,8,4,8
3,math,8,7,5,6
4,math,6,5,9,2


##### 단계별 요약 통계량

* level 옵션으로 기술/요약통계에서 한 축에 대해 선택
* axis 옵션으로 축 선택

In [136]:
print("열별 전체 합계\n{0}\n\n".format(df.sum()))
print("학과별 합계\n{0}\n\n".format(df.sum(level=0)))
print("합계 depth 속성 으로 정렬\n{0}\n\n".format(df.sum(level="dept")))
print("학년별 합계\n{0}\n\n".format(df.sum(level="cls")))
print("행별 전체 힙계\n{0}".format(df.sum(axis=1)))

열별 전체 합계
area  gender
서울    M         59
      F         63
경기    M         58
      F         50
dtype: int64


학과별 합계
area    서울      경기    
gender   M   F   M   F
dept                  
stat    23  22  16   9
econ    11  13  12  11
comp    17  14  18  16
math     8  14  12  14


합계 depth 속성 으로 정렬
area    서울      경기    
gender   M   F   M   F
dept                  
stat    23  22  16   9
econ    11  13  12  11
comp    17  14  18  16
math     8  14  12  14


학년별 합계
area    서울      경기    
gender   M   F   M   F
cls                   
1       13  13  13   7
2       19  19  15  15
3       17  18  17  18
4       10  13  13  10


행별 전체 힙계
dept  cls
stat  1      24
      2      23
      3      23
econ  1      22
      2      25
comp  2      20
      3      21
      4      24
math  3      26
      4      22
dtype: int64


In [137]:
# level, axis 같이 사용해서 색인하기

print("지역별 합계\n{0}\n\n".format(df.sum(level=0, axis=1)))
print("성별별 합계\n{0}\n\n".format(df.sum(level=1, axis=1)))
# print("성별별 평균\n{0}\n\n".format(df.sum(level="gender", axis=1))) 와 동일한 표현

print("지역과 성별 합계\n{0}".format(df.describe()))

df.describe()

지역별 합계
area      서울  경기
dept cls        
stat 1    16   8
     2    14   9
     3    15   8
econ 1    10  12
     2    14  11
comp 2    10  10
     3     9  12
     4    12  12
math 3    11  15
     4    11  11


성별별 합계
gender     M   F
dept cls        
stat 1    14  10
     2    13  10
     3    12  11
econ 1    12  10
     2    11  14
comp 2    10  10
     3     9  12
     4    16   8
math 3    13  13
     4     7  15


지역과 성별 합계
area           서울                    경기           
gender          M          F          M          F
count   10.000000  10.000000  10.000000  10.000000
mean     5.900000   6.300000   5.800000   5.000000
std      2.078995   1.766981   1.316561   1.763834
min      2.000000   4.000000   4.000000   2.000000
25%      5.250000   5.000000   5.000000   4.000000
50%      6.000000   6.500000   6.000000   5.500000
75%      7.750000   7.750000   6.750000   6.000000
max      8.000000   9.000000   8.000000   8.000000


area,서울,서울,경기,경기
gender,M,F,M,F
count,10.0,10.0,10.0,10.0
mean,5.9,6.3,5.8,5.0
std,2.078995,1.766981,1.316561,1.763834
min,2.0,4.0,4.0,2.0
25%,5.25,5.0,5.0,4.0
50%,6.0,6.5,6.0,5.5
75%,7.75,7.75,6.75,6.0
max,8.0,9.0,8.0,8.0


##### DataFrame의 열 사용

* set_index 메소드 : 열 색인을 행으로 옮긴다.
* reset_index 메소드 : 재정렬(열>행) 했던 색인을 다시 원상태로 돌린다. 

In [143]:
np.random.seed(123789)
data=np.random.binomial(n=10, p=0.6, size=30).reshape(10,3)
df=DataFrame(data, columns=["V1", "V2", "V3"])
df["V4"]=["M", "F", "M", "M", "M", "F", "M", "F", "F", "M"]
df

Unnamed: 0,V1,V2,V3,V4
0,8,8,6,M
1,2,7,7,F
2,6,3,8,M
3,7,4,4,M
4,5,5,7,M
5,5,6,8,F
6,5,6,6,M
7,4,4,6,F
8,3,6,6,F
9,6,8,4,M


In [142]:
# 열 색인을 행 색인으로 바꿀 때, set_index 에 해당 열을 입력해줘서 index로 바꿔준다.

df1=df.set_index(keys=["V2", "V4"]).sort_index()
print("V2, V4 열 색인을 행 색인으로\n{0}".format(df1))
df1

V2, V4 열 색인을 행 색인으로
       V1  V3
V2 V4        
3  M    6   8
4  F    4   6
   M    7   4
5  M    5   7
6  F    5   8
   F    3   6
   M    5   6
7  F    2   7
8  M    8   6
   M    6   4


Unnamed: 0_level_0,Unnamed: 1_level_0,V1,V3
V2,V4,Unnamed: 2_level_1,Unnamed: 3_level_1
3,M,6,8
4,F,4,6
4,M,7,4
5,M,5,7
6,F,5,8
6,F,3,6
6,M,5,6
7,F,2,7
8,M,8,6
8,M,6,4


In [149]:
# 행 색인으로 재정렬된 색인을 다시 열 정렬로 돌리고 싶을때, reset_index를 사용
# V4 색인을 다시 열 색인으로 돌려놓기

df2=df1.reset_index(level="V4")
print("V4 행 색인을 다시 열 색인으로\n{0}".format(df2))
df2

V4 행 색인을 다시 열 색인으로
   V4  V1  V3
V2           
3   M   6   8
4   F   4   6
4   M   7   4
5   M   5   7
6   F   5   8
6   F   3   6
6   M   5   6
7   F   2   7
8   M   8   6
8   M   6   4


Unnamed: 0_level_0,V4,V1,V3
V2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,M,6,8
4,F,4,6
4,M,7,4
5,M,5,7
6,F,5,8
6,F,3,6
6,M,5,6
7,F,2,7
8,M,8,6
8,M,6,4
