##### 공분산과 상관계수

두 변수의 '선형관계'를 나타내는 공분산과 상관계수

* cov() : 두 변수의 공분산 또는 여러 변수의 공분산 행렬
* corr() : 두 변수의 상관계쑤 또는 여러 변수의 상관계수 행렬
* corrwith() : 특정 변수와 다른 변수들 간의 상관계수

상관계수 : 양의 상관 / 무상관 / 음의 상관관계

    * cov(x,y) > 0 : x가 증가할때 y도 증가
    * cov(x,y) > 0 : x가 증가할때 y는 감소
    * cov(x,y) = 0 : 두 변수간 '선형관계'가 없음. 서로 독립적인 관계
        * 그러나 항상 두 변수가 독립적이라고는 볼 수 없음
        
공분산 : (x의 편차)(y의 편차), 둘을 곱한 것의 평균

    * 공분산의 문제점 : X와 Y 단위 크기에 영향을 받게 됨
        * x,y의 크기가 10이면 상관성은 높지만 공분산은 작음
        * x,y의 크기가 1000이면 상관성은 낮지만 공분산은 큼
        
이런 문제를 보완하기위해 나온 것이 *"상관계수(Correlation)"*

    * 크기에 영향을 받지 않기위해 나온 개념으로, 분산의 크기만큼 나눴다고 생각하면 됨

###### 상관계수


1. 상관계수의 절대값은 1을 넘을 수 없다.

2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.

3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.

    양의 선형관계면 1, 음의 선형관계면 -1

In [3]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [19]:
steel_data=np.loadtxt("C:/Users/Affinity/Downloads/Python_Data/ch02_data/steel.txt",skiprows=5, delimiter="\t")
df=DataFrame(steel_data, columns=["y","x1","x2"])
print("DataFrame\n{0}\n".format(df))

# 공분산 값을 넣어주자
df["x21"]=df.x2*10
df

DataFrame
       y     x1    x2
0   81.4  195.0  57.0
1  122.2  179.0  61.0
2  101.7  205.0  60.0
3  175.6  204.0  62.0
4  150.3  201.0  61.0
5   64.8  184.0  54.0
6   92.1  210.0  58.0
7  113.8  209.0  61.0



Unnamed: 0,y,x1,x2,x21
0,81.4,195.0,57.0,570.0
1,122.2,179.0,61.0,610.0
2,101.7,205.0,60.0,600.0
3,175.6,204.0,62.0,620.0
4,150.3,201.0,61.0,610.0
5,64.8,184.0,54.0,540.0
6,92.1,210.0,58.0,580.0
7,113.8,209.0,61.0,610.0


In [24]:
# 공분산, 공분산 행렬

print("x1과 y의 공분산\n{0}\n".format(df.x1.cov(df.y)))
print("공분산행렬\n{0}".format(df.cov()))

df.cov()

# 공분산을 구하면, 대칭으로 각 값들이 같은걸 볼 수 있음
# 그래서 공분산 값은 행렬에서 대각선으로 나눈 부분중 한쪽만 봐도 된다.

x1과 y의 공분산
108.85535714285713

공분산행렬
               y          x1         x2         x21
y    1325.868393  108.855357  85.246429  852.464286
x1    108.855357  131.982143  11.178571  111.785714
x2     85.246429   11.178571   7.357143   73.571429
x21   852.464286  111.785714  73.571429  735.714286


Unnamed: 0,y,x1,x2,x21
y,1325.868393,108.855357,85.246429,852.464286
x1,108.855357,131.982143,11.178571,111.785714
x2,85.246429,11.178571,7.357143,73.571429
x21,852.464286,111.785714,73.571429,735.714286


In [26]:
# 상관계수, 상관계수 행렬

print("x1과 y의 상관계수\n{0}\n".format(df.x1.corr(df.y)))
print("상관계수 행렬\n{0}\n".format(df.corr()))
print("y와 x1, x2의 상관계수 행렬\n{0}".format(df.corrwith(df.y)))

df.corr()

# 상관계수값 추출시, 0~1 사이의 값으로 비교가 가능함

x1과 y의 상관계수
0.2602208017100887

상관계수 행렬
            y        x1        x2       x21
y    1.000000  0.260221  0.863120  0.863120
x1   0.260221  1.000000  0.358735  0.358735
x2   0.863120  0.358735  1.000000  1.000000
x21  0.863120  0.358735  1.000000  1.000000

y와 x1, x2의 상관계수 행렬
y      1.000000
x1     0.260221
x2     0.863120
x21    0.863120
dtype: float64


Unnamed: 0,y,x1,x2,x21
y,1.0,0.260221,0.86312,0.86312
x1,0.260221,1.0,0.358735,0.358735
x2,0.86312,0.358735,1.0,1.0
x21,0.86312,0.358735,1.0,1.0


##### 유일 값, 값 세기

* isin() : Series의 각 원소가 특정 원소를 포함하는지 체크
* unique() : Series에서 중복된 값을 제거하고 유일한 값만 배열로 반환
* value_counts() : Series에서 유일한 값에 대한 색인과 도수를 반환

In [5]:
s=Series([22,13,14,22,14,11,14])
print("Series\n{0}".format(s))

Series
0    22
1    13
2    14
3    22
4    14
5    11
6    14
dtype: int64


In [10]:
# 각 메소드들의 출력 특징

print("Series 유일값\n{0}\n".format(s.unique()))
print("Series 유일값 빈도\n{0}\n".format(s.value_counts()))
print("Series [10, 14] 존재여부\n{0}".format(s.isin([10, 14])))

Series 유일값
[22 13 14 11]

Series 유일값 빈도
14    3
22    2
13    1
11    1
dtype: int64

Series [10, 14] 존재여부
0    False
1    False
2     True
3    False
4     True
5    False
6     True
dtype: bool


In [47]:
# dictionary 형 자료가 주어졌을 때, 각 열의 값들을 비교해보자.

data={"att":[10,9,10,10,8],"hw":[10,8,10,10,8],"mid":[25,29,25,27,30],"fin":[29,25,28,25,27]}
df=DataFrame(data, index=["st1", "st2", "st3", "st4", "st5"])
print("DataFrame\n{0}\n".format(df))
print("열 att의 유일값\n{0}\n".format(df.att.unique()))
print("열 att의 유일값 빈도\n{0}\n".format(df.att.value_counts()))

# result=df.apply(pd.value_counts).fillna(0)
result=df.apply(pd.value_counts)
result
result.fillna(0)

DataFrame
     att  hw  mid  fin
st1   10  10   25   29
st2    9   8   29   25
st3   10  10   25   28
st4   10  10   27   25
st5    8   8   30   27

열 att의 유일값
[10  9  8]

열 att의 유일값 빈도
10    3
9     1
8     1
Name: att, dtype: int64



Unnamed: 0,att,hw,mid,fin
8,1.0,2.0,0.0,0.0
9,1.0,0.0,0.0,0.0
10,3.0,3.0,0.0,0.0
25,0.0,0.0,2.0,2.0
27,0.0,0.0,1.0,1.0
28,0.0,0.0,0.0,1.0
29,0.0,0.0,1.0,1.0
30,0.0,0.0,1.0,0.0


In [30]:
print("각 열별 유일값 빈도\n{0}\n".format(df.apply(pd.value_counts)))
print("각 열별 유일값 빈도\n{0}".format(df.apply(pd.value_counts).fillna(0)))

각 열별 유일값 빈도
    att   hw  mid  fin
8   1.0  2.0  NaN  NaN
9   1.0  NaN  NaN  NaN
10  3.0  3.0  NaN  NaN
25  NaN  NaN  2.0  2.0
27  NaN  NaN  1.0  1.0
28  NaN  NaN  NaN  1.0
29  NaN  NaN  1.0  1.0
30  NaN  NaN  1.0  NaN

각 열별 유일값 빈도
    att   hw  mid  fin
8   1.0  2.0  0.0  0.0
9   1.0  0.0  0.0  0.0
10  3.0  3.0  0.0  0.0
25  0.0  0.0  2.0  2.0
27  0.0  0.0  1.0  1.0
28  0.0  0.0  0.0  1.0
29  0.0  0.0  1.0  1.0
30  0.0  0.0  1.0  0.0


### 누락된 데이터 처리

##### 누락된 데이터

* pandas 에선 누락값을 NaN으로 처리, 파이썬의 내장 None 값 또한 NA로 취급

* dropna() : 누락된 자료가 있는 축(행,열)을 제외
    * 어느 정도의누락 데이터까지 요인할 건지 지정 가능
* fillna() : 누락값을 대신 채울 것을 지정 (ffill,bfill 처럼 보간 지정 가능)
* isnull() : 누락되거나 NA인 값인지 체크
* notnull()

##### dropna

Series : 누락된 값을 제거하고 반환함

DataFrame : 적어도 하나의 열에 누락된 값이 포함되어있는 그 행을 삭제

    * how = "all" 옵션 적용하면 모든 열이 누락된 값인 행을 삭제한다.
    * 몇개 이상의 값이 들어있는 행만 선택하고 싶으면 "thresh" 옵션 지정

In [31]:
from numpy import nan as NA

s=Series([7,5,6,7,10,NA,5,4,NA,None])
print("Series\n{0}\n\nNA제거\n{1}".format(s, s.dropna()))

Series
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5     NaN
6     5.0
7     4.0
8     NaN
9     NaN
dtype: float64

NA제거
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
6     5.0
7     4.0
dtype: float64


In [36]:
data={"att":[10,9,NA,10,8],"hw":[10,8,NA,NA,8],"mid":[NA,29,NA,27,30],
      "fin":[29,25,NA,25,27]}
df=DataFrame(data, index=["st1", "st2", "st3", "st4", "st5"])
print("DataFrame\n{0}\n\nNA가 있는 행 제거\n{1}\n".format(df, df.dropna()))
print("모든 열이 NA인 행 제거\n{0}\n".format(df.dropna(how="all")))
print("값이 4개 이상 입력된 열\n{0}".format(df.dropna(axis=1, thresh=4)))

DataFrame
      att    hw   mid   fin
st1  10.0  10.0   NaN  29.0
st2   9.0   8.0  29.0  25.0
st3   NaN   NaN   NaN   NaN
st4  10.0   NaN  27.0  25.0
st5   8.0   8.0  30.0  27.0

NA가 있는 행 제거
     att   hw   mid   fin
st2  9.0  8.0  29.0  25.0
st5  8.0  8.0  30.0  27.0

모든 열이 NA인 행 제거
      att    hw   mid   fin
st1  10.0  10.0   NaN  29.0
st2   9.0   8.0  29.0  25.0
st4  10.0   NaN  27.0  25.0
st5   8.0   8.0  30.0  27.0

값이 4개 이상 입력된 열
      att   fin
st1  10.0  29.0
st2   9.0  25.0
st3   NaN   NaN
st4  10.0  25.0
st5   8.0  27.0


##### fillna

* 대신할 값을 '사전'으로 지정


* method 옵션 : ffill / bfill 채우기
* inplace=True 옵션 : 복사본을 생성하지 않고 현재 객체 변경
* limit 옵션 : 앞/뒤에서 몇개까지 값을 채울지 지정

In [45]:
s=Series([7,5,6,7,10,NA,5,4,NA,None])
print("Series\n{0}\n\nNA->0\n{1}".format(s, s.fillna(value=0)))

Series
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5     NaN
6     5.0
7     4.0
8     NaN
9     NaN
dtype: float64

NA->0
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5     0.0
6     5.0
7     4.0
8     0.0
9     0.0
dtype: float64


In [49]:
# method = ffill / bfill

print("NA->앞쪽 값(최대 1개)\n{0}\n".format(s.fillna(method="ffill", limit=1)))
print("NA->뒤쪽 값(최대 1개)\n{0}\n".format(s.fillna(method="bfill", limit=1)))

NA->앞쪽 값(최대 1개)
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5    10.0
6     5.0
7     4.0
8     4.0
9     NaN
dtype: float64

NA->뒤쪽 값(최대 1개)
0     7.0
1     5.0
2     6.0
3     7.0
4    10.0
5     5.0
6     5.0
7     4.0
8     NaN
9     NaN
dtype: float64



In [52]:
# DataFrame 에서의 적용

data={"att":[10,9,NA,10,8],"hw":[10,8,NA,NA,8],"mid":[NA,29,NA,27,30],
      "fin":[29,25,NA,25,27]}
df=DataFrame(data, index=["st1", "st2", "st3", "st4", "st5"])
print("DataFrame\n{0}\n\nNA->0\n{1}".format(df, df.fillna(0)))

df
df.fillna(0)

DataFrame
      att    hw   mid   fin
st1  10.0  10.0   NaN  29.0
st2   9.0   8.0  29.0  25.0
st3   NaN   NaN   NaN   NaN
st4  10.0   NaN  27.0  25.0
st5   8.0   8.0  30.0  27.0

NA->0
      att    hw   mid   fin
st1  10.0  10.0   0.0  29.0
st2   9.0   8.0  29.0  25.0
st3   0.0   0.0   0.0   0.0
st4  10.0   0.0  27.0  25.0
st5   8.0   8.0  30.0  27.0


Unnamed: 0,att,hw,mid,fin
st1,10.0,10.0,0.0,29.0
st2,9.0,8.0,29.0,25.0
st3,0.0,0.0,0.0,0.0
st4,10.0,0.0,27.0,25.0
st5,8.0,8.0,30.0,27.0


In [60]:
# 특정 행/열을 특정 값으로 채워넣기

print("열 att NA->0, mid NA->5\n{0}\n".format(df.fillna({"att":0, "mid":5})))
print("각 열의 평균값\n{0}\n".format(df.mean()))
print("NA->각 열의 평균값\n{0}".format(df.fillna(df.mean())))

df.fillna({"att":0, "mid":5})

열 att NA->0, mid NA->5
      att    hw   mid   fin
st1  10.0  10.0   5.0  29.0
st2   9.0   8.0  29.0  25.0
st3   0.0   NaN   5.0   NaN
st4  10.0   NaN  27.0  25.0
st5   8.0   8.0  30.0  27.0

각 열의 평균값
att     9.250000
hw      8.666667
mid    28.666667
fin    26.500000
dtype: float64

NA->각 열의 평균값
       att         hw        mid   fin
st1  10.00  10.000000  28.666667  29.0
st2   9.00   8.000000  29.000000  25.0
st3   9.25   8.666667  28.666667  26.5
st4  10.00   8.666667  27.000000  25.0
st5   8.00   8.000000  30.000000  27.0


Unnamed: 0,att,hw,mid,fin
st1,10.0,10.0,5.0,29.0
st2,9.0,8.0,29.0,25.0
st3,0.0,,5.0,
st4,10.0,,27.0,25.0
st5,8.0,8.0,30.0,27.0


### 계층적 색인

##### 계층적 색인

축에 대해서, 2개 이상의 다중 색인을 지정할 수 있다.

In [62]:
# 계층적 색인이란?

s=Series(np.random.binomial(n=10, p=0.4, size=10), index=[["stat", "stat", "stat", "econ", "econ", 
                                                           "comp", "comp", "comp", "math", "math"],
                                                          [1,2,3,1,2,2,3,4,3,4]])
print("Series\n{0}\n\nSeries 색인\n{1}".format(s, s.index))

# stat에 1,2,3 배분, econ에 1,2 배분, comp에 2,3,4 배분, math에 3,4 배분
# levels, codes 의 두 가지 색인이 생긴 것을 볼 수 있음.

Series
stat  1    1
      2    5
      3    2
econ  1    2
      2    3
comp  2    4
      3    4
      4    3
math  3    4
      4    6
dtype: int32

Series 색인
MultiIndex(levels=[['comp', 'econ', 'math', 'stat'], [1, 2, 3, 4]],
           codes=[[3, 3, 3, 1, 1, 0, 0, 0, 2, 2], [0, 1, 2, 0, 1, 1, 2, 3, 2, 3]])


In [92]:
# 시리즈에서 상위, 하위계층을 바로 지정할 수도 있음

# stat 색인 중 2라는 색인만, math 색인 중 3이라는 색인 만 바로 추출
s[[("stat", 2),("math", 3)]]

stat  2    5
math  3    4
dtype: int32

In [67]:
print("하위색인 2\n{0}\n".format(s[:,2]))
print("색인 stat, comp 하위색인 2\n{0}".format(s[["stat", "comp"]][:,2]))

# 각 열별 색인 2인 값만 추출해서 준다

하위색인 2
stat    5
econ    3
comp    4
dtype: int32

색인 stat, comp 하위색인 2
stat    5
comp    4
dtype: int32


In [100]:
# 중첩 색인/해제
# 대부분 색인에서는 중복값을 굳이 막지는 않는데, 중첩되는 색인 자체를 차단할 수 있음

# unstack 을 해서 Series 를 DataFrame 화 시킴
print("중첩 해제\n{0}\n".format(s.unstack()))
# 다시 Series 형태로 돌리기
print("중첩 설정\n{0}\n".format(s.unstack().stack()))

s.unstack()

중첩 해제
        1    2    3    4
comp  NaN  4.0  4.0  3.0
econ  2.0  3.0  NaN  NaN
math  NaN  NaN  4.0  6.0
stat  1.0  5.0  2.0  NaN

중첩 설정
comp  2    4.0
      3    4.0
      4    3.0
econ  1    2.0
      2    3.0
math  3    4.0
      4    6.0
stat  1    1.0
      2    5.0
      3    2.0
dtype: float64



Unnamed: 0,1,2,3,4
comp,,4.0,4.0,3.0
econ,2.0,3.0,,
math,,,4.0,6.0
stat,1.0,5.0,2.0,


In [117]:
# 색인이 여러가지일때 계층적 색인

np.random.seed(123789)
data=np.random.binomial(n=10, p=0.6, size=40).reshape(10,4)
data

df=DataFrame(data, index=[["stat", "stat", "stat", "econ", "econ", 
                           "comp", "comp", "comp", "math", "math"],
                          [1,2,3,1,2,2,3,4,3,4]],
            columns=[["서울", "서울", "경기", "경기"], ["M", "F", "M", "F"]])

# 각 행,열의 계층 순서 지정
df.index.names=["dept", "cls"] # 행 색인에 대한 설명, 0번째 index는 dept, 1번째는 cls
df.columns.names=["area", "gender"] # 열 색인에 대한 설명, 0번째 columns는 area, 1번째는 gender
print("DataFrame\n{0}\n\nDataFrame 색인\n{1}\n\nDataFrame 열\n{2}".format(df, df.index, df.columns))

df

DataFrame
area     서울    경기   
gender    M  F  M  F
dept cls            
stat 1    8  8  6  2
     2    7  7  6  3
     3    8  7  4  4
econ 1    5  5  7  5
     2    6  8  5  6
comp 2    6  4  4  6
     3    3  6  6  6
     4    8  4  8  4
math 3    6  5  7  8
     4    2  9  5  6

DataFrame 색인
MultiIndex(levels=[['comp', 'econ', 'math', 'stat'], [1, 2, 3, 4]],
           codes=[[3, 3, 3, 1, 1, 0, 0, 0, 2, 2], [0, 1, 2, 0, 1, 1, 2, 3, 2, 3]],
           names=['dept', 'cls'])

DataFrame 열
MultiIndex(levels=[['경기', '서울'], ['F', 'M']],
           codes=[[1, 1, 0, 0], [1, 0, 1, 0]],
           names=['area', 'gender'])


Unnamed: 0_level_0,area,서울,서울,경기,경기
Unnamed: 0_level_1,gender,M,F,M,F
dept,cls,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
stat,1,8,8,6,2
stat,2,7,7,6,3
stat,3,8,7,4,4
econ,1,5,5,7,5
econ,2,6,8,5,6
comp,2,6,4,4,6
comp,3,3,6,6,6
comp,4,8,4,8,4
math,3,6,5,7,8
math,4,2,9,5,6


In [79]:
print("DataFrame 색인\n{0}\n\nDataFrame 열\n{1}".format(df.index, df.columns))

DataFrame 색인
MultiIndex(levels=[['comp', 'econ', 'math', 'stat'], [1, 2, 3, 4]],
           codes=[[3, 3, 3, 1, 1, 0, 0, 0, 2, 2], [0, 1, 2, 0, 1, 1, 2, 3, 2, 3]])

DataFrame 열
MultiIndex(levels=[['경기', '서울'], ['F', 'M']],
           codes=[[1, 1, 0, 0], [1, 0, 1, 0]])


In [84]:
# 각 열과 색인별로 탐색 가능

print("색인 stat\n{0}\n\n열 서울\n{1}\n\n".format(df.loc["stat"], df["서울"]))
print("색인 econ, 서울, F\n{0}".format(df.loc["ecbon"]["서울"]["F"]))

색인 stat
  서울    경기   
   M  F  M  F
1  8  8  6  2
2  7  7  6  3
3  8  7  4  4

열 서울
        M  F
stat 1  8  8
     2  7  7
     3  8  7
econ 1  5  5
     2  6  8
comp 2  6  4
     3  3  6
     4  8  4
math 3  6  5
     4  2  9


색인 econ, 서울, F
1    5
2    8
Name: F, dtype: int32


In [124]:
# DataFrame 으로 추출해보면,

# 1차 색인 stat, 2차 색인 1,2
# 1차 색인 지역, 2차 색인 성별
df.loc[[("stat", 1), ("stat", 2)]][[("서울", "M"), ("경기", "M")]]

# 다음은 데이터프레임에서 허용하지 않는다
# df.loc[[("stat",[1:2])]]

Unnamed: 0_level_0,area,서울,경기
Unnamed: 0_level_1,gender,M,M
dept,cls,Unnamed: 2_level_2,Unnamed: 3_level_2
stat,1,8,6
stat,2,7,6


In [119]:
# 색인의 순서도 변경이 가능하다
# swaplevel 메소드를 사용함

print("색인 순서 변경\n{0}\n\n".format(df.swaplevel(i=1, j=0)))
print("색인 순서 변경 후 정렬\n{0}".format(df.swaplevel(i=1, j=0).sort_index(0)))

# 행별 정렬
df.swaplevel(i=1, j=0).sort_index(1)

색인 순서 변경
area     서울    경기   
gender    M  F  M  F
cls dept            
1   stat  8  8  6  2
2   stat  7  7  6  3
3   stat  8  7  4  4
1   econ  5  5  7  5
2   econ  6  8  5  6
    comp  6  4  4  6
3   comp  3  6  6  6
4   comp  8  4  8  4
3   math  6  5  7  8
4   math  2  9  5  6


색인 순서 변경 후 정렬
area     서울    경기   
gender    M  F  M  F
cls dept            
1   econ  5  5  7  5
    stat  8  8  6  2
2   comp  6  4  4  6
    econ  6  8  5  6
    stat  7  7  6  3
3   comp  3  6  6  6
    math  6  5  7  8
    stat  8  7  4  4
4   comp  8  4  8  4
    math  2  9  5  6


Unnamed: 0_level_0,area,경기,경기,서울,서울
Unnamed: 0_level_1,gender,F,M,F,M
cls,dept,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,stat,2,6,8,8
2,stat,3,6,7,7
3,stat,4,4,7,8
1,econ,5,7,5,5
2,econ,6,5,8,6
2,comp,6,4,4,6
3,comp,6,6,6,3
4,comp,4,8,4,8
3,math,8,7,5,6
4,math,6,5,9,2


##### 단계별 요약 통계량

* level 옵션으로 기술/요약통계에서 한 축에 대해 선택
* axis 옵션으로 축 선택

In [136]:
print("열별 전체 합계\n{0}\n\n".format(df.sum()))
print("학과별 합계\n{0}\n\n".format(df.sum(level=0)))
print("합계 depth 속성 으로 정렬\n{0}\n\n".format(df.sum(level="dept")))
print("학년별 합계\n{0}\n\n".format(df.sum(level="cls")))
print("행별 전체 힙계\n{0}".format(df.sum(axis=1)))

열별 전체 합계
area  gender
서울    M         59
      F         63
경기    M         58
      F         50
dtype: int64


학과별 합계
area    서울      경기    
gender   M   F   M   F
dept                  
stat    23  22  16   9
econ    11  13  12  11
comp    17  14  18  16
math     8  14  12  14


합계 depth 속성 으로 정렬
area    서울      경기    
gender   M   F   M   F
dept                  
stat    23  22  16   9
econ    11  13  12  11
comp    17  14  18  16
math     8  14  12  14


학년별 합계
area    서울      경기    
gender   M   F   M   F
cls                   
1       13  13  13   7
2       19  19  15  15
3       17  18  17  18
4       10  13  13  10


행별 전체 힙계
dept  cls
stat  1      24
      2      23
      3      23
econ  1      22
      2      25
comp  2      20
      3      21
      4      24
math  3      26
      4      22
dtype: int64


In [137]:
# level, axis 같이 사용해서 색인하기

print("지역별 합계\n{0}\n\n".format(df.sum(level=0, axis=1)))
print("성별별 합계\n{0}\n\n".format(df.sum(level=1, axis=1)))
# print("성별별 평균\n{0}\n\n".format(df.sum(level="gender", axis=1))) 와 동일한 표현

print("지역과 성별 합계\n{0}".format(df.describe()))

df.describe()

지역별 합계
area      서울  경기
dept cls        
stat 1    16   8
     2    14   9
     3    15   8
econ 1    10  12
     2    14  11
comp 2    10  10
     3     9  12
     4    12  12
math 3    11  15
     4    11  11


성별별 합계
gender     M   F
dept cls        
stat 1    14  10
     2    13  10
     3    12  11
econ 1    12  10
     2    11  14
comp 2    10  10
     3     9  12
     4    16   8
math 3    13  13
     4     7  15


지역과 성별 합계
area           서울                    경기           
gender          M          F          M          F
count   10.000000  10.000000  10.000000  10.000000
mean     5.900000   6.300000   5.800000   5.000000
std      2.078995   1.766981   1.316561   1.763834
min      2.000000   4.000000   4.000000   2.000000
25%      5.250000   5.000000   5.000000   4.000000
50%      6.000000   6.500000   6.000000   5.500000
75%      7.750000   7.750000   6.750000   6.000000
max      8.000000   9.000000   8.000000   8.000000


area,서울,서울,경기,경기
gender,M,F,M,F
count,10.0,10.0,10.0,10.0
mean,5.9,6.3,5.8,5.0
std,2.078995,1.766981,1.316561,1.763834
min,2.0,4.0,4.0,2.0
25%,5.25,5.0,5.0,4.0
50%,6.0,6.5,6.0,5.5
75%,7.75,7.75,6.75,6.0
max,8.0,9.0,8.0,8.0


##### DataFrame의 열 사용

* set_index 메소드 : 열 색인을 행으로 옮긴다.
* reset_index 메소드 : 재정렬(열>행) 했던 색인을 다시 원상태로 돌린다. 

In [143]:
np.random.seed(123789)
data=np.random.binomial(n=10, p=0.6, size=30).reshape(10,3)
df=DataFrame(data, columns=["V1", "V2", "V3"])
df["V4"]=["M", "F", "M", "M", "M", "F", "M", "F", "F", "M"]
df

Unnamed: 0,V1,V2,V3,V4
0,8,8,6,M
1,2,7,7,F
2,6,3,8,M
3,7,4,4,M
4,5,5,7,M
5,5,6,8,F
6,5,6,6,M
7,4,4,6,F
8,3,6,6,F
9,6,8,4,M


In [142]:
# 열 색인을 행 색인으로 바꿀 때, set_index 에 해당 열을 입력해줘서 index로 바꿔준다.

df1=df.set_index(keys=["V2", "V4"]).sort_index()
print("V2, V4 열 색인을 행 색인으로\n{0}".format(df1))
df1

V2, V4 열 색인을 행 색인으로
       V1  V3
V2 V4        
3  M    6   8
4  F    4   6
   M    7   4
5  M    5   7
6  F    5   8
   F    3   6
   M    5   6
7  F    2   7
8  M    8   6
   M    6   4


Unnamed: 0_level_0,Unnamed: 1_level_0,V1,V3
V2,V4,Unnamed: 2_level_1,Unnamed: 3_level_1
3,M,6,8
4,F,4,6
4,M,7,4
5,M,5,7
6,F,5,8
6,F,3,6
6,M,5,6
7,F,2,7
8,M,8,6
8,M,6,4


In [149]:
# 행 색인으로 재정렬된 색인을 다시 열 정렬로 돌리고 싶을때, reset_index를 사용
# V4 색인을 다시 열 색인으로 돌려놓기

df2=df1.reset_index(level="V4")
print("V4 행 색인을 다시 열 색인으로\n{0}".format(df2))
df2

V4 행 색인을 다시 열 색인으로
   V4  V1  V3
V2           
3   M   6   8
4   F   4   6
4   M   7   4
5   M   5   7
6   F   5   8
6   F   3   6
6   M   5   6
7   F   2   7
8   M   8   6
8   M   6   4


Unnamed: 0_level_0,V4,V1,V3
V2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,M,6,8
4,F,4,6
4,M,7,4
5,M,5,7
6,F,5,8
6,F,3,6
6,M,5,6
7,F,2,7
8,M,8,6
8,M,6,4


# 자료 불러오기, 다듬기

### 텍스트 파일 불러오기, 저장하기

##### 텍스트 파일 불러오기

* read_csv() : 파일, 파일 URL 로부터 읽어들인다. (구분자 : ",")
* read_table() : 파일, 파일 URL 로부터 읽어들인다. (구분자 : "\t")
* read_fwf() : 고정 열 입력방식 데이터 읽기
* read_clipboard() : 클립보드에 있는 데이터를 읽어오는 read_table 함수
    * 웹페이지의 표 가져오기에 유용

*read_csv()*

메소드 옵션
    * path : 파일 위치, 파일 이름
    * sep / delimiter : 열 구분 문자
    * header : 열 이름(색인)으로 사용할 skip 이후 줄 번호
    * index_col : 행 인덱스로 사용할 열 번호, 이름, 리스트
    * names : 열 이름으로 사용할 리스트
    * skiprows : 무시할 행의 수, 행 번호가 담긴 리스트
    * na_values : NA 값으로 처리할 값
    * comment : 주석으로 분류되어 파싱하지 않을 문자열
    * parse_date : 날짜를 datetime으로 변환할지 여부
    * keep_date_col : 여러 열을 datetime 으로 변환했을 때 원래 열을 남겨둘지 여부
    * converters : 열에 적용할 함수를 지정
    * date_parser : 날짜 변환시 사용할 함수
    * nrows : 파일을 몇 줄 읽을건지 지정
    * skip_footnote : 무시할 파일의 마지막 줄
    * encoding : 유니코드 인코딩 종류 지정
    * thousands : 숫자의 천 단위 구분기호

In [153]:
# import csv

from pandas import Series, DataFrame
from numpy import nan as NA
import pandas as pd
import numpy as np

df=pd.read_csv("C:/Users/Affinity/Downloads/Python_Data/ch02_data/APT.csv", header=0, skiprows=7, index_col="id", encoding="utf-8")
df.head(7)

# 누락값은 표시되지 않음. (빈 문자열로 출력된다.)

Unnamed: 0_level_0,Area,UseDistrict,Option,FAR,Price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
apt01,도심권,제2종 일반주거지역,풀옵션형,132.72,515.0519492
apt02,도심권,제2종 일반주거지역,풀옵션형,184.99,
apt03,,상업지역,기본형,,364.3195349
apt04,도심권,상업지역,풀옵션형,493.08,410.9455297
apt05,도심권,준주거지역,기본형,349.65,616.9759862
apt06,도심권,제3종 일반주거지역,풀옵션형,.,469.1517971
apt07,도심권,제3종 일반주거지역,풀옵션형,227.2,576.4762615


In [157]:
# Header를 None 으로 놓고
# index 번호는 맨 처음 0값으로 지정
# 공백과 . 표시 (구분자를 걸러내기 위함)은 NA으로 처리한다.

df=pd.read_csv("C:/Users/Affinity/Downloads/Python_Data/ch02_data/APT.csv", 
               names=["V1", "V2", "V3", "V4", "V5"], header=None, skiprows=7, index_col=0, encoding="utf-8", na_values=[" ","."])
df.head(7)

Unnamed: 0,V1,V2,V3,V4,V5
id,Area,UseDistrict,Option,FAR,Price
apt01,도심권,제2종 일반주거지역,풀옵션형,132.72,515.0519492
apt02,도심권,제2종 일반주거지역,풀옵션형,184.99,
apt03,,상업지역,기본형,,364.3195349
apt04,도심권,상업지역,풀옵션형,493.08,410.9455297
apt05,도심권,준주거지역,기본형,349.65,616.9759862
apt06,도심권,제3종 일반주거지역,풀옵션형,,469.1517971


##### 텍스트 파일 저장하기

* to_csv() : 데이터 프레임을 구분자 형식의 텍스트 파일로 저장 (구분자 : ",")

*to_csv()*

메소드 옵션
    * path : 파일 위치, 파일 이름
    * sep / delimiter : 열 구분 문자
    * na.rep : 누락된 값을 원하는 값으로 지정
    * index : 행 이름의 포함 여부 (기본값 : True)
    * header : 열 이름의 포함 여부 (기본값 : True)
    * columns : 내보낼 열 이름을 리스트로 저장



In [162]:
# to_csv

df.to_csv("C:/Users/Affinity/Downloads/Python_Data/ch02_data/APTsave2.txt",
          sep="|", na_rep="NULL", index=False, header=True, columns=["V1", "V4", "V5"])

'''
저장값

V1|V4|V5
Area|FAR|Price
도심권|132.72|515.0519492
도심권|184.99|NULL
NULL|NULL|364.3195349
도심권|493.08|410.9455297
도심권|349.65|616.9759862
도심권|NULL|469.1517971
도심권|227.2|576.4762615
도심권|254.37|355.8718861
동북권|199.93|423.8123398

이런식으로 txt 파일로 저장이됨
'''


##### 데이터 합치기

* merge() : 하나 이상의 키를 기준으로 DataFrame의 행을 합친다
    * 관계형 데이터 베이스의 JOIN과 유사함
    

*merge()*

메소드 옵션
    * left
    * right
    * how : 결합방법
        * left : 왼쪽의 모든 데이터 결합
        * right
        * outer : 양쪽의 모든 데이터 결합
        * inner : 기본값으로 양쪽에 기준값이 모두 있는경우, 교차하여 결합
    * on : 결합할 양쪽 DataFrame 의 기준변수
    * left_on : 결합할 왼쪽 DataFrame 의 기준변수
    * right_on : 결합할 오른쪽 DataFrame 의 기준변수
    * left_index : 왼쪽 DataFrame의 인덱스를 기준변수로 사용
    * right_index
    * sort : 병합된 데이터를 사전 순으로 정렬
    

In [171]:
df1=DataFrame({"key1":["b","b","a","c","a","a","b"], "V1":range(7)})
df2=DataFrame({"key2":["a","b","d"], "V2":range(2,5)})
print("df1\n{0}\n\ndf2\n{1}".format(df1, df2))

# 기준 변수의 이름이 서로 다른 경우, 각각 key 값을 써준다.
pd.merge(df1, df2, left_on="key1", right_on="key2")

df1
  key1  V1
0    b   0
1    b   1
2    a   2
3    c   3
4    a   4
5    a   5
6    b   6

df2
  key2  V2
0    a   2
1    b   3
2    d   4


Unnamed: 0,key1,V1,key2,V2
0,b,0,b,3
1,b,1,b,3
2,b,6,b,3
3,a,2,a,2
4,a,4,a,2
5,a,5,a,2


In [172]:
# 기준값이 없는 경우에는 how 옵션으로 결합여부 지정

pd.merge(df1, df2, left_on="key1", right_on="key2", how="outer")

Unnamed: 0,key1,V1,key2,V2
0,b,0.0,b,3.0
1,b,1.0,b,3.0
2,b,6.0,b,3.0
3,a,2.0,a,2.0
4,a,4.0,a,2.0
5,a,5.0,a,2.0
6,c,3.0,,
7,,,d,4.0


In [176]:
df1=DataFrame({"key1":["stat", "stat", "stat", "math", "math", "math"],
              "key2":[1,2,3,1,2,4], "V1":range(6)})
df2=DataFrame({"key1":["stat", "stat", "econ", "math", "math"],
              "key2":[1,2,3,1,4], "V2":range(10,15)})

# 각 데이터프레임에 똑같은 변수명이 있는 경우,
# V2로 위의 예제처럼 이름을 정혹하게 다르게 달아주거나,
# left_on 혹은 right_on 으로 어떤것을 기준점으로 쓸지 정해준다.

# 아래 출력값 : key1, key2를 기준으로 같은것만 결합시킴
print("df1\n{0}\n\ndf2\n{1}".format(df1, df2))
pd.merge(df1, df2, on=["key1", "key2"], how="outer", sort=True)

df1
   key1  key2  V1
0  stat     1   0
1  stat     2   1
2  stat     3   2
3  math     1   3
4  math     2   4
5  math     4   5

df2
   key1  key2  V2
0  stat     1  10
1  stat     2  11
2  econ     3  12
3  math     1  13
4  math     4  14


Unnamed: 0,key1,key2,V1,V2
0,econ,3,,12.0
1,math,1,3.0,13.0
2,math,2,4.0,
3,math,4,5.0,14.0
4,stat,1,0.0,10.0
5,stat,2,1.0,11.0
6,stat,3,2.0,


In [183]:
# key 변수로 사용할 변수명이 서로 다른 경우, on="변수명" 에서는 한꺼번에 지정이 불가함
# 이럴땐 왼쪽테이블은 left_on, 오른쪽테이블은 right_on 각각 기준변수명을 지정해준다.

df1=DataFrame({"key1":["b", "b", "a", "c", "a", "a", "b"], "V1":range(7)})
df2=DataFrame({"V1":range(10,13), "V2":range(2,5)}, index=["a", "b", "d"])

pd.merge(df1, df2, left_on=["key1"], right_index=True, how="outer", sort=True)

Unnamed: 0,key1,V1_x,V1_y,V2
2,a,2.0,10.0,2.0
4,a,4.0,10.0,2.0
5,a,5.0,10.0,2.0
0,b,0.0,11.0,3.0
1,b,1.0,11.0,3.0
6,b,6.0,11.0,3.0
3,c,3.0,,
6,d,,12.0,4.0


In [184]:
df1.join(df2, lsuffix='_left', rsuffix='_right', how="outer")

# suffix 메소드로 변수이름을 변경시켜준다.

Unnamed: 0,key1,V1_left,V1_right,V2
0,b,0.0,,
1,b,1.0,,
2,a,2.0,,
3,c,3.0,,
4,a,4.0,,
5,a,5.0,,
6,b,6.0,,
a,,,10.0,2.0
b,,,11.0,3.0
d,,,12.0,4.0


##### 축에 따라 데이터 합치기

* concat() : 하나의 축을 따라 객체를 이어 붙이기
   * NumPy의 concatenate 함수랑 유사함
  
메소드 옵션
    * objs : 이어붙일 pandas 객체의 리스트나 사전
    * axis : 이어붙일 축 방향 (기본값 : 0, 행)
    * join : 결합방식
        * inner, left, right, outer
    * join_axes: 합집합/교집합을 수행하는 대신 다른 n-1축으로 사용할 색인 지정
    * keys : 이어붙일 객체나 이어붙인 축에 대한 계층 색인을 생성하는데 연관된 값
    * names : keys나 levels가 있는 경우 생성된 계층 레벨을 위한 이름
    * verify_intergrity : 이어붙인(행 결합) 객체에 중복되는 색인이 있는지 검색, 있으면 예외 발생
    * ignore_index : 이어붙인 pandas 객체 축의 색인을 유지안하고 range(total length)로 새로운 색인 생성

In [189]:
s1=Series([0,2,3], index=["a", "b", "c"])
s2=Series([2,3,4,5], index=["a", "c", "d", "e"])
s3=Series([1,3], index=["e", "f"])

print("s1\n{0}\n\ns2\n{1}\n\ns2\n{2}\n\n".format(s1, s2, s3))

# concat
s4=pd.concat([s1, s2, s3])
print("s1, s2, s3 행 이어붙이기\n{0}\n\n".format(s4))
s5=pd.concat([s1, s2, s3], axis=1, sort=True)
print("s1, s2, s3 열 이어붙이기\n{0}\n\n".format(s5))

s1
a    0
b    2
c    3
dtype: int64

s2
a    2
c    3
d    4
e    5
dtype: int64

s2
e    1
f    3
dtype: int64


s1, s2, s3 행 이어붙이기
a    0
b    2
c    3
a    2
c    3
d    4
e    5
e    1
f    3
dtype: int64


s1, s2, s3 열 이어붙이기
     0    1    2
a  0.0  2.0  NaN
b  2.0  NaN  NaN
c  3.0  3.0  NaN
d  NaN  4.0  NaN
e  NaN  5.0  1.0
f  NaN  NaN  3.0




In [190]:
# 결합 조건에 따른 열 결합할때

pd.concat([s1,s2], axis=1, join="outer", sort=True)

Unnamed: 0,0,1
a,0.0,2.0
b,2.0,
c,3.0,3.0
d,,4.0
e,,5.0


In [191]:
pd.concat([s1,s2], axis=1, join="inner", sort=True)

Unnamed: 0,0,1
a,0,2
c,3,3


In [192]:
# 열 결합할 때 join 할 행을 선택할 수 있음

pd.concat([s1,s2], axis=1, join_axes=[["a", "b", "e"]], sort=True)

Unnamed: 0,0,1
a,0.0,2.0
b,2.0,
e,,5.0


In [193]:
# 행 결합(이어 연결하기)에서 계층 색인을 생성 가능함

pd.concat([s1,s2,s3], axis=0, keys=["S1", "S2", "S3"], sort=True)

S1  a    0
    b    2
    c    3
S2  a    2
    c    3
    d    4
    e    5
S3  e    1
    f    3
dtype: int64

In [194]:
# 이열 결합(merge)에서 열 색인 생성 가능

pd.concat([s1,s2,s3], axis=1, keys=["V1", "V2", "V3"], sort=True)

Unnamed: 0,V1,V2,V3
a,0.0,2.0,
b,2.0,,
c,3.0,3.0,
d,,4.0,
e,,5.0,1.0
f,,,3.0


In [233]:
# ignore_index : 기존의 index를 무시하고 새롭게 작성

pd.concat([s1,s2,s3], axis=1, keys=["V1", "V2", "V3"], sort=True, ignore_index=True)

Unnamed: 0,0,1,2
a,0.0,2.0,
b,2.0,,
c,3.0,3.0,
d,,4.0,
e,,5.0,1.0
f,,,3.0


In [199]:
# 열 결합시 각 계층 index 값에 별도의 이름 붙이기

pd.concat([df1,df2], axis=1, sort=True, keys=["DF1", "DF2"], names=["f", "s"], )

f,DF1,DF1,DF2,DF2
s,key1,V1,V1,V2
0,b,0.0,,
1,b,1.0,,
2,a,2.0,,
3,c,3.0,,
4,a,4.0,,
5,a,5.0,,
6,b,6.0,,
a,,,10.0,2.0
b,,,11.0,3.0
d,,,12.0,4.0


##### 중복제거

* dupicated() : 각 행이 중복인지 아닌지 확인
* drop_duplicates() : 중복된 행을 하나만 남기고 삭제한다
    
메소드 옵션
    * subset : 중복을 체크할 열 이름(생략하면 모든 열)
    * keep : first 또는 last를 제외하고 중복값을 True로 표기하거나 제거한다.

In [202]:
df=DataFrame({"name":["kim", "kim", "lee", "lee", "lee", "kim"], "score":[1,2,2,2,3,1]},)
df

Unnamed: 0,name,score
0,kim,1
1,kim,2
2,lee,2
3,lee,2
4,lee,3
5,kim,1


In [203]:
# 중복 자료를 체크한다

df.duplicated(subset="name")

0    False
1     True
2    False
3     True
4     True
5     True
dtype: bool

In [204]:
df.duplicated(subset="name", keep="last")

0     True
1     True
2     True
3     True
4    False
5    False
dtype: bool

In [205]:
df.drop_duplicates(subset="name", keep="last")

Unnamed: 0,name,score
4,lee,3
5,kim,1


##### 함수나 매핑을 이용한 데이터 변형

DataFrame의 열이나 Series, 배열안의 값을 기반으로 데이터 형태 변형

* map() : 옵션(인수)으로 사전이나 함수를 받아서 자료 변환

In [206]:
# map 메소드를 이용한 데이터 변형

df=DataFrame({"name":["kim", "lee", "bae", "cho", "kang"], "sex":[1,2,2,1,1],
             "home":["마포", "처인", "수지", "종로", "화곡"],
             "income":[250,195,325,210,274]})
num_to_str={1:"남", 2:"여"}
to_city={"마포":"서울", "화곡":"서울", "종로":"서울", "수지":"용인", "처인":"용인"}
df

Unnamed: 0,name,sex,home,income
0,kim,1,마포,250
1,lee,2,처인,195
2,bae,2,수지,325
3,cho,1,종로,210
4,kang,1,화곡,274


In [207]:
def f(x) :
    return x*0.015

df["gender"]=df["sex"].map(num_to_str)
df["city"]=df["home"].map(to_city)
df["remium"]=df["income"].map(f)
df

Unnamed: 0,name,sex,home,income,gender,city,remium
0,kim,1,마포,250,남,서울,3.75
1,lee,2,처인,195,여,용인,2.925
2,bae,2,수지,325,여,용인,4.875
3,cho,1,종로,210,남,서울,3.15
4,kang,1,화곡,274,남,서울,4.11


##### 값 치환하기

* fillna() 메소드와 같은 특정한 값을 다른 값들로 채우기 위한 작업
* map() 메소드는 한 객체 안에서 값의 부분집합을 변경하는데 사용
* replace() 메소드는 특정한 값을 지정하여 변경

In [209]:
df=DataFrame({"name":["kim", "lee", "bae", "cho", "kang"], "sex":[1,2,3,4,1],
             "home":["마포", np.nan, "수지", "종로", "화곡"],
             "income":[250,-999,325,210,np.inf]})
num_to_str={1:"남", 2:"여"}
to_city={"마포":"서울", "화곡":"서울", "종로":"서울", "수지":"용인", "처인":"용인"}
df

Unnamed: 0,name,sex,home,income
0,kim,1,마포,250.0
1,lee,2,,-999.0
2,bae,3,수지,325.0
3,cho,4,종로,210.0
4,kang,1,화곡,inf


In [210]:
df1=df.replace([np.nan, 3, 4],[9999, 1, 2])
df1

Unnamed: 0,name,sex,home,income
0,kim,1,마포,250.0
1,lee,2,9999,-999.0
2,bae,1,수지,325.0
3,cho,2,종로,210.0
4,kang,1,화곡,inf


In [211]:
df2=df.replace({"sex":{3:1, 4:2}, "income":{-999:np.nan, np.inf:np.nan}})
df2

Unnamed: 0,name,sex,home,income
0,kim,1,마포,250.0
1,lee,2,,
2,bae,1,수지,325.0
3,cho,2,종로,210.0
4,kang,1,화곡,


In [213]:
df3=df.replace({"home":np.nan, "income":np.nan}, np.inf)
df3

Unnamed: 0,name,sex,home,income
0,kim,1,마포,250.0
1,lee,2,inf,-999.0
2,bae,3,수지,325.0
3,cho,4,종로,210.0
4,kang,1,화곡,inf


##### 축 색인변경

함수나 새롭게 바꿀 값을 이용하여 축 색인을 변경한다.

In [223]:
df=DataFrame({"name":["kim", "lee", "bae", "cho", "kang"], "sex":[1,2,2,1,1],
             "home":["마포", "처인", "수지", "종로", "화곡"],
             "income":[250,195,325,210,274]})
df

Unnamed: 0,name,sex,home,income
0,kim,1,마포,250
1,lee,2,처인,195
2,bae,2,수지,325
3,cho,1,종로,210
4,kang,1,화곡,274


In [224]:
# map 메소드에 변경할 index나 column 값을 입력

df.index=df.index.map({0:"st1", 1:"st2", 2:"st3", 3:"st4", 4:"st5"})
df.columns=df.columns.map({"name":"fn", "sex":"gender", "home":"house", "income":"ic"})
df

Unnamed: 0,fn,gender,house,ic
st1,kim,1,마포,250
st2,lee,2,처인,195
st3,bae,2,수지,325
st4,cho,1,종로,210
st5,kang,1,화곡,274


In [229]:
# rename 메소드를 통해 일부 값만 변경 가능

df1=df.rename({"st1":"foreigner"}, columns={"fn":"name", "ic":"income"})
df1

Unnamed: 0,name,gender,house,income
foreigner,kim,1,마포,250
st2,lee,2,처인,195
st3,bae,2,수지,325
st4,cho,1,종로,210
st5,kang,1,화곡,274


In [230]:
# rename 메소드는 원본은 변화시키지 않지만,
# 끝에 inplace=True 를 달아주면 원본이 변환된다.

df.rename({"st1":"foreigner"}, columns={"fn":"name", "ic":"income"}, inplace=True)
df

Unnamed: 0,name,gender,house,income
foreigner,kim,1,마포,250
st2,lee,2,처인,195
st3,bae,2,수지,325
st4,cho,1,종로,210
st5,kang,1,화곡,274


##### 숫자 자료의 계급화

숫자 자료의 도수분포표 등을 작성하기 위한 계급화(범주화)

* cut() : 숫자 자료를 bins의 범위에 따라서 계급화
    * x : 수치 자료
    * bins : 계급의 구간 하한과 상한, 또는 계급의 수
    * right : 계급 범위의 상한값 포함(이하) 또는 미포함(미만) (기본값 : True)
    * labels : 각 계급의 이름 (기본값 : None)
    * include_lowest : 첫번째 계급의 하한값 포함(이상) 또는 미포함(초과) (기본값 : True)
    

* qcut() : 숫자 자료를 각 계급이 모두 동등한 백분율이 되도록 계급화
    * q : 동일한 백분율을 갖게 할 구간 수

### 자료의 유형

* 질적자료(qualitative data)  원칙적으로 숫자로 표시될 수 없는 자료
    * 측정 대상의 특성을 분류하거나, 확인할 목적으로 숫자를 부여하는 경우는 있지만, 그 숫자들이 양적인 크기를 나타내진 않음
    * 상표 구분, 성별 구분, 직업 구분 등

* 양적자료(수치형 자료) : 자료의 크기나 양을 숫자로 표현할 수 있음
    * 이산형 자료(discrete data) : 셀 수 있는 정수값으로 표현
    * 연속형 자료(continuous data) : 연속적인 양으로 표현됨
    * 불량품 개수, 결점수, 가구수 / 성적, 길이, 무게, 온도 등
    
* 범주형 자료 : 몇 개의 범주로 나누어진 자료
    * 명목형 자료(nominal data) : 성별, 성공여부, 혈액형 등 순서가 없이 단순히 분류를 목적으로 하는 척도
    * 순서형 자료(ordinal data) : 효과와 같이 명목척도면서 순서에 의미가 있는 척도
    

In [234]:
# rename 메소드를 이용해보자

np.random.seed(951753)
s=np.random.binomial(n=10, p=0.5, size=100) # B(10,0,5) 이항분포 난수 100개
cis=[0,2,4,6,8,10]
s

array([5, 5, 6, 6, 4, 3, 4, 5, 4, 7, 4, 5, 6, 2, 5, 8, 5, 8, 7, 4, 4, 4,
       2, 4, 6, 7, 2, 5, 5, 3, 6, 6, 5, 4, 6, 6, 5, 4, 6, 5, 3, 6, 1, 3,
       3, 3, 7, 3, 3, 5, 7, 6, 4, 4, 6, 0, 7, 5, 6, 6, 5, 5, 6, 3, 4, 5,
       8, 5, 5, 4, 7, 5, 6, 2, 7, 5, 7, 7, 7, 5, 4, 3, 6, 7, 5, 6, 4, 7,
       4, 4, 7, 3, 5, 6, 7, 6, 4, 3, 3, 4])

In [235]:
s_cis1=pd.cut(x=s, bins=cis, include_lowest=True, right=True)
print(s_cis1)
pd.value_counts(s_cis1)

[(4.0, 6.0], (4.0, 6.0], (4.0, 6.0], (4.0, 6.0], (2.0, 4.0], ..., (4.0, 6.0], (2.0, 4.0], (2.0, 4.0], (2.0, 4.0], (2.0, 4.0]]
Length: 100
Categories (5, interval[float64]): [(-0.001, 2.0] < (2.0, 4.0] < (4.0, 6.0] < (6.0, 8.0] < (8.0, 10.0]]


(4.0, 6.0]       43
(2.0, 4.0]       33
(6.0, 8.0]       18
(-0.001, 2.0]     6
(8.0, 10.0]       0
dtype: int64

In [236]:
s_cis2=pd.cut(x=s, bins=4, labels=["class1", "class2", "class3", "class4"])
print(s_cis2)
pd.value_counts(s_cis2)

# 출력값에 label 의 심층도를 부등호로 출력해줌

[class3, class3, class3, class3, class2, ..., class3, class2, class2, class2, class2]
Length: 100
Categories (4, object): [class1 < class2 < class3 < class4]


class3    43
class2    33
class4    18
class1     6
dtype: int64

In [4]:
np.random.seed(951753)
s=np.random.normal(loc=10, scale=3, size=100) # N(10,9) 정규분포 난수 100개
s

array([16.84597851,  6.29559577, 11.60574851, 11.67380946,  7.58254277,
        8.39198829, 10.15034522,  5.38470131, 12.37676603,  8.91763268,
        9.64793278,  3.04427807, 12.03370325, 10.06961827, 10.40436511,
       10.07587083,  9.01736979, 11.4294873 ,  8.17514719,  7.49739896,
       11.05917054, 10.55357363,  9.82037445,  8.84826737,  7.47786112,
       10.41103753, 11.83004637, 12.93475889,  5.30444147, 12.36234831,
       12.41362048, 12.61208533,  4.18394294, 13.33372972, 10.82784335,
       16.15882156, 11.47323951,  7.68598975,  9.60429937,  6.99866052,
       10.54014035, 10.83996244,  5.98393152,  7.61904983, 10.46724585,
       11.94271999, 13.22173926, 12.87336895, 15.57682996, 15.27831303,
        8.05765076, 11.45312033, 11.53477426,  5.58659858,  4.88037164,
       11.18161297, 10.52452878, 12.45181352,  9.29095435, 12.80998545,
        9.81803062, 13.2706521 , 13.10513362, 11.19156986, 14.48817529,
       12.33468243, 11.97457448,  9.19837254,  7.75809335,  6.43

In [5]:
# 계급 생성

s_cls1=pd.qcut(x=s, q=6) # 각각 동일한 비율을 가지는 계급을 6개 생성
print(s_cls1)
pd.value_counts(s_cls1)

[(12.543, 16.846], (3.043, 7.54], (11.535, 12.543], (11.535, 12.543], (7.54, 9.017], ..., (11.535, 12.543], (3.043, 7.54], (3.043, 7.54], (9.017, 10.425], (11.535, 12.543]]
Length: 100
Categories (6, interval[float64]): [(3.043, 7.54] < (7.54, 9.017] < (9.017, 10.425] < (10.425, 11.535] < (11.535, 12.543] < (12.543, 16.846]]


(12.543, 16.846]    17
(10.425, 11.535]    17
(7.54, 9.017]       17
(3.043, 7.54]       17
(11.535, 12.543]    16
(9.017, 10.425]     16
dtype: int64

##### 특이값 찾기와 제외하기

In [6]:
np.random.seed(91736482) # N(0,1) 표준정규분포 난수 500개
df=DataFrame(np.random.randn(500,4), columns=["V1", "V2", "V3", "V4"])
df.describe()

Unnamed: 0,V1,V2,V3,V4
count,500.0,500.0,500.0,500.0
mean,0.044333,0.009873,-0.026111,0.024771
std,0.989134,0.987818,1.056958,1.014426
min,-3.456706,-3.399291,-3.11252,-2.923952
25%,-0.675159,-0.617382,-0.744096,-0.663011
50%,0.068773,-0.016895,-0.027211,0.008867
75%,0.664647,0.693727,0.70934,0.715803
max,3.128487,2.538271,3.262756,3.528537


In [7]:
# V3 열 중에서 -3 미만 또는 3 초과

col=df["V3"]
col[np.abs(col)>3] # 절대값이 3 초과

84   -3.112520
90    3.262756
Name: V3, dtype: float64

In [14]:
# 변수 중에서 하나라도 -3 미만 또는 3 초과

df[(np.abs(df)>3).any(1)]
# any(0,2등등) 다른 숫자들을 쓰면 axis 존재하지 않는다고 에러발생

Unnamed: 0,V1,V2,V3,V4
74,3.128487,-0.220302,-1.611062,0.143425
84,-0.607007,-0.523714,-3.11252,0.448497
90,0.367416,-1.196249,3.262756,0.071504
131,1.465023,2.299033,0.212082,3.528537
207,1.284202,-3.399291,-0.144366,-1.869674
435,-3.456706,-0.569109,-0.966048,-1.557567


In [15]:
# 3 미만 > -3 또는 3 초과 > 3으로 변환해주기

df[(np.abs(df)>3)] = np.sign(df)*3
df.describe()

Unnamed: 0,V1,V2,V3,V4
count,500.0,500.0,500.0,500.0
mean,0.04499,0.010671,-0.026412,0.023714
std,0.985312,0.985214,1.054736,1.011037
min,-3.0,-3.0,-3.0,-2.923952
25%,-0.675159,-0.617382,-0.744096,-0.663011
50%,0.068773,-0.016895,-0.027211,0.008867
75%,0.664647,0.693727,0.70934,0.715803
max,3.0,2.538271,3.0,3.0


##### 표시자, 더미변수

더미변수 : 0과 1로 이루어진 변수 / 특정 값을 가지는 행은 1, 아니면 0

* get_dummies() : 변수의 자료를 이용하여 더미변수 생성

In [16]:
df=DataFrame({"name":["kim", "lee", "bae", "cho", "kang"], "sex":[1,2,2,1,1],
             "home":["마포", "처인", "수지", "종로", "화곡"],
             "income":[250,195,325,210,274]})
df

Unnamed: 0,name,sex,home,income
0,kim,1,마포,250
1,lee,2,처인,195
2,bae,2,수지,325
3,cho,1,종로,210
4,kang,1,화곡,274


In [17]:
# 성별에 따라서 더미변수 생성

sex_dummy = pd.get_dummies(df["sex"])
sex_dummy

Unnamed: 0,1,2
0,1,0
1,0,1
2,0,1
3,1,0
4,1,0


In [20]:
# prefix 를 지정한 변수명 생성

pd.get_dummies(df["income"], prefix="수입")

Unnamed: 0,수입_195,수입_210,수입_250,수입_274,수입_325
0,0,0,1,0,0
1,1,0,0,0,0
2,0,0,0,0,1
3,0,1,0,0,0
4,0,0,0,1,0


In [21]:
# 위의 성별 분류 더미와 조합

df.join(sex_dummy)

Unnamed: 0,name,sex,home,income,1,2
0,kim,1,마포,250,1,0
1,lee,2,처인,195,0,1
2,bae,2,수지,325,0,1
3,cho,1,종로,210,1,0
4,kang,1,화곡,274,1,0
