In [1]:
import pandas as pd
import numpy as np
from numpy.random import randn

# 데이터 관리

## 데이터 선택

### Slice - 이름 또는 인덱스를 이용한 선택
>* 슬라이스 기능을 이용해 DF의 특정 열 또는 행을 가져올 수 있음.
>* DF에 대괄호를 이용. 복수의 열을 슬라이스 할 겨웅, 열의 이름을 또 하나의 대괄호로 묶어서 표현
>* 콜론을 이용해 행의 범위로 가져오기 가능

### loc - 이름을 이용한 선택
>* 열과 행의 조건을 모두 제공해야 할 경우 loc 함수를 이용
>* loc
>> label의 이름을 이용해 선택
>* 대괄호 안에 [행,열] 순서로 입력
>* 슬라이스와 마찬가지로 콜론을 이용하여 범위 선택 가능

### iloc - 위치를 이용한 선택
>* loc와 마찬가지로 열과 행의 조건을 모두 제공해야 할 경우에 사용
>* 단, 행/열을 선택할 때 label의 이름/행의 이름이 아닌 위치를 이용
>* slice와 마찬가지로 행의 범위는 인덱스번호 앞을 의미

### 조건을 이용한 선택
>* 대괄호 안에 조건을 입력
>* query함수 이용
>> df.query('A<0') == df[df.A<0] 과 동일한 결과

### 실습 1 - 데이터 연결
> 정규분포에서 추출한 10개의 무작위 데이터로 loc,iloc,query등을 이용하여 데이터를 선택하라.
>>1. 데이터 구성하기
>>2. slice를 이용한 데이터 선택
>>3. loc,iloc을 이용한 데이터 선택
>>4. query를 이용한 데이터 선택

In [3]:
# 정규분포에서 추출한 10개의 무작위 데이터
np.random.seed(1234)
df = pd.DataFrame(randn(10, 4), columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,0.471435,-1.190976,1.432707,-0.312652
1,-0.720589,0.887163,0.859588,-0.636524
2,0.015696,-2.242685,1.150036,0.991946
3,0.953324,-2.021255,-0.334077,0.002118
4,0.405453,0.289092,1.321158,-1.546906
5,-0.202646,-0.655969,0.193421,0.553439
6,1.318152,-0.469305,0.675554,-1.817027
7,-0.183109,1.058969,-0.39784,0.337438
8,1.047579,1.045938,0.863717,-0.122092
9,0.124713,-0.322795,0.841675,2.390961


In [6]:
# 슬라이싱을 이용하여 DF를 얻고, loc을 이용하여 데이터 선택
df[['A','C']].loc[3:10:2]

Unnamed: 0,A,C
3,0.953324,-0.334077
5,-0.202646,0.193421
7,-0.183109,-0.39784
9,0.124713,0.841675


In [8]:
# 슬라이싱을 이용하여 DF를 얻고, iloc을 이용하여 데이터 선택
df[['D','B','A']].iloc[1:7:3]

Unnamed: 0,D,B,A
1,-0.636524,0.887163,-0.720589
4,-1.546906,0.289092,0.405453


In [11]:
# 슬라이싱을 이용하여 DF를 얻고, loc을 이용하여 데이터 선택
df[['A','B']].query('A>0.5')

Unnamed: 0,A,B
3,0.953324,-2.021255
6,1.318152,-0.469305
8,1.047579,1.045938


In [12]:
# 슬라이싱을 이용하여 DF를 얻고, loc을 이용하여 데이터 선택
df[['A','B']][df.A > 0.5]

Unnamed: 0,A,B
3,0.953324,-2.021255
6,1.318152,-0.469305
8,1.047579,1.045938


---

## 데이터 결합

### 연결(concatenate)/추가(append)
>* 기준 열을 사용하지 않고 단순히 데이터를 연결함
>* 기본적으로 위/아래로 데이터의 행 추가.
>> 단순히 두 Series 또는 DF를 연결하기 때문에 index 값이 중복 가능
>* concatenate와 append는 동일한 기능을 수행.
>>함수 명령어가 조금 다름
>>* concatenate: A와 B를 붙일 경우
>>* append: A에 B를 붙일 경우

### 실습 2 - 데이터 결합
>* 샘플 데이터 df4, df5, df6을 이용해 concat(좌우결합)을 실행!

In [13]:
df4 = pd.DataFrame(columns=['A','B','C','D'])
df5 = pd.DataFrame(columns=['A','B','C','D'])
df6 = pd.DataFrame(columns=['A','B','C','D'])
df7 = pd.DataFrame(columns=['A','B','C','D'])

In [14]:
def add_item(df,index):
    keys = df.columns
    for k in range(index*4, (index+1)*4):
        df.loc[k] = [ keys[0][0]+str(k), keys[1][0]+str(k), keys[2][0]+str(k), keys[3][0]+str(k)]

In [16]:
for i,df in enumerate((df4, df5, df6, df7)):
    add_item(df, i)

In [17]:
print(df4)
print(df5)
print(df6)
print(df7)

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
    A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7
      A    B    C    D
8    A8   B8   C8   D8
9    A9   B9   C9   D9
10  A10  B10  C10  D10
11  A11  B11  C11  D11
      A    B    C    D
12  A12  B12  C12  D12
13  A13  B13  C13  D13
14  A14  B14  C14  D14
15  A15  B15  C15  D15


In [20]:
pd.concat([df4,df5,df6,df7])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [19]:
pd.concat([df4,df5,df6,df7], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2,A.3,B.3,C.3,D.3
0,A0,B0,C0,D0,,,,,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,,,,,
5,,,,,A5,B5,C5,D5,,,,,,,,
6,,,,,A6,B6,C6,D6,,,,,,,,
7,,,,,A7,B7,C7,D7,,,,,,,,
8,,,,,,,,,A8,B8,C8,D8,,,,
9,,,,,,,,,A9,B9,C9,D9,,,,


In [21]:
df1 = pd.DataFrame(columns=['A','B','C','D'])
df2 = pd.DataFrame(columns=['E','F','G','H'])
df3 = pd.DataFrame(columns=['I','J','K','L'])

In [23]:
for df in (df1, df2, df3):
    add_item(df,0)

In [24]:
pd.concat([df1,df2,df3],axis=1)

Unnamed: 0,A,B,C,D,E,F,G,H,I,J,K,L
0,A0,B0,C0,D0,E0,F0,G0,H0,I0,J0,K0,L0
1,A1,B1,C1,D1,E1,F1,G1,H1,I1,J1,K1,L1
2,A2,B2,C2,D2,E2,F2,G2,H2,I2,J2,K2,L2
3,A3,B3,C3,D3,E3,F3,G3,H3,I3,J3,K3,L3


---

### 병합(merge)/결합(join)
>* DF의 공통 열 혹은 인덱스를 기준으로 두 개의 DF를 합침(변수증가!)
>> 이때 기준이 되는 열, 행을 키 라고함
>* merge와 join은 동일한 기능을 수행
>> 함수 명령어 차이
>>* merge: A와 B를 병합할 경우
>>* join: A에 B를 결합할 경우

### 실습 3 - 데이터 결합
> 아래는 나이와 몸무게 데이터, 운동에 따른 혈당 산소 요구량 데이터이다.  
아래의 두 데이터를 merge를 이용하여 FITNESS 데이터로 만들어라.

In [25]:
left = pd.read_csv('../files/실습화일/FITNESS_1.csv', encoding='euc-kr')
right = pd.read_csv('../files/실습화일/FITNESS_2.csv', encoding='euc-kr')

In [27]:
left.head()

Unnamed: 0,NAME,GENDER,AGE,AGEGROUP,WEIGHT
0,Donna,여성,42,40대,68.15
1,Gracie,여성,38,30대,81.87
2,Luanne,여성,43,40대,85.84
3,Mimi,여성,50,50대,70.87
4,Chris,남성,49,40대,81.42


In [29]:
right.head()

Unnamed: 0,NAME,GENDER,AGE,OXY,RUNTIME,RUNPULSE,RSTPULSE,MAXPULSE
0,Donna,여성,42,59.571,8.17,166,40,172
1,Gracie,여성,38,60.055,8.63,170,48,186
2,Luanne,여성,43,54.297,8.65,156,45,168
3,Mimi,여성,50,54.625,8.92,146,48,155
4,Chris,남성,49,49.156,8.95,180,44,185


In [32]:
data = pd.merge(left,right,how='outer',on=["NAME","GENDER","AGE"])
data.head()

Unnamed: 0,NAME,GENDER,AGE,AGEGROUP,WEIGHT,OXY,RUNTIME,RUNPULSE,RSTPULSE,MAXPULSE
0,Donna,여성,42,40대,68.15,59.571,8.17,166,40,172
1,Gracie,여성,38,30대,81.87,60.055,8.63,170,48,186
2,Luanne,여성,43,40대,85.84,54.297,8.65,156,45,168
3,Mimi,여성,50,50대,70.87,54.625,8.92,146,48,155
4,Chris,남성,49,40대,81.42,49.156,8.95,180,44,185


___

## 데이터 변환

### pivot
>* pivot이란 데이터 열 중의 두 개를 키로 사용하여 데이터를 변형하는 함수
>* 두 개의 키 중 첫 번쨰는 해으이 인덱스로 사용할 열, 두 번 쨰는 열의 인덱스로 사용할 열이 되고 각 행과 열에 들어갈 데이터를 지정함
>* 만약 각 행과 열에 해당하는 데이터가 존재하지 않으면 해당 칸에 NaN을 채움

### melt
>* melt 는 Pivot의 반대 행위로 특정 열을 제외한 나머지 열을 두개 열로 풀어서 나열하는 함수

### 실습 4 - 데이터 변환
> 아래는 운동에 따른 혈당 산소 요구량 데이터이다. pivot을 이용하여 GENDER와 AGEGROP 별 WEIGHT의 평균을 아래와 같이 변환하라.
>>1. 데이터 구성하기
>>2. groupby, agg를 이용한 평균값 계산
>>3. pivot을 이용한 변환

In [34]:
data = pd.read_csv('../files/실습화일/FITNESS.csv', encoding='euc-kr')
data.head()

Unnamed: 0,NAME,GENDER,AGE,AGEGROUP,WEIGHT,OXY,RUNTIME,RUNPULSE,RSTPULSE,MAXPULSE
0,Donna,F,42,40,68.15,59.571,8.17,166,40,172
1,Gracie,,38,30,81.87,60.055,8.63,170,48,186
2,Luanne,F,43,40,85.84,54.297,8.65,156,45,168
3,Mimi,F,50,50,70.87,54.625,8.92,146,48,155
4,Chris,M,49,40,70.0,49.156,8.95,180,44,185


In [72]:
data['GENDER'][1] = 'F'
data.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,NAME,GENDER,AGE,AGEGROUP,WEIGHT,OXY,RUNTIME,RUNPULSE,RSTPULSE,MAXPULSE
0,Donna,F,42,40,68.15,59.571,8.17,166,40,172
1,Gracie,F,38,30,81.87,60.055,8.63,170,48,186
2,Luanne,F,43,40,85.84,54.297,8.65,156,45,168
3,Mimi,F,50,50,70.87,54.625,8.92,146,48,155
4,Chris,M,49,40,70.0,49.156,8.95,180,44,185


In [82]:
data.pivot_table(index='GENDER', columns='AGEGROUP',values='WEIGHT',aggfunc='mean')

AGEGROUP,30,40,50
GENDER,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,78.925,72.94375,70.856667
M,82.758,79.342,79.426


In [83]:
data.pivot_table(index='AGEGROUP', columns='GENDER',values='WEIGHT',aggfunc='mean')

GENDER,F,M
AGEGROUP,Unnamed: 1_level_1,Unnamed: 2_level_1
30,78.925,82.758
40,72.94375,79.342
50,70.856667,79.426
