# 2-3장. 데이터 결합 및 요약

## 1절. 데이터 결합
R과 다른점 : 결합하려는 데이터프레임의 행과 열의 개수가 맞지 않아도 NaN값이 채워짐
### 1. 행결합

#### (1) 데이터프레임 붙이기 : pd.concat()

In [5]:
import pandas as pd

customer1 = pd.DataFrame({'id':['c01', 'c02', 'c03', 'c04'],
                        'last_name':["Lee","Kim","Choi","Park"]},
                        index = [0,1, 2,3])

customer2 = pd.DataFrame({'id':['c05','c06','c07'],
                         'last_name':['Lim', 'Bae', 'Kim'],
                         'age':[23, 34, 45]},
                        index = [0, 1, 2])

In [6]:
print(customer1, '\n')
print(customer2)

    id last_name
0  c01       Lee
1  c02       Kim
2  c03      Choi
3  c04      Park 

    id last_name  age
0  c05       Lim   23
1  c06       Bae   34
2  c07       Kim   45


행인덱스와 열인덱스가 다른 데이터프레임 합치기     
* pd.concat([df1, df2, ...], axis=0)     
    
default 값으로 axis=0이 적용되어 행방향으로 데이터프레임을 붙임     
customer1에는 age열이 없으므로 NaN값이 채워짐      
ignore_index=True를 붙이면 인덱스 재배열 가능

In [7]:
result = pd.concat([customer1, customer2], ignore_index=True)
result

Unnamed: 0,id,last_name,age
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,
3,c04,Park,
4,c05,Lim,23.0
5,c06,Bae,34.0
6,c07,Kim,45.0


### 2. 열결합

#### (1) 데이터프레임 붙이기 : pd.concat()

행인덱스와 열인덱스가 다른 데이터프레임 합치기     
* pd.concat([df1, df2, ...], axis=1)     
    
axis=1은 열방향으로 데이터프레임을 붙임     
customer2에는 index 3행이 없으므로 NaN값이 채워짐      

In [8]:
result2 = pd.concat([customer1, customer2], axis=1)
result2

Unnamed: 0,id,last_name,id.1,last_name.1,age
0,c01,Lee,c05,Lim,23.0
1,c02,Kim,c06,Bae,34.0
2,c03,Choi,c07,Kim,45.0
3,c04,Park,,,


#### (2) 시리즈를 데이터프레임에 붙이기 : pd.concat()
시리즈 객체를 생성할 때 name은, 이 시리즈가 데이터프레임이 결합되었을 때의 열이름을 나타냄

In [9]:
grade = pd.Series(['A', 'B', 'C','A', 'D', 'C', 'B'], name='grade')

In [10]:
result3 = pd.concat([result, grade], axis=1)
result3

Unnamed: 0,id,last_name,age,grade
0,c01,Lee,,A
1,c02,Kim,,B
2,c03,Choi,,C
3,c04,Park,,A
4,c05,Lim,23.0,D
5,c06,Bae,34.0,C
6,c07,Kim,45.0,B


#### (3) 시리즈끼리 붙이기 : pd.concat()


In [11]:
sr1 = pd.Series(['e0','e1','e2','e3'], name = 'e')
sr2 = pd.Series(['g0','g1','g2','g3'], name = 'g')

# 열방향으로 시리즈를 연결하면 데이터프레임이 됨
result4 = pd.concat([sr1, sr2], axis=1) 
print(result4)
print(type(result4), '\n')

#행방향으로 시리즈를 연결하면 시리즈 타입 유지
result5 = pd.concat([sr1, sr2], ignore_index=True)
print(result5)
print(type(result5))

    e   g
0  e0  g0
1  e1  g1
2  e2  g2
3  e3  g3
<class 'pandas.core.frame.DataFrame'> 

0    e0
1    e1
2    e2
3    e3
4    g0
5    g1
6    g2
7    g3
dtype: object
<class 'pandas.core.series.Series'>


### 3. merge
두 데이터프레임에 존재하는 고유값(Key)를 기준으로 병합
* pd.merge(df_left, df_right, how='inner', on=None) 이 default

In [12]:
id_name = pd.DataFrame({'id' : ['c01', 'c02', 'c03', 'c04', 'c05', 'c06', 'c07'],
                       'last_name': ['Lee', 'Kim', 'Choi', 'Park','Lim','Bae','Kim']})
id_number = pd.DataFrame({'id' : ['c03', 'c04', 'c05', 'c06', 'c07', 'c08', 'c09'],
                         'number' : [3, 1, 0, 7, 3, 4, 1]})

In [13]:
# Q1. id 컬럼을 기준으로 두 테이블이 모두 공통된 값을 가지고 있는 경우에만 두 데이터(id_name, id_number)를 병합해보자
# 데이터베이스의 Inner Join에 해당

merge_inner = pd.merge(id_name, id_number)
#아무 옵션을 적용하지 않으면 on=None이므로 두 데이터의 공통 열이름(id)를 기준으로 innor join 수행
merge_inner

Unnamed: 0,id,last_name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3


In [14]:
# Q2. 공통된 값이 없는 경우에도 데이터가 출력되도록 id 칼럼을 기준으로 두 데이터의 모든 행을 병합해보기
# 데이터베이스의 Outer Join에 해당

merge_outer = pd.merge(id_name, id_number, how='outer', on='id')
# 기준칼럼에 공통된 값이 없는 경우, 다른 변수 값 자리에는 NaN이 채워짐
merge_outer

Unnamed: 0,id,last_name,number
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,3.0
3,c04,Park,1.0
4,c05,Lim,0.0
5,c06,Bae,7.0
6,c07,Kim,3.0
7,c08,,4.0
8,c09,,1.0


In [15]:
# Q3. id 칼럼을 기준으로 두 데이터를 병합하는데, 기준 칼럼에 공통값이 없는 경우에는 id_name 데이터를 기준으로 병합하기
# 데이터베이스의 Left Outer Join에 해당

merge_left_outer = pd.merge(id_name, id_number, how='left', on='id')
merge_left_outer

Unnamed: 0,id,last_name,number
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,3.0
3,c04,Park,1.0
4,c05,Lim,0.0
5,c06,Bae,7.0
6,c07,Kim,3.0


In [16]:
# Q4, id 칼럼을 기준으로 두 데이터를 병합하는데, 기준칼럼에 공통 값이 없는 경우에는 id_number 데이터를 기준으로 병합
# 데이터베이스의 Right Outer Join에 해당

merge_right_outer = pd.merge(id_name, id_number, how='right', on='id')
merge_right_outer

Unnamed: 0,id,last_name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3
5,c08,,4
6,c09,,1


## 2절. 데이터 요약

### 1. 특정 칼럼을 기준으로 데이터를 그룹지어 집계함수 적용
* df.groupby('그룹화할 기준열').FUN()['집계함수 적용시킬 열']   
     
전체에 pd.DataFrame 씌우면 데이터프레임으로 변환    

In [17]:
# iris 데이터 불러와서 데이터프레임으로 만들기
from sklearn.datasets import load_iris
iris=load_iris()
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df_iris['target']=iris.target
df_iris['target'] = df_iris['target'].map({0:'setosa', 1:'versicolor', 2:'virginica'})

In [18]:
df_iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [19]:
# Q1. iris 데이터에서 종별 Sepal.Width의 평균 구하기
avg = df_iris.groupby('target').mean()[['sepal length (cm)']]
avg

Unnamed: 0_level_0,sepal length (cm)
target,Unnamed: 1_level_1
setosa,5.006
versicolor,5.936
virginica,6.588


In [20]:
# Q2. iris 데이터에서 종별 Sepal.Width와 Petal.Width의 평균을 구해보자
avg2 = df_iris.groupby('target').mean()[['sepal width (cm)', 'petal width (cm)']]
avg2

Unnamed: 0_level_0,sepal width (cm),petal width (cm)
target,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,3.428,0.246
versicolor,2.77,1.326
virginica,2.974,2.026


### 2. 범주형변수의 도수분포표, 이원분할표
(1) 기준이 하나일 때 도수분포표
 * np.unique(df['기준열'], return_counts=True)
 * pd.Series(df['기준열']).value_counts()           
                  
                    
          
(2) 기준이 두 개일 때 도수분포표
 * pd.crosstab(df['기준열1'], df['기준열2'], ...)
    
    

In [23]:
# Titanic 데이터 불러오기
import seaborn as sns
df_t = sns.load_dataset('titanic')
df_t['survived'] = df_t['survived'].map({0:'No', 1:'Yes'})
df_t.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,No,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,Yes,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,Yes,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,Yes,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,No,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [24]:
# Q1. 내장데이터 Titanic 데이터에서 좌석등급을 의미하는 Class 변수에 대해서 도수분포표를 생성하기

# numpy를 이용한 도수분포표
import numpy as np
one = np.unique(df_t['class'], return_counts=True)

# pandas를 이용한 도수분포표
import pandas as pd
two = pd.Series(df_t['class']).value_counts()
two = pd.DataFrame(two)

print(one, '\n')
print(two)

(array(['First', 'Second', 'Third'], dtype=object), array([216, 184, 491], dtype=int64)) 

        class
Third     491
First     216
Second    184


In [25]:
# Q2. 내장데이터 Titanic 에서 좌석등급과 생존여부의 관계를 살펴보기 위해 Class 변수에 따른 Survived 변수의 도수를 표 형태로 나타내기
# pandas 의 함수 이용

three = pd.crosstab(df_t['class'], df_t['survived'])
three

survived,No,Yes
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,80,136
Second,97,87
Third,372,119


### 3. 범주형 변수에 대한 상대도수비율

In [26]:
# Q1. Titanic 데이터의 sex 변수는 성별을 나타냄. sex 변수에 따른 생존여부의 관계를 전체에 대한 비율, 행별비율, 열별 비율로 살피기

# sex에 따른 survived에 대한 비율 파악
crosstab = pd.crosstab(df_t['sex'], df_t['survived'], normalize=True)
crosstab

survived,No,Yes
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.090909,0.261504
male,0.525253,0.122334


### 4. 특정 조건을 만족하는 값들만 추출

In [27]:
# Q. 내장데이터 iris에서 종(Species 또는 target)이 setosa이면서 Sepal.Length 의 값이 5.5 초과인 데이터들의
# Species와 Sepall.Length의 변수값만 조회하기

In [28]:
# 방법 1. 단순하게 접근
a = df_iris[(df_iris['target'] == 'setosa') & (df_iris['sepal length (cm)'] > 5.5)]
a[['target', 'sepal length (cm)']]

Unnamed: 0,target,sepal length (cm)
14,setosa,5.8
15,setosa,5.7
18,setosa,5.7


In [29]:
# 방법 2. loc 및 str.contains() 사용하기
b = df_iris.loc[(df_iris.target.str.contains('setosa')) & (df_iris['sepal length (cm)'] > 5.5)]
b[['target', 'sepal length (cm)']]

Unnamed: 0,target,sepal length (cm)
14,setosa,5.8
15,setosa,5.7
18,setosa,5.7


In [30]:
# 방법 3. 방법1에 변수 지정 (방법 1의 코드가 지저분하게 보이면 간단하게 보이기 위해 사용 가능)
is_setosa = df_iris['target'] == 'setosa'
over_5_5 = df_iris['sepal length (cm)'] > 5.5
c = df_iris[is_setosa & over_5_5]
c[['target', 'sepal length (cm)']]

Unnamed: 0,target,sepal length (cm)
14,setosa,5.8
15,setosa,5.7
18,setosa,5.7


## 3절. apply 계열 함수

### 1. Apply
데이터의 행 또는 열 방향으로 주어진 함수를 한 번에 적용한 뒤 그 결과를 벡터, 배열, 리스트로 반환

* Pandas DataFrame 타입의 객체에서 호출할 수 있는 함수
* Pandas Series 타입도 가능
* numpy의 sqrt 과 같은 단일 연산일 경우 전체에 적용됨
* numpy의 min, max, avergae 와 같이 집계되는 경우 사라질 축을 지정함
    
    
    * 행은 사라지고 열 단위로 집계하고 싶은 경우 axis = 0 으로 지정
    * 열은 사라지고 행 단위로 집계하고 싶은 경우 axis = 1 으로 지정

In [31]:
import numpy as np
import pandas as pd

In [32]:
# Q1. 4행 3열로 이루어진 행렬을 만든 후에 각 행별로 max 값을 구하기
sample = np.array(range(12)).reshape(4,3, order='F')
sample = pd.DataFrame(sample)

sample.apply(np.max, axis=1)

0     8
1     9
2    10
3    11
dtype: int64

In [33]:
# iris 데이터의 1~4열에 대해서 평균 구하기
df_iris.iloc[:, 0:4].apply(np.average, axis=0)

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

#### [부록..그냥] numpy 행렬일 경우
* apply 함수는 numpy에 못 씀
* numpy 만의 함수를 사용

In [34]:
# 각 행의 최소값 구하기 (열은 axis=0)
np.min(sample, axis = 1)

# 각 행의 합 구하기 (열은 axis=0)
np.sum(sample, axis=1)

0    12
1    15
2    18
3    21
dtype: int64

In [35]:
sample

Unnamed: 0,0,1,2
0,0,4,8
1,1,5,9
2,2,6,10
3,3,7,11


### 2. lapply
* 함수를 적용하고 그 결과를 리스트로 반환
* 데이터프레임에 대해서는 열 방향으로 함수 처리

In [36]:
# Q. 숫자가 저장된 벡터의 값을 리스트 형태로 반환

a = np.array([[1, 2, 3]])

# 평균 구하기
# lapply(a, mean) 의 R 코드와 같음
import statistics
r1= list(map(statistics.mean, a))
print(r1)

# 제곱형태 구하기
# lapply(a, FUN=function(x){x^2}) 의 R 코드와 같음
r2 = list(map(lambda x: x**2, a))
print(r2)

[2]
[array([1, 4, 9], dtype=int32)]


### 3. tapply
* 데이터를 특정 기준에 따라 그룹으로 나눈 뒤 각 그룹별로 함수 적용

In [38]:
# Q1. googleVis 패키지에 있는 Fruits 데이터에서 과일종류(Fruit)별 판매량(Profit)의 평균 구하기
fruits = pd.read_csv('Fruits.csv')

# tapply(Fruits$Sales, Fruits$Fruit, mean)의 R 코드와 같음
r3 = fruits.pivot_table(values = 'Sales', index = 'Fruit', aggfunc = 'mean')
r3

Unnamed: 0_level_0,Sales
Fruit,Unnamed: 1_level_1
Apples,99.333333
Bananas,86.666667
Oranges,95.666667


### 4. mapply
* sapply의 확장버전
* 여러 개의 리스트 또는 벡터로 주어진 인자를 받아 함수 적용 후 결과 반환

In [39]:
# Q. 1을 4번, 2를 3번, 3을 2번, 4를 1번 반복하는 4개의 수열을 구하기

# mapply(rep, c(1:4), c(4:1)) 의 R 코드와 같음
rep = lambda value, times: [value]*times
list(map(rep, range(1, 5), range(4, 0, -1)))  #value에는 1~4까지, times에는 4~!까지 넣겠다는 뜻

[[1, 1, 1, 1], [2, 2, 2], [3, 3], [4]]

# 부록 - 1. pd.crosstab
도수분포표, 교차표를 만들어주는 함수

In [40]:
# 필요한 모듈 불러오고, 범주형 변수를 가지고 있는 간단한 데이터셋 생성
import pandas as pd
data = pd.DataFrame({'id': ['id1', 'id1', 'id1', 'id2', 'id2', 'id3'],
                     'fac_1': ['a', 'a', 'a', 'b', 'b', 'b'],
                     'fac_2': ['d', 'd', 'd', 'c', 'c', 'd']})

#### 1. 교차표 만들기 : pd.crosstab(index, columns)

In [41]:
pd.crosstab(data.fac_1, data.fac_2)

fac_2,c,d
fac_1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,0,3
b,2,1


In [42]:
pd.crosstab(data.id, data.fac_1)

fac_1,a,b
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id1,3,0
id2,0,2
id3,0,1


In [43]:
pd.crosstab(data.id, data.fac_2)

fac_2,c,d
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id1,0,3
id2,2,0
id3,0,1


#### 2. Multi-index, Multi-level로 교차표 만들기 : pd.crosstab([id1, id2], [col1, col2])

In [44]:
pd.crosstab(data.id, [data.fac_1, data.fac_2])

fac_1,a,b,b
fac_2,d,c,d
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
id1,3,0,0
id2,0,2,0
id3,0,0,1


In [45]:
pd.crosstab([data.fac_1, data.fac_2], data.id)

Unnamed: 0_level_0,id,id1,id2,id3
fac_1,fac_2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,d,3,0,0
b,c,0,2,0
b,d,0,0,1


#### 3. 교차표의 행 이름, 열 이름 부여: pd.crosstab(rownames=['xx'], colnames=['aa'])

In [46]:
pd.crosstab(data.id, [data.fac_1, data.fac_2],
            rownames=['id_num'],
            colnames=['a_b', 'c_d'])

a_b,a,b,b
c_d,d,c,d
id_num,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
id1,3,0,0
id2,0,2,0
id3,0,0,1


#### 4. 교차표의 행 합, 열 합 추가하기 : pd.crosstab(margins=True)

In [47]:
pd.crosstab(data.id, [data.fac_1, data.fac_2], margins=True)

fac_1,a,b,b,All
fac_2,d,c,d,Unnamed: 4_level_1
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id1,3,0,0,3
id2,0,2,0,2
id3,0,0,1,1
All,3,2,1,6


#### 5. 구성비율로 교차표 만들기 : pd.crosstab(normalize = True)

In [48]:
pd.crosstab(data.id, [data.fac_1, data.fac_2], normalize=True)

fac_1,a,b,b
fac_2,d,c,d
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
id1,0.5,0.0,0.0
id2,0.0,0.333333,0.0
id3,0.0,0.0,0.166667


# 부록 - 2. pd.pivot_table
데이터 재구조화 함수

#### 1. 데이터 재구조화: data.pivot(index, columns, values)

In [49]:
import pandas as pd
import numpy as np
data = pd.DataFrame({'cust_id': ['c1', 'c1', 'c1', 'c2', 'c2', 'c2', 'c3', 'c3', 'c3'],
                  'prod_cd': ['p1', 'p2', 'p3', 'p1', 'p2', 'p3', 'p1', 'p2', 'p3'],
                  'grade' : ['A', 'A', 'A', 'A', 'A', 'A', 'B', 'B', 'B'],
                  'pch_amt': [30, 10, 0, 40, 15, 30, 0, 0, 10]})

data

Unnamed: 0,cust_id,prod_cd,grade,pch_amt
0,c1,p1,A,30
1,c1,p2,A,10
2,c1,p3,A,0
3,c2,p1,A,40
4,c2,p2,A,15
5,c2,p3,A,30
6,c3,p1,B,0
7,c3,p2,B,0
8,c3,p3,B,10


In [50]:
data_pivot = data.pivot(index='cust_id', columns='prod_cd', values='pch_amt')
data_pivot

prod_cd,p1,p2,p3
cust_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
c1,30,10,0
c2,40,15,30
c3,0,0,10


#### 2. 데이터 재구조화 : pd.pivot_table(data, index, columns, values, aggfunc)

In [51]:
pd.pivot_table(data, index='cust_id', columns='prod_cd', values='pch_amt')

prod_cd,p1,p2,p3
cust_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
c1,30,10,0
c2,40,15,30
c3,0,0,10


In [52]:
# index가 2개 이상일 경우 pivit_table은 작동하지만 data.pivot 은 작동 안함!
pd.pivot_table(data, index=['cust_id', 'grade'], columns='prod_cd', values='pch_amt')

Unnamed: 0_level_0,prod_cd,p1,p2,p3
cust_id,grade,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
c1,A,30,10,0
c2,A,40,15,30
c3,B,0,0,10


In [53]:
# columns 가 2개 이상인 경우 pivot_table은 작동하지만 data.pivot 은 작동 안함!
pd.pivot_table(data, index='cust_id', columns=['grade', 'prod_cd'], values='pch_amt')

grade,A,A,A,B,B,B
prod_cd,p1,p2,p3,p1,p2,p3
cust_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
c1,30.0,10.0,0.0,,,
c2,40.0,15.0,30.0,,,
c3,,,,0.0,0.0,10.0


In [54]:
# index 중복값이 있으면 pivot_table은 작동하지만 data.pivot은 작동 안함!
pd.pivot_table(data, index='grade', columns='prod_cd',values='pch_amt', aggfunc=np.sum)

prod_cd,p1,p2,p3
grade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,70,25,30
B,0,0,10


In [55]:
#  pd.pivot_table 은 행과 열을 기준으로 합계를 같이 제시해줌
pd.pivot_table(data, index='grade', columns='prod_cd',
               values='pch_amt', aggfunc=np.mean, margins=True)

prod_cd,p1,p2,p3,All
grade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,35.0,12.5,15.0,20.833333
B,0.0,0.0,10.0,3.333333
All,23.333333,8.333333,13.333333,15.0
