<a href="https://colab.research.google.com/github/rlagksqls17/study_for_data_analysis/blob/main/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EA%B2%B0%ED%95%A9_%EB%B0%8F_%EC%9A%94%EC%95%BD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **데이터 결합**  

모형에 적용할 데이터를 만들기 위해 서로 다른 여러 개의 데이터를 결합하는 과정이 필요할 수 있음 

## 행 결합

### (R) - rbind()

```  
> customer1<-data.frame(id = c("c01","c02","c03","c04"), last_name = c("Lee","Kim","Choi","Park")) # customer1 변수 생성 (데이터 프레임 형)  
> customer2<-data.frame(id = c("c05","c06","c07"),last_name = c("Lim","Bae","Kim")) # customer2 변수 생성 (데이터 프레임 형)
> customer1
   id last_name
1 c01       Lee
2 c02       Kim
3 c03      Choi
4 c04      Park
> customer2
   id last_name
1 c05       Lim
2 c06       Bae
3 c07       Kim  

```  

이를 R언어에서는 rbind()로 결합 가능  

```
> id_name = rbind(customer1, customer2)
> id_name
   id last_name
1 c01       Lee
2 c02       Kim
3 c03      Choi
4 c04      Park
5 c05       Lim
6 c06       Bae
7 c07       Kim
```  



### (python) - pd.concat()

In [None]:
import pandas as pd  
import numpy as np

df1 = pd.DataFrame(np.array([["c01", "Lee"], ["c02", "Kim"], ["c03", "Choi"], ["c04", "Park"]]), columns = ["id", "last_name"])
df2 = pd.DataFrame(np.array([["c05", "Lee"], ["c06", "Kim"], ["c07", "Choi"]]), columns = ["id", "last_name"])
result1 = pd.DataFrame(pd.concat([df1, df2])) # pd.concat()함수 사용
result1

Unnamed: 0,id,last_name
0,c01,Lee
1,c02,Kim
2,c03,Choi
3,c04,Park
0,c05,Lee
1,c06,Kim
2,c07,Choi


## 열 결합

### (R) - cbind()  

```  
> age_income<-data.frame(age = c(20, 25, 37, 40, 32, 45, 37), income = c(2500, 6400, 0, 7000, 3400, 3800, 5010))
> age_income
  age income
1  20   2500
2  25   6400
3  37      0
4  40   7000
5  32   3400
6  45   3800
7  37   5010
> id_name
   id last_name
1 c01       Lee
2 c02       Kim
3 c03      Choi
4 c04      Park
5 c05       Lim
6 c06       Bae
7 c07       Kim
```  

cbind()를 이용해 열 결합 한다.  
```  
> customer<-cbind(id_name, age_income)
> customer
   id last_name age income
1 c01       Lee  20   2500
2 c02       Kim  25   6400
3 c03      Choi  37      0
4 c04      Park  40   7000
5 c05       Lim  32   3400
6 c06       Bae  45   3800
7 c07       Kim  37   5010
```  

### (python) - pd.concat()  



In [None]:
import pandas as pd  
import numpy as np

df1 = pd.DataFrame(np.array([["c01", "Lee"], ["c02", "Kim"], ["c03", "Choi"], ["c04", "Park"]]), columns = ["id", "last_name"])
df2 = pd.DataFrame(np.array([["20", "2500"], ["25", "6400"], ["37", "0"], ["40", "7000"]]), columns = ["age", "income"])
result2 = pd.DataFrame(pd.concat([df1, df2], axis = 1)) # concat() 함수에서 옵션 axis = 1사용
result2

Unnamed: 0,id,last_name,age,income
0,c01,Lee,20,2500
1,c02,Kim,25,6400
2,c03,Choi,37,0
3,c04,Park,40,7000


## 병합

### (R) - merge()  

> 변수 생성  
```  
> id_name<-data.frame(id = c("c01", "c02", "c03", "c04", "c05", "c06", "c07"),
+ last_name = c("Lee", "Kim", "Choi", "Park", "Lim", "Bae", "Kim"))
> id_number <- data.frame(id = c("c03", "c04", "c05", "C06", "c07", "c08", "c09"),
+ number = c(3, 1, 0, 7, 3, 4, 1))
> id_name
   id last_name
1 c01       Lee
2 c02       Kim
3 c03      Choi
4 c04      Park
5 c05       Lim
6 c06       Bae
7 c07       Kim
> id_number
   id number
1 c03      3
2 c04      1
3 c05      0
4 C06      7
5 c07      3
6 c08      4
7 c09      1  
```  

> id 칼럼 기준으로 **공통된 값만** 병합 (inner Join)
```  
> merge(id_name, id_number, by = 'id')
   id last_name number
1 c03      Choi      3
2 c04      Park      1
3 c05       Lim      0
4 c07       Kim      3
```  

> id 칼럼 기준으로 **공통값 없어도** 두 데이터의 모든 행을 병합 (Outer Join)  
```  
> merge(id_name, id_number, by = 'id', all = T)
    id last_name number
1  c01       Lee     NA
2  c02       Kim     NA
3  c03      Choi      3
4  c04      Park      1
5  c05       Lim      0
6  c06       Bae     NA
7  C06      <NA>      7
8  c07       Kim      3
9  c08      <NA>      4
10 c09      <NA>      1
```  

> id 칼럼 기준으로 두 데이터를 병합, 이때 기준 칼럼에 공통값 없을 경우 id_name 데이터를 기준으로 병합 (Left Outer Join)  

```  
   id last_name number
1 c01       Lee     NA
2 c02       Kim     NA
3 c03      Choi      3
4 c04      Park      1
5 c05       Lim      0
6 c06       Bae     NA
7 c07       Kim      3
```  

> id 칼럼 기준으로 두 데이터 병합, 이때 기준 칼럼에 공통값 없을 경우 id_number 데이터를 기준으로 병합 (Right Outer Join)  

```
> merge(id_name, id_number, by = 'id', all.y = T)
   id last_name number
1 c03      Choi      3
2 c04      Park      1
3 c05       Lim      0
4 C06      <NA>      7
5 c07       Kim      3
6 c08      <NA>      4
7 c09      <NA>      1  
```  



### (python) - pd.merge()  

1. 변수 생성

In [None]:
import pandas as pd  
import numpy as np  

df1 = pd.DataFrame(
    np.array([["co1", "Lee"], 
              ["c02", "Kim"], 
              ["c03", "Choi"], 
              ["c04", "Park"], 
              ["c05", "Lim"], 
              ["c06", "Bae"], 
              ["c07", "Kim"]]), 
              columns = ["id", "last_name"])
df2 = pd.DataFrame(
    np.array([["c03", 3], 
             ["c04", 1],
             ["c05", 0],
             ["c06", 7],
             ["c07", 3],
             ["c08", 4],
             ["c09", 1]]), columns = ["id", "number"])

1. id 칼럼 기준으로 공통된 값만 병합 (inner Join)

In [None]:
pd.merge(df1, df2, how = 'inner')

Unnamed: 0,id,last_name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3


2. id 칼럼 기준으로 공통값 없어도 두 데이터의 모든 행을 병합 (Outer Join)

In [None]:
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,id,last_name,number
0,co1,Lee,
1,c02,Kim,
2,c03,Choi,3.0
3,c04,Park,1.0
4,c05,Lim,0.0
5,c06,Bae,7.0
6,c07,Kim,3.0
7,c08,,4.0
8,c09,,1.0


3. id 칼럼 기준으로 두 데이터를 병합, 이때 기준 칼럼에 공통값 없을 경우 id_name 데이터를 기준으로 병합 (Left Outer Join)

In [None]:
pd.merge(df1, df2, how = 'left')

Unnamed: 0,id,last_name,number
0,co1,Lee,
1,c02,Kim,
2,c03,Choi,3.0
3,c04,Park,1.0
4,c05,Lim,0.0
5,c06,Bae,7.0
6,c07,Kim,3.0


4. id 칼럼 기준으로 두 데이터 병합, 이때 기준 칼럼에 공통값 없을 경우 id_number 데이터를 기준으로 병합 (Right Outer Join)  

In [None]:
pd.merge(df1, df2, how = 'right')

Unnamed: 0,id,last_name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3
5,c08,,4
6,c09,,1


# **데이터 요약**

## aggregation

### (R) aggregate()

Q1. iris 데이터에서 종별 Sepal.Width의 평균 구하기  

```  
> aggregate(Sepal.Width~Species, iris, mean)
     Species Sepal.Width
1     setosa       3.428
2 versicolor       2.770
3  virginica       2.974
```  

Q2. iris 데이터에서 종별 Sepal.Width와 Petal.Width의 평균 구하기  

```
> aggregate(cbind(Sepal.Width, Petal.Width)~Species, iris, mean)
     Species Sepal.Width Petal.Width
1     setosa       3.428       0.246
2 versicolor       2.770       1.326
3  virginica       2.974       2.026  
```

### (python) DataFrame.groupby.mean()

Q1. iris 데이터에서 종별 Sepal.Width의 평균 구하기 

In [None]:
import pandas as pd

iris = pd.DataFrame(pd.read_csv("/content/drive/MyDrive/학습 자료/iris(150).csv"))
iris.head()

Unnamed: 0,caseno,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,3.0,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa


In [None]:
iris.groupby(['Species']).mean()['SepalWidth']

Species
setosa        3.428
versicolor    2.770
virginica     2.974
Name: SepalWidth, dtype: float64

Q2. iris 데이터에서 종별 Sepal.Width와 Petal.Width의 평균 구하기

In [None]:
Sepal = iris.groupby(['Species']).mean()[['SepalWidth']]
Petal = iris.groupby(['Species']).mean()[['PetalWidth']]

pd.concat([Sepal, Petal], axis = 1)

Unnamed: 0_level_0,SepalWidth,PetalWidth
Species,Unnamed: 1_level_1,Unnamed: 2_level_1
setosa,3.428,0.246
versicolor,2.77,1.326
virginica,2.974,2.026


## 빈도표

### (R) table()  


1. 내장데이터 Titanic의 구조 확인
```  
> str(Titanic)
 'table' num [1:4, 1:2, 1:2, 1:2] 0 0 35 0 0 0 17 0 118 154 ...
 - attr(*, "dimnames")=List of 4
  ..$ Class   : chr [1:4] "1st" "2nd" "3rd" "Crew"
  ..$ Sex     : chr [1:2] "Male" "Female"
  ..$ Age     : chr [1:2] "Child" "Adult"
  ..$ Survived: chr [1:2] "No" "Yes"
```  

2. 분석을 위해 Titanic 데이터를 데이터프레임으로 변환한 뒤 다시 구조 확인
```  
> Titanic<-as.data.frame(Titanic)
> str(Titanic)
'data.frame':   32 obs. of  5 variables:
 $ Class   : Factor w/ 4 levels "1st","2nd","3rd",..: 1 2 3 4 1 2 3 4 1 2 ...
 $ Sex     : Factor w/ 2 levels "Male","Female": 1 1 1 1 2 2 2 2 1 1 ...
 $ Age     : Factor w/ 2 levels "Child","Adult": 1 1 1 1 1 1 1 1 2 2 ...
 $ Survived: Factor w/ 2 levels "No","Yes": 1 1 1 1 1 1 1 1 1 1 ...
 $ Freq    : num  0 0 35 0 0 0 17 0 118 154 ...
 ```  

3. 데이터 구조가 데이터프레임으로 변환되었음을 확인 가능
```  
> table(Titanic$Class)  

 1st  2nd  3rd Crew 
   8    8    8    8 
```  

Q1. 내장 데이터 Titanic에서 Survived 변수는 승객의 생존여부를 의미한다.  
좌석 등급과 생존여부의 관계를 살펴보기 위해 Class 변수에 따른 Survived 변수의 도수를 표 형태로 나타내보자.  

```  
> table(Titanic$Class, Titanic$Survived)
      
       No Yes
  1st   4   4
  2nd   4   4
  3rd   4   4
  Crew  4   4
```

### (python) pd.crosstab()

In [None]:
import pandas as pd  
import numpy as np

titanic = pd.DataFrame(pd.read_csv("/content/drive/MyDrive/학습 자료/titanic.csv"))
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Q1. 내장 데이터 Titanic에서 Survived 변수는 승객의 생존여부를 의미한다.  
좌석 등급과 생존여부의 관계를 살펴보기 위해 Class 변수에 따른 Survived 변수의 도수를 표 형태로 나타내보자.  


In [None]:
titanic_table = pd.crosstab(index = titanic["Survived"], columns = titanic["Pclass"])
titanic_table

Pclass,1,2,3
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,80,97,372
1,136,87,119


## 상대빈도표

### (R) prob.table()  

범주형 변수에 대한 상대도수(비율)를 알고자 할 때 prop.table 함수를 이용한다.  
이때 **prop.table의 인자로는 table 형태의 객체가 들어가야 한다.**  

Q1. Titanic 데이터에서 Age 변수는 해당 승객이 어른인지 아이인지의 여부를 나타낸다. Age 변수에 따른 생존여부의 관계를 전체에 대한 비율, 행별 비율, 열별 비율로 살펴보자.  

Age에 따른 Survived에 대한 비율을 파악
```  
> prop.table(table(Titanic$Age, Titanic$Survived))
       
          No  Yes
  Child 0.25 0.25
  Adult 0.25 0.25
```  

행 별 비율 파악  
```  
> prop.table(table(Titanic$Age, Titanic$Survived), 1)
       
         No Yes
  Child 0.5 0.5
  Adult 0.5 0.5
```  

열 별 비율 파악  
```
> prop.table(table(Titanic$Age, Titanic$Survived), 2)
       
         No Yes
  Child 0.5 0.5
  Adult 0.5 0.5
```

### (python) pd.crosstab()   

In [None]:
import pandas as pd  
import numpy as np

titanic = pd.DataFrame(pd.read_csv("/content/drive/MyDrive/학습 자료/titanic.csv"))

titanic_table = pd.crosstab(index = titanic["Sex"], columns = titanic["Survived"], normalize = True)
titanic_table

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,0.090909,0.261504
male,0.525253,0.122334


## 조건에 맞는 변수값 조회

### (R) subset()  

Q1. 내장데이터 iris에서 종(Species)가 setosa 이면서, Sepal.Length의 값이 5.5 초과인 데이터들의 Species와 Sepal.Length 변수 값만 조회해보자.  

```  
> subset(iris,
+ subset = (Species == 'setosa' & Sepal.Length > 5.5), 
+ select = c(Species, Sepal.Length))
   Species Sepal.Length
15  setosa          5.8
16  setosa          5.7
19  setosa          5.7
```



### (python) pd.query()



In [None]:
import pandas as pd  

iris = pd.read_csv("/content/drive/MyDrive/학습 자료/iris(150).csv")
iris_query = iris.query('Species == setosa' and 'SepalLength > 5.5') # 조건 포함 따옴표를 넣어야 하는 것에 주의
iris_query

Unnamed: 0,caseno,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
14,15,5.8,4.0,1.2,0.2,setosa
15,16,5.7,4.4,1.5,0.4,setosa
18,19,5.7,3.8,1.7,0.3,setosa
50,51,7.0,3.2,4.7,1.4,versicolor
51,52,6.4,3.2,4.5,1.5,versicolor
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,virginica
146,147,6.3,2.5,5.0,1.9,virginica
147,148,6.5,3.0,5.2,2.0,virginica
148,149,6.2,3.4,5.4,2.3,virginica


## apply 계열 함수 

### (R) - apply  

: 데이터의 행 혹은 열 방향으로 주어진 함수를 한 번에 적용한 뒤 그 결과를 벡터, 배열, 리스트로 반환하는 함수  

Q1. 4행 3열로 이루어진 행렬을 만든 후에 각 행별로 max 값을 구해보자.  

```  
> a<-matrix(1:12, nrow=4, ncol = 3)  

> a
     [,1] [,2] [,3]
[1,]    1    5    9
[2,]    2    6   10
[3,]    3    7   11
[4,]    4    8   12  

> apply(a, 1, max)
[1]  9 10 11 12
```  

Q2. iris 데이터의 1~4열에 대해서 평균을 구해보자.  

```  
> apply(iris[,1:4], 2, mean)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
    5.843333     3.057333     3.758000     1.199333 
```




### (python) - apply() + lambda x

In [None]:
import pandas as pd
import numpy as np  

a = pd.DataFrame(np.array(([1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12])))
print(f"행렬 a = \n {a}", end = '\n\n')
a.apply(lambda x : max(x), axis = 1) # 행 별로 최대값을 계산함

행렬 a = 
    0  1   2
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12



0     9
1    10
2    11
3    12
dtype: int64

### (R) - lapply  

lapply 함수는 벡터, 리스트, 표현식, 데이터 프레임 등에 함수를 적용하고,  
**그 결과를 리스트로 변환** 한다.  

* lapply는 데이터프레임에 대해서는 열 방향으로 함수를 적용한다.  

```  
> a <- c(1,2,3)
> lapply(a, FUN = function(x){x^2})
[[1]]
[1] 1

[[2]]
[1] 4

[[3]]
[1] 9
```

### (R) - sapply    

sapply는 벡터, 리스트, 표현식, 데이터프레임 등에 함수를 적용하고, 그 결과를 벡터 혹은 행렬로 반환한다.  

* lapply와 마찬가지로 데이터프레임에 대해서는 열별로 함수를 적용한다.  

Q1. iris 데이터에서 각 칼럼별 데이터 타입을 구해보자.  

```  
> class(sapply(iris, class))
[1] "list"
```  

Q2. iris 데이터에서 각 칼럼에 summary 함수를 적용해보자.  
```  
> sapply(iris, summary)
```  

### (R) - vapply  

vapply는 sapply와 유사하나 출력결과의 형태를 사용자가 직접 지정가능하다.  

Q1. 1~100까지의 숫자가 저장된 리스트에 fivenum 함수를 적용한 후, 각 값에 이름을 부여하여 리스트 형태로 출력해보자.  

```  
> test <- c(1:100)
> fivenum(test)
[1]   1.0  25.5  50.5  75.5 100.0
> tset<-list(test)
> test2=vapply(test, fivenum, c("Min" = 0, "Q1" = 0, "Median" = 0, "Q3" = 0, "Max" = 0))  

> test2[,1]
   Min     Q1 Median     Q3    Max 
     1      1      1      1      1 
```  

### (R) - tapply  

이 함수를 이용하면 데이터를 특정 기준에 따라 그룹으로 나눈 뒤 각 그룹별로 함수를 적용하여 그 결과를 반환할 수 있다.  

Q1. R의 googleVis 패키지에 있는 Fruits 데이터에서 과일종류 별 판매량의 평균을 구해보자.  

```  
> head(Fruits)
    Fruit Year Location Sales Expenses Profit       Date
1  Apples 2008     West    98       78     20 2008-12-31
2  Apples 2009     West   111       79     32 2009-12-31
3  Apples 2010     West    89       76     13 2010-12-31
4 Oranges 2008     East    96       81     15 2008-12-31
5 Bananas 2008     East    85       76      9 2008-12-31
6 Oranges 2009     East    93       80     13 2009-12-31

> #tapply 함수를 이용하여 과일종류별 판매량의 평균 산출  
> tapply(Fruits$Sales, Fruits$Fruit, mean)
  Apples  Bananas  Oranges 
99.33333 86.66667 95.66667 
```

## 출처 및 참고문헌  

"ADP 실기 데이터 분석 전문가" 2판, 윤종식 지음, 데이터에듀, 2021