## 데이터를 가져오기 위해서 임포트를 하자

In [1]:
from pandas import DataFrame
from pandas import ExcelFile

## 엑셀 파일을 객체 형태로 가져오자

In [2]:
xls = ExcelFile("grade.xlsx")
xls

<pandas.io.excel._base.ExcelFile at 0x253fd3ebd50>

## 데이터프레임으로 만들자

In [3]:
df = xls.parse(xls.sheet_names[0])
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## 1) 특정 열에 접근해보자

In [4]:
# 배열로
arr = df['국어'].values
arr

array([ 98,  88,  92,  63, 120], dtype=int64)

In [5]:
# 리스트로
lis = list(df['국어'])
lis

[98, 88, 92, 63, 120]

## 2) 특정 행에 접근해보자
> 반드시 `loc`이라는 속성을 통해서 접근해야 한다

    location 의 약자 loc[index] 사용.

In [6]:
# 행 데이터 추출
cs = df.loc[0]
cs

이름      철수
학년       1
성별      남자
국어      98
영어     NaN
수학    88.0
과학    64.0
Name: 0, dtype: object

In [7]:
# 행 데이터도 시리즈로 나온다. 
type(cs)

pandas.core.series.Series

## 행이든 열이든 하나를 가져오면 pandas 에서는 `시리즈` 이다.

In [8]:
# 배열로
arr = df.loc[0].values
arr

array(['철수', 1, '남자', 98, nan, 88.0, 64.0], dtype=object)

In [9]:
# 리스트로
lis = list(df.loc[0])
lis

['철수', 1, '남자', 98, nan, 88.0, 64.0]

## 3) 특정 위치의 값에 직접 접근하자

### 열 -> 행 순으로 접근하기 (읽기전용)

In [10]:
# 데이터프레임[열 key][행 index] 
df['국어'][0]

98

### 행 -> 열 순으로 접근하기 (읽기, 쓰기 겸용 / 권장)

In [11]:
# 행이 나오면 반드시 loc 를 사용하자
# 데이터프레임.loc[행 index, 열 key]
df.loc[0, '국어']

98

### 특정 값 변경하기 (행 -> 열 순으로 접근하기만 가능)

In [12]:
# 오류발생
#df['국어'][0] = 100

df.loc[0, '국어'] = 100
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,100,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## =============================================================

# 데이터 전처리

In [13]:
import numpy
from pandas import DataFrame
from pandas import Series
from pandas import ExcelFile
# 추가
from pandas import concat # 행 단위 병합 기능을 제공하는 합수
from pandas import merge  # 열 단위 병합 기능을 제공하는 함수

In [14]:
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,100,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## 원하는 열만 추출할 수 있다

In [15]:
df1 = df.reindex(columns = ['국어', '수학', '과학', '영어', '성별', '학년'])
df1

Unnamed: 0,국어,수학,과학,영어,성별,학년
0,100,88.0,64.0,,남자,1
1,88,62.0,72.0,90.0,여자,2
2,92,,,70.0,남자,1
3,63,31.0,70.0,60.0,여자,3
4,120,,88.0,50.0,남자,4


In [16]:
df2 = df.reindex(columns=['이름', '국어', '수학', '영어'])
df2

Unnamed: 0,이름,국어,수학,영어
0,철수,100,88.0,
1,영희,88,62.0,90.0
2,민수,92,,70.0
3,수현,63,31.0,60.0
4,호영,120,,50.0


## 원하는 행만 추출할 수 있다

In [17]:
df3 = df.reindex(index=[1, 3, 2, 0, 4])
df3

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
1,영희,2,여자,88,90.0,62.0,72.0
3,수현,3,여자,63,60.0,31.0,70.0
2,민수,1,남자,92,70.0,,
0,철수,1,남자,100,,88.0,64.0
4,호영,4,남자,120,50.0,,88.0


In [18]:
df4 = df.reindex(index=[0, 1, 2])
df4

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,100,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,


## 원하는 행과 열을 추출 가능 ( reindex )

In [19]:
df5 = df.reindex(index=[1, 3, 4], columns=['이름', '수학', '과학'])
df5

Unnamed: 0,이름,수학,과학
1,영희,62.0,72.0
3,수현,31.0,70.0
4,호영,,88.0


## 컬럼명과 index명 변경하기 ( rename )

In [20]:
df6 = df.rename(columns={'국어' : 'kor', '영어' : 'eng', '수학' : 'math'}, 
                index={0 : '학생1', 1 : '학생2'})
df6

Unnamed: 0,이름,학년,성별,kor,eng,math,과학
학생1,철수,1,남자,100,,88.0,64.0
학생2,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## 원본은 바뀌지 않는다.

In [21]:
현재인덱스 = list(df.index)
현재인덱스

[0, 1, 2, 3, 4]

In [22]:
현재인덱스2 = list(df6.index)
현재인덱스2

['학생1', '학생2', 2, 3, 4]

In [23]:
현재컬럼 = list(df.columns)
현재컬럼

['이름', '학년', '성별', '국어', '영어', '수학', '과학']

In [24]:
현재컬럼2 = list(df6.columns)
현재컬럼2

['이름', '학년', '성별', 'kor', 'eng', 'math', '과학']

## 이름 앞에 인덱스가 붙어서 지저분해보이므로 이름을 빼서 인덱스에 넣어주자

In [25]:
lis = list(df['이름'])
lis

['철수', '영희', '민수', '수현', '호영']

In [26]:
df7 = df.rename(index={0 : lis[0], 1 : lis[1], 2 : lis[2], 3 : lis[3], 4 : lis[4]})
df7 = df.reindex(columns=['학년', '성별', '국어', '영어', '수학', '과학'])
df7

Unnamed: 0,학년,성별,국어,영어,수학,과학
0,1,남자,100,,88.0,64.0
1,2,여자,88,90.0,62.0,72.0
2,1,남자,92,70.0,,
3,3,여자,63,60.0,31.0,70.0
4,4,남자,120,50.0,,88.0


In [27]:
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,100,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


## 1) inplace=True 를 사용하면 원본을 변경하겠다는 의미이다.

In [28]:
df.rename(index={0 : lis[0], 
                 1 : lis[1], 
                 2 : lis[2], 
                 3 : lis[3], 
                 4 : lis[4]}, inplace=True)
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
철수,철수,1,남자,100,,88.0,64.0
영희,영희,2,여자,88,90.0,62.0,72.0
민수,민수,1,남자,92,70.0,,
수현,수현,3,여자,63,60.0,31.0,70.0
호영,호영,4,남자,120,50.0,,88.0


## 2) 이름 컬럼 삭제

In [29]:
df.drop(['이름'], axis=1, inplace=True)
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,100,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [78]:
df.drop(['영희'], axis=0, inplace=True)
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


## # rename() 함수 사용 시 for문을 이용해서 딕셔너리를 만든다.

In [30]:
df = xls.parse(xls.sheet_names[0])
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
0,철수,1,남자,98,,88.0,64.0
1,영희,2,여자,88,90.0,62.0,72.0
2,민수,1,남자,92,70.0,,
3,수현,3,여자,63,60.0,31.0,70.0
4,호영,4,남자,120,50.0,,88.0


### 1. 이름 컬럼명을 리스트로 만들자 ( for문 돌리기 위해서 )

In [31]:
lis = list(df['이름'])
lis

['철수', '영희', '민수', '수현', '호영']

### 2. 리스트를 기반으로 딕셔너리를 만들자

In [32]:
indexDic = {}
for i, v in enumerate(lis) :
    indexDic[i] = v

indexDic

{0: '철수', 1: '영희', 2: '민수', 3: '수현', 4: '호영'}

### 3. rename 으로 인덱스명을 변경하자

In [33]:
df.rename(index=indexDic, inplace=True)
df

Unnamed: 0,이름,학년,성별,국어,영어,수학,과학
철수,철수,1,남자,98,,88.0,64.0
영희,영희,2,여자,88,90.0,62.0,72.0
민수,민수,1,남자,92,70.0,,
수현,수현,3,여자,63,60.0,31.0,70.0
호영,호영,4,남자,120,50.0,,88.0


### 4. 이름 컬럼을 없애주자

In [34]:
df.drop(['이름'], axis=1, inplace=True)
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


## 특정 기준으로 정렬하기

In [35]:
오름차순 = df.sort_values('국어')
오름차순

Unnamed: 0,학년,성별,국어,영어,수학,과학
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


In [36]:
내림차순 = df.sort_values('국어', ascending=False)
내림차순

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


## `Shift + Tap` 누르면 함수에서 뭐가 들어가는지 나온다.

## `Tap` 누르면 들어가는 인자가 나온다

### 위치값 변경 -> loc[ 행 , 열 ]

In [37]:
df.loc['철수', '국어'] = 88
df

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,88,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


## 같은 값이 있을때 [ ] 안에 두번째 조건을 주자

In [38]:
정렬 = df.sort_values(['국어', '수학'])
정렬

Unnamed: 0,학년,성별,국어,영어,수학,과학
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
철수,1,남자,88,,88.0,64.0
민수,1,남자,92,70.0,,
호영,4,남자,120,50.0,,88.0


In [39]:
정렬2 = df.sort_values(['국어', '수학'], ascending=False)
정렬2

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
민수,1,남자,92,70.0,,
철수,1,남자,88,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [40]:
정렬3 = df.sort_index()
정렬3

Unnamed: 0,학년,성별,국어,영어,수학,과학
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
영희,2,여자,88,90.0,62.0,72.0
철수,1,남자,88,,88.0,64.0
호영,4,남자,120,50.0,,88.0


In [41]:
정렬4 = df.sort_index(ascending=False)
정렬4

Unnamed: 0,학년,성별,국어,영어,수학,과학
호영,4,남자,120,50.0,,88.0
철수,1,남자,88,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0
민수,1,남자,92,70.0,,


## 열 추가하기

In [42]:
df.loc['철수', '국어'] = 98
add_col = df.copy()
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 1. 리스트를 이용해서 열 추가

In [43]:
add_col['한국사'] = [None, 83.0, 72.0, 92.0, 80.0]
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사
철수,1,남자,98,,88.0,64.0,
영희,2,여자,88,90.0,62.0,72.0,83.0
민수,1,남자,92,70.0,,,72.0
수현,3,여자,63,60.0,31.0,70.0,92.0
호영,4,남자,120,50.0,,88.0,80.0


### 2. 전체값을 동일하게 넣기

In [44]:
add_col['세계사'] = 100
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사,세계사
철수,1,남자,98,,88.0,64.0,,100
영희,2,여자,88,90.0,62.0,72.0,83.0,100
민수,1,남자,92,70.0,,,72.0,100
수현,3,여자,63,60.0,31.0,70.0,92.0,100
호영,4,남자,120,50.0,,88.0,80.0,100


### 3. 시리즈를 이용해서 열 추가

> 호영은 데이터가 없으므로 NaN , 민철은 원본데이터에 존재하지 않기때문에 추가되지 않는다.

In [45]:
add_col['사회'] = Series([62, 80, 92, 64, 77], index=['철수', '영희', '민수', '수현', '민철'])
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회
철수,1,남자,98,,88.0,64.0,,100,62.0
영희,2,여자,88,90.0,62.0,72.0,83.0,100,80.0
민수,1,남자,92,70.0,,,72.0,100,92.0
수현,3,여자,63,60.0,31.0,70.0,92.0,100,64.0
호영,4,남자,120,50.0,,88.0,80.0,100,


## 조건에 따라 선택적인 값을 추가하기

### 조건이 참인 경우 A , 아닌 경우 B

In [46]:
# 국어 점수가 70 이상이면 합격, 아니면 불합격을 국어결과 컬럼에 넣자
add_col['국어결과'] = numpy.where(add_col['국어'] >= 70, '합격', '불합격')
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회,국어결과
철수,1,남자,98,,88.0,64.0,,100,62.0,합격
영희,2,여자,88,90.0,62.0,72.0,83.0,100,80.0,합격
민수,1,남자,92,70.0,,,72.0,100,92.0,합격
수현,3,여자,63,60.0,31.0,70.0,92.0,100,64.0,불합격
호영,4,남자,120,50.0,,88.0,80.0,100,,합격


In [47]:
# 영어 정수가 90 이상이면 A학점, 80 이상이면 B학점, 70 이상이면 C학점, 나머지는 F학점
# 만약 NaN 이면 F학점
conditions = [(add_col['영어'] >= 90),  # A 
              (add_col['영어'] >= 80),  # B
              (add_col['영어'] >= 70),  # C
              (add_col['영어'] < 70),   # F
              (numpy.isnan(add_col['영어']))  # F
             ]

In [48]:
# conditions 리스트 순서에 맞게 학점 부여
grade = ['A', 'B', 'C', 'F', 'F']

In [49]:
add_col['영어학점'] = numpy.select(conditions, grade)
add_col

Unnamed: 0,학년,성별,국어,영어,수학,과학,한국사,세계사,사회,국어결과,영어학점
철수,1,남자,98,,88.0,64.0,,100,62.0,합격,F
영희,2,여자,88,90.0,62.0,72.0,83.0,100,80.0,합격,A
민수,1,남자,92,70.0,,,72.0,100,92.0,합격,C
수현,3,여자,63,60.0,31.0,70.0,92.0,100,64.0,불합격,F
호영,4,남자,120,50.0,,88.0,80.0,100,,합격,F


## 행과 열 삭제

In [50]:
del_row = df.copy()
del_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 1) 행 삭제

#### - 특정 행 삭제
> 행 삭제는 원본에 반영되지 않고, `결과가 적용된 새로운 데이터프레임이 반환`된다.

#### 삭제 결과를 원본에 반영하려면 inplace=True 사용

In [51]:
# 원본에 반영 안됨
del_row.drop('철수')
del_row

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [52]:
# 새로운 데이터프레임이 반환된다.
d1 = del_row.drop('철수')
d1

Unnamed: 0,학년,성별,국어,영어,수학,과학
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


#### - 여러 행 삭제하기
> 리스트 형태의 행의 이름을 파라미터로 전달한다.<br>
존재하지 않은 행을 삭제하고자 할 경우 에러가 발생한다.

In [53]:
# 없으면 오류발생
#d2 = del_row.drop(['호영', '영희', '민호'])

d2 = del_row.drop(['호영', '영희'])
d2

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0


#### - 인덱스를 통해서 삭제하기

In [54]:
# 0번째 행 삭제
d3 = del_row.drop(del_row.index[0])
d3

Unnamed: 0,학년,성별,국어,영어,수학,과학
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


#### - 인덱스를 범위로 지정해서 삭제

In [55]:
# 1 ~ 3 까지 ( 4 는 포함하지 않음 )
d4 = del_row.drop(del_row.index[1:4])
d4

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
호영,4,남자,120,50.0,,88.0


In [56]:
del_col = df.copy()
del_col

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 2) 열 삭제

- axis = 0 : x축 , 행에 대한 적용 , 기본값
- axis = 1 : y축 , 열에 대한 적용

> inplace=True 를 적용하지 않으면, 원본은 삭제되지 않는다.<br>
> 별도로 저장하지 않아도 삭제된 결과는 볼 수 있지만, 사용하기 위해서는 반환되는 값을 받아야한다.

#### - 컬럼 이름을 통해서 열 삭제

In [57]:
del_col.drop('국어', axis=1)

Unnamed: 0,학년,성별,영어,수학,과학
철수,1,남자,,88.0,64.0
영희,2,여자,90.0,62.0,72.0
민수,1,남자,70.0,,
수현,3,여자,60.0,31.0,70.0
호영,4,남자,50.0,,88.0


In [58]:
del_col

Unnamed: 0,학년,성별,국어,영어,수학,과학
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


In [59]:
k1 = del_col.drop('국어', axis=1)
k1

Unnamed: 0,학년,성별,영어,수학,과학
철수,1,남자,,88.0,64.0
영희,2,여자,90.0,62.0,72.0
민수,1,남자,70.0,,
수현,3,여자,60.0,31.0,70.0
호영,4,남자,50.0,,88.0


#### - 열 이름을 리스트로 만들어서 여러 열 삭제 가능

In [60]:
k2 = del_col.drop(['영어', '수학'], axis=1)
k2

Unnamed: 0,학년,성별,국어,과학
철수,1,남자,98,64.0
영희,2,여자,88,72.0
민수,1,남자,92,
수현,3,여자,63,70.0
호영,4,남자,120,88.0


#### - 인덱스를 사용하여 열 삭제

In [61]:
k3 = del_col.drop(del_col.columns[3], axis=1)
k3

Unnamed: 0,학년,성별,국어,수학,과학
철수,1,남자,98,88.0,64.0
영희,2,여자,88,62.0,72.0
민수,1,남자,92,,
수현,3,여자,63,31.0,70.0
호영,4,남자,120,,88.0


#### - 범위를 사용하여 열 삭제

In [62]:
k4 = del_col.drop(del_col.columns[:2], axis=1)
k4

Unnamed: 0,국어,영어,수학,과학
철수,98,,88.0,64.0
영희,88,90.0,62.0,72.0
민수,92,70.0,,
수현,63,60.0,31.0,70.0
호영,120,50.0,,88.0


## 두개 이상의 데이터프레임 병합하기

### 1) 행 단위 병합
>샘플데이터 만들기

In [63]:
df_top = DataFrame({'국어' : [90, 82], '수학' : [81, 76]}, index=['민철', '철수'])
df_top

Unnamed: 0,국어,수학
민철,90,81
철수,82,76


In [64]:
df_middle = DataFrame({'국어' : [70, 62], '수학' : [77, 68]}, index=['영민', '정수'])
df_middle

Unnamed: 0,국어,수학
영민,70,77
정수,62,68


In [65]:
df_bottom = DataFrame({'영어' : [70, 88], '과학' : [81, 76]}, index=['민철', '태영'])
df_bottom

Unnamed: 0,영어,과학
민철,70,81
태영,88,76


### A 에서 B 를 이어붙이기
- 단순히 세로로 병합만 수행
- 데이터 프레임간에 컬럼이 다르더라도 존재하지 않는 컬럼은 빈값(결측치)로 채워 넣는다.

In [66]:
# 단순히 붙이는 것이다.
df_a = concat([df_top, df_middle, df_bottom], sort=True)
df_a

Unnamed: 0,과학,국어,수학,영어
민철,,90.0,81.0,
철수,,82.0,76.0,
영민,,70.0,77.0,
정수,,62.0,68.0,
민철,81.0,,,70.0
태영,76.0,,,88.0


### 2) 열 단위 병합
> 한번에 두개의 데이터프레임만 병합가능함 

#### - 인덱스가 지정하지 않는 샘플 데이터 프레임 만들기

In [67]:
df_left = DataFrame({'고객번호' : [1001, 1002, 1003, 1004], 
                    '이름' : ['철수', '영희', '민철', '미영']})
df_left

Unnamed: 0,고객번호,이름
0,1001,철수
1,1002,영희
2,1003,민철
3,1004,미영


In [68]:
df_right = DataFrame({'고객번호' : [1001, 1002, 1003, 1005], 
                    '금액' : [1000, 2000, 1500, 500]})
df_left

Unnamed: 0,고객번호,이름
0,1001,철수
1,1002,영희
2,1003,민철
3,1004,미영


#### - 두 데이터프레임의 공통 컬럼을 기준으로 병합하기
> 양쪽 데이터프레임에 모두 존재하는 데이터만 보여준다. ( inner Join 과 같은 개념 )

In [69]:
# 병합시 제외되는 항목들
# df_left 의 고객번호 1004 데이터는 df_right 의 고객번호 컬럼과 겹치지 않는다.
# df_right 의 고객번호 1005 데이터는 df_left 의 고객번호 컬럼과 겹치지 않는다.
merge(df_left, df_right)

Unnamed: 0,고객번호,이름,금액
0,1001,철수,1000
1,1002,영희,2000
2,1003,민철,1500


#### - 왼쪽 데이터프레임 기준으로 오른쪽 데이터프레임을 병합하기

> `how=left` 파라미터는 왼쪽 데이터프레임의 모든 데이터를 보여준다. ( left outer join 과 같은 개념 )

In [70]:
merge(df_left, df_right, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,철수,1000.0
1,1002,영희,2000.0
2,1003,민철,1500.0
3,1004,미영,


#### - 오른쪽 데이터프레임 기준으로 왼쪽 데이터프레임을 병합하기

> `how=right` 파라미터는 오른쪽 데이터프레임의 모든 데이터를 보여준다. ( right outer join 과 같은 개념 )

In [71]:
merge(df_left, df_right, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,철수,1000
1,1002,영희,2000
2,1003,민철,1500
3,1005,,500


#### - 양쪽 데이터프레임 기준으로 병합하기

> `how=outer` 파라미터는 값이 한쪽만 있어도 데이터를 보여준다. ( full outer join 과 같은 개념 )

In [72]:
merge(df_left, df_right, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,철수,1000.0
1,1002,영희,2000.0
2,1003,민철,1500.0
3,1004,미영,
4,1005,,500.0


#### - 중복되는 데이터가 존재하는 경우 열단위 병합

In [73]:
df_first = DataFrame({'아이디' : ['hello', 'world', 'python', 'hello'],
                      '결제금액' : [14000, 13000, 15000, 13000]})
df_first

Unnamed: 0,아이디,결제금액
0,hello,14000
1,world,13000
2,python,15000
3,hello,13000


In [74]:
df_second = DataFrame({'아이디' : ['hello', 'python', 'python', 'world'],
                      '결제금액' : [300, 500, 100, 200]})
df_second

Unnamed: 0,아이디,결제금액
0,hello,300
1,python,500
2,python,100
3,world,200


In [75]:
# on='아이디' : 아이디명을 기준으로 병합한다.
merge(df_first, df_second, on='아이디')

Unnamed: 0,아이디,결제금액_x,결제금액_y
0,hello,14000,300
1,world,13000,200
2,python,15000,500
3,python,15000,100
4,hello,13000,300
