### Pandas 모듈 사용하기

In [3]:
import pandas as pd

### Series 사용

- Series 생성하기

In [2]:
# 리스트를 이용해서 만들기
s1 = pd.Series([4, 7, -5, 3])
s1

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# 인덱스 지정하여 생성
s2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
s2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
# 딕셔너리 객체로 Series 생성
dic1 = {'a':4, 'b':7, 'c':-5, 'd':3}
s3 = pd.Series(dic1)

# 인덱스 라벨 변경하기
s3.index = ['e', 'f', 'g', 'h']
s3

e    4
f    7
g   -5
h    3
dtype: int64

- Series 정보 확인

In [9]:
# Series 값 확인
s3.values

array([ 4,  7, -5,  3], dtype=int64)

In [10]:
# Series 인덱스 확인
s3.index

Index(['e', 'f', 'g', 'h'], dtype='object')

In [11]:
# Serise 값 데이터 타입 확인
s3.dtype

dtype('int64')

##### 실습
![image.png](attachment:image.png)

In [15]:
s2015 = pd.Series([9904312, 3448737, 2890451, 2466054], index = ['서울', '부산', '인천', '대구'])
s2015

서울    9904312
부산    3448737
인천    2890451
대구    2466054
dtype: int64

- Series에 이름 지정

In [17]:
# Series 이름
s2015.name = '인구'

# Series 인덱스 이름
s2015.index.name = '도시'
s2015

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466054
Name: 인구, dtype: int64

- Series 연산

In [18]:
s2015/1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466054
Name: 인구, dtype: float64

In [19]:
s2015*10

도시
서울    99043120
부산    34487370
인천    28904510
대구    24660540
Name: 인구, dtype: int64

In [20]:
s2015+7

도시
서울    9904319
부산    3448744
인천    2890458
대구    2466061
Name: 인구, dtype: int64

In [21]:
s2015>=3000000

도시
서울     True
부산     True
인천    False
대구    False
Name: 인구, dtype: bool

In [22]:
s2015 + s2015

도시
서울    19808624
부산     6897474
인천     5780902
대구     4932108
Name: 인구, dtype: int64

In [24]:
dic2 = {"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}
s2010 = pd.Series(dic2)
s2010

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [25]:
s2015 - s2010

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

- 색인
    - 인덱싱
    - 슬라이싱
    - boolean 색인

In [33]:
# Series 인덱싱
# 1. 숫자형 인덱스 사용
# 2. 인덱스 라벨 사용

print(s2015[1])
print(s2015['부산'])

# Series클래스를 유지한 상태로 결과 확인 - 대괄호 2개
s2015[[1]]
s2015[[1,3,0]]

3448737
3448737


도시
부산    3448737
대구    2466054
서울    9904312
Name: 인구, dtype: int64

In [38]:
# Series 슬라이싱
# 1. 숫자형 인덱스 사용
# 2. 인덱스 라벨 사용

print(s2015[1:3])
print(s2015['부산':'대구'])

print(s2015[1:2])

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466054
Name: 인구, dtype: int64
도시
부산    3448737
Name: 인구, dtype: int64


In [42]:
# boolean 색인
b = [True, True, False, True]
b = s2015>=3000000
s2015[b]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [54]:
# null값 판별
# Series클래스명.isnull() -> null은 True
# Series클래스명.notnull() -> null은 False

s15_10 = s2015-s2010
s15_10.isnull()
s15_10[s15_10.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [71]:
ratePopulation = (s2015 - s2010) / s2010 * 100
ratePopulation[ratePopulation.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

- Series 데이터 갱신, 추가, 삭제

In [74]:
ratePopulation['부산'] = 1.6
ratePopulation['광주'] = 1.41
del ratePopulation['대구']
ratePopulation

대전         NaN
부산    1.600000
서울    2.832690
인천    9.818107
광주    1.410000
dtype: float64

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### DataFrame 사용
- DataFrame 생성하기

In [75]:
# 딕셔너리 이용해서 생성하기
dic3 = {"2015": [9904312, 3448737, 2890451, 2466052], "2010": [9631482, 3393191, 2632035, 2431774]}
dic3

{'2015': [9904312, 3448737, 2890451, 2466052],
 '2010': [9631482, 3393191, 2632035, 2431774]}

In [77]:
df1 = pd.DataFrame(dic3)
df1.index = ['서울', '부산', '인천', '대구']
df1

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [88]:
# 리스트 이용해서 생성하기
li1 = [[9904312, 3448737, 2890451, 2466052],[9631482, 3393191, 2632035, 2431774]]
ind = ['2015', '2010']
col = ['서울', '부산', '인천', '대구']
df2 = pd.DataFrame(li1, index = ind, columns = col)
# df2.index = ind
# df2.columns = col
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [89]:
li2 = [[9904312, 9631482], [3448737, 3393191], [2890451, 2632035], [2466052, 2431774]]
df3 = pd.DataFrame(li2)
df3

Unnamed: 0,0,1
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


- DataFrame 행/열 변환

In [94]:
print(df2.T)
print(df2)
df2 = df2.T
print(df2)

           서울       부산       인천       대구
2015  9904312  3448737  2890451  2466052
2010  9631482  3393191  2632035  2431774
       2015     2010
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035
대구  2466052  2431774
           서울       부산       인천       대구
2015  9904312  3448737  2890451  2466052
2010  9631482  3393191  2632035  2431774


In [97]:
df2 = df2.transpose()
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


- DataFrame 정보 확인

In [109]:
# DataFrame 값 확인
print(df1.values)

# DataFrame 인덱스 확인
print(df1.index)

# DataFrame 컬럼 확인
print(df1.columns)

# 행/열 개수
print(df1.shape)

# 차원 확인
print(df1.ndim)

# 전체 요소 개수
print(df1.size)

[[9904312 9631482 9762546]
 [3448737 3393191 3512547]
 [2890451 2632035 2517680]
 [2466052 2431774 2456016]]
Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['2015', '2010', '2005'], dtype='object')
(4, 3)
2
12


In [110]:
# 데이터 정보 일부 보기
df1.head(3) #앞에서부터 보기


Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680


In [111]:
df1.tail(2) #뒤에서부터 보기

Unnamed: 0,2015,2010,2005
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


- 컬럼 추가하기

In [105]:
df1['2005'] = [9762546, 3512547, 2517680, 2456016]
df1

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


- DataFrame 색인
    - 인덱싱 : 열(컬럼) 인덱싱
    - 슬라이싱 : 행 슬라이싱
    - boolean 색인 : 행 색인
    - 인덱서 활용 : 행, 열 색인

In [118]:
# 인덱싱 : 열(컬럼)인덱싱
# - 컬럼명만 사용 가능(숫자 사용 불가능), Series 형태로 가능
# - 행인덱싱 불가능
df1['2015'] 

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [119]:
df1[['2005']] # 대괄호 2개면 데이터프레임 형태로 가능

Unnamed: 0,2005
서울,9762546
부산,3512547
인천,2517680
대구,2456016


In [120]:
# DataFrame 슬라이싱 : 행 색인
# - 숫자형 인덱스, 인덱스라벨 사용 가능
# - 컬럼 슬라이싱 불가능

df1['서울':'부산']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [130]:
df1[['2015']][1:]

Unnamed: 0,2015
부산,3448737
인천,2890451
대구,2466052


In [131]:
df1[['2010', '2005']][1:3]

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


![image-2.png](attachment:image-2.png)

In [140]:
# loc 인덱서 : 인덱스라벨과 컬럼명
df1.loc['부산':'인천', '2010':'2005']

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [142]:
# iloc 인덱서 : 숫자형 인덱스
df1.iloc[1:3,1:] # DataFrame 형태

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [143]:
df1.iloc[1:3, 2] # Series 형태

부산    3512547
인천    2517680
Name: 2005, dtype: int64

In [144]:
df1

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [145]:
# boolean 색인 : 행 색인
# loc는 적용 가능, iloc는 적용 불가능

li2 = [True, True, False, False] # True에 매칭되는 행만 출력
df1[li2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [153]:
li3 = df1['2010'] >= 2500000
df1[li3][['2010', '2005']]

Unnamed: 0,2010,2005
서울,9631482,9762546
부산,3393191,3512547
인천,2632035,2517680


In [154]:
df1.loc[li3, '2010':'2005']

Unnamed: 0,2010,2005
서울,9631482,9762546
부산,3393191,3512547
인천,2632035,2517680


In [156]:
df1.iloc[li3] 

ValueError: iLocation based boolean indexing cannot use an indexable as a mask

### population 실습

In [163]:
population_number = pd.read_csv('population_number.csv', encoding='euc-kr', index_col = '도시')

In [166]:
# 각각의 값이 나온 횟수를 세어주는 기능
population_number['2015'].value_counts()

9904312    1
3448737    1
2890451    1
2466052    1
Name: 2015, dtype: int64

In [167]:
# 결측치는 제외하고 값들의 갯수를 세어준다
population_number['2010'].value_counts()

9631482.0    1
2632035.0    1
2431774.0    1
Name: 2010, dtype: int64

In [None]:
# 정렬(sort)
# sort_index : 인덱스 값을 기준으로 정렬
# sort_values : 데이터 값을 기준으로 정렬

In [173]:
# 오름차순이 기본
# 내림차순 변경 : ascending = False
population_number.sort_index(ascending = False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [174]:
# 내림차순
population_number['2010'].sort_values(ascending = False)

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [176]:
# by = 컬럼값
# 컬럼값의 데이터를 통해 정렬
# 여러 기준을 통해 정렬 가능

population_number.sort_values( by = '2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [182]:
# '지역', '2010'을 통해 정렬
population_number.sort_values( by = ['지역', '2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


#### score 실습

In [188]:
# score.csv 파일 불러오기
score = pd.read_csv('score.csv', encoding='euc-kr', index_col = '과목')

In [189]:
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [193]:
# 기본값 axis=0
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [194]:
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [198]:
# 과목별 점수 총합 순위
score.sum(axis=1).sort_values(ascending=False)

과목
크롤링    298
DB     282
자바     253
파이썬    201
Web    163
dtype: int64

In [213]:
# 학급별 점수 총합 순위
score.sum(axis=0).sort_values(ascending=False)

합계    5985.0
2반     388.0
3반     295.0
1반     271.0
4반     243.0
dtype: float64

![image.png](attachment:image.png)

In [218]:
# '합계' 컬럼 생성
# 1. 과목별 총합 값 구하기
# 2. 컬럼 생성

score["합계"] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,1206.0
DB,76,92,45,69,1692.0
자바,47,92,45,69,1518.0
크롤링,92,81,85,40,1788.0
Web,11,79,47,26,978.0


In [219]:
score["합계"] = score.iloc[:, :3]

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,1206.0
DB,76,92,45,69,1692.0
자바,47,92,45,69,1518.0
크롤링,92,81,85,40,1788.0
Web,11,79,47,26,978.0


In [228]:
score["합계"] = score.iloc[:, :4].sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


![image.png](attachment:image.png)

In [244]:
score["평균"] = score.iloc[:, :4].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [None]:
# 평균 컬럼 생성
# 1. 과목별 평균 값 구하기
# 2. 평균 컬럼 생성


![image.png](attachment:image.png)

In [259]:
score.loc['반평균'] = score.iloc[:5, :].mean(axis=0)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [246]:
# 반평균 행 데이터 생성
# 1. 반평균 값 구하기
# 2. 1을 이용해 반평균 생성
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [259]:
score.loc['반평균'] = score.iloc[:5, :].mean(axis=0) # score.loc['반평균'] = score.mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [260]:
score.iloc[:5, :].mean(axis=0)

1반     54.20
2반     77.60
3반     59.00
4반     48.60
합계    239.40
평균     59.85
dtype: float64

In [262]:
# 최대, 최소 확인
score.max()

1반     92.0
2반     92.0
3반     85.0
4반     69.0
합계    298.0
평균     74.5
dtype: float64

In [263]:
# 과목별 최대값 확인
score.max(axis=1)

과목
파이썬    201.0
DB     282.0
자바     253.0
크롤링    298.0
Web    163.0
반평균    239.4
dtype: float64

In [264]:
# 과목별 최소값 확인
score.min(axis=1)

과목
파이썬    39.0
DB     45.0
자바     45.0
크롤링    40.0
Web    11.0
반평균    48.6
dtype: float64

In [265]:
# 반별 최소값
score.min(axis=0)

1반     11.00
2반     44.00
3반     45.00
4반     26.00
합계    163.00
평균     40.75
dtype: float64

In [273]:
# 과목별 최대값과 최소값의 차이
max_score = score.loc[:'Web',:'4반'].max(axis = 1)
min_score = score.loc[:'Web',:'4반'].min(axis = 1)

In [274]:
max_score - min_score

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

![image.png](attachment:image.png)

In [None]:
# apply 함수 적용
# 행 혹은 열 단위로 더 복잡한 처리를 할 때 사용

In [277]:
# 함수 정의
# 과목별 max와 min 점수 차이 구하기
def max_min(x):
    return x.max() - x.min()

In [278]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [280]:
score.loc[:'Web', '1반':'4반'].apply(max_min, axis = 1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

##### 카테고리 생성하기
- 데이터를 구간별로 구분하기!

In [281]:
ages = [0, 2, 10, 21, 23, 36, 38, 39, 42, 45, 47, 53, 54, 61, 64, 26, 27, 99, 100, 85, 87, 93]

bins = [0, 15, 25, 35, 60, 99] # 구간
# 구간 -> 초과~이하
labels = ['미성년자', '청년', '중년', '장년', '노년'] # 구간의 이름
# 1~15 - '미성년자', 16~26 - '청년', 26~35 - '중년', 36~60 - '장년', 61~99 - '노년'

cats = pd.cut(ages, bins, labels=labels)

In [282]:
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', NaN, '노년', '노년', '노년']
Length: 22
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [283]:
cats.value_counts()
# 결측치를 제외

미성년자    2
청년      2
중년      2
장년      8
노년      6
dtype: int64

In [287]:
age = pd.DataFrame(ages, columns = ['나이'])
age

Unnamed: 0,나이
0,0
1,2
2,10
3,21
4,23
5,36
6,38
7,39
8,42
9,45


In [288]:
age['연령대'] = cats

In [289]:
age

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,36,장년
6,38,장년
7,39,장년
8,42,장년
9,45,장년


### DataFrame 병합
- concat
- merge

df['이름'] -> 컬럼 / 
df[0:3] -> 행 / 
컬럼, 행 나눠서 동시에 가져오려면 loc[인덱스라벨(행), 컬럼명(열)], iloc[행(숫자), 열(숫자)] 인덱서 사용

In [5]:
df1 = pd.DataFrame({'a':['a0','a1','a2','a3'],
                   'b':['b0','b1','b2','b3'],
                   'c':['c0','c1','c2','c3']},
                  index = [0,1,2,3])

df2 = pd.DataFrame({'a':['a2','a3','a4','a5'],
                   'b':['b2','b3','b4','b5'],
                   'c':['c2','c3','c4','c5'],
                   'd':['d2','d3','d4','d5']},
                   index = [2,3,4,5])

df3 = pd.DataFrame({'a':['a3','a4','a5','a6'],
                   'b':['b3','b4','b5','b6'],
                   'c':['c3','c4','c5','c6'],
                   'd':['d3','d4','d5','d6']},
                   index = [3,4,5,6])

In [6]:
df1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3


In [7]:
df2

Unnamed: 0,a,b,c,d
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


In [8]:
df3

Unnamed: 0,a,b,c,d
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6


In [14]:
resultDf1 = pd.concat([df1, df2, df3])
resultDf1

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
3,a3,b3,c3,d3
4,a4,b4,c4,d4


In [16]:
# 기존인덱스를 무시하고 새로운 인덱스를 부여
resultDf2 = pd.concat([df1, df2, df3], ignore_index=True)
resultDf2

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5
8,a3,b3,c3,d3
9,a4,b4,c4,d4


In [20]:
# 행(인덱스 라벨)을 기준으로 병합 Shift Tab 누르면 정보 확인 가능

resultDf3 = pd.concat([df1, df2, df3], axis=1) # Outer join
resultDf3

Unnamed: 0,a,b,c,a.1,b.1,c.1,d,a.2,b.2,c.2,d.1
0,a0,b0,c0,,,,,,,,
1,a1,b1,c1,,,,,,,,
2,a2,b2,c2,a2,b2,c2,d2,,,,
3,a3,b3,c3,a3,b3,c3,d3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4,a4,b4,c4,d4
5,,,,a5,b5,c5,d5,a5,b5,c5,d5
6,,,,,,,,a6,b6,c6,d6


![image.png](attachment:image.png)

In [23]:
resultDf4 = pd.concat([df1, df2, df3], axis=1, join = 'inner')
resultDf4

Unnamed: 0,a,b,c,a.1,b.1,c.1,d,a.2,b.2,c.2,d.1
3,a3,b3,c3,a3,b3,c3,d3,a3,b3,c3,d3


In [24]:
sr1 = pd.Series(['e0','e1','e2','e3'], name = 'e')
sr2 = pd.Series(['f0','f1','f2'], name = 'f')
sr3 = pd.Series(['g0','g1','g2','g3'], name = 'g')

In [27]:
pd.concat([sr1, sr2, sr3], axis = 1)

Unnamed: 0,e,f,g
0,e0,f0,g0
1,e1,f1,g1
2,e2,f2,g2
3,e3,,g3


In [32]:
# Series 간 병합
resultDf5 = pd.concat([sr1, sr2, sr3], axis = 1)
resultDf5

Unnamed: 0,e,f,g
0,e0,f0,g0
1,e1,f1,g1
2,e2,f2,g2
3,e3,,g3


In [33]:
# Series와 DataFrame 병합

sr4 = pd.Series(['h0','h1','h2','h3'], name = 'h', index = [1,3,4,5])
sr4

1    h0
3    h1
4    h2
5    h3
Name: h, dtype: object

In [36]:
resultDf6 = pd.concat([sr4, df2], axis=1)
resultDf6

Unnamed: 0,h,a,b,c,d
1,h0,,,,
3,h1,a3,b3,c3,d3
4,h2,a4,b4,c4,d4
5,h3,a5,b5,c5,d5
2,,a2,b2,c2,d2


In [42]:
dic1 = {'key' : ['K0', 'K2', 'K3', 'K4'], 'A' : ['A0', 'A1', 'A2', 'A3'], 'B' : ['B0', 'B1', 'B2', 'B3']}
df4 = pd.DataFrame(dic1)
df4

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K2,A1,B1
2,K3,A2,B2
3,K4,A3,B3


In [43]:
dic2 = {'key' : ['K0', 'K1', 'K2', 'K3'], 'C' : ['C0', 'C1', 'C2', 'C3'], 'D' : ['D0', 'D1', 'D2', 'D3']}
df5 = pd.DataFrame(dic2)
df5

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [46]:
resultDf7 = pd.merge(df4, df5, on = 'key')
resultDf7

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3


In [47]:
resultDf8 = pd.merge(df4, df5, on = 'key', how = 'outer')
resultDf8

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A1,B1,C2,D2
2,K3,A2,B2,C3,D3
3,K4,A3,B3,,
4,K1,,,C1,D1


![image.png](attachment:image.png)

In [49]:
resultDf9 = pd.merge(df4, df5, on = 'key', how = 'right')
resultDf9

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,,,C1,D1
2,K2,A1,B1,C2,D2
3,K3,A2,B2,C3,D3


- 행/열 삭제

In [50]:
resultDf9.drop(1) # 원본 데이터가 바뀌진 않음.

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
2,K2,A1,B1,C2,D2
3,K3,A2,B2,C3,D3


In [52]:
resultDf9.drop(1, inplace=True) # 원본 데이터 변경

KeyError: '[1] not found in axis'

In [53]:
resultDf9.drop('B', axis=1) # 'B' 컬럼 변경

Unnamed: 0,key,A,C,D
0,K0,A0,C0,D0
2,K2,A1,C2,D2
3,K3,A2,C3,D3
