In [1]:
# 라이브러리 import
import pandas as pd

### Series 생성

In [2]:
# 인덱스와 값으로 구성됨
population = pd.Series([9904312,3448737,2890451,2466052])
population

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64

In [3]:
population = pd.Series([9904312,3448737,2890451,2466052]
         ,index=['서울','부산','인천','대구'])
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

### Series 데이터 확인
- values : 값 확인
- index : 인덱스 확인
- dtype : 데이터 타입 확인

In [4]:
population.values

array([9904312, 3448737, 2890451, 2466052], dtype=int64)

In [5]:
population.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [6]:
population.dtype

dtype('int64')

### Series에 이름 지정
- name
- index.name

In [8]:
# series에 이름달기
population.name = '인구'

In [9]:
population

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [14]:
# series의 인덱스에 이름달기
population.index.name = '도시'

In [15]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### Series 연산

In [18]:
population / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### Series 인덱싱, 슬라이싱

In [27]:
# 인덱싱
# index 번호
print(population[1])
# index 값
print(population['부산'])

3448737
3448737


In [28]:
print(population['대구'])
print(population[3])

2466052
2466052


In [38]:
# 한 번에 여러가지 값 인덱싱 가능 - 리스트 활용!
population[[0,2,1]] # index 번호
# index 값
population[['서울','인천','부산']]

도시
서울    9904312
인천    2890451
부산    3448737
Name: 인구, dtype: int64

In [39]:
# Boolean 인덱싱 1
population >= 2500000 #불리언

도시
서울     True
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [41]:
population[population >= 2500000]

도시
서울    9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [51]:
# Boolean 인덱싱 2
population[population<= 5000000] 

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [59]:
# Boolean 인덱싱 3
# 250만 이상이면서, 500만 이하
# and => &, or => |
# 먼저 소활호로 묶어 준다!
(population>= 2500000) & (population<= 5000000)

도시
서울    False
부산     True
인천     True
대구    False
Name: 인구, dtype: bool

In [60]:
population[(population>= 2500000) & (population<= 5000000)]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [64]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [72]:
# 슬라이싱 [시작:끝]
# 자동 부여 되는 index 번호(숫자)
# [이상:미만]
population[1:3]
# 지정한 index 값 (문자)
# [이상:이하]
population['부산':'인천']

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [71]:
population

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 딕셔너리 객체로 Series 생성
- 딕셔너리 key와 value로 구성
- key 값은 index
- value 값은 value

In [73]:
data = {'서울':9631482,
       '부산':3393191,
       '인천':2632035,
       '대전':190158}
data

{'서울': 9631482, '부산': 3393191, '인천': 2632035, '대전': 190158}

In [76]:
population2 = pd.Series(data)

In [77]:
population2

서울    9631482
부산    3393191
인천    2632035
대전     190158
dtype: int64

In [81]:
#2010년도 도시별 인구
print(population2.index)
print(population2.values)

Index(['서울', '부산', '인천', '대전'], dtype='object')
[9631482 3393191 2632035  190158]


In [82]:
#2015년도 도시별 인구
print(population.index)
print(population.values)

Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
[9904312 3448737 2890451 2466052]


In [86]:
# 2015년도와 2010년도의 인구 증감 계산
ds = population - population2
# 결측치 생성

In [87]:
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [88]:
population2

서울    9631482
부산    3393191
인천    2632035
대전     190158
dtype: int64

In [97]:
# isnull()
# 결측치만 출력
print(ds.isnull()) # 불리언
print('\n')
ds[ds.isnull()]

대구     True
대전     True
부산    False
서울    False
인천    False
dtype: bool




대구   NaN
대전   NaN
dtype: float64

In [102]:
# notnull()
# 결측치가 아닌 값만 출력
print(ds.notnull()) # 불리언
print('\n')
ds[ds.notnull()] # 불리언 인덱싱

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool




부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

### Series 데이터 갱신, 추가, 삭제

In [105]:
# 삭제
del ds['대구']
ds

대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [109]:
# 수정
ds['대전'] = 8000

In [110]:
ds

대전      8000.0
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [113]:
# 추가
ds['광주'] = 100000

In [114]:
ds

대전      8000.0
부산     55546.0
서울    272830.0
인천    258416.0
광주    100000.0
dtype: float64

### DataFrame 사용
- Series : 1차원
- DataFrame : 2차원


In [1]:
import pandas as pd

In [2]:
# 셔딕너리 객체로 DataFrame 생성
# key : 컬럼 이름
data = {'2015' : [9904312,3448737, 2890451, 2466052],
       '2010': [9631482,3393191,2632035,2431774]}
data

{'2015': [9904312, 3448737, 2890451, 2466052],
 '2010': [9631482, 3393191, 2632035, 2431774]}

In [3]:
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [4]:
# Series - key : 인덱스
pd.Series(data)

2015    [9904312, 3448737, 2890451, 2466052]
2010    [9631482, 3393191, 2632035, 2431774]
dtype: object

In [5]:
df

Unnamed: 0,2015,2010
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


In [6]:
# DataFrame 인덱스 수정
df.index = ['서울', '부산', '인천', '대구']

In [7]:
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [8]:
#list를 사용해서 DataFrame 생성 1
data = [[9904312, 3448737, 2890451, 2466052],
       [9631482, 3393191, 2632035, 2431774]]
ind = ['2015','2010']
col = ['서울','부산','인천','대구']
df = pd.DataFrame(data,index = ind, columns=col)
df

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [9]:
#list를 사용해서 DataFrame 생성 2
data = [[9904312, 9631482],
       [3448737,3393191],
       [2890451,2632035],
       [2466052,2431774]]
ind = ['서울','부산','인천','대구']
col = ['2015','2010']
pd.DataFrame(data, index = ind, columns = col)

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [10]:
df

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [11]:
# 전치 이용, 행과 열 바꾸기
# 변수.T
df = df.T
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


### DataFrame 값 확인
- values : 값 확인
- index : 인덱스 확인
- columns : 컬럼 확인

In [12]:
df.values

array([[9904312, 9631482],
       [3448737, 3393191],
       [2890451, 2632035],
       [2466052, 2431774]], dtype=int64)

In [13]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [14]:
df.columns

Index(['2015', '2010'], dtype='object')

### DataFrame 인덱싱,슬라이싱
- index 번호, 값 사용 가능
- index, columns 사용해서 인덱싱, 슬라이싱

In [15]:
# 컬럼 인덱싱 1
df['2015']
# 결과를 Series로 출력

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [16]:
df[['2015']]

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [17]:
# 여러 컬럼 인덱싱
df[['2010','2015','2010']]

Unnamed: 0,2010,2015,2010.1
서울,9631482,9904312,9631482
부산,3393191,3448737,3393191
인천,2632035,2890451,2632035
대구,2431774,2466052,2431774


In [18]:
df

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [22]:
# 새로운 컬럼 생성
# 변수[컬럼이름] = 값
df['2005'] = [9762546,3512547,2517680,2456016]

In [24]:
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [25]:
# 데이터 프레임 슬라이싱 1
df[ 0:2 ]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [28]:
# 데이터 프레임 슬라이싱 2
# 값
df[:'부산']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [30]:
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [None]:
# 행과 열을 한번에 인덱싱/슬라이싱 하는 함수가 필요
# loc : index의 값(문자)을 사용
# iloc : index의 번호(정수)를 사용
# 변수.인덱서[ 행,열]
# 인덱서[행] : 해당 행 데이터 출력

In [32]:
df.loc['서울']

2015    9904312
2010    9631482
2005    9762546
Name: 서울, dtype: int64

In [37]:
# loc 인덱서 1
df.loc[ '부산':'인천', '2010':'2005' ]

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [38]:
# loc 인덱서 2
df.loc[:,'2015']

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [40]:
# iloc 인덱서
df.iloc[ 1:3,1: ]

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [41]:
df.iloc[:,:1]

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


In [39]:
df

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


In [43]:
# iloc 인덱서 2
df.iloc[:,:1]

Unnamed: 0,2015
서울,9904312
부산,3448737
인천,2890451
대구,2466052


#### population 실습

In [50]:
population_number= pd.read_csv('population_number.csv',encoding='euc-kr', index_col='도시')

In [51]:
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [58]:
# 각각의 값이 나온 횟수 세어주기!
population_number['2015'].value_counts()

9904312    1
3448737    1
2890451    1
2466052    1
Name: 2015, dtype: int64

In [60]:
#2010 컬럼 값의 빈도수
population_number['2010'].value_counts()

9631482.0    1
2632035.0    1
2431774.0    1
Name: 2010, dtype: int64

In [None]:
# 정렬(sort)
# sort_index : 인덱스 값을 기준으로 정렬
# sort_values : 데이터 값을 기준으로 정렬

In [63]:
# 오름차순을 기본으로 함 (True)
# 내림차순으로 변경 : ascending=False
population_number.sort_index(ascending=False)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [64]:
population_number.sort_index(ascending=True)

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338


In [65]:
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [66]:
# 데이터 값 정렬
population_number['2010'].sort_values()

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64

In [71]:
# by = 컬럼값
# 여러가지 기준을 통해 정렬 가능 (리스트 활용)
population_number.sort_values(by='2010')

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [72]:
population_number.sort_values(by=['지역','2010'])

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


In [79]:
# boolean 인덱싱
# 2015년도 인구가 250만 이상인 데이터 가져오기
# 1. 조건에 쓰일 데이터 (인덱싱)
population_number['2015']

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [81]:
# 2. 판별 (boolean)
population_number['2015'] >= 2500000

도시
서울     True
부산     True
인천     True
대구    False
Name: 2015, dtype: bool

In [82]:
# 3. 조건에 따라 데이터 가져오기 (불리언 인덱싱)
population_number[population_number['2015'] >= 2500000]

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338


### score 실습

In [241]:
score= pd.read_csv('score.csv',encoding='euc-kr',index_col='과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [242]:
# 학급별 총계
score.sum()

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [243]:
# 과목별 총계
# axis=0 기본값
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [244]:
# '합계' 컬럼 추가하기
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [245]:
score['합계'] = score.sum(axis=1)

In [246]:
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [247]:
score['합계'] = score.loc[:,'1반':'4반'].sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [248]:
# 학급별 순위
# 1. 학급별 총합
# 2. 정렬
# 3. 내림차순
score.sum(axis=0).sort_values(ascending=False)

합계    1197
2반     388
3반     295
1반     271
4반     243
dtype: int64

In [249]:
# '평균' 컬럼 만들기
# 평균 값
score['합계'] / 4

과목
파이썬    50.25
DB     70.50
자바     63.25
크롤링    74.50
Web    40.75
Name: 합계, dtype: float64

In [300]:
score['평균']=score.loc[:,:'4반'].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [251]:
# '반평균' 데이터 만들기
# 1. '반평균' 값 계산
# 2. '반평균' 데이터 만들기
score['1반'].mean()

54.2

In [306]:
score.loc['반평균']=score.mean(axis=0)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [307]:
# max() : 최대값
# min () : 최소값

In [311]:
score.max(axis=1)

과목
파이썬    201.0
DB     282.0
자바     253.0
크롤링    298.0
Web    163.0
반평균    239.4
dtype: float64

In [317]:
maxArr = score.loc[:'Web',:'4반'].max(axis=1)

In [318]:
minArr = score.loc[:'Web',:'4반'].min(axis=1)

In [319]:
maxArr

과목
파이썬    73.0
DB     92.0
자바     92.0
크롤링    92.0
Web    79.0
dtype: float64

In [320]:
minArr

과목
파이썬    39.0
DB     45.0
자바     45.0
크롤링    40.0
Web    11.0
dtype: float64

In [321]:
# 과목별 최대값과 최소값의 차이 1
maxArr-minArr

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [323]:
# 과목별 최대값과 최소값의 차이 2
# 함수 정의
def max_min(x):
    return x.max() - x.min()

In [328]:
score.loc[:'Web',:'4반']

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45.0,44.0,73.0,39.0
DB,76.0,92.0,45.0,69.0
자바,47.0,92.0,45.0,69.0
크롤링,92.0,81.0,85.0,40.0
Web,11.0,79.0,47.0,26.0


In [329]:
# apply 변환
score.loc[:'Web',:'4반'].apply(max_min,axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

### DataFrame 병합
- concat
- merge

In [336]:
# 데이터 생성
df1 = pd.DataFrame( {'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3] )
df2 = pd.DataFrame( {'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7] )
df3 = pd.DataFrame( {'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11] )

In [331]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [334]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [337]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [340]:
# concat axis=0
pd.concat( [df1,df2,df3] , axis=0)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [341]:
pd.concat( [df1,df2,df3] , axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


In [344]:
# 데이터 생성
df4 = pd.DataFrame( {'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7] )

In [345]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [346]:
# concat 4 df1, df4  axis=0
pd.concat( [df1,df4])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [347]:
# concat 5 df1, df4     axis=1
pd.concat( [df1,df4], axis=1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [349]:
# join
# outer : 합집합, 기본값
# inner : 교집합, 합치는 데이터들이 동일하게 가지고 있는 기준만 출력
pd.concat( [df1,df4], axis=1, join='outer')

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


In [350]:
pd.concat( [df1,df4], axis=1, join='inner')

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
