### Pandas모듈 사용하기

In [1]:
import pandas as pd

### Series 사용
- Series 생성하기

In [2]:
# 리스트를 이용해서 만들기
s1 = pd.Series([4, 7, -5, 3])
s1

0    4
1    7
2   -5
3    3
dtype: int64

In [3]:
# 인덱스 지정하여 생성
s2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
s2

d    4
b    7
a   -5
c    3
dtype: int64

In [4]:
# 딕셔너리 객체로 Series생성
dic1 = {'a':4, 'b':7, 'c':-5, 'd':3}
s3 = pd.Series(dic1)
# 인덱스 라벨 변경하기
s3.index = ['e', 'f', 'g', 'h']
s3

e    4
f    7
g   -5
h    3
dtype: int64

- Series 정보 확인

In [5]:
# Series 값 확인
s3.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
# Series 인덱스 확인
s3.index

Index(['e', 'f', 'g', 'h'], dtype='object')

In [7]:
# Series 값 데이터 타입 확인
s3.dtype

dtype('int64')

###### 실습
![image.png](attachment:image.png)

In [8]:
kor = pd.Series([9904312, 3448737, 2890451, 2466052], index=['서울', '부산', '인천', '대구'])
s2015 = kor
s2015

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [9]:
dic2 = {'서울':9904312, '부산':3448737, '인천':2890451, '대구':2466052}
kor2 = pd.Series(dic2)
kor2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

- Series에 이름 지정

In [10]:
# Series 이름
s2015.name = '인구'
# Series 인덱스 이름
s2015.index.name = '도시'
s2015

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

- Series 연산

In [11]:
s2015 + 7

도시
서울    9904319
부산    3448744
인천    2890458
대구    2466059
Name: 인구, dtype: int64

In [12]:
s2015 * 10

도시
서울    99043120
부산    34487370
인천    28904510
대구    24660520
Name: 인구, dtype: int64

In [13]:
s2015 >= 3000000

도시
서울     True
부산     True
인천    False
대구    False
Name: 인구, dtype: bool

In [14]:
s2015 + s2015

도시
서울    19808624
부산     6897474
인천     5780902
대구     4932104
Name: 인구, dtype: int64

In [15]:
dic2 = {"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158}

In [16]:
s2010 = pd.Series(dic2)
s2010

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [17]:
s2015 - s2010

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

- 색인
    - 인덱싱
    - 슬라이싱
    - boolean색인


In [18]:
# Series 인덱싱
# 1. 숫자형 인덱스
# 2. 인덱스 라벨 사용

print(s2015[1])
print(s2015['부산'])

# Series클래스를 유지한 상태로 결과 확인
print(s2015[[1]])
print(s2015[[1, 3, 0, 1]])

3448737
3448737
도시
부산    3448737
Name: 인구, dtype: int64
도시
부산    3448737
대구    2466052
서울    9904312
부산    3448737
Name: 인구, dtype: int64


In [19]:
# Series 슬라이싱
# 1. 숫자
# 2. 인덱스 라벨 사용

print(s2015[1:3])
print(s2015['부산' : '대구'])

print(s2015[1:2])

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
도시
부산    3448737
Name: 인구, dtype: int64


In [20]:
# boolean 색인
# b = [True, True, False, True]
b = s2015 >= 3000000
s2015[b]

도시
서울    9904312
부산    3448737
Name: 인구, dtype: int64

In [21]:
# null값과 비교
# Series클래스명.isnull() -> null은 True
# Series클래스명.notnull() -> null은 False
s15_10 = s2015 - s2010
s15_10.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [22]:
s15_10[s15_10.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

### 실습
![image-2.png](attachment:image-2.png)
![image.png](attachment:image.png)

In [23]:
(s2015[1] - s2010[1]) / s2010[1] * 100

1.6369841839141974

In [24]:
(s2015[0] - s2010[0]) / s2010[0] * 100

2.832689714833086

In [25]:
(s2015[2] - s2010[2]) / s2010[2] * 100

9.818106522139713

In [26]:
ratePopulation = (s2015 - s2010) / s2010 * 100
ratePopulation[ratePopulation.notnull()]

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

- Series 데이터 갱신, 추가, 삭제

In [27]:
ratePopulation.name = '인구'
ratePopulation.index.name = '도시'
ratePopulation

도시
대구         NaN
대전         NaN
부산    1.636984
서울    2.832690
인천    9.818107
Name: 인구, dtype: float64

In [28]:
ratePopulation['부산'] = 1.6
ratePopulation['광주'] = 1.41
del ratePopulation['대구']
ratePopulation

도시
대전         NaN
부산    1.600000
서울    2.832690
인천    9.818107
광주    1.410000
Name: 인구, dtype: float64

### DataFrame사용
- DataFrame생성하기

In [29]:
# 딕셔너리 이용해서 생성하기
dic3 = {"2015": [9904312, 3448737, 2890451, 2466052], "2010": [9631482, 3393191, 2632035, 2431774]}
df1 = pd.DataFrame(dic3)
df1.index = ['서울', '부산', '인천', '대구']
df1

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [30]:
# 리스트 이용해서 생성하기
li1 = [[9904312, 3448737, 2890451, 2466052], [9631482, 3393191, 2632035, 2431774]]
ind = ['2015', '2010']
col = ['서울', '부산', '인천', '대구']
df2 = pd.DataFrame(li1, index = ind, columns = col)
# df2.index = ind
# df2.columns = col
df2

Unnamed: 0,서울,부산,인천,대구
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774


In [31]:
li2 = [[9904312, 9631482], [3448737, 3393191], [2890451, 2632035], [2466052, 2431774]]
df3 = pd.DataFrame(li2)
df3

Unnamed: 0,0,1
0,9904312,9631482
1,3448737,3393191
2,2890451,2632035
3,2466052,2431774


- DataFrame 행/열 변환

In [32]:
df2.T

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


In [33]:
df2 = df2.transpose()
df2

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035
대구,2466052,2431774


- DataFrame 정보 확인

In [34]:
# DataFrame 값 확인
print(df1.values)

# DataFrame 인덱스 확인
print(df1.index)

# DataFrame 컬럼 확인
print(df1.columns)

# 행/열 개수
print(df1.shape)

# 차원 확인
print(df1.ndim)

# 전체 요소 개수
print(df1.size)

[[9904312 9631482]
 [3448737 3393191]
 [2890451 2632035]
 [2466052 2431774]]
Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['2015', '2010'], dtype='object')
(4, 2)
2
8


In [35]:
# 데이터 정보 일부보기
df1.head(3)

Unnamed: 0,2015,2010
서울,9904312,9631482
부산,3448737,3393191
인천,2890451,2632035


In [36]:
df1.tail(2)

Unnamed: 0,2015,2010
인천,2890451,2632035
대구,2466052,2431774


- 컬럼 추가하기

In [37]:
df1['2005'] = [9762546, 3512547, 2517680, 2456016]
df1

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547
인천,2890451,2632035,2517680
대구,2466052,2431774,2456016


- DataFrame 색인
    - 인덱싱 : 열(컬럼) 인덱싱
    - 슬라이싱 : 행 슬라이싱
    - boolean색인 : 행 색인
    - 인덱서 활용 : 행, 열 색인

In [38]:
# 인덱싱 : 열(컬럼)인덱싱
#   - 컬럼명만 사용 가능 (숫자 사용 불가능)
#   - 행인덱싱 불가능
df1['2010']

서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [39]:
df1[['2010']]

Unnamed: 0,2010
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [40]:
# DataFrame슬라이싱 : 행 색인
#   - 숫자형 인덱스, 인덱스 라벨 사용가능
#   - 컬럼 슬라이싱 불가능

df1['서울':'부산']

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [41]:
df1[:2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [42]:
df1[:1]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546


In [43]:
df1[['2005', '2015']]

Unnamed: 0,2005,2015
서울,9762546,9904312
부산,3512547,3448737
인천,2517680,2890451
대구,2456016,2466052


In [44]:
df1[['2015']][1:]

Unnamed: 0,2015
부산,3448737
인천,2890451
대구,2466052


In [45]:
df1[1:3][['2010', '2005']]

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


- 인덱서
![image.png](attachment:image.png)

In [46]:
# loc인덱서
df1.loc['부산':'인천', '2010':'2005']

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [47]:
# iloc인덱서
df1.iloc[1:3, 1:]

Unnamed: 0,2010,2005
부산,3393191,3512547
인천,2632035,2517680


In [48]:
# boolean색인 : 행 색인
# loc는 적용 가능, iloc는 적용 불가능
li2 = [True, True, False, False]
df1[li2]

Unnamed: 0,2015,2010,2005
서울,9904312,9631482,9762546
부산,3448737,3393191,3512547


In [49]:
li3 = df1['2010'] >= 2500000
df1[li3][['2010', '2005']]

Unnamed: 0,2010,2005
서울,9631482,9762546
부산,3393191,3512547
인천,2632035,2517680


In [50]:
df1.loc[li3, '2010' : '2005']

Unnamed: 0,2010,2005
서울,9631482,9762546
부산,3393191,3512547
인천,2632035,2517680


##### population 실습

In [51]:
population_number = pd.read_csv('population_number.csv' , encoding='euc-kr', index_col = '도시')

In [52]:
population_number

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [53]:
# 각각의 값이 나온 횟수를 세어주는 기능
population_number['2015'].value_counts()

9904312    1
3448737    1
2890451    1
2466052    1
Name: 2015, dtype: int64

In [54]:
# 결측치는 제외하고 값들의 갯수를 세어준다
population_number['2010'].value_counts()

9631482.0    1
2632035.0    1
2431774.0    1
Name: 2010, dtype: int64

In [55]:
# 정렬(sort)
# sort_index : 인덱스 값을 기준으로 정렬
# sort_values : 데이터 값을 기준으로 정렬

In [56]:
# 오름차순이 기본
# 내림차순 변경 : ascending = False
population_number.sort_index()

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
서울,수도권,9904312,9631482.0,9762546.0,9853972
인천,수도권,2890451,2632035.0,,2466338


In [57]:
population_number.sort_index( ascending = False )

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437
대구,경상권,2466052,2431774.0,2456016.0,2473990


In [58]:
# 오름차순
population_number['2010'].sort_values()

도시
대구    2431774.0
인천    2632035.0
서울    9631482.0
부산          NaN
Name: 2010, dtype: float64

In [59]:
# 내림차순
population_number['2010'].sort_values( ascending = False )

도시
서울    9631482.0
인천    2632035.0
대구    2431774.0
부산          NaN
Name: 2010, dtype: float64

In [60]:
# by = 컬럼값
# 컬럼값의 데이터를 통해 정렬
# 여러 기준을 통해 정렬 가능
population_number.sort_values( by = '2010' )

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972
부산,경상권,3448737,,,3655437


In [61]:
# '지역', '2010'을 통해 정렬
population_number.sort_values( by = ['지역', '2010'] )

Unnamed: 0_level_0,지역,2015,2010,2005,2000
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
대구,경상권,2466052,2431774.0,2456016.0,2473990
부산,경상권,3448737,,,3655437
인천,수도권,2890451,2632035.0,,2466338
서울,수도권,9904312,9631482.0,9762546.0,9853972


##### score 실습

In [62]:
# score.csv 파일 불러오기
score = pd.read_csv('score.csv' , encoding='euc-kr', index_col='과목')
score

Unnamed: 0_level_0,1반,2반,3반,4반
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
파이썬,45,44,73,39
DB,76,92,45,69
자바,47,92,45,69
크롤링,92,81,85,40
Web,11,79,47,26


In [63]:
score.sum()
# 기본 값. axis = 0

1반    271
2반    388
3반    295
4반    243
dtype: int64

In [64]:
score.sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [65]:
# 과목별 점수 총합 순위
score.sum(axis=1).sort_values(ascending=False)

과목
크롤링    298
DB     282
자바     253
파이썬    201
Web    163
dtype: int64

In [66]:
# 학급별 점수 총합 순위
score.sum().sort_values(ascending=False)

2반    388
3반    295
1반    271
4반    243
dtype: int64

In [67]:
# '합계' 컬럼 생성
# 1. 과목별 총합 값 구하기
# 2. 컬럼 생성

score['합계'] = 0
score['합계'] = score.sum(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
파이썬,45,44,73,39,201
DB,76,92,45,69,282
자바,47,92,45,69,253
크롤링,92,81,85,40,298
Web,11,79,47,26,163


In [68]:
score.loc[ : , '1반' : '4반'].sum(axis=1)

과목
파이썬    201
DB     282
자바     253
크롤링    298
Web    163
dtype: int64

In [69]:
score[['1반' , '2반' , '3반' , '4반']].mean(axis=1)
score['평균'] = score[['1반' , '2반' , '3반' , '4반']].mean(axis=1)
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45,44,73,39,201,50.25
DB,76,92,45,69,282,70.5
자바,47,92,45,69,253,63.25
크롤링,92,81,85,40,298,74.5
Web,11,79,47,26,163,40.75


In [70]:
# 반평균 행 데이터 생성
# 1. 반평균 값 구하기
# 2. 1을 이용해 반평균 생성
score.loc['반평균'] = score.mean()
score

Unnamed: 0_level_0,1반,2반,3반,4반,합계,평균
과목,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
파이썬,45.0,44.0,73.0,39.0,201.0,50.25
DB,76.0,92.0,45.0,69.0,282.0,70.5
자바,47.0,92.0,45.0,69.0,253.0,63.25
크롤링,92.0,81.0,85.0,40.0,298.0,74.5
Web,11.0,79.0,47.0,26.0,163.0,40.75
반평균,54.2,77.6,59.0,48.6,239.4,59.85


In [71]:
# 최대, 최소 확인
score.max( axis=1 )

과목
파이썬    201.0
DB     282.0
자바     253.0
크롤링    298.0
Web    163.0
반평균    239.4
dtype: float64

In [72]:
# 과목별 최소값 확인
score.min(axis=1)

과목
파이썬    39.0
DB     45.0
자바     45.0
크롤링    40.0
Web    11.0
반평균    48.6
dtype: float64

In [73]:
# 과목별 최대값과 최소값의 차이
max_score = score.loc[ : 'Web' , : '4반'].max(axis=1)
min_score = score.loc[ : 'Web' , : '4반'].min(axis=1)
max_score - min_score

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

In [74]:
# apply 함수 적용
# 행 혹은 열 단위로 더 복잡한 처리를 할 때 사용

In [75]:
# 함수 정의
# 과목별 max와 min 점수 차이 구하기
def max_min(x) :
    return x.max() - x.min()

In [76]:
score.loc[ : 'Web' , '1반' : '4반'].apply(max_min, axis=1)

과목
파이썬    34.0
DB     47.0
자바     47.0
크롤링    52.0
Web    68.0
dtype: float64

##### 카테고리 생성하기
- 데이터를 구간별로 구분하기!

In [77]:
ages = [0, 2, 10, 21, 23, 36, 38, 39, 42, 45, 47, 53, 54, 61, 64, 26, 27, 99, 100 , 85, 87, 93]
bins = [0, 15, 25, 35, 60, 99]    # 구간
# 구간 -> 초과~이하
labels = ['미성년자', '청년', '중년', '장년', '노년'] # 구간의 이름
# 1~15 - 미성년자, 16~25 - 청년, 26~36 - 중년 36~60 - 장년,
# 61~99 - 노년

cats = pd.cut( ages, bins, labels=labels)

In [78]:
cats.value_counts()
# 결츨치를 제외

미성년자    2
청년      2
중년      2
장년      8
노년      6
dtype: int64

In [79]:
age = pd.DataFrame( ages, columns=['나이'])
age

Unnamed: 0,나이
0,0
1,2
2,10
3,21
4,23
5,36
6,38
7,39
8,42
9,45


In [80]:
# 컬럼 생성
age['연령대'] = cats
age

Unnamed: 0,나이,연령대
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,36,장년
6,38,장년
7,39,장년
8,42,장년
9,45,장년


### Dataframe 병합
- concat
- merge

In [81]:
df1 = pd.DataFrame({'a':['a0','a1','a2','a3'],
                   'b':['b0','b1','b2','b3'],
                   'c':['c0','c1','c2','c3']},
                  index = [0,1,2,3])

df2 = pd.DataFrame({'a':['a2','a3','a4','a5'],
                   'b':['b2','b3','b4','b5'],
                   'c':['c2','c3','c4','c5'],
                   'd':['d2','d3','d4','d5']},
                   index = [2,3,4,5])

df3 = pd.DataFrame({'a':['a3','a4','a5','a6'],
                   'b':['b3','b4','b5','b6'],
                   'c':['c3','c4','c5','c6'],
                   'd':['d3','d4','d5','d6']},
                   index = [3,4,5,6])

In [82]:
df1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3


In [83]:
df2

Unnamed: 0,a,b,c,d
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


In [84]:
df3

Unnamed: 0,a,b,c,d
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
6,a6,b6,c6,d6


In [85]:
# DataFrame간 병합
resultDf1 = pd.concat([df1, df2, df3])
resultDf1

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5
3,a3,b3,c3,d3
4,a4,b4,c4,d4


In [86]:
# 기존인덱스를 무시하고 새로운 인덱스를 부여
resultDf2 = pd.concat([df1, df2, df3], ignore_index=True)
resultDf2

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5
8,a3,b3,c3,d3
9,a4,b4,c4,d4


In [87]:
# 행(인덱스 라벨)을 기준으로 병합

resultDf3 = pd.concat([df1, df2, df3], axis=1)
resultDf3

Unnamed: 0,a,b,c,a.1,b.1,c.1,d,a.2,b.2,c.2,d.1
0,a0,b0,c0,,,,,,,,
1,a1,b1,c1,,,,,,,,
2,a2,b2,c2,a2,b2,c2,d2,,,,
3,a3,b3,c3,a3,b3,c3,d3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4,a4,b4,c4,d4
5,,,,a5,b5,c5,d5,a5,b5,c5,d5
6,,,,,,,,a6,b6,c6,d6


![image.png](attachment:image.png)

In [88]:
resultDf4 = pd.concat([df1, df2, df3], axis=1, join= 'inner')
resultDf4

Unnamed: 0,a,b,c,a.1,b.1,c.1,d,a.2,b.2,c.2,d.1
3,a3,b3,c3,a3,b3,c3,d3,a3,b3,c3,d3


In [89]:


sr1 = pd.Series(['e0','e1','e2','e3'], name = 'e')
sr2 = pd.Series(['f0','f1','f2'], name = 'f')
sr3 = pd.Series(['g0','g1','g2','g3'], name = 'g')

In [90]:
resultDf5 = pd.concat([sr1, sr2, sr3], axis=1)
resultDf5

Unnamed: 0,e,f,g
0,e0,f0,g0
1,e1,f1,g1
2,e2,f2,g2
3,e3,,g3


In [91]:
# Series와 DataFrame 병합

sr4 = pd.Series(['h0','h1','h2','h3'], name = 'h', index = [1,3,4,5])

In [92]:
resultDf6 = pd.concat([sr4, sr2], axis=1)
resultDf6

Unnamed: 0,h,f
1,h0,f1
3,h1,
4,h2,
5,h3,
0,,f0
2,,f2


In [93]:
dic1 = {'key' : ['K0','K1','K2','K3'], 'A' : ['A0','A1','A2','A3'], 'B' : ['B0','B1','B2','B3']}
df4 = pd.DataFrame(dic1)
df4

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [94]:
dic2 = {'key' : ['K0','K1','K2','K3'], 'C' : ['C0','C1','C2','C3'], 'D' : ['D0','D1','D2','D3']}
df5 = pd.DataFrame(dic2)
df5

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


In [95]:
resultDf7 = pd.merge(df4, df5, on='key')
resultDf7

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [96]:
resultDf8 = pd.merge(df4, df5, on='key', how='right')
resultDf8

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


- 행/열 삭제

In [104]:
resultDf8.drop(1)

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [105]:
resultDf8.drop('B', axis=1)

Unnamed: 0,key,A,C,D
0,K0,A0,C0,D0
1,K1,A1,C1,D1
2,K2,A2,C2,D2
3,K3,A3,C3,D3
