# pandas에서 제공하는 대표적인 자료구조

+ Series
    - 값 + index
    
+ DataFrame
    - 여러개의 Series를 묶어놓은 형태

+ https://pandas.pydata.org


# 1. Series

In [2]:
import pandas as pd
import numpy as np

In [46]:
s = pd.Series([9904312, 3448737, 2890451, 246652])
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3     246652
dtype: int64
<class 'pandas.core.series.Series'>


In [49]:
for i in enumerate([9904312, 3448737, 2890451, 246652]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 246652)


In [51]:
### 인덱스를 자유롭게 사용
s = pd.Series([9904312, 3448737, 2890451, 246652],index=['서울','부산','인천','대구'])
print(s)

print('---------------------------------------------------')

print(s.values, type(s.values))
print(s.index)

print('---------------------------------------------------')

# 인덱스에 이름 지정
s.index.name = '도시'
print(s)

print('---------------------------------------------------')

# Series 전체에 이름 지정
s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구     246652
dtype: int64
---------------------------------------------------
[9904312 3448737 2890451  246652] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')
---------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구     246652
dtype: int64
---------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구     246652
Name: 인구, dtype: int64


In [52]:
### 벡터화 연산

s1 = s / 1000000
s1

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    0.246652
Name: 인구, dtype: float64

In [53]:
### 인덱싱
print(s[1], s["서울"])

print('---------------------------------------------------')

print(s[[0,3,1]], s[['서울','대구','부산']])

print('---------------------------------------------------')

print(s[(s>250e4) & (s<500e4)])

print('---------------------------------------------------')

print(s[1:3])
print(s["부산":"대구"])

print('---------------------------------------------------')

print(s.부산, ",",s.서울)

3448737 9904312
---------------------------------------------------
도시
서울    9904312
대구     246652
부산    3448737
Name: 인구, dtype: int64 도시
서울    9904312
대구     246652
부산    3448737
Name: 인구, dtype: int64
---------------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
---------------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구     246652
Name: 인구, dtype: int64
---------------------------------------------------
3448737 , 9904312


In [54]:
### Series와 dict

print("서울" in s)
print("대전" in s)

print('---------------------------')

print(list(s.items()))
for k,v in s.items():
    print("%s = %d"%(k,v))
    
print('---------------------------')

s2 = pd.Series({"서울":9631482, "부산":3448737, "인천":2632035, "대전":1490158})
print(s2)

True
False
---------------------------
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 246652)]
서울 = 9904312
부산 = 3448737
인천 = 2890451
대구 = 246652
---------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [58]:
### 인덱스 기반 연산

print(s)
print("------------------")
print(s2)
print("------------------")

result = s-s2
print(result)

print("------------------")

print(s.values - s2.values)


도시
서울    9904312
부산    3448737
인천    2890451
대구     246652
Name: 인구, dtype: int64
------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
------------------
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
------------------
[  272830        0   258416 -1243506]


In [66]:
### 결측치 제거
print(result)
print(result.notnull())
print(result[result.notnull()])

print("------------------")

# s와 s2 데이터를 이용해서 인구 증가율 : (끝 연도 - 시작 연도) / 시작 연도 * 100
result2 = (s2-s)/s*100
print(result2)
print("------------------")
result2 = result2[result2.notnull()]
print(result2)

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
------------------
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
------------------
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [68]:
### 데이터를 수정, 삭제, 갱신

# 수정
result2['부산'] = 1.63
print(result2)
print('-------------------')

# 갱신
result2['대구'] = 1.41
print(result2)
print('-------------------')

#삭제
del result2['서울'] 
print(result2)

부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64
-------------------
부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
-------------------
부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64


# 2. DataFrame

In [151]:
data = {
    "2015":[9904312, 3448737, 2890451, 2466052],
    "2010":[9631482, 3393191, 2632035, 2431774],
    "2005":[9762546, 3512547, 2517680, 2456016],
    "2000":[9853972, 3655437, 2466338, 2473990],
    "지역":["수도권","경상권","수도권","경상권"],
    "2010-2015 증가율":[0.0283, 0.0163, 0.0982, 0.0141]
    }
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [152]:
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


### 1). 컬럼의 위치(순서) 변경

In [153]:
cols = ["지역","2015","2010","2005","2000","2010-2015 증가율"]
df = pd.DataFrame(data,columns=cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


### 2) 인덱스 변경

In [154]:
idx = ['서울','부산','인천','대구']
df = pd.DataFrame(data, columns=cols, index = idx)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [155]:
print(df.values)
print('-------------------------------------------------------')
print(df.columns)
print('-------------------------------------------------------')
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
-------------------------------------------------------
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
-------------------------------------------------------
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [156]:
### 컬럼과 인덱스에 이름 부여

df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [157]:
### 전치 가능
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### 3) 인덱싱 

In [158]:
print(df)
print('-------------------------------------------------------------------------')
# 하나의 열은 하나의 Series
print(df['지역'])
print(type(df['지역']))
print('-------------------------------------------------------------------------')
print(df[['지역']])
print(type(df[['지역']]))
print('-------------------------------------------------------------------------')
print(df[['2015','2010']])

# df[0] : 숫자로 지정 안됨
# df["2010" : "2000"] : 슬라이싱 안됨

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
-------------------------------------------------------------------------
도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
-------------------------------------------------------------------------
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
<class 'pandas.core.frame.DataFrame'>
-------------------------------------------------------------------------
특성     2015     2010
도시                  
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035
대구  2466052  2431774


In [159]:
### 행 인덱싱(2개 이상 데이터를 뽑아올 때 반드시 : 으로 슬라이싱)
print(df[:])
print('--------------------------------------------------------------------')
print(df[:1])
print('--------------------------------------------------------------------')
print(df[1:3])
print('--------------------------------------------------------------------')
print(df['서울':'부산'])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
--------------------------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
--------------------------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
--------------------------------------------------------------------
특성   지역     2015     2010 

In [160]:
### 동시에 행과 열 접근

print(df['2005']['서울'])
# df['2005','서울'] 이건 안됨
print('------------------------------------------')

# 2005년도와 2010년도의 서울 인구를 조회
df[['2005','2010']][:1]

9762546
------------------------------------------


특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


### 4) 열 데이터 갱신, 추가, 삭제

In [161]:
# 갱신
df["2010-2015 증가율"] = df['2010-2015 증가율'] * 100
df

# 추가
df["2015-2010 증가율"] = ((df['2010']-df['2005']) /df ['2005'] * 100).round(2)
df

# 삭제
del df['2010-2015 증가율']
df

특성,지역,2015,2010,2005,2000,2015-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


## 실습 1 

In [3]:
data = {
    "국어":[80,90,70,30],
    "영어":[90,70,60,40],
    "수학":[90,60,80,70],
}

In [4]:
### 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프레임 df를 생성
name = ['춘향','몽룡','향단','방자']
df = pd.DataFrame(data, index = name)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [5]:
### 2. 모든 학생의 수학 점수를 조회
print(df['수학'])

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64


In [6]:
### 3. 모든 학생의 국어와 영어 점수를 조회
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [7]:
### 4. 모든 학생의 각 과목평균 점수를 새로운 열(과목평균)로 추가
#df['과목평균'] = ((df['국어'] + df['영어'] + df['수학']) / 3).round(2)
df['과목평균'] = (df[:].mean(axis=1)).round(2)
df

Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [30]:
### 5. 방자의 영어점수를 80점으로 수정하고, 평균 점수도 다시 수정
df['영어']['방자'] = 80
df['과목평균'] = ((df['국어'] + df['영어'] + df['수학']) / 3).round(2)
df['과목평균2']['방자'] = (df[['국어','영어','수학']]["방자":"방자"].mean(axis=1)).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80


Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [54]:
### 6. 춘향의 점수를 데이터 프레임 형식으로 출력
df[:1]

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [43]:
### 7. 향단의 점수를 Series로 출력
df.T['향단']

국어      70.0
영어      60.0
수학      80.0
과목평균    70.0
Name: 향단, dtype: float64

In [8]:
[i for i in df["향단":"향단"].values]

[array([70., 60., 80., 70.])]

### 5) 파일 입출력
+ read_csv()
+ to_csv()
+ read_table()

In [12]:
%%writefile data/sample1.csv
# 매직 명령어 : 반드시 첫줄에 사용

c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample1.csv


In [18]:
sample1 = pd.read_csv('data/sample1.csv')
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [20]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample2.csv


In [22]:
# 컬럼이 없는경우 names 옵션 설정
sample2 = pd.read_csv('data/sample2.csv',names=["c1","C2","c3"])
sample2

Unnamed: 0,c1,C2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [24]:
# 특정한 열을 인덱스로 지정
sample3 = pd.read_csv('data/sample1.csv',index_col="c1")
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [25]:
%%writefile data/sample3.txt
c1       c2       c3       c4
0.23     0.33     0.354    0.2389
0.123    0.345    0.567    0.986

Writing data/sample3.txt


In [33]:
# 공백의 길이가 다 다를경우 정규표현식 사용
pd.read_table("data/sample3.txt",sep="\s+")

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [34]:
%%writefile data/sample4.txt
파일제목 : sample4.txt
데이터 포맷의 설명 : 어쩌구 저쩌구
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample4.txt


In [36]:
# skiprows : 0,1번 행만 빼고 읽음
sample4 = pd.read_table("data/sample4.txt",skiprows=[0,1])
sample4

Unnamed: 0,"c1, c2, c3"
0,"1, 1.11, one"
1,"2, 2.22, two"
2,"3, 3.33, three"


In [37]:
%%writefile data/sample5.csv
c1,c2,c3
1,1.11,
2,,two
누락,3.33,three

Writing data/sample5.csv


In [41]:
# 결측치 NaN으로 통일 
sample5 = pd.read_csv('data/sample5.csv',na_values=[" ","누락"])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [45]:
# csv로 저장

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt",sep="|")
df.to_csv("data/sample8.csv",index=False, header=False)

# 결측치의 표현 변경
sample5.to_csv("data/sample9.txt",sep=":", na_rep="누락")

### 6) Indexer
+ loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
+ iloc : 순서를 나타내는 정수 기반의 인덱서
+ ix : loc와 마찬가지로 라벨값 기반의 인덱서, 하지만 속도는 빠르다
+ at
+ iat

### -loc : 열을 지정하고 행을 지정
### -index : 행을 지정하고 열을 지정

In [47]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index=["a","b","c"],columns = ["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [59]:
### 첫번째 행 추출

print(df[:1])
print(df[:"a"])

print('---------------------------------')
print(df.loc['a'])

print('---------------------------------')
# 필터링 
print(df.loc[df["A"] > 15])

print('---------------------------------')

def select_row(df, num):
    return df.A > num 
print(df.loc[select_row(df,15)])

    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13
---------------------------------
A    10
B    11
C    12
D    13
Name: a, dtype: int64
---------------------------------
    A   B   C   D
c  18  19  20  21
---------------------------------
    A   B   C   D
c  18  19  20  21


In [91]:
### 행과 열을 모두 사용할 경우

# a행 A열에 있는 하나의 값을 추출
print(df['A']['a'])
print(df['B']['b'])

print('--------------------------')

# loc 사용
print(df.loc["a"]["A"])
print(df.loc["b"]["B"])

print('--------------------------')
print(df.loc["b":,"B":])

print('--------------------------')
print(df.loc[["a","c"],["B","C"]])

# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 조회
print('--------------------------')
print(df.loc[:,df.loc['a',:]<=11])


10
15
--------------------------
10
15
--------------------------
    B   C   D
b  15  16  17
c  19  20  21
--------------------------
    B   C
a  11  12
c  19  20
--------------------------
    A   B
a  10  11
b  14  15
c  18  19


In [93]:
# 반드시 레이블로만 접근해야 된다.

# print(df.loc[1:, 1:])
# print(df.loc[[0,2],[1,2]])


### -iloc

In [126]:
print(df["A"])
print('-------------')
# 행은 숫자로 접근 가능하나 열은 불가능하다
# df[0]
# df.loc[0,0]

print(df.loc['a',"A"])

print('-------------')
print(df.iloc[0,0])
print(df.iloc[:2,2])
print(df.iloc[0,-1:])

'''
    B   C
c   19  20
'''
print('-------------')
print(df.iloc[[2],[1,2]])
print('-------------')
print(pd.DataFrame(df.iloc[2, 1:3]).T)


a    10
b    14
c    18
Name: A, dtype: int64
-------------
10
-------------
10
a    12
b    16
Name: C, dtype: int64
D    13
Name: a, dtype: int64
-------------
    B   C
c  19  20
-------------
    B   C
c  19  20


### -at

In [127]:
%timeit df.loc["a","A"]
%timeit df.at["a","A"]

4.61 µs ± 334 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
2.9 µs ± 73.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# 3. Data Manipulation 

### 1) 데이터의 갯수 세기

In [139]:
### Series에서 갯수 세기
s = pd.Series(range(10))
s
s.count()

# 결측치를 빼고 count
s[3] = np.nan
s
s.count()

9

In [4]:
### DataFrame에서 갯수 세기
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype = float)
df
df.count()

# 결측치 확인
df.iloc[2,3] = np.nan
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [5]:
### titanic

import seaborn as sns
titanic = sns.load_dataset('titanic')
print(titanic.shape)
titanic.head()
titanic.count()

(891, 15)


survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

### 2) 카테고리별 갯수 세기

In [6]:
np.random.seed(1)

s2 = pd.Series(np.random.randint(6, size=100))
s2
df[0].value_counts()
df[1].value_counts()


0.0    2
3.0    1
2.0    1
Name: 1, dtype: int64

### 3) 정렬

+ sort_index()
+ sort_value()
+ 결측치는 정렬의 대상이 되지 않는다.

In [18]:
### 인덱스 별로 오름차순 정렬
np.random.seed(1)
s = pd.Series(np.random.randint(6, size=100))

s.value_counts().sort_index()

### 데이터 값 별로 오름차순 정렬
s.value_counts().sort_values()
s.sort_values()

### 내림차순
s.sort_values(ascending=False) # True : 오름차순




0     5
11    5
46    5
40    5
71    5
     ..
28    0
85    0
39    0
38    0
57    0
Length: 100, dtype: int64

In [69]:
### DataFrame을 이용한 정렬
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)),dtype = float)
print(df)
print('-------------------------------')

### 컬럼을 기준으로 정해서 정렬
df.sort_values(by = 2)

### 2차 정렬
df.sort_values(by = [2,3]) # by = 2가 같으면 3으로 정렬

print('--------------------------')
df1 = pd.DataFrame({"seq":[1,3,2], 
              "name":["park","lee","choi"], 
              "age":[30,20,40]})

print(df1)
print('========================================')

### se1를 기준으로 정렬(내림차순)
df1.sort_values(by=['seq'],ascending=False, axis=0)

### index를 기준으로 정렬
df1.sort_index()
df1.sort_index(axis=0)

# axis=1 : 컬럼명 오름차순
df1.sort_index(axis=1,ascending=False)

# inplace : 원본에 적용 
df1 = df1.sort_index(axis=1)
df1

df1.sort_values(by=['seq', 'name'],axis = 0, ascending=False, inplace=True) 
df1

print('========================================')

# 결측치 선정
df2 = pd.DataFrame({"seq":[1,3,np.nan], 
              "name":["park","lee","choi"], 
              "age":[30,20,40]})
df2

print('----------------------------------------')
df2.sort_values(by=['seq'])
df2.sort_values(by=['seq'], na_position="first")


     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
-------------------------------
--------------------------
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
----------------------------------------


Unnamed: 0,seq,name,age
2,,choi,40
0,1.0,park,30
1,3.0,lee,20


### 4) 행, 열의 합계(평균,....)

In [83]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
print(df)
print('-------------------------------------------')
df.sum()
df.sum(axis=0)
print('-------------------------------------------')
df.loc["ColSum", :] = df.sum()
df
print('-------------------------------------------')
df.loc["RowSum", :] = df.sum(axis=1)
df


   0  1  2  3  4  5  6  7
0  5  8  9  5  0  0  1  7
1  6  9  2  4  5  2  4  2
2  4  7  7  9  1  7  0  6
3  9  9  7  6  9  1  0  1
-------------------------------------------
-------------------------------------------
-------------------------------------------


Unnamed: 0,0,1,2,3,4,5,6,7
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0
ColSum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0
RowSum,35.0,34.0,41.0,42.0,,,,


### 5) apply()
+ 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
+ 인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [84]:
df = pd.DataFrame({
    "A":[1,3,4,3,4],
    "B":[2,3,1,2,3],
    "C":[1,5,2,4,4],
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [104]:
### 각 열(행)별로 최대값에서 최소값을 뺀 값을 구하고자 한다.


def sub(x):
    return x.max()- x.min()

print(sub(df['A']))
print(sub(df['B']))
print(sub(df['C']))

print('------------------------------------------')

print(df.apply(sub, axis=0))
print('------------------------------------------')
print(df.apply(sub, axis=1))


3
2
4
------------------------------------------
A    3
B    2
C    4
dtype: int64
------------------------------------------
0    1
1    2
2    3
3    2
4    1
dtype: int64


In [107]:
### 람다 함수(익명 함수)
print(df.apply(lambda x : x.max()-x.min(), axis=0))
print('----------------------------')
print(df.apply(lambda x : x.max()-x.min(), axis=1))


A    3
B    2
C    4
dtype: int64
----------------------------
0    1
1    2
2    3
3    2
4    1
dtype: int64


In [123]:
### 각 열에 대해 어떤 값이 얼마나 사용되었는지 조회 : value_counts()
print(df['A'].value_counts())
print(df['B'].value_counts())
print(df['C'].value_counts())
print('------------------------------')

# fillna : 결측치 대체
df.apply(pd.value_counts, axis=0).fillna(0)

4    2
3    2
1    1
Name: A, dtype: int64
3    2
2    2
1    1
Name: B, dtype: int64
4    2
5    1
2    1
1    1
Name: C, dtype: int64
------------------------------


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### 6) 실수값을 카테고리로 변경(양적 데이터 -> 질적 데이터)
+ cut()
+ qcut()

In [127]:
# 1 ~ 15 : 미성년자, 16 ~ 25 : 청년, 26 ~ 35 : 중년, 36 ~ 60 : 장년, 61 ~ 99 : 노년

ages = [0,2,10,21,23,37,31,61,20,41,32,100]

cat = pd.cut(x=ages, bins=[1, 15, 25, 35, 60, 99],
      labels=['미성년자','청년','중년','장년','노년'])
print(cat)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']


In [132]:
print(type(cat))
print(cat.categories) # 카테고리 목록
print(cat.codes) # 리스트값의 카테코리가 들어가있는 배열 주소

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


In [138]:
df = pd.DataFrame(ages, columns = ["ages"])
df

df['age_cat'] = cat
df

df['age_cat_num'] = cat.codes
df

Unnamed: 0,ages,age_cat,age_cat_num
0,0,,-1
1,2,미성년자,0
2,10,미성년자,0
3,21,청년,1
4,23,청년,1
5,37,장년,3
6,31,중년,2
7,61,노년,4
8,20,청년,1
9,41,장년,3


In [140]:
### qcut()

data = np.random.randn(100) 
cat1 = pd.qcut(data, 4, labels = ["Q1","Q2","Q3","Q4"]) # 100개의 데이터를 4개로 나눔
cat1
pd.value_counts(cat1)

Q4    25
Q3    25
Q2    25
Q1    25
dtype: int64

---
# 4. Index Manipulation
+ set_index() : 지정 컬럼을 인덱스로 바꿀 때 사용
+ reset_index() : 현재 인덱스를 이전의 컬럼으로 되돌릴 때 사용
    - drop(True) : 기존의 인덱스를 되돌리고 그 전의 인덱스는 제거

In [170]:
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
            columns = ["C1","C2","C3","C4"])

df1

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [171]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [175]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,1.0,1.0
1.0,0.0,1.0
1.0,1.0,1.0
1.0,1.0,1.0
0.0,0.0,0.0


In [178]:
# df2.reset_index()
df2.reset_index(drop=True) # drop : 기존의 인덱스를 되돌리고 그 전의 인덱스는 제거


Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


### 2) 다중 인덱스 조작

In [257]:
# 다중 컬럼
np.random.seed(0)

df2 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
            columns = [["A","A","B","B"],["C1","C2","C1","C2"]])
df2

df2.columns.names = ["Cidx1","Cidx2"]
df2



Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [258]:
# 인덱싱 
df2[('A','C1')]
df2[('B','C1')]
df2[('B','C2')]

print(df2[('B',"C1")][0])
print('------------------------')
print(df2[('B',"C1")[0:]])
print('------------------------')
print(df2.loc[0, ('B','C1')])
print('------------------------')
print(print(df2.iloc[0: ,2]))

1.0
------------------------
0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (B, C1), dtype: object
------------------------
1.0
------------------------
0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (B, C1), dtype: object
None


In [298]:
# 다중 컬럼과 다중 인덱스
df3 = pd.DataFrame(np.round(np.random.rand(6,4),2),
            columns=[["A","A","B","B"],["C","D","C","D"]],
            index=[["M","M","M","F","F","F"],
                  ["id_" + str(i+1) for i in range(3)]*2])

df3

df3.columns.names=["Cidx1","Cidx2"]
df3.index.names=["Ridx1","Ridx2"]
df3

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.45,0.54,0.9,0.99
M,id_2,0.22,0.66,0.26,0.02
M,id_3,0.76,0.32,0.38,0.59
F,id_1,0.83,0.63,0.87,0.27
F,id_2,0.8,0.19,0.95,0.69
F,id_3,0.22,0.95,0.73,0.25


In [299]:
# 해 인덱스와 열 인덱스를 교환 : stack() - 열을 행으로, unstack() - 행을 열로
print(df3.T)
print('----------------------------')
df3.stack("Cidx1")
df3.stack(1)

print('----------------------------')
df3.unstack("Ridx1")
df3.unstack(1)

Ridx1           M                 F            
Ridx2        id_1  id_2  id_3  id_1  id_2  id_3
Cidx1 Cidx2                                    
A     C      0.45  0.22  0.76  0.83  0.80  0.22
      D      0.54  0.66  0.32  0.63  0.19  0.95
B     C      0.90  0.26  0.38  0.87  0.95  0.73
      D      0.99  0.02  0.59  0.27  0.69  0.25
----------------------------
----------------------------


Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.83,0.8,0.22,0.63,0.19,0.95,0.87,0.95,0.73,0.27,0.69,0.25
M,0.45,0.22,0.76,0.54,0.66,0.32,0.9,0.26,0.38,0.99,0.02,0.59


In [302]:
### 인덱싱
print(df3)
print('--------------------------------------------')

# 첫번째 행과 첫번째 열에 있는 0.24값을 출력
print(df3.loc[('M','id_1'),('A','C')])
print('--------------------------------------------')



# 첫번째 열에 있는 0.24 ~ 0.43까지 출력
print(df3.iloc[:5,0])
print('--------------------------------------------')




# 첫번째 행에 모든 컬럼값을 출력
print(df3.loc[('M','id_1'),:])
print('--------------------------------------------')





# 맨 마지막 행에 "All"이라는 인덱스를 추가하여 각 열의 합을 출력
df3.loc[('All','All'),:] = df3.sum()
df3




Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.45  0.54  0.90  0.99
      id_2   0.22  0.66  0.26  0.02
      id_3   0.76  0.32  0.38  0.59
F     id_1   0.83  0.63  0.87  0.27
      id_2   0.80  0.19  0.95  0.69
      id_3   0.22  0.95  0.73  0.25
All   All    6.56  6.58  8.18  5.62
--------------------------------------------
0.45
--------------------------------------------
Ridx1  Ridx2
M      id_1     0.45
       id_2     0.22
       id_3     0.76
F      id_1     0.83
       id_2     0.80
Name: (A, C), dtype: float64
--------------------------------------------
Cidx1  Cidx2
A      C        0.45
       D        0.54
B      C        0.90
       D        0.99
Name: (M, id_1), dtype: float64
--------------------------------------------


Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.45,0.54,0.9,0.99
M,id_2,0.22,0.66,0.26,0.02
M,id_3,0.76,0.32,0.38,0.59
F,id_1,0.83,0.63,0.87,0.27
F,id_2,0.8,0.19,0.95,0.69
F,id_3,0.22,0.95,0.73,0.25
All,All,9.84,9.87,12.27,8.43


In [306]:
### 순서 교환 : swaplevel(i,j,axis=0) 
# 열을 기준으로 하기 때문에 축을 지정해줘야됨

df4 = df3.swaplevel("Ridx1","Ridx2")
df4

df5 = df3.swaplevel("Cidx1","Cidx2",axis=1)
df5



Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.45,0.54,0.9,0.99
M,id_2,0.22,0.66,0.26,0.02
M,id_3,0.76,0.32,0.38,0.59
F,id_1,0.83,0.63,0.87,0.27
F,id_2,0.8,0.19,0.95,0.69
F,id_3,0.22,0.95,0.73,0.25
All,All,9.84,9.87,12.27,8.43


In [315]:
### 정렬 : sort_index(level)
print(df3)
print('==============================')
df3.sort_index(level=0)
print(df3.sort_index(level=0,axis=0))
print('------------------------------')
print(df3.sort_index(level=1))
print('------------------------------')
# print(df3.sort_index(level=0,axis=1))
print(df3.sort_index(level=1,axis=1))

Cidx1           A            B      
Cidx2           C     D      C     D
Ridx1 Ridx2                         
M     id_1   0.45  0.54   0.90  0.99
      id_2   0.22  0.66   0.26  0.02
      id_3   0.76  0.32   0.38  0.59
F     id_1   0.83  0.63   0.87  0.27
      id_2   0.80  0.19   0.95  0.69
      id_3   0.22  0.95   0.73  0.25
All   All    9.84  9.87  12.27  8.43
Cidx1           A            B      
Cidx2           C     D      C     D
Ridx1 Ridx2                         
All   All    9.84  9.87  12.27  8.43
F     id_1   0.83  0.63   0.87  0.27
      id_2   0.80  0.19   0.95  0.69
      id_3   0.22  0.95   0.73  0.25
M     id_1   0.45  0.54   0.90  0.99
      id_2   0.22  0.66   0.26  0.02
      id_3   0.76  0.32   0.38  0.59
------------------------------
Cidx1           A            B      
Cidx2           C     D      C     D
Ridx1 Ridx2                         
All   All    9.84  9.87  12.27  8.43
F     id_1   0.83  0.63   0.87  0.27
M     id_1   0.45  0.54   0.90  0.99
F     i

In [368]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [383]:
### 1. 1차 행 인덱스로 '반'을 2차 행 인덱스로 '번호'를 가지는 데이터 프레임 작성
school = df_score1.set_index(['반','번호'])
school = school.sort_index(level=0, axis=0)
school

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,79,55,57
A,2,67,77,45
A,3,68,67,68
A,4,88,58,78
A,5,85,67,90
B,1,88,44,76
B,2,92,86,89
B,3,54,45,67
B,4,67,78,99
B,5,97,90,89


In [384]:
### 2. 학생의 평균을 나타내는 행을 오른쪽에 추가
school['평균'] = school[:].mean(axis=1).round(2)
school

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,79,55,57,63.67
A,2,67,77,45,63.0
A,3,68,67,68,67.67
A,4,88,58,78,74.67
A,5,85,67,90,80.67
B,1,88,44,76,69.33
B,2,92,86,89,89.0
B,3,54,45,67,55.33
B,4,67,78,99,81.33
B,5,97,90,89,92.0


In [387]:
### 3. 행 인덱스로 '번호'를 1차 열 인덱스로 1차 열 인덱스로 '국어','영어','수학'을 2차 열 인덱스로 '반'을 가지는 데이터 프레임 작성


school = school.unstack("반")
school

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,평균,평균
반,A,B,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79,88,55,44,57,76,63.67,69.33
2,67,92,77,86,45,89,63.0,89.0
3,68,54,67,45,68,67,67.67,55.33
4,88,67,58,78,78,99,74.67,81.33
5,85,97,67,90,90,89,80.67,92.0


In [396]:
### 4. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가
school.loc[('평균'),:] = school.mean()
school

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,평균,평균
반,A,B,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79.0,88.0,55.0,44.0,57.0,76.0,63.67,69.33
2,67.0,92.0,77.0,86.0,45.0,89.0,63.0,89.0
3,68.0,54.0,67.0,45.0,68.0,67.0,67.67,55.33
4,88.0,67.0,58.0,78.0,78.0,99.0,74.67,81.33
5,85.0,97.0,67.0,90.0,90.0,89.0,80.67,92.0
평균,77.4,79.6,64.8,68.6,67.6,84.0,69.936,77.398


# 5. 데이터 프레임 합성(병합)

+ merge()
    - 두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다.
    - 이 때 기준이 되는 열, 행의 데이터를 Key라고 한다.
    
+ concat()
    - 기준열을 사용하지 않고 단순히 데이터를 연결

### 1) merge()

In [317]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [319]:
pd.merge(df1,df2) # inner join
pd.merge(df1,df2, how='left')
pd.merge(df1,df2, how='right')
pd.merge(df1,df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [342]:
### 키가 여러개인 경우
df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

print(df1)
print('----------------------------------------------')
print(df2)
print('==============================================')
pd.merge(df1,df2, on = '고객명')


  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
----------------------------------------------
  고객명 데이터
0  춘향  여자
1  몽룡  남자


Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [347]:
### 공통된 키가 없는 경우

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

print(df1)
print('----------------------------------------------')
print(df2)
print('==============================================')

pd.merge(df1, df2, left_on = '이름', right_on = '성명')



   이름  성적
0  영희   1
1  철수   2
2  철수   3
----------------------------------------------
   성명  점수
0  영희   4
1  영희   5
2  철수   6


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [373]:
### 인덱스를 기준 열로 사용하는 경우(한쪽 만 인덱스인 경우)

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")
df2

print('==============================')
pd.merge(df1,df2, left_on=['도시','연도'], right_index=True)

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [388]:
### 인덱스를 기준 열로 사용하는 경우(둘 다 인덱스인 경우)

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")
pd.merge(df1,df2, left_index=True, right_index=True)
pd.merge(df1,df2, left_index=True, right_index=True,how='outer')

#merge 대신에 join() 사용 가능
df1.join(df2,how='outer')

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


### concat()

In [397]:
### Series에서 사용

s1 = pd.Series([0,1], index=['A','B'])
s2 = pd.Series([2,3,4], index=['A','B','C'])

print(s1)
print(s2)
print('=====================================')

pd.concat([s1,s2])

A    0
B    1
dtype: int64
A    2
B    3
C    4
dtype: int64


A    0
B    1
A    2
B    3
C    4
dtype: int64

In [403]:
### DataFrame에서 사용
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])

print(df1)

print("-------------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])

print(df2)

print("=====================================")

pd.concat([df1,df2],axis=0)
pd.concat([df1,df2],axis=1)

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
-------------------------------------
   데이터3  데이터4
a     5     6
c     7     8


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


# 6. 피봇 테이블과 그룹 분석
+ pivot()
    - DataFrame.pivot(index=None, columns=None, values=None)
    
+ groupby()
    - DataFrame.groupby(by=None,axis=0, level=None, as_index=True,
        sort=True, group_keys=True, squeeze=`<object object>`, oberved=False, dripna=True)
    
    
+ pivot_table()
    - DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)