## pandas에서 제공하는 대표적인 자료 구조

+ Series
+ DataFrame
+ https://pandas.pydata.org

In [28]:
import numpy as np
import pandas as pd

### 1. Series

+ 값과 인덱스를 하나로 합친 구조

In [4]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])  #여기서 사용한 [] 데이터는 배열이 아닌 리스트이니 착오금지
print(s)
print(type(s))  #리스트를 시리즈 형식으로 바꿔준 것

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [179]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [10]:
##### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
print(s)

print("--------------------------------------------------")

print(s.values, type(s.values))  # 값만 뽑아보기  -  series의 기본 타입은 numpy 배열이라는 점
print(s.index)   # 인덱스만 뽑아보기

print("--------------------------------------------------")

# 인덱스에 이름 지정
s.index.name = "도시"
print(s)

print("--------------------------------------------------")

# Series 전체에 이름 지정

s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------------
[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')
--------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [11]:
##### 벡터화 연산

s1 = s / 1000000
print(s1)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [17]:
##### 인덱싱

print(s[1], s["부산"])

print("------------------------")

print(s[1:3])                  #숫자 인덱스는 끝자리가 -1 인것을 항상 생각해야한다.
print(s["부산":"인천"])        #다만 문자로 표현시에는 그럴 필요가 없다.

print("------------------------")

print(s.부산, ", ", s.서울)

print("------------------------")

print(s[(s > 250e4) & (s < 500e4)])   #250만 이상 500만 이하

3448737 3448737
------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
------------------------
3448737 ,  9904312
------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [22]:
##### Series와 dict

print("서울" in s)
print("대전" in s)

print("------------------------------")

# dict에서 사용하는 items() 사용가능
print(list(s.items()))

print("------------------------------")

# dict 형식으로 데이터 준비
s2 = pd.Series({"서울" : 9904312, "부산" : 3448737, "인천" : 2890451, "대전" : 1490158})
print(s2)

True
False
------------------------------
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
------------------------------
서울    9904312
부산    3448737
인천    2890451
대전    1490158
dtype: int64


In [28]:
##### 인덱스 기반 연산

print(s)
print("------------------------------")
print(s2)
print("------------------------------")

result = s - s2

print(result)   # 인덱스 연산하면 맞는 인덱스를 찾아서 알아서 연산

print("------------------------------")

print(s.values - s2.values)  #값으로 연산하면 순서대로 연산

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
------------------------------
서울    9904312
부산    3448737
인천    2890451
대전    1490158
dtype: int64
------------------------------
대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64
------------------------------
[     0      0      0 975894]


In [32]:
##### 결측치 제거

print(result)
print(result.notnull())  # notnull() 을 사용하면 값을 True, False 로 바꿔준다.
print(result[result.notnull()])

대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산    0.0
서울    0.0
인천    0.0
dtype: float64


In [37]:
##### 데이터 수정, 삭제, 추가

print(result)
print("------------------------------------------")
result["부산"] = 1.63   # 데이터 수정  (인덱스 찾아서 간단히 수정가능)
print(result)
print("------------------------------------------")
result["경기"] = 2.45   # 데이터 추가 (dict와 똑같이 인덱스로 추가시 원본데이터에 동일한게 없으면 추가됨)
print(result)
print("------------------------------------------")
del result["서울"]   # 데이터 삭제
print(result)

대구     NaN
대전     NaN
부산    1.63
서울    0.00
인천    0.00
경기    2.45
dtype: float64
------------------------------------------
대구     NaN
대전     NaN
부산    1.63
서울    0.00
인천    0.00
경기    2.45
dtype: float64
------------------------------------------
대구     NaN
대전     NaN
부산    1.63
서울    0.00
인천    0.00
경기    2.45
dtype: float64
------------------------------------------
대구     NaN
대전     NaN
부산    1.63
인천    0.00
경기    2.45
dtype: float64


### 2. DataFrame

+ 여러 개의 Series를 묶어놓은 것

In [39]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}


In [42]:
df = pd.DataFrame(data)
df   #그냥 사용시 웹브라우저 형식으로 출력

# print(df)    #print형식 사용시 파이썬 형식으로 출력

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


#### (1) 컬럼의 순서(위치) 바꾸기

In [45]:
cols = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
df = pd.DataFrame(data, columns = cols)     # columns 라는 옵션을 사용해서 컬럼을 지정할 수 있다.
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


#### (2) 인덱스 변경

In [46]:
idx = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, columns = cols, index = idx)     # index 속성 이용해서 인덱스 변경 가능
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [49]:
print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [51]:
##### 컬럼과 인덱스에 이름 부여

df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [52]:
##### 전치

df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### (3) 인덱싱

In [53]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [63]:
##### 열 인덱싱

print(df["지역"])      #DataFrame 은 처음 데이터에 접근할때 행이 먼저가 아니라 열이 먼저이므로 이 점 기억해야한다.
print(type(df["지역"]))

print("----------------------------------------------------")

print(df[["지역", "2005"]])  # 2개 이상의 열을 조회시에는 타입이 DataFrame 이다.  1개씩 뽑아낼 때는 Series 형식
print(type(df[["지역", "2005"]]))

print("----------------------------------------------------")

print(df[["지역"]])   # 1개의 데이터를 가져올 때 타입을 DataFrame 이고 싶으면 한번더 [] 감싸준다.

print("----------------------------------------------------")

# print(df[0])     # 컬럼이름이 주어졌을 때는 숫자인덱스로 접근불가
#print(df[["2015" : "2005"]])    # 컬럼이름이 주어졌을 때는 슬라이싱 사용 불가

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
----------------------------------------------------
특성   지역     2005
도시              
서울  수도권  9762546
부산  경상권  3512547
인천  수도권  2517680
대구  경상권  2456016
<class 'pandas.core.frame.DataFrame'>
----------------------------------------------------
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
----------------------------------------------------


In [68]:
##### 행 인덱싱 ( 반드시 : 으로 슬라이싱 )

print(df[0 : 2])
print("--------------------------------------------------------------------------")
print(df[:])
print("--------------------------------------------------------------------------")
print(df["서울" : "서울"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
--------------------------------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
--------------------------------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283


In [75]:
##### 동시에 열과 행에 접근

print(df["2005"]["대구"])

# 2005년도부터 2015년도까지 서울, 부산, 인천의 인구수를 조회

print(df[["2005", "2010", "2015"]]["서울" : "인천"])


2456016
특성     2005     2010     2015
도시                           
서울  9762546  9631482  9904312
부산  3512547  3393191  3448737
인천  2517680  2632035  2890451


#### (4) 추가, 수정, 삭제

In [79]:
# 수정
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

# 추가  ( round 함수로 소수점 2자리까지만 표현하도록 감싸준다. )
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

# 삭제
del df["2005-2010 증가율"]
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2830000.0
부산,경상권,3448737,3393191,3512547,3655437,1630000.0
인천,수도권,2890451,2632035,2517680,2466338,9820000.0
대구,경상권,2466052,2431774,2456016,2473990,1410000.0


#### (5) 실습

In [120]:
data = {
    "국어" : [80, 90, 70, 30], 
    "영어" : [90, 70, 60, 40], 
    "수학" : [90, 60, 80, 70]
}

pd.DataFrame(data)


Unnamed: 0,국어,영어,수학
0,80,90,90
1,90,70,60
2,70,60,80
3,30,40,70


In [177]:
# 1) 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프레임 df를 작성

idx = ["춘향", "몽룡", "향단", "방자"]
cols = ["국어", "영어", "수학"]
df = pd.DataFrame(data, columns = cols, index = idx)
df

# 2) 모든 학생의 수학 점수를 조회

df[["수학"]]

# 3) 모든 학생의 국어와 영어 점수를 조회

df[["국어","영어"]]

# 4) 모든 학생의 각 과목 평균점수를 새로운 열(과목 평균)로 추가

df["과목평균"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

# 5) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 수정하시오.

df["영어"]["방자"] = 80
df["과목평균"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df

# 6) 춘향의 점수를 데이터 프레임 형식으로 출력

df["춘향" : "춘향"]


# 7) 향단의 점수를 Series로 출력

sample = df["향단" : "향단"]
df = sample.squeeze()
df




국어    70
영어    60
수학    80
Name: 향단, dtype: int64

#### (6) 파일 입출력

+ read_csv()
+ to_scv()
+ read_table()

In [85]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample1.csv


In [86]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [87]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample2.csv


In [89]:
sample2 = pd.read_csv("data/sample2.csv", names=["c1", "c2", "c3"])
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [90]:
##### 내가 원하는 특정 열을 인덱스로 지정  (아래 예시에서는 c1을 인덱스로 지정)

sample3 = pd.read_csv("data/sample1.csv", index_col="c1")
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [91]:
%%writefile data/sample3.txt
c1    c2    c3    c4
0.23  0.33  0.354 0.2389
0.123 0.345 0.567 0.986

Overwriting data/sample3.txt


In [95]:
sample3 = pd.read_table("data/sample3.txt", sep="\s+")
sample3

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [96]:
%%writefile data/sample4.txt
파일제목:sample4.txt
데이터설명 : 어쩌구 저쩌구
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three    

Overwriting data/sample4.txt


In [101]:
#skiprows 를 통해 데이터가 아닌 첫, 둘째 줄을 건너띄고 가져올 수 있다.

# sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=[0,1])
sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=2)
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [106]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, 
2,없음, two
누락, 3.33, three 

Overwriting data/sample5.csv


In [107]:
# na_values : 결측치가 여러모양일때 하나로 통일시켜 표시하기 위한 옵션

sample5 = pd.read_csv("data/sample5.csv", na_values=[" ", "없음", "누락"])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [114]:
##### 저장

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")
df.to_csv("data/sample8.csv", header=False, index=False)   # header는 제목은 빼고 저장  # index는 인덱스를 빼고자 할 때

sample5.to_csv("data/sample9.txt", sep=":", na_rep="누락")   # na_rep 은 결측치 자리에 "누락" 이라는 글자로 채워지도록 설정

#### (7) Indexer

+ loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
+ iloc : 순서를 나타내는 정수 기반의 인덱서
+ at : 하나의 값만 조회
+ iat

+ loc

In [4]:
# 10부터 21까지 데이터를 준비
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), columns=["A", "B", "C", "D"], index=["a", "b", "c"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [13]:
##### 행에 접근 - 하나든 둘을 가져오든 무조건 슬라이스 slice (:)를 써야한다.
print(df["b":"b"])
print(df[1:2])
print("----------------------------")
print(df["a":"b"])
print("----------------------------")
print(df.loc["b"])   #loc 는 리턴타입이 Series 라는 점, loc 인덱서는 행, 열 순서로 지정
#print(df.loc[2])    #loc 는 숫자로는 사용불가

    A   B   C   D
b  14  15  16  17
    A   B   C   D
b  14  15  16  17
----------------------------
    A   B   C   D
a  10  11  12  13
b  14  15  16  17
----------------------------
A    14
B    15
C    16
D    17
Name: b, dtype: int32


In [36]:
##### 행과 열에 접근

# b행 B열에 있는 하나의 값 조회
print(df["B"]["b"])        # 기본 인덱서는 열, 행 순서
print(df["B"][1])          # 행은 숫자로 접근가능, 열은 숫자로 접근 불가
# print(df["B", "b"])      # 기본 인덱서에서는 이렇게 표현 불가
print("------------------")
print(df.loc["b"]["B"])    #loc 는 리턴타입이 Series 라는 점, loc 인덱서는 행, 열 순서로 지정
#print(df.loc[1]["B"])     #loc 에서는 행은 숫자로 접근 불가
print(df.loc["b", "B"])    #loc 인덱서에서는 표현가능

print(df.loc["b": ,"B":])
print(df.loc[["a", "c"],["B", "C"]])
print("------------------")

# A열에 있는 값이 15보다 큰 행만 조회

print(df.loc[df.loc[:]["A"]>15])
print("------------------")
print(df.loc[df["A"]>15])

# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 조회

print(df.loc[df.loc[:]["A":"D"]<=11])


15
15
------------------
15
15
    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20
------------------
    A   B   C   D
c  18  19  20  21
------------------
    A   B   C   D
c  18  19  20  21


ValueError: Cannot index with multidimensional key

+ iloc     (여기서 i 는 int를 의미)

In [39]:
print(df["A"]["a"])   #기본인덱서로 A열 a행에 접근시
#print(df[0][0])      #불가능

print("----------------")

print(df.loc["a", "A"])
#print(df.loc[0][0])      #불가능

print("----------------")

print(df.iloc[0, 0])  # iloc는 숫자로 접근가능하게끔 해주는 인덱서

10
----------------
10
----------------
10


+ at, iat

In [40]:
%timeit df.loc["a", "A"]
%timeit df.at["a", "A"]

12.7 µs ± 346 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
6.65 µs ± 212 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


### 3. Data Manipulation

#### (1) 데이터의 갯수 세기

In [46]:
##### Series

s = pd.Series(range(10))
s

print(len(s))
print(s.count())

s[3] = np.nan  #3번째 항목을 결측치로 지정
s

print(len(s))  #len 은 결측치를 포함한 갯수를 세고
print(s.count())   #count는 결측치를 제외한 갯수를 센다.

10
10
10
9


In [52]:
##### DataFrame

np.random.seed(2)

df = pd.DataFrame(np.random.randint(5, size=(4, 5)))
df

df.count()

df.iloc[2, 3] = np.nan
df

df.count()    #count는 결측치를 제외한 갯수를 센다.

0    4
1    4
2    4
3    3
4    4
dtype: int64

In [60]:
##### 카테고리별로 갯수 세기
np.random.seed(2)

s2 = pd.Series(np.random.randint(6, size=100))
s2

print(s2.value_counts())

df.value_counts()

#value_count() 를 데이터프레임에서 사용하려면 시리즈를 각각 뽑아서 사용해야함

df[0].value_counts()
df[1].value_counts()

2    22
0    18
3    16
5    15
4    15
1    14
dtype: int64


0    1
2    1
4    1
3    1
Name: 1, dtype: int64

#### (2) 정렬

+ sort_index()
+ sort_values()
+ 결측치는 정렬의 대상이 되지 않는다.

In [77]:
##### Series

np.random.seed(2)

s = pd.Series(np.random.randint(6, size=100))

print(s.value_counts().sort_index())
print("-------------------------")
print(s.value_counts().sort_values())
print("-------------------------")
print(s.sort_values(ascending=False))    #ascending=Fals 은 내림차순

0    18
1    14
2    22
3    16
4    15
5    15
dtype: int64
-------------------------
1    14
5    15
4    15
3    16
0    18
2    22
dtype: int64
-------------------------
96    5
79    5
68    5
26    5
94    5
     ..
32    0
27    0
6     0
2     0
99    0
Length: 100, dtype: int32


In [168]:
##### DataFrame

np.random.seed(2)

df = pd.DataFrame(np.random.randint(5, size=(4, 4)))
print(df)

print("--------------------------------------------------")

df.sort_values(by=2)   # 2번째 열을 정렬,  기존에 3, 2, 4, 4 에서 2, 3, 4, 4로 정렬
df.sort_values(by=[1, 2])

print("--------------------------------------------------")

df1 = pd.DataFrame({"seq":[1, 3, 2], "name":["park", "lee", "choi"], "age":[30, 20, 40]})
print(df1)

# seq를 기준으로 정렬(내림차순)

df1.sort_values(by="seq", ascending=False, axis=0)

# index를 기준으로 정렬
df1.sort_index()
df1.sort_index(axis=0)  #열 기준 default = axis=0
df1.sort_index(axis=1, ascending=False)  #행 기준, 알파벳 순으로...

df1.sort_values(by="seq", ascending=False, inplace=True)

df1


   0  1  2  3
0  0  0  3  2
1  3  0  2  1
2  3  2  4  4
3  4  3  4  2
--------------------------------------------------
--------------------------------------------------
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40


Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


#### (3) 행, 열의 집계 연산(합계, 평균, ...)

In [24]:
np.random.seed(2)

df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
print(df)

print("--------------------------------------")

df.sum()
df.sum(axis=0)   #기본값, 열의 합계
df.sum(axis=1)   #행의 합계

df.loc["ColSum", :] = df.sum()     #Colsum 이라는 행을 추가하고 그 행에 각 열의 합을 담게끔..
df

df["RowSum"] = df.sum(axis=1)      #RowSum 이라는 열을 추가하고 그 열에 각 행의 합을 담게끔..
df

   0  1  2  3  4  5  6  7
0  8  8  6  2  8  7  2  1
1  5  4  4  5  7  3  6  4
2  3  7  6  1  3  5  8  4
3  6  3  9  2  0  4  2  4
--------------------------------------


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,8.0,8.0,6.0,2.0,8.0,7.0,2.0,1.0,42.0
1,5.0,4.0,4.0,5.0,7.0,3.0,6.0,4.0,38.0
2,3.0,7.0,6.0,1.0,3.0,5.0,8.0,4.0,37.0
3,6.0,3.0,9.0,2.0,0.0,4.0,2.0,4.0,30.0
ColSum,22.0,22.0,25.0,10.0,18.0,19.0,18.0,13.0,147.0


#### (4) apply()

+ 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
+ 인수로 행 또는 열을 받는 함수를 apply()의 인자로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [25]:
df = pd.DataFrame({
    "A":[1, 3, 4, 3, 4],
    "B":[2, 3, 1, 2, 3],
    "C":[1, 5, 2, 4, 4]
})
df


Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [29]:
def diff(x):
    return x.max() - x.min()

##################################################

print(diff(df["A"]))
print(diff(df["B"]))
print(diff(df["C"]))

print("------------------------------")

df.apply(diff, axis=0)
df.apply(diff, axis=1)

3
2
4
------------------------------


0    1
1    2
2    3
3    2
4    1
dtype: int64

In [30]:
##### 람다 함수
df.apply(lambda x : x.max() - x.min(), axis=0)

A    3
B    2
C    4
dtype: int64

In [33]:
print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())

print("-------------------------------")

# value_counts()는 Series 에서 사용가능한 함수이므로 데이터프레임에서 사용하려면 위처럼 각각 뽑아서 사용해야하는데
# apply를 사용하면 아래처럼 한줄로 사용가능하다.

df.apply(pd.value_counts, axis=0)

3    2
4    2
1    1
Name: A, dtype: int64
2    2
3    2
1    1
Name: B, dtype: int64
4    2
1    1
5    1
2    1
Name: C, dtype: int64
-------------------------------


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


#### (5) 숫자값을 카테고리로 변경(양적 데이터 -> 질적 데이터로 변경)

+ cut()
+ qcut()

In [36]:
##### cut

# 1 ~ 15 : 미성년자  16 ~ 25 : 청년,  26 ~ 35 : 중년,  36 ~ 60 : 장년,  61 ~ 99 : 노년
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

# 0과 100은 데이터 범주에 포함되지 않으므로 이를 이산치라 하며 NaN 으로 표기된다.

cat = pd.cut(x=ages, bins=[1, 15, 25, 35, 60, 99], labels=["미성년자", "청년", "중년", "장년", "노년"])
cat

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [39]:
print(type(cat))
print(cat.categories)
print(cat.codes)

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


In [42]:
##### qcut

data = np.random.randn(100)

cat = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
print(data)
print(cat)
pd.value_counts(cat)  # 카테고리별로 갯수 세기

[-0.49701162  0.93963703  0.53704741  0.90216923  0.59575463  0.37096039
 -0.62168111  0.20543624 -1.49878581  1.25984169  0.1068936   1.30370748
 -0.90154373 -3.08000574 -0.61254689 -1.50541374 -0.29494891 -0.03851817
 -0.77664962 -0.24427413  1.39864259 -0.78622267 -0.36330516 -0.54607412
  0.03734111  2.08762494 -1.51770742 -1.13850278  0.10224422  0.23904498
 -0.59236798  0.04425038 -2.01910029  0.80576189 -0.70999607 -0.52988282
 -1.12090866 -0.58437112 -0.77458709 -0.00589031 -2.39557681 -1.00469136
 -1.0038162  -1.18692591 -0.68713695 -0.90188145  0.35176538 -0.71169277
 -1.36932764  1.05005083 -0.27511781  0.92081569  0.49727118  2.3842518
  0.50614272 -0.20602187  0.22313717  0.22776737  0.72768889 -0.01309585
 -0.38786312 -0.55603576  2.0290181   0.05756441 -1.23892515 -1.0700418
 -0.3528524   1.41120708  1.44031997  0.90419544 -0.43837698  1.13381476
  1.11059938 -0.99703013 -0.55999998  1.01136057 -0.68028421 -1.10240998
  0.49775002 -0.86567627 -0.42482941 -0.6557671  -0.6

Q1    25
Q2    25
Q3    25
Q4    25
dtype: int64

### 4. Index Manipulation

(1) set_index(), reset_index()

In [49]:
np.random.seed(0)

df = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T, columns=["C1", "C2", "C3", "C4"])
df

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [50]:
df2 = df.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [53]:
#df2.reset_index()
df2.reset_index(drop=True)

#drop=True로 하면 앞서 index로 내려왔던 C1을 삭제하고 reset한다.

Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


#### (2) 다중 인덱스 조작

In [54]:
##### 다중 컬럼

np.random.seed(0)

df = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3,5))]).T, 
                  columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])

df.columns.names = ["Cidx1", "Cidx2"]
df

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [86]:
##### 인덱싱

# A의 C2의 정보들을 조회
# df["A", "C2"]
# df["A"]["C2"]
# df[("A","C2")]    # 3가지 방법 다 같은 결과


# A의 C2 열의 1행 1.0 값만 가져오기
# df["A","C2"][1]
# df["A"]["C2"][1]
df["A"]["C2"][1:]   #이건 0번 제외한 1번부터 끝까지 가져오기

print("------------------------")

#loc
print(df.loc[1,("A", "C2")])
print(df.loc[2:, ("A", "C2")])

print("------------------------")

print(df.iloc[1, 1])
print(df.iloc[2:, 1])

------------------------
1.0
2    1.0
3    1.0
4    0.0
Name: (A, C2), dtype: object
------------------------
1.0
2    1.0
3    1.0
4    0.0
Name: (A, C2), dtype: object


In [91]:
##### 다중 컬럼과 다중 인덱스

np.random.seed(0)

df = pd.DataFrame(np.round(np.random.rand(6, 4), 2), 
                  columns=[["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index=[["M", "M", "M", "F", "F", "F"], 
                         ["id_" + str(i+1) for i in range(3)]*2])   #list comprehension 으로 id 값 1,2,3 지정
df

df.columns.names = ["Cidx1", "Cidx2"]
df.index.names = ["Ridx1", "Ridx2"]
df

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.55,0.72,0.6,0.54
M,id_2,0.42,0.65,0.44,0.89
M,id_3,0.96,0.38,0.79,0.53
F,id_1,0.57,0.93,0.07,0.09
F,id_2,0.02,0.83,0.78,0.87
F,id_3,0.98,0.8,0.46,0.78


In [121]:
"""
loc인덱스를 사용
-----------
Ridx2
id_1   0.55
"""

print(df.loc["M"]["A"]["C"][:1])

"""
기본인덱스를 사용
-----------
0.55
"""
print(df["A"]["C"]["M"][0])
print(df["A","C"]["M"][0])
print(df["A","C"]["M","id_1"])
print(df[("A", "C")][0])

"""
iloc를 사용
-----------
0.55
"""
      
print(df.iloc[0][0])

"""
iloc를 사용
-----------
Ridx1   Ridx2
M       id_1      0.55
"""

print(df.iloc[:1,0])
      
      


Ridx2
id_1    0.55
Name: C, dtype: float64
0.55
0.55
0.55
0.55
0.55
Ridx1  Ridx2
M      id_1     0.55
Name: (A, C), dtype: float64


In [127]:
##### 행 인덱스와 열 인덱스를 교환 : stack() - 열을 행으로, unstack() - 행을 열로

print(df.T)    # 이 방식은 행, 렬 전부 바뀌는 것
print("-------------------------------------------")

# df.stack("Cidx1")
# df.stack(0)
print(df.stack(1))
print("-------------------------------------------")

# df.unstack("Ridx1")
df.unstack(1)

Ridx1           M                 F            
Ridx2        id_1  id_2  id_3  id_1  id_2  id_3
Cidx1 Cidx2                                    
A     C      0.55  0.42  0.96  0.57  0.02  0.98
      D      0.72  0.65  0.38  0.93  0.83  0.80
B     C      0.60  0.44  0.79  0.07  0.78  0.46
      D      0.54  0.89  0.53  0.09  0.87  0.78
-------------------------------------------
Cidx1                 A     B
Ridx1 Ridx2 Cidx2            
M     id_1  C      0.55  0.60
            D      0.72  0.54
      id_2  C      0.42  0.44
            D      0.65  0.89
      id_3  C      0.96  0.79
            D      0.38  0.53
F     id_1  C      0.57  0.07
            D      0.93  0.09
      id_2  C      0.02  0.78
            D      0.83  0.87
      id_3  C      0.98  0.46
            D      0.80  0.78
-------------------------------------------


Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.57,0.02,0.98,0.93,0.83,0.8,0.07,0.78,0.46,0.09,0.87,0.78
M,0.55,0.42,0.96,0.72,0.65,0.38,0.6,0.44,0.79,0.54,0.89,0.53


In [130]:
##### 순서 교환 : swaplevel()

df.swaplevel("Ridx1", "Ridx2", axis=0)
df.swaplevel("Cidx1", "Cidx2", axis=1)

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.55,0.72,0.6,0.54
M,id_2,0.42,0.65,0.44,0.89
M,id_3,0.96,0.38,0.79,0.53
F,id_1,0.57,0.93,0.07,0.09
F,id_2,0.02,0.83,0.78,0.87
F,id_3,0.98,0.8,0.46,0.78


In [137]:
##### 정렬 : sort_index(level)

print(df)
print("--------------------------------------")

print(df.sort_index(level=0, axis=0))  #Ridx1 가 정렬됨
print("--------------------------------------")

print(df.sort_index(level=1, axis=0))  #Ridx2 가 정렬됨
print("--------------------------------------")

print(df.sort_index(level=1, axis=1))  #Cidx2 가 정렬됨


Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
F     id_1   0.57  0.93  0.07  0.09
      id_2   0.02  0.83  0.78  0.87
      id_3   0.98  0.80  0.46  0.78
--------------------------------------
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
F     id_1   0.57  0.93  0.07  0.09
      id_2   0.02  0.83  0.78  0.87
      id_3   0.98  0.80  0.46  0.78
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
--------------------------------------
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
F     id_1   0.57  0.93  0.07  0.09
M     id_1   0.55  0.72  0.60  0.54
F     id_2   0.02  0.83  0.78  0.87
M     id_2   0.42  0.65  0.44  0.89
F     id_3   0.98  0.8

#### (3) 연습 문제

In [138]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1


Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [163]:
#1. 1차 행 인덱스로 "반"을, 2차 행 인덱스로 "번호"를 가지는 데이터 프레임 작성

df = df_score1.set_index(["반","번호"])
print(df)

#2. 위의 데이터를 인덱스로 정렬

df = df.sort_index(level=0)
print(df)

#3. 학생의 평균을 나타내는 행을 오른쪽에 추가

df["평균"] = df.sum(axis=1) / 3
print(df)

#4. 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 
# 데이터프레임 작성

df = df.unstack("반")
print(df)

#5. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가

df.loc["평균"] = df.sum(axis=0) / 5
print(df)


      국어  영어  수학
반 번호            
A 1   79  55  57
  2   67  77  45
B 1   88  44  76
A 3   68  67  68
B 2   92  86  89
  3   54  45  67
  4   67  78  99
A 4   88  58  78
B 5   97  90  89
A 5   85  67  90
      국어  영어  수학
반 번호            
A 1   79  55  57
  2   67  77  45
  3   68  67  68
  4   88  58  78
  5   85  67  90
B 1   88  44  76
  2   92  86  89
  3   54  45  67
  4   67  78  99
  5   97  90  89
      국어  영어  수학         평균
반 번호                       
A 1   79  55  57  63.666667
  2   67  77  45  63.000000
  3   68  67  68  67.666667
  4   88  58  78  74.666667
  5   85  67  90  80.666667
B 1   88  44  76  69.333333
  2   92  86  89  89.000000
  3   54  45  67  55.333333
  4   67  78  99  81.333333
  5   97  90  89  92.000000
    국어      영어      수학             평균           
반    A   B   A   B   A   B          A          B
번호                                              
1   79  88  55  44  57  76  63.666667  69.333333
2   67  92  77  86  45  89  63.000000  89.000000
3   68  54 

### 데이터 프레임 합성(병합)

+ merge()
    - 두 데이터프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다.
    - 이 때 기준이 되는 열, 행의 데이터를 key라고 한다.

+ concat()
    - 기준열을 사용하지 않고 단순히 데이터를 연결

In [2]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)
print("=========================================")
df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [3]:
# merge 는 sql 에서 inner join (이너 조인) 과 같다
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [4]:
# how 라는 옵션에 left를 적어 sql 에서 left outer join 기능 - df1에 있는 항목을 전부 표시(오른쪽인 df2는 공통된 부분만)
pd.merge(df1, df2, how="left")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [6]:
# how 라는 옵션에 right를 적어 sql 에서 right outer join 기능 - df2에 있는 항목을 전부 표시(왼쪽인 df1은 공통된 부분만)
pd.merge(df1, df2, how="right")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


In [7]:
# how 라는 옵션에 outer를 적어 sql 에서 full outer join 기능 - df1 과 df2 에 있는 항목을 전부 표시
pd.merge(df1, df2, how="outer")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [9]:
##### 키가 여러 개인 경우 ( 아래 예제에서는 고객명, 데이터가 키로 중첩될 수 있다. )

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

print(df1)
print("-------------------------------------------")
print(df2)
print("===========================================")

# df1과 df2에 고객명과 데이터가 서로 공통된 부분이므로 키가 2개로 혼동되어 join 값이 안나온다.
# on 을 통해 키를 뭐로 사용할건지 정해주어서 결과를 얻는다

pd.merge(df1, df2, on="고객명")

  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
-------------------------------------------
  고객명 데이터
0  춘향  여자
1  몽룡  남자


Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [13]:
##### 공통된 키가 없는 경우 ( 같은 변수(같은 의미)지만 제목을 다르게 지은 경우 - 아래 예제에서는 이름과 성명 )

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

print(df1)
print("------------------------------")
print(df2)

print("==============================")

pd.merge(df1, df2, left_on="이름", right_on="성명")

   이름  성적
0  영희   1
1  철수   2
2  철수   3
------------------------------
   성명  점수
0  영희   4
1  영희   5
2  철수   6


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [15]:
##### 인덱스를 기준열로 사용하는 경우 (한쪽은 컬럼, 한쪽은 인덱스)

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)

print("==============================")

pd.merge(df1, df2, left_on=["도시", "연도"], right_index=True)

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [18]:
##### 인덱스를 기준열로 사용하는 경우 (둘 다 인덱스)

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("========================================")

pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0


Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


#### concat()

In [19]:
s1 = pd.Series([0, 1], index=["A", "B"])
s2 = pd.Series([2, 3, 4], index=["A", "B", "C"])

pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [23]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])

print(df1)

print("-------------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])

print(df2)

print("======================================")

pd.concat([df1, df2])
pd.concat([df1, df2], axis=0)  # 기본값(default)은 axis=0 , 열로 합침
# pd.concat([df1, df2], axis=1)  # 행으로 합침

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
-------------------------------------
   데이터3  데이터4
a     5     6
c     7     8


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,,
c,4.0,5.0,,
a,,,5.0,6.0
c,,,7.0,8.0


### 6. 피봇 테이블과 그룹 분석

+ pivot()
    - pivot(index, columns, values)

+ groupby()
    - groupby(by, axis, level, as_index, sort, group_keys, squeeze, observed, dropna)

+ pivot_table()
    - pivot_table(values, index, columns, aggfunc, fill_value, margins, dropna, margins_name, observed, sort)

#### (1) pivot()

In [29]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df


Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [37]:
##### 각 도시에서 연도별로 인구 수를 알고 싶다.

# df.pivot(index="도시", columns="연도", values="인구")
df.pivot("도시", "연도", "인구")  # 순서가 같으면 변수명 생략하고 써도 사용가능

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [42]:
# pivot이 없다면 ...

df2 = df.set_index(["연도", "도시"])
df2

del df2["지역"]
df2

df2.unstack("연도")

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [45]:
# pivot이 없다면 2 ...

df[["도시", "연도", "인구"]].set_index(["도시", "연도"]).unstack("연도")

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [50]:
# pivot이 없다면 3 ...

df.set_index(["도시", "연도"])[["인구"]].unstack("연도")

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [56]:
# pivot이 없다면 4 ...

df.set_index(["도시", "연도"]).unstack("연도")[["인구"]]

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


#### (2) groupby()

+ 반드시 집계 함수와 함께 사용
    
        size(),count()
        mean(), median(), min(), max()
        sum(), prod(), std(), var(), quantile()
        first(), last()
        agg(), aggreate()
        describe()
        apply()
        transform()
        ...

In [57]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})

df2


Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [81]:
# groupby 의 첫 요소인 by는 기준점이 무엇이냐를 설정, 또 groupby는 집계함수랑 같이 사용안하면 주소값만 보여준다.
# 아래 예제에서 key1을 기준으로 sum 합을 구해 표현

print(df2.groupby(by="key1").sum())
print("--------------------------------------")
print(df2.data1.groupby(by=df2.key1).sum())
print("--------------------------------------")
print(df2.groupby("key1").data1.sum())
print("--------------------------------------")
print(df2.groupby("key1")["data1"].sum())
print("--------------------------------------")
print(df2.groupby("key1").sum().data1)
print("--------------------------------------")
print(df2.groupby("key1").sum()["data1"])    # []는 시리즈,  [[]] 는 데이터프레임 형식

      data1  data2
key1              
A         8     80
B         7     70
--------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
--------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
--------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
--------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
--------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64


In [91]:
##### 복합 키

df2.data1.groupby([df2.key1, df2.key2]).sum()
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack("key1")


key1,A,B
key2,Unnamed: 1_level_1,Unnamed: 2_level_1
one,6,3
two,2,4


In [109]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

##### 각 도시에서 연도별로 인구 수를 알고 싶다. - groupby를 사용

df.groupby(["도시", "연도"]).sum().unstack()

##### 각 지역에서 연도별로 인구 수를 알고 싶다. - groupby를 사용

df.groupby(["지역", "연도"]).sum().unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [4]:
##### agg(), apply(), transform()

import seaborn as sns

iris = sns.load_dataset("iris")
iris.describe()      #describe  요약
iris.head()     #head 앞에 있는 자료만 뽑아오는..

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [14]:
# 각 붓꽃별로 가장 큰 값과 가장 작은 값의 비율을 조회

def peek_to_peek_ratio(x):
    return x.max() / x.min()

##########################################

print(iris.groupby(iris.species).apply(peek_to_peek_ratio))
print("-------------------------------------------------------------------------")
print(iris.groupby(iris.species).agg(peek_to_peek_ratio))
print("-------------------------------------------------------------------------")
print(iris.groupby(iris.species).transform(peek_to_peek_ratio))

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-------------------------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-------------------------------------------------------------------------
     sepal_length  sepal_width  petal_length  petal_width
0        1.348837     1.913043      1.900000     6.000000
1        1.348837     1.913043      1.900000     6.000000
2        1.348837     1.9130

In [22]:
# 각 붓꽃별로 가장 꽃잎 길이가 작은 것 3개만 조회

def min3(x):
    return x.sort_values(by="petal_length")[:3]

print(iris.groupby(iris.species).apply(min3))
print("-------------------------------------------------------------------------")
#print(iris.groupby(iris.species).agg(min3))
#print(iris.groupby(iris.species).transform(min3))

                sepal_length  sepal_width  petal_length  petal_width  \
species                                                                
setosa     22            4.6          3.6           1.0          0.2   
           13            4.3          3.0           1.1          0.1   
           14            5.8          4.0           1.2          0.2   
versicolor 98            5.1          2.5           3.0          1.1   
           93            5.0          2.3           3.3          1.0   
           57            4.9          2.4           3.3          1.0   
virginica  106           4.9          2.5           4.5          1.7   
           126           6.2          2.8           4.8          1.8   
           138           6.0          3.0           4.8          1.8   

                   species  
species                     
setosa     22       setosa  
           13       setosa  
           14       setosa  
versicolor 98   versicolor  
           93   versicolor  
    

In [21]:
# apply 와 agg 의 차이

def test(x):
    return 1

##################################

print(iris.groupby(iris.species).apply(test))
print("-------------------------------------------------------------------------")
print(iris.groupby(iris.species).agg(test))
print("-------------------------------------------------------------------------")
print(iris.groupby(iris.species).transform(test))

species
setosa        1
versicolor    1
virginica     1
dtype: int64
-------------------------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa                 1            1             1            1
versicolor             1            1             1            1
virginica              1            1             1            1
-------------------------------------------------------------------------
     sepal_length  sepal_width  petal_length  petal_width
0               1            1             1            1
1               1            1             1            1
2               1            1             1            1
3               1            1             1            1
4               1            1             1            1
..            ...          ...           ...          ...
145             1            1             1        

In [29]:
# apply 는 1개의 함수밖에 못쓰나 agg 는 여러개의 함수를 함께 사용 가능

iris.groupby("species").agg([np.sum, np.mean, np.std, peek_to_peek_ratio])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,peek_to_peek_ratio,sum,mean,std,peek_to_peek_ratio,sum,mean,std,peek_to_peek_ratio,sum,mean,std,peek_to_peek_ratio
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
setosa,250.3,5.006,0.35249,1.348837,171.4,3.428,0.379064,1.913043,73.1,1.462,0.173664,1.9,12.3,0.246,0.105386,6.0
versicolor,296.8,5.936,0.516171,1.428571,138.5,2.77,0.313798,1.7,213.0,4.26,0.469911,1.7,66.3,1.326,0.197753,1.8
virginica,329.4,6.588,0.63588,1.612245,148.7,2.974,0.322497,1.727273,277.6,5.552,0.551895,1.533333,101.3,2.026,0.27465,1.785714


In [86]:
##### 연습 문제

df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

print(df)

print("===========================================================")

# 1) 도시별로 과일의 가격 평균과 수량 평균을 구하시오.

print(df.groupby("city").mean())
print("-----------------------------------------------------")

# 2) 도시별, 과일별 가격 평균과 수량 평균을 구하시오.

# def avg(x):
#     return np.mean(x)

# print(df.groupby(["city", "fruits"]).agg({'price': avg, 'quantity': avg}))

print(df.groupby(["city", "fruits"]).mean())
print("-----------------------------------------------------")

# 3) 위의 문제에서 도시별, 과일별을 인덱스로 하고 싶지 않은 경우

print(df.groupby(["city", "fruits"]).mean().reset_index())
print("-----------------------------------------------------")

# 4) 도시별로 가격의 평균과 수량의 합계를 동시에 구하시오.

def avg(x):
    return np.mean(x)

print(df.groupby("city").agg({'price':avg, 'quantity':np.sum}))

# print(df.pivot_table(values=["price", "quantity"], index="city", aggfunc=[np.mean, sum]))


  city  fruits  price  quantity
0   부산   apple    100         1
1   부산  orange    200         2
2   부산  banana    250         3
3   부산  banana    300         4
4   서울   apple    150         5
5   서울   apple    200         6
6   서울  banana    400         7
      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0
-----------------------------------------------------
             price  quantity
city fruits                 
부산   apple   100.0       1.0
     banana  275.0       3.5
     orange  200.0       2.0
서울   apple   175.0       5.5
     banana  400.0       7.0
-----------------------------------------------------
  city  fruits  price  quantity
0   부산   apple  100.0       1.0
1   부산  banana  275.0       3.5
2   부산  orange  200.0       2.0
3   서울   apple  175.0       5.5
4   서울  banana  400.0       7.0
-----------------------------------------------------
      price  quantity
city                 
부산    212.5        10
서울    250.0        18


#### (3) pivot_table()

In [31]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df


Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [40]:
##### 각 도시에서 연도별로 인구 수를 알고 싶다. - pivot_table() 사용

df.pivot(index="도시", columns="연도", values="인구")   # pivot() 사용시
df.groupby(["도시", "연도"])[["인구"]].sum().unstack()    # groupby() 사용시

df.pivot_table(values="인구", index="도시", columns="연도")     # pivot_table() 사용시

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [48]:
##### 연도별, 도시별 인구수를 알고 싶다.

print(df.groupby(["연도", "도시"])[["인구"]].sum())
print("------------------------------------------")
print(df.pivot_table(index=["연도", "도시"], values="인구"))
# print(df.pivot_table("인구", ["연도", "도시"]))


              인구
연도   도시         
2005 부산  3512547
     서울  9762546
2010 부산  3393191
     서울  9631482
     인천   263203
2015 부산  3448737
     서울  9904312
     인천  2890451
------------------------------------------
              인구
연도   도시         
2005 부산  3512547
     서울  9762546
2010 부산  3393191
     서울  9631482
     인천   263203
2015 부산  3448737
     서울  9904312
     인천  2890451


In [57]:
# pivit_table() 에서 index나 values를 직접명시하지 않을 시 순서 주의 (values, index, columns 순서임)

print(df.pivot_table("인구", "도시", "연도", aggfunc="sum", margins=True,
                    margins_name="합계", fill_value=0))  

# margins=True 는 행의 합과 열의 합을 구해서 추가- 기본값이 All
# margins_name 은 행의 합과 열의 합 부분 이름을 바꾸는 것- 아래 합계부분 해당
# fill_value 는 결측치 기본값을 설정하는 것 - 예문에서는 NaN을 0으로 변경

연도      2005      2010      2015        합계
도시                                        
부산   3512547   3393191   3448737  10354475
서울   9762546   9631482   9904312  29298340
인천         0    263203   2890451   3153654
합계  13275093  13287876  16243500  42806469


### 7. 활용 예제

In [58]:
import seaborn as sns
tips = sns.load_dataset("tips")

In [63]:
print(tips.head())  #처음 5개 데이터를 뽑아주며 () 안에 숫자를 넣으면 그 숫자만큼 뽑아준다.
print(tips.tail())  #마지막 5개 데이터를 뽑아준다.
print(tips.describe())
print(tips.info())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
     total_bill   tip     sex smoker   day    time  size
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2
       total_bill         tip        size
count  244.000000  244.000000  244.000000
mean    19.785943    2.998279    2.569672
std      8.902412    1.383638    0.951100
min      3.070000    1.000000    1.000000
25%     13.347500    2.000000    2.000000
50%     17.795000    2.900000    2.000000
75%     24.127500    3.562500    3.00000

In [None]:
##### 식사 대금과 팁의 비율(tip/total_bill)을 나타내는 tip_pct라는 파생변수를 추가 (컬럼을 새로 만들어라는 뜻)

tips.pivot_table()

In [None]:
##### 성별로 인원수 파악

In [None]:
##### 성별, 흡연유무 별로 인원수 파악

In [None]:
##### 위의 두 정보를 하나의 테이블로 tip_pct로 조회
"""
smoker   Yes   No
   sex
  Male   ...
  Female ...
"""

In [None]:
##### 성별에 따른 평균 팁 비율

In [None]:
##### 흡연 여부에 따르 팁 비율

In [None]:
##### 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴볼 수 있도록 조회

In [None]:
##### 성별, 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이