### 시리즈 생성
- 시리즈 클래스는 넘파이에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다. 데이터 자체는 값(value)이라고 한다.

In [3]:
import pandas as pd

In [33]:
pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})

272830

In [4]:
s = pd.Series([9904312, 3448738, 2890451, 2466052],
                index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448738
인천    2890451
대구    2466052
dtype: int64

In [5]:
# 인덱스 지정하지 않고 만들면 0부터 시작
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [6]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
s.values

array([9904312, 3448738, 2890451, 2466052], dtype=int64)

In [11]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산
- 연산은 시리즈의 값에만 적용, 인덱스 값은 변하지 않는다.

In [12]:
s / 1000000

도시
서울    9.904312
부산    3.448738
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 시리즈 인덱싱
- 넘파이에서 가능한 인덱스방법, 인덱스 라벨을 이용한 인덱스 방법

In [14]:
s[1], s["부산"]

(3448738, 3448738)

In [15]:
s[3], s["대구"]

(2466052, 2466052)

In [16]:
# 배열 인덱싱으로 부분적인 값을 가지는 시리즈 자료형을 반환
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448738
Name: 인구, dtype: int64

In [23]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448738
Name: 인구, dtype: int64

In [19]:
s[(25e4 < s) & (s < 500e4)] # 인구가250만 초과, 500만 미만

도시
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [20]:
s[1:3] # 두번째(1)부터 세번째(2)까지(네번째(3)미포함) 0 1 2 3 중

도시
부산    3448738
인천    2890451
Name: 인구, dtype: int64

In [21]:
s["부산":"대구"] # 부산에서 대구까지 (대구도 포함)

도시
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [24]:
# 라벨(index) 값이 영문 문자열인 경우에는 인덱스라벨이 속성인 것처럼 점(.)을 이용하여 접근가능
s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [25]:
s0.a, s0.b, s0.c

(0, 1, 2)

### 시리즈와 딕션너리 자료형
- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능 => 인덱스 라벨을 key로 가지는 딕셔너리 자료형과 같다고 볼 수 있음. 따라서 딕셔너리 자료형에서 제공하는 in 연산, items 메서드를 사용한 for문을 통해 원소의 key와 value에 접근 가능

In [26]:
"서울" in s

True

In [27]:
"대전" in s

False

In [28]:
for k, v in s.items():
    print("%s = %d" % (k, v))

서울 = 9904312
부산 = 3448738
인천 = 2890451
대구 = 2466052


In [29]:
# 딕셔너리 객체 {}에서 시리즈 만들기
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [30]:
# 딕셔너리 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 인덱스를 리스트로 지정하면 가능
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
                index=["부산","서울","인천","대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

### 인덱스 기반 연산
- 인덱스가 같은 데이터에 대해서만 차이를 구함

In [37]:
ds = s - s2 # s에는 대전이 없고 s2에는 대구가 없다
ds

대구         NaN
대전         NaN
부산     55547.0
서울    272830.0
인천    258416.0
dtype: float64

In [32]:
s.values - s2.values

array([ 6511121, -6182744,   258416,   975894], dtype=int64)

In [39]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [40]:
ds[ds.notnull()]

부산     55547.0
서울    272830.0
인천    258416.0
dtype: float64

In [41]:
rs = (s - s2) / s2 *100
rs = rs[rs.notnull()]
rs

부산    1.637014
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제

In [42]:
rs['부산'] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [43]:
rs['대구'] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [48]:
# del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

## 데이터프레임 클래스
- 시리즈가 1차원 벡터 데이터에 행방향 인덱스를 붙인 것이라면 데이터프레임(DataFrame)클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.

In [6]:
# 2차원 배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만 데이터프레임은 각 열(column)마다
# 자료형이 다를 수 있다. 지역, 인구, 증가율은 각각 문자열, 정수, 부동소수점이다
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권","경상권","수도권","경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역","2015","2010","2005","2000","2010-2015 증가율"]
index = ["서울","부산","인천","대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [7]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [8]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [9]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [11]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [12]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### 열 데이터의 갱신, 추가, 삭제

In [14]:
# "2010-2015 증가율"이라는 이름의 열 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,283.0
부산,경상권,3448737,3393191,3512547,3655437,163.0
인천,수도권,2890451,2632035,2517680,2466338,982.0
대구,경상권,2466052,2431774,2456016,2473990,141.0


In [15]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,283.0,-1.34
부산,경상권,3448737,3393191,3512547,3655437,163.0,-3.4
인천,수도권,2890451,2632035,2517680,2466338,982.0,4.54
대구,경상권,2466052,2431774,2456016,2473990,141.0,-0.99


In [16]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 열 인덱싱

In [20]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다. (데이터프레임 자료형이 아니다, 표가없다)
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [19]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다(표가 존재)
df[["2010","2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [21]:
# 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면
# (원소가 하나인 리스트[], 바깥은 배열원소표시[])
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [23]:
# 데이터프레임과 시리즈 비교
type(df[["2010"]]), type(df["지역"])

(pandas.core.frame.DataFrame, pandas.core.series.Series)

In [24]:
# 데이터프레임의 열인덱스가 문자열 라벨을 가지고 있는 경우 정수 인덱스를 사용할 수 없다
df[0]

KeyError: 0

In [2]:
import numpy as np

In [27]:
# 다만 원래부터 문자열이 아닌 정수형 열 인덱스를 가지는 경우에는 가능하다
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [28]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [29]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


## 행 인덱싱

In [30]:
df[:1]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [31]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [32]:
df["서울":"부산"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


## 개별 데이터 인덱싱

In [33]:
# 데이터프레임에서 열 라벨로 시리즈를 인덱싱하면 시리즈가 된다. 이 시리즈를 다시
# 행라벨로 인덱싱하면 개별 데이터가 나온다.
df["2015"]["서울"]

9904312

# 4.2 데이터 입출력
- CSV, Excel, HTML, JSON, HDF5, SAS, STATA, SQL을 읽어 데이터프레임을 만들 수 있다

## %%writefile 명령

In [35]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three
# 샘플데이터로 사용할 csv파일을 %%writefile 매직 명령으로 만든다

Overwriting sample1.csv


## CSV 파일 입력

In [11]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [33]:
%%writefile sample2.csv 
1, 1.11, one
2, 2.22, two
3, 3.33, three
# 열인덱스 정보가 없는경우(c1,c2,c3)

Writing sample2.csv


In [34]:
pd.read_csv('sample2.csv', names=['c1','c2','c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [25]:
# 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶다면 index_col인수를 사용
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [32]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515
# 확장자가 csv가 아닌 즉, 데이터를 구분하는 구분자가 쉼표(,)가 아니면 sep인수를 써서 구분자를
# 사용자가 지정해준다. 만약 길이가 정해지지 않은 공백이 구분자인 경우에는 \s+ 정규식 문자열을
# 사용한다

Overwriting sample3.txt


In [36]:
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [52]:
%%writefile sample4.txt
파일 제목:sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample4.txt


In [59]:
# 샘플데이터로 사용할 csv파일을 %%writefile 매직 명령으로 만든다
pd.read_csv('sample4.txt', skiprows=[0,1])

Unnamed: 0,Unnamed: 1,데이터 포맷의 설명:
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three


In [62]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [63]:
# 특정한 값을 NaN으로 취급하고 싶으면 na_value 인수에 NaN 값으로 취급할 값을 넣는다
df = pd.read_csv('sample5.csv', na_values=['누락'])
df


Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력

In [64]:
df.to_csv('sample6.csv')

In [65]:
!type sample6.csv       # 리눅스, 맥은 !cat, 윈도우는 !type

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


In [66]:
df.to_csv('sample7.txt', sep='|')

In [67]:
!type sample7.txt

|c1| c2| c3
0|1.0| 1.11| one
1|2.0| | two
2|| 3.33| three


In [68]:
df.to_csv('sample8.csv', na_rep='누락') # na_rep인수로 NaN표시값을 누락으로

In [69]:
!type sample8.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,누락, 3.33, three


In [71]:
df.index = ["a","b","c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [73]:
# index, header 인수를 지정하여 인덱스및헤더 출력 여부 지정
df.to_csv('sample9.csv', index=False, header=False)

In [75]:
!type sample9.csv

1.0, 1.11, one
2.0, , two
, 3.33, three


## 인터넷 상의 CSV 파일 입력
- 웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다. read_csv 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다.

In [76]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [77]:
pd.set_option("display.max_rows", 20) # 앞뒤로 모두 20행만 보여준다.
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [79]:
df.head(2) # 앞의 몇개만 보여주는 메서드

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [80]:
df.tail(2) # 뒤의 몇개만 보여주는 메서드

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


# 데이터프레임 고급 인덱싱
- 데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱이라고 한다. 앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인뎅싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다. 그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한(행 인덱스, 열 인덱스)형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서 속성도 제공한다.
   - loc: 라벨값 기반의 2차원 인덱싱
   - iloc: 순서를 나타내는 정수 기반의 2차원 인덱싱

## loc 인덱서
- df.loc[행 인덱싱값]
- df.loc[행 인덱싱값, 열 인덱싱값]

In [83]:
import numpy as np
import pandas as pd

In [88]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                    index=["a","b","c"],
                    columns=["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


## 인덱싱값을 하나만 받는 경우

In [89]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [90]:
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [91]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [95]:
df.loc[["b","c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [97]:
df.A > 15   # 데이터베이스와 같은 인덱스를 가지는 불리언시리즈도
            # 행을 선택하는 인덱싱값으로 쓸 수 있다

a    False
b    False
c     True
Name: A, dtype: bool

In [98]:
df.loc[df.A > 15] # A의 a,b,c중 15보다 큰 값의 행

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [99]:
# 인덱스 대신 인덱스 값을 반환하는 함수
def select_rows(df):
    return df.A > 15

In [100]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [101]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [None]:
# 라벨 인덱싱이나 라벨리스트 인덱싱은 불가능
df.loc["A"]
df.loc[["A","B"]]

In [103]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A","B","C","D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [106]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [107]:
df2[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


## 인덱싱값을 행과 열 모두 받는 경우
- df.loc[행 인덱스, 열 인덱스]

In [108]:
df.loc["a","A"]

10

In [109]:
df.loc["b":, "A"] # b부터끝까지와, A열을 출력

b    14
c    18
Name: A, dtype: int32

In [113]:
df.loc["a",:]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [114]:
df.loc[["a","b"], ["B","D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [115]:
df.loc[df.A > 10, ["C","D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


## iloc 인덱서
- iloc인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수인덱서만 받는다.

In [117]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                    index=["a","b","c"],
                    columns=["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [118]:
df.iloc[0, 1]

11

In [119]:
df.iloc[:2,2]

a    12
b    16
Name: C, dtype: int32

In [121]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [123]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [124]:
# loc인덱서와 마찬가지로 인덱서가 하나만 들어가면 행을 선택한다.
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [125]:
df.iloc[-1] = df.iloc[-1]*2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


# 데이터프레임의 데이터 조작

In [129]:
import numpy as np
import pandas as pd

## 데이터 갯수 세기
- count 메서드

In [130]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [132]:
s.count()           # NaN 값은 세지 않는다

9

In [135]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [136]:
# 데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 3열에 NaN으로 누락
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [137]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [138]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## 카테고리 값 세기
- value_counts()

In [139]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [140]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [143]:
# 데이터프레임에는 value_counts 메서드가 없어, 각 열마다 별도로 적용해야한다.
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

## 정렬
- sort_index()는 인덱스 값을 기준
- sort_values()는 데이터 값을 기준

In [145]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [147]:
# NaN값이 있는 경우 정렬하면 NaN값이 가장 나중에 나온다
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [148]:
# 큰 수에서 작은 수로 반대 방향 정렬 ascending=False
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

In [153]:
# sort_values()는 by 인수로 정렬 기준이 되는 열을 지정
df.sort_values(by=3)

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
3,4.0,3.0,4.0,2.0
2,3.0,2.0,4.0,


In [156]:
# 1열부터 따지고 동일한 값 1열의 0.0, 0.0은 2열에따라 따진다
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


## 행/열 합계

In [157]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [158]:
# 행방향 합계를 구할 때는 sum(axis=1)
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [159]:
df2["RowSom"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSom
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [160]:
# 열방향 합계 sum(axis=0), axis인수의 디폴트 값이 0이므로 axis생략가능
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSom    152
dtype: int64

In [161]:
df2.loc["ColTotal", :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSom
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


In [163]:
df2.mean(axis=1)        # mean()은 평균메서드 사용법은 sum()과 동일

0            7.777778
1            7.555556
2            9.111111
3            9.333333
ColTotal    33.777778
dtype: float64

In [164]:
df2.mean(axis=0)

0          9.6
1         13.2
2         10.0
3          9.6
4          6.0
5          4.0
6          2.0
7          6.4
RowSom    60.8
dtype: float64

## apply변환
- 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply메서드를 사용

In [166]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [169]:
# 각 열의 최댓값과 최솟값의 차이를 구한다
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [170]:
# 행에 대해 적용
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [180]:
# 각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts함수
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


Unnamed: 0,1,2,3,4,5
0,2.0,1.0,,,
1,,,2.0,,1.0
2,1.0,1.0,,1.0,
3,,1.0,1.0,1.0,
4,,,1.0,2.0,


In [181]:
# apply메서드로 20살을 기준 adult/child 구분하기
titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


## fillna메서드
- NaN 값은 fillna메서드를 사용하여 원하는 값으로 바꿀 수 있다

In [185]:
df3.apply(pd.value_counts).fillna(0.0) # 콤마가아닌 점이다 0.0

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## astype 메서드
- astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능

In [186]:
df3.apply(pd.value_counts).fillna(0).astype(int)

Unnamed: 0,A,B,C
1,1,1,1
2,0,2,1
3,2,2,0
4,2,0,2
5,0,0,1


## 실수 값을 카테고리 값으로 변환
- cut: 실수 값의 경계선을 지정하는 경우
- qcut: 갯수가 똑같은 구간으로 나누는 경우

In [187]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

In [189]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "중년", "장년", "노년"] # 1-20 미성년자, 20-30 청년...
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '장년', '미성년자', '중년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [190]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [191]:
cats.categories

Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')

In [193]:
cats.codes # NaN은 -1, 청년은 1, 중년은 2

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [194]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels=labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,중년
6,31,중년
7,61,장년
8,20,미성년자
9,41,중년


In [205]:
# qcut 명령은 구간 경계선을 지정하지 않고 데이터 갯수가 같도록 지정한 수의
# 구간으로 나눈다
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=["Q1","Q2","Q3","Q4"])
cats

['Q2', 'Q1', 'Q1', 'Q3', 'Q4', ..., 'Q2', 'Q2', 'Q1', 'Q4', 'Q1']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [197]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64

# 데이터프레임 인덱스 조작

## 데이터프레임 인덱스 설정 및 제거
- set_index: 기존의 행 인덱스를 제거하고 데이터 열 중 하나를 인덱스로 설정
- reset_index: 기존의 행 인덱스를 제거하고 인덱스를 데이터 열로 추가

In [226]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'),
                              np.round(np.random.rand(3, 5), 2)]).T,
                   columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [229]:
# set_index()로 특정한 열을 인덱스로 설정
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [231]:
# C2열을 인덱스로 지정하면 기존의 인덱스는 사라짐
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [233]:
# reset_index메서드를 쓰면 인덱스를 보통의 자료열로 바꿀 수 있다
df2.reset_index()

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


## 다중 인덱스


In [234]:
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                    columns=[["A", "A", "B", "B"],
                            ["C1","C2","C1","C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [236]:
df3.columns.names = ["Cidx1","Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [237]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                    columns=[["A","A","B","B"],
                            ["C","D","C","D"]],
                    index=[["M","M","M","F","F","F"],
                            ["id_" + str(i+1) for i in range(3)]*2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


# 데이터프레임 합성

## merge함수를 사용한 데이터프레임 병합

In [4]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리','도우너','또치','길동','희동','마이콜','영희']
}, columns=['고객번호','이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [5]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [241]:
# df1, df2를 합치면 공통 열인 고객번호 열을 기준으로 합친다
# 이때 기본적으로는 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 보여주는
# inner join방식을 사용한다
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [242]:
# outer은 양쪽 모든 데이터를 보여준다
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [6]:
import numpy as np
import pandas as pd

In [10]:
# left는 df1 키 값을 모두 보여준다.
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [11]:
# right는 df2 키 값을 모두 보여준다.
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


## 테이블에 키 값이 같은 데이터가 여러개 있는 경우

In [12]:
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종','꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [13]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4,0.3,0.5,0.3]},
    columns=['품종','꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [14]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


In [15]:
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02','2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [16]:
df2 = pd.DataFrame({
    '고객명': ['춘향','몽룡'],
    '데이터': ['여자','남자']})
df2

Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [17]:
# df1과 df2에서 열이름인 '고객명'과 '데이터'가 겹쳐 기준이 되는데
# 데이터의 내용은 하나는 금액이고 하나는 성별이다
# on인자를 통해서 기준열을 명시할 수 있다
pd.merge(df1, df2, on='고객명')

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


In [18]:
df1 = pd.DataFrame({
    '이름': ['영희','철수','철수'],
    '성적': [1, 2, 3]})
df1

Unnamed: 0,이름,성적
0,영희,1
1,철수,2
2,철수,3


In [19]:
df2 = pd.DataFrame({
    '성명': ['영희','영희','철수'],
    '성적2': [4, 5, 6]})
df2

Unnamed: 0,성명,성적2
0,영희,4
1,영희,5
2,철수,6


In [20]:
# 키가 되는 기준열의 이름이 두 데이터프레임에서 다르다면
# left_on, right_on인수를 사용하여 기준열을 명시할 수 있다
pd.merge(df1, df2, left_on='이름', right_on='성명')

Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


## join 메서드
- merge명령어 대신 join메서드를 사용할 수도 있다

In [26]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리','도우너','또치','길동','희동','마이콜','영희']
}, columns=['고객번호', '이름'])
df1.set_index('고객번호', inplace=True) # set_index를하면 옆에 번호가 없어짐

df1

Unnamed: 0_level_0,이름
고객번호,Unnamed: 1_level_1
1001,둘리
1002,도우너
1003,또치
1004,길동
1005,희동
1006,마이콜
1007,영희


In [27]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호','금액'])
df2.set_index('고객번호',inplace=True)
df2

Unnamed: 0_level_0,금액
고객번호,Unnamed: 1_level_1
1001,10000
1001,20000
1005,15000
1006,5000
1008,100000
1001,30000


In [28]:
df1.join(df2, how='inner')

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,둘리,10000
1001,둘리,20000
1001,둘리,30000
1005,희동,15000
1006,마이콜,5000


In [29]:
df1.join(df2) # Left outer join

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,둘리,10000.0
1001,둘리,20000.0
1001,둘리,30000.0
1002,도우너,
1003,또치,
1004,길동,
1005,희동,15000.0
1006,마이콜,5000.0
1007,영희,


In [31]:
df1.join(df2, how='right')

Unnamed: 0_level_0,이름,금액
고객번호,Unnamed: 1_level_1,Unnamed: 2_level_1
1001,둘리,10000
1001,둘리,20000
1001,둘리,30000
1005,희동,15000
1006,마이콜,5000
1008,,100000


## concat함수
- concat함수를 사용하면 기준열(key column)을 사용하지 않고
단순히 데이터를 연결(concatenate)한다

In [32]:
s1 = pd.Series([0, 1], index=['A','B'])
s2 = pd.Series([2, 3, 4], index=['A','B','C'])

In [33]:
s1

A    0
B    1
dtype: int64

In [34]:
s2

A    2
B    3
C    4
dtype: int64

In [35]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [39]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a','b','c'],
    columns=['데이터1','데이터2'])
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [40]:
df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a','c'],
    columns=['데이터3','데이터4'])
df2

Unnamed: 0,데이터3,데이터4
a,5,6
c,7,8


In [41]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


# 데이터프레임 그룹 분석

In [42]:
import numpy as np
import pandas as pd
import seaborn as sns

## 피봇테이블
- 피봇테이블이란 데이터 열 중에서 두 개의 열을 행 인덱스, 열 인덱스로 사용하여 데이터를 조회하여 펼쳐 놓은 것을 말한다

In [43]:
data = {
    "도시": ["서울","서울","서울","부산","부산","부산","인천","인천"],
    "연도": ["2015","2010","2005","2015","2010","2005","2015","2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권","수도권","수도권","경상권","경상권","경상권","수도권","수도권"]
}
columns = ["도시","연도","인구","지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [44]:
df1.pivot("도시","연도","인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [45]:
df1.set_index(["도시","연도"])[["인구"]].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [46]:
df1.pivot(["지역","도시"], "연도", "인구")

Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


## 그룹 분석

In [48]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A','A','B','B','A'],
    'key2': ['one','two','one','two','one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [51]:
# 이 groupby 클래스 객체에는 각 그룹 데이터의 인덱스를 저장한
# groups 속성이 있다
groups = df2.groupby(df2.key1)
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022A8072C6D0>

In [53]:
groups.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [54]:
groups.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [55]:
# groupby 클래스 객체를 명시적으로 얻을 필요가 없을 때
# groupby()가 data1 뒤에 있다
df2.data1.groupby(df2.key1).sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [57]:
# groupby 클래스 객체를 그룹분석한 결과에서 data1을 뽑음
df2.groupby(df2.key1)["data1"].sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [61]:
# 전체 데이터를 분석한 후 data1만 선택
df2.groupby(df2.key1).sum()["data1"]

key1
A    8
B    7
Name: data1, dtype: int64

In [60]:
# 복합 키 (key1, key2) 값에 따른 data1의 합계
df2.data1.groupby([df2.key1, df2.key2]).sum()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

In [62]:
# unstack명령으로 피벗테이블(두 열을 행과 열로 바꿈)
df2.data1.groupby([df2["key1"], df2["key2"]]).sum().unstack("key2")

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [63]:
df1["인구"].groupby([df1["지역"], df1["연도"]]).sum().unstack("연도")

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [65]:
# 150 송이의 붓꽃에 대해 꽃잎길이, 꽃잎폭을 측정한 데이터이다
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [66]:
iris.groupby(iris.species).mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [59]:
iris.groupby(iris.species).agg(['mean', 'std'])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_width,sepal_width,petal_length,petal_length,petal_width,petal_width
Unnamed: 0_level_1,mean,std,mean,std,mean,std,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
setosa,5.006,0.35249,3.428,0.379064,1.462,0.173664,0.246,0.105386
versicolor,5.936,0.516171,2.77,0.313798,4.26,0.469911,1.326,0.197753
virginica,6.588,0.63588,2.974,0.322497,5.552,0.551895,2.026,0.27465


In [68]:
iris.groupby(iris.species).agg(lambda x: x.max()/x.min())

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [69]:
# apply는 describe()처럼 하나의 대표값이 아닌 데이터프레임
# 을 출력하지만 원하는 그룹연산이 없는 경우에 사용한다
# agg와 유사
iris.groupby(iris.species).apply(lambda x: x.max()/x.min())

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [64]:
# 각 붓꽃 종별로 가장 큰 값과 가장 작은 값의 비율
# agg메서드는 원하는 그룹 연산이 없는 경우 함수를 만들고
# 이 함수를 agg에 전달해서 함수를 사용할 수 있게한다
def peak_to_peak_ratio(x):
    return x.max() / x.min()

iris.groupby(iris.species).agg(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [70]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [67]:
# describe()를 사용하면 다양한 기술통계를 한번에 구한다(count, mean...)
iris.groupby(iris.species).describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


In [78]:
mpg = sns.load_dataset('mpg')
mpg.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino


In [79]:
mpg['manufacturer'] = mpg.name.apply(lambda x: x.split()[0])
mpg.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,manufacturer
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu,chevrolet
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320,buick
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite,plymouth
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst,amc
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino,ford


In [80]:
mpg['model'] = mpg.name.apply(lambda x: ' '.join(x.split()[1:]))
mpg.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,manufacturer,model
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu,chevrolet,chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320,buick,skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite,plymouth,satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst,amc,rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino,ford,torino


In [81]:
mpg.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,manufacturer,model
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu,chevrolet,chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320,buick,skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite,plymouth,satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst,amc,rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino,ford,torino


In [82]:
def q3cut(s):
    return pd.qcut(s, 3, labels=["소","중","대"]).astype(str)

In [83]:
iris["petal_length_class"] = iris.groupby(iris.species).petal_length.transform(q3cut)
iris[["petal_length", "petal_length_class"]].tail(10)

Unnamed: 0,petal_length,petal_length_class
140,5.6,중
141,5.1,소
142,5.1,소
143,5.9,대
144,5.7,중
145,5.2,소
146,5.0,소
147,5.2,소
148,5.4,중
149,5.1,소


## pivot_table

In [84]:
df1.pivot_table("인구","도시","연도")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [86]:
df1.pivot_table("인구","도시","연도", margins=True, margins_name="합계")

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,3451492.0
서울,9762546.0,9631482.0,9904312.0,9766113.0
인천,,263203.0,2890451.0,1576827.0
합계,6637546.5,4429292.0,5414500.0,5350809.0


In [92]:
df1["인구"].mean()

5350808.625

In [93]:
df1.pivot_table("인구", index=["연도","도시"])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


In [97]:
df1.pivot_table("인구", ["지역","도시"], "연도", margins=True, margins_name="합계")

Unnamed: 0_level_0,연도,2005,2010,2015,합계
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
경상권,부산,3512547.0,3393191.0,3448737.0,3451492.0
수도권,서울,9762546.0,9631482.0,9904312.0,9766113.0
수도권,인천,,263203.0,2890451.0,1576827.0
합계,,6637546.5,4429292.0,5414500.0,5350809.0


## tips dataset 사례

In [99]:
tips = sns.load_dataset('tips')
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.0,Female,Yes,Sat,Dinner,2
241,22.67,2.0,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2
243,18.78,3.0,Female,No,Thur,Dinner,2


In [101]:
# tip_pct는 식사대금과 팁의 비율
tips['tip_pct'] = tips['tip'] / tips['total_bill']
tips.tail()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.0,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.0,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204
243,18.78,3.0,Female,No,Thur,Dinner,2,0.159744


In [102]:
tips.describe()

Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [103]:
# NaN값이 없다면 데이터 갯수는 모두 같다
tips.groupby("sex").count()

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [105]:
# 이때는 size()를 사용하면 더 간단히 표시된다
tips.groupby("sex").size()

sex
Male      157
Female     87
dtype: int64

In [108]:
tips.groupby(["sex","smoker"]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [109]:
tips.pivot_table("tip_pct","sex","smoker", aggfunc="count", margins=True)

smoker,Yes,No,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,60,97,157
Female,33,54,87
All,93,151,244


In [110]:
tips.groupby("sex")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [111]:
tips.groupby("smoker")[["tip_pct"]].mean()

Unnamed: 0_level_0,tip_pct
smoker,Unnamed: 1_level_1
Yes,0.163196
No,0.159328


In [112]:
tips.pivot_table("tip_pct", "sex")

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,0.157651
Female,0.166491


In [113]:
tips.pivot_table("tip_pct", ["sex","smoker"])

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152771
Male,No,0.160669
Female,Yes,0.18215
Female,No,0.156921


In [114]:
# 여성 혹은 흡연자의 팁 비율이 높은 것을 볼 수 있다.
tips.pivot_table("tip_pct", "sex", "smoker")

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


In [115]:
tips.groupby("sex")[["tip_pct"]].describe()

Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Male,157.0,0.157651,0.064778,0.035638,0.121389,0.153492,0.18624,0.710345
Female,87.0,0.166491,0.053632,0.056433,0.140416,0.155581,0.194266,0.416667


In [116]:
tips.groupby("smoker")[["tip_pct"]].describe()

Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Yes,93.0,0.163196,0.085119,0.035638,0.106771,0.153846,0.195059,0.710345
No,151.0,0.159328,0.03991,0.056797,0.136906,0.155625,0.185014,0.29199


In [117]:
tips.groupby(["sex","smoker"])[["tip_pct"]].describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
sex,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Male,Yes,60.0,0.152771,0.090588,0.035638,0.101845,0.141015,0.191697,0.710345
Male,No,97.0,0.160669,0.041849,0.071804,0.13181,0.157604,0.18622,0.29199
Female,Yes,33.0,0.18215,0.071595,0.056433,0.152439,0.173913,0.198216,0.416667
Female,No,54.0,0.156921,0.036421,0.056797,0.139708,0.149691,0.18163,0.252672


# 시계열 자료 다루기
- 시계열 자료는 인덱스가 날짜 혹은 시간인 데이터

In [119]:
# pd.to_datetime()은 날짜/시간을 나타내는 문자열을 자동으로 datetime자료형으로 바꾼 후
# DatetimeIndex자료형인덱스를 생성한다
date_str = ["2018, 1, 1", "2018, 1, 4", "2018, 1, 5", "2018, 1, 6"]
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [122]:
np.random.seed(0)
s = pd.Series(np.random.randn(4), index=idx)
s

2018-01-01    1.764052
2018-01-04    0.400157
2018-01-05    0.978738
2018-01-06    2.240893
dtype: float64

In [123]:
# 범위내의 날짜/시간 인덱스를 생성
pd.date_range("2018-4-1", "2018-4-30")

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

In [124]:
pd.date_range(start="2018-4-1", periods=30)

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

In [125]:
# freq = "B" 는 평일만
pd.date_range("2018-4-1", "2018-4-30", freq="B")

DatetimeIndex(['2018-04-02', '2018-04-03', '2018-04-04', '2018-04-05',
               '2018-04-06', '2018-04-09', '2018-04-10', '2018-04-11',
               '2018-04-12', '2018-04-13', '2018-04-16', '2018-04-17',
               '2018-04-18', '2018-04-19', '2018-04-20', '2018-04-23',
               '2018-04-24', '2018-04-25', '2018-04-26', '2018-04-27',
               '2018-04-30'],
              dtype='datetime64[ns]', freq='B')

In [126]:
# freq = "W" 주(일요일)
pd.date_range('20210801', '20211230', freq ="W")

DatetimeIndex(['2021-08-01', '2021-08-08', '2021-08-15', '2021-08-22',
               '2021-08-29', '2021-09-05', '2021-09-12', '2021-09-19',
               '2021-09-26', '2021-10-03', '2021-10-10', '2021-10-17',
               '2021-10-24', '2021-10-31', '2021-11-07', '2021-11-14',
               '2021-11-21', '2021-11-28', '2021-12-05', '2021-12-12',
               '2021-12-19', '2021-12-26'],
              dtype='datetime64[ns]', freq='W-SUN')

In [127]:
pd.date_range('20210801','20211231', freq="W-MON")

DatetimeIndex(['2021-08-02', '2021-08-09', '2021-08-16', '2021-08-23',
               '2021-08-30', '2021-09-06', '2021-09-13', '2021-09-20',
               '2021-09-27', '2021-10-04', '2021-10-11', '2021-10-18',
               '2021-10-25', '2021-11-01', '2021-11-08', '2021-11-15',
               '2021-11-22', '2021-11-29', '2021-12-06', '2021-12-13',
               '2021-12-20', '2021-12-27'],
              dtype='datetime64[ns]', freq='W-MON')

## resample 연산
- resample 연산을 쓰면 시간 간격을 재조정하는 리샘플링이 가능하다

In [128]:
ts = pd.Series(np.random.randn(100), index=pd.date_range(
    "20180101", periods=100, freq="D"))
ts.tail(20)

2018-03-22    1.488252
2018-03-23    1.895889
2018-03-24    1.178780
2018-03-25   -0.179925
2018-03-26   -1.070753
2018-03-27    1.054452
2018-03-28   -0.403177
2018-03-29    1.222445
2018-03-30    0.208275
2018-03-31    0.976639
2018-04-01    0.356366
2018-04-02    0.706573
2018-04-03    0.010500
2018-04-04    1.785870
2018-04-05    0.126912
2018-04-06    0.401989
2018-04-07    1.883151
2018-04-08   -1.347759
2018-04-09   -1.270485
2018-04-10    0.969397
Freq: D, dtype: float64

In [129]:
ts.resample('M').first()

2018-01-31    1.867558
2018-02-28    0.156349
2018-03-31   -1.726283
2018-04-30    0.356366
Freq: M, dtype: float64