# Pandas

In [1]:
import pandas as pd

## Series

In [2]:
series = pd.Series(["하나", "둘", "셋", "넷", "다섯",
                    "여섯", "일곱", "여덟", "아홉", "열"],
                   index = [_ for _ in range(1, 11)])
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

In [3]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [4]:
# index를 지정하지 않은 경우
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [5]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [6]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [7]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [8]:
# dict를 사용해 만들어보기
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [9]:
# dict의 key와 Series 객체의 index를 다르게 설정

d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['x', 'y', 'z'])
ser

x   NaN
y   NaN
z   NaN
dtype: float64

In [10]:
# index 지정 없이 dict 객체만 가지고 만들 수 도 있다.

s2 = pd.Series({"서울":9_904_312,
                "부산":3_448_737,
                "인천":2_890_451,
                "대구":2_466_052})
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [11]:
# label 값이 영문 문자열인 경우에는
# index label이 속성인 것처럼 마침표를 활용해 index에 접근 가능

d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser.a, ser.b, ser.c

(1, 2, 3)

In [12]:
"서울" in s

True

In [13]:
"대전" in s

False

In [14]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


In [15]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [16]:
s / 100000

도시
서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64

In [17]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [18]:
s[1], s["부산"]

(3448737, 3448737)

In [19]:
s[3], s["대구"]

(2466052, 2466052)

In [20]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [21]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [22]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [23]:
# 문자열로 슬라이싱 할경우 : 뒤에 값도 나온다
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [24]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [25]:
s2 = pd.Series({"서울":9631482,
                "부산":3393191,
                "인천":2632035,
                "대전":1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [26]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [27]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [28]:
# NaN 값 빼고 시리즈 객체 만드는 법
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [29]:
# 2010년 대비 2015년 인구 증가율
# s # 2015년 도시별 인구
# s2 # 2010년 도시별 인구

rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [30]:
# 인덱스를 사용해 데이터를 추가하거나 갱신 가능
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [31]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [32]:
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [33]:
# 연습 문제
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자":90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

ser_finance1 = pd.Series(fin1)
ser_finance2 = pd.Series(fin2_value, fin2_index)

In [34]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [35]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [36]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [37]:
ser_finance1 / ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

In [38]:
result = ser_finance1 - ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame

In [39]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [40]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [41]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [42]:
pl_data = {
    "팀명": ["아스날", "맨체스터 시티", "뉴캐슬 유나이티드", "맨체스터 유나이티드"],
    "경기": [18, 18, 19, 18],
    "승": [15, 12, 10, 12],
    "무": [2, 3, 8, 2],
    "패": [1, 3, 1, 4],
    "승점": [47, 39, 38, 38],
    "경기당 승점": [47/18, 39/18, 38/19, 38/18]
}

pl_columns = ["팀명", "경기", "승", "무", "패", "승점", "경기당 승점"]
pl_index = [_ for _ in range(1, 5)]

pl_df = pd.DataFrame(pl_data, index=pl_index, columns=pl_columns)
pl_df

Unnamed: 0,팀명,경기,승,무,패,승점,경기당 승점
1,아스날,18,15,2,1,47,2.611111
2,맨체스터 시티,18,12,3,3,39,2.166667
3,뉴캐슬 유나이티드,19,10,8,1,38,2.0
4,맨체스터 유나이티드,18,12,2,4,38,2.111111


In [43]:
# "2005~2010 증가율 이라는 이름의 열 추가"
df["2005~2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99


In [44]:
# 하나의 column만 인덱싱하면 Series가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [45]:
# Series 형태로 반환
df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [46]:
# 배열 또는 리스트로 인덱싱하면 DataFrame 타입이 반환
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [47]:
# column을 반환하면서 DataFrame 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [48]:
import numpy as np

df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [49]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int64

In [50]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [51]:
df[:1] # df[:"서울"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34


In [52]:
# row가 부산인 결과만 보고 싶을 경우
df[1:2]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4


In [53]:
df["부산":"부산"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4


In [54]:
df["2015"]

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [55]:
df["2015"]["서울"]

9904312

In [56]:
type(df["2015"]["서울"])

numpy.int64

In [57]:
# 연습문제
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

# print(df)
# 1 모든 학생의 수학 점수를 Series로 나타낸다.
print(df["수학"])
# 2 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
print(df[["국어", "영어"]])
# 3 모든 학생의 각 과목 평균 점수를 새로운 열로 추가
df["평균 점수"] = ((df["국어"] + df["영어"] + df["수학"]) / 3)
# print(df)
# 4 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산
df["영어"]["방자"] = 80
df["평균 점수"]["방자"] = ((df["국어"]["방자"] + df["영어"]["방자"] + df["수학"]["방자"]) / 3)
# 5 춘향의 점수를 데이터 프레임으로 나타낸다
print(df["춘향":"춘향"])
# 6 향단의 점수를 Series로 나타낸다.
df.T["향단"]


춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64
    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40
    국어  영어  수학      평균 점수
춘향  80  90  90  86.666667


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["평균 점수"]["방자"] = ((df["국어"]["방자"] + df["영어"]["방자"] + df["수학"]["방자"]) / 3)


국어       70.0
영어       60.0
수학       80.0
평균 점수    70.0
Name: 향단, dtype: float64

In [58]:
# 연습문제
np.random.seed(0)
index = pd.date_range("20130226",periods=6)
columns = ["A", "B", "C", "D"]
data = np.random.randn(6, 4)

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


# python day 12
## to_csv()
## read_csv()

In [59]:
import pandas as pd
# columns = ["c1", "c2", "c3"]
# index = [0, 1, 2]
data = {
    "c1": [1, 2, "누락"],
    "c2": [1.11, "", 3.33],
    "c3": ["one", "two", "three"]
}
# df = pd.DataFrame(data, index=index, columns=columns)
df_csv = pd.DataFrame(data)
df_csv

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [60]:
df_csv.to_csv("sample1.csv", index=False)

In [61]:
df_read = pd.read_csv("sample1.csv")
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [62]:
# column 인덱스를 배제하고 저장해보기 header=False 사용
df_csv.to_csv("sample2.csv", index=False, header=False)

In [63]:
# column 인덱스가 없는 데이터를 다시 불러올때, columnn 인덱스 정보를 직접 추가할 수 있다.
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [64]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Overwriting sample3.txt


In [65]:
# 읽어오려는 파일의 구분자가 ,가 아닌 경우 구분자를 지정해줘야 한다.
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [66]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three


Overwriting sample4.txt


In [67]:
# 상단에 부가적인 텍스트가 있는 경우
pd.read_csv('sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [68]:
# 불러올 자료 안의 특정한 값을 NaN으로 취급하고 싶으면, na_values를 이용
df_na_val = pd.read_csv("sample1.csv", na_values=['누락'])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [69]:
# 출력할 때도 sep 인수로 구분자를 바꿀 수 있다.
df_na_val.to_csv('sample5.txt', sep='|')

In [70]:
# 저장할 때도 na_rep을 이용해 NaN 표시값을 바꿀 수 있다.
# NaN 값을 '누락'으로 변경해서 저장
df_na_val.to_csv('sample6.csv', na_rep='누락')

## 온라인의 데이터 불러오기

In [71]:
# titanic 데이터 불러오기
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n


In [72]:
titanic.head()

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y


In [73]:
titanic.tail()

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
622,0,male,28.0,0,0,10.5,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.05,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0,First,B,Southampton,y
625,0,female,28.0,1,2,23.45,Third,unknown,Southampton,n
626,0,male,32.0,0,0,7.75,Third,unknown,Queenstown,y


In [74]:
import numpy as np
data = np.arange(10, 22).reshape(3, 4)
df = pd.DataFrame(data, index=['a', 'b', 'c'], columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [75]:
# loc 인덱서를 사용하며 콤마 없이 하나만 넣으면 row를 선택, Series로 반환
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [76]:
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [77]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [78]:
# 리스트 형태로 인덱싱도 가능
df.loc[["b", "c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [79]:
# Boolean 시리즈로 인덱싱도 가능
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [80]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [81]:
# callable한 함수를 만들어서 인덱싱하는데 사용할 수 있다.
def select_rows(df, num):
    return df.A > num
select_rows(df, 10)

a    False
b     True
c     True
Name: A, dtype: bool

In [82]:
df.loc[select_rows(df, 10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [83]:
# row 인덱스 값이 default로 주어진 정수로 생성된 DF의 경우에는
# 슬라이싱 마지막 숫자가 포함된 결과를 가져온다.
# 원래 row 인덱스 값이 정ㅇ수인 경우에는 마지막 값이 포함된다.
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [84]:
# row 인덱스 값이 default로 주어진 정수로 생성된 DF의 경우에는
# 슬라이싱 마지막 숫자가 포함된 결과를 가져온다.
df2.loc[1:3]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [85]:
# iloc은 loc과 다르게 label 인덱스가 아닌 숫자로된 인덱스에 접근하기에 우리가 아는 슬라이싱 방식과 동일하게 포함하지 않음
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [86]:
df.iloc[1:2]

Unnamed: 0,A,B,C,D
b,14,15,16,17


In [87]:
# 인덱싱 값을 row와 column 모두 받으려면 df.loc[row 인덱스, column 인덱스]와 같은 형태로 사용
df.loc["a", "A"]

10

In [88]:
# 콤마로 구분된 인덱싱 값으로 슬라이싱 또는 리스트도 사용 가능
df.loc["b":,"A"]


b    14
c    18
Name: A, dtype: int64

In [89]:
df.loc["a",:]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [90]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [91]:
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


In [92]:
# iloc은 label이 아니라 정수 인덱스만 받음, 다른건 loc과 같음
df.iloc[0, 1]

11

In [93]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [94]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int64

In [95]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [96]:
# loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [97]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


## Series 데이터 개수 세기

In [98]:
# count() 메소드를 사용하면 NaN값은 세지 않음
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [99]:
s.count()

9

In [100]:
len(s)

10

## DataFrame 데이터 개수 세기

In [101]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [102]:
# dataFrame에서는 각 열마다의 데이터 개수를 센다
# NaN 값을 제외하고 개수를 센다.
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [103]:
# seaborn 패키지는 여러가지 데이터를 제공하고 있다.
# 위에서 사용한 타이타닉 승객 데이터도 있다.
# DataFrame으로 읽어올 수 있다.
import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [104]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## Series 카테고리 값 세기

In [105]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100)) # 0 ~ 5 사이의 정수를 100회 생성
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [106]:
s2.value_counts() # series 객체 내에 인덱스별로 나온 횟수를 보여줌

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [107]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [108]:
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

## Series 정렬

In [109]:
# index 순으로 정렬하려면 sort_index()를, value 기준으로 정렬하려면 sort_values()
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [110]:
# 위 셀의 반환값에 sort_index를 적용하면 정렬된 결과가 나옴
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [111]:
# value를 기준으로 정렬하면 NaN값이 있을 경우 가장 나중으로 위치함
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [112]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [113]:
# ascending=False을 활용해 내림차순도 가능!
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

## DataFrame 정렬

In [114]:
# df에서 sort_values를 사용하려면 by 키워드 인수를 사용해야 한다.
# 정렬 기준이 되는 column을 지정해줘야한다.
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [115]:
# 리스트 자료형의 형태로 지정하면 요소의 순서대로 정렬 기준의 우선순위가 된다.
# 첫번째 열을 기준으로 정렬한 후, 동일한 순서 값이 나오면 그 다음 기준으로 순서를 결정
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [116]:
print(titanic.value_counts('sex').sort_values(ascending=False))
print(titanic.value_counts('age').sort_values(ascending=False))
print(titanic.value_counts('class').sort_values(ascending=False))
print(titanic.value_counts('alive').sort_values(ascending=False))

sex
male      577
female    314
dtype: int64
age
24.00    30
22.00    27
18.00    26
30.00    25
28.00    25
         ..
0.42      1
66.00     1
70.50     1
74.00     1
80.00     1
Length: 88, dtype: int64
class
Third     491
First     216
Second    184
dtype: int64
alive
no     549
yes    342
dtype: int64


In [117]:
# 원래는 이렇게 pandas 1.1 이전 버전에서
titanic['sex'].value_counts().sort_values(ascending=False)

male      577
female    314
Name: sex, dtype: int64

In [118]:
pd.__version__

'1.4.4'

In [119]:
titanic.value_counts(["sex", "age", "class", "alive"])

sex     age   class   alive
male    22.0  Third   no       13
        21.0  Third   no       12
        19.0  Third   no       11
        28.0  Third   no       10
        20.0  Third   no       10
                               ..
female  32.0  Second  yes       1
              First   yes       1
male    27.0  First   no        1
female  31.0  Second  yes       1
male    80.0  First   yes       1
Length: 339, dtype: int64

In [120]:
titanic.value_counts(["sex"])

sex   
male      577
female    314
dtype: int64

## DataFrame 행/열 합계

In [121]:
# row와 column의 합계를 구할 때는 sum(axis)를 사용
# axis는 없어지는 방향축을 지정
# row의 집계를 구할 때는 sum(axis=1) 사용
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [122]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [123]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [124]:
# column의 합계를 구할 때는 sum(axis=0) 사용, axis의 디폴트 값이 0이므로 axis 인수 생략가능
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

In [125]:
df2.loc["ColTotal2"] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal2,24,33,25,24,15,10,5,16,152


In [126]:
# mean() 메서드는 평균을 구하며 앞서 설명한 sum() 메서드와 사용법이 같다. sum처럼 axis 지정
df2.mean()

0          9.6
1         13.2
2         10.0
3          9.6
4          6.0
5          4.0
6          2.0
7          6.4
RowSum    60.8
dtype: float64

In [127]:
df2.loc["ColTotal", :] = df.mean()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal2,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0
ColTotal,2.5,1.25,3.25,1.666667,,,,,


In [128]:
titanic["age"].mean()

29.69911764705882

In [129]:
titanic[titanic.sex == "female"]["age"].mean()

27.915708812260537

In [130]:
tmp = titanic[titanic.pclass == 1]
tmp[tmp.sex == "female"]["age"].mean()

34.61176470588235

In [131]:
# 타이타닉 승객의 평균 나이
print(titanic["age"].mean())

# 타이타닉호 승객중 여성 승객의 평균 나이
print(titanic[titanic.sex == "female"]["age"].mean())

# 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이
tmp = titanic[titanic.pclass == 1]
print(tmp[tmp.sex == "female"]["age"].mean())

29.69911764705882
27.915708812260537
34.61176470588235


In [132]:
titanic[titanic.age == 20]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
12,0,3,male,20.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
91,0,3,male,20.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
113,0,3,female,20.0,1,0,9.825,S,Third,woman,False,,Southampton,no,False
131,0,3,male,20.0,0,0,7.05,S,Third,man,True,,Southampton,no,True
378,0,3,male,20.0,0,0,4.0125,C,Third,man,True,,Cherbourg,no,True
404,0,3,female,20.0,0,0,8.6625,S,Third,woman,False,,Southampton,no,True
441,0,3,male,20.0,0,0,9.5,S,Third,man,True,,Southampton,no,True
622,1,3,male,20.0,1,1,15.7417,C,Third,man,True,,Cherbourg,yes,False
640,0,3,male,20.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
664,1,3,male,20.0,1,0,7.925,S,Third,man,True,,Southampton,yes,False


In [133]:
[titanic.age == 20]

[0      False
 1      False
 2      False
 3      False
 4      False
        ...  
 886    False
 887    False
 888    False
 889    False
 890    False
 Name: age, Length: 891, dtype: bool]

## python day 13
### 데이터프레임에 함수 적용하기

In [134]:
import pandas as pd
import numpy as np
df = pd.DataFrame([[4, 9]] * 3, columns=["A", "B"])
df

Unnamed: 0,A,B
0,4,9
1,4,9
2,4,9


In [135]:
df.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [136]:
np.sqrt(df)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [137]:
# axis가 0일때 각 column별 집계
df.apply(np.sum, axis=0)

A    12
B    27
dtype: int64

In [138]:
# axis가 1일 때 각 row별 집계
df.apply(np.sum, axis=1)

0    13
1    13
2    13
dtype: int64

In [139]:
df.apply(lambda x: [1, 2], axis=0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [140]:
df.apply(lambda x: [1, 2], axis=1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

In [141]:
# result_type = broadcast를 인수로 전달하면 동일한 shape의 결과를 보장
df.apply(lambda x: [1, 2], axis=1, result_type='broadcast')

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


In [142]:
# column마다의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 lambda 함수를 사용

df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [143]:
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [144]:
# row에 대해 적용하고 싶으면 axis=1 인수를 사용
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [145]:
# 앞에서 배웠던 value_counts도 사용 가능
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [146]:
# 타이타닉호의 승객 중 나이 20살을 기준으로 성인과 미성년자를 구별하는 칼럼 생성가능
import seaborn as sns

titanic = sns.load_dataset("titanic")

titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)

titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


In [147]:
titanic["category1"] = titanic.apply(lambda r: r.sex if r.age >= 20 else "child", axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult,male


In [148]:
# NaN값을 원하는 값으로 바꾸는 fillna() 메소드
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                   [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, np.nan],
                   [1, 2, 3, 4]], columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,1.0,2.0,3.0,4.0


In [149]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,1.0,2.0,3.0,4.0


In [150]:
# fillna() value값으로 column label을 key로 갖는 딕셔너리를 전달할 수 있다.
# 그러면 column마다 NaN을 대치하는 값을 각각 다르게 지정가능.
values = {"A": 0, "B": 1, "C": 2, "D": 3}
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,1.0,2.0,3.0,4.0


In [151]:
# fillna()에 limit 키워드 인자에 숫자르 전달해 그 숫자만큼 column마다 변경 횟수를 제한할 수 있다.
df.fillna(value=values, limit=1)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,,1.0
2,,1.0,,3.0
3,1.0,2.0,3.0,4.0


In [152]:
# fillna()에 DataFrame을 value로 전달해 NaN값을 대체 가능
# column label과 row index가 일치하지 않으면 적용되지 않음
df2 = pd.DataFrame(np.zeros((3, 4)), columns=list("ABCE"))
df.fillna(df2)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,
3,1.0,2.0,3.0,4.0


In [153]:
# 타이타닉호의 승객 중 나이를 명시하지 않은 고객은 나이를 명시한 고객의 평균 나이 값이 되도록 titanic DataFrame을 고쳐라
# isna()를 써서 NaN값인 것을 찾을 수 있다.
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
adult/child    891
category1      891
dtype: int64

In [154]:
nan_index = titanic.age.isna()
nan_index

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888     True
889    False
890    False
Name: age, Length: 891, dtype: bool

In [155]:
titanic.age[nan_index]

5     NaN
17    NaN
19    NaN
26    NaN
28    NaN
       ..
859   NaN
863   NaN
868   NaN
878   NaN
888   NaN
Name: age, Length: 177, dtype: float64

In [156]:
titanic.age.mean()

29.69911764705882

In [157]:
# fillna(inplace=True)로 하면 대입을 하지 않아도 값이 대체됨
titanic.age = titanic.age.fillna(titanic.age.mean())


In [158]:
# 강사님 방법
index_age_is_nan = titanic[titanic['age'].isna()].index
print(index_age_is_nan)

Int64Index([], dtype='int64')


In [159]:
titanic.fillna({'age': round(titanic['age'].mean(), 1)}, inplace=True)

In [160]:
titanic.iloc[index_age_is_nan]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1


In [161]:
# astype() 메소드
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(d)
df.dtypes

col1    int64
col2    int64
dtype: object

In [162]:
df.astype('int32').dtypes

col1    int32
col2    int32
dtype: object

In [163]:
# dtype을 dictionary로 전달하면 해당 column만 형변환 가능
df.astype({'col1': 'int32'}).dtypes

col1    int32
col2    int64
dtype: object

In [164]:
titanic["category2"] = titanic.apply(lambda x: x.sex + str(x.age), axis=1)
# 강사님 풀이
titanic["category2"] = titanic.sex + titanic.age.astype(str)
titanic[['age', 'category2']]

Unnamed: 0,age,category2
0,22.000000,male22.0
1,38.000000,female38.0
2,26.000000,female26.0
3,35.000000,female35.0
4,35.000000,male35.0
...,...,...
886,27.000000,male27.0
887,19.000000,female19.0
888,29.699118,female29.69911764705882
889,26.000000,male26.0


In [165]:
type(titanic["sex"])

pandas.core.series.Series

In [166]:
type(titanic.sex)

pandas.core.series.Series

In [167]:
type(titanic.astype({'age' : 'str'}).age)

pandas.core.series.Series

### DataFrame 실수 값을 카테고리 값으로 변환

In [168]:
# cut: 실수 값의 경계선을 지정하는 경우
# qcut: 개수가 똑같은 구간으로 나누는 경우

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
cats = pd.cut(ages, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '중년', '미성년자', '장년', '장년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [169]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [170]:
cats.categories

Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')

In [171]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [172]:
df4 = pd.DataFrame(ages, columns=["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels = labels)
df4.dtypes
df4


Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,장년
7,61,중년
8,20,미성년자
9,41,장년


In [173]:
df4["age_cat"].astype(str) + df4["ages"].astype(str)

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       장년37
6       장년31
7       중년61
8     미성년자20
9       장년41
10      장년32
11    nan101
dtype: object

In [174]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])
cats

['Q2', 'Q1', 'Q2', 'Q3', 'Q1', ..., 'Q1', 'Q1', 'Q4', 'Q4', 'Q2']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [175]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64

In [176]:
pd.value_counts(pd.cut(titanic.age, bins, labels = labels))[0] / len(titanic.age)
pd.value_counts(pd.cut(titanic.age, bins, labels = labels))[1] / len(titanic.age)
pd.value_counts(pd.cut(titanic.age, bins, labels = labels))[2] / len(titanic.age)
pd.value_counts(pd.cut(titanic.age, bins, labels = labels))[3] / len(titanic.age)
pd.value_counts(pd.cut(titanic.age, bins, labels = labels))[4] / len(titanic.age)


0.005611672278338945

In [177]:
len(titanic.age)

891

In [178]:
tmp = pd.value_counts(pd.cut(titanic.age, bins, labels = labels))
tmp/sum(tmp)


청년      0.464082
장년      0.274800
미성년자    0.188141
중년      0.067275
노년      0.005701
Name: age, dtype: float64

In [179]:
tmp

청년      407
장년      241
미성년자    165
중년       59
노년        5
Name: age, dtype: int64

In [180]:
pd.cut(titanic.age, bins, labels = labels)

0        청년
1        장년
2        청년
3        장년
4        장년
       ... 
886      청년
887    미성년자
888      청년
889      청년
890      장년
Name: age, Length: 891, dtype: category
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

In [181]:
titanic["category3"] = pd.cut(titanic.age, bins, labels = labels)
titanic["category3"] = titanic.apply(lambda r: r.sex + r.category3 if r.age > 20 else "미성년자", axis=1)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2,category3
0,0,3,male,22.000000,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22.0,male청년
1,1,1,female,38.000000,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38.0,female장년
2,1,3,female,26.000000,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26.0,female청년
3,1,1,female,35.000000,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35.0,female장년
4,0,3,male,35.000000,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35.0,male장년
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.000000,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27.0,male청년
887,1,1,female,19.000000,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19.0,미성년자
888,0,3,female,29.699118,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29.69911764705882,female청년
889,1,1,male,26.000000,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26.0,male청년


In [182]:
"male" "mail"

'malemail'

In [183]:
# set_index: 기존의 row 인덱스를 제거하고 데이터 column 중 하나를 인덱스로 설정
# reset_index: 기존의 row 인덱스를 제거하고 인덱스를 데이터 열로 추가
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list("ABCDE"),
                   np.round(np.random.rand(3, 5), 2)]).T,
                   columns=["C1", "C2", "C3", "C4"])
df1


Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [184]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [185]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


In [186]:
np.random.seed(0)
df2 = pd.DataFrame(np.vstack([list("ABCDE"),
                   np.round(np.random.rand(3, 5), 2)]).T,
                   columns=["C1", "C2", "C3", "C4"])
df2

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [187]:
df2.reset_index()

Unnamed: 0,index,C1,C2,C3,C4
0,0,A,0.55,0.65,0.79
1,1,B,0.72,0.44,0.53
2,2,C,0.6,0.89,0.57
3,3,D,0.54,0.96,0.93
4,4,E,0.42,0.38,0.07


In [188]:
# reset_index() 인수 drop = True 인수로 전달하면 인덱스 column을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 됨
df2.reset_index(drop=True)

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [189]:
score = {
    "이름":["일식", "이식", "삼식", "사식", "오식"],
    "국어":[60, 70, 90, 80, 100],
    "영어":[70, 86, 82, 88, 100],
    "수학":[65, 82, 85, 90, 100]
}

tmp = pd.DataFrame(score)
tmp.set_index("이름")
tmp.reset_index(drop=True)

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


In [206]:
# 다중 인덱스
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C1", "C2", "C1", "C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [207]:
# 다중 인덱스 이름 정하기
df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [196]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns=[["A", "A", "B", "B"],
                            ["C", "D", "C", "D"]],
                   index=[["M", "M", "M", "F", "F", "F"],
                          ["id_" + str(i+1) for i in range(3)] * 2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [197]:
# DataFrame row 인덱스와 column 인덱스 교환
df4.stack("Cidx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [198]:
df4.unstack("Ridx2")

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.76,1.49,-2.55,0.12,-0.21,0.65,0.44,0.31,0.86,0.33,-0.85,-0.74
M,1.76,1.87,-0.1,0.4,-0.98,0.41,0.98,0.95,0.14,2.24,-0.15,1.45


In [199]:
# 인덱스를 지정할 때는 문자열 이름과 순서를 모두 표시하는 숫자 인덱스를 모두 사용할 수 있다.
df4.stack("Cidx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [200]:
df4.stack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


### 다중 인덱스가 있는 경우의 인덱싱
다중 인덱스를 가지는 경우에는 인덱스 값이 하나의 label이나 숫자가 아니라   
()로 둘러싸인 튜플이 되어야 한다.

In [201]:
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [208]:
df3[("B", "C1")]

0    0.98
1    0.95
2    0.14
3    0.44
4    0.31
Name: (B, C1), dtype: float64

In [209]:
# loc 인덱서를 사용하는 경우에도 마찬가지로 튜플을 사용해서 인덱싱해야 한다.
df3.loc[0, ("B", "C1")]

0.98

In [210]:
df3.loc[0, ("B", "C1")] = 100
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,100.0,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [211]:
# 단, iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중 인덱스를 사용할 수 없다.
df3.iloc[0, 2]

100.0

In [212]:
# 만약 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을 지정한 것으로 반환
df3['A']

Cidx2,C1,C2
0,1.76,0.4
1,1.87,-0.98
2,-0.1,0.41
3,0.76,0.12
4,1.49,-0.21


In [213]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [214]:
df4.loc[("M", "id_1"), ("A", "C")]

1.76

In [215]:
df4.loc[:, ("A", "C")]

Ridx1  Ridx2
M      id_1     1.76
       id_2     1.87
       id_3    -0.10
F      id_1     0.76
       id_2     1.49
       id_3    -2.55
Name: (A, C), dtype: float64

In [216]:
df4.loc[("M", "id_1"), :]

Cidx1  Cidx2
A      C        1.76
       D        0.40
B      C        0.98
       D        2.24
Name: (M, id_1), dtype: float64

In [217]:
df4.loc[("All", "All"), :] = df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [218]:
# loc을 사용하는 경우에도 튜플이 아닌 하나의 값만 쓰면 가장 상위의 인덱스를 지정한 것과 같다.
df4.loc["M"]

Cidx1,A,A,B,B
Cidx2,C,D,C,D
Ridx2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id_1,1.76,0.4,0.98,2.24
id_2,1.87,-0.98,0.95,-0.15
id_3,-0.1,0.41,0.14,1.45


### 다중 인덱스가 있는 경우의 인덱싱
특정 레벨의 모든 인덱스 값을 인덱싱할 때는 슬라이스를 사용한다.   
인덱스의 튜플 내에서는 콜론(:), 즉 슬라이스 기호를 사용할 수 없고 대신 slice(None) 값을 사용해야 한다.

In [220]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [219]:
df4.loc[("M", slice(None)), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45


In [221]:
df4.loc[(slice(None), "id_1"), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
F,id_1,0.76,0.12,0.44,0.33


### 다중 인덱스의 인덱스 순서 교환
다중 인덱스의 인덱스 순서를 바꾸고 싶다면 swaplevel 명령을 사용한다.   
- swaplevel(i, j, axis)   
i와 j는 교환하고자 하는 인덱스 label(혹은 인덱스 번호)이고 axis는 0일 때 row 인덱스,   
1일 때 column 인덱스를 뜻한다. 디폴트는 행 인덱스이다.

In [223]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [224]:
df5 = df4.swaplevel("Ridx1", "Ridx2")
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [222]:
df6 = df4.swaplevel("Cidx1", "Cidx2", 1)
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


### 다중 인덱스가 있는 경우의 정렬
다중 인덱스가 있는 데이터프레임을 sort_index로 정렬할 때는 level 인수를 사용하여   
어떤 인덱스를 기준으로 정렬하는지 알려주어야 한다.

In [225]:
df5.sort_index(level=0)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_1,M,1.76,0.4,0.98,2.24
id_2,F,1.49,-0.21,0.31,-0.85
id_2,M,1.87,-0.98,0.95,-0.15
id_3,F,-2.55,0.65,0.86,-0.74
id_3,M,-0.1,0.41,0.14,1.45


In [226]:
df6.sort_index(axis=1, level=0)

Unnamed: 0_level_0,Cidx2,C,C,D,D
Unnamed: 0_level_1,Cidx1,A,B,A,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.98,0.4,2.24
M,id_2,1.87,0.95,-0.98,-0.15
M,id_3,-0.1,0.14,0.41,1.45
F,id_1,0.76,0.44,0.12,0.33
F,id_2,1.49,0.31,-0.21,-0.85
F,id_3,-2.55,0.86,0.65,-0.74
All,All,3.23,3.68,0.39,2.28


### 데이터프레임 합성
pandas는 두 개 이상의 DataFrame을 하나로 합치는 데이터 병합(merge)이나   
연결(concatenate)을 지원한다.

### DataFrame merge()
merge함수는 두 데이터 프레임의 공통 column 혹은 인덱스를 기준으로 두 개의 테이블을 합친다.   
이 때 기준이 되는 column, row의 데이터를 (key)라고 합니다.

In [227]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [230]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [231]:
# merge 함수로 위의 두 DataFrame df1, df2를 합치면 공통 column인
# 고객번호 column을 기준으로 데이터를 찾아서 합친다. 이 때 기본적으로는 양쪽 DataFrame에
# 모두 키가 존재하는 데이터만 보여주는 inner join 방식을 사용한다.
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [232]:
# outer join 방식은 키 값이 한쪽에만 있어도 데이터를 보여준다.
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [233]:
# left는 첫 번째 인수 기준으로, right는 두번째 인수 기준으로 DataFrame의 키 값을 모두 보여준다.
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [234]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


In [235]:
# 만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는 있을 수 있는 모든 경우의 수를 따져서 조합을 만든다.
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]
}, columns=['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [239]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]
}, columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


이 데이터에서 키 값 setosa에 대해 왼쪽 DF는 1.4와 1.3이라는 2개의 데이터,   
오른쪽 DF에 0.4라는 1개의 데이터가 있으므로 병합된 데이터에는 stosa가   
(1.4, 0.4), (1.3, 0.4)두 개의 데이터가 생긴다. 키 값 virginica의 경우에는   
왼쪽 DF에 1.5와 1.3이라는 2개의 데이터, 오른쪽 DF에 0.3와 0.5라는 2개의 데이터가 있으므로   
2개와 2개의 조합에 의해 4가지 값이 생성된다.

In [240]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


### DataFrame 시계열 자료 다루기 DatetimeIndex
시계열 자료는 인덱스가 날짜 혹은 시간인 데이터를 말한다.   
pandas에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 만들어야 한다.   
DatetimeIndex는 특정한 순간에 기록된 타임스태프(timestamp) 형식의 시계열 자료를   
다루기 위한 인덱스이다. 타임스탬프 인덱스의 label 값이 반드시 일정한 간격일 필요는 없다.   

DatetimeIndex는 다음과 같은 보조 함수를 사용해 생성한다.   
- pd.to_datetime 함수   
- pd.date_range 함수

pd.to_datetime 함수를 쓰면 날짜/시간을 나타내는 문자열을   
자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성한다.

In [241]:
date_str = ["2018, 1, 1", "2018, 1, 4", "2018, 1, 5", "2018, 1, 6"]
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [242]:
# 이렇게 만들어진 인덱스를 사용해 Series나 DataFrame을 생성하면 된다.
np.random.seed(0)
s = pd.Series(np.random.randn(4), index=idx)
s

2018-01-01    1.764052
2018-01-04    0.400157
2018-01-05    0.978738
2018-01-06    2.240893
dtype: float64

pd.date_range 함수를 쓰면 모든 날짜/시간을 일일이 입력할 필요 없이 시작일과 종료일 또는   
시작일과 기간을 입력하면 범위 내의 인덱스를 생성해 준다.

In [243]:
pd.date_range("2018-4-1", "2018-4-30")

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

pd.date_range 함수를 쓰면 모든 날짜/시간을 일일이 입력할 필요 없이 시작일과 종료일   
또는 시작일과 기간을 입력하면 범위 내의 인덱스를 생성해 준다.

In [244]:
pd.date_range(start="2018-4-1", periods=30)

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

freq 인수로 특정한 날짜만 생성되도록 할 수도 있습니다. 많이 사용되는 freq 인수값은 다음과 같습니다.
- s: 초   
- T: 분   
- H: 시간   
- D: 일(day)   
- B: 주말이 아닌 평일   
- W: 주(일요일)   
- W-MON: 주(월요일)   
- M: 각 달(month)의 마지막 날   
- MS: 각 달의 첫날   
- BM: 주말이 아닌 평일 중에서 각 달의 마지막 날   
- BMS: 주말이 아닌 평일 중에서 각 달의 첫날   
- WOM-2THU: 각 달의 두번째 목요일   
- Q-JAN: 각 분기의 첫달의 마지막 날   
- Q-DEC: 각 분기의 마지막 달의 마지막 날   

In [245]:
# B는 주말이 아닌 평일
pd.date_range("2018-4-1", "2018-4-30", freq='B')

DatetimeIndex(['2018-04-02', '2018-04-03', '2018-04-04', '2018-04-05',
               '2018-04-06', '2018-04-09', '2018-04-10', '2018-04-11',
               '2018-04-12', '2018-04-13', '2018-04-16', '2018-04-17',
               '2018-04-18', '2018-04-19', '2018-04-20', '2018-04-23',
               '2018-04-24', '2018-04-25', '2018-04-26', '2018-04-27',
               '2018-04-30'],
              dtype='datetime64[ns]', freq='B')

In [246]:
# W는 일요일
pd.date_range("2018-4-1", "2018-4-30", freq="W")

DatetimeIndex(['2018-04-01', '2018-04-08', '2018-04-15', '2018-04-22',
               '2018-04-29'],
              dtype='datetime64[ns]', freq='W-SUN')

In [247]:
# W-MON은 월요일
pd.date_range("2018-4-1", "2018-4-30", freq='W-MON')

DatetimeIndex(['2018-04-02', '2018-04-09', '2018-04-16', '2018-04-23',
               '2018-04-30'],
              dtype='datetime64[ns]', freq='W-MON')

In [249]:
# M 각 달의 마지막 날
pd.date_range("2018-4-1", "2018-12-31", freq="M")

DatetimeIndex(['2018-04-30', '2018-05-31', '2018-06-30', '2018-07-31',
               '2018-08-31', '2018-09-30', '2018-10-31', '2018-11-30',
               '2018-12-31'],
              dtype='datetime64[ns]', freq='M')

In [250]:
# MS 각 달의 첫날
pd.date_range("2018-4-1", "2018-12-31", freq="MS")

DatetimeIndex(['2018-04-01', '2018-05-01', '2018-06-01', '2018-07-01',
               '2018-08-01', '2018-09-01', '2018-10-01', '2018-11-01',
               '2018-12-01'],
              dtype='datetime64[ns]', freq='MS')

In [251]:
# BMS 주말이 아닌 평일 중에서 각 달의 첫날
pd.date_range("2018-4-1", "2018-12-31", freq="BMS")

DatetimeIndex(['2018-04-02', '2018-05-01', '2018-06-01', '2018-07-02',
               '2018-08-01', '2018-09-03', '2018-10-01', '2018-11-01',
               '2018-12-03'],
              dtype='datetime64[ns]', freq='BMS')

In [252]:
# BM 주말이 아닌 평일 중에서 각 달의 마지막 날
pd.date_range("2018-4-1", "2018-12-31", freq="BM")

DatetimeIndex(['2018-04-30', '2018-05-31', '2018-06-29', '2018-07-31',
               '2018-08-31', '2018-09-28', '2018-10-31', '2018-11-30',
               '2018-12-31'],
              dtype='datetime64[ns]', freq='BM')

In [253]:
# WOM-2THU 각 달의 두번째 목요일
pd.date_range("2018-4-1", "2018-12-31", freq="WOM-2THU")

DatetimeIndex(['2018-04-12', '2018-05-10', '2018-06-14', '2018-07-12',
               '2018-08-09', '2018-09-13', '2018-10-11', '2018-11-08',
               '2018-12-13'],
              dtype='datetime64[ns]', freq='WOM-2THU')

시계열 데이터의 인덱스는 시간이나 날짜를 나타내기 때문에 날짜 이동 등의 다양한 연산이 가능하다.   
예를 들어 shift 연산을 사용하면 인덱스는 그대로 두고 데이터만 이동할 수 있다.

In [279]:
np.random.seed(0)
ts = pd.Series(np.random.randn(4), index=pd.date_range(
    "2018-1-1", periods=4, freq="M"
))
ts

2018-01-31    1.764052
2018-02-28    0.400157
2018-03-31    0.978738
2018-04-30    2.240893
Freq: M, dtype: float64

In [280]:
ts.shift(1)

2018-01-31         NaN
2018-02-28    1.764052
2018-03-31    0.400157
2018-04-30    0.978738
Freq: M, dtype: float64

In [281]:
ts.shift(-1)

2018-01-31    0.400157
2018-02-28    0.978738
2018-03-31    2.240893
2018-04-30         NaN
Freq: M, dtype: float64

In [282]:
ts.shift(1, freq='M')

2018-02-28    1.764052
2018-03-31    0.400157
2018-04-30    0.978738
2018-05-31    2.240893
Freq: M, dtype: float64

In [283]:
ts.shift(1, freq='W')

2018-02-04    1.764052
2018-03-04    0.400157
2018-04-01    0.978738
2018-05-06    2.240893
dtype: float64

datetime 자료형 Series에는 dt 접근자가 있어 datetime 자료형이 가진 몇가지 유용한 속성과 메소드를 사용할 수 있다.

In [284]:
s = pd.Series(pd.date_range("2020-12-25", periods=100, freq="D"))
s

0    2020-12-25
1    2020-12-26
2    2020-12-27
3    2020-12-28
4    2020-12-29
        ...    
95   2021-03-30
96   2021-03-31
97   2021-04-01
98   2021-04-02
99   2021-04-03
Length: 100, dtype: datetime64[ns]

year, month, day, weekday 등의 속성을 이용하면 년, 월, 일, 요일 정보를 빼낼 수 있다.

In [285]:
s.dt.year

0     2020
1     2020
2     2020
3     2020
4     2020
      ... 
95    2021
96    2021
97    2021
98    2021
99    2021
Length: 100, dtype: int64

In [286]:
s.dt.weekday

0     4
1     5
2     6
3     0
4     1
     ..
95    1
96    2
97    3
98    4
99    5
Length: 100, dtype: int64

strftime 메소드를 사용해 문자열을 만드는 것도 가능하다.

In [287]:
s.dt.strftime("%Y년 %m월 %d일")

0     2020년 12월 25일
1     2020년 12월 26일
2     2020년 12월 27일
3     2020년 12월 28일
4     2020년 12월 29일
          ...      
95    2021년 03월 30일
96    2021년 03월 31일
97    2021년 04월 01일
98    2021년 04월 02일
99    2021년 04월 03일
Length: 100, dtype: object