DataFrame 인덱스 설정 및 제거

때로는 row index로 들어가 있어야 할 데이터가 column으로 들어가 있거나 반대의 경우가 있을 수 있다. 이 경우 set_index() 또는 reset_index() 메서드를 적절히 활용해서 수정할 수 있다. set_index()로는 특정한 column을 인덱스로 설정할 수 있다. 이 때 기존의 인덱스는 없어진다.

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'), np.round(np.random.rand(3,5), 2)]).T, columns = ['C1', 'C2', 'C3', 'C4'])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [3]:
df2 = df1.set_index('C1')
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


마찬가지로 C2 column을 인덱스로 지정하면 기존의 인덱스는 사라진다.

In [4]:
df2.set_index('C2')

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


reset_index()를 호출할 때 drop=True를 사용하면 기존 index를 버리게 된다.

In [5]:
df2 = df1.reset_index(drop=True)

In [6]:
df2

Unnamed: 0,C1,C2,C3,C4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


연습문제 - new york jest 팀에서 가장 나이가 많은 선수가 누구이며 그의 생일을 조회해 보시오. 인덱스를 Team으로 변경해야 한다.

In [7]:
nfl = pd.read_csv('datas/nfl.csv', parse_dates=['Birthday'], index_col='Name')
nfl

Unnamed: 0_level_0,Team,Position,Birthday,Salary
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Tremon Smith,Philadelphia Eagles,RB,1996-07-20,570000
Shawn Williams,Cincinnati Bengals,SS,1991-05-13,3500000
Adam Butler,New England Patriots,DT,1994-04-12,645000
Derek Wolfe,Denver Broncos,DE,1990-02-24,8000000
Jake Ryan,Jacksonville Jaguars,OLB,1992-02-27,1000000
...,...,...,...,...
Bashaud Breeland,Kansas City Chiefs,CB,1992-01-30,805000
Craig James,Philadelphia Eagles,CB,1996-04-29,570000
Jonotthan Harrison,New York Jets,C,1991-08-25,1500000
Chuma Edoga,New York Jets,OT,1997-05-25,495000


In [10]:
nfl.reset_index(inplace=True)

In [12]:
nfl.set_index('Team', inplace=True)

In [30]:
nfl.loc['New York Jets'].sort_values('Birthday').head(1)

Unnamed: 0_level_0,Name,Position,Birthday,Salary
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
New York Jets,Ryan Kalil,C,1985-03-29,2400000


연습문제 - 5명의 학생의 국어, 영어, 수학 점수를 나타내는 DataFrame을 만들고, 이름 column을 인덱스로 만들고 다시 복원해 보시오.

In [31]:
data = {'이름':['일식', '이식', '삼식', '사식', '오식'],
        '국어':[60, 70, 90, 80, 100],
        '영어':[70, 86, 82, 88, 100],
        '수학':[65, 82, 85, 90, 100]}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


In [None]:
df.set_index('이름', inplace=True)

In [35]:
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
일식,60,70,65
이식,70,86,82
삼식,90,82,85
사식,80,88,90
오식,100,100,100


In [36]:
df.reset_index(inplace = True)

In [37]:
df

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


dropna() 메서드는 결측치를 갖는 행에 대해 제거를 한다. 기본적인 동작은 행에 단 하나라도 결측치가 있다면 해당 행을 지운다.

In [38]:
emp = pd.read_csv('datas/employees.csv', parse_dates=['Start Date'])
emp.dropna()

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
8,Angela,Female,2005-11-22,95570.0,True,Engineering
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
...,...,...,...,...,...,...
994,George,Male,2013-06-21,98874.0,True,Marketing
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


모든 행이 결측일때만 드랍하고 싶다면 how = 'all'을 사용하면 된다. how 인자는 'any'가 기본값이므로 하나라도 결측치가 있다면 드랍하게 된다.
특정 컬럼에 대해서만 결측치를 지우고 싶다면 subset에 column index를 넣어 준다.

In [40]:
emp.loc[emp.Gender.isnull()]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
3,Jerry,,2005-03-04,138705.0,True,Finance
20,Lois,,1995-04-22,64714.0,True,Legal
22,Joshua,,2012-03-08,90816.0,True,IT
27,Scott,,1991-07-11,122367.0,False,Legal
31,Joyce,,2005-02-20,88657.0,False,Product
...,...,...,...,...,...,...
972,Victor,,2006-07-28,76381.0,True,Sales
985,Stephen,,1983-07-10,85668.0,False,Legal
989,Justin,,1991-02-10,38344.0,False,Legal
995,Henry,,2014-11-23,132483.0,False,Distribution


In [41]:
emp.dropna(subset = ['Gender'])

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
...,...,...,...,...,...,...
994,George,Male,2013-06-21,98874.0,True,Marketing
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


만약 두 칼럼에 하나라도 결측치가 있다면 어떻게 해야 할까? subset에 둘 다 넣어주면 된다.

In [None]:
emp.dropna(subset=['Start Date', 'Salary'])

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
1,Thomas,Male,1996-03-31,61933.0,True,
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
...,...,...,...,...,...,...
995,Henry,,2014-11-23,132483.0,False,Distribution
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


행 중에 최소 n개 이상 값이 존재하는 행을 추려내고 싶을 때 활용할 수 있는 키워드 인수는 thresh이다. 예를 들어 4라면 행 중에 값이 최소 4개 있어야 보존된다.

In [None]:
emp.dropna(thresh=4)

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
995,Henry,,2014-11-23,132483.0,False,Distribution
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


duplicated() 메서드로 중복이 있는지 조회할 수 있다.

In [44]:
emp.Team.duplicated()

0       False
1       False
2       False
3        True
4       False
        ...  
996      True
997      True
998      True
999      True
1000     True
Name: Team, Length: 1001, dtype: bool

keep 인수에 last를 넣으면 첫번째 등장 값만 True로 반환할 수 있다. 또는 ~로 반전을 시킬수도 있다.

In [45]:
emp[~emp.Team.duplicated()]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
8,Angela,Female,2005-11-22,95570.0,True,Engineering
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
12,Brandon,Male,1980-12-01,112807.0,True,HR
13,Gary,Male,2008-01-27,109831.0,False,Sales


중복을 제거하고 싶다면 drop_duplicates()를 사용하면 된다. 마찬가지로 subset으로 컬럼을 지정할 수 있다.

In [46]:
emp.drop_duplicates(subset=['Team'])

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
8,Angela,Female,2005-11-22,95570.0,True,Engineering
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
12,Brandon,Male,1980-12-01,112807.0,True,HR
13,Gary,Male,2008-01-27,109831.0,False,Sales


텍스트 데이터 다루기

텍스트 데이터는 규칙이 없다. 또한 현실 데이터는 잘못된 문자, 부적절한 대소문자, 오타, 공백 등으로 오염되어 있다. 이를 정리하는 과정을 Wrangling 또는 Munging이라고 한다. 데이터 분석의 대부분의 시간은 이 단계에 할애된다.

In [66]:
inspections = pd.read_csv('datas/chicago_food_inspections.csv')
inspections.Risk.value_counts()

Risk 1 (High)      107351
Risk 2 (Medium)     31845
Risk 3 (Low)        14529
All                    19
Name: Risk, dtype: int64

Name 열을 보면 대소문자도 혼용되어 있고 앞뒤로 공백이 규칙 없이 들어가 있는 것을 볼 수 있다. Series의 str 속성을 활용하면 강력한 문자열 처리 메서드를 제공하는 StringMethods 객체를 활용할 수 있다. 문자열을 조작할 땐 이 객체를 통해 문자열에 관한 메서드를 호출할 수 있다.

In [49]:
inspections.Name.str

<pandas.core.strings.accessor.StringMethods at 0x7fe1720030d0>

strip으로 문자열의 공백을 제거할 수 있다. lstrip은 왼쪽, rstrip은 오른쪽, strip은 양쪽 공백을 제거한다.

In [67]:
inspections.Name = inspections.Name.str.strip()

In [None]:
inspections

Unnamed: 0,Name,Risk
0,MARRIOT MARQUIS CHICAGO,Risk 1 (High)
1,JETS PIZZA,Risk 2 (Medium)
2,ROOM 1520,Risk 3 (Low)
3,MARRIOT MARQUIS CHICAGO,Risk 1 (High)
4,CHARTWELLS,Risk 1 (High)
...,...,...
153805,WOLCOTT'S,Risk 1 (High)
153806,DUNKIN DONUTS/BASKIN-ROBBINS,Risk 2 (Medium)
153807,Cafe 608,Risk 1 (High)
153808,mr.daniel's,Risk 1 (High)


Risk 열을 살펴보자.

In [58]:
inspections.Risk.unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)', 'All', nan],
      dtype=object)

Risk 열이 일관된 형식 값을 갖출 수 있도록 해보자. 결측치를 제거하고 ALL은 Extreme 4고 바꿔 보자.

In [70]:
inspections = inspections.dropna(subset=['Risk'])

In [None]:
inspections.Risk.unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)', 'All'],
      dtype=object)

replace() 메서드로 값을 치환하자.

In [76]:
inspections = inspections.replace(to_replace='All', value='Risk 4 (Extreme)')
inspections.Risk.unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)',
       'Risk 4 (Extreme)'], dtype=object)

StringMethod 객체에 인덱싱을 통해 하나의 문자를 추출할 수 있다.

In [77]:
inspections.Risk.str[5].astype('i').head()

0    1
1    2
2    3
3    1
4    1
Name: Risk, dtype: int32

In [79]:
inspections.Risk.str[8:-1].astype('category').head()

0      High
1    Medium
2       Low
3      High
4      High
Name: Risk, dtype: category
Categories (4, object): ['Extreme', 'High', 'Low', 'Medium']

하위 문자열이 포함되는지 확인할 때 contains()를 사용한다. 대소문자를 구분하기 때문에 이를 통일시키는 것이 좋다.

In [81]:
has_pizza = inspections.Name.str.lower().str.contains('pizza')
inspections[has_pizza]

Unnamed: 0,Name,Risk
1,JETS PIZZA,Risk 2 (Medium)
19,NANCY'S HOME OF STUFFED PIZZA,Risk 1 (High)
27,"NARY'S GRILL & PIZZA ,INC.",Risk 1 (High)
29,NARYS GRILL & PIZZA,Risk 1 (High)
68,COLUTAS PIZZA,Risk 1 (High)
...,...,...
153756,ANGELO'S STUFFED PIZZA CORP,Risk 1 (High)
153764,COCHIAROS PIZZA #2,Risk 1 (High)
153772,FERNANDO'S MEXICAN GRILL & PIZZA,Risk 1 (High)
153788,REGGIO'S PIZZA EXPRESS,Risk 1 (High)


특정 문자열로 시작하는지 확인할 때 쓰는 메서드가 startswith() 메서드이다.

In [83]:
starts_with_tacos = (
    inspections.Name.str.lower().str.startswith('tacos')
)
inspections[starts_with_tacos]

Unnamed: 0,Name,Risk
69,TACOS NIETOS,Risk 1 (High)
556,TACOS EL TIO 2 INC.,Risk 1 (High)
675,TACOS DON GABINO,Risk 1 (High)
958,TACOS EL TIO 2 INC.,Risk 1 (High)
1036,TACOS EL TIO 2 INC.,Risk 1 (High)
...,...,...
143587,TACOS DE LUNA,Risk 1 (High)
144026,TACOS GARCIA,Risk 1 (High)
146174,Tacos Place's 1,Risk 1 (High)
147810,TACOS MARIO'S LIMITED,Risk 1 (High)


다중 인덱스

row나 column에 여러 계층을 가지는 다중 인덱스를 설정할 수도 있다.

In [85]:
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2), columns = [['A','A','B','B'], ['C1','C2','C3','C4']])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C3,C4
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


다중 인덱스는 이름을 지정하면 더 편하게 쓸 수 있다.

In [87]:
df3.columns.names = ['Cidx1', 'Cidx2']
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C3,C4
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


stack 메서드를 사용하면 column 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양이 된다.

In [88]:
df3.stack('Cidx1')

Unnamed: 0_level_0,Cidx2,C1,C2,C3,C4
Unnamed: 0_level_1,Cidx1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,A,1.76,0.4,,
0,B,,,0.98,2.24
1,A,1.87,-0.98,,
1,B,,,0.95,-0.15
2,A,-0.1,0.41,,
2,B,,,0.14,1.45
3,A,0.76,0.12,,
3,B,,,0.44,0.33
4,A,1.49,-0.21,,
4,B,,,0.31,-0.85


unstack을 하면 반대로 회전한 것과 같다.

In [89]:
df3.unstack()

Cidx1  Cidx2   
A      C1     0    1.76
              1    1.87
              2   -0.10
              3    0.76
              4    1.49
       C2     0    0.40
              1   -0.98
              2    0.41
              3    0.12
              4   -0.21
B      C3     0    0.98
              1    0.95
              2    0.14
              3    0.44
              4    0.31
       C4     0    2.24
              1   -0.15
              2    1.45
              3    0.33
              4   -0.85
dtype: float64

다중 인덱스의 순사를 바꾸고 싶으면 swaplevel을 활용한다.

In [90]:
df3.swaplevel('Cidx1', 'Cidx2', 1)

Cidx2,C1,C2,C3,C4
Cidx1,A,A,B,B
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


데이터프레임 합성

pandas는 두 개 이상의 데어프레임을 하나로 합치는 데이터 병합이나 연결을 지원한다. join() 또는 merge()로 할 수 있다.

In [91]:
df1 = pd.DataFrame({'고객번호':[1001, 1002, 1003, 1004, 1005, 1006, 1007],
                   '이름':['둘리','도우너','또치','길동','희동','마이콜','영희']}, columns=['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [93]:
df2 = pd.DataFrame({'고객번호':[1001, 1001, 1005, 1006, 1008, 1001],
                   '금액':[10000, 20000, 15000, 5000, 1000000, 30000]}, columns=['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,1000000
5,1001,30000


merge로 이 둘을 합치면 공통 컬럼인 고객번호 컬럼을 기준으로 데이터를 찾아서 합친다. 기본적으로는 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 보여주는 innner join방식을 사용한다.

In [94]:
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


outer join은 키 값이 한쪽에만 있어도 데이터를 보여준다.

In [95]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,1000000.0


left는 첫 번째 인수 기준으로, right는 두 번째 인수 기준으로 DataFrame의 키 값을 모두 보여준다.

In [96]:
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [97]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,1000000
5,1001,둘리,30000


만약 테이블에 키 값이 같은 데이터가 여러 개 있는 경우에는 있을 수 있는 모든 경우의 수를 따져서 조합을 만들어 낸다.

그룹 분석

만약 키가 지정하는 조건에 맞는 데이터가 하나 이상이라서 데이터 그룹을 이루는 경우에는 그룹의 특성을 보여주는 그룹분석을 해야 한다. 그룹 분석은 키에 의해서 결정되는 데이터가 여라 개 있을 경우 미리 지정한 연산을 통해 그 그룹 데이터의 대표값을 계산한다. groupby 메서드는 데이터를 그룹 별로 분류하는 역할을 한다. 인수로는 column 또는 column의 리스트, row 인덱스를 받는다. 결과로 그룹 데이터를 나타내는 Groupby 클래스의 객체를 반환한다. 이 객체는 그룹별로 연산을 할 수 있는 그룹연산 메서드가 있다. size, cout, mean, sum, first, last 등의 메서드를 사용할 수 있다.

In [100]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1':list("AABBA"),
    'key2':['one', 'two', 'one', 'two', 'one'],
    'data1':list(range(1, 6)),
    'data2':list(range(10, 59, 10))
}
)
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [102]:
groups = df2.groupby(df2.key1)

In [103]:
groups.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [104]:
groups.sum()

  groups.sum()


Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


이번에는 복합 키값에 따른 data1의 합계를 구한다.

In [105]:
df2.data1.groupby([df2.key1, df2.key2]).sum()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

datetimeindex


판다스에서 시계열 자료를 생성하기 위해서는 인덱스를 DatetimeIndex 자료형으로 만들어야 한다. pd.to_datetime 또는 pd.date_range로 생성한다.

In [106]:
date_str = ['2018, 1, 1', '2018, 1, 4', '2018, 1, 5', '2018, 1, 6']
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

In [107]:
pd.date_range('2018-4-1', '2018-4-30')

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

In [108]:
pd.date_range('2018-4-1', periods = 30)

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

freq 인수로 특정한 날짜만 생성되도록 할 수도 있다. 날짜 이동 도 shift를 사용하면 가능하다. 인덱스를 그대로 두고 데이터만 이동한다.

In [109]:
np.random.seed(0)
ts = pd.Series(np.random.randn(4), index=pd.date_range('2018-1-1', periods=4, freq='M'))

In [111]:
ts.shift(1)

2018-01-31         NaN
2018-02-28    1.764052
2018-03-31    0.400157
2018-04-30    0.978738
Freq: M, dtype: float64

datetime에는 dt 접근자가 있어 속성과 메서드를 사용할 수 있다.

In [112]:
s = pd.Series(pd.date_range('2020-12-25', periods=100, freq='D'))
s

0    2020-12-25
1    2020-12-26
2    2020-12-27
3    2020-12-28
4    2020-12-29
        ...    
95   2021-03-30
96   2021-03-31
97   2021-04-01
98   2021-04-02
99   2021-04-03
Length: 100, dtype: datetime64[ns]

In [113]:
s.dt.year

0     2020
1     2020
2     2020
3     2020
4     2020
      ... 
95    2021
96    2021
97    2021
98    2021
99    2021
Length: 100, dtype: int64

strftime으로 문자열을 만드는 것도 가능하다.

In [115]:
s.dt.strftime('%Y년 %m월 %d일')

0     2020년 12월 25일
1     2020년 12월 26일
2     2020년 12월 27일
3     2020년 12월 28일
4     2020년 12월 29일
          ...      
95    2021년 03월 30일
96    2021년 03월 31일
97    2021년 04월 01일
98    2021년 04월 02일
99    2021년 04월 03일
Length: 100, dtype: object

연습문제 - 타이타닉 데이터셋을 불러와서 alive columndml rkqtdl no 면 False로, yes면 True로 변경한다. 이때 change_boolean 함수를 만든다.

In [117]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [122]:
def change_boolean(v):
    if v == np.nan:
        return np.nan
    elif v == 'yes':
        return True
    return False

titanic.alive = titanic.alive.apply(change_boolean)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,False,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,True,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,True,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,True,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,False,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,True,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,False,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,True,True
