## pandas의 개요

In [1]:
# 1.1 pandas 개요
#pandas: 계량 경제학 용어인 panel cata와 analysis의 합성어
# 구조화된 데이터를 빠르고 쉬우면서 다양한 형식으로 가공할 수 있는 풍부한 자료구조와 함수를 제공
# 기본 구조는 numpy

In [2]:
# 1.2 pandas 특징
# 빅데이터 분석에 최적화 된 필수 패키지
# 데이터는 시계열이나 표의 형태
# 표 데이터를 다루기 위하 시리즈 클래스 변환
# 데이터프레임 클래스 변환

In [3]:
!pip install pandas



In [82]:
import pandas as pd

## pandas 데이터

In [2]:
# 시리즈 클래스
# numpy에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스를 붙일수 있다.
# 데이터 자체는 값이라고 한다. 시리즈 = 값 + 인덱스

In [3]:
# 시리즈 개요
# 데이터를 리스트나 1차원 배열 형식으로 시리즈 클래스 생성자에 넣어주면 시리즈 클래스 객체를 만들 수 있다.
obj=pd.Series([4,5,-8,2])
obj

0    4
1    5
2   -8
3    2
dtype: int64

In [4]:
# 시리즈 확인하기
obj.values # 시리즈의 값만 확인하기

array([ 4,  5, -8,  2], dtype=int64)

In [5]:
#시리즈의 인덱스만 확인하기
obj.index # 5숫자짜리의 range index

RangeIndex(start=0, stop=4, step=1)

In [6]:
#시리즈의 자료형 확인하기
obj.dtypes

dtype('int64')

In [7]:
# 시리즈 인덱스
# 인덱스의 길이는 데이터의 길이와 같아야 한다.
# 인덱스의 값을 인덱스 라벨이라고도 한다.
# 인덱스 라벨은 문자열 뿐 아니라 날짜, 시간, 정수 등도 가능하다.

# 인덱스를 바꿀수 있다.
obj2=pd.Series([4,5,-2,8],index=["a","b","c","d"])
obj2

a    4
b    5
c   -2
d    8
dtype: int64

In [8]:
# 2.4 시리즈와 딕셔너리 자료형

#python의 딕셔너리 자료형을 시리즈 데이터로 만들 수 있다.
# 딕셔너리의 키가 시리즈의 인덱스가 된다.

data= {"Kim": 35000,"Park":10000, "Lee":9000}
obj2=pd.Series(data)
obj2

Kim     35000
Park    10000
Lee      9000
dtype: int64

In [9]:
# 시리즈 이름 지정 및 인덱스 네임 지정
obj2.name = "Lee"
obj2.index.name="Names"
obj2

Names
Kim     35000
Park    10000
Lee      9000
Name: Lee, dtype: int64

In [10]:
## 시리즈 연산

In [11]:
# Numpy 배열처럼 시리즈도 벡터화 연산 가능
# 시리즈의 값에만 적용되며 인덱스 값은 변하지 않는다.

# 스칼라 연산 곱하기
obj*10

0    40
1    50
2   -80
3    20
dtype: int64

In [12]:
# 인덱싱 끼리 연산하기
obj*obj

0    16
1    25
2    64
3     4
dtype: int64

In [13]:
# value 값끼리 연산, 출력은 array
obj.values + obj.values

array([  8,  10, -16,   4], dtype=int64)

## 데이터 프레임

In [14]:
# 시리즈가 1차원 벡터 데이터에 행 방향 인덱스라면,
# 데이터프레임 클래스는 2차원 행렬 데이터에 합친 것으로
# 행 인덱스와 열 인덱스를 지정

In [15]:
# 데이터 프레임 특성

# 공통 인덱스를 가지는 열 시리즈를 딕셔너리로 묶어놓은 것
# numpy의 모든 2차원 배열 속성이나 메서드를 지원

In [16]:
# 3.3 데이터프레임 생성

# 1.우선 하나의 열이 되는 데이터를 리스트나 일차원 배열을 준비
# 2.각 열에 대한 이름의 키를 갖는 딕셔너리를 생성
# 3.pandas의 데이터프레임 클래스로 생성
# 4.열방향 인덱스는 열 인수로, 행방향 인덱스는 인덱스 인수로 지정

In [17]:
# 데이터 프레임은 파이썬의 딕셔너리 또는 numpy의 array로 정의
data ={'name':['Lee','Kim','Park'],'year':[2013,2014,2015],'points':[1.5,1.7,1.8]}
df=pd.DataFrame(data) 
df

Unnamed: 0,name,year,points
0,Lee,2013,1.5
1,Kim,2014,1.7
2,Park,2015,1.8


In [18]:
# 행 방향의 index
df.index

RangeIndex(start=0, stop=3, step=1)

In [19]:
# 열 방향의 index
df.columns

Index(['name', 'year', 'points'], dtype='object')

In [20]:
# 값 얻기
df.values

array([['Lee', 2013, 1.5],
       ['Kim', 2014, 1.7],
       ['Park', 2015, 1.8]], dtype=object)

In [21]:
# 데이터프레임 열 갱신, 추가

# 열 시리즈의 딕셔너리로 볼 수 있으므로 열 단위로 데이터를 갱신하거나 추가, 삭제
# 데이터에 포함되어 있지 않은 값은 nan으로 나타내는 null과 같은 개념

# 데이터 프레임을 만들면서 열과 인덱스를 설정
df=pd.DataFrame(data,columns=["year","name","point"],index=(["one","two","three"])) # points가 아니기 때문에 NaN 값이 나옴
df

Unnamed: 0,year,name,point
one,2013,Lee,
two,2014,Kim,
three,2015,Park,


In [22]:
df[["year","point"]]

Unnamed: 0,year,point
one,2013,
two,2014,
three,2015,


In [23]:
# 특정 열에 선택하고, 값을 대입
df["point"]=0.7
df

Unnamed: 0,year,name,point
one,2013,Lee,0.7
two,2014,Kim,0.7
three,2015,Park,0.7


In [24]:
# 또는 # 파이썬의 리스트나 numpy의 array
df["point"]=[0.1,0.6,0.7]
df

Unnamed: 0,year,name,point
one,2013,Lee,0.1
two,2014,Kim,0.6
three,2015,Park,0.7


In [25]:
# 새로운 열을 추가하기
import numpy as np
df["zeros"]=np.arange(3)
df

Unnamed: 0,year,name,point,zeros
one,2013,Lee,0.1,0
two,2014,Kim,0.6,1
three,2015,Park,0.7,2


In [26]:
# 시리즈로 추가
val=pd.Series([-1.2,-1.7],index=["one","three"])
df["debt"]=val
df

Unnamed: 0,year,name,point,zeros,debt
one,2013,Lee,0.1,0,-1.2
two,2014,Kim,0.6,1,
three,2015,Park,0.7,2,-1.7


In [27]:
# 연산 후 새로운 열을 추가하기
df["net_point"]=df["point"]-df["zeros"]

# 조건 추가
df["high_point"]=df["net_point"]>0.0
df

Unnamed: 0,year,name,point,zeros,debt,net_point,high_point
one,2013,Lee,0.1,0,-1.2,0.1,True
two,2014,Kim,0.6,1,,-0.4,False
three,2015,Park,0.7,2,-1.7,-1.3,False


In [28]:
# 열 삭제하기
del df['high_point']
del df['net_point']
df

Unnamed: 0,year,name,point,zeros,debt
one,2013,Lee,0.1,0,-1.2
two,2014,Kim,0.6,1,
three,2015,Park,0.7,2,-1.7


In [29]:
df.columns

Index(['year', 'name', 'point', 'zeros', 'debt'], dtype='object')

In [30]:
# 인덱스와 칼럼의 이름 지정
df.index.name = 'Order'
df.columns.name = 'Info'
df

Info,year,name,point,zeros,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,2013,Lee,0.1,0,-1.2
two,2014,Kim,0.6,1,
three,2015,Park,0.7,2,-1.7


In [31]:
# 3.4 데이터프레임 인덱싱

# 데이터프레임을 인덱싱르 할 때도 열 라벨을 키 값으로 생각하여 인덱싱
# 인덱스로 라벨 값을 하나만 넣으면 시리즈 객체가 반환되고 라벨의 배열 또는 리스트를 넣으면 부분적인 데이터프레임이 변환
# 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면 원소가 하나인 리스트를 써서 인덱싱

df["year"]

Order
one      2013
two      2014
three    2015
Name: year, dtype: int64

In [32]:
# 동일한 의미를 갖는, 다른 방법
df.year

Order
one      2013
two      2014
three    2015
Name: year, dtype: int64

In [33]:
df.name

Order
one       Lee
two       Kim
three    Park
Name: name, dtype: object

In [34]:
# 행 인덱싱

# 행 단위로 인덱싱을 하고자 하면 항상 슬라이싱을 해야한다.
# 인덱스의 값이 문자 라벨이면 라벨 슬라이싱

# 0번째 부터 2(3-1)번째까지 가져온다.
#뒤에 써준 숫자번째의 행은 뺀다.
df[0:2]

Info,year,name,point,zeros,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,2013,Lee,0.1,0,-1.2
two,2014,Kim,0.6,1,


In [35]:
# 3.5 loc 인덱싱

# 라벨값 기반의 2차원 인덱싱

In [36]:
# .loc 또는 .iloc 함수를 사용하여 Series 반환

df.loc["two"]

Info
year     2014
name      Kim
point     0.6
zeros       1
debt      NaN
Name: two, dtype: object

In [37]:
# 함수를 사용하여 데이터프레임으로 인덱싱
df.loc["two":"three"]

Info,year,name,point,zeros,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
two,2014,Kim,0.6,1,
three,2015,Park,0.7,2,-1.7


In [38]:
df.loc["two":"three",'point']

Order
two      0.6
three    0.7
Name: point, dtype: float64

In [39]:
df.loc[:,'year'] # ==df['year']

Order
one      2013
two      2014
three    2015
Name: year, dtype: int64

In [40]:
df.loc[:,['year','point']]

Info,year,point
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,2013,0.1
two,2014,0.6
three,2015,0.7


In [41]:
df.loc["two":"three","year":"point"]

Info,year,name,point
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
two,2014,Kim,0.6
three,2015,Park,0.7


In [42]:
# 3.6 iloc 인덱싱

# 정수값 기반의 2차원 인덱싱

# 새로운 행 삽입하기
df.loc["four",:]=[2013,"Jun",4,0,0,1]
df

ValueError: Must have equal len keys and value when setting with an iterable

In [43]:
# iloc 사용 index 번호를 사용한다.
df.iloc[3] # 3번째 행을 가져온다.

Info
year     NaN
name     NaN
point    NaN
zeros    NaN
debt     NaN
Name: four, dtype: object

In [44]:
# 슬라이싱으로 지정하여 반환

df.iloc[1:3,:2]

Info,year,name
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
two,2014.0,Kim
three,2015.0,Park


In [45]:
# 각각의 행과 열을 지정하여 반환하기
df.iloc[[0,1,3],[1,2]]

Info,name,point
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,Lee,0.1
two,Kim,0.6
four,,


In [46]:
# 행을 전체, 열은 두번째 열부터 4번째까지 슬라이싱으로 지정하여 반환
df.iloc[:,1:4]

Info,name,point,zeros
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,Lee,0.1,0.0
two,Kim,0.6,1.0
three,Park,0.7,2.0
four,,,


In [47]:
df.iloc[1,1]

'Kim'

In [48]:
# 3.6 불리언 인덱싱

# True, False 논리연산 기반의 인덱싱
df

Info,year,name,point,zeros,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,2013.0,Lee,0.1,0.0,-1.2
two,2014.0,Kim,0.6,1.0,
three,2015.0,Park,0.7,2.0,-1.7
four,,,,,


In [49]:
# year가 2014보다 큰 불리언 데이터
df['year']>2014

Order
one      False
two      False
three     True
four     False
Name: year, dtype: bool

In [50]:
df.loc[df['name']=='Lee',['name','point']]

Info,name,point
Order,Unnamed: 1_level_1,Unnamed: 2_level_1
one,Lee,0.1


In [51]:
# numpy에서와 같이 논리연산을 응용할 수 있다.
df.loc[(df['point']>=0.6)&(df['point']<1),:] # 포인ㅌ

Info,year,name,point,zeros,debt
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
two,2014.0,Kim,0.6,1.0,
three,2015.0,Park,0.7,2.0,-1.7


## 4. 데이터프레임 다루기

In [52]:
# 4.1 numpy randn 데이터프레임 생성

# 데이터프레임을 만들때 인덱스, 열을 설정하지 않으면 기본값으로 0부터 시작하는 정수형 숫자로 입력
df=pd.DataFrame(np.random.randn(6,4)) # 6x4의 배열에 랜덤 난수를 생성
df

Unnamed: 0,0,1,2,3
0,-1.279914,-0.51287,-0.459326,0.624491
1,0.560539,-1.21591,-0.679261,-0.224551
2,1.205122,0.010211,0.787756,0.001283
3,-0.194975,-0.8837,1.236145,0.996282
4,0.942435,0.969236,-0.432352,1.450247
5,2.455795,0.554559,0.194109,-0.104113


In [53]:
# 시계열 데이트 함수 data_range

# pandas에서 제공하는 data_range함수는 datetime 자료형으로 구성된, 날짜/시간 함수
df.columns=['A','B','C','D']
df.index=pd.date_range('20160701',periods=6)
df.index

DatetimeIndex(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
               '2016-07-05', '2016-07-06'],
              dtype='datetime64[ns]', freq='D')

In [54]:
df

Unnamed: 0,A,B,C,D
2016-07-01,-1.279914,-0.51287,-0.459326,0.624491
2016-07-02,0.560539,-1.21591,-0.679261,-0.224551
2016-07-03,1.205122,0.010211,0.787756,0.001283
2016-07-04,-0.194975,-0.8837,1.236145,0.996282
2016-07-05,0.942435,0.969236,-0.432352,1.450247
2016-07-06,2.455795,0.554559,0.194109,-0.104113


In [55]:
# 4.3 numpy로 데이터프레임 결측치 다루기

# np.nan은 NaN값을 의미
df['F']=[1.0,np.nan,3.5,6.1,np.nan,7.0] # F열을 만들고 값을 해당 값을 삽입
df

Unnamed: 0,A,B,C,D,F
2016-07-01,-1.279914,-0.51287,-0.459326,0.624491,1.0
2016-07-02,0.560539,-1.21591,-0.679261,-0.224551,
2016-07-03,1.205122,0.010211,0.787756,0.001283,3.5
2016-07-04,-0.194975,-0.8837,1.236145,0.996282,6.1
2016-07-05,0.942435,0.969236,-0.432352,1.450247,
2016-07-06,2.455795,0.554559,0.194109,-0.104113,7.0


In [56]:
# 행의 값중 하나라도 nan인 경우 그 행을 없앤다.
df.dropna(how='any')

Unnamed: 0,A,B,C,D,F
2016-07-01,-1.279914,-0.51287,-0.459326,0.624491,1.0
2016-07-03,1.205122,0.010211,0.787756,0.001283,3.5
2016-07-04,-0.194975,-0.8837,1.236145,0.996282,6.1
2016-07-06,2.455795,0.554559,0.194109,-0.104113,7.0


In [57]:
# 행의 값의 모든 값이 nan인 경우 그 행을 없앤다.
df.dropna(how='all')

Unnamed: 0,A,B,C,D,F
2016-07-01,-1.279914,-0.51287,-0.459326,0.624491,1.0
2016-07-02,0.560539,-1.21591,-0.679261,-0.224551,
2016-07-03,1.205122,0.010211,0.787756,0.001283,3.5
2016-07-04,-0.194975,-0.8837,1.236145,0.996282,6.1
2016-07-05,0.942435,0.969236,-0.432352,1.450247,
2016-07-06,2.455795,0.554559,0.194109,-0.104113,7.0


In [58]:
# nan값에 값 넣기
df.fillna(value=0.5)

Unnamed: 0,A,B,C,D,F
2016-07-01,-1.279914,-0.51287,-0.459326,0.624491,1.0
2016-07-02,0.560539,-1.21591,-0.679261,-0.224551,0.5
2016-07-03,1.205122,0.010211,0.787756,0.001283,3.5
2016-07-04,-0.194975,-0.8837,1.236145,0.996282,6.1
2016-07-05,0.942435,0.969236,-0.432352,1.450247,0.5
2016-07-06,2.455795,0.554559,0.194109,-0.104113,7.0


In [59]:
# 4.4 drop 명령어

# 특정 행 drop하기
df.drop(pd.to_datetime('20160701'))

Unnamed: 0,A,B,C,D,F
2016-07-02,0.560539,-1.21591,-0.679261,-0.224551,
2016-07-03,1.205122,0.010211,0.787756,0.001283,3.5
2016-07-04,-0.194975,-0.8837,1.236145,0.996282,6.1
2016-07-05,0.942435,0.969236,-0.432352,1.450247,
2016-07-06,2.455795,0.554559,0.194109,-0.104113,7.0


In [60]:
# 2개 이상도 가능
df.drop([pd.to_datetime('20160702'),pd.to_datetime('20160704')])

Unnamed: 0,A,B,C,D,F
2016-07-01,-1.279914,-0.51287,-0.459326,0.624491,1.0
2016-07-03,1.205122,0.010211,0.787756,0.001283,3.5
2016-07-05,0.942435,0.969236,-0.432352,1.450247,
2016-07-06,2.455795,0.554559,0.194109,-0.104113,7.0


In [61]:
# 특정 열 삭제하기
df.drop('F',axis=1) # F열이 삭제

Unnamed: 0,A,B,C,D
2016-07-01,-1.279914,-0.51287,-0.459326,0.624491
2016-07-02,0.560539,-1.21591,-0.679261,-0.224551
2016-07-03,1.205122,0.010211,0.787756,0.001283
2016-07-04,-0.194975,-0.8837,1.236145,0.996282
2016-07-05,0.942435,0.969236,-0.432352,1.450247
2016-07-06,2.455795,0.554559,0.194109,-0.104113


In [62]:
# 2개 이상의 열도 가능
df.drop(['B','D'],axis=1) # B, D 열을 삭제

Unnamed: 0,A,C,F
2016-07-01,-1.279914,-0.459326,1.0
2016-07-02,0.560539,-0.679261,
2016-07-03,1.205122,0.787756,3.5
2016-07-04,-0.194975,1.236145,6.1
2016-07-05,0.942435,-0.432352,
2016-07-06,2.455795,0.194109,7.0


## pandas 데이터 입출력

In [63]:
# 5.1 pandas 데이터 불러오기 (1시간 22분 부터)

# pandas는 데이터 분석을 위해 여러 포맷의 데이터 파일을 읽을 수 있다.
# csv, excel, html, json, hdf5, asa, stata, sql

pd.read_csv('sample1.csv')

FileNotFoundError: [Errno 2] File sample1.csv does not exist: 'sample1.csv'

## pandas 데이터 처리

In [64]:
## 정렬 (sort)

# 데이터를 정렬로 sort_index는 인덱스 값을 기준으로,
# sort_values는 데이터 값을 기준으로 정렬

#np.random으로 시리즈 생성
s=pd.Series(np.random.randint(6,size=100)) #0에서 5까지 랜덤값을 100회 생성
s.head

<bound method NDFrame.head of 0     0
1     3
2     2
3     5
4     2
     ..
95    0
96    5
97    0
98    2
99    5
Length: 100, dtype: int32>

In [66]:
s.value_counts().sort_index() #0에서 5의 값을 카운트, 하고 정렬 

0    22
1    12
2    20
3    14
4    14
5    18
dtype: int64

In [70]:
# NaN 값이 있는 경우에는 정렬하면 NaN값이 가장 나중에 반환
s.sort_values() # 0에서 5의 값을 가지는 부분을 정렬해서 나타냄

0     0
39    0
42    0
43    0
44    0
     ..
81    5
8     5
68    5
88    5
99    5
Length: 100, dtype: int32

In [73]:
# 내림차순 정렬
# 큰 수에서 작은 수로 반대 방향 정렬하려면 'ascending=fales ' 인수를 지정

s.sort_values(ascending=False)

99    5
88    5
68    5
8     5
81    5
     ..
44    0
43    0
42    0
39    0
0     0
Length: 100, dtype: int32

In [78]:
# 데이터프레임세서 by 인수로 정렬 기준이 되는 열을 지정

df.sort_values(by=1)
df

KeyError: 1

In [76]:
# apply 변환

# 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply 메서드를 사용
# 인수로 행 또는 열을 받는 함수를 apply 메서드의 인수로 넣을면 각 열(또는 행)을 반복하여 수행

df.pd.DataFrame({'A':[1,2,3,4,5],'B':[2,3,4,5,6],'C':[4,5,6,7,8]})
df

AttributeError: 'DataFrame' object has no attribute 'pd'

In [77]:
# lamda 함수
# 파이썬에서 'lambda'는 런타임에서 생성해서 사용할 수 있는 익명 함수 
# 쓰고 버리는 일시적인 함수로 생성된 곳에서만 적용

# 람다 함수 적용
df.apply(lambda x:x.max()-x.min())

A    3.735709
B    2.185147
C    1.915406
D    1.674798
F    6.000000
dtype: float64

In [80]:
# 만약 행에 대해 적용하고 싶으면 axis=1 인수 사용
df.apply(lambda x: x.max()-x.min(),axis=1)

2016-07-01    2.279914
2016-07-02    1.776449
2016-07-03    3.498717
2016-07-04    6.983700
2016-07-05    1.882599
2016-07-06    7.104113
Freq: D, dtype: float64

In [81]:
# apply로 데이터 다루기

# nan값은 fillna 메서드를 사용하여 원하는 값으로 변환 가능
# astype 메서드로 전체 데이터의 자료형을 바꾸는 것도 가능
df.apply(pd.value_counts)

Unnamed: 0,A,B,C,D,F
-1.279914,1.0,,,,
-1.21591,,1.0,,,
-0.8837,,1.0,,,
-0.679261,,,1.0,,
-0.51287,,1.0,,,
-0.459326,,,1.0,,
-0.432352,,,1.0,,
-0.224551,,,,1.0,
-0.194975,1.0,,,,
-0.104113,,,,1.0,


In [84]:
df.apply(pd.value_counts).fillna(0).astype(int) #nan 결측값은 0으로 변경, 정수로 변경하여 출력

Unnamed: 0,A,B,C,D,F
-1.279914,1,0,0,0,0
-1.21591,0,1,0,0,0
-0.8837,0,1,0,0,0
-0.679261,0,0,1,0,0
-0.51287,0,1,0,0,0
-0.459326,0,0,1,0,0
-0.432352,0,0,1,0,0
-0.224551,0,0,0,1,0
-0.194975,1,0,0,0,0
-0.104113,0,0,0,1,0


In [85]:
# describe 메서드

# describe() 함수는 DataFrame의 계산 가능한 값들의 기본 통계값을 반환
df.describe() # 카운트, 평균, 중간 등등

Unnamed: 0,A,B,C,D,F
count,6.0,6.0,6.0,6.0,4.0
mean,0.614834,-0.179746,0.107845,0.457273,4.4
std,1.272298,0.845649,0.771468,0.67712,2.709243
min,-1.279914,-1.21591,-0.679261,-0.224551,1.0
25%,-0.006096,-0.790992,-0.452582,-0.077764,2.875
50%,0.751487,-0.25133,-0.119122,0.312887,4.8
75%,1.139451,0.418472,0.639344,0.903334,6.325
max,2.455795,0.969236,1.236145,1.450247,7.0


## Pandas 시계열 분석

In [91]:
# pd.to_datetime 함수

# 날짜/시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾼후 datetimeindex 자료형 인덱스를 생성
date_str=["2018-1-1",'2018-1-4',"2018-4-5"]
idx=pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-04-05'], dtype='datetime64[ns]', freq=None)

In [94]:
# 인덱스를 사용하여 시리즈나 데이터 프레임을 생성
np.random.seed(0)
s=pd.Series(np.random.randn(3),index=idx)
s

2018-01-01    1.764052
2018-01-04    0.400157
2018-04-05    0.978738
dtype: float64

In [89]:
# pd.date_range 함수

# 시작일과 종료일 또는 시작일과 기간을 입려하면 범위 내의 인덱스를 생성
pd.date_range('2018-4-1',"2018-4-5")

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05'],
              dtype='datetime64[ns]', freq='D')

In [90]:
pd.date_range(start="2018-4-1",periods=5) #기간을 5로 지정

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05'],
              dtype='datetime64[ns]', freq='D')