In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

“Dữ liệu chuỗi thời gian là một dạng dữ liệu có cấu trúc quan trọng trong nhiều lĩnh vực khác nhau, chẳng hạn như tài chính, kinh tế, sinh thái học, khoa học thần kinh và vật lý. Bất cứ thứ gì được quan sát hoặc đo lường ở nhiều thời điểm sẽ tạo thành một chuỗi thời gian. Nhiều chuỗi thời gian có tần suất cố định, có nghĩa là các điểm dữ liệu xảy ra đều đặn theo một số quy tắc, chẳng hạn như cứ sau 15 giây, 5 phút một lần hoặc một lần mỗi tháng. Chuỗi thời gian cũng có thể không đều mà không có một đơn vị thời gian cố định hoặc sự chênh lệch giữa các đơn vị. Cách bạn đánh dấu và tham chiếu đến dữ liệu chuỗi thời gian tùy thuộc vào ứng dụng và bạn có thể có một trong những điều sau: ”


### 11.1 Date and Time Data Types and Tools

In [4]:
from datetime import datetime

In [5]:
now = datetime.now()

In [6]:
now

datetime.datetime(2021, 6, 1, 16, 51, 51, 143079)

In [7]:
now.year, now.month, now.day

(2021, 6, 1)

Datetime lưu trữ cả ngày và giờ tính đến từng micro giây. `timedelta()` đại diện cho sự khác biệt về thời gian giữa hai đối tượng datetime:

In [8]:
delta = datetime(2021,5,17,17) - datetime(2021,5,15,15,30) 

In [9]:
delta

datetime.timedelta(days=2, seconds=5400)

In [10]:
delta.days

2

In [11]:
delta.seconds

5400

Bạnk có thể cộng hoặc trừ 1 `timedelta()` hoặc `multiple()` để dịch chuyển sang một time mới

In [12]:
from datetime import timedelta
start = datetime(2021,5,16,8,30)

In [13]:
start + timedelta(1,8*60*60)

datetime.datetime(2021, 5, 17, 16, 30)

#### Convert Between String and Datetime

Bạn có thể chuyển `datetime()` Object và pandas TimeStamp Object, tôi sẽ giới thiệu sau nhưng giờ tôi muốn giới thiệu về `string` trước, bằng các sử dụng `strftime()`

In [14]:
stamp = datetime(2011,1,15,23,20)

In [15]:
str(stamp)

'2011-01-15 23:20:00'

In [16]:
stamp.strftime('%Y-%m-%d-%H-%I-%M-%W')

'2011-01-15-23-11-20-02'

**Note**: `%F` shortcut for %Y-%m-%d


Bạn có thể sử dụng những same format code chuyển từ string to date như `datetime.strptime`

In [17]:
value = '2011-01-03'

In [18]:
datetime.strptime(value,'%Y-%m-%d')

datetime.datetime(2011, 1, 3, 0, 0)

In [19]:
datetime(2011,1,3,0,0)

datetime.datetime(2011, 1, 3, 0, 0)

In [20]:
datestrs = ['27/08/2001','20/10/1999']

In [21]:
[datetime.strptime(x,'%d/%m/%Y') for x in datestrs]

[datetime.datetime(2001, 8, 27, 0, 0), datetime.datetime(1999, 10, 20, 0, 0)]

`datetime.strptime()` là 1 cách tốt để chuyển với cái format định sẵn. Tuy nhiên, nó có vẻ a chút khó chị khi có viết một format spec each time, đặc biệt nấht chug date formats. Trong trường hợp này bạn có thể sử dụng `parser.parse()` trong **third-party** deteutil package

In [22]:
from dateutil.parser import parse
parse('2001-08-27')

datetime.datetime(2001, 8, 27, 0, 0)

Dateutil có khả năng phân tích cú pháp hầu hết các đại diện ngày tháng mà con người có thể hiểu được:"


In [23]:
parse('Jan 31, 1997 10:45 PM')

datetime.datetime(1997, 1, 31, 22, 45)

Có thể thêm date first để biết rằng first có thể là ngày

In [24]:
parse('6/12/2001',dayfirst=True)

datetime.datetime(2001, 12, 6, 0, 0)

**Pandas** thường làm việc với array của dates, liệu sử dụng như một chiều index hoặc một cột trong 1 DataFrame. `to_datetime` method `parses` rất nhiều loại date định dang. Những dạng format như ISO 8601 có thể xử lý rất nhanh 

In [25]:
datestrs = ['2011-07-06 12:00:00','2012-8-27 00:00:00']

In [26]:
pd.to_datetime(datestrs)

DatetimeIndex(['2011-07-06 12:00:00', '2012-08-27 00:00:00'], dtype='datetime64[ns]', freq=None)

Nó cũng xử lý những giá trị được coi là mising 

In [27]:
idx = pd.to_datetime(datestrs+ [None])

In [28]:
idx

DatetimeIndex(['2011-07-06 12:00:00', '2012-08-27 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [29]:
pd.isnull(idx)

array([False, False,  True])

**Note**: *NaT* (Not A Time) được coi là null trong timestamp.

### 11.2 Time Series Basic
Cơ bản của các loại timeseríe object trong pandas là 1 Series indexed by `timestamps`, nó thường đại diện bên ngoài pandas như python strings hoặc datetime object

In [30]:
from datetime import datetime
dates = [datetime(2021,2,3),datetime(2021,2,10)
        ,datetime(2021,2,11),datetime(2021,2,12)
        ,datetime(2021,2,13),datetime(2021,2,14)]

In [31]:
ts = pd.Series(np.random.randn(6),dates)

In [32]:
ts

2021-02-03   -0.763171
2021-02-10   -1.325962
2021-02-11    0.475518
2021-02-12    0.132850
2021-02-13    0.516921
2021-02-14   -2.033808
dtype: float64

Bên sâu, `datetime` object có put trong 1 DateTime Index

In [33]:
ts.index

DatetimeIndex(['2021-02-03', '2021-02-10', '2021-02-11', '2021-02-12',
               '2021-02-13', '2021-02-14'],
              dtype='datetime64[ns]', freq=None)

Như các Series khác, những phép biến đổi thông thường giữa các indexed time sẻies automatically align on the dates

In [34]:
ts + ts[::2]

2021-02-03   -1.526341
2021-02-10         NaN
2021-02-11    0.951035
2021-02-12         NaN
2021-02-13    1.033842
2021-02-14         NaN
dtype: float64

In [35]:
ts[::2]

2021-02-03   -0.763171
2021-02-11    0.475518
2021-02-13    0.516921
dtype: float64

`pandas stores` **timestamps** sử dụng NumPy's `datetime64` data type tại nano giây 

In [36]:
ts.index.dtype

dtype('<M8[ns]')

#### Index Selection Subsetting

Time series có như là other pandas. Series khi bạn là indexing và selecign data dựa trên label

In [37]:
stamp = ts.index[2]

In [38]:
stamp

Timestamp('2021-02-11 00:00:00')

In [39]:
ts[stamp]

0.4755176464901995

như một thông thường, bạn cũng có thể truyênf 1 string rằng như là 1 date

In [40]:
ts

2021-02-03   -0.763171
2021-02-10   -1.325962
2021-02-11    0.475518
2021-02-12    0.132850
2021-02-13    0.516921
2021-02-14   -2.033808
dtype: float64

In [41]:
ts['20210214']

-2.033807929727109

Đối với chuỗi thời gian dài hơn, có thể chuyển qua một năm hoặc chỉ một năm và tháng để dễ dàng chọn các phần dữ liệu:”


In [42]:
long_ts = pd.Series(np.random.randn(1000),
                   index = pd.date_range('1/1/2000'
                                         ,periods=1000))

In [43]:
long_ts

2000-01-01   -0.167198
2000-01-02   -1.144395
2000-01-03    0.552491
2000-01-04   -0.310875
2000-01-05   -1.482907
                ...   
2002-09-22   -0.333813
2002-09-23    0.856409
2002-09-24   -0.422348
2002-09-25    0.477096
2002-09-26   -1.146448
Freq: D, Length: 1000, dtype: float64

In [44]:
long_ts['2001']

2001-01-01   -1.274739
2001-01-02    0.468866
2001-01-03    0.050663
2001-01-04   -0.960879
2001-01-05    0.444505
                ...   
2001-12-27    0.874163
2001-12-28    0.429243
2001-12-29    0.842999
2001-12-30    0.582017
2001-12-31   -0.679765
Freq: D, Length: 365, dtype: float64

In [45]:
long_ts['2001-05']

2001-05-01   -2.002633
2001-05-02    0.671434
2001-05-03    0.001975
2001-05-04   -0.234115
2001-05-05    1.351786
2001-05-06    1.420177
2001-05-07    2.470439
2001-05-08    0.593095
2001-05-09   -0.392199
2001-05-10   -1.177285
2001-05-11    0.158205
2001-05-12    1.197826
2001-05-13    0.827447
2001-05-14    1.448511
2001-05-15   -0.381831
2001-05-16    0.083356
2001-05-17    0.663657
2001-05-18    0.449609
2001-05-19    0.891369
2001-05-20   -0.804730
2001-05-21    0.591128
2001-05-22   -0.538932
2001-05-23    0.831687
2001-05-24    1.290620
2001-05-25    1.662215
2001-05-26   -0.542935
2001-05-27    0.455342
2001-05-28   -1.054438
2001-05-29    0.404219
2001-05-30   -1.968464
2001-05-31    1.274874
Freq: D, dtype: float64

cắt với `datime()` 

In [46]:
ts

2021-02-03   -0.763171
2021-02-10   -1.325962
2021-02-11    0.475518
2021-02-12    0.132850
2021-02-13    0.516921
2021-02-14   -2.033808
dtype: float64

In [47]:
ts[datetime(2021,2,10):]

2021-02-10   -1.325962
2021-02-11    0.475518
2021-02-12    0.132850
2021-02-13    0.516921
2021-02-14   -2.033808
dtype: float64

Bởi vì hầu hết time series là sắp xếp theo thú tựu thời gian bạn có thể cắt với `timestamps` không bao gồm trong 1 time sẻies 

In [48]:
ts

2021-02-03   -0.763171
2021-02-10   -1.325962
2021-02-11    0.475518
2021-02-12    0.132850
2021-02-13    0.516921
2021-02-14   -2.033808
dtype: float64

In [49]:
ts["2021/02/10":"2021/02/13"]

2021-02-10   -1.325962
2021-02-11    0.475518
2021-02-12    0.132850
2021-02-13    0.516921
dtype: float64

Như trước đây, bạn có thể bát các loạ string date, ở dateim hoặc time-stamp. Nhứ rằng cắt trong các mảng này thì k sửa đc nó là k coppy gì hết nhé

Có một phương thức phiên bản tương đương, cắt ngắn, cắt một Chuỗi giữa hai ngày:

In [50]:
ts.truncate(after='2021/02/13')

2021-02-03   -0.763171
2021-02-10   -1.325962
2021-02-11    0.475518
2021-02-12    0.132850
2021-02-13    0.516921
dtype: float64

Tất cả những điêu trên đều được sử dụng DataFrame as well, indexing on ít rows

In [51]:
dates= pd.date_range('1/1/2000',periods=100,freq='W-WED')

In [52]:
long_df = pd.DataFrame(np.random.rand(100,4),
                      index=dates,
                      columns=['Colorado','Texas','New York','Ohio'])

In [53]:
long_df

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-01-05,0.104357,0.454893,0.011995,0.232322
2000-01-12,0.462937,0.513975,0.103864,0.387753
2000-01-19,0.461088,0.541395,0.242536,0.120566
2000-01-26,0.434504,0.426774,0.208996,0.100269
2000-02-02,0.998591,0.500585,0.612540,0.725746
...,...,...,...,...
2001-10-31,0.471495,0.599738,0.761526,0.909492
2001-11-07,0.028292,0.433281,0.756890,0.841535
2001-11-14,0.502766,0.225086,0.006671,0.339941
2001-11-21,0.054511,0.900397,0.588452,0.869740


In [54]:
long_df.loc['2000-04']

Unnamed: 0,Colorado,Texas,New York,Ohio
2000-04-05,0.769607,0.478408,0.79223,0.612063
2000-04-12,0.683669,0.729881,0.069701,0.553798
2000-04-19,0.32693,0.602093,0.504049,0.700228
2000-04-26,0.167922,0.871197,0.781362,0.825226


### Time Series With Duplicate Indices

Trong vài application, there có thể nhiều dữ liệu quan sát sẽ rơi vào 1 thời gian cụ thể. Dưới đây là 1 ví dụ : 


In [55]:
dates= pd.DatetimeIndex(['1/1/2000','1/2/2000','1/2/2000','1/2/2000','1/3/2000'])

In [56]:
dup_ts = pd.Series(np.arange(5),index=dates)

In [57]:
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

Chúng ta có thể nói rằng index không `Unique` bởi check `is_unique` property:

In [58]:
dup_ts.index.is_unique

False

In [59]:
dup_ts['1/2/2000']

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

Giả sử rằng bạn muốn gộp các dẽ liêu không **non-unique** timestamps. Một cách để làm điều đó sử dung `groupby` và truyền level = 0

In [60]:
grouped = dup_ts.groupby(level=0)

In [61]:
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int64

In [62]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

## 11.3 Data Ranges, Frequencies, and Shifting 

Nhìn chung **time series** in pandas là được cho là không đầu,chúng có không có tần số cố định. rất nhiều ứng dụng thì điều này là đủ, Tuy nhiên nó thườn, bạn đáng ra làm việc liên quan đến tần số cố định, ví dụ như ngày, tháy, và mỗi 15 phút.  Ngay khả khi nó giới thiệu misisng values vào trong time series.Thật may mắn, pandas đã có full tần số tiêu chuẩn củatần số time sẻiess, và các công cụ để `resampling`, tạo ra tần số cố định. Ví dụ , bạn có thể `samp` có thể chuyển ví dụ time series to fixed daily tần số by calling `resample()`

In [63]:

ts

2021-02-03   -0.763171
2021-02-10   -1.325962
2021-02-11    0.475518
2021-02-12    0.132850
2021-02-13    0.516921
2021-02-14   -2.033808
dtype: float64

In [64]:
resampler = ts.resample('D')

In [65]:
resampler

<pandas.core.resample.DatetimeIndexResampler object at 0x7fe9bbcc7e80>

#### Generating Date Ranges 

Trong khi tôi sử dụng nó trước đây và không giải thích cho generating a **DatetimeIndex** với độ dài chỉ định tần suất cụ thểm

In [66]:
index = pd.date_range('2012-04-01','2012-06-01')

In [67]:
index

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

Bởi mặc định, `date_range()` tạo ra chung daily timestamps. Nếu bạn có thể truyền một start hoặc end date, Ví dụ, nếu bạn muốn 1 ngày index mà ngày làm việc cuối tháng cho mỗi tháng. bạn có thể pass `BM` frtần số.

In [68]:
pd.date_range('2000-01-01','2000-12-01',freq='BM')

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

In [69]:
alias_data = ['D'
              ,'B'
              ,'H'
              ,'T or min'
              ,'S'
              ,'L or ms'
              ,'U'
              ,'M'
              ,'BM'
              ,'MS'
              ,'BMS'
              ,'W-MON, W-TUE'
             , 'WOM-1MON WOM-2MON'
              , 'Q-JAN, Q-FEB'
             , 'BQ-JAN, BQ-FEB']

In [70]:
offset_type_data = [
    'Day'
    ,'Bussiness Day'
    ,'Hour'
    ,'Minute'
    , 'Second'
    ,'Milli'
    ,'Micro'
    ,'MonthEnd'
    ,'BusinessMonthEnd'
    ,'MonthBegin'
    ,'BussinessMonth Begin'
    ,'Week'
    ,'WeekOfMonth'
    ,'QuarterEnd'
    ,'Bussies End'
]

In [71]:
dict_data = {
    'Alias': alias_data,
    'Offset type': offset_type_data
}
base_time_series_frequencies = pd.DataFrame(data= dict_data,)

In [72]:
base_time_series_frequencies

Unnamed: 0,Alias,Offset type
0,D,Day
1,B,Bussiness Day
2,H,Hour
3,T or min,Minute
4,S,Second
5,L or ms,Milli
6,U,Micro
7,M,MonthEnd
8,BM,BusinessMonthEnd
9,MS,MonthBegin


`date_range` mặc định giữ nguyên thời gian (nếu có) của dấu thời gian bắt đầu hoặc kết thúc"


In [73]:
pd.date_range('2012-05-02 12:56:31',periods =5)

DatetimeIndex(['2012-05-02 12:56:31', '2012-05-03 12:56:31',
               '2012-05-04 12:56:31', '2012-05-05 12:56:31',
               '2012-05-06 12:56:31'],
              dtype='datetime64[ns]', freq='D')

Thỉnh thoảng bạn sẽ có bắt đầu hoặc kết thuốc dates với thông tin về thời gian nhưng muốn tạo ra 1 set của `timesptams normalized` . Nghĩa là bỏ mẹ hết giờ đi 

In [74]:
pd.date_range('2012-05-12 12:56:31',periods=5,normalize=True)

DatetimeIndex(['2012-05-12', '2012-05-13', '2012-05-14', '2012-05-15',
               '2012-05-16'],
              dtype='datetime64[ns]', freq='D')

### Frequencies and Date Offsets

Tần số trong pandas là tần số cơ bản và tần số hệ nhân. `Base Frequencies` là một loại sẽ chiếu đến bơi to string là 'M' là tháng, Mỗi tần số cơ bản, nó có 1 định nghĩa đối tượng thường được gọi là `date offset`. Ví dụ. tần số giờ có thể đại diện với ` Hour class: `

In [75]:
from pandas.tseries.offsets import Hour,Minute
hour = Hour()

In [76]:
hour

<Hour>

bạn có thể định nghĩa off set bởi passing int

In [77]:
four_hours = Hour(4)

In [78]:
four_hours


<4 * Hours>

Hầu hết ứng giọng, bạn có thể không bao giờ cần phải sủ dụng đối tượng này, bạn sẽ sử dụng bí ddanh như 
**H or 4H**

In [79]:
pd.date_range('2000-01-01','2000-01-03 23:59',freq='4h')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

rất nhiều ofsers có thể kết hợp với nhau bởi + vào:

In [80]:
Hour(2) + Minute(30)

<150 * Minutes>

Đơn giản, bạn có thể truyền tần số stirng như '1h30 min', rằng nó sẽ hiệu ứng để đổ giống như cú pháp thành một biểu thức 



In [81]:
pd.date_range('2000-01-01',periods=10,freq='1h30min')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 01:30:00',
               '2000-01-01 03:00:00', '2000-01-01 04:30:00',
               '2000-01-01 06:00:00', '2000-01-01 07:30:00',
               '2000-01-01 09:00:00', '2000-01-01 10:30:00',
               '2000-01-01 12:00:00', '2000-01-01 13:30:00'],
              dtype='datetime64[ns]', freq='90T')

#### Shifting (Leading and Lagging) Data

**Shifting** refers to dịch chuyển dữ liệu backword và forwwad xuyên thời gian. Cả Seris và DataFrame có 1 `shift()` để là điều này. index k bị sửa chữa

In [82]:
ts = pd.Series(np.random.rand(4),
              index=pd.date_range('1/1/2000',periods=4,freq='M'))

In [83]:
ts

2000-01-31    0.459848
2000-02-29    0.563870
2000-03-31    0.123864
2000-04-30    0.863610
Freq: M, dtype: float64

In [84]:
ts.shift(2)

2000-01-31         NaN
2000-02-29         NaN
2000-03-31    0.459848
2000-04-30    0.563870
Freq: M, dtype: float64

In [85]:
ts.shift(3)

2000-01-31         NaN
2000-02-29         NaN
2000-03-31         NaN
2000-04-30    0.459848
Freq: M, dtype: float64

In [86]:
ts.shift(-1)

2000-01-31    0.563870
2000-02-29    0.123864
2000-03-31    0.863610
2000-04-30         NaN
Freq: M, dtype: float64

In [87]:
ts

2000-01-31    0.459848
2000-02-29    0.563870
2000-03-31    0.123864
2000-04-30    0.863610
Freq: M, dtype: float64

Khi chúng ta thay đổi như vậy, dữ liệu bị thiếu sẽ được đưa vào ở đầu hoặc cuối của chuỗi thời gian.

In [88]:
ts.shift(1) - 1

2000-01-31         NaN
2000-02-29   -0.540152
2000-03-31   -0.436130
2000-04-30   -0.876136
Freq: M, dtype: float64

In [89]:
ts

2000-01-31    0.459848
2000-02-29    0.563870
2000-03-31    0.123864
2000-04-30    0.863610
Freq: M, dtype: float64

In [90]:
ts.shift(1)

2000-01-31         NaN
2000-02-29    0.459848
2000-03-31    0.563870
2000-04-30    0.123864
Freq: M, dtype: float64

In [91]:
ts/ts.shift(1)-1

2000-01-31         NaN
2000-02-29    0.226210
2000-03-31   -0.780333
2000-04-30    5.972250
Freq: M, dtype: float64

Bởi vì sự thay đổi ngây thơ khiến chỉ mục không được sửa đổi, một số dữ liệu bị loại bỏ. Vì vậy, nếu tần suất được biết, nó có thể được chuyển sang chuyển đổi để nâng cao dấu thời gian thay vì chỉ đơn giản là dữ liệu: "

Có nghĩa là chúng ta có thể dịch truyển index 


In [92]:
ts.shift(2,freq='M')

2000-03-31    0.459848
2000-04-30    0.563870
2000-05-31    0.123864
2000-06-30    0.863610
Freq: M, dtype: float64

In [93]:
ts.shift(2,freq='M')

2000-03-31    0.459848
2000-04-30    0.563870
2000-05-31    0.123864
2000-06-30    0.863610
Freq: M, dtype: float64

In [94]:
ts.shift(2,freq='M')

2000-03-31    0.459848
2000-04-30    0.563870
2000-05-31    0.123864
2000-06-30    0.863610
Freq: M, dtype: float64

In [95]:
ts.shift(2,freq='M')

2000-03-31    0.459848
2000-04-30    0.563870
2000-05-31    0.123864
2000-06-30    0.863610
Freq: M, dtype: float64

In [96]:
ts

2000-01-31    0.459848
2000-02-29    0.563870
2000-03-31    0.123864
2000-04-30    0.863610
Freq: M, dtype: float64

Một tần số có thể truyền, tô nó sẽ đưa cho bạn flexibi trong xử lý đầu hoặc cuối dữ liệu

In [97]:
ts.shift(3,freq='D')

2000-02-03    0.459848
2000-03-03    0.563870
2000-04-03    0.123864
2000-05-03    0.863610
dtype: float64

##### Shifting dates with offsets

Pandas date offsets có thể sử dụng với datetime hoặc Timestamp object:

In [98]:
from pandas.tseries.offsets import Day, MonthEnd
new = datetime(2011,11,17)

In [99]:
now + 3 * Day()

Timestamp('2021-06-04 16:51:51.143079')

In [100]:
now + MonthEnd(2)

Timestamp('2021-07-31 16:51:51.143079')

“Cách sử dụng hiệu quả ngày tháng một cách sáng tạo là sử dụng các phương pháp này với phân nhóm:”


In [101]:
ts = pd.Series(np.random.randn(20),
              index=pd.date_range('1/15/2000',
                                 periods=20,freq='4d'))

In [102]:
ts

2000-01-15   -0.605070
2000-01-19    1.379453
2000-01-23   -0.590555
2000-01-27   -0.664015
2000-01-31   -2.186095
2000-02-04    0.721511
2000-02-08   -1.861466
2000-02-12   -1.198606
2000-02-16    1.841349
2000-02-20   -0.078716
2000-02-24   -0.799354
2000-02-28   -0.359277
2000-03-03   -0.410175
2000-03-07    0.037562
2000-03-11    0.982529
2000-03-15   -0.220186
2000-03-19    0.661673
2000-03-23   -0.314190
2000-03-27    0.840688
2000-03-31   -0.482272
Freq: 4D, dtype: float64

In [103]:
offset = MonthEnd()

In [104]:
ts.groupby(offset.rollforward).mean()

2000-01-31   -0.533256
2000-02-29   -0.247794
2000-03-31    0.136954
dtype: float64

1 cáh dễ nhất và nhanh hơn sử dụng `resample()`

In [105]:
ts.resample('M').mean()

2000-01-31   -0.533256
2000-02-29   -0.247794
2000-03-31    0.136954
Freq: M, dtype: float64

### 11.4 Time Zone Handling

Làm việc với time zones, nhìn chung một vấn đề khó khăn với dev xử lý việc này

In [106]:
import pytz

In [107]:
pytz.common_timezones[-5:]

['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC']

In [108]:
tz = pytz.timezone('Asia/Ho_Chi_Minh')

In [109]:
tz

<DstTzInfo 'Asia/Ho_Chi_Minh' LMT+7:07:00 STD>

### Time Zone Localiztion and Conversion

Bởi mặc định, time seris in `pandas` là time .

In [110]:
rng = pd.date_range('3/9/2012 9:30'
                    ,periods=6
                    ,freq='D')

In [111]:
ts = pd.Series(np.random.randn(len(rng))
                               ,index=rng)

In [112]:
ts

2012-03-09 09:30:00    1.778559
2012-03-10 09:30:00   -0.403530
2012-03-11 09:30:00   -0.392140
2012-03-12 09:30:00   -0.131315
2012-03-13 09:30:00    0.136329
2012-03-14 09:30:00    0.145110
Freq: D, dtype: float64

In [113]:
print(ts.index.tz)

None


date ranges có thể tạo với time zone set: 
    

In [114]:
pd.date_range('3/9/2012 9:30',periods=10,freq='D',tz='UTC')

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00', '2012-03-16 09:30:00+00:00',
               '2012-03-17 09:30:00+00:00', '2012-03-18 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

In [115]:
ts

2012-03-09 09:30:00    1.778559
2012-03-10 09:30:00   -0.403530
2012-03-11 09:30:00   -0.392140
2012-03-12 09:30:00   -0.131315
2012-03-13 09:30:00    0.136329
2012-03-14 09:30:00    0.145110
Freq: D, dtype: float64

Convert from native to `localized` là xử lý bở `tz_localize()`

In [116]:
ts

2012-03-09 09:30:00    1.778559
2012-03-10 09:30:00   -0.403530
2012-03-11 09:30:00   -0.392140
2012-03-12 09:30:00   -0.131315
2012-03-13 09:30:00    0.136329
2012-03-14 09:30:00    0.145110
Freq: D, dtype: float64

In [117]:
ts_utc = ts.tz_localize('UTC')

In [118]:
ts_utc.index.timetz

array([datetime.time(9, 30, tzinfo=<UTC>),
       datetime.time(9, 30, tzinfo=<UTC>),
       datetime.time(9, 30, tzinfo=<UTC>),
       datetime.time(9, 30, tzinfo=<UTC>),
       datetime.time(9, 30, tzinfo=<UTC>),
       datetime.time(9, 30, tzinfo=<UTC>)], dtype=object)

In [119]:
ts_utc.index.tz

<UTC>

Mình có thể chuyển hoá cái time zone từ mình sang các time zone khác bởi sử dụng `tz_convert()`

In [120]:
ts_utc.tz_convert('America/New_York')

2012-03-09 04:30:00-05:00    1.778559
2012-03-10 04:30:00-05:00   -0.403530
2012-03-11 05:30:00-04:00   -0.392140
2012-03-12 05:30:00-04:00   -0.131315
2012-03-13 05:30:00-04:00    0.136329
2012-03-14 05:30:00-04:00    0.145110
Freq: D, dtype: float64

In [121]:
ts

2012-03-09 09:30:00    1.778559
2012-03-10 09:30:00   -0.403530
2012-03-11 09:30:00   -0.392140
2012-03-12 09:30:00   -0.131315
2012-03-13 09:30:00    0.136329
2012-03-14 09:30:00    0.145110
Freq: D, dtype: float64

Trong trường hợp các thời gian trước của thời gian straddels a DST transition trong **Americal/New_York** time zone, chúng ta có thể `localize to EST` bởi converr to

In [122]:
ts_eastern = ts.tz_localize('America/New_York')

In [123]:
ts_eastern

2012-03-09 09:30:00-05:00    1.778559
2012-03-10 09:30:00-05:00   -0.403530
2012-03-11 09:30:00-04:00   -0.392140
2012-03-12 09:30:00-04:00   -0.131315
2012-03-13 09:30:00-04:00    0.136329
2012-03-14 09:30:00-04:00    0.145110
dtype: float64

In [124]:
ts_eastern.tz_convert('UTC')

2012-03-09 14:30:00+00:00    1.778559
2012-03-10 14:30:00+00:00   -0.403530
2012-03-11 13:30:00+00:00   -0.392140
2012-03-12 13:30:00+00:00   -0.131315
2012-03-13 13:30:00+00:00    0.136329
2012-03-14 13:30:00+00:00    0.145110
dtype: float64

In [125]:
ts_eastern.tz_convert('Europe/Berlin')

2012-03-09 15:30:00+01:00    1.778559
2012-03-10 15:30:00+01:00   -0.403530
2012-03-11 14:30:00+01:00   -0.392140
2012-03-12 14:30:00+01:00   -0.131315
2012-03-13 14:30:00+01:00    0.136329
2012-03-14 14:30:00+01:00    0.145110
dtype: float64

`tz_localize` và `tz_convert` cũng là 1 instance của method `DatetimeIndex()`

In [126]:
ts.index.tz_localize('Asia/Ho_Chi_Minh')

DatetimeIndex(['2012-03-09 09:30:00+07:00', '2012-03-10 09:30:00+07:00',
               '2012-03-11 09:30:00+07:00', '2012-03-12 09:30:00+07:00',
               '2012-03-13 09:30:00+07:00', '2012-03-14 09:30:00+07:00'],
              dtype='datetime64[ns, Asia/Ho_Chi_Minh]', freq=None)

#### Operations with Time Zone-Aware Timestamp Objects

Giống với time series và date ranges, **Timestamp** đơn giản chuyển từ *naive to time  tới localized* và convert chúng to from one tỉm zone to another: 

In [127]:
stamp = pd.Timestamp('2011-03-12 04:00')
stamp

Timestamp('2011-03-12 04:00:00')

In [128]:
stamp_utc = stamp.tz_localize('utc')

In [129]:
stamp_utc


Timestamp('2011-03-12 04:00:00+0000', tz='UTC')

In [130]:
stamp_utc.tz_convert('America/New_York')

Timestamp('2011-03-11 23:00:00-0500', tz='America/New_York')

Bạn có thể truyển a **time zone** khi tạo tạo the *Timestamp*:

In [131]:
stamp_moscow = pd.Timestamp('2011-03-12 04:00'
                           ,tz='Europe/Moscow')

In [132]:
stamp_moscow

Timestamp('2011-03-12 04:00:00+0300', tz='Europe/Moscow')

có giá trị value để từ UTC **January 1,1970**

In [133]:
stamp_utc.value

1299902400000000000

In [134]:
stamp_utc.tz_convert('America/New_York').value

1299902400000000000

Chỗ này là 30p trong ánh sáng ntn ý mình k hiểu chỗ này luôn

In [135]:
from pandas.tseries.offsets import Hour
stamp = pd.Timestamp('2012-03-12 01:30',tz='Us/Eastern')

In [136]:
stamp

Timestamp('2012-03-12 01:30:00-0400', tz='US/Eastern')

In [137]:
stamp+ 2*Hour()

Timestamp('2012-03-12 03:30:00-0400', tz='US/Eastern')

### Operations Between Different Time Zones

Nếu có 2 time series với different time zones muốn combine, kết quả sẽ là UTC, vì timestamp vì timestamps đã stored ở dưới UTC,

In [138]:
rng = pd.date_range('3/7/2012 9:30',periods=10,freq='B')

In [139]:
rng

DatetimeIndex(['2012-03-07 09:30:00', '2012-03-08 09:30:00',
               '2012-03-09 09:30:00', '2012-03-12 09:30:00',
               '2012-03-13 09:30:00', '2012-03-14 09:30:00',
               '2012-03-15 09:30:00', '2012-03-16 09:30:00',
               '2012-03-19 09:30:00', '2012-03-20 09:30:00'],
              dtype='datetime64[ns]', freq='B')

In [140]:
ts = pd.Series(np.random.randn(len(rng)),index=rng)

In [141]:
ts

2012-03-07 09:30:00   -1.580537
2012-03-08 09:30:00   -0.026064
2012-03-09 09:30:00   -1.124713
2012-03-12 09:30:00   -0.529984
2012-03-13 09:30:00   -1.466401
2012-03-14 09:30:00   -0.123525
2012-03-15 09:30:00   -0.868984
2012-03-16 09:30:00   -0.889422
2012-03-19 09:30:00    1.314851
2012-03-20 09:30:00    1.396481
Freq: B, dtype: float64


Chuyển time sang *Europe Londo 0->7*

In [142]:
ts1 = ts[:7].tz_localize('Europe/London')

In [143]:
ts2 = ts[2:].tz_localize('Europe/Moscow')

In [144]:
result = ts1 + ts2 

In [145]:
result.index

DatetimeIndex(['2012-03-07 09:30:00+00:00', '2012-03-08 09:30:00+00:00',
               '2012-03-09 05:30:00+00:00', '2012-03-09 09:30:00+00:00',
               '2012-03-12 05:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 05:30:00+00:00', '2012-03-13 09:30:00+00:00',
               '2012-03-14 05:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 05:30:00+00:00', '2012-03-15 09:30:00+00:00',
               '2012-03-16 05:30:00+00:00', '2012-03-19 05:30:00+00:00',
               '2012-03-20 05:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq=None)

### 11.5 Periods and Period Arithmetic 
Thời kỳ đại diện timesspans, như ngày, tháng , 1/4 hoặc year. The Period classđạy diện kiểu dữ liệu , yêu cầu 1 srting hoặc int 

In [146]:
p = pd.Period(2007,freq='A-DEC')

In [147]:
p

Period('2007', 'A-DEC')

Trong tường hợp, the Period object đại diện full timess từ *Januray,1,2007 -> December 31,2007*

In [148]:
p+5

Period('2012', 'A-DEC')

In [149]:
p-2

Period('2005', 'A-DEC')

Nếu two periods có cùng tần số, number of units betwwen them:

In [150]:
pd.Period('2014',freq='A-DEC') - p

<7 * YearEnds: month=12>

Regular ranges của periods có thể constructed with `period_range` fnc: 

In [151]:
rng = pd.period_range('2000-01-01','2000-06-30',freq='M')

In [152]:
rng

PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04', '2000-05', '2000-06'], dtype='period[M]', freq='M')

In [153]:
pd.Series(np.random.randn(6),index=rng)

2000-01   -0.091902
2000-02   -0.760514
2000-03   -0.797456
2000-04   -0.028333
2000-05   -0.910112
2000-06    0.037410
Freq: M, dtype: float64

#### Period Frequency Conversion 
Periods and PeriodIndex object có thể chuyển tới tần suất khác với `asfreq()` method. Như một ví dụ, giả sử chúng ta có annual period và muốn chuyển nó vaof thasng  và bắt đầu startt hoặc end ở year

In [154]:
p = pd.Period('2007',freq='A-DEC')

In [155]:
p

Period('2007', 'A-DEC')

In [156]:
p.asfreq('M',how='start')

Period('2007-01', 'M')

In [157]:
p.asfreq('M',how='end')

Period('2007-12', 'M')

Bạn có thể nghĩ Period('2007','A-DEC') như 1 con trỏ và chia theo các tháng,Đối một một tài chính nó kết thúc trên 1 tháng khác tháng 12,

In [158]:
p = pd.Period('2007',freq='A-JUN')

In [159]:
p

Period('2007', 'A-JUN')

In [160]:
p.asfreq('M','start')

Period('2006-07', 'M')

In [161]:
p.asfreq('M','end')

Period('2007-06', 'M')

Khi bạn chuyển từ tần số cao tới tần số thấp, pandas sẽ xác dịnh superperiod , nghĩa là thằng nào to thì chuyển thì sẽ lấy ví dụ (mình đọc cũng k hiểu đoạn này huhu ^^)

In [162]:
p = pd.Period('Aug-2007','M')

In [163]:
p

Period('2007-08', 'M')

In [164]:
p.asfreq('A-JUN')

Period('2008', 'A-JUN')

In [165]:
rng =  pd.period_range('2006','2009',freq='A-DEC')

In [166]:
ts= pd.Series(np.random.randn(len(rng)),index=rng)

In [167]:
ts

2006   -1.391122
2007    0.768859
2008    0.329940
2009   -0.750720
Freq: A-DEC, dtype: float64

In [168]:
ts.asfreq('M',how='S')

2006-01   -1.391122
2007-01    0.768859
2008-01    0.329940
2009-01   -0.750720
Freq: M, dtype: float64

'B' để làm cho cái frequent tính toán cuối năm cho bussiines

In [169]:
ts.asfreq('B',how='end')

2006-12-29   -1.391122
2007-12-31    0.768859
2008-12-31    0.329940
2009-12-31   -0.750720
Freq: B, dtype: float64

#### Các quý trong Period Frequencies

Quarterly data là tiêu chuẩn trong kế toán tài chính và lĩnh vực khác 

In [170]:
p = pd.Period('2012Q4',freq='Q-JAN')

In [171]:
p

Period('2012Q4', 'Q-JAN')

Có thể các loại quý khác nhau convention

In [172]:
p.asfreq('D','start')

Period('2011-11-01', 'D')

In [173]:
p.asfreq('D','end')

Period('2012-01-31', 'D')

In [174]:
p

Period('2012Q4', 'Q-JAN')

Do đó để thực hiện phép thính chu kỳ dễ dàng,
ví dụ để lấy thời gian là 4 giờ chiều trong 1 ngày làm vuệc của quý, bạn có thể làm như sau:

In [175]:
p4pm = (p.asfreq('B','e')-1).asfreq('T','s') + 16*60

In [176]:
p4pm

Period('2012-01-30 16:00', 'T')

In [177]:
base_time_series_frequencies

Unnamed: 0,Alias,Offset type
0,D,Day
1,B,Bussiness Day
2,H,Hour
3,T or min,Minute
4,S,Second
5,L or ms,Milli
6,U,Micro
7,M,MonthEnd
8,BM,BusinessMonthEnd
9,MS,MonthBegin


Bạn có thể tạo ra phạm vi quý sử dụng `period_range`. 

In [178]:
rng = pd.period_range('2011Q3','2012Q4',freq='Q-JAN')

In [179]:
rng

PeriodIndex(['2011Q3', '2011Q4', '2012Q1', '2012Q2', '2012Q3', '2012Q4'], dtype='period[Q-JAN]', freq='Q-JAN')

In [180]:
ts=  pd.Series(np.arange(len(rng)),index=rng)

In [181]:
ts

2011Q3    0
2011Q4    1
2012Q1    2
2012Q2    3
2012Q3    4
2012Q4    5
Freq: Q-JAN, dtype: int64

In [182]:
new_rng = (rng.asfreq('B','e') - 1).asfreq('T','s') + 16*60

In [183]:
ts.index = new_rng.to_timestamp()

In [184]:
ts

2010-10-28 16:00:00    0
2011-01-28 16:00:00    1
2011-04-28 16:00:00    2
2011-07-28 16:00:00    3
2011-10-28 16:00:00    4
2012-01-30 16:00:00    5
dtype: int64

### Converting Timestamps to Periods (and Back)

Serires và DâtFrame object indexed là  timestamps có thể chuyển sang periods với method `to_period()`

In [185]:
rng = pd.date_range('2000-01-01',periods=3,freq='M')

In [186]:
rng

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31'], dtype='datetime64[ns]', freq='M')

In [187]:
ts = pd.Series(np.random.randn(3),index=rng)

In [188]:
ts

2000-01-31   -0.317414
2000-02-29    0.597469
2000-03-31    0.021167
Freq: M, dtype: float64

In [189]:
pts = ts.to_period()

In [190]:
pts

2000-01   -0.317414
2000-02    0.597469
2000-03    0.021167
Freq: M, dtype: float64

Vì các khoảng thời gian đề cập đến các khoảng thời gian không trùng lặp, dấu thời gian chỉ có thể thuộc về một khoảng thời gian duy nhất cho một tần suất nhất định. Mặc dù tần suất của PeriodIndex mới được suy ra từ dấu thời gian theo mặc định, bạn có thể chỉ định bất kỳ tần suất nào bạn muốn. Cũng không có vấn đề gì với việc có các khoảng thời gian trùng lặp trong kết quả

In [191]:
rng = pd.date_range('1/29/2000',periods=6,freq='D')

In [192]:
base_time_series_frequencies

Unnamed: 0,Alias,Offset type
0,D,Day
1,B,Bussiness Day
2,H,Hour
3,T or min,Minute
4,S,Second
5,L or ms,Milli
6,U,Micro
7,M,MonthEnd
8,BM,BusinessMonthEnd
9,MS,MonthBegin


In [193]:
rng

DatetimeIndex(['2000-01-29', '2000-01-30', '2000-01-31', '2000-02-01',
               '2000-02-02', '2000-02-03'],
              dtype='datetime64[ns]', freq='D')

Vì các khoảng thời gian đề cập đến các khoảng thời gian không trùng lặp, dấu thời gian chỉ có thể thuộc về một khoảng thời gian duy nhất cho một tần suất nhất định. Mặc dù tần suất của PeriodIndex mới được suy ra từ dấu thời gian theo mặc định, bạn có thể chỉ định bất kỳ tần suất nào bạn muốn. Cũng không có vấn đề gì với việc có các khoảng thời gian trùng lặp trong kết quả: ”


In [194]:
ts2 = pd.Series(np.random.randn(6),index=rng)

In [195]:
ts2

2000-01-29    0.246967
2000-01-30    0.504561
2000-01-31    1.086541
2000-02-01   -1.945216
2000-02-02   -0.438990
2000-02-03    1.028766
Freq: D, dtype: float64

In [196]:
ts2.to_period('M')

2000-01    0.246967
2000-01    0.504561
2000-01    1.086541
2000-02   -1.945216
2000-02   -0.438990
2000-02    1.028766
Freq: M, dtype: float64

Convert back to timestamps sử dụng `to_timestamp()`

In [197]:

pts = ts2.to_period()

In [198]:
pts

2000-01-29    0.246967
2000-01-30    0.504561
2000-01-31    1.086541
2000-02-01   -1.945216
2000-02-02   -0.438990
2000-02-03    1.028766
Freq: D, dtype: float64

In [199]:
pts.to_timestamp()

2000-01-29    0.246967
2000-01-30    0.504561
2000-01-31    1.086541
2000-02-01   -1.945216
2000-02-02   -0.438990
2000-02-03    1.028766
Freq: D, dtype: float64

### Create a PrediodIndex from Arrays

Bộ dữ liệu tần suất cố định đôi khi được lưu trữ với thông tin về khoảng thời gian trải rộng trên nhiều cột. Ví dụ, trong tập dữ liệu kinh tế vĩ mô này, năm và quý nằm trong các cột khác nhau

In [200]:
data = pd.read_csv("./examples/macrodata.csv")

In [202]:
data.head(5)

Unnamed: 0,year,quarter,realgdp,realcons,realinv,realgovt,realdpi,cpi,m1,tbilrate,unemp,pop,infl,realint
0,1959.0,1.0,2710.349,1707.4,286.898,470.045,1886.9,28.98,139.7,2.82,5.8,177.146,0.0,0.0
1,1959.0,2.0,2778.801,1733.7,310.859,481.301,1919.7,29.15,141.7,3.08,5.1,177.83,2.34,0.74
2,1959.0,3.0,2775.488,1751.8,289.226,491.26,1916.4,29.35,140.5,3.82,5.3,178.657,2.74,1.09
3,1959.0,4.0,2785.204,1753.7,299.356,484.052,1931.3,29.37,140.0,4.33,5.6,179.386,0.27,4.06
4,1960.0,1.0,2847.699,1770.5,331.722,462.199,1955.5,29.54,139.6,3.5,5.2,180.007,2.31,1.19


Giờ chúng ta sẽ chia nó thành các quý 

In [203]:
data.year

0      1959.0
1      1959.0
2      1959.0
3      1959.0
4      1960.0
        ...  
198    2008.0
199    2008.0
200    2009.0
201    2009.0
202    2009.0
Name: year, Length: 203, dtype: float64

In [204]:
data.quarter

0      1.0
1      2.0
2      3.0
3      4.0
4      1.0
      ... 
198    3.0
199    4.0
200    1.0
201    2.0
202    3.0
Name: quarter, Length: 203, dtype: float64

passsing theses arrays to PeriodIndex với tuần suất, bạn cso thể kết hợp chúng từ index cho DataFrame: 

In [206]:
index = pd.PeriodIndex(year=data.year,quarter= data.quarter,
                      freq='Q-DEC')


In [207]:
index

PeriodIndex(['1959Q1', '1959Q2', '1959Q3', '1959Q4', '1960Q1', '1960Q2',
             '1960Q3', '1960Q4', '1961Q1', '1961Q2',
             ...
             '2007Q2', '2007Q3', '2007Q4', '2008Q1', '2008Q2', '2008Q3',
             '2008Q4', '2009Q1', '2009Q2', '2009Q3'],
            dtype='period[Q-DEC]', length=203, freq='Q-DEC')

In [208]:
data.index = index

In [209]:
data

Unnamed: 0,year,quarter,realgdp,realcons,realinv,realgovt,realdpi,cpi,m1,tbilrate,unemp,pop,infl,realint
1959Q1,1959.0,1.0,2710.349,1707.4,286.898,470.045,1886.9,28.980,139.7,2.82,5.8,177.146,0.00,0.00
1959Q2,1959.0,2.0,2778.801,1733.7,310.859,481.301,1919.7,29.150,141.7,3.08,5.1,177.830,2.34,0.74
1959Q3,1959.0,3.0,2775.488,1751.8,289.226,491.260,1916.4,29.350,140.5,3.82,5.3,178.657,2.74,1.09
1959Q4,1959.0,4.0,2785.204,1753.7,299.356,484.052,1931.3,29.370,140.0,4.33,5.6,179.386,0.27,4.06
1960Q1,1960.0,1.0,2847.699,1770.5,331.722,462.199,1955.5,29.540,139.6,3.50,5.2,180.007,2.31,1.19
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2008Q3,2008.0,3.0,13324.600,9267.7,1990.693,991.551,9838.3,216.889,1474.7,1.17,6.0,305.270,-3.16,4.33
2008Q4,2008.0,4.0,13141.920,9195.3,1857.661,1007.273,9920.4,212.174,1576.5,0.12,6.9,305.952,-8.79,8.91
2009Q1,2009.0,1.0,12925.410,9209.2,1558.494,996.287,9926.4,212.671,1592.8,0.22,8.1,306.547,0.94,-0.71
2009Q2,2009.0,2.0,12901.504,9189.0,1456.678,1023.528,10077.5,214.469,1653.6,0.18,9.2,307.226,3.37,-3.19


In [None]:
data.drop(["year","quarter"],)