In [11]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('data/plaza.csv')

In [3]:
df.head()

Unnamed: 0,time,dest,dir,len,etd
0,1417109000.0,Fremont,South,6,3
1,1417109000.0,Richmond,North,6,10
2,1417109000.0,Fremont,South,6,2
3,1417109000.0,Richmond,North,6,9
4,1417109000.0,Fremont,South,6,Leaving


## 타임에 대한 문자열 처리

     타입만 파싱처리하면 실제 주어진 대로만 출력

In [20]:
df0 = pd.read_csv('data/plaza.csv', parse_dates=['time'])

In [22]:
df0.head()

Unnamed: 0,time,dest,dir,len,etd
0,1417108837.85,Fremont,South,6,3
1,1417108837.85,Richmond,North,6,10
2,1417108921.12,Fremont,South,6,2
3,1417108921.12,Richmond,North,6,9
4,1417108981.46,Fremont,South,6,Leaving


## 타임에 대해 특정한 형태로 변형하려면 그 기준점을 부여해서 처리

     기본적인 데이터프레임처리는 새로운 결과를 처리하고 내부의 값은 변경하지 않는다.
     

### 문자열을 타임스템프로 전환하기

In [24]:
s = pd.to_datetime(float('1417108837.85'),unit='s')

In [25]:
s

Timestamp('2014-11-27 17:20:37.850000')

### 타임존을 표시하기

In [36]:
help(pd.DataFrame.tz_localize)

Help on function tz_localize in module pandas.core.generic:

tz_localize(self, tz, axis=0, level=None, copy=True, ambiguous='raise')
    Localize tz-naive TimeSeries to target time zone.
    
    Parameters
    ----------
    tz : string or pytz.timezone object
    axis : the axis to localize
    level : int, str, default None
        If axis ia a MultiIndex, localize a specific level. Otherwise
        must be None
    copy : boolean, default True
        Also make a copy of the underlying data
    ambiguous : 'infer', bool-ndarray, 'NaT', default 'raise'
        - 'infer' will attempt to infer fall dst-transition hours based on
          order
        - bool-ndarray where True signifies a DST time, False designates
          a non-DST time (note that this flag is only applicable for
          ambiguous times)
        - 'NaT' will return NaT where there are ambiguous times
        - 'raise' will raise an AmbiguousTimeError if there are ambiguous
          times
    infer_dst : boolean

In [31]:
s1 = s.tz_localize('UTC')

In [32]:
s1

Timestamp('2014-11-27 17:20:37.850000+0000', tz='UTC')

### 타임존을 변환하기

In [37]:
help(pd.DataFrame.tz_convert)

Help on function tz_convert in module pandas.core.generic:

tz_convert(self, tz, axis=0, level=None, copy=True)
    Convert tz-aware axis to target time zone.
    
    Parameters
    ----------
    tz : string or pytz.timezone object
    axis : the axis to convert
    level : int, str, default None
        If axis ia a MultiIndex, convert a specific level. Otherwise
        must be None
    copy : boolean, default True
        Also make a copy of the underlying data
    
    Returns
    -------
    
    Raises
    ------
    TypeError
        If the axis is tz-naive.



In [34]:
s2 = s1.tz_convert('US/Pacific')

In [35]:
s2

Timestamp('2014-11-27 09:20:37.850000-0800', tz='US/Pacific')

### 타임에 대한 처리를 하기 위해 실제 타입을 변경할 함수를 제공하기

In [14]:
def parse_time(timestamp):
    try:
        dt = pd.to_datetime(float(timestamp), unit='s')
        return dt.tz_localize('UTC').tz_convert('US/Pacific')
    except AttributeError:
        return pd.NaT
    except ValueError:
        return pd.NaT

## 파일을 읽고 처리할 때 내부적인 것을 처리하면 새로운 데이터 프레임에 변환을 한다

In [15]:
df1 = pd.read_csv('data/plaza.csv', parse_dates=['time'], date_parser=parse_time)

In [16]:
df1.head()

Unnamed: 0,time,dest,dir,len,etd
0,2014-11-27 09:20:37.850000-08:00,Fremont,South,6,3
1,2014-11-27 09:20:37.850000-08:00,Richmond,North,6,10
2,2014-11-27 09:22:01.120000-08:00,Fremont,South,6,2
3,2014-11-27 09:22:01.120000-08:00,Richmond,North,6,9
4,2014-11-27 09:23:01.460000-08:00,Fremont,South,6,Leaving


In [18]:
df1['etd'].head()

0          3
1         10
2          2
3          9
4    Leaving
Name: etd, dtype: object

## 문자열 값을 숫자 값으로 대체해서 실제 자료형을 변경

    인덱싱으로 갱신하면 내부의 각 원소들을 갱신처리한다.

### 실제 내부의 메소드로 실행하면 새로운 것인 시리즈로  표시한다.

In [39]:
df1['etd'].replace('Leaving', 0).astype(np.float).head() 

0     3.0
1    10.0
2     2.0
3     9.0
4     0.0
Name: etd, dtype: float64

### 새로운 칼럼에 메소드 처리한 값을 할당하면 내부의 값이 변경된다.

In [12]:
df1['etd'] = df1['etd'].replace('Leaving', 0).astype(np.float) 

In [13]:
df1.head()

Unnamed: 0,time,dest,dir,len,etd
0,2014-11-27 09:20:37.850000-08:00,Fremont,South,6,3.0
1,2014-11-27 09:20:37.850000-08:00,Richmond,North,6,10.0
2,2014-11-27 09:22:01.120000-08:00,Fremont,South,6,2.0
3,2014-11-27 09:22:01.120000-08:00,Richmond,North,6,9.0
4,2014-11-27 09:23:01.460000-08:00,Fremont,South,6,0.0


## 특정 칼럼의 값을 기준으로 데이터 프레임 추출하기

    마스킹으로 가져오면 실제 특정 값이 True 인 경우를 추출해서 데이터 프레임으로 가져온다.

In [19]:
df_mill = df1[df1['dest'] == 'Millbrae']
df_mill.head(3)

Unnamed: 0,time,dest,dir,len,etd
1856,2014-11-28 03:29:01.120000-08:00,Millbrae,South,5,52
1858,2014-11-28 03:30:01.460000-08:00,Millbrae,South,5,51
1860,2014-11-28 03:31:01.810000-08:00,Millbrae,South,5,50
