In [1]:
# Iteration
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame(
    {"col1": np.random.randn(3), "col2": np.random.randn(3)}, index=["a", "b", "c"]
)
df

Unnamed: 0,col1,col2
a,-1.160062,-1.157725
b,-1.596831,0.137248
c,0.557446,1.629565


In [3]:
# In short, basic iteration (for i in object) produces:
# Series: values
# DataFrame: column labels

for col in df:
    print(col)

col1
col2


In [4]:
df = pd.DataFrame({"a": [1, 2, 3], "b": ["a", "b", "c"]})
df

Unnamed: 0,a,b
0,1,a
1,2,b
2,3,c


In [5]:
# items() : columnwise'?'
for label, ser in df.items():
    print(label)
    # print(ser)

a
b


In [6]:
# iterrows() : rowwise'?'
for row_index, row in df.iterrows():
    print(row_index, row, sep="\n")

0
a    1
b    a
Name: 0, dtype: object
1
a    2
b    b
Name: 1, dtype: object
2
a    3
b    c
Name: 2, dtype: object


In [7]:
df_orig = pd.DataFrame([[1, 1.5]], columns=["int", "float"])

df_orig.dtypes
# df_orig

int        int64
float    float64
dtype: object

In [8]:
row = next(df_orig.iterrows())[1]
# df.iterrows()[0]은 column label만 생성하고 value는 갖지 않는다 따라서 nothing'?'
row

int      1.0
float    1.5
Name: 0, dtype: float64

In [9]:
df2 = pd.DataFrame({"x": [1, 2, 3], "y": [4, 5, 6]})

print(df2)

   x  y
0  1  4
1  2  5
2  3  6


In [10]:
print(df2.T)

   0  1  2
x  1  2  3
y  4  5  6


In [11]:
# df.iterrow(): iterator를 생성
# df.iterrow()-> Series
df2_t = pd.DataFrame({idx:values for idx, values in df2.iterrows()})
# index와 value가 자리를 바꾼다. 당연 df.T가 된다.

print(df2_t)

   0  1  2
x  1  2  3
y  4  5  6


In [12]:
# df.itertuples(): iterator를 생성
# df.itertuples()->named tuple
for row in df2.itertuples():
    print(row)

Pandas(Index=0, x=1, y=4)
Pandas(Index=1, x=2, y=5)
Pandas(Index=2, x=3, y=6)


In [13]:
# .dt accessor
# index가 아닌 "value"에서 datetime의 properties를 return한다.   🔰

In [14]:
s = pd.Series(pd.date_range("20130101 09:10:12", periods=4))
s

0   2013-01-01 09:10:12
1   2013-01-02 09:10:12
2   2013-01-03 09:10:12
3   2013-01-04 09:10:12
dtype: datetime64[ns]

In [15]:
s.dt.hour

0    9
1    9
2    9
3    9
dtype: int32

In [16]:
s.dt.second

0    12
1    12
2    12
3    12
dtype: int32

In [17]:
s.dt.day

0    1
1    2
2    3
3    4
dtype: int32

In [30]:
# .tz_localize("..."): 時系列data의 시간대(timezone)을 설정한다.      🔰🔰
# .tz_convert("..."): 설정된 시간대(timezone)를 다른 시간대로 변환한다.

import pandas as pd

# 시간대 설정
# 뉴욕 시간대로 표시된 Timestamp 생성
ny_time = pd.Timestamp('2023-08-02 12:34:56', tz='America/New_York')
print(ny_time, ' :New York의 현지시간' )

# 다른 시간대로 변환 (서울 시간대로 변환)
seoul_time = ny_time.tz_convert('Asia/Seoul')
print(seoul_time, ' :Seoul의 현지시간')

# 현지시간을 UTC 세계표준시 변환
seoul_time1 = ny_time.tz_convert('UTC')
print(seoul_time1, ' :Seoul의 UTC기준시간')


# 시간 표기
# Timestamp 생성
timestamp = pd.Timestamp('2023-08-02 12:34:56')
print(timestamp)

# 문자열 파싱을 통한 Timestamp 생성
parsed_timestamp = pd.to_datetime('2023-08-02 12:34:56')
print(parsed_timestamp)

# 기간 생성
period = pd.Period('2023-08')
print(period, " :8월 한달 간의 기간(Period)")

2023-08-02 12:34:56-04:00  :New York의 현지시간
2023-08-03 01:34:56+09:00  :Seoul의 현재시간
2023-08-03 01:34:56+09:00  :Seoul의 현지시간
2023-08-02 16:34:56+00:00  :Seoul의 UTC기준시간
2023-08-02 12:34:56
2023-08-02 12:34:56
2023-08  :8월 한달 간의 기간(Period)


In [18]:
s[s.dt.day == 2]

1   2013-01-02 09:10:12
dtype: datetime64[ns]

In [21]:
# localize되지 않은 time Series(date_range)는 UTC와의 시간차를 표시하지 않는다.
# 2013-01-02 09:10:12
# 이를 localize하면 뒤에 UTC와의 시간차를 표시한다.
# 2013-01-02 09:10:12-05:00

stz = s.dt.tz_localize("US/Eastern")
stz

0   2013-01-01 09:10:12-05:00
1   2013-01-02 09:10:12-05:00
2   2013-01-03 09:10:12-05:00
3   2013-01-04 09:10:12-05:00
dtype: datetime64[ns, US/Eastern]

In [22]:
stz.dt.tz
# 위와 같이 timezone을 알아 보면
# 현지시간은 US/Eastern, 미국동부기준시이며, 날짜로는 UTC기준 -1일(-24Hr) + 19:04  합이 -5시간
# UTC기준시에서 -5시간하면 미국 동부기준시를 알 수 있다는 의미

<DstTzInfo 'US/Eastern' LMT-1 day, 19:04:00 STD>

In [23]:
s.dt.tz_localize("UTC").dt.tz_convert("US/Eastern")
# 세계표준시가      2013-01-01 09:10:12 일때
# 미국동부표준시로는 2013-01-01 04:10:12이며 이는 UTC보다 -5시간이란 의미.

0   2013-01-01 04:10:12-05:00
1   2013-01-02 04:10:12-05:00
2   2013-01-03 04:10:12-05:00
3   2013-01-04 04:10:12-05:00
dtype: datetime64[ns, US/Eastern]

In [31]:
# DatetimeIndex
s = pd.Series(pd.date_range('20230101', periods=4))
s

0   2023-01-01
1   2023-01-02
2   2023-01-03
3   2023-01-04
dtype: datetime64[ns]

In [37]:
s.dt.year

0    2023
1    2023
2    2023
3    2023
dtype: int64

In [33]:
# PeriodIndex
s = pd.Series(pd.period_range('20230101', periods=4))
s

0    2023-01-01
1    2023-01-02
2    2023-01-03
3    2023-01-04
dtype: period[D]

In [35]:
# 위 둘을 살펴보면 dtype이 상이하다.
s.dt.strftime('%Y/%m/%d')
# strftime()은 표현형식만을 바꿔준다. 내용물은 그대로

0    2023/01/01
1    2023/01/02
2    2023/01/03
3    2023/01/04
dtype: object

In [36]:
s.dt.year

0    2023
1    2023
2    2023
3    2023
dtype: int64

In [46]:
# Timedelta
s = pd.Series(pd.timedelta_range('1 day', periods=4, freq='h'))
# 제 일 arg는 start: 날짜는 1부터 시작하고 0일은 존재 하지 않는다.
s

0   1 days 00:00:00
1   1 days 01:00:00
2   1 days 02:00:00
3   1 days 03:00:00
dtype: timedelta64[ns]

In [47]:
# Timedelta
s = pd.Series(pd.timedelta_range(start='1 day', end='2 day', freq='6h'))
# 제 일 arg는 start: 날짜는 1부터 시작하고 0일은 존재 하지 않는다.
s

0   1 days 00:00:00
1   1 days 06:00:00
2   1 days 12:00:00
3   1 days 18:00:00
4   2 days 00:00:00
dtype: timedelta64[ns]