## 데이터 셋
- https://www.kaggle.com/datasets/suyashlakhani/apple-stock-prices-20152020
- 날짜가 있는 데이터 셋이라면 모두 실습 가능하니, 복습할 땐 다른 데이터셋으로 해보자.

In [1]:
import pandas as pd

In [3]:
stocks = pd.read_csv('APPL_new.csv')

In [5]:
stocks

Unnamed: 0,date,close,high,low,open
0,2015.05.27 시작09:30,132.045,132.260,130.0500,130.34
1,2015.05.28 시작09:30,131.780,131.950,131.1000,131.86
2,2015.05.29 시작09:30,130.280,131.450,129.9000,131.23
3,2015.06.01 시작09:30,130.535,131.390,130.0500,131.20
4,2015.06.02 시작09:30,129.960,130.655,129.3200,129.86
...,...,...,...,...,...
1253,2020.05.18 시작09:30,314.960,316.500,310.3241,313.17
1254,2020.05.19 시작09:30,313.140,318.520,313.0100,315.03
1255,2020.05.20 시작09:30,319.230,319.520,316.2000,316.68
1256,2020.05.21 시작09:30,316.850,320.890,315.8700,318.66


In [7]:
stocks.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   date    1258 non-null   object 
 1   close   1258 non-null   float64
 2   high    1258 non-null   float64
 3   low     1258 non-null   float64
 4   open    1258 non-null   float64
dtypes: float64(4), object(1)
memory usage: 49.3+ KB


## 날짜 포맷이 깨진 데이터 정리

In [9]:
# 시도 1 parse_dates=['date']
stocks = pd.read_csv('APPL_new.csv', parse_dates=['date'])

  stocks = pd.read_csv('APPL_new.csv', parse_dates=['date'])


In [13]:
stocks['date'].info()
#타입이 o

<class 'pandas.core.series.Series'>
RangeIndex: 1258 entries, 0 to 1257
Series name: date
Non-Null Count  Dtype 
--------------  ----- 
1258 non-null   object
dtypes: object(1)
memory usage: 10.0+ KB


In [17]:
# 시도 2 : to_datetime '시작이 날짜데이터 ㄴㄴ ' replace로 할수있지만, 날짜포맷으로 ㄲ
pd.to_datetime(stocks['date'])

  pd.to_datetime(stocks['date'])


DateParseError: Unknown datetime string format, unable to parse: 2015.05.27 시작09:30, at position 0

## 현 데이터를 해석할 날짜 포맷 입력
- Python의 날짜/시간 포맷(format) : https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior
| 포맷 | 설명 |
|-------|:----|
| %a    | 현 지역에 따른 요일의 축약된 이름     |
| %A    | 현 지역에 따른 요일의 전체 이름       |
| %w    | 일요일을 0으로 시작하여 6으로 끝나는 요일 |
| %d    | 월의 일을 0으로 시작하여 31로 끝나는 날짜 |
| %b    | 현 지역에 따른 월의 축약된 이름       |
| %B    | 현 지역에 따른 월의 전체 이름         |
| %m    | 월을 0으로 시작하여 12로 끝나는 숫자  |
| %y    | 세기를 제외한 연도를 0으로 시작하여 99로 끝나는 숫자 |
| %Y    | 세기를 포함한 연도                   |
| %H    | 24시간 형식으로 표시된 시간을 0으로 시작하여 23로 끝나는 숫자 |
| %I    | 12시간 형식으로 표시된 시간을 0으로 시작하여 12로 끝나는 숫자 |
| %p    | 오전 또는 오후                      |
| %M    | 분을 0으로 시작하여 59로 끝나는 숫자   |
| %S    | 초를 0으로 시작하여 59로 끝나는 숫자   |
| %f    | 마이크로초를 6자리 숫자로 표시       |
| %z    | UTC 오프셋을 ±HHMM 또는 ±HHMMSS 형식 |
| %Z    | 시간대 이름                         |
| %j    | 연중 날짜를 0으로 시작하여 366으로 끝나는 숫자 |
| %U    | 주 번호를 0으로 시작하여 일요일을 첫 번째 요일로 간주 |
| %W    | 주 번호를 0으로 시작하여 월요일을 첫 번째 요일로 간주 |
| %c    | 현 지역에 적합한 날짜와 시간 표현    |
| %x    | 현 지역에 적합한 날짜 표현            |
| %X    | 현 지역에 적합한 시간 표현            |
| %%    | '%' 문자 표시                       |

In [19]:
# 데이터 확인
stocks.iloc[[0],:]

Unnamed: 0,date,close,high,low,open
0,2015.05.27 시작09:30,132.045,132.26,130.05,130.34


In [23]:
# 해결 - 현재 데이터를 인식할 포맷 입력
new_d=pd.to_datetime(stocks['date'], format='%Y.%m.%d 시작09:30')

In [25]:
# 기존 열 변경
stocks['date']=new_d

In [27]:
stocks

Unnamed: 0,date,close,high,low,open
0,2015-05-27,132.045,132.260,130.0500,130.34
1,2015-05-28,131.780,131.950,131.1000,131.86
2,2015-05-29,130.280,131.450,129.9000,131.23
3,2015-06-01,130.535,131.390,130.0500,131.20
4,2015-06-02,129.960,130.655,129.3200,129.86
...,...,...,...,...,...
1253,2020-05-18,314.960,316.500,310.3241,313.17
1254,2020-05-19,313.140,318.520,313.0100,315.03
1255,2020-05-20,319.230,319.520,316.2000,316.68
1256,2020-05-21,316.850,320.890,315.8700,318.66


In [29]:
stocks.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1258 entries, 0 to 1257
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    1258 non-null   datetime64[ns]
 1   close   1258 non-null   float64       
 2   high    1258 non-null   float64       
 3   low     1258 non-null   float64       
 4   open    1258 non-null   float64       
dtypes: datetime64[ns](1), float64(4)
memory usage: 49.3 KB
