#### 평균 vs 중앙값
- 중앙값과 평균은 데이터의 분포를 나타내는 두 가지 대표적인 값입니다. 
- 평균은 모든 데이터 값을 더한 후 개수로 나눈 값이며, 중앙값은 데이터를 크기순으로 정렬했을 때 가운데 위치한 값입니다.

- 평균과 중앙값이 같다면, 데이터의 분포가 대칭적인 경우입니다. 대칭 분포인 경우, 평균과 중앙값은 같은 값을 가지며, 데이터의 중심이 대략적으로 그 값 주변에 분포하고 있습니다.

- 대칭적이지 않은 경우, 평균과 중앙값은 서로 다른 값을 가집니다. 이때는 데이터의 분포가 한쪽으로 치우쳐져 있는 경우입니다. 예를 들어, 데이터가 오른쪽으로 치우쳐져 있을 경우, 평균은 중앙값보다 더 큰 값을 가지게 됩니다.

In [1]:
# 중앙값과 평균의 비교

import pandas as pd
import numpy as np

data = np.array([100, 1, 2, 3, 4, 5]) # 대칭
data1 = np.array([1, 2, 3, 3, 2, 1]) # 비대칭

mean = np.mean(data)
median = np.median(data) # 중앙값

mean1 = np.mean(data1)
median1 = np.median(data1)

print(mean, '\n')
print(median, '\n')

print(mean1, '\n')
print(median1)


19.166666666666668 

3.5 

2.0 

2.0


In [2]:
# transform

import pandas as pd

df = pd.DataFrame({'group' : ['a','a', 'b', 'b', 'b'], 'value' : [1, 2, 3, 4, 5]})

print(df, '\n')

df_agg = df.groupby('group').agg({'value' : ['mean', 'sum']})
print(df_agg, '\n')

df_transform = df.groupby('group')['value'].transform('mean')
df['group_mean'] =  df_transform
print(df)

  group  value
0     a      1
1     a      2
2     b      3
3     b      4
4     b      5 

      value    
       mean sum
group          
a       1.5   3
b       4.0  12 

  group  value  group_mean
0     a      1         1.5
1     a      2         1.5
2     b      3         4.0
3     b      4         4.0
4     b      5         4.0


python, numpy, pandas 날짜 타입 비교 및 정리

- datetime은 python 설치 시 기본적으로 내장된 라이브러리로, 날짜를 쓸 것인지, 시간을 쓸 것인지, 날짜시간을 합쳐쓸 것인지에 따라 클래스가 분화되어 있는 것이 특징. 예를들어 '2021-3-16'을 표시하고 싶으면 date 클래스를 사용하고, '2021-3-16 12:34:21'를 표시하고 싶으면 'datetime' 클래스를 사용합니다. 
- 반면 datetime64나 Timestamp는 각각 numpy, pandas 라이브러리에서 새로 정의한 날짜시간 클래스입니다. 이 둘은 numpy, pandas를 설치해야만 이용할 수 있고, 한 클래스로 날짜, 시간, 날짜시간을 모두 정의할 수 있는 것이 특징
- 날짜, 시간 타입은 일반적인 정수, 실수끼리 연산할 때와 달리 단위를 가지고 있는 점 때문에 시간의 차이를 저장하는 별도의 클래스가 있다는 특징. 이를 timedelta(타임델타)라고 하는데, 날짜, 시간은 특정 시점의 시각을 표시하는 용도이고(2021년 3월 16일), 타임델타는 기간 또는 시간 차이를 표시하는 용도(5일)

Pandas로 날짜를 다루는 방법은 크게 3가지로 나눌 수 있습니다.

- 날짜 생성하기
- 날짜 범위 생성하기
- 날짜 데이터 다루기

In [3]:
# 날짜 생성

import pandas as pd

date = pd.to_datetime('2022-04-02')

print(date, type(date))

2022-04-02 00:00:00 <class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [4]:
dates = pd.date_range(start = '2022-01-01', end = '2022-12-31')
print(dates)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10',
               ...
               '2022-12-22', '2022-12-23', '2022-12-24', '2022-12-25',
               '2022-12-26', '2022-12-27', '2022-12-28', '2022-12-29',
               '2022-12-30', '2022-12-31'],
              dtype='datetime64[ns]', length=365, freq='D')


In [5]:
# 날짜 범위

df = pd.DataFrame({'date' : ['2022-01-01', '2022-01-02', '2022-01-03'], 'value' : [1, 2, 3]})
df.info()
df['date'] = pd.to_datetime(df['date']) # dtype을 변경
print(df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    3 non-null      object
 1   value   3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 176.0+ bytes
        date  value
0 2022-01-01      1
1 2022-01-02      2
2 2022-01-03      3


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   date    3 non-null      datetime64[ns]
 1   value   3 non-null      int64         
dtypes: datetime64[ns](1), int64(1)
memory usage: 176.0 bytes


In [7]:
# 파이썬 모듈

import time

date = time.time()
print(date, type(date))

1680489165.5097249 <class 'float'>


In [8]:
# 판다스 to_datetime

date = pd.to_datetime(1680488342.5843103, unit = 's')

print(date, type(date))

2023-04-03 02:19:02.584310272 <class 'pandas._libs.tslibs.timestamps.Timestamp'>


In [9]:
df = pd.read_csv('../dataset/dataset_base/stock-data.csv')
df

Unnamed: 0,Date,Close,Start,High,Low,Volume
0,2018-07-02,10100,10850,10900,10000,137977
1,2018-06-29,10700,10550,10900,9990,170253
2,2018-06-28,10400,10900,10950,10150,155769
3,2018-06-27,10900,10800,11050,10500,133548
4,2018-06-26,10800,10900,11000,10700,63039
5,2018-06-25,11150,11400,11450,11000,55519
6,2018-06-22,11300,11250,11450,10750,134805
7,2018-06-21,11200,11350,11750,11200,133002
8,2018-06-20,11550,11200,11600,10900,308596
9,2018-06-19,11300,11850,11950,11300,180656


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB


In [11]:
df['New_Date'] = pd.to_datetime(df['Date'])

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      20 non-null     object        
 1   Close     20 non-null     int64         
 2   Start     20 non-null     int64         
 3   High      20 non-null     int64         
 4   Low       20 non-null     int64         
 5   Volume    20 non-null     int64         
 6   New_Date  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 1.2+ KB


In [12]:
df.drop('Date', axis = 1, inplace = True)

In [13]:
df['year'] = df.New_Date.dt.year
df['month'] = df.New_Date.dt.month
df['day'] = df.New_Date.dt.day

df.head()

Unnamed: 0,Close,Start,High,Low,Volume,New_Date,year,month,day
0,10100,10850,10900,10000,137977,2018-07-02,2018,7,2
1,10700,10550,10900,9990,170253,2018-06-29,2018,6,29
2,10400,10900,10950,10150,155769,2018-06-28,2018,6,28
3,10900,10800,11050,10500,133548,2018-06-27,2018,6,27
4,10800,10900,11000,10700,63039,2018-06-26,2018,6,26


In [14]:
df.set_index('New_Date', inplace = True)
df.head()

Unnamed: 0_level_0,Close,Start,High,Low,Volume,year,month,day
New_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-07-02,10100,10850,10900,10000,137977,2018,7,2
2018-06-29,10700,10550,10900,9990,170253,2018,6,29
2018-06-28,10400,10900,10950,10150,155769,2018,6,28
2018-06-27,10900,10800,11050,10500,133548,2018,6,27
2018-06-26,10800,10900,11000,10700,63039,2018,6,26


In [16]:
df.index

DatetimeIndex(['2018-07-02', '2018-06-29', '2018-06-28', '2018-06-27',
               '2018-06-26', '2018-06-25', '2018-06-22', '2018-06-21',
               '2018-06-20', '2018-06-19', '2018-06-18', '2018-06-15',
               '2018-06-14', '2018-06-12', '2018-06-11', '2018-06-08',
               '2018-06-07', '2018-06-05', '2018-06-04', '2018-06-01'],
              dtype='datetime64[ns]', name='New_Date', freq=None)

In [23]:
df.loc['2018-06-27' : '2018-06-29', 'Close' : 'Low']

Unnamed: 0_level_0,Close,Start,High,Low
New_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-06-29,10700,10550,10900,9990
2018-06-28,10400,10900,10950,10150
2018-06-27,10900,10800,11050,10500


### 표준정규분포를 따르는 1000개의 샘플을 랜덤하게 추출해서 값으로 정하고2000-01-01 ~ 2002-09-26의 날짜를 인덱스로 하는 데이터 셋을 출력하세요. (series로)

In [43]:
import numpy as np

dates = pd.date_range(start = '2000-01-01', end = '2002-09-26')
dates1 = pd.date_range('2000-01-01', periods = 1000) 



ts = pd.Series(np.random.randn(1000), index = dates1)

ts

2000-01-01   -1.539742
2000-01-02   -0.201527
2000-01-03    0.597168
2000-01-04   -0.943543
2000-01-05   -2.688405
                ...   
2002-09-22    1.325330
2002-09-23    0.332649
2002-09-24   -0.199539
2002-09-25   -0.315991
2002-09-26    0.377294
Freq: D, Length: 1000, dtype: float64

In [46]:
# periods 매개 변수는 date_range 함수에 전달된 시작날짜와 종료날짜를 periods 매개변수에 전달된 기준의 수만큼 동일하게 나누어 출력

dates1 = pd.date_range('2000-01-01', '2000-01-01',periods = 4) 

dates1

DatetimeIndex(['2000-01-01', '2000-01-01', '2000-01-01', '2000-01-01'], dtype='datetime64[ns]', freq=None)

### freq 매개변수에 사용되는 Frequncy strings
- A calendar year end frequency
- B	business day frequency
- C	custom business day frequency
- D	calendar day frequency
- W	weekly frequency
- M	month end frequency
- SM	semi-month end frequency (15th and end of month)
- BM	business month end frequency
- CBM	custom business month end frequency
- MS	month start frequency
- SMS	semi-month start frequency (1st and 15th)
- BMS	business month start frequency
- CBMS	custom business month start frequency
- Q	quarter end frequency

In [53]:
dates = pd.date_range('4/1/2023', periods = 10, freq = 'W-Mon')

dates

DatetimeIndex(['2023-04-03', '2023-04-10', '2023-04-17', '2023-04-24',
               '2023-05-01', '2023-05-08', '2023-05-15', '2023-05-22',
               '2023-05-29', '2023-06-05'],
              dtype='datetime64[ns]', freq='W-MON')

In [56]:
df_dates = pd.DataFrame(np.random.randn(10,4), index = dates, columns = list('abcd'))

df_dates.head()

Unnamed: 0,a,b,c,d
2023-04-03,0.045246,-0.451931,-0.927905,0.702535
2023-04-10,1.206022,-1.766875,0.254894,0.10053
2023-04-17,1.156971,-1.102923,0.814478,0.897292
2023-04-24,0.084502,-0.956988,0.931475,-0.689364
2023-05-01,0.089999,-1.099695,-0.104982,-1.976556


In [59]:
pd.date_range('2000-01-01', '2000-01-03', freq = '4h')

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00'],
              dtype='datetime64[ns]', freq='4H')

In [67]:
# 기간을 timestamp로 변환

rng = pd.period_range('2001-01-01', periods = 3, freq = 'M')
ts = pd.Series(np.random.randn(3), index = rng)
print(ts)
ts.to_timestamp(how = 'end')

2001-01   -1.147531
2001-02    0.036058
2001-03   -0.049828
Freq: M, dtype: float64


2001-01-31 23:59:59.999999999   -1.147531
2001-02-28 23:59:59.999999999    0.036058
2001-03-31 23:59:59.999999999   -0.049828
dtype: float64

In [36]:
ts['2001-01-05' : '2001-01-07']

2001-01-05   -0.063702
2001-01-06    0.462336
2001-01-07   -0.210583
Freq: D, dtype: float64

In [42]:
ts.truncate(before = '2000-01-02', after = '2000-01-05') # 특정 범위를 befor after 기준으로 잘라버림

2000-01-02    0.848183
2000-01-03   -1.135199
2000-01-04    0.511295
2000-01-05    0.083176
Freq: D, dtype: float64