### 날짜와 시간


In [None]:
import pandas as pd

data = {
    'date': ['2024-01-01 12:34:56', '2024-02-01 23:45:01', '2024-03-01 06:07:08', '2021-04-01 14:15:16'],
    'value': [100, 201, 302, 404]
}

df = pd.DataFrame(data)

print(df.info())

# date컬럼 odject확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    4 non-null      object
 1   value   4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 192.0+ bytes
None


In [3]:
# 문자열을 날짜 형식으로 변환

df['date'] = pd.to_datetime(df['date'])

print(df.head(2))
print(df.dtypes)

                 date  value
0 2024-01-01 12:34:56    100
1 2024-02-01 23:45:01    201
date     datetime64[ns]
value             int64
dtype: object


In [4]:
# to_datetime()은 비표준화 형식 날짜 문자열 경우 날짜 형식 자동 변환 x

pd.to_datetime('02-2024-01')

DateParseError: day is out of range for month: 02-2024-01, at position 0

In [5]:
# (format = '%m-%y-%d')로 형식 지정하여 해결 가능

pd.to_datetime('02-2024-01', format='%m-%Y-%d')

Timestamp('2024-02-01 00:00:00')

In [8]:
# 날짜에 한글을 포함하는 경우
pd.to_datetime('2024년 01월 01일', format='%Y년 %m월 %d일')

Timestamp('2024-01-01 00:00:00')

#### 날짜 정보 추출

In [14]:
# 연도 추출
df['year'] = df['date'].dt.year

# 월 추출
df['month'] = df['date'].dt.month

# 일 추출 
df['day'] = df['date'].dt.day
# 요일 추출 dt.day_name(), dt.weekday
# 시간 dt.hour
# 초 dt.second
# 년-월-일 dt.date

#### 날짜 연산

In [10]:
# 현재 날짜 생성
current_date = pd.to_datetime('2024-05-01')

# 날짜 차이 계산
df['days_diff'] = (current_date - df['date']).dt.days

print(df.head(2))

                 date  value  year  month  days_diff
0 2024-01-01 12:34:56    100  2024      1        120
1 2024-02-01 23:45:01    201  2024      2         89


#### 날짜 범위 생성

In [11]:
date_range = pd.date_range(start = '2021-01-01', end = '2021-01-10', freq = 'D')

print(date_range)

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10'],
              dtype='datetime64[ns]', freq='D')


#### 날짜 합치기

In [15]:
df['date2'] = pd.to_datetime(dict(year = df.year, month = df.month, day = df.day))

print(df[['date','date2']])

                 date      date2
0 2024-01-01 12:34:56 2024-01-01
1 2024-02-01 23:45:01 2024-02-01
2 2024-03-01 06:07:08 2024-03-01
3 2021-04-01 14:15:16 2021-04-01


#### 문자열 처리

In [None]:
# 예제 데이터 생성

import pandas as pd

data = {
    '가전제품': ['냉장고', '세탁기', '전자레인지', '에어컨', '청소기'],
    '브랜드': ['LG', 'Samsung', 'Panasonic', 'Daikin', 'Dyson']
}

df = pd.DataFrame(data)

In [None]:
# 문자열 길이 확인 # str.len()
df['제품명_길이'] = df['가전제품'].str.len()
df['브랜드_길이'] = df['브랜드'].str.len()

print(df.head(2))

  가전제품      브랜드  제품명_길이  브랜드_길이
0  냉장고       LG       3       2
1  세탁기  Samsung       3       7


In [21]:
# 문자열 대소문자 변환

df['브랜드_소문자'] = df['브랜드'].str.lower()
df['브랜드_대문자'] = df['브랜드'].str.upper()

print(df[['브랜드', '브랜드_소문자', '브랜드_대문자']])

         브랜드    브랜드_소문자    브랜드_대문자
0         LG         lg         LG
1    Samsung    samsung    SAMSUNG
2  Panasonic  panasonic  PANASONIC
3     Daikin     daikin     DAIKIN
4      Dyson      dyson      DYSON


In [22]:
# 특정 문자 포함 여부 확인
df['브랜드에_a포함'] = df['브랜드'].str.contains('a')

print(df[['브랜드', '브랜드에_a포함']])

         브랜드  브랜드에_a포함
0         LG     False
1    Samsung      True
2  Panasonic      True
3     Daikin      True
4      Dyson     False


In [23]:
# 특정 문자열 교체
df['브랜드_언더스코어'] = df['브랜드'].str.replace('L', 'HHHHG')

print(df[['브랜드', '브랜드_언더스코어']])

         브랜드  브랜드_언더스코어
0         LG     HHHHGG
1    Samsung    Samsung
2  Panasonic  Panasonic
3     Daikin     Daikin
4      Dyson      Dyson


In [25]:
# 문자열 분할
df[['브랜드_첫부분', '브랜드_두번째', '브랜드_세번째']] = df['브랜드'].str.split('a', expand=True) #expand=True 분할 결과를 여러 칼럼으로 확장 반대일 경우 리스트 시리즈를 반환

print(df[['브랜드', '브랜드_첫부분', '브랜드_두번째', '브랜드_세번째']])

         브랜드 브랜드_첫부분 브랜드_두번째 브랜드_세번째
0         LG      LG    None    None
1    Samsung       S   msung    None
2  Panasonic       P       n   sonic
3     Daikin       D    ikin    None
4      Dyson   Dyson    None    None


In [29]:
# 문자열 결합

df['제품_브랜드'] = df['가전제품'].str.cat(df['브랜드'], sep=',')
print(df[['가전제품', '브랜드', '제품_브랜드']])

    가전제품        브랜드           제품_브랜드
0    냉장고         LG           냉장고,LG
1    세탁기    Samsung      세탁기,Samsung
2  전자레인지  Panasonic  전자레인지,Panasonic
3    에어컨     Daikin       에어컨,Daikin
4    청소기      Dyson        청소기,Dyson


In [30]:
# 문자열 공백 제거

df['가전제품'] = df['가전제품'].str.replace('전자레인지', '  전자레인지    ')
df['가전제품_공백제거'] = df['가전제품'].str.strip()

print(df[['가전제품', '가전제품_공백제거']])

          가전제품 가전제품_공백제거
0          냉장고       냉장고
1          세탁기       세탁기
2    전자레인지         전자레인지
3          에어컨       에어컨
4          청소기       청소기


#### 정규표현식을 통한 문자열

In [34]:
# 예제 데이터 프레임 생성
data = {
    '주소': ['서울특별시 강남구 테헤란로 123', '부산광역시 해운대구 센텀중앙로 45', '대구광역시 수성구 동대구로 77-9@@##', '인천광역시 남동구 예술로 501&&, 아트센터', '광주광역시 북구 용봉로 123']
}

df = pd.DataFrame(data)

In [35]:
# 특정 문자열 추출
# str.extract(): 정규표현식으로 매칭되는 패턴 충 첫 번째 값을 추출

df['도시'] = df['주소'].str.extract(r'([가-힣]+광역시|[가-힣]+특별시)', expand=False)
print(df)

                          주소     도시
0         서울특별시 강남구 테헤란로 123  서울특별시
1        부산광역시 해운대구 센텀중앙로 45  부산광역시
2    대구광역시 수성구 동대구로 77-9@@##  대구광역시
3  인천광역시 남동구 예술로 501&&, 아트센터  인천광역시
4           광주광역시 북구 용봉로 123  광주광역시


In [36]:
# str.extractall(): 정규표현식으로 매칭되는 패턴 중 모든 값을 추출

special_chars = df['주소'].str.extractall(r'([^a-zA-Z0-9가-힣\s])')
print(special_chars)

         0
  match   
2 0      -
  1      @
  2      @
  3      #
  4      #
3 0      &
  1      &
  2      ,


In [37]:
# 특수 문자 제거

df['주소_특수문자제거']= df['주소'].str.replace(r'[^a-zA-Z0-9가-힣\s]', '', regex=True) # regex=True 옵션을 활용하면 정규표현식을 적용할 수 있음
print(df['주소_특수문자제거'])

0        서울특별시 강남구 테헤란로 123
1       부산광역시 해운대구 센텀중앙로 45
2        대구광역시 수성구 동대구로 779
3    인천광역시 남동구 예술로 501 아트센터
4          광주광역시 북구 용봉로 123
Name: 주소_특수문자제거, dtype: object


In [66]:
# 사전 데이터 불러오기

import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/data/main/bike_data.csv')

In [67]:
df.head()

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
0,2011-09-05 17:00:00,3,1,0,2,27.06,29.545,89,7.0015,37,77,114
1,2011-05-17 11:00:00,2,0,1,2,22.96,26.515,83,27.9993,26,104,130
2,2011-11-10 09:00:00,4,0,1,2,17.22,21.21,94,7.0015,23,188,211
3,2011-10-13 07:00:00,4,0,1,3,22.14,25.76,100,8.9981,5,76,81
4,2011-10-15 14:00:00,4,0,0,1,24.6,31.06,33,31.0009,242,230,472


In [68]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 435 entries, 0 to 434
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   datetime    435 non-null    object 
 1   season      435 non-null    int64  
 2   holiday     435 non-null    int64  
 3   workingday  435 non-null    int64  
 4   weather     435 non-null    int64  
 5   temp        435 non-null    float64
 6   atemp       435 non-null    float64
 7   humidity    435 non-null    int64  
 8   windspeed   435 non-null    float64
 9   casual      435 non-null    int64  
 10  registered  435 non-null    int64  
 11  count       435 non-null    int64  
dtypes: float64(3), int64(8), object(1)
memory usage: 40.9+ KB


In [84]:
# 1

# 데이터 형식 변경
df = df.astype({'datetime': 'datetime64[ns]', 'weather': 'int64', 'season': 'object', 'workingday': 'object', 'holiday': 'object'})
df_sub = df.loc[df.season == 1,].copy()

# 시간 정보 추출
df_sub['hour'] = df_sub['datetime'].dt.hour

# 계절별 및 시간대별 대여량 합계 계산
summary_data = df_sub.groupby(['season', 'hour']).agg({'count': 'sum'}).reset_index()

# count가 가장 큰 hour 찾기
max_count_hour = df_sub.loc[df_sub['count'].idxmax(), 'hour']
max_count = df['count'].max()

print({max_count_hour}, {max_count})

{17} {970}


In [87]:
df.sort_values('count', ascending=False)

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count
192,2012-09-11 17:00:00,3,0,1,1,28.70,31.820,28,0.0000,168,802,970
382,2012-10-16 17:00:00,4,0,1,1,21.32,25.000,39,12.9980,104,839,943
394,2012-10-03 17:00:00,4,0,1,1,28.70,32.575,65,0.0000,84,833,917
132,2012-08-01 17:00:00,3,0,1,1,32.80,37.120,49,11.0014,103,734,837
209,2012-08-16 18:00:00,3,0,1,1,32.80,35.605,36,0.0000,109,723,832
...,...,...,...,...,...,...,...,...,...,...,...,...
346,2011-01-01 05:00:00,1,0,0,2,9.84,12.880,75,6.0032,0,1,1
329,2011-03-10 02:00:00,1,0,1,3,13.94,15.910,0,16.9979,0,1,1
315,2011-04-11 04:00:00,2,0,1,1,18.86,22.725,94,12.9980,0,1,1
97,2011-03-04 03:00:00,1,0,1,2,7.38,8.335,74,16.9979,0,1,1


In [89]:
# 2 각 계절별 평균 대여량을 구하시오
season_avg = df.groupby('season')['count'].mean().reset_index()
print(season_avg)

   season       count
0       1  103.169811
1       2  218.803922
2       3  265.500000
3       4  218.581197


In [92]:
# 3. 1월 동안의 총 대여량을 구하시오
df['month'] = df['datetime'].dt.month

january_rentals = df[df['month'] == 1]['count'].sum()
print(january_rentals)

2567


In [93]:
# 4. 가장 대여량이 많은 날짜를 구하시오.

# 날짜 정보 추출
df['date'] = df['datetime'].dt.date

# 날짜별로 대여량 합계 계산
date_rentals = df.groupby('date')['count'].sum()

# 가장 대여량이 많은 날짜 찾기
max_rental_date = date_rentals.idxmax()
max_rental_count = date_rentals.max()
print( max_rental_date, max_rental_count)

2012-05-11 1398


In [95]:
# 5. 시간대별 평균 대여량을 구하시오
df['hour'] = df['datetime'].dt.hour

hour_avg = df.groupby('hour')['count'].mean().reset_index()
print(hour_avg)

    hour       count
0      0   43.500000
1      1   52.714286
2      2   32.842105
3      3   12.000000
4      4    6.687500
5      5   17.750000
6      6   58.705882
7      7  208.937500
8      8  483.055556
9      9  260.117647
10    10  144.130435
11    11  182.000000
12    12  277.533333
13    13  290.600000
14    14  266.842105
15    15  255.666667
16    16  373.052632
17    17  519.200000
18    18  447.769231
19    19  322.103448
20    20  210.083333
21    21  196.619048
22    22  113.560000
23    23   77.352941


In [97]:
# 6. 월요일(weekday) 동안의 총 대여량(count)을 구하시오.

#요일 정보 추출 (0 = Monday, 6=sunday)
df['weekday'] = df['datetime'].dt.weekday

# 특정 요일 (예ㅣ monday) 필터링
monday_rentals = df[df['weekday'] == 0]['count'].sum()
monday_rentals

10191

In [None]:
# pd.melt() 긴형식으로 변경
# pd.pivot_table() 짧은 형식

In [98]:
df

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count,month,date,hour,weekday
0,2011-09-05 17:00:00,3,1,0,2,27.06,29.545,89,7.0015,37,77,114,9,2011-09-05,17,0
1,2011-05-17 11:00:00,2,0,1,2,22.96,26.515,83,27.9993,26,104,130,5,2011-05-17,11,1
2,2011-11-10 09:00:00,4,0,1,2,17.22,21.210,94,7.0015,23,188,211,11,2011-11-10,9,3
3,2011-10-13 07:00:00,4,0,1,3,22.14,25.760,100,8.9981,5,76,81,10,2011-10-13,7,3
4,2011-10-15 14:00:00,4,0,0,1,24.60,31.060,33,31.0009,242,230,472,10,2011-10-15,14,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
430,2011-04-07 16:00:00,2,0,1,1,24.60,31.060,35,0.0000,52,161,213,4,2011-04-07,16,3
431,2011-09-03 22:00:00,3,0,0,1,27.88,31.820,83,7.0015,66,96,162,9,2011-09-03,22,5
432,2011-11-12 22:00:00,4,0,0,1,17.22,21.210,47,16.9979,30,88,118,11,2011-11-12,22,5
433,2012-04-11 23:00:00,2,0,1,1,13.94,15.150,57,19.9995,9,52,61,4,2012-04-11,23,2


In [100]:
# 7 긴 형식으로 변환 / casual, registered 한 열로 각 기록 대여 유형 대여 수 포함 

melted_df = df.melt(id_vars=['datetime', 'season'], value_vars=['casual', 'registered'], var_name='user_type', value_name='rental_count')

melted_df

Unnamed: 0,datetime,season,user_type,rental_count
0,2011-09-05 17:00:00,3,casual,37
1,2011-05-17 11:00:00,2,casual,26
2,2011-11-10 09:00:00,4,casual,23
3,2011-10-13 07:00:00,4,casual,5
4,2011-10-15 14:00:00,4,casual,242
...,...,...,...,...
865,2011-04-07 16:00:00,2,registered,161
866,2011-09-03 22:00:00,3,registered,96
867,2011-11-12 22:00:00,4,registered,88
868,2012-04-11 23:00:00,2,registered,52


In [102]:
# 8. 생성한 긴 형식 데이터 프레임을 활용하여 각 계절(season)별로 casual과 registered 사용자의 평균 대여 수(count)를 구하시오.

# season과 user_type별로 그룹화하여 평균 대여 수 계산
avg_rentals = melted_df.groupby(['season', 'user_type'])['rental_count'].mean().reset_index()

avg_rentals

Unnamed: 0,season,user_type,rental_count
0,1,casual,14.122642
1,1,registered,89.04717
2,2,casual,48.990196
3,2,registered,169.813725
4,3,casual,55.127273
5,3,registered,210.372727
6,4,casual,29.709402
7,4,registered,188.871795


In [103]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/data/main/logdata.csv')

In [104]:
df.head()

Unnamed: 0,로그
0,2024-07-18 12:34:56 User: 홍길동 Action: Login ID...
1,2024-07-18 12:35:00 User: 김철수 Action: Purchase...
2,2024-07-18 12:36:10 User: 이영희 Action: Logout T...
3,2024-07-18 12:37:22 User: 박지성 Action: Login ID...
4,2024-07-18 12:38:44 User: 최강타 Action: Purchase...


In [105]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   로그      30 non-null     object
dtypes: object(1)
memory usage: 368.0+ bytes


In [106]:
# 9 로그 컬럼에서 연도 정보만 추출
df['연도 정보'] = df['로그'].str.extract(r'(\d+)')
df.head()

Unnamed: 0,로그,연도 정보
0,2024-07-18 12:34:56 User: 홍길동 Action: Login ID...,2024
1,2024-07-18 12:35:00 User: 김철수 Action: Purchase...,2024
2,2024-07-18 12:36:10 User: 이영희 Action: Logout T...,2024
3,2024-07-18 12:37:22 User: 박지성 Action: Login ID...,2024
4,2024-07-18 12:38:44 User: 최강타 Action: Purchase...,2024
