In [2]:
import pandas as pd

data = {
    'date': ['2024-01-01 12:34:56', '2024-02-01 23:45:01', '2024-03-01 06:07:08', '2021-04-01 14:15:16'],
    'value': [100, 201, 302, 404]
}
df = pd.DataFrame(data)
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    4 non-null      object
 1   value   4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 196.0+ bytes
None


In [3]:
# 문자열을 날짜 형식으로 변환
df['date'] = pd.to_datetime(df['date'])

print(df.head(2))
print(df.dtypes)

                 date  value
0 2024-01-01 12:34:56    100
1 2024-02-01 23:45:01    201
date     datetime64[ns]
value             int64
dtype: object


In [None]:
# 비표준화 형식의 날짜 문자열의 경우 날짜 형식으로 자동 변환되지 않음

pd.to_datetime('02-2024-01')

DateParseError: day is out of range for month: 02-2024-01, at position 0

In [None]:
# format = '%m-%Y-%d'로 해결

pd.to_datetime('02-2024-01', format='%m-%Y-%d')

Timestamp('2024-02-01 00:00:00')

In [None]:
pd.to_datetime('2024년 01월 01일', format='%Y년 %m월 %d일')

Timestamp('2024-01-01 00:00:00')

In [4]:
# 연도 추출
df['year'] = df['date'].dt.year

# 월 추출
df['month'] = df['date'].dt.month

# 일 추출
df['day'] = df['date'].dt.day

# 요일 추출
df['wday'] = df['date'].dt.weekday
df['wday2'] = df['date'].dt.day_name()

# 시간 추출
df['hour'] = df['date'].dt.hour

# 분 추출
df['minute'] = df['date'].dt.minute

# 초 추출
df['second'] = df['date'].dt.second

# 년-월-일 출력
print(df['date'].dt.date)

# df 확인
print(df.head(2))

0    2024-01-01
1    2024-02-01
2    2024-03-01
3    2021-04-01
Name: date, dtype: object
                 date  value  year  month  day  wday     wday2  hour  minute  \
0 2024-01-01 12:34:56    100  2024      1    1     0    Monday    12      34   
1 2024-02-01 23:45:01    201  2024      2    1     3  Thursday    23      45   

   second  
0      56  
1       1  


In [None]:
# 현재 날짜 생성
current_date = pd.to_datetime('2024-05-01')

# 날짜 차이 계산
df['days_diff'] = (current_date - df['date']).dt.days

print(df.head(2))

                 date  value  year  month  day  wday     wday2  hour  minute  \
0 2024-01-01 12:34:56    100  2024      1    1     0    Monday    12      34   
1 2024-02-01 23:45:01    201  2024      2    1     3  Thursday    23      45   

   second  days_diff  
0      56        120  
1       1         89  


In [None]:
# 날짜 범위 생성
date_range = pd.date_range(start = '2021-01-01', end = '2021-01-10', freq = 'D')

print(date_range)

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10'],
              dtype='datetime64[ns]', freq='D')


In [None]:
import pandas as pd
df['date2'] = pd.to_datetime(dict(year = df.year, month=df.month, day=df.day))

print(df[['date', 'date2']])

                 date      date2
0 2024-01-01 12:34:56 2024-01-01
1 2024-02-01 23:45:01 2024-02-01
2 2024-03-01 06:07:08 2024-03-01
3 2021-04-01 14:15:16 2021-04-01


In [None]:
# 문자열 처리

import pandas as pd

data = {
    '가전제품': ['냉장고', '세탁기', '전자레인지', '에어컨', '청소기'],
    '브랜드': ['LG', 'Samsung', 'Panasonic', 'Daikin', 'Dyson']
}

df=pd.DataFrame(data)

In [None]:
# 문자열 길이
df['제품명_길이'] = df['가전제품'].str.len()
df['브랜드_길이'] = df['브랜드'].str.len()

print(df.head(2))

  가전제품      브랜드  제품명_길이  브랜드_길이
0  냉장고       LG       3       2
1  세탁기  Samsung       3       7


In [None]:
# 대소문자 변환
df['브랜드_소문자'] = df['브랜드'].str.lower()
df['브랜드_대문자'] = df['브랜드'].str.upper()

print(df[['브랜드', '브랜드_소문자', '브랜드_대문자']])

         브랜드    브랜드_소문자    브랜드_대문자
0         LG         lg         LG
1    Samsung    samsung    SAMSUNG
2  Panasonic  panasonic  PANASONIC
3     Daikin     daikin     DAIKIN
4      Dyson      dyson      DYSON
    가전제품        브랜드  제품명_길이  브랜드_길이    브랜드_소문자    브랜드_대문자
0    냉장고         LG       3       2         lg         LG
1    세탁기    Samsung       3       7    samsung    SAMSUNG
2  전자레인지  Panasonic       5       9  panasonic  PANASONIC
3    에어컨     Daikin       3       6     daikin     DAIKIN
4    청소기      Dyson       3       5      dyson      DYSON


In [None]:
# 문자열 포함 여부
df['브랜드에_a포함'] = df['브랜드'].str.contains('a')

print(df[['브랜드', '브랜드에_a포함']])

         브랜드  브랜드에_a포함
0         LG     False
1    Samsung      True
2  Panasonic      True
3     Daikin      True
4      Dyson     False


In [None]:
# 문자열 교체
df['브랜드_언더스코어'] = df['브랜드'].str.replace('L', 'HHHG')

print(df[['브랜드','브랜드_언더스코어']])

         브랜드  브랜드_언더스코어
0         LG      HHHGG
1    Samsung    Samsung
2  Panasonic  Panasonic
3     Daikin     Daikin
4      Dyson      Dyson


In [None]:
# 문자열 분할
df[['브랜드_첫부분', '브랜드_두번째', '브랜드_세번째']] = df['브랜드'].str.split('a', expand=True)

print(df[['브랜드','브랜드_첫부분', '브랜드_두번째', '브랜드_세번째']])

         브랜드 브랜드_첫부분 브랜드_두번째 브랜드_세번째
0         LG      LG    None    None
1    Samsung       S   msung    None
2  Panasonic       P       n   sonic
3     Daikin       D    ikin    None
4      Dyson   Dyson    None    None


In [None]:
# 문자열 결합
df['제품_브랜드'] = df['가전제품'].str.cat(df['브랜드'], sep =', ')

print(df[['가전제품', '제품_브랜드']])

    가전제품            제품_브랜드
0    냉장고           냉장고, LG
1    세탁기      세탁기, Samsung
2  전자레인지  전자레인지, Panasonic
3    에어컨       에어컨, Daikin
4    청소기        청소기, Dyson


In [None]:
# 문자열 앞뒤 공백 제거 strip()

df['가전제품']  = df['가전제품'].str.replace('전자레인지', '전자레인지  ')
df['가전제품_공백제거'] = df['가전제품'].str.strip()

print(df[['가전제품', '가전제품_공백제거']])

      가전제품 가전제품_공백제거
0      냉장고       냉장고
1      세탁기       세탁기
2  전자레인지       전자레인지
3      에어컨       에어컨
4      청소기       청소기


In [5]:
# 예제 데이터 프레임 생성
import pandas as pd

data = {
    '주소': ['서울특별시 강남구 테헤란로 123', '부산광역시 해운대구 센텀중앙로 45', '대구광역시 수성구 동대구로 77-9@@##', '인천광역시 남동구 예술로 501&&, 아트센터', '광주광역시 북구 용봉로 123']
}
df = pd.DataFrame(data)

In [None]:
df['도시'] = df['주소'].str.extract(r'([가-힣]+광역시|[가-힣]+특별시)', expand = False)
print(df)

                          주소     도시
0         서울특별시 강남구 테헤란로 123  서울특별시
1        부산광역시 해운대구 센텀중앙로 45  부산광역시
2    대구광역시 수성구 동대구로 77-9@@##  대구광역시
3  인천광역시 남동구 예술로 501&&, 아트센터  인천광역시
4           광주광역시 북구 용봉로 123  광주광역시


In [6]:
# 모든 특수 문자 추출
special_chars = df['주소'].str.extractall(r'([^a-zA-Z0-9가-힣\s])')
print(special_chars)

         0
  match   
2 0      -
  1      @
  2      @
  3      #
  4      #
3 0      &
  1      &
  2      ,


In [7]:
# 특수 문자 제거
df['주소_특수문자제거'] = df['주소'].str.replace(r'[^a-zA-Z0-9가-힣\s]', '', regex=True)
print(df['주소_특수문자제거'])

0        서울특별시 강남구 테헤란로 123
1       부산광역시 해운대구 센텀중앙로 45
2        대구광역시 수성구 동대구로 779
3    인천광역시 남동구 예술로 501 아트센터
4          광주광역시 북구 용봉로 123
Name: 주소_특수문자제거, dtype: object
