<a href="https://colab.research.google.com/github/weepingwillow2001/data_analysis_practice/blob/main/7%EC%9E%A5/7_4_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import re

In [None]:
# 1. 판다스의 문자열 함수 사용하기

# 사전형 데이터 생성
data = {"Dave": "dave@google.com", "Steve": "steve@gmail.com",
        "Rob": "rob@gmail.com", "Wes": np.nan}

# Series 객체로 변환
data = pd.Series(data)
print(data)


Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object


In [None]:
# isna() 메서드를 사용하여 NaN 값 확인
print(data.isna())

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool


In [None]:
# 2. 문자열(str) 내 패턴 검색 (contains)

# 'gmail'이 포함된 이메일 찾기
print(data.str.contains('gmail'))


Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object


'\nDave     False\nSteve     True\nRob       True\nWes       NaN\ndtype: object\n'

In [None]:
# 3. 데이터 타입 변환 (astype)

# 문자열 타입으로 변환
data_as_string_ext = data.astype('string')
print(data_as_string_ext)


Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                 <NA>
dtype: string


In [None]:
# 문자열 타입으로 변환 후 contains 메서드 사용
print(data_as_string_ext.str.contains('gmail'))


Dave     False
Steve     True
Rob       True
Wes       <NA>
dtype: boolean


'\nDave     False\nSteve     True\nRob       True\nWes       <NA>\ndtype: boolean\n'

In [None]:
# 4. 정규식을 사용한 패턴 검색 (findall)

# 이메일 주소 패턴을 정규식으로 정의
pattern = r"([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})"

# 문자열 한정, 정규식 패턴으로 찾기 (대소문자 구분 없이)
print(data.str.findall(pattern, flags=re.IGNORECASE))


Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object


'\nDave    [(dave, google, com)]\nSteve    [(steve, gmail, com)]\nRob       [(rob, gmail, com)]\nWes                      NaN\ndtype: object\n'

In [None]:
# 5. 매칭된 결과 추출하기
data1 = {
    "Dave": "dave@google.com",
    "Steve": "steve@gmail.com",
    "Rob": "rob@gmail.com",
    "Wes": np.nan,
    # "여러 매치"가 있는 새로운 데이터 추가
    "Alice": "Contact alice@yahoo.com or alice.work@gmail.com for info",
    "John": "Primary: john@outlook.com, Secondary: john.doe@company.com, Personal: jdoe@gmail.com"
}

data1 = pd.Series(data1)
print(data1)

pattern = r"([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})"

Dave                                       dave@google.com
Steve                                      steve@gmail.com
Rob                                          rob@gmail.com
Wes                                                    NaN
Alice    Contact alice@yahoo.com or alice.work@gmail.co...
John     Primary: john@outlook.com, Secondary: john.doe...
dtype: object


In [None]:
# 매칭된 결과에서 "첫 번째 매치된 '패턴'"만 가져오기: .str[]
matches = data1.str.findall(pattern, flags=re.IGNORECASE).str[0]
print(matches)

# 두 번째 이메일인 "alice.work@gmail.com"은 무시됩니다.
# 마찬가지로 John의 경우도 뒤에 나오는 나머지 이메일들은 무시됩니다.

Dave      (dave, google, com)
Steve     (steve, gmail, com)
Rob         (rob, gmail, com)
Wes                       NaN
Alice     (alice, yahoo, com)
John     (john, outlook, com)
dtype: object


In [None]:
# 매칭된 결과에서 두 번째 항목(도메인) 가져오기: get
print(matches.str.get(1))


Dave      google
Steve      gmail
Rob        gmail
Wes          NaN
Alice      yahoo
John     outlook
dtype: object


In [None]:
# 6. 문자열 슬라이싱과 추출

# 문자열의 첫 5글자 가져오기
print(data.str[:5])


Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object


In [None]:
# extract 메서드를 사용하여 정규식 "그룹" 결과를 "DataFrame"으로 변환
print(data.str.extract(pattern, flags=re.IGNORECASE))


           0       1    2
Dave    dave  google  com
Steve  steve   gmail  com
Rob      rob   gmail  com
Wes      NaN     NaN  NaN


'\n        0      1    2\nDave  dave  google  com\nSteve steve  gmail  com\nRob    rob  gmail  com\nWes    NaN    NaN  NaN\n'