## str 함수들 개요
> str 함수들은 DataFrame의 열이나 Series의 문자열 데이터를 처리하는 데 사용됩니다. Pandas는 문자열을 직접 다룰 수 있도록 다양한 메서드를 제공합니다. 각 메서드는 일반적으로 str.<method_name> 형태로 사용됩니다.


> - ### 문자열 변환: str.lower(), str.upper(), str.title()
> - ### 공백 및 특정 문자 처리: str.strip(), str.replace(), str.contains()
> - ### 패턴 추출 및 분할: str.extract(), str.split(), str.findall()
> - ### 길이 계산 및 숫자 채우기: str.len(), str.zfill()
> - ### 문자열 결합: str.cat()

> str.lower() / str.upper()
- str.lower(): 문자열을 모두 소문자로 변환합니다.
- str.upper(): 문자열을 모두 대문자로 변환합니다.

In [2]:
import pandas as pd

# 예시 데이터
df = pd.DataFrame({
    'Name': ['Alice', 'BOB', 'Charlie', 'dAVID']
})

df


Unnamed: 0,Name
0,Alice
1,BOB
2,Charlie
3,dAVID


In [3]:
# 소문자 변환
df['name_lower'] = df['Name'].str.lower()

# 대문자 변환
df['name_upper'] = df['Name'].str.upper()

print(df)


      Name name_lower name_upper
0    Alice      alice      ALICE
1      BOB        bob        BOB
2  Charlie    charlie    CHARLIE
3    dAVID      david      DAVID


> str.strip() / str.lstrip() / str.rstrip()
- str.strip(): 문자열 양쪽에 있는 공백(또는 다른 문자)을 제거합니다.
- str.lstrip(): 문자열 왼쪽에서 공백(또는 다른 문자)을 제거합니다.
- str.rstrip(): 문자열 오른쪽에서 공백(또는 다른 문자)을 제거합니다.

In [6]:
import pandas as pd
df = pd.DataFrame({
    'Name': ['  Alice  ', ' Bob ', '  Charlie  ', ' David ']
})
df.iloc[2,0]

'  Charlie  '

In [7]:
df["Name"] = df["Name"].str.strip()
df.iloc[2,0]

'Charlie'

In [None]:

# 양쪽 공백 제거
df['name_stripped'] = df['Name'].str.strip()

# 왼쪽 공백 제거
df['name_lstrip'] = df['Name'].str.lstrip()

# 오른쪽 공백 제거
df['name_rstrip'] = df['Name'].str.rstrip()

print(df)


In [9]:
df = pd.DataFrame({
    'Email': ['alice@company.com', 'bob@never.com', 'charlie@company.com']
})

# 도메인 변경
df['NewEmail'] = df['Email'].str.replace('@never.com', '@naver.com')

print(df)

                 Email             NewEmail
0    alice@company.com    alice@company.com
1        bob@never.com        bob@naver.com
2  charlie@company.com  charlie@company.com


In [10]:
df[["NewEmail"]]

Unnamed: 0,NewEmail
0,alice@company.com
1,bob@naver.com
2,charlie@company.com


> str.contains()
- str.contains(substring): 문자열이 특정 부분 문자열을 포함하는지 여부를 확인하여 True 또는 False로 반환합니다.

In [13]:
df = pd.DataFrame({
    'Name': ['스타벅스-명일점','카페베네','이디야','스타벅스', '스타벅스-홍대점', '스타벅스-공일점']
})

# 'a'가 포함된 이름 확인
print(df[df['Name'].str.contains('스타벅스')]) 



       Name
0  스타벅스-명일점
3      스타벅스
4  스타벅스-홍대점
5  스타벅스-공일점


> str.startswith() / str.endswith()
- str.startswith(prefix): 문자열이 특정 접두사로 시작하는지 확인합니다.
- str.endswith(suffix): 문자열이 특정 접미사로 끝나는지 확인합니다.

In [6]:
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David']
})

# 'A'로 시작하는 이름 확인
df['starts_with_A'] = df['Name'].str.startswith('A')

# 'e'로 끝나는 이름 확인
df['ends_with_e'] = df['Name'].str.endswith('e')

print(df)


      Name  starts_with_A  ends_with_e
0    Alice           True         True
1      Bob          False        False
2  Charlie          False         True
3    David          False        False


> str.split()
-  str.split(delimiter): 문자열을 구분자로 나눕니다.

In [14]:
df = pd.DataFrame({
    'Full_Name': ['Alice Smith', 'Bob Brown', 'Charlie White']
})

# 공백을 기준으로 이름과 성 나누기
df[['First_Name', 'Last_Name']] = df['Full_Name'].str.split(' ', expand=True)

print(df)


       Full_Name First_Name Last_Name
0    Alice Smith      Alice     Smith
1      Bob Brown        Bob     Brown
2  Charlie White    Charlie     White


> str.extract()
- str.extract(pattern): 정규 표현식 패턴을 이용하여 문자열에서 일치하는 부분을 추출합니다.

In [8]:
df = pd.DataFrame({
    'Email': ['alice123@gmail.com', 'bob456@hotmail.com', 'charlie789@yahoo.com']
})

# 이메일에서 숫자만 추출
df['numbers'] = df['Email'].str.extract(r'(\d+)')

print(df)


                  Email numbers
0    alice123@gmail.com     123
1    bob456@hotmail.com     456
2  charlie789@yahoo.com     789


> str.findall()
- str.findall(pattern): 문자열에서 정규 표현식 패턴에 맞는 모든 부분을 찾아서 반환합니다.

In [10]:
df = pd.DataFrame({
    'text': ['Alice has 3 apples and 2 bananas.', 'Bob has 4 oranges.', 'Charlie has 5 grapes and 1 apple.']
})

# 숫자 찾기
df['numbers'] = df['text'].str.findall(r'\d+')

print(df)


                                text numbers
0  Alice has 3 apples and 2 bananas.  [3, 2]
1                 Bob has 4 oranges.     [4]
2  Charlie has 5 grapes and 1 apple.  [5, 1]


> str.count()
- str.count(substring): 특정 부분 문자열이 문자열에 몇 번 나타나는지 셉니다.

In [11]:
df = pd.DataFrame({
    'text': ['apple pie', 'apple apple pie', 'banana pie', 'pie apple']
})

# 'apple'이 나타나는 횟수 계산
df['apple_count'] = df['text'].str.count('apple')

print(df)


              text  apple_count
0        apple pie            1
1  apple apple pie            2
2       banana pie            0
3        pie apple            1


> str.len()
- str.len(): 문자열의 길이를 반환합니다.

In [12]:
df = pd.DataFrame({
    'text': ['apple', 'banana', 'cherry']
})

# 문자열 길이 계산
df['text_length'] = df['text'].str.len()

print(df)


     text  text_length
0   apple            5
1  banana            6
2  cherry            6


> str.zfill()
- str.zfill(width): 문자열의 길이를 width로 맞추고, 부족한 자리는 0으로 채웁니다.

In [13]:
df = pd.DataFrame({
    'number': ['1', '23', '456']
})

# 5자리로 맞추고 왼쪽에 0을 채우기
df['number_padded'] = df['number'].str.zfill(5)

print(df)


  number number_padded
0      1         00001
1     23         00023
2    456         00456


> str.cat()
- str.cat(sep): 문자열을 결합할 때 구분자를 지정할 수 있습니다.

In [14]:
df = pd.DataFrame({
    'first_name': ['Alice', 'Bob', 'Charlie'],
    'last_name': ['Smith', 'Brown', 'White']
})

# 공백을 기준으로 이름과 성 결합
df['full_name'] = df['first_name'].str.cat(df['last_name'], sep=' ')

print(df)


  first_name last_name      full_name
0      Alice     Smith    Alice Smith
1        Bob     Brown      Bob Brown
2    Charlie     White  Charlie White
