# string 문자열 관련 

```python
# 자주 쓰이는 함수 한눈에 정리
df["column"].str.replace("찾을 대상", "바꿀 값", regex=True) # 문자열을 다른 문자열로 대체

df["column"].str.lower() # 소문자로 변경
df["column"].str.upper() # 대문자로 변경
df["column"].str.capitalize() # 첫글자만 대문자로 변환

df["column"].str.split("구분자") # 특정 구분자를 기준으로 분할하여 리스트로 반환
df["coulmn"].str.startwith("시작 키워드") # 문자열이 특정 접두사로 시작하는지 여부를 확인
df["column"].str.contains("포함 문자") # 키워드 포함 여부
```

## `str.replace( ) ` : 문자열을 다른 패턴 / 문자열로 대체하는 함수

### Example : 빅분기 실기 기출 변형 4회 1번
Temperature컬럼에서 숫자가 아닌 문자들을 제거후 숫자 타입으로 바꾸고 3분위수에서 1분위수의 차이를 소숫점 이하 2자리까지 구하여라  

[데이터 마님 링크](https://www.datamanim.com/dataset/practice/ex4.html#id2)

In [53]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e4_p1_1.csv')
df.head(5)

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.5,2.625,211.350143,8.106


- Temperature 칼럼을 보면 float 형태로 입력되어있음 (하지만 데이터 형태를 확인했을 땐 object)
    - 소수점이 들어가있으니, 숫자와 점이 아닌 모든 문자들을 제거해야함 
    - 따라서 정규식 표현에 따라 `"[^\d.]"`이 되어야함 

In [37]:
df["Temperature"].info() # object 형태

<class 'pandas.core.series.Series'>
RangeIndex: 6435 entries, 0 to 6434
Series name: Temperature
Non-Null Count  Dtype 
--------------  ----- 
6435 non-null   object
dtypes: object(1)
memory usage: 50.4+ KB


In [55]:
df["Temperature"] = pd.to_numeric(df["Temperature"].str.replace("[^\d.]", "", regex = True))

q3 = df["Temperature"].quantile(0.75)
q1 = df["Temperature"].quantile(0.25)
result = q3 - q1
print(round(result, 2))

27.48


## 정규표현식 : 특정 규칙을 가진 문자열을 검색, 치환하기 위해 사용
### 메타 문자 (Meta characters)
- 원래 그 문자가 가진 뜻이 아닌, 특별한 용도로 사용되는 문자
- 메타문자를 직접 문자로서 사용하고 싶은 경우, 역슬래시 \를 앞에 붙여 이스케이프(특수문자로 해석되지 않게)할 수 있음
- 예를 들어 `\.`는 실제로 마침표 문자 자체와 일치

|메타문자|설명|
|----|----|
| . (마침표) | 임의의 한 문자와 일치. 단, 개행 문자를 제외한 모든 문자와 매치|
| 대괄호 [ ]| 대괄호 안에 포함된 문자들 중 하나와 매치|
|[ ]안에 -를 사용|두 문자 사이의 범위. 예를 들어, [a-c] = [abc]|
|^ |반대(not)를 의미|


### 자주 사용하는 문자 클래스

|정규표현식|설명|
|----|----|
|\d 이거나 [0-9]|숫자와 매치|
|[^0-9] 이거나 [^\d] 이거나 [\D] |숫자가 아닌 문자만 매치|

[참고 : [Pandas] 정규표현식 (str.extract, str.contains)](https://velog.io/@hhhs101/Pandas-%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9D-str.extractstr.contains)

## `str.lower( )` : 소문자로 변경

### Example : 빅분기 실기 기출 변형 4회 3번
만약 'country'컬럼에 대소문자 함께 있고, 띄어쓰기가 있는 것도 있고 없는 것도 있을 때 date_added가 2018년 1월 이면서 country가 United Kingdom 단독 제작인 데이터의 갯수

[캐글 링크](https://www.kaggle.com/code/agileteam/4th-type1-python/notebook)


In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e4_p1_3.csv')
# df.head(1)

# atetime으로 변환 !
df["date_added"] = pd.to_datetime(df["date_added"])

# 먼저 다 Lower로 소문자화 해주고, 띄어쓰기를 제거
df["country"] = df["country"].str.lower().str.replace(" ", "")

cond1 = (df["date_added"].dt.year == 2018)
cond2 = (df["date_added"].dt.month == 1)
cond3 = (df["country"] == "unitedkingdom")

result = len(df[cond1 & cond2 & cond3])
print(result)

6


## `str.upper()` : 대문자로 변경

### Exercise : flights 데이터에서 month 칼럼을 모두 대문자로 변경하라.

In [6]:
import seaborn as sns
flights = sns.load_dataset("flights")
flights.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [7]:
flights["month"] = flights["month"].str.upper()
flights.head()

Unnamed: 0,year,month,passengers
0,1949,JAN,112
1,1949,FEB,118
2,1949,MAR,132
3,1949,APR,129
4,1949,MAY,121


## `capitalzie()` :  첫글자만 대문자로 변환

- str.upper()를 적용한 데이터에 대해서, 첫글자만 대문자로 변환


In [8]:
flights["month"] = flights["month"].str.capitalize()
flights.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


## `str.split( )` : 문자열을 특정 구분자를 기준으로 분할하여 리스트로 반환

### `split(' ') vs. split()`

In [57]:
# is와  kiki 사이에 띄어쓰기가 3번 된 sentence
sentence = "My kitty's name is   kiki"

# 구분자를 단일 스페이스로 지정
words = sentence.split(sep=' ')
print(words)
print(len(words))

['My', "kitty's", 'name', 'is', '', '', 'kiki']
7


In [None]:
# is와  kiki 사이에 띄어쓰기가 3번 된 sentence
sentence = "My kitty's name is  kiki"

# 구분자를 단일 스페이스로 지정
words = sentence.split()
print(words)
print(len(words))

['My', "kitty's", 'name', 'is', 'kiki']
5


## `str.startswith( )` : 문자열이 특정 접두사로 시작하는지 여부를 확인
- ~로 시작하는 단어 찾기

### Example : basic1 데이터에서 f4가 E로 시작하면서 부산에 살고 20대인 사람은 몇 명일까요?

[빅분기 캐글 놀이터 - string 키워드 찾기 / 문자 / 슬라이싱](https://www.kaggle.com/code/agileteam/t1-25-str-slicing/notebook)

In [5]:
import pandas as pd
df = pd.read_csv("../Data/basic1.csv")
df.head()

Unnamed: 0,id,age,city,f1,f2,f3,f4,f5
0,id01,2.0,서울,,0,,ENFJ,91.297791
1,id02,9.0,서울,70.0,1,,ENFJ,60.339826
2,id03,27.0,서울,61.0,1,,ISTJ,17.252986
3,id04,75.0,서울,,2,,INFP,52.667078
4,id05,24.0,서울,85.0,2,,ISFJ,29.269869


In [10]:
# 조건에 맞는 행 필터링
filtered_df = df[(df['f4'].str.startswith('E')) & (df['city'] == '부산') & (df['age'] >= 20) & (df['age'] < 30)]

# 필터링된 행의 개수 계산
count = len(filtered_df)

print("조건에 맞는 사람 수: ", count)

0


In [11]:
cond1 = (df["f4"].str.startswith("E"))
cond2 = (df["city"] == "부산")
cond3 = (df["age"] >= 20)
cond4 = (df["age"] < 30)

df_cond = df[cond1 & cond2 & cond3 & cond4]
result = len(df_cond)
print(result)

0


## `str.endswith( )` : 문자열이 특정 단어로 끝나는지 여부를 확인
- ~로 시작하는 끝나는 단어, 숫자 찾기

### Example : passengers 칼럼에서 백의 자리가 3 이거나 일의 자리가 3인 데이터의 수를 구하시오. 

In [4]:
import seaborn as sns
flights = sns.load_dataset("flights")
flights.head()

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [7]:
cond1 = (flights["passengers"] // 100 == 3)
cond2 = (flights["passengers"].astype("string").str.endswith("3"))

result = len(flights[cond1 | cond2])
print(result)

44


## `str.contains( )` : 문자열 데이터를 포함 여부를 확인

In [None]:
df["column"].str.contains(pat, # 찾을 키워드(패턴)
                          case=True, # 대소문자 구분 여부, ture는 구분 O
                          na=None, # 누락 값 처리 방법. 기본값은 None으로 누락된 값을 그대로 반환
                          regex=True) # 정규식

### Example : menu컬럼에 "라떼" 키워드가 있는 데이터의 수는?

[빅분기 캐글 놀이터 - string 키워드 찾기 / 문자 / 포함여부](https://www.kaggle.com/agileteam/t1-26-str-contains)

In [15]:
import pandas as pd
df = pd.read_csv("../Data/payment.csv")
df.head()

Unnamed: 0,date,hour,menu,price
0,20221129,13,딸기라떼,4000
1,20221130,12,카페라떼,3000
2,20221201,14,바닐라라떼,3500
3,20221201,16,초코라떼,3500
4,20221202,17,모카라떼,3500


In [20]:
# sum과 len 다르게 나옴
# true, false 있을 땐 sum 사용
result = sum(df['menu'].str.contains("라떼"))
print(result)

10


### Example : 바닐라라떼 5점, 카페라떼 3점, 아메리카노 2점, 나머지 0점이다. 총 메뉴의 점수를 더한 값은?

[빅분기 캐글 놀이터 - string 키워드 찾기 / 문자 / 공백](https://www.kaggle.com/agileteam/t1-27-str-contains-replace)

In [24]:
import pandas as pd
df = pd.read_csv("../Data/payment.csv")
df

Unnamed: 0,date,hour,menu,price
0,20221129,13,딸기라떼,4000
1,20221130,12,카페라떼,3000
2,20221201,14,바닐라라떼,3500
3,20221201,16,초코라떼,3500
4,20221202,17,모카라떼,3500
5,20221202,12,카라멜라떼,3500
6,20221203,8,챠이 라떼,3500
7,20221203,9,아메리카노,2000
8,20221203,15,오곡 라떼,4000
9,20221203,16,아메리카노,2000


In [29]:
df["menu"] = df["menu"].str.replace(" ", '') # 카페 라떼의 띄어쓰기 제거

# 각각 메뉴 개수 세어주기
s5 = sum(df["menu"].str.contains("바닐라라떼"))
s3 = sum(df["menu"].str.contains("카페라떼"))
s2 = sum(df["menu"].str.contains("아메리카노"))

print(s5 * 5 + s3 * 3 + s2 * 2)
# 나머지는 0점이라 더하지 않아도 됨

17
