- 텍스트 데이터는 규칙 없이 지저분한 경우가 많음
  - 잘못된 문자, 부적절한 대소문자, 공백 등
- 데이터를 정리하는 과정: **랭글링, 먼징**
- 판다스는 형식이 잘못된 텍스트 값을 정리하는 어려움을 해소하는 메서드를 제공

# 대소문자 변환과 공백

In [1]:
import pandas as pd

In [2]:
inspections = pd.read_csv("chicago_food_inspections.csv")
inspections

Unnamed: 0,Name,Risk
0,MARRIOT MARQUIS CHICAGO,Risk 1 (High)
1,JETS PIZZA,Risk 2 (Medium)
2,ROOM 1520,Risk 3 (Low)
3,MARRIOT MARQUIS CHICAGO,Risk 1 (High)
4,CHARTWELLS,Risk 1 (High)
...,...,...
153805,WOLCOTT'S,Risk 1 (High)
153806,DUNKIN DONUTS/BASKIN-ROBBINS,Risk 2 (Medium)
153807,Cafe 608,Risk 1 (High)
153808,mr.daniel's,Risk 1 (High)


In [3]:
inspections["Name"].head().values

array([' MARRIOT MARQUIS CHICAGO   ', ' JETS PIZZA ', '   ROOM 1520 ',
       '  MARRIOT MARQUIS CHICAGO  ', ' CHARTWELLS   '], dtype=object)

- 문자열의 공백 문제 다루기

In [4]:
#Series 객체의 str속성 -> 문자열 처리 메서드를 제공하는 StringMethods객체에 접근 가능
#문자열 조작 시 StringMethods 객체의 메서드를 호출
inspections["Name"].str

<pandas.core.strings.accessor.StringMethods at 0x1e9c71b2500>

In [5]:
#str.strip계열의 메서드로 문자열 공백 제거-lstrip(문자열 시작 부분에서 공백 제거)
dessert = "   cheesecake   "
dessert.lstrip()

'cheesecake   '

In [6]:
#str.strip계열의 메서드로 문자열 공백 제거-rstrip(문자열 끝에서 공백 제거)
dessert.rstrip()

'   cheesecake'

In [7]:
#str.strip 메서드: 문자열 양쪽 끝에서 공백 제거
dessert.strip()

'cheesecake'

In [8]:
#StringMethods 객체에서 str.strip계열 메서드 사용 가능
inspections["Name"].str.lstrip().head()

0    MARRIOT MARQUIS CHICAGO   
1                   JETS PIZZA 
2                    ROOM 1520 
3     MARRIOT MARQUIS CHICAGO  
4                 CHARTWELLS   
Name: Name, dtype: object

In [9]:
inspections["Name"].str.rstrip().head()

0      MARRIOT MARQUIS CHICAGO
1                   JETS PIZZA
2                    ROOM 1520
3      MARRIOT MARQUIS CHICAGO
4                   CHARTWELLS
Name: Name, dtype: object

In [10]:
inspections["Name"].str.strip().head()

0    MARRIOT MARQUIS CHICAGO
1                 JETS PIZZA
2                  ROOM 1520
3    MARRIOT MARQUIS CHICAGO
4                 CHARTWELLS
Name: Name, dtype: object

In [11]:
inspections["Name"] = inspections["Name"].str.strip()

In [12]:
#columns 속성: DataFrame의 열 이름의 목록을 나타내는 반복 가능한 Index객체를 반환
inspections.columns

Index(['Name', 'Risk'], dtype='object')

In [13]:
#모든 DataFrame의 열에 str.strip()을 적용
for column in inspections.columns:
    inspections[column] = inspections[column].str.strip()

In [14]:
#StringMethods 객체에서 파이썬의 모든 대소문자 변환 메서드 사용 가능
inspections["Name"].str.lower().head()

0    marriot marquis chicago
1                 jets pizza
2                  room 1520
3    marriot marquis chicago
4                 chartwells
Name: Name, dtype: object

In [15]:
steaks = pd.Series(["porterhouse", "filet mignon", "ribeye"])
steaks.str.upper()

0     PORTERHOUSE
1    FILET MIGNON
2          RIBEYE
dtype: object

In [16]:
#문자열의 첫 번째 문자만 대문자로 표기
inspections["Name"].str.capitalize().head()

0    Marriot marquis chicago
1                 Jets pizza
2                  Room 1520
3    Marriot marquis chicago
4                 Chartwells
Name: Name, dtype: object

In [17]:
#문자열 각 단어의 첫 번째 문자를 대문자로 표기
inspections["Name"].str.title().head()

0    Marriot Marquis Chicago
1                 Jets Pizza
2                  Room 1520
3    Marriot Marquis Chicago
4                 Chartwells
Name: Name, dtype: object

# 문자열 슬라이싱

In [18]:
inspections["Risk"].head()

0      Risk 1 (High)
1    Risk 2 (Medium)
2       Risk 3 (Low)
3      Risk 1 (High)
4      Risk 1 (High)
Name: Risk, dtype: object

In [19]:
#범주형으로 추정 -> 데이터셋의 크기부터 확인하여 변수를 체크
len(inspections)

153810

In [20]:
inspections["Risk"].unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)', 'All', nan],
      dtype=object)

In [21]:
#NaN은 제거, All은 'Risk 4(Extreme)'으로 치환
inspections = inspections.dropna(subset = ["Risk"])
inspections = inspections.replace(
    to_replace = "All", value = "Risk 4 (Extreme)"
)

In [22]:
inspections["Risk"].unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)',
       'Risk 4 (Extreme)'], dtype=object)

# 문자열 슬라이싱과 문자 치환
- StringMethods 객체의 slice 메서드를 사용
  - 인덱스 위치를 기반으로 문자열에서 하위 문자열 추출 가능
  - 시작 인덱스(하한), 끝 인덱스(상한)를 인수로 받음
  - 하한은 범위에 포함O, 상한은 범위에 포함X

In [23]:
inspections["Risk"].str.slice(5, 6).head()

0    1
1    2
2    3
3    1
4    1
Name: Risk, dtype: object

In [24]:
#파이썬의 리스트 슬라이싱 구문으로 slice 메서드 대체 가능
inspections["Risk"].str[5:6].head()

0    1
1    2
2    3
3    1
4    1
Name: Risk, dtype: object

- 범주형 위험도 유형을 추출 -> 단어의 길이가 제각각 
  - 정규식: 가장 활용성이 높음
  - 슬라이싱 기법을 사용: 인덱스 위치 8에서 문자열 끝까지 문자를 가져오기

In [25]:
inspections["Risk"].str.slice(8, -1).head()

0      High
1    Medium
2       Low
3      High
4      High
Name: Risk, dtype: object

In [26]:
inspections["Risk"].str[8:-1].head()

0      High
1    Medium
2       Low
3      High
4      High
Name: Risk, dtype: object

In [27]:
inspections["Risk"].str.slice(8).str.replace(")", "", regex=True).head()

0      High
1    Medium
2       Low
3      High
4      High
Name: Risk, dtype: object

# 불리언 메서드
- StringMethods 객체에는 불리언 Series를 반환하는 메서드가 존재
  - DataFrame을 필터링 시 유용

In [28]:
#in 연산자로 하위 문자열 검색 가능
"Pizza" in "Jets Pizza"

True

In [29]:
#문자열 검색에선 대소문자 구분이 문제가 됨.
"pizza" in "Jets Pizza"

False

In [30]:
#str.contain 메서드: 각 Series값에 하위 문자열이 포함되어있는지 확인 후 bool값의 Series 반환
inspections["Name"].str.lower().str.contains("pizza").head()

0    False
1     True
2    False
3    False
4    False
Name: Name, dtype: bool

In [31]:
has_pizza = inspections["Name"].str.lower().str.contains("pizza")
inspections[has_pizza]

Unnamed: 0,Name,Risk
1,JETS PIZZA,Risk 2 (Medium)
19,NANCY'S HOME OF STUFFED PIZZA,Risk 1 (High)
27,"NARY'S GRILL & PIZZA ,INC.",Risk 1 (High)
29,NARYS GRILL & PIZZA,Risk 1 (High)
68,COLUTAS PIZZA,Risk 1 (High)
...,...,...
153756,ANGELO'S STUFFED PIZZA CORP,Risk 1 (High)
153764,COCHIAROS PIZZA #2,Risk 1 (High)
153772,FERNANDO'S MEXICAN GRILL & PIZZA,Risk 1 (High)
153788,REGGIO'S PIZZA EXPRESS,Risk 1 (High)


In [32]:
#str.startswith 메서드: 문자열이 인수로 시작하면 True를 반환하는 Series 반환
starts_with_tacos = (
    inspections["Name"].str.lower().str.startswith("tacos")
)
inspections[starts_with_tacos]

Unnamed: 0,Name,Risk
69,TACOS NIETOS,Risk 1 (High)
556,TACOS EL TIO 2 INC.,Risk 1 (High)
675,TACOS DON GABINO,Risk 1 (High)
958,TACOS EL TIO 2 INC.,Risk 1 (High)
1036,TACOS EL TIO 2 INC.,Risk 1 (High)
...,...,...
143587,TACOS DE LUNA,Risk 1 (High)
144026,TACOS GARCIA,Risk 1 (High)
146174,Tacos Place's 1,Risk 1 (High)
147810,TACOS MARIO'S LIMITED,Risk 1 (High)


In [33]:
#str.endswith 메서드: 하위 문자열이 문자열의 끝에 있는지 확인하고 bool값 Series 반환
ends_with_tacos = (
    inspections["Name"].str.lower().str.endswith("tacos")
)
inspections[ends_with_tacos]

Unnamed: 0,Name,Risk
382,LAZO'S TACOS,Risk 1 (High)
569,LAZO'S TACOS,Risk 1 (High)
2652,FLYING TACOS,Risk 3 (Low)
3250,JONY'S TACOS,Risk 1 (High)
3812,PACO'S TACOS,Risk 1 (High)
...,...,...
151121,REYES TACOS,Risk 1 (High)
151318,EL MACHO TACOS,Risk 1 (High)
151801,EL MACHO TACOS,Risk 1 (High)
153087,RAYMOND'S TACOS,Risk 1 (High)


# 문자열 분할

In [34]:
customers = pd.read_csv("customers.csv")
customers.head()

Unnamed: 0,Name,Address
0,Frank Manning,"6461 Quinn Groves, East Matthew, New Hampshire..."
1,Elizabeth Johnson,"1360 Tracey Ports Apt. 419, Kyleport, Vermont,..."
2,Donald Stephens,"19120 Fleming Manors, Prestonstad, Montana, 23495"
3,Michael Vincent III,"441 Olivia Creek, Jimmymouth, Georgia, 82991"
4,Jasmine Zamora,"4246 Chelsey Ford Apt. 310, Karamouth, Utah, 7..."


In [35]:
customers["Name"].str.len().head()

0    13
1    17
2    15
3    19
4    14
Name: Name, dtype: int64

In [36]:
#Name을 이름과 성이라는 두 개의 열로 분리 - split 메서드(구분 기호 사용)
phone_number = "555-123-4567"
phone_number.split("-")

['555', '123', '4567']

In [37]:
#str.split 메서드: Series의 각 행에 대해 파이썬의 split 메서드를 적용
#첫 번째 매개변수: pat에 구분 기호를 전달
customers["Name"].str.split(pat = " ").head() 
#customers["Name"].str.split(" ").head()

0           [Frank, Manning]
1       [Elizabeth, Johnson]
2         [Donald, Stephens]
3    [Michael, Vincent, III]
4          [Jasmine, Zamora]
Name: Name, dtype: object

In [38]:
#접미사 때문에 일부 이름은 세 단어 이상으로 구성됨
customers["Name"].str.split(" ").str.len().head()

0    2
1    2
2    2
3    3
4    2
Name: Name, dtype: int64

In [39]:
#str.split 메서드의 매개변수 n에 인수를 전달하면 분할하는 개수를 제한 가능
customers["Name"].str.split(pat = " ", n = 1).head()

0          [Frank, Manning]
1      [Elizabeth, Johnson]
2        [Donald, Stephens]
3    [Michael, Vincent III]
4         [Jasmine, Zamora]
Name: Name, dtype: object

In [40]:
#str.get 메서드를 사용하여 인덱스 위치를 기반으로 각 행의 리스트에서 값을 가져올 수 있음
customers["Name"].str.split(pat = " ", n = 1).str.get(0).head()

0        Frank
1    Elizabeth
2       Donald
3      Michael
4      Jasmine
Name: Name, dtype: object

In [41]:
customers["Name"].str.split(pat = " ", n = 1).str.get(1).head()

0        Manning
1        Johnson
2       Stephens
3    Vincent III
4         Zamora
Name: Name, dtype: object

In [42]:
customers["Name"].str.split(pat = " ", n = 1).str.get(-1).head()

0        Manning
1        Johnson
2       Stephens
3    Vincent III
4         Zamora
Name: Name, dtype: object

In [43]:
#str.split메서드의 expand 매개변수: 리스트 Series 대신 새로운 DataFrame 반환
customers["Name"].str.split(
    pat = " ", n = 1, expand = True
).head()

Unnamed: 0,0,1
0,Frank,Manning
1,Elizabeth,Johnson
2,Donald,Stephens
3,Michael,Vincent III
4,Jasmine,Zamora


In [44]:
#매개변수 n으로 분할 개수를 제한하지 않으면 요소가 불충분한 행에 None값을 배치
customers["Name"].str.split(pat = " ", expand = True).head()

Unnamed: 0,0,1,2
0,Frank,Manning,
1,Elizabeth,Johnson,
2,Donald,Stephens,
3,Michael,Vincent,III
4,Jasmine,Zamora,


In [45]:
#새로운 열을 추가하고 채우기
customers[["First Name", "Last Name"]] = customers["Name"].str.split(pat=" ",n=1,expand=True)
customers

Unnamed: 0,Name,Address,First Name,Last Name
0,Frank Manning,"6461 Quinn Groves, East Matthew, New Hampshire...",Frank,Manning
1,Elizabeth Johnson,"1360 Tracey Ports Apt. 419, Kyleport, Vermont,...",Elizabeth,Johnson
2,Donald Stephens,"19120 Fleming Manors, Prestonstad, Montana, 23495",Donald,Stephens
3,Michael Vincent III,"441 Olivia Creek, Jimmymouth, Georgia, 82991",Michael,Vincent III
4,Jasmine Zamora,"4246 Chelsey Ford Apt. 310, Karamouth, Utah, 7...",Jasmine,Zamora
...,...,...,...,...
9956,Dana Browning,"762 Andrew Views Apt. 254, North Paul, New Mex...",Dana,Browning
9957,Amanda Anderson,"44188 Day Crest Apt. 901, Lake Marcia, Maine, ...",Amanda,Anderson
9958,Eric Davis,"73015 Michelle Squares, Watsonville, West Virg...",Eric,Davis
9959,Taylor Hernandez,"129 Keith Greens, Haleyfurt, Oklahoma, 98916",Taylor,Hernandez


In [46]:
#기존 열 삭제: drop 메서드 사용
#label 매개변수, axis 매개변수
customers = customers.drop(labels = "Name", axis = "columns")
customers.head()

Unnamed: 0,Address,First Name,Last Name
0,"6461 Quinn Groves, East Matthew, New Hampshire...",Frank,Manning
1,"1360 Tracey Ports Apt. 419, Kyleport, Vermont,...",Elizabeth,Johnson
2,"19120 Fleming Manors, Prestonstad, Montana, 23495",Donald,Stephens
3,"441 Olivia Creek, Jimmymouth, Georgia, 82991",Michael,Vincent III
4,"4246 Chelsey Ford Apt. 310, Karamouth, Utah, 7...",Jasmine,Zamora


# 코딩 챌린지
- customers.csv 데이터셋의 주소 열을 네 가지 값으로 분리, Street, City, State, Zip이라는 열에 할당 후 기존 주소 열을 삭제

In [47]:
customers["Address"].str.split(" ").head()

0    [6461, Quinn, Groves,, East, Matthew,, New, Ha...
1    [1360, Tracey, Ports, Apt., 419,, Kyleport,, V...
2    [19120, Fleming, Manors,, Prestonstad,, Montan...
3    [441, Olivia, Creek,, Jimmymouth,, Georgia,, 8...
4    [4246, Chelsey, Ford, Apt., 310,, Karamouth,, ...
Name: Address, dtype: object

In [48]:
customers["Address"].str.split(",").head()

0    [6461 Quinn Groves,  East Matthew,  New Hampsh...
1    [1360 Tracey Ports Apt. 419,  Kyleport,  Vermo...
2    [19120 Fleming Manors,  Prestonstad,  Montana,...
3    [441 Olivia Creek,  Jimmymouth,  Georgia,  82991]
4    [4246 Chelsey Ford Apt. 310,  Karamouth,  Utah...
Name: Address, dtype: object

In [49]:
customers["Address"].str.split(pat = ", ", n = 4, expand = True).head()

Unnamed: 0,0,1,2,3
0,6461 Quinn Groves,East Matthew,New Hampshire,16656
1,1360 Tracey Ports Apt. 419,Kyleport,Vermont,31924
2,19120 Fleming Manors,Prestonstad,Montana,23495
3,441 Olivia Creek,Jimmymouth,Georgia,82991
4,4246 Chelsey Ford Apt. 310,Karamouth,Utah,76252


In [50]:
customers[["Street", "City", "State", "Zip"]] = customers["Address"].str.split(pat = ", ", n = 4, expand = True)
customers = customers.drop(labels = "Address", axis = "columns")
#del customers["Address"]
customers.head()

Unnamed: 0,First Name,Last Name,Street,City,State,Zip
0,Frank,Manning,6461 Quinn Groves,East Matthew,New Hampshire,16656
1,Elizabeth,Johnson,1360 Tracey Ports Apt. 419,Kyleport,Vermont,31924
2,Donald,Stephens,19120 Fleming Manors,Prestonstad,Montana,23495
3,Michael,Vincent III,441 Olivia Creek,Jimmymouth,Georgia,82991
4,Jasmine,Zamora,4246 Chelsey Ford Apt. 310,Karamouth,Utah,76252


# 정규 표현식에 대한 참고 사항
- RegEx: 문자열 내에서 일련의 문자를 찾는 검색 패턴
- 기호로 문자로 구성된 특수구문으로 선언
- 소문자, 대문자, 숫자, 슬래시, 공백, 문자열 경계 등으로 검색 패턴 정의 가능

In [51]:
customers["Street"].head()

0             6461 Quinn Groves
1    1360 Tracey Ports Apt. 419
2          19120 Fleming Manors
3              441 Olivia Creek
4    4246 Chelsey Ford Apt. 310
Name: Street, dtype: object

In [53]:
customers["Street"].str.replace("\d{4,}", "*", regex = True).head()

0             * Quinn Groves
1    * Tracey Ports Apt. 419
2           * Fleming Manors
3           441 Olivia Creek
4    * Chelsey Ford Apt. 310
Name: Street, dtype: object