In [1]:
# 텍스트 데이터의 경우 규칙 없이 지저분한 경우가 많습니다. 
# 이러한 데이터를 정리하는 과정을 랭글링(wrangling) 또는 먼징(munging)이라고 합니다.

In [2]:
import pandas as pd
import numpy as np

In [35]:
# 데이터를 먼저 불러오죠.
inspections = pd.read_csv(filepath_or_buffer='chicago_food_inspections.csv')
inspections.head()

Unnamed: 0,Name,Risk
0,MARRIOT MARQUIS CHICAGO,Risk 1 (High)
1,JETS PIZZA,Risk 2 (Medium)
2,ROOM 1520,Risk 3 (Low)
3,MARRIOT MARQUIS CHICAGO,Risk 1 (High)
4,CHARTWELLS,Risk 1 (High)


In [36]:
# Name 열을 봐보죠.
inspections['Name'].head()

0     MARRIOT MARQUIS CHICAGO   
1                    JETS PIZZA 
2                     ROOM 1520 
3      MARRIOT MARQUIS CHICAGO  
4                  CHARTWELLS   
Name: Name, dtype: object

In [37]:
# 이렇게 값으로 가져와보면, 이름 앞 뒤에 공백이 있다는 것을 알 수 있습니다.
inspections['Name'].head().values

array([' MARRIOT MARQUIS CHICAGO   ', ' JETS PIZZA ', '   ROOM 1520 ',
       '  MARRIOT MARQUIS CHICAGO  ', ' CHARTWELLS   '], dtype=object)

In [38]:
# 이런 공백이 있는 문자는 3가지 함수로 다룰 수 있는데,
dessert = '    cheese    '
print(dessert)

    cheese    


In [39]:
# lstrip는 왼쪽 공백을 제거하고
dessert.lstrip()

'cheese    '

In [40]:
# rstrip 함수는 오른쪽 공백을 제거하고
dessert.rstrip()

'    cheese'

In [41]:
# strip함수는 양쪽 공백을 제거합니다.
dessert.strip()

'cheese'

In [42]:
# 혹시, Risk 열에도 공백이 존재할 수 있으니 같은 방법을 적용합시다.
inspections.columns

Index(['Name', 'Risk'], dtype='object')

In [45]:
# 두 열 모두에 공백을 제거해줍시다.
for column in inspections.columns:
    inspections[column] = inspections[column].str.strip()

In [47]:
# 스테이크에 대한 문자형 데이터가 있을때,
steaks = pd.Series(['porterhouse', 'filet mignon', 'ribeye'])
steaks

0     porterhouse
1    filet mignon
2          ribeye
dtype: object

In [48]:
# 가장 처음 나오는 문자만 대문자로 바꿉니다.
steaks.str.capitalize()

0     Porterhouse
1    Filet mignon
2          Ribeye
dtype: object

In [49]:
# 첫 문자 외에도 띄어쓰기 이후에 등장하는 첫번째 문자에 대문자 표기를 합니다.
steaks.str.title()

0     Porterhouse
1    Filet Mignon
2          Ribeye
dtype: object

In [50]:
# 글자 전체를 대문자화 시킵니다.
steaks.str.upper()

0     PORTERHOUSE
1    FILET MIGNON
2          RIBEYE
dtype: object

In [51]:
# 글자 전체를 소문자화 시킵니다.
steaks.str.lower()

0     porterhouse
1    filet mignon
2          ribeye
dtype: object

In [52]:
# 이제 Risk 부분을 살펴볼게요.
inspections['Risk'].head()

0      Risk 1 (High)
1    Risk 2 (Medium)
2       Risk 3 (Low)
3      Risk 1 (High)
4      Risk 1 (High)
Name: Risk, dtype: object

In [54]:
# 리스크의 고유의 값은 총 5가지인데, All, nan은 어떻게 처리해야할까요?
inspections['Risk'].unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)', 'All', nan],
      dtype=object)

In [55]:
# 데이터 실무자에 따라 방법이 달라지지만, 우리는 결측치는 제거하고, All은 새로운 Risk로 만들어보죠.

In [56]:
# 먼저 결측치를 제거하고
inspections.dropna(subset=['Risk'], inplace=True)

In [57]:
# All은 Risk 4로 바꾸어줍니다.
inspections.replace(to_replace="All",
                    value="Risk 4 (Extreme)",
                    inplace=True)

In [58]:
inspections['Risk'].unique()

array(['Risk 1 (High)', 'Risk 2 (Medium)', 'Risk 3 (Low)',
       'Risk 4 (Extreme)'], dtype=object)

In [59]:
# 해당 열이 몇번째 리스크인지를 알고 싶을때는 slice 함수를 사용합니다.
inspections['Risk'].str.slice(5, 6)

0         1
1         2
2         3
3         1
4         1
         ..
153805    1
153806    2
153807    1
153808    1
153809    1
Name: Risk, Length: 153744, dtype: object

In [60]:
# slice 대신에 배열 인덱싱으로도 사용할 수 있습니다.
inspections['Risk'].str[5:6]

0         1
1         2
2         3
3         1
4         1
         ..
153805    1
153806    2
153807    1
153808    1
153809    1
Name: Risk, Length: 153744, dtype: object

In [61]:
# 8번째 문자열부터 가져오는데 ) 문자가 걸리적거리네요.
inspections['Risk'].str.slice(8)

0           High)
1         Medium)
2            Low)
3           High)
4           High)
           ...   
153805      High)
153806    Medium)
153807      High)
153808      High)
153809      High)
Name: Risk, Length: 153744, dtype: object

In [62]:
# 8번째 문자열부터 -1번째 문자열로 지정을하면, ) 문자를 지울 수 있습니다.
inspections['Risk'].str.slice(8, -1)

0           High
1         Medium
2            Low
3           High
4           High
           ...  
153805      High
153806    Medium
153807      High
153808      High
153809      High
Name: Risk, Length: 153744, dtype: object

In [63]:
# 아니면 replace를 이용해서 지울 수 있죠.
inspections['Risk'].str.slice(8).str.replace(')', '')

0           High
1         Medium
2            Low
3           High
4           High
           ...  
153805      High
153806    Medium
153807      High
153808      High
153809      High
Name: Risk, Length: 153744, dtype: object

In [64]:
# 어떤 문장 안에 어떤 단어가 들어있는지를 보려면 in을 사용하는데요
'Pizza' in 'Jets Pizza'

True

In [65]:
# 데이터프레임에서는 contains를 사용합니다.
inspections['Name'].str.lower().str.contains('pizza')

0         False
1          True
2         False
3         False
4         False
          ...  
153805    False
153806    False
153807    False
153808    False
153809    False
Name: Name, Length: 153744, dtype: bool

In [66]:
has_pizza = inspections[inspections['Name'].str.lower().str.contains('pizza')]
has_pizza

Unnamed: 0,Name,Risk
1,JETS PIZZA,Risk 2 (Medium)
19,NANCY'S HOME OF STUFFED PIZZA,Risk 1 (High)
27,"NARY'S GRILL & PIZZA ,INC.",Risk 1 (High)
29,NARYS GRILL & PIZZA,Risk 1 (High)
68,COLUTAS PIZZA,Risk 1 (High)
...,...,...
153756,ANGELO'S STUFFED PIZZA CORP,Risk 1 (High)
153764,COCHIAROS PIZZA #2,Risk 1 (High)
153772,FERNANDO'S MEXICAN GRILL & PIZZA,Risk 1 (High)
153788,REGGIO'S PIZZA EXPRESS,Risk 1 (High)


In [67]:
# startswith는 tacos로 시작하는 행만을 추출합니다.
inspections[inspections['Name'].str.lower().str.startswith('tacos')]

Unnamed: 0,Name,Risk
69,TACOS NIETOS,Risk 1 (High)
556,TACOS EL TIO 2 INC.,Risk 1 (High)
675,TACOS DON GABINO,Risk 1 (High)
958,TACOS EL TIO 2 INC.,Risk 1 (High)
1036,TACOS EL TIO 2 INC.,Risk 1 (High)
...,...,...
143587,TACOS DE LUNA,Risk 1 (High)
144026,TACOS GARCIA,Risk 1 (High)
146174,Tacos Place's 1,Risk 1 (High)
147810,TACOS MARIO'S LIMITED,Risk 1 (High)


In [68]:
# endswith는 luna로 끝나는 행만을 추출합니다.
inspections[inspections['Name'].str.lower().str.endswith('luna')]

Unnamed: 0,Name,Risk
31555,THE LASSALE CAFE LUNA,Risk 1 (High)
45899,THE LASSALE CAFE LUNA,Risk 1 (High)
55641,LASALLE CAFE LUNA,Risk 1 (High)
77166,LASALLE CAFE LUNA,Risk 1 (High)
94691,LASALLE CAFE LUNA,Risk 1 (High)
103540,TACOS DE LUNA,Risk 1 (High)
115000,TACOS DE LUNA,Risk 1 (High)
122443,TACOS DE LUNA,Risk 1 (High)
125818,LASALLE CAFE LUNA,Risk 1 (High)
129217,RANCHO LUNA,Risk 1 (High)


In [69]:
# 이번에는 customer의 데이터를 가져와볼까요?
customers = pd.read_csv(filepath_or_buffer='customers.csv')
customers.head()

Unnamed: 0,Name,Address
0,Frank Manning,"6461 Quinn Groves, East Matthew, New Hampshire..."
1,Elizabeth Johnson,"1360 Tracey Ports Apt. 419, Kyleport, Vermont,..."
2,Donald Stephens,"19120 Fleming Manors, Prestonstad, Montana, 23495"
3,Michael Vincent III,"441 Olivia Creek, Jimmymouth, Georgia, 82991"
4,Jasmine Zamora,"4246 Chelsey Ford Apt. 310, Karamouth, Utah, 7..."


In [70]:
# Name의 각 길이는 len()함수로 구할 수 있습니다.
customers['Name'].str.len()

0       13
1       17
2       15
3       19
4       14
        ..
9956    13
9957    15
9958    10
9959    16
9960    16
Name: Name, Length: 9961, dtype: int64

In [71]:
# 특정 문자를 기준으로 나눌 수 있는데,
phone_number = "555-123-4567"
phone_number.split('-')

['555', '123', '4567']

In [72]:
# pat에 값을 대입해서 특정 문자를 기준으로 단어를 분류할 수 있습니다.
customers['Name'].str.split(pat=' ')

0              [Frank, Manning]
1          [Elizabeth, Johnson]
2            [Donald, Stephens]
3       [Michael, Vincent, III]
4             [Jasmine, Zamora]
                 ...           
9956           [Dana, Browning]
9957         [Amanda, Anderson]
9958              [Eric, Davis]
9959        [Taylor, Hernandez]
9960        [Sherry, Nicholson]
Name: Name, Length: 9961, dtype: object

In [73]:
# n을 설정하면 특정 문자를 기준으로 한번만 나눈다는 의미입니다.
customers['Name'].str.split(pat=' ',
                            n=1)

0             [Frank, Manning]
1         [Elizabeth, Johnson]
2           [Donald, Stephens]
3       [Michael, Vincent III]
4            [Jasmine, Zamora]
                 ...          
9956          [Dana, Browning]
9957        [Amanda, Anderson]
9958             [Eric, Davis]
9959       [Taylor, Hernandez]
9960       [Sherry, Nicholson]
Name: Name, Length: 9961, dtype: object

In [74]:
# 이렇게 First Name 부분을 추출 할 수 있습니다.
customers['Name'].str.split(pat=' ',
                            n=1).str[0]
customers['Name'].str.split(pat=' ',
                            n=1).str.get(0)

0           Frank
1       Elizabeth
2          Donald
3         Michael
4         Jasmine
          ...    
9956         Dana
9957       Amanda
9958         Eric
9959       Taylor
9960       Sherry
Name: Name, Length: 9961, dtype: object

In [75]:
# 이렇게 Last Name 부분을 추출할 수 있습니다.
customers['Name'].str.split(pat=' ',
                            n=1).str[1]
customers['Name'].str.split(pat=' ',
                            n=1).str.get(1)

0           Manning
1           Johnson
2          Stephens
3       Vincent III
4            Zamora
           ...     
9956       Browning
9957       Anderson
9958          Davis
9959      Hernandez
9960      Nicholson
Name: Name, Length: 9961, dtype: object

In [77]:
# expand를 사용하면 나눠진 문자열을 데이터프레임으로 반환합니다.
customers['Name'].str.split(pat=' ',
                            n=1,
                            expand=True,)

Unnamed: 0,0,1
0,Frank,Manning
1,Elizabeth,Johnson
2,Donald,Stephens
3,Michael,Vincent III
4,Jasmine,Zamora
...,...,...
9956,Dana,Browning
9957,Amanda,Anderson
9958,Eric,Davis
9959,Taylor,Hernandez


In [78]:
# 이렇게 n을 설정하지 않으면 모두 문자를 나누고, 부족한 부분은 None의 값으로 채웁니다.
customers['Name'].str.split(pat=' ',
                            expand=True).head()

Unnamed: 0,0,1,2
0,Frank,Manning,
1,Elizabeth,Johnson,
2,Donald,Stephens,
3,Michael,Vincent,III
4,Jasmine,Zamora,


In [79]:
# 이번에는 customers에 새로운 열을 생성해서 해당 값을 넣죠.
customers[['First Name', 'Last Name']] = customers['Name'].str.split(pat=' ',
                                                                     n=1,
                                                                     expand=True)
customers.head()

Unnamed: 0,Name,Address,First Name,Last Name
0,Frank Manning,"6461 Quinn Groves, East Matthew, New Hampshire...",Frank,Manning
1,Elizabeth Johnson,"1360 Tracey Ports Apt. 419, Kyleport, Vermont,...",Elizabeth,Johnson
2,Donald Stephens,"19120 Fleming Manors, Prestonstad, Montana, 23495",Donald,Stephens
3,Michael Vincent III,"441 Olivia Creek, Jimmymouth, Georgia, 82991",Michael,Vincent III
4,Jasmine Zamora,"4246 Chelsey Ford Apt. 310, Karamouth, Utah, 7...",Jasmine,Zamora


In [80]:
# 그런 뒤, Name은 지워버립시다.
customers.drop(labels="Name", axis='columns')

Unnamed: 0,Address,First Name,Last Name
0,"6461 Quinn Groves, East Matthew, New Hampshire...",Frank,Manning
1,"1360 Tracey Ports Apt. 419, Kyleport, Vermont,...",Elizabeth,Johnson
2,"19120 Fleming Manors, Prestonstad, Montana, 23495",Donald,Stephens
3,"441 Olivia Creek, Jimmymouth, Georgia, 82991",Michael,Vincent III
4,"4246 Chelsey Ford Apt. 310, Karamouth, Utah, 7...",Jasmine,Zamora
...,...,...,...
9956,"762 Andrew Views Apt. 254, North Paul, New Mex...",Dana,Browning
9957,"44188 Day Crest Apt. 901, Lake Marcia, Maine, ...",Amanda,Anderson
9958,"73015 Michelle Squares, Watsonville, West Virg...",Eric,Davis
9959,"129 Keith Greens, Haleyfurt, Oklahoma, 98916",Taylor,Hernandez
