In [1]:
import numpy as np
import pandas as pd

pd.set_option("display.max_rows", 50)
pd.set_option("display.max_columns",30)
pd.set_option('display.max_colwidth', 0)

## String Series 생성

In [26]:
s1 = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
s1

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object

In [27]:
s2 = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype='string')
s2

0       A
1       B
2       C
3    Aaba
4    Baca
5    <NA>
6    CABA
7     dog
8     cat
dtype: string

In [28]:
s1.astype('string')

0       A
1       B
2       C
3    Aaba
4    Baca
5    <NA>
6    CABA
7     dog
8     cat
dtype: string

## String accessor methods

In [29]:
s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])

In [30]:
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

In [31]:
df = pd.DataFrame([["A", "B", "C", "Aaba"], ["A", "B", "C", "Aaba"]])
df.str.len()

AttributeError: 'DataFrame' object has no attribute 'str'

In [32]:
names = pd.Series([" jack", "jill ", " jesse ", "frank"])
names.str.len()

0    5
1    5
2    7
3    5
dtype: int64

In [33]:
names.str.strip().str.len() # 연속적인 적용도 가능

0    4
1    4
2    5
3    5
dtype: int64

전체 함수 목록: https://pandas.pydata.org/docs/reference/series.html#api-series-str 

## 문자열 다루기 실전

In [68]:
df = pd.read_csv('./data_raw/matzipData.csv', encoding='utf-8')
df

Unnamed: 0,Restaurant Name,Rating,Address,Tel,Food,Price,Parking,Operating Time,Holiday
0,이나니와요스케,4.4,서울시 중구 을지로1가 192-11,02-772-9994,라멘 / 소바 / 우동,만원-2만원,주차공간없음,11:00 - 23:00,일
1,바오차이,4.4,서울시 중구 을지로2가 203,02-6031-0107,정통 중식 / 일반 중식,2만원-3만원,유료주차 가능,11:30 - 21:30,
2,라칸티나,4.4,서울시 중구 을지로1가 50,02-777-2579,이탈리안,3만원-4만원,,월-토: 11:30 - 23:00 일: 17:30 - 23:00,
3,라세느,4.3,서울시 중구 소공동 1,02-317-7171,뷔페,4만원 이상,발렛,06:00 - 22:00,
4,산수갑산,4.3,서울시 중구 인현동1가 15-4,02-2275-6654,탕 / 찌개 / 전골,만원 미만,유료주차 가능,월-금: 11:30 - 22:00 토: 11:30 - 20:00,일
...,...,...,...,...,...,...,...,...,...
395,누룩나무,4,서울시 종로구 관훈동 118-19,02-722-3398,전통 주점 / 포차,만원-2만원,주차공간없음,17:00 - 01:30,일
396,옴,4,서울시 종로구 신문로1가 2,02-723-4848,인도 음식,만원-2만원,주차공간없음,11:00 - 22:00,
397,코블러,4,서울시 종로구 내자동 157,02-733-6421,칵테일 / 와인,만원-2만원,유료주차 가능,19:00 - 03:00,일
398,클류치,4,서울시 종로구 명륜3가 79-1,010-2702-1496,카페 / 디저트,만원 미만,주차공간없음,월-토: 10:00 - 23:00 일: 11:00 - 20:00,


In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Restaurant Name  400 non-null    object
 1   Rating           400 non-null    object
 2   Address          400 non-null    object
 3   Tel              350 non-null    object
 4   Food             400 non-null    object
 5   Price            397 non-null    object
 6   Parking          329 non-null    object
 7   Operating Time   364 non-null    object
 8   Holiday          126 non-null    object
dtypes: object(9)
memory usage: 28.2+ KB


In [85]:
df_food = df['Food'].astype(str).str.split('/', expand=True)
df_food

Unnamed: 0,0,1,2
0,라멘,소바,우동
1,정통 중식,일반 중식,
2,이탈리안,,
3,뷔페,,
4,탕,찌개,전골
...,...,...,...
395,전통 주점,포차,
396,인도 음식,,
397,칵테일,와인,
398,카페,디저트,


In [71]:
df = pd.concat((df, df_food), axis=1)
df

Unnamed: 0,Restaurant Name,Rating,Address,Tel,Food,Price,Parking,Operating Time,Holiday,0,1,2
0,이나니와요스케,4.4,서울시 중구 을지로1가 192-11,02-772-9994,라멘 / 소바 / 우동,만원-2만원,주차공간없음,11:00 - 23:00,일,라멘,소바,우동
1,바오차이,4.4,서울시 중구 을지로2가 203,02-6031-0107,정통 중식 / 일반 중식,2만원-3만원,유료주차 가능,11:30 - 21:30,,정통 중식,일반 중식,
2,라칸티나,4.4,서울시 중구 을지로1가 50,02-777-2579,이탈리안,3만원-4만원,,월-토: 11:30 - 23:00 일: 17:30 - 23:00,,이탈리안,,
3,라세느,4.3,서울시 중구 소공동 1,02-317-7171,뷔페,4만원 이상,발렛,06:00 - 22:00,,뷔페,,
4,산수갑산,4.3,서울시 중구 인현동1가 15-4,02-2275-6654,탕 / 찌개 / 전골,만원 미만,유료주차 가능,월-금: 11:30 - 22:00 토: 11:30 - 20:00,일,탕,찌개,전골
...,...,...,...,...,...,...,...,...,...,...,...,...
395,누룩나무,4,서울시 종로구 관훈동 118-19,02-722-3398,전통 주점 / 포차,만원-2만원,주차공간없음,17:00 - 01:30,일,전통 주점,포차,
396,옴,4,서울시 종로구 신문로1가 2,02-723-4848,인도 음식,만원-2만원,주차공간없음,11:00 - 22:00,,인도 음식,,
397,코블러,4,서울시 종로구 내자동 157,02-733-6421,칵테일 / 와인,만원-2만원,유료주차 가능,19:00 - 03:00,일,칵테일,와인,
398,클류치,4,서울시 종로구 명륜3가 79-1,010-2702-1496,카페 / 디저트,만원 미만,주차공간없음,월-토: 10:00 - 23:00 일: 11:00 - 20:00,,카페,디저트,


In [72]:
df['Parking'].unique()

array(['주차공간없음', '유료주차 가능', nan, '발렛', '유료주차 가능 주차권 2시간 제공', '무료주차 가능',
       '무료주차 가능 2시간 무료', '무료주차 가능 당일 무료', '유료주차 가능 1시간 무료',
       '유료주차 가능 1.5시간 무료', '유료주차 가능 2시간 무료'], dtype=object)

In [73]:
df_parking = df['Parking'].str.replace('가능','')

In [74]:
df_parking.unique()

array(['주차공간없음', '유료주차 ', nan, '발렛', '유료주차  주차권 2시간 제공', '무료주차 ',
       '무료주차  2시간 무료', '무료주차  당일 무료', '유료주차  1시간 무료', '유료주차  1.5시간 무료',
       '유료주차  2시간 무료'], dtype=object)

In [75]:
# 주차 형태 : 주차공간없음, 무료주차, 유료주차, 발렛
# 주차 시간 : x시간
# 기타 : nan

In [76]:
# 딱히 필요없는 정보들은 빈 문자열로 변환
df_parking = df_parking.str.replace('주차권','').replace('제공','').replace('1시간 무료', '1시간')
df_parking.unique()

array(['주차공간없음', '유료주차 ', nan, '발렛', '유료주차   2시간 제공', '무료주차 ',
       '무료주차  2시간 무료', '무료주차  당일 무료', '유료주차  1시간 무료', '유료주차  1.5시간 무료',
       '유료주차  2시간 무료'], dtype=object)

In [77]:
df_parking = df_parking.str.split(expand=True)

In [78]:
df_parking

Unnamed: 0,0,1,2
0,주차공간없음,,
1,유료주차,,
2,,,
3,발렛,,
4,유료주차,,
...,...,...,...
395,주차공간없음,,
396,주차공간없음,,
397,유료주차,,
398,주차공간없음,,


In [79]:
df_parking[1].value_counts()

2시간      6
1.5시간    1
당일       1
1시간      1
Name: 1, dtype: int64

In [80]:
df_parking[2].value_counts()

무료    8
제공    1
Name: 2, dtype: int64

In [81]:
df_parking = df_parking.drop([2], axis=1)
df_parking.head()

Unnamed: 0,0,1
0,주차공간없음,
1,유료주차,
2,,
3,발렛,
4,유료주차,


In [82]:
df_parking[0].value_counts()

주차공간없음    199
유료주차      95 
무료주차      27 
발렛        8  
Name: 0, dtype: int64

In [83]:
df_parking[1].value_counts()

2시간      6
1.5시간    1
당일       1
1시간      1
Name: 1, dtype: int64

In [84]:
df = pd.concat((df, df_parking), axis=1)
df.head()

Unnamed: 0,Restaurant Name,Rating,Address,Tel,Food,Price,Parking,Operating Time,Holiday,0,1,2,0.1,1.1
0,이나니와요스케,4.4,서울시 중구 을지로1가 192-11,02-772-9994,라멘 / 소바 / 우동,만원-2만원,주차공간없음,11:00 - 23:00,일,라멘,소바,우동,주차공간없음,
1,바오차이,4.4,서울시 중구 을지로2가 203,02-6031-0107,정통 중식 / 일반 중식,2만원-3만원,유료주차 가능,11:30 - 21:30,,정통 중식,일반 중식,,유료주차,
2,라칸티나,4.4,서울시 중구 을지로1가 50,02-777-2579,이탈리안,3만원-4만원,,월-토: 11:30 - 23:00 일: 17:30 - 23:00,,이탈리안,,,,
3,라세느,4.3,서울시 중구 소공동 1,02-317-7171,뷔페,4만원 이상,발렛,06:00 - 22:00,,뷔페,,,발렛,
4,산수갑산,4.3,서울시 중구 인현동1가 15-4,02-2275-6654,탕 / 찌개 / 전골,만원 미만,유료주차 가능,월-금: 11:30 - 22:00 토: 11:30 - 20:00,일,탕,찌개,전골,유료주차,
