In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import seaborn as sns

# 그래프 기본 테마 설정
# https://coldbrown.co.kr/2023/07/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%A4%EC%A0%84%ED%8E%B8-08-seaborn-sns-set%EC%9D%84-%ED%86%B5%ED%95%B4-%EC%8A%A4%ED%83%80%EC%9D%BC-%EC%84%A4%EC%A0%95%ED%95%98%EA%B8%B0/
sns.set()

# 그래프를 그리기 위한 기본 설정
# plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

In [3]:
# 데이터를 불러온다.
matzip = pd.read_csv('data/matzipData.csv')
matzip

Unnamed: 0,Restaurant Name,Rating,Address,Tel,Food,Price,Parking,Operating Time,Holiday
0,이나니와요스케,4.4,서울시 중구 을지로1가 192-11,02-772-9994,라멘 / 소바 / 우동,만원-2만원,주차공간없음,11:00 - 23:00,일
1,바오차이,4.4,서울시 중구 을지로2가 203,02-6031-0107,정통 중식 / 일반 중식,2만원-3만원,유료주차 가능,11:30 - 21:30,
2,라칸티나,4.4,서울시 중구 을지로1가 50,02-777-2579,이탈리안,3만원-4만원,,월-토: 11:30 - 23:00 일: 17:30 - 23:00,
3,라세느,4.3,서울시 중구 소공동 1,02-317-7171,뷔페,4만원 이상,발렛,06:00 - 22:00,
4,산수갑산,4.3,서울시 중구 인현동1가 15-4,02-2275-6654,탕 / 찌개 / 전골,만원 미만,유료주차 가능,월-금: 11:30 - 22:00 토: 11:30 - 20:00,일
...,...,...,...,...,...,...,...,...,...
395,누룩나무,4,서울시 종로구 관훈동 118-19,02-722-3398,전통 주점 / 포차,만원-2만원,주차공간없음,17:00 - 01:30,일
396,옴,4,서울시 종로구 신문로1가 2,02-723-4848,인도 음식,만원-2만원,주차공간없음,11:00 - 22:00,
397,코블러,4,서울시 종로구 내자동 157,02-733-6421,칵테일 / 와인,만원-2만원,유료주차 가능,19:00 - 03:00,일
398,클류치,4,서울시 종로구 명륜3가 79-1,010-2702-1496,카페 / 디저트,만원 미만,주차공간없음,월-토: 10:00 - 23:00 일: 11:00 - 20:00,


In [4]:
# 요약 정보 확인
matzip.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Restaurant Name  400 non-null    object
 1   Rating           400 non-null    object
 2   Address          400 non-null    object
 3   Tel              350 non-null    object
 4   Food             400 non-null    object
 5   Price            397 non-null    object
 6   Parking          329 non-null    object
 7   Operating Time   364 non-null    object
 8   Holiday          126 non-null    object
dtypes: object(9)
memory usage: 28.3+ KB


In [5]:
# 결측치 확인
matzip.isna().sum()

Restaurant Name      0
Rating               0
Address              0
Tel                 50
Food                 0
Price                3
Parking             71
Operating Time      36
Holiday            274
dtype: int64

### 데이터 가공

In [6]:
# 컬럼 이름 변경
matzip.columns = ['식당이름', '평점', '주소', '전화번호', '음식종류', '가격대', '주차여부', '영업시간', '휴일']
matzip

Unnamed: 0,식당이름,평점,주소,전화번호,음식종류,가격대,주차여부,영업시간,휴일
0,이나니와요스케,4.4,서울시 중구 을지로1가 192-11,02-772-9994,라멘 / 소바 / 우동,만원-2만원,주차공간없음,11:00 - 23:00,일
1,바오차이,4.4,서울시 중구 을지로2가 203,02-6031-0107,정통 중식 / 일반 중식,2만원-3만원,유료주차 가능,11:30 - 21:30,
2,라칸티나,4.4,서울시 중구 을지로1가 50,02-777-2579,이탈리안,3만원-4만원,,월-토: 11:30 - 23:00 일: 17:30 - 23:00,
3,라세느,4.3,서울시 중구 소공동 1,02-317-7171,뷔페,4만원 이상,발렛,06:00 - 22:00,
4,산수갑산,4.3,서울시 중구 인현동1가 15-4,02-2275-6654,탕 / 찌개 / 전골,만원 미만,유료주차 가능,월-금: 11:30 - 22:00 토: 11:30 - 20:00,일
...,...,...,...,...,...,...,...,...,...
395,누룩나무,4,서울시 종로구 관훈동 118-19,02-722-3398,전통 주점 / 포차,만원-2만원,주차공간없음,17:00 - 01:30,일
396,옴,4,서울시 종로구 신문로1가 2,02-723-4848,인도 음식,만원-2만원,주차공간없음,11:00 - 22:00,
397,코블러,4,서울시 종로구 내자동 157,02-733-6421,칵테일 / 와인,만원-2만원,유료주차 가능,19:00 - 03:00,일
398,클류치,4,서울시 종로구 명륜3가 79-1,010-2702-1496,카페 / 디저트,만원 미만,주차공간없음,월-토: 10:00 - 23:00 일: 11:00 - 20:00,


In [7]:
# 식당이름 - 결측치 확인
matzip['식당이름'].isna().sum()

np.int64(0)

In [8]:
# 평점 - 결측치 확인
matzip['평점'].isna().sum()

np.int64(0)

In [9]:
# 컬럼이 관리하는 값의 정확한 타입 확인
matzip['평점'].dtype

dtype('O')

In [10]:
# - 를 0.0으로 변경하고 해당 컬럼을 숫자 타입으로 변환한다.
# idx = matzip.query('평점 == "-"').index
# matzip.loc[idx, '평점'] = '0.0'

matzip['평점'] = matzip['평점'].str.replace('-', '0.0')
matzip['평점'].value_counts()

평점
0.0    155
4       53
4.1     47
4.2     40
4.3     37
4.4     20
4.5      9
3.9      7
3.7      6
4.6      5
3.3      5
3.6      4
3.4      4
4.7      3
3.8      2
3.2      1
3.1      1
2.7      1
Name: count, dtype: int64

In [11]:
# 실수 타입으로 변경한다.
matzip['평점'] = matzip['평점'].astype('float')
matzip['평점'].dtype

dtype('float64')

In [12]:
# 전화번호 - 결측치 확인
matzip['전화번호'].isna().sum()

np.int64(50)

In [14]:
# 전호번호에 결측치가 있는 행은 전화번호 없음으로 변경해준다.
#matzip['전화번호'].fillna('번호없음', inplace=True)
matzip['전화번호'] = matzip['전화번호'].fillna('번호없음')
matzip['전화번호'].isna().sum()

np.int64(0)

In [15]:
# 전호번호에 결측치가 있는 행은 전화번호 없음으로 변경해준다.
# 아래의 코드는 경고가 뜨지 않는다.
matzip['전화번호'] = matzip['전화번호'].fillna('번호없음')
matzip['전화번호'].isna().sum()

np.int64(0)

In [16]:
# 전호번호에 결측치가 있는 행은 전화번호 없음으로 변경해준다.
# inplace를 사용하겠다면 아래와 같이 한다.
matzip.fillna({'전화번호' : '번호없음'}, inplace=True)
matzip['전화번호'].isna().sum()

np.int64(0)

In [17]:
# 가격대 - 결측치 확인
matzip['가격대'].isna().sum()

np.int64(3)

In [18]:
# 결측치인 행을 확인한다.
matzip.query('가격대.isna()')

Unnamed: 0,식당이름,평점,주소,전화번호,음식종류,가격대,주차여부,영업시간,휴일
147,황소곱창,0.0,서울시 중구 광희동1가 142,02-2265-2255,고기 요리,,,,
195,목포세발낙지,0.0,서울시 중구 다동 144,02-777-7143,해산물 요리,,,,
336,봉화묵집,4.1,서울시 성북구 정릉동 488-1,02-918-1668,기타 한식,,,,


In [19]:
# 고기요리, 해산물요리, 기타 한식이 더 있는지 확인해 본다.
a1 = ['고기 요리', '해산물 요리', '기타 한식']
a2 = matzip.query('음식종류 in @a1')
a3 = a2[['음식종류', '식당이름']]
a4 = a3.groupby('음식종류', as_index=False).count()
a4.columns = ['음식종류', '식당수']
a4

Unnamed: 0,음식종류,식당수
0,고기 요리,42
1,기타 한식,20
2,해산물 요리,8


In [20]:
# 가격대는 평균을 구할 수가 없기 때문에 최빈값을 구해 채워 준다.
# 최빈값을 구하는 방법1
# 도수를 구하면 구한 도수를 기준으로 내림 차순 정렬해서 가져오기 때문에
# 제일 처음 것을 사용하면 된다.
display(matzip['가격대'].value_counts())

# 최빈값을 구하는 방법2 
# 요약 통계 정보를 활용한다.
# 여기에서 top이 최빈값이다.
# 숫자 컬럼은 다른 형태의 통계 정보가 나오기 때문에 문자열로 변환한 다음 구해야 한다.
display(matzip['가격대'].describe())

가격대
만원-2만원     161
만원 미만      159
2만원-3만원     46
4만원 이상      22
3만원-4만원      9
Name: count, dtype: int64

count        397
unique         5
top       만원-2만원
freq         161
Name: 가격대, dtype: object

In [23]:
# 각 음식 종류별 최빈값을 구한다.
s1 = matzip.query('음식종류 == "고기 요리"')
s2 = matzip.query('음식종류 == "기타 한식"')
s3 = matzip.query('음식종류 == "해산물 요리"')

b1 = s1['가격대'].value_counts()
b2 = s2['가격대'].value_counts()
b3 = s3['가격대'].value_counts()

c1 = b1.index[0]
c2 = b2.index[0]
c3 = b3.index[0]

print(c1, c2, c3)

만원-2만원 만원 미만 만원-2만원


In [24]:
# 결측치를 최빈값으로 채워준다.
idx1 = matzip.query('음식종류 == "고기 요리" and 가격대.isna()').index
matzip.loc[idx1, '가격대'] = c1

idx1 = matzip.query('음식종류 == "기타 한식" and 가격대.isna()').index
matzip.loc[idx1, '가격대'] = c2

idx1 = matzip.query('음식종류 == "해산물 요리" and 가격대.isna()').index
matzip.loc[idx1, '가격대'] = c3

matzip['가격대'].isna().sum()

np.int64(0)

In [25]:
# 각 컬럼의 결측치를 채워준다.
d1 = {
    '주차여부' : '주차공간없음',
    '영업시간' : '11:00 - 22:00',
    '휴일' : '일'
}
matzip.fillna(d1, inplace=True)
matzip.isna().sum()

식당이름    0
평점      0
주소      0
전화번호    0
음식종류    0
가격대     0
주차여부    0
영업시간    0
휴일      0
dtype: int64

In [26]:
test_df = matzip.copy()

test_df['가격대'] = test_df['가격대'].str.replace('만원', '10000')
test_df['가격대'] = test_df['가격대'].str.replace('-21', '-2')
test_df['가격대'] = test_df['가격대'].str.replace('-31', '-3')
test_df['가격대'] = test_df['가격대'].str.replace('-41', '-4')
test_df['가격대'] = test_df['가격대'].str.replace('-21', '-2')
test_df['가격대'] = test_df['가격대'].str.replace('10000 미만', '<10000')
test_df['가격대'] = test_df['가격대'].str.replace('410000 이상', '40000<')
test_df['가격대'].value_counts()

가격대
10000-20000     163
<10000          159
210000-30000     47
40000<           22
310000-40000      9
Name: count, dtype: int64

In [27]:
test_df = matzip.copy()
test_df['전화번호'] = test_df['전화번호'].str.split('-')

test_df['국번'] = '0'
test_df['전화번호1'] = '0'
test_df['전화번호2'] = '0'

# index를 리셋한다. (이때 버리지 않는다)
test_df.reset_index(inplace=True)
# display(test_df)

for position in range(test_df.shape[0]) :
    a1 = test_df.iloc[position]['전화번호']
    if a1[0] == '번호없음' :
        test_df.loc[position, '국번'] = np.nan
        test_df.loc[position, '전화번호1'] = np.nan
        test_df.loc[position, '전화번호2'] = np.nan
    else :
        test_df.loc[position, '국번'] = a1[0]
        test_df.loc[position, '전화번호1'] = a1[1]
        test_df.loc[position, '전화번호2'] = a1[2]

# 원래의 index로 셋팅한다.
test_df.set_index('index', inplace=True)
test_df

Unnamed: 0_level_0,식당이름,평점,주소,전화번호,음식종류,가격대,주차여부,영업시간,휴일,국번,전화번호1,전화번호2
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,이나니와요스케,4.4,서울시 중구 을지로1가 192-11,"[02, 772, 9994]",라멘 / 소바 / 우동,만원-2만원,주차공간없음,11:00 - 23:00,일,02,772,9994
1,바오차이,4.4,서울시 중구 을지로2가 203,"[02, 6031, 0107]",정통 중식 / 일반 중식,2만원-3만원,유료주차 가능,11:30 - 21:30,일,02,6031,0107
2,라칸티나,4.4,서울시 중구 을지로1가 50,"[02, 777, 2579]",이탈리안,3만원-4만원,주차공간없음,월-토: 11:30 - 23:00 일: 17:30 - 23:00,일,02,777,2579
3,라세느,4.3,서울시 중구 소공동 1,"[02, 317, 7171]",뷔페,4만원 이상,발렛,06:00 - 22:00,일,02,317,7171
4,산수갑산,4.3,서울시 중구 인현동1가 15-4,"[02, 2275, 6654]",탕 / 찌개 / 전골,만원 미만,유료주차 가능,월-금: 11:30 - 22:00 토: 11:30 - 20:00,일,02,2275,6654
...,...,...,...,...,...,...,...,...,...,...,...,...
395,누룩나무,4.0,서울시 종로구 관훈동 118-19,"[02, 722, 3398]",전통 주점 / 포차,만원-2만원,주차공간없음,17:00 - 01:30,일,02,722,3398
396,옴,4.0,서울시 종로구 신문로1가 2,"[02, 723, 4848]",인도 음식,만원-2만원,주차공간없음,11:00 - 22:00,일,02,723,4848
397,코블러,4.0,서울시 종로구 내자동 157,"[02, 733, 6421]",칵테일 / 와인,만원-2만원,유료주차 가능,19:00 - 03:00,일,02,733,6421
398,클류치,4.0,서울시 종로구 명륜3가 79-1,"[010, 2702, 1496]",카페 / 디저트,만원 미만,주차공간없음,월-토: 10:00 - 23:00 일: 11:00 - 20:00,일,010,2702,1496


In [28]:
test_df = matzip.copy()
test_df['전화번호'] = test_df['전화번호'].str.split('-')

def test1(row) :
    if row[0] == '번호없음' :
        return np.nan
    else :
        return row[0]

def test2(row) :
    if row[0] == '번호없음' :
        return np.nan
    else :
        return row[1]

def test3(row) :
    if row[0] == '번호없음' :
        return np.nan
    else :
        return row[2]

# apply : 매개변수로 함수를 받는다.
# DataFrame.apply(함수명) : 데이터 프레임의 행의 수 만큼 함수를 호출하며 함수 호출 번째의 행을 매개변수로 전달한다.
# Series.apply(함수명) : Series가 관리하는 값의 수 만큼 함수를 호출하며 함수 호출 번째의 값을 매개변수로 전달한다.
# 함수가 호출하는 값들을 모아서 최종 Series로 전달한다.
test_df['국번'] = test_df['전화번호'].apply(test1)
test_df['전화번호1'] = test_df['전화번호'].apply(test2)
test_df['전화번호2'] = test_df['전화번호'].apply(test3)

test_df

Unnamed: 0,식당이름,평점,주소,전화번호,음식종류,가격대,주차여부,영업시간,휴일,국번,전화번호1,전화번호2
0,이나니와요스케,4.4,서울시 중구 을지로1가 192-11,"[02, 772, 9994]",라멘 / 소바 / 우동,만원-2만원,주차공간없음,11:00 - 23:00,일,02,772,9994
1,바오차이,4.4,서울시 중구 을지로2가 203,"[02, 6031, 0107]",정통 중식 / 일반 중식,2만원-3만원,유료주차 가능,11:30 - 21:30,일,02,6031,0107
2,라칸티나,4.4,서울시 중구 을지로1가 50,"[02, 777, 2579]",이탈리안,3만원-4만원,주차공간없음,월-토: 11:30 - 23:00 일: 17:30 - 23:00,일,02,777,2579
3,라세느,4.3,서울시 중구 소공동 1,"[02, 317, 7171]",뷔페,4만원 이상,발렛,06:00 - 22:00,일,02,317,7171
4,산수갑산,4.3,서울시 중구 인현동1가 15-4,"[02, 2275, 6654]",탕 / 찌개 / 전골,만원 미만,유료주차 가능,월-금: 11:30 - 22:00 토: 11:30 - 20:00,일,02,2275,6654
...,...,...,...,...,...,...,...,...,...,...,...,...
395,누룩나무,4.0,서울시 종로구 관훈동 118-19,"[02, 722, 3398]",전통 주점 / 포차,만원-2만원,주차공간없음,17:00 - 01:30,일,02,722,3398
396,옴,4.0,서울시 종로구 신문로1가 2,"[02, 723, 4848]",인도 음식,만원-2만원,주차공간없음,11:00 - 22:00,일,02,723,4848
397,코블러,4.0,서울시 종로구 내자동 157,"[02, 733, 6421]",칵테일 / 와인,만원-2만원,유료주차 가능,19:00 - 03:00,일,02,733,6421
398,클류치,4.0,서울시 종로구 명륜3가 79-1,"[010, 2702, 1496]",카페 / 디저트,만원 미만,주차공간없음,월-토: 10:00 - 23:00 일: 11:00 - 20:00,일,010,2702,1496
