In [None]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차 검증
# 지표를 하나만 설정할 경우
from sklearn.model_selection import cross_val_score
# 지표를 하나 이상 설정할 경우
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 모델의 최적의 하이퍼파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 군집화
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift
from sklearn.cluster import estimate_bandwidth

# 시간 측정을 위한 시간 모듈
import datetime
# 주식 정보를 읽어오기 위한 라이브러리
from pandas_datareader import data

### 맛집 데이터 불러오기

In [None]:
# 데이터를 읽어온다.
matzip = pd.read_csv('data/matzipData.csv')
matzip

Unnamed: 0,Restaurant Name,Rating,Address,Tel,Food,Price,Parking,Operating Time,Holiday
0,이나니와요스케,4.4,서울시 중구 을지로1가 192-11,02-772-9994,라멘 / 소바 / 우동,만원-2만원,주차공간없음,11:00 - 23:00,일
1,바오차이,4.4,서울시 중구 을지로2가 203,02-6031-0107,정통 중식 / 일반 중식,2만원-3만원,유료주차 가능,11:30 - 21:30,
2,라칸티나,4.4,서울시 중구 을지로1가 50,02-777-2579,이탈리안,3만원-4만원,,월-토: 11:30 - 23:00 일: 17:30 - 23:00,
3,라세느,4.3,서울시 중구 소공동 1,02-317-7171,뷔페,4만원 이상,발렛,06:00 - 22:00,
4,산수갑산,4.3,서울시 중구 인현동1가 15-4,02-2275-6654,탕 / 찌개 / 전골,만원 미만,유료주차 가능,월-금: 11:30 - 22:00 토: 11:30 - 20:00,일
...,...,...,...,...,...,...,...,...,...
395,누룩나무,4,서울시 종로구 관훈동 118-19,02-722-3398,전통 주점 / 포차,만원-2만원,주차공간없음,17:00 - 01:30,일
396,옴,4,서울시 종로구 신문로1가 2,02-723-4848,인도 음식,만원-2만원,주차공간없음,11:00 - 22:00,
397,코블러,4,서울시 종로구 내자동 157,02-733-6421,칵테일 / 와인,만원-2만원,유료주차 가능,19:00 - 03:00,일
398,클류치,4,서울시 종로구 명륜3가 79-1,010-2702-1496,카페 / 디저트,만원 미만,주차공간없음,월-토: 10:00 - 23:00 일: 11:00 - 20:00,


### 맛집 데이터 처리

In [None]:
# 정보 확인
matzip.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 9 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Restaurant Name  400 non-null    object
 1   Rating           400 non-null    object
 2   Address          400 non-null    object
 3   Tel              350 non-null    object
 4   Food             400 non-null    object
 5   Price            397 non-null    object
 6   Parking          329 non-null    object
 7   Operating Time   364 non-null    object
 8   Holiday          126 non-null    object
dtypes: object(9)
memory usage: 28.2+ KB


In [None]:
# 결측치 확인
matzip.isna().sum()

Restaurant Name      0
Rating               0
Address              0
Tel                 50
Food                 0
Price                3
Parking             71
Operating Time      36
Holiday            274
dtype: int64

#### 결측치 처리

- 휴일에 대한 결측치 처리

In [None]:
# 휴일 구조 파악
matzip['Holiday'].value_counts()

일                     75
월                     21
토, 일                   7
화                      3
일, 첫째 월                2
일, 월                   2
수                      2
월, 화                   2
둘째/넷째 일                2
둘째, 넷째 일               1
토-일                    1
첫째/셋째 일                1
격주 월                   1
첫째, 셋째 월, 둘째, 넷째 일     1
월, 셋째 화                1
넷째 일, 월                1
토                      1
월, 마지막 화               1
월, 일                   1
Name: Holiday, dtype: int64

In [None]:
# 휴일에 결측치인 곳은 연중무휴로 설정한다.
matzip['Holiday'].fillna('연중무휴', inplace=True)
matzip.isna().sum()

Restaurant Name     0
Rating              0
Address             0
Tel                50
Food                0
Price               3
Parking            71
Operating Time     36
Holiday             0
dtype: int64

In [None]:
matzip['Holiday'].value_counts()

연중무휴                  274
일                      75
월                      21
토, 일                    7
화                       3
일, 월                    2
둘째/넷째 일                 2
일, 첫째 월                 2
월, 화                    2
수                       2
토                       1
넷째 일, 월                 1
월, 마지막 화                1
월, 셋째 화                 1
첫째, 셋째 월, 둘째, 넷째 일      1
첫째/셋째 일                 1
토-일                     1
둘째, 넷째 일                1
월, 일                    1
격주 월                    1
Name: Holiday, dtype: int64

- 가격에 대한 결측치 처리

In [None]:
# 가격 데이터 확인
matzip['Price'].value_counts()

만원-2만원     161
만원 미만      159
2만원-3만원     46
4만원 이상      22
3만원-4만원      9
Name: Price, dtype: int64

In [None]:
# 결측치 확인
matzip['Price'].isna().sum()

3

In [None]:
# 결측치를 10000으로 채운다.
matzip_price = matzip['Price'].fillna('10000')
matzip_price

0       만원-2만원
1      2만원-3만원
2      3만원-4만원
3       4만원 이상
4        만원 미만
        ...   
395     만원-2만원
396     만원-2만원
397     만원-2만원
398      만원 미만
399      만원 미만
Name: Price, Length: 400, dtype: object

In [None]:
# 결측치 확인
matzip_price.isna().sum()

0

In [None]:
# 저장되어 있는 값 확인
matzip_price.value_counts()

만원-2만원     161
만원 미만      159
2만원-3만원     46
4만원 이상      22
3만원-4만원      9
10000        3
Name: Price, dtype: int64

### str.replace( 'before', 'after' )

In [None]:
# 값을 변경한다.
# 만원이라는 글자를 10000으로 변경한다.
matzip_price = matzip_price.str.replace('만원', '10000')
# 210000 을 20000으로 바꾼다.
matzip_price = matzip_price.str.replace('210000', '20000')
# 310000 을 30000으로 바꾼다.
matzip_price = matzip_price.str.replace('310000', '30000')
# 410000 을 40000으로 바꾼다.
matzip_price = matzip_price.str.replace('410000', '40000')
# 10000- 을 제거한다.
matzip_price = matzip_price.str.replace('10000-', '')
# 20000- 을 제거한다.
matzip_price = matzip_price.str.replace('20000-', '')
# 30000- 을 제거한다.
matzip_price = matzip_price.str.replace('30000-', '')
# 이상을 제거한다.
matzip_price = matzip_price.str.replace('이상', '')
# 미만을 제거한다.
matzip_price = matzip_price.str.replace('미만', '')
# 좌우 공백을 제거한다.
matzip_price = matzip_price.str.strip()

matzip_price.value_counts()

10000    162
20000    161
30000     46
40000     31
Name: Price, dtype: int64

In [None]:
# 변경 후 값의 타입을 확인한다.
matzip_price.dtype

dtype('O')

In [None]:
# 혹시나 문자열로 되어 있다면.....(object)
# 정수로 변환
matzip_price = matzip_price.astype('int64')
matzip_price.dtype

dtype('int64')

In [None]:
# 원본 데이터 프레임에 넣어준다.
matzip['Price'] = matzip_price
matzip['Price'].value_counts()

10000    162
20000    161
30000     46
40000     31
Name: Price, dtype: int64