# 환경설정

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from scipy import stats

import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib import font_manager,rc
# 한글 폰트
font_location = "C:\Windows\Fonts\malgun.ttf"
font_name = font_manager.FontProperties(fname=font_location).get_name()
rc('font',family=font_name)
plt.rcParams['axes.unicode_minus'] = False  # 유니코드 마이너스 기호 사용

## 주요절차

### 데이터 수집

* 데이터 소스 명시

In [145]:
df= pd.read_csv('세종특별자치시_여민전 가맹점 현황_20250523.csv',encoding='cp949')

In [146]:
df

Unnamed: 0,연번,가맹점명,업종명,전화번호,읍면동,소재지 도로명주소,위도,경도
0,1,#738,의류/잡화/안경,,보람동,[30150] 세종특별자치시 남세종로 469 408동1304호,36.460810,127.276967
1,2,#언니(샵언니),미용/뷰티/위생,044-864-8890,조치원읍,[30020] 세종특별자치시 조치원읍 문화길 29 4동2호,36.481309,127.289901
2,3,(A+)베이비맘케어,미용/뷰티/위생,042-863-3545,보람동,[30151] 세종특별자치시 시청대로 167 드림빌딩 207호,36.481309,127.289901
3,4,(BodyReading)바디리딩,기타,,나성동,[30128] 세종특별자치시 나성북1로 23 상가동(802동) 229호,36.484596,127.252495
4,5,(KS세종MTB)삼천리자전거 조치원점,자동차/자전거,044-865-9600,조치원읍,[30035] 세종특별자치시 조치원읍 새내2길 42 삼천리자전거,36.496712,127.269133
...,...,...,...,...,...,...,...,...
12822,12823,히트복싱 소담점,학원/교육,,소담동,"[30151] 세종특별자치시 한누리대로 2018 204,205,206호 히트복싱",36.484745,127.299401
12823,12824,아그리엔북스,카페/베이커리,070-7755-4711,연동면,[30066] 세종특별자치시 연동면 예양길 11 1층,36.573663,127.323572
12824,12825,꿀꿀,일반음식점,,대평동,[30152] 세종특별자치시 한누리대로 2236 B124호,36.474221,127.277088
12825,12826,룰루마리김밥,분식,044-865-5493,소담동,[30150] 세종특별자치시 한누리대로 2003 101호,36.485449,127.301113


### 1. 초기데이터 확인

#### 1-1. 데이터딕셔너리(각 열의 의미, 데이터의 의미해석관련 스펙 또는 메뉴얼) 확인

#### 1-2 데이터 기초정보 확인 (사이즈, 열이름, 데이터형)

In [147]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12827 entries, 0 to 12826
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   연번         12827 non-null  int64  
 1   가맹점명       12826 non-null  object 
 2   업종명        12775 non-null  object 
 3   전화번호       8442 non-null   object 
 4   읍면동        12591 non-null  object 
 5   소재지 도로명주소  12760 non-null  object 
 6   위도         12105 non-null  float64
 7   경도         12105 non-null  float64
dtypes: float64(2), int64(1), object(5)
memory usage: 801.8+ KB


In [148]:
df.columns

Index(['연번', '가맹점명', '업종명', '전화번호', '읍면동', '소재지 도로명주소', '위도', '경도'], dtype='object')

In [149]:
df.shape

(12827, 8)

### 2. 데이터 정제

#### 2.1. 원본데이터에서 분석가능한 형태로 데이터 전처리 (형변환, 열이름 변경등)

* 해당사항 없어 생략

#### 2.2. 데이터 클리닝:  결측치처리, 이상치 처리

##### 2.2.1 결측치

In [150]:
# 위도 경도 결측치 클리닝

In [151]:
df_clean=df.dropna(subset=['위도', '경도','읍면동'])

In [152]:
df_clean

Unnamed: 0,연번,가맹점명,업종명,전화번호,읍면동,소재지 도로명주소,위도,경도
0,1,#738,의류/잡화/안경,,보람동,[30150] 세종특별자치시 남세종로 469 408동1304호,36.460810,127.276967
1,2,#언니(샵언니),미용/뷰티/위생,044-864-8890,조치원읍,[30020] 세종특별자치시 조치원읍 문화길 29 4동2호,36.481309,127.289901
2,3,(A+)베이비맘케어,미용/뷰티/위생,042-863-3545,보람동,[30151] 세종특별자치시 시청대로 167 드림빌딩 207호,36.481309,127.289901
3,4,(BodyReading)바디리딩,기타,,나성동,[30128] 세종특별자치시 나성북1로 23 상가동(802동) 229호,36.484596,127.252495
4,5,(KS세종MTB)삼천리자전거 조치원점,자동차/자전거,044-865-9600,조치원읍,[30035] 세종특별자치시 조치원읍 새내2길 42 삼천리자전거,36.496712,127.269133
...,...,...,...,...,...,...,...,...
12822,12823,히트복싱 소담점,학원/교육,,소담동,"[30151] 세종특별자치시 한누리대로 2018 204,205,206호 히트복싱",36.484745,127.299401
12823,12824,아그리엔북스,카페/베이커리,070-7755-4711,연동면,[30066] 세종특별자치시 연동면 예양길 11 1층,36.573663,127.323572
12824,12825,꿀꿀,일반음식점,,대평동,[30152] 세종특별자치시 한누리대로 2236 B124호,36.474221,127.277088
12825,12826,룰루마리김밥,분식,044-865-5493,소담동,[30150] 세종특별자치시 한누리대로 2003 101호,36.485449,127.301113


In [153]:
#가맹점명, 소재지 도로명 주소 같은 데이터 확인
df_clean[df_clean.duplicated(subset=['가맹점명','소재지 도로명주소'])]

Unnamed: 0,연번,가맹점명,업종명,전화번호,읍면동,소재지 도로명주소,위도,경도
311,312,NEW하나로축산,슈퍼/마트,044-866-3933,종촌동,[30064] 세종특별자치시 도움3로 105-5 중앙프라자107호,36.504738,127.249533
354,355,가감 충대정문약국,병원/약국,044-868-2266,도담동,[30098] 세종특별자치시 다솜1로 220 103호 104호,36.518194,127.256906
372,373,가마치통닭,일반음식점,044-866-2238,부강면,[30075] 세종특별자치시 부강면 부촌길 54 가마치통닭,36.530999,127.366255
373,374,가마치통닭,일반음식점,044-866-2238,부강면,[30075] 세종특별자치시 부강면 부촌길 54 가마치통닭,36.530999,127.366255
374,375,가마치통닭,일반음식점,044-866-2238,부강면,[30075] 세종특별자치시 부강면 부촌길 54 가마치통닭,36.530999,127.366255
...,...,...,...,...,...,...,...,...
12587,12588,히트유도관,스포츠/헬스,,소담동,"[30151] 세종특별자치시 한누리대로 2018 2층 207호, 208호 히트유도관",36.484745,127.299401
12661,12662,한우88도매장 도담점,일반음식점,044-905-7070,도담동,"[30098] 세종특별자치시 보듬3로 8-11 101,102,103호",36.513200,127.258238
12743,12744,꺼먹지명태조림 세종본점,일반음식점,044-866-9201,고운동,[30063] 세종특별자치시 마음로 96 1층,36.506621,127.232401
12772,12773,동경한의원,병원/약국,044-865-7573,소담동,[30151] 세종특별자치시 소담3로 8 1층 5호,36.485941,127.300517


In [154]:
# 중복되는 데이터 첫번째 값만 남겨두고 drop
df_clean = df_clean.drop_duplicates(subset=['가맹점명', '소재지 도로명주소'],keep='first')

In [155]:
df_clean

Unnamed: 0,연번,가맹점명,업종명,전화번호,읍면동,소재지 도로명주소,위도,경도
0,1,#738,의류/잡화/안경,,보람동,[30150] 세종특별자치시 남세종로 469 408동1304호,36.460810,127.276967
1,2,#언니(샵언니),미용/뷰티/위생,044-864-8890,조치원읍,[30020] 세종특별자치시 조치원읍 문화길 29 4동2호,36.481309,127.289901
2,3,(A+)베이비맘케어,미용/뷰티/위생,042-863-3545,보람동,[30151] 세종특별자치시 시청대로 167 드림빌딩 207호,36.481309,127.289901
3,4,(BodyReading)바디리딩,기타,,나성동,[30128] 세종특별자치시 나성북1로 23 상가동(802동) 229호,36.484596,127.252495
4,5,(KS세종MTB)삼천리자전거 조치원점,자동차/자전거,044-865-9600,조치원읍,[30035] 세종특별자치시 조치원읍 새내2길 42 삼천리자전거,36.496712,127.269133
...,...,...,...,...,...,...,...,...
12822,12823,히트복싱 소담점,학원/교육,,소담동,"[30151] 세종특별자치시 한누리대로 2018 204,205,206호 히트복싱",36.484745,127.299401
12823,12824,아그리엔북스,카페/베이커리,070-7755-4711,연동면,[30066] 세종특별자치시 연동면 예양길 11 1층,36.573663,127.323572
12824,12825,꿀꿀,일반음식점,,대평동,[30152] 세종특별자치시 한누리대로 2236 B124호,36.474221,127.277088
12825,12826,룰루마리김밥,분식,044-865-5493,소담동,[30150] 세종특별자치시 한누리대로 2003 101호,36.485449,127.301113


In [156]:
# 전화번호,업종명, 전화번호 Null 값 미등록으로 변환

In [157]:
cols = ['가맹점명', '업종명', '전화번호']
df_clean.loc[:, cols] = df_clean[cols].fillna('미등록')

In [158]:
df_clean

Unnamed: 0,연번,가맹점명,업종명,전화번호,읍면동,소재지 도로명주소,위도,경도
0,1,#738,의류/잡화/안경,미등록,보람동,[30150] 세종특별자치시 남세종로 469 408동1304호,36.460810,127.276967
1,2,#언니(샵언니),미용/뷰티/위생,044-864-8890,조치원읍,[30020] 세종특별자치시 조치원읍 문화길 29 4동2호,36.481309,127.289901
2,3,(A+)베이비맘케어,미용/뷰티/위생,042-863-3545,보람동,[30151] 세종특별자치시 시청대로 167 드림빌딩 207호,36.481309,127.289901
3,4,(BodyReading)바디리딩,기타,미등록,나성동,[30128] 세종특별자치시 나성북1로 23 상가동(802동) 229호,36.484596,127.252495
4,5,(KS세종MTB)삼천리자전거 조치원점,자동차/자전거,044-865-9600,조치원읍,[30035] 세종특별자치시 조치원읍 새내2길 42 삼천리자전거,36.496712,127.269133
...,...,...,...,...,...,...,...,...
12822,12823,히트복싱 소담점,학원/교육,미등록,소담동,"[30151] 세종특별자치시 한누리대로 2018 204,205,206호 히트복싱",36.484745,127.299401
12823,12824,아그리엔북스,카페/베이커리,070-7755-4711,연동면,[30066] 세종특별자치시 연동면 예양길 11 1층,36.573663,127.323572
12824,12825,꿀꿀,일반음식점,미등록,대평동,[30152] 세종특별자치시 한누리대로 2236 B124호,36.474221,127.277088
12825,12826,룰루마리김밥,분식,044-865-5493,소담동,[30150] 세종특별자치시 한누리대로 2003 101호,36.485449,127.301113


In [159]:
# 우편번호와 도로명주소 분리
df_clean.loc[:, ['우편번호','도로명주소']] = df_clean['소재지 도로명주소'].str.extract(r'\[(\d+)\]\s*(.*)')
df_clean

Unnamed: 0,연번,가맹점명,업종명,전화번호,읍면동,소재지 도로명주소,위도,경도,우편번호,도로명주소
0,1,#738,의류/잡화/안경,미등록,보람동,[30150] 세종특별자치시 남세종로 469 408동1304호,36.460810,127.276967,,
1,2,#언니(샵언니),미용/뷰티/위생,044-864-8890,조치원읍,[30020] 세종특별자치시 조치원읍 문화길 29 4동2호,36.481309,127.289901,,
2,3,(A+)베이비맘케어,미용/뷰티/위생,042-863-3545,보람동,[30151] 세종특별자치시 시청대로 167 드림빌딩 207호,36.481309,127.289901,,
3,4,(BodyReading)바디리딩,기타,미등록,나성동,[30128] 세종특별자치시 나성북1로 23 상가동(802동) 229호,36.484596,127.252495,,
4,5,(KS세종MTB)삼천리자전거 조치원점,자동차/자전거,044-865-9600,조치원읍,[30035] 세종특별자치시 조치원읍 새내2길 42 삼천리자전거,36.496712,127.269133,,
...,...,...,...,...,...,...,...,...,...,...
12822,12823,히트복싱 소담점,학원/교육,미등록,소담동,"[30151] 세종특별자치시 한누리대로 2018 204,205,206호 히트복싱",36.484745,127.299401,,
12823,12824,아그리엔북스,카페/베이커리,070-7755-4711,연동면,[30066] 세종특별자치시 연동면 예양길 11 1층,36.573663,127.323572,,
12824,12825,꿀꿀,일반음식점,미등록,대평동,[30152] 세종특별자치시 한누리대로 2236 B124호,36.474221,127.277088,,
12825,12826,룰루마리김밥,분식,044-865-5493,소담동,[30150] 세종특별자치시 한누리대로 2003 101호,36.485449,127.301113,,


In [160]:
# 읍면동, 주소 결측치 처리 확인
df_clean[df_clean['우편번호']==00000]

Unnamed: 0,연번,가맹점명,업종명,전화번호,읍면동,소재지 도로명주소,위도,경도,우편번호,도로명주소


In [161]:
# 주소의 형태 [30150] 세종특별자치시 남세종로 469 408동1304호 => 현재 우편번호 + 주소가 함께 있음 => 우편번호와 주소를 분리

In [162]:
#소재지 도로명 주소 drop
df_clean = df_clean.drop(['소재지 도로명주소','연번'], axis=1)

In [163]:
df_clean

Unnamed: 0,가맹점명,업종명,전화번호,읍면동,위도,경도,우편번호,도로명주소
0,#738,의류/잡화/안경,미등록,보람동,36.460810,127.276967,,
1,#언니(샵언니),미용/뷰티/위생,044-864-8890,조치원읍,36.481309,127.289901,,
2,(A+)베이비맘케어,미용/뷰티/위생,042-863-3545,보람동,36.481309,127.289901,,
3,(BodyReading)바디리딩,기타,미등록,나성동,36.484596,127.252495,,
4,(KS세종MTB)삼천리자전거 조치원점,자동차/자전거,044-865-9600,조치원읍,36.496712,127.269133,,
...,...,...,...,...,...,...,...,...
12822,히트복싱 소담점,학원/교육,미등록,소담동,36.484745,127.299401,,
12823,아그리엔북스,카페/베이커리,070-7755-4711,연동면,36.573663,127.323572,,
12824,꿀꿀,일반음식점,미등록,대평동,36.474221,127.277088,,
12825,룰루마리김밥,분식,044-865-5493,소담동,36.485449,127.301113,,


In [164]:
#데이터 결측치 처리 완료
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11792 entries, 0 to 12826
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   가맹점명    11792 non-null  object 
 1   업종명     11792 non-null  object 
 2   전화번호    11792 non-null  object 
 3   읍면동     11792 non-null  object 
 4   위도      11792 non-null  float64
 5   경도      11792 non-null  float64
 6   우편번호    0 non-null      float64
 7   도로명주소   0 non-null      float64
dtypes: float64(4), object(4)
memory usage: 829.1+ KB


#### 2.2.2 이상치

* 이상치 검출

* 이상치 존재 하지 않아 생략

* 이상치 분석
    * total_bill: 평균에서 크게 벗어난 고액 결제(약 4건).
    * tip: 매우 높은 팁을 준 경우(약 3건).
    * size: 평균보다 인원 수가 큰 테이블(약 4건).
* 이상치 처리 방안
    * 아래 사항은 아웃라이어로 분류되지만 고객 특이 케이스로 해석하는 것이 더 적절해 보이므로 데이터 유지결정

### 3. 초기데이터 분석

#### 3.1 기초통계 정보 확인 (최대값, 최소값, 평균값, 표준편차, 최빈값, 유일값 등)

#### 3.2 수치형 데이터 분포 확인

* total bill은 주로 10~20 구간을 중심으로 좌측으로 쏠려있는 정규 분포를 보임
* tip역시 2를 중심으로 좌측으로 쏠려있는 정규 분포를 보임
* 인원수는 2인이 가장 많음

#### 3.3  범주형 데이터 확인

#### 3.4 초기 데이터 분석 정리

# 4. 탐색적연구

#### Step1] 데이터 분석을 위한 목적, 대상 또는 주요 가설을 세워본다. 주요가설 도출후 우선순위를 설정한다.

* 가설1] 고액 결제는 주로 저녁 시간에 발생할 것이다.
* 가설2] 인원수가 높을 수록 고액 결제를 할 것이다.
* 가설3] 흡연자일 수록 고액 결제를 할 것이다.

#### Step2] 가설증명: 데이터 재 구조화, 시각화를 통해 새로운 insight 및 정보를 습득 및 가설을 검증한다.

* 인사이트
    * 고가의 팁과 총금액은 저녁 타임에서 발생된다.
    * 총금액과 팁은 양의 상관관계를 보여주고 있다.

* 가설2] 인원수가 높을 수록 고액 결제를 할 것이다.

* 인사이트
    * 전체적으로 인원수에 따라 고액 결재를 많이 하나따라 고액 결재를 많이 하나 예외도 존재한다. (최고가, 최고팁은 3인석에서 발견됨)

* 가설3] 흡연자일 수록 고액 결제를 할 것이다.

* 인사이트
    * 흡연자와 총결제금액, tip과의 상관관계가 뚜렷히 드러나지 않는다.

#### Step3] 탐색적연구 반복
* 추가 가설 설정 하고 가설의 우선순위를 재조정한다.
* 시간 일정이 허락하는 범위내에서 Step1~Step3를 반복한다.

* 추가 가설 리스트
    * 추가 가설1] 요일별 시간대별 매출 상관관계가 존재 할 것으로 보임
    * 추가 가설2] 성별에 따른 매출 상관관계가 존재 할 것으로 보임

* 추가 가설1] 요일별 시간대별 매출 상관관계가 존재 할 것으로 보임

* 인사이트
    * 토요일 저녁시간에 고가의 팁이 발생한다.
    * 주말(토요일, 일요일)에는 외식을 거의 저녁에 한다.
    * 목요일 점심에 총금액 12$ 부근에 응집도가 높다.
    * 목요일은 거의 점심식사를 한다.
    * 금요일은 점심, 저녁식사를 모두 한다.
    * 일요일 저녁에 적은 값에도 큰 팁을 내는 특이한 데이터가 존재한다.

* 추가 가설2] 성별에 따른 매출 상관관계가 존재 할 것으로 보임

* 인사이트
    * 최고 매출은 남성 그룹에서 발생되었다.
    * 팁이 높은 비율과 낮은 비율로 보이는 아웃라이어도 남성 그룹에서 발견되었다.

#### Step4] 최종결론: 지금까지 진행했던 모든 탐색적연구의 결과를 반영하여 최종 결론을 내린다.

#### 인사이트 정리

* 기초 분석
    * total_bill: 주로 $10~20, 고액 일부로 인해 오른쪽 꼬리(long tail) 분포
    * tip: 평균 $2 부근 집중, 고액 일부 존재
    * size: 2인이 가장 많음 (소규모 그룹 위주)
    * 요일/시간대 분포: 주말(Sat, Sun) & Dinner 데이터가 다수
* 초기 인사이트
    * 소비 패턴
        * 주말 저녁에 결제가 집중됨
        * 대부분 2인 중심의 식사
        * 팁과 총액은 일부 고액으로 인해 편향된 분포를 보임
    * 이상치(아웃라이어)
        * 실제 의미 있는 고객군으로 판단
* 가설 검증
    * 가설1] 고액 결제는 주로 저녁 시간에 발생할 것이다.
        * 고가의 팁과 총금액은 저녁 타임에서 발생된다.
        * 총금액과 팁은 양의 상관관계를 보여주고 있다.
    * 가설2] 인원수가 높을 수록 고액 결제를 할 것이다.
        * 전체적으로 인원수에 따라 고액 결재를 많이 하나따라 고액 결재를 많이 하나 예외도 존재한다. (최고가, 최고팁은 3인석에서 발견됨)
    * 가설3] 흡연자일 수록 고액 결제를 할 것이다.
        * 흡연자와 총결제금액, tip과의 상관관계가 뚜렷히 드러나지 않는다.
    * 추가 가설1] 요일별 시간대별 매출 상관관계가 존재 할 것으로 보임
    * 추가 가설2] 성별에 따른 매출 상관관계가 존재 할 것으로 보임


---

# 인사이트별 비지니스 전략

* 기초 분석
    * total_bill: 주로 $10~20, 고액 일부로 인해 오른쪽 꼬리(long tail) 분포  
      => 비즈니스 전략1
    * tip: 평균 $2 부근 집중, 고액 일부 존재
      => 비즈니스 전략2
    * size: 2인이 가장 많음 (소규모 그룹 위주)
    * 요일/시간대 분포: 주말(Sat, Sun) & Dinner 데이터가 다수
* 초기 인사이트
    * 소비 패턴
        * 주말 저녁에 결제가 집중됨
        * 대부분 2인 중심의 식사
        * 팁과 총액은 일부 고액으로 인해 편향된 분포를 보임
    * 이상치(아웃라이어)
        * 실제 의미 있는 고객군으로 판단
* 가설 검증
    * 가설1] 고액 결제는 주로 저녁 시간에 발생할 것이다.
        * 고가의 팁과 총금액은 저녁 타임에서 발생된다.
        * 총금액과 팁은 양의 상관관계를 보여주고 있다.
    * 가설2] 인원수가 높을 수록 고액 결제를 할 것이다.
        * 전체적으로 인원수에 따라 고액 결재를 많이 하나따라 고액 결재를 많이 하나 예외도 존재한다. (최고가, 최고팁은 3인석에서 발견됨)
    * 가설3] 흡연자일 수록 고액 결제를 할 것이다.
        * 흡연자와 총결제금액, tip과의 상관관계가 뚜렷히 드러나지 않는다.
    * 추가 가설1] 요일별 시간대별 매출 상관관계가 존재 할 것으로 보임
    * 추가 가설2] 성별에 따른 매출 상관관계가 존재 할 것으로 보임


---

# 최종 결론

* 요약정보 또는 비즈니스 전략 위주로 정리