In [1]:
import pandas as pd

In [2]:
# csv 파일을 읽고 Dateframe 으로 변환합니다. 한글 깨짐 방지를 위해 인코딩 파라미터를 추가합니다.
data = pd.read_csv('9_제주 관광을 위한 날짜별 지역 추천 데이터.csv', encoding='cp949')

# 변수 설명 

- 일자: 평균 기온, 일강수량, 최대 풍속을 기록한 날입니다. 하루 단위로 되어 있습니다.
    
- 시도명: 제주시와 서귀포시가 있습니다.

- 읍면동명: 제주시와 서귀포시 각각의 읍면동명이 있습니다.

- 평균기온: 섭씨온도 (℃)

- 일강수량: 일일강수량 (mm)

- 최대 풍속: m/s

- 업종명: 다양한 업종이 있습니다.

- 이용금액: 한달치 금액입니다. 하루치 금액이 아님에 주의합니다.
    
- 데이터기준일자: 데이터를 등록한 날짜입니다.

# 데이터 전처리

## 확인하기

In [3]:
# 테이블을 확인합니다.
data.head()

Unnamed: 0,일자,시도명,읍면동명,평균 기온,일강수량,최대 풍속,업종명,이용금액,데이터기준일자
0,2018-01-01,제주시,추자면,5.7,0.0,1.8,과실 및 채소 소매업,13569170,2020-12-15
1,2018-01-01,제주시,이도1동,2.9,0.0,2.4,중식 음식점업,18299000,2020-12-15
2,2018-01-01,제주시,이도1동,2.9,0.0,2.4,전시 및 행사 대행업,819550,2020-12-15
3,2018-01-01,제주시,이도1동,2.9,0.0,2.4,일식 음식점업,32160000,2020-12-15
4,2018-01-01,제주시,이도1동,2.9,0.0,2.4,일반유흥 주점업,199833010,2020-12-15


In [31]:
# 결측치가 없는 것을 확인합니다.
# 수치 데이터가 숫자형으로 되어있는지 확인합니다.
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1603367 entries, 0 to 1603366
Data columns (total 11 columns):
 #   Column    Non-Null Count    Dtype         
---  ------    --------------    -----         
 0   일자        1603367 non-null  object        
 1   시도명       1603367 non-null  object        
 2   읍면동명      1603367 non-null  object        
 3   평균 기온     1591259 non-null  float64       
 4   일강수량      1601446 non-null  float64       
 5   최대 풍속     1577476 non-null  float64       
 6   업종명       1603367 non-null  object        
 7   이용금액      1603367 non-null  int64         
 8   datetime  1603367 non-null  datetime64[ns]
 9   quarter   1603367 non-null  int64         
 10  month     1603367 non-null  int64         
dtypes: datetime64[ns](1), float64(3), int64(3), object(4)
memory usage: 134.6+ MB


In [30]:
# 업종별 개수를 확인합니다.
data['업종명'].value_counts()

한식 음식점업                    57975
슈퍼마켓                       57975
체인화 편의점                    57975
과실 및 채소 소매업                57975
중식 음식점업                    57945
서양식 음식점업                   57491
수산물 소매업                    57424
비알콜 음료점업                   57248
육류 소매업                     56727
빵 및 과자류 소매업                56670
차량용 주유소 운영업                56273
여관업                        56221
일식 음식점업                    55614
스포츠 및 레크레이션 용품 임대업         55090
기타음식료품위주종합소매업              53218
기타 외국식 음식점업                52798
피자, 햄버거, 샌드위치 및 유사 음식점업    52787
그외 기타 종합 소매업               52143
차량용 가스 충전업                 51023
전시 및 행사 대행업                50728
욕탕업                        50483
관광 민예품 및 선물용품 소매업          50334
화장품 및 방향제 소매업              50140
기타 주점업                     47593
건강보조식품 소매업                 44496
일반유흥 주점업                   38185
여행사업                       34354
호텔업                        27587
골프장 운영업                    23953
그외 기타 스포츠시설 운영업            21209
휴양콘도 운영업  

In [29]:
# 누락된 지역이 없는지 확인합니다.
data['읍면동명'].value_counts(ascending=True)

대천동        575
추자면      11965
봉개동      16167
영천동      17202
우도면      18967
도두동      19028
용담2동     20575
이호동      21034
서홍동      21303
일도1동     22246
동홍동      22797
오라동      22916
건입동      23464
이도1동     23527
표선면      23921
삼도2동     24072
삼도1동     24254
중앙동      24313
정방동      24313
용담1동     24435
일도2동     24467
외도동      24498
대륜동      24890
이도2동     25622
중문동      25982
안덕면      25986
노형동      28764
연동       29098
성산읍      36254
예래동      40977
한경면      45058
한림읍      49480
천지동      52458
송산동      52942
효돈동      66696
화북동      68356
삼양동      68378
아라동      69962
대정읍      71561
구좌읍      72714
조천읍      80964
남원읍      94440
애월읍     116746
Name: 읍면동명, dtype: int64

## 제거하기

In [5]:
# 데이터기준일자 컬럼은 필요 없으므로 제거합니다
data.drop(['데이터기준일자'], axis=1, inplace=True)

## 추가하기

In [6]:
# datetime 컬럼을 만듭니다. 
data['datetime'] = pd.to_datetime(data['일자'])

In [7]:
# 만든 컬럼을 확인합니다.
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1603367 entries, 0 to 1603366
Data columns (total 9 columns):
 #   Column    Non-Null Count    Dtype         
---  ------    --------------    -----         
 0   일자        1603367 non-null  object        
 1   시도명       1603367 non-null  object        
 2   읍면동명      1603367 non-null  object        
 3   평균 기온     1591259 non-null  float64       
 4   일강수량      1601446 non-null  float64       
 5   최대 풍속     1577476 non-null  float64       
 6   업종명       1603367 non-null  object        
 7   이용금액      1603367 non-null  int64         
 8   datetime  1603367 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(3), int64(1), object(4)
memory usage: 110.1+ MB


In [8]:
# 데이터의 첫 날과 마지막 날을 확인합니다.
# 2018-01-01 부터 2020-04-30 까지 있습니다.
data['datetime'].min(), data['datetime'].max()

(Timestamp('2018-01-01 00:00:00'), Timestamp('2020-04-30 00:00:00'))

In [9]:
# 데이터의 전체 기간을 확인합니다.
# 총 850 일입니다.
data['datetime'].max() - data['datetime'].min()

Timedelta('850 days 00:00:00')

In [10]:
# 분기(quarter)와 달(month) 컬럼을 추가합니다.
data["quarter"] = data["datetime"].dt.quarter
data["month"] = data["datetime"].dt.month

In [11]:
# 추가된 컬럼을 확인합니다.
data.tail()

Unnamed: 0,일자,시도명,읍면동명,평균 기온,일강수량,최대 풍속,업종명,이용금액,datetime,quarter,month
1603362,2020-04-30,제주시,아라동,11.5,0.0,6.6,한식 음식점업,1305124430,2020-04-30,2,4
1603363,2020-04-30,제주시,아라동,11.5,0.0,6.6,화장품 및 방향제 소매업,11806070,2020-04-30,2,4
1603364,2020-04-30,서귀포시,표선면,18.1,0.0,4.7,휴양콘도 운영업,37804200,2020-04-30,2,4
1603365,2020-04-30,제주시,아라동,11.5,0.0,6.6,여행사업,8600000,2020-04-30,2,4
1603366,2020-04-30,제주시,애월읍,20.6,0.0,5.4,휴양콘도 운영업,6629916,2020-04-30,2,4


# 데이터 분석

------------------------------------------------------

첫 번째

    2018-01-01 부터 2020-04-30 사이에 가장 높은 이용금액을 가진 업종을 찾는다

------------------------------------------------------


In [12]:
# 이용금액 내림차순 정렬
data.sort_values(by='이용금액' , ascending=False).head()


Unnamed: 0,일자,시도명,읍면동명,평균 기온,일강수량,최대 풍속,업종명,이용금액,datetime,quarter,month
947368,2019-05-22,제주시,용담2동,22.4,0.0,4.9,면세점,10764369591,2019-05-22,2,5
948872,2019-05-23,제주시,용담2동,25.1,0.0,5.2,면세점,10764369591,2019-05-23,2,5
912894,2019-05-04,제주시,용담2동,18.0,0.0,2.5,면세점,10764369591,2019-05-04,2,5
942991,2019-05-20,제주시,용담2동,14.7,1.5,3.4,면세점,10764369591,2019-05-20,2,5
941199,2019-05-19,제주시,용담2동,21.2,1.5,4.8,면세점,10764369591,2019-05-19,2,5


- 결론: 코로나 이전(2019년도)에 용담2동 공항에서 면세점이 가장 높은 이용금액을 가지고 있다.

- 문제 제기: 코로나 이후에는 면세점이 다른 업종에 밀렸을까?

------------------------------------------------------

두 번째

     2020-01-01 부터 2020-04-30 사이에 가장 높은 이용금액을 가진 업종을 찾는다

------------------------------------------------------

In [22]:
# 2019년 이후의 행만 선택
dataSubset = data[ data["datetime"].dt.year > 2019 ]

In [23]:
# 이용금액 내림차순 정렬
dataSubset.sort_values(by='이용금액' , ascending=False).head()

Unnamed: 0,일자,시도명,읍면동명,평균 기온,일강수량,최대 풍속,업종명,이용금액,datetime,quarter,month
1406339,2020-01-17,제주시,용담2동,3.5,0.0,2.1,면세점,8854495220,2020-01-17,1,1
1432979,2020-01-31,제주시,용담2동,4.0,0.0,2.6,면세점,8854495220,2020-01-31,1,1
1393651,2020-01-10,제주시,용담2동,4.7,0.0,1.9,면세점,8854495220,2020-01-10,1,1
1415175,2020-01-21,제주시,용담2동,4.3,0.0,2.1,면세점,8854495220,2020-01-21,1,1
1389041,2020-01-08,제주시,용담2동,5.3,7.5,5.7,면세점,8854495220,2020-01-08,1,1


- 결론: 코로나 초기에도 면세점이 가장 높은 이용금액을 가지고 있다.

In [16]:
# dataPopularSector = data.groupby()

------------------------------------------------------

앞으로 할 일

    - 면세점 외에도 높은 이용금액을 가진 업종 몇 가지 더 살펴보기
    - 날씨와 이용금액의 상관관계 찾아보기
    - 행을 분기별로 합쳐보기
    - 그래프 그릴 내용 생각하기
    
------------------------------------------------------