kgmyh@naver.com 으로 `이름_주유소가격 데이터 분석.html` 로 제출
- html 파일로 변환
    - File > Download as > HTML (.html) 선택

# 데이터 불러오기

- 2022년 주유소들의 일자별 가격 데이터
- https://www.opinet.co.kr/user/opdown/opDownload.do

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 상반기, 하반기 주유소 가격 데이터 조회
d1 = pd.read_csv('data/2022년_서울_상반기_일별_가격.csv', encoding='cp949')
d2 = pd.read_csv('data/2022년_서울_하반기_일별_가격.csv', encoding='cp949')
d1.shape, d2.shape

In [None]:
# 상반기, 하반기 DataFrame 합치기
df = pd.concat([d1, d2], ignore_index=True)
df.shape

In [None]:
# DataFrame 기본 정보 조회
df.info()

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.isnull().sum()

In [None]:
df.describe()  #  정수/실수 타입 컬럼

In [None]:
df.describe(include='object') # 문자열(object) 

In [None]:
# 상표 컬럼의 고유값 조회
df['상표'].unique()
df['상표'].value_counts()
df['상표'].value_counts(normalize=True)

In [None]:
# 지역 컬럼의 고유값 조회
df['지역'].unique()
df['지역'].value_counts()
df['지역'].value_counts(normalize=True)

In [None]:
df['셀프여부'].value_counts()

> ### str accessor
> - `Series.str.String메소드()`
> - 문자열 타입 Series에 String 메소드들을 사용하여 일괄처리 할 수 있도록 한다.
> - str accessor 메소드 : https://pandas.pydata.org/pandas-docs/stable/reference/series.html#api-series-str

> ### datetime으로 변환
> - `pd.to_datetime(변환할 Series, format="날짜형식")`
> - x 또는 y 축이 날짜 일 경우 datetime 타입으로 처리하는 것이 좋다.
> - format: 년월일의 형식을 strftime 형식문자열로 지정한다. 
>      - [strftime 형식](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes)  
> - datetime을 변환하면 날짜만의 기능을 다룰 수 있다.
>     - dt accessor를 이용해 datetime의 속성값들을(년, 월, 일 등) 추출할 수 있다.
>     - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html


In [None]:
'서울 강남구'.split()[1]
# '서울 강남구'.slice(3) => str accessor 이용
'서울 강남구'[3:]

In [None]:
# 지역 컬럼의 값을 이용하여 "구" 컬럼 생성 (지역에서 구만 추출해서 파생변수컬럼 생성)
df['구'] = df['지역'].apply(lambda x : x.split()[1])
df.head()

In [None]:
df['지역'].str.slice(3)

In [None]:
# 기간 컬럼을 datetime 타입으로 변경
df['기간'] = pd.to_datetime(df['기간'], format="%Y%m%d")  #Y:년, m:월(2자리), d:일,  H: 시간, M:분, S: 초

In [None]:
df.info()

In [None]:
# 기간 컬럼을 이용해 "월", "일", "요일" 컬럼 생성 (dt accessor 이용)
df['월'] = df['기간'].dt.month
df['일'] = df['기간'].dt.day
df['요일'] = df['기간'].dt.weekday

In [None]:
df.head()

In [None]:
# 요일 - 0:월, 1:화, 2:수, 3:목, 4:금, 5:토, 6:일 로 변경
df['요일'] = df['요일'].apply(lambda x : "월화수목금토일"[x])# +"요일")

In [None]:
df.head()

In [None]:
# 전처리를 완료 -> 파일로 저장
df.to_csv('data/2022년_주유소_가격_데이터_preprocessing.csv', index=False)

In [None]:
df = pd.read_csv('data/2022년_주유소_가격_데이터_preprocessing.csv')
df.head()

In [None]:
# 휘발유 가격이 가장 비싼 5개 행 조회
# df.sort_values('휘발유', ascending=False).head()
df.sort_values(['휘발유', '기간'], ascending=[False, True]).head()

In [None]:
# 휘발유 가격이 가장 저렴한 5개 행 조회 (단 0원인 주유소 제외)
# df[df['휘발유']!=0].sort_values(['휘발유', '기간']).head(5)
df.query('휘발유 != 0').sort_values(['휘발유', '기간']).head(5)

In [None]:
# 고급휘발유 가격이 가장 비싼 5개 행 조회
df.sort_values(['고급휘발유', '기간'], ascending=[False, True]).head()

In [None]:
# 고급휘발유 가격이 가장 저렴한 5개 행 조회 (단 0원인 주유소 제외)
df.query('고급휘발유 != 0').sort_values(['고급휘발유', '기간']).head()

In [None]:
# 경유 가격이 가장 비싼 5개 행 조회
df.sort_values(['경유', '기간'], ascending=[False, True]).head()

In [None]:
# 경유 가격이 가장 저렴한 5개 행 조회 (단 0원인 주유소 제외)
df.query('경유 != 0').sort_values(['경유', '기간']).head()

In [None]:
# 상표별 휘발유 평균가격 조회
상표별_휘발유_평균가격 = df.groupby('상표')['휘발유'].mean().sort_values()
상표별_휘발유_평균가격 

In [None]:
# 0원인 주유소는 빼고 계산
df.query('휘발유!=0').groupby('상표')['휘발유'].mean().sort_values()

In [None]:
range(상표별_휘발유_평균가격.size)

In [None]:
# 상표별 휘발유 평균가격 시각화
휘발유_전체_평균 = np.round(df['휘발유'].mean(), 2)

상표별_휘발유_평균가격.plot(kind='bar', rot=45)

plt.axhline(휘발유_전체_평균, color='red', linestyle=':', label=f'전체평균:{휘발유_전체_평균}')

for i in range(상표별_휘발유_평균가격.size):
    txt = str(np.round(상표별_휘발유_평균가격[i]))
    plt.text(i-0.3, 상표별_휘발유_평균가격[i]+10, txt)

plt.title('상표별 휘발유 평균가격')
plt.ylim(1000, 2050)
plt.legend(bbox_to_anchor=(1,1), loc='upper left')
plt.show()

In [None]:
# 셀프주유소와 일반주유소 개수 확인
df['셀프여부'].value_counts()
df['셀프여부'].value_counts(normalize=True)

In [None]:
# 셀프 여부에 따른 휘발유 평균 가격 비교 
df.groupby('셀프여부')['휘발유'].mean()
df.query("휘발유 != 0").groupby('셀프여부')['휘발유'].mean()

In [None]:
# 상표별 일반/셀프 주유소의 휘발유 가격 평균 비교
# df.groupby(['상표', '셀프여부'])['휘발유'].mean().to_frame()
df.groupby(['상표', '셀프여부'])['휘발유'].mean().unstack() #    level=0)

In [None]:
상표_셀프여부별_휘발유_평균 = df.pivot_table(index='상표', columns='셀프여부', values='휘발유', aggfunc='mean', margins=True)
상표_셀프여부별_휘발유_평균

In [None]:
# 상표별 일반/셀프 주유소의 휘발유 가격 평균 비교 시각화
상표_셀프여부별_휘발유_평균[['셀프', '일반']].iloc[:-1].plot(kind='bar', 
                                                title='상표, 셀프여부별 휘발유 평균가격 비교', 
                                                ylim=(1200, 2100), 
                                                figsize=(10,7))

plt.show()

In [None]:
#  휘발유 가격 boxplot
# plt.boxplot(df.query('휘발유!=0')['휘발유'])
df.query('휘발유!=0')['휘발유'].plot(kind='box')
plt.show()

In [None]:
# 상표별 휘발유 가격의 분포를 boxplot으로 시각화
# df.query('휘발유 != 0').groupby('상표')['휘발유'].mean()
plt.figure(figsize=(10,5))
sns.boxplot(data=df.query('휘발유!=0'), y='휘발유', x='상표')  # y: 연속형 -> 4분위, 정상범위 등을 계산,  x: 범주형 - 나누는 대상
# sns.violinplot(data=df.query('휘발유!=0'), y='휘발유', x='상표')
plt.title('상표별 휘발유 가격 분포')
plt.show()

In [None]:
# 상표별 일반/셀프 주유소의 휘발유 가격에 대한 분포 확인 - boxplot으로 시각화
plt.figure(figsize=(10,7))
# sns.boxplot(data=df.query('휘발유 != 0'), y='휘발유', x='상표', hue='셀프여부') # hue: 범주형 -> 범주값에 따라 다른 색으로 구분해서 그린다. (따로 그린다.)
sns.violinplot(data=df.query('휘발유 != 0'), y='휘발유', x='상표', hue='셀프여부')
plt.show()

In [None]:
# 구별 휘발유 가격의 평균
result = df.query('휘발유 != 0').groupby('구')['휘발유'].mean().sort_values(ascending=False)
result

In [None]:
#boolean indexing - df[bool연산-행] [컬럼명],  df.loc[bool연산-행 , 컬럼]

# 평균 가격이 가장 높은 구의 상표별 휘발유 평균가격
df.loc[df['구']==result.index[0]].groupby('상표')['휘발유'].mean()

In [None]:
# 월 평균 휘발유 가격
월별_평균_휘발유_가격 = df.query('휘발유!=0').groupby('월')['휘발유'].mean()
월별_평균_휘발유_가격

In [None]:
# 월 평균 휘발유 가격  변화추이를 시각화
월별_평균_휘발유_가격.plot(figsize=(15, 4))
plt.xticks(range(1, 13), labels=[str(i)+'월' for i in range(1,13)]) 
plt.grid(True)
plt.show()

In [None]:
pd.options.display.max_columns = 30

In [None]:
# 각 구의 월별 평균 휘발유 가격 
구_월별_휘발류_평균가격 = np.round(df.pivot_table(index='월', columns='구', values='휘발유', aggfunc='mean'), 2)   # 반올림
구_월별_휘발류_평균가격

In [None]:
# 각 구의 월별 평균가격의 변화추이 시각화
구_월별_휘발류_평균가격.plot(figsize=(15, 5), title='각 구의 월별 평균가격의 변화추이', 
                           ylabel='평균가격')
plt.legend(bbox_to_anchor=(1,1), loc='upper left', ncol=2, title='구')
plt.show()

In [None]:
# 가장 휘발유가격이 비싼 주유소 상위 5 - (같은 주유소가 여러개 나오므로 가장 비싼 가격을 기준으로 집계)
# df.loc[df['휘발유'].sort_values(ascending=False).head(5).index]
# 상호, 주소 나눔.=>주소: 상호가 같은 주유소가 있을 경우를 대비
비싼주유소 = df.groupby(['상호', '주소'])['휘발유'].max().sort_values(ascending=False).head(5)
비싼주유소

In [None]:
# 가장 휘발유가격이 저렴한 주유소 상위 5 - (같은 주유소가 여러개 나오므로 가장 비싼 가격을 기준으로 집계)
저렴한주유소 = df.query('휘발유!=0').groupby(['상호', '주소'])['휘발유'].max().sort_values().head(5)
저렴한주유소

In [None]:
df.query('상호 == "서남주유소"')[['상호', '주소', '지역', '상표', '경유']].drop_duplicates() # 중복 행을 제거

In [None]:
# index나 컬럼명이 여러개 => Multi-Index
# 특정 level의 index를 조회 (level-> 밖에서 안쪽으로 0 ~ N 1씩 증가. (음수 index도 있다.))
저렴한주유소.index.get_level_values(0)  # level 0 index값들을 조회
저렴한주유소.index.get_level_values(-1)  # 맨 안쪽 index

In [None]:
비싼주유소.index.get_level_values(1)

In [None]:
비싼주유소

In [None]:
# 휘발유 비싼 주유소의 상위 5개의 상호, 지역, 주소 조회(중복제거-drop_duplicates)
#                                                          ==> 비싼 주유소 조회결과에 추가정보를 확인
df.loc[df['상호'].isin(비싼주유소.index.get_level_values(0)) &  
       df['주소'].isin(비싼주유소.index.get_level_values(1)), ['상호', '지역', '주소']].drop_duplicates()

In [None]:
# 휘발유 저렴한 주유소의 상위 5개의 상호, 지역, 주소 조회(중복제거)
df.query("상호 in @저렴한주유소.index.get_level_values(0) and 주소 in @저렴한주유소.index.get_level_values(1)")\
[['상호', '지역', '주소']].drop_duplicates()

In [None]:
# 고급 휘발유를 가장 많이 파는 구 조회
df.query('고급휘발유!=0').groupby('구')['고급휘발유'].count().sort_values(ascending=False)  #동일한 주유소가 같이 count가 됨.

In [None]:
df.query('고급휘발유!=0')[['구','상호','주소']].drop_duplicates().groupby('구').count()['상호']\
.sort_values(ascending=False)

In [None]:
###############################################################################
# 주유소 가격 데이터를 이용해서 알고 싶은 정보들을 추가 분석해 보세요.
###############################################################################
