In [None]:
# 한글폰트 설치하기
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
# 코랩 영역에 작업 파일 업로드
from google.colab import files
unloaded=files.upload()

In [None]:
# 작업에 필요한 모듈 연결
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import os

In [None]:
# 파일 읽어오기
df1 = pd.read_csv('./유가정보_230803.csv', encoding='cp949')

In [None]:
# 정보확인
df1.info()

### 데이터 전처리

In [None]:
# 분석에 필요한 필드만 추출
df1=df1[['상호', '주소', '상표', '셀프여부',  '휘발유', '경유']]
df1.columns

In [None]:
# 주소를 이용해 구 필드 생성
df1.주소.head()

In [None]:
df1['구']=df1['주소'].str.split(' ').str[1]
df1.head()

In [None]:
df1=df1[['구', '상호', '주소', '상표', '셀프여부',  '휘발유', '경유']]
df1.head()

In [None]:
# '구' => '자치구' 수정
# df1.columns = ['자치구', '상호', '주소', '상표', '셀프여부', '휘발유', '경유']
df1 = df1.rename(columns={'구':'자치구'})
df1.head()

In [None]:
# 주소의 '(내용)' 부분 제거하기
df1['주소'] = df1.주소.str.split('(').str[0]
df1.head()

In [None]:
# 자치구 데이터 확인
df1.자치구.unique()

In [None]:
# 전체 데이터에 대한 중복 데이터 확인
df1.duplicated().sum()

In [None]:
# 특정 필드의 중복값 확인
df1['자치구'].duplicated().sum()

데이터 전체에 대한 기술통계 확인

In [None]:
# 숫자데이터에 대한 기술 통계
df1.describe()

In [None]:
# 전체 데이터에 대한 기술 통계
df1.describe(include='all')

그룹별 통계 계산

In [None]:
# 자치구별 평균 유류가격 계산
plt_df=df1.groupby(['자치구']).mean()
plt_df

In [None]:
plt_df.index

DataFrame을 이용한 차트 작성

In [None]:
plt.style.use('ggplot')

plt.rc('font', family = 'NanumGothic')
plt_df.plot(kind='bar', figsize=(10, 5))
plt.show()

In [None]:
# 경유에 대한 시각화

plt.style.use('ggplot')

# DataFrame을 이용한 차트 작성
plt.rc('font', family = 'NanumGothic')
plt_df['경유'].plot(kind='bar', figsize=(10, 5))
plt.show()

Matplotlib.pyplot 을 이용하는 방법

In [None]:
# 차트 환경 설정
plt.style.use('ggplot')     # 차트 스타일
plt.figure(figsize=(10, 5)) # 차트 사이즈
plt.xticks(size=9, rotation=45)  # x축 레이블

plt.bar(plt_df.index, plt_df['휘발유'])
plt.title('서울 휘발유 가격 평균 비교')
plt.xlabel('자치구')
plt.ylabel('가격')

plt.show()



In [None]:
df1_g = df1.groupby(['자치구', '셀프여부']).mean()
df1_g.head()

In [None]:
df1_g.reset_index()

seaborn 모듈을 이용한 시각화

In [None]:
import seaborn as sns

In [None]:
# sns.scatterplot(x축, y축, data, hue=구분)
plt.figure(figsize=(10, 5))
sns.scatterplot(x='경유', y='휘발유', data = df1, hue='자치구')
plt.show()

In [None]:
# 박스플롯
plt.figure(figsize=(8, 5))

sns.boxenplot(x = '상표', y='휘발유', hue='셀프여부', data=df1, palette='Set3')
plt.show()

In [None]:
# 박스플롯
plt.figure(figsize=(12, 5))

sns.boxenplot(x = '자치구', y='휘발유', hue='셀프여부', data=df1, palette='Set3')
plt.show()

### 셀프주유소 위치를 구글 맵에 표시

In [None]:
!pip install googlemaps

In [None]:
import googlemaps
gmap_key = "AIzaSyB8Ua6RAi-ZC5WoE4xbEtlnEWZ_XOpaWGk" # 구글 맵 접속 수 개별적으로 접속
gmaps = googlemaps.Client(key=gmap_key)

In [None]:
tmp_map=gmaps.geocode('서울 강남구 헌릉로 731', language='ko')
tmp_map

In [None]:
tmp_map[0]['geometry']['location']['lat'], tmp_map[0]['geometry']['location']['lng']

In [None]:
df1.head()

In [None]:
df1.loc[3, '주소']

- 구글맵에서 주소를 이용한 위도/경도 받아오기

In [None]:
import numpy as np
import tqdm

lat = [] # 위도
lng = [] # 경도

for idx in tqdm.tqdm(df1.index):
    tmp_map=gmaps.geocode(df1.loc[idx,'주소'], language='ko')
    try:
        lat.append(tmp_map[0]['geometry']['location']['lat'])
        lng.append(tmp_map[0]['geometry']['location']['lng'])
    except:
        lat.append(np.nan)
        lng.append(np.nan)

df1['lat'] = lat
df1['lng'] = lng


df1.head()

In [None]:
df1.tail()

folium 모듈을 이용해 지도맵에 위치 출력

In [None]:
import folium

In [None]:
# folium 맵 생성하기
# folium.Map(중심위치, 옵션 지정)
map = folium.Map([37.467157, 127.118708], zoom_start=11)
map

In [None]:
# 포인트 추가하기
map = folium.Map([37.467157, 127.118708], zoom_start=11)

folium.Marker([37.467157, 127.118708],
              popup='(주)보성 세곡주유소',
              tooltip='12345',
              icon=folium.Icon(color='red')).add_to(map)
map.save('marker_oil.html')

특정 자치구를 입력 받아 해당 자치구의 최저가 10개의 주유소 정보를 가져와 출력하기

In [None]:
inGu = input('조회할 구 이름을 입력하세요:')
inCho = input('조회할 유종 입력(휘발유/경유):')

df_Gu=df1[df1['자치구'] == inGu]
df_Gu=df_Gu.sort_values([inCho]).head(10)   # 오름차순 정렬후 상위 10개만 출력

map = folium.Map([df_Gu.iloc[0, 7], df_Gu.iloc[0, -1]], zoom_start=13)

for idx in df_Gu.index:
    if df_Gu.loc[idx, '셀프여부'] == 'Y':
        color = 'red'
    else:
        color = 'blue'

    folium.Marker([df_Gu.loc[idx, 'lat'], df_Gu.loc[idx, 'lng']],
                popup='(주)보성 세곡주유소',
                tooltip=df_Gu.loc[idx, inCho],
                icon=folium.Icon(color=color)).add_to(map)

map.save('marker_oil.html')