# AIVLE스쿨 1차 미니프로젝트: 서울시 생활정보 기반 대중교통 수요 분석

<img src = "https://github.com/Jangrae/img/blob/master/cafe.png?raw=true" width=800, align="left"/>

- 본 과정에서는 실제 사례와 데이터를 기반으로 문제를 해결하는 전체 과정을 자기 주도형 실습으로 진행해볼 예정입니다.
- 앞선 교육과정을 정리하는 마음과 지금까지 배운 내용을 바탕으로 문제 해결을 해볼게요!
- 미니 프로젝트를 통한 문제 해결 과정 'A에서 Z까지', 지금부터 시작합니다!

# [미션 4] 구별 업종등록 데이터 분석

### 로컬 수행(Anaconda)
- project 폴더에 필요한 파일들을 넣고, 본 파일을 열었다면, 별도 경로 지정이 필요하지 않습니다.

In [None]:
# 기본 경로
path = ''

### 구글 콜랩 수행

- 구글 콜랩을 사용중이면 구글 드라이브를 연결합니다.

In [None]:
# 구글 드라이브 연결, 패스 지정
import sys
if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/drive')
    path = '/content/drive/MyDrive/project/'

### 한글 폰트 표시를 위해 설치합니다.

In [None]:
# 한글 표시를 위한 라이브러리 설치
!pip install koreanize_matplotlib -q

### 필요한 라이브러리를 불러옵니다.

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import koreanize_matplotlib
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format='retina'

### 기본 데이터: 1.4 seoul_business_type.csv

- 서울 시 구별 등록 업종 상위 10개 데이터(제공 가능한 최신 버전)
    - 택시 운송업 (개인택시 등록자 주거지)
    - 한식일반음식점업
    - 용달 화물자동차 운송업(개인용달 등록자 주거지)
    - 부동산 중개 및 대리업
    - 두발미용업
    - 커피전문점
    - 남녀용 겉옷 및 셔츠 도매업
    - 기타주점업
    - 일반 교과 학원
    - 한식 육류요리 전문점

---

# 1. 데이터 불러오기

- 분석 대상 데이터를 불러와 데이터프레임으로 선언합니다.

### [참고] 데이터 프레임을 불러오고 변수로 저장(CSV 기준으로 진행)

- csv: pd.read_csv('파일이름.csv')
- txt: pd.read_csv('파일이름.csv', sep='구분자')
- xlsx: pd.read_excel('파일이름.xlsx')
- pickle: pd.read_pickle('파일이름.pkl')

## [실습1] 데이터 불러오기

- 대상 파일: 1.4 seoul_business_type.csv
- 불러온 데이터는 seoul_business 데이터프레임으로 선언하세요.
- 데이터 불러올 때 참고할 사항 
    - 구분자(sep)는 ',' 입니다
    - UTF-8 인코더를 사용해 주세요

In [None]:
# 데이터 불러오기
seoul_business = pd.read_csv(path + '1.4 seoul_business_type.csv', sep=',', encoding='UTF-8')

# 확인
seoul_business.head()

---

# 2. 기본 정보 확인 및 전처리

- 분석 대상 테이터를 탐색하고 적절한 전처리를 수행합니다.

## [실습2] 기본 정보 확인

- seoul_business 데이터프레임 정보를 확인하세요.
- head(), tail(), info(), describe() 메서드 등을 활용해 보세요.

In [None]:
# tail() 메서드로 하위 데이터 확인
seoul_business.tail()

In [None]:
# info() 메서드로 열 이름, 데이터 개수, 데이터 형식 등 확인
seoul_business.info()

In [None]:
# describe() 메서드로 기술통계정보 확인
seoul_business.describe()

## [실습3] 주요 업종 선택

- 대중교통 이동수요가 높을 것으로 예상되는 업종, 종사자수가 많은 업종만을 선택합니다.
- 단, '자치구' 열은 꼭 포함해야 합니다.
    - 예: '자치구', '한식 일반 음식점업', '커피전문점', '기타주점업' 
- seoul_business 데이터프레임이 위에서 선택한 열만 갖도록 변경하세요.

In [None]:
# 대중교통 이동수요가 높을 것으로 예상되는 업종, 종사자수가 많은 업종
# df = df[['열1', '열2', '열3']] 형태의 구문 사용
seoul_business = seoul_business[['자치구','한식 일반 음식점업','한식 육류요리 전문점','커피전문점','기타주점업','택시운송업','남녀용 겉옷 및 셔츠 도매업','부동산 중개 및 대리업']]

# 확인
seoul_business.head()

- seoul_business 데이터프레임을 df_seoul_business.csv 파일로 저장하세요.

In [None]:
# csv 파일로 저장 (파일명: df_seoul_business.csv)
# 참고: to_csv() 메서드를 사용, index=False 지정 
seoul_business.to_csv(path + 'df_seoul_business.csv', index=False)

---

# 3. 데이터 분석

- 다양한 분석 과정을 통해 인사이트를 도출하세요.

## [실습4] 시각화 분석

- 다양한 열를 기준으로 그래프를 그려보고 인사이트를 도출해보세요.

In [None]:
# 자치구별 한식 일반 음식점업 종사자 수 시각화
plt.figure(figsize=(12, 6))
plt.bar(x='자치구', height='한식 일반 음식점업', data=seoul_business)
plt.title('자치구별 한식 일반 음식점업 종사자 수', size=20, pad=15)
plt.xticks(rotation=45)
plt.show()

In [None]:
# 자치구별 커피전문점 종사자 수 시각화
plt.figure(figsize=(12, 6))
plt.bar(x='자치구', height='커피전문점', data=seoul_business)
plt.title('자치구별 커피전문점 종사자 수', size=20, pad=15)
plt.xticks(rotation=45)
plt.show()

In [None]:
# 자치구별 기타주점업 종사자 수 시각화
plt.figure(figsize=(12, 6))
plt.bar(x='자치구', height='기타주점업', data=seoul_business)
plt.title('자치구별 기타주점업 종사자 수', size=20, pad=15)
plt.xticks(rotation=45)
plt.show()

In [None]:
# 위 차트를 통해 알게된 사실을 정리해 보세요.
# 자치구별 한식 일반 음식점업 종사자 수 분포: 강남구가 제일 많고, 서초구, 영등포구, 중구, 종로구 등 직장수요가 높은 자치구
# 자치구별 커피전문점 종사자 수 분포: 강남구, 마포구 등 맛집이 많은 곳에 많이 분포
# 자치구별 기타주점업 종사자 수 분포: 기타주점업도 커피전문점이 많은 곳에 대체적으로 분포