# AIVLE스쿨 1차 미니프로젝트: 서울시 생활정보 기반 대중교통 수요 분석

<img src = "https://github.com/Jangrae/img/blob/master/park.png?raw=true" width=800, align="left"/>

- 본 과정에서는 실제 사례와 데이터를 기반으로 문제를 해결하는 전체 과정을 자기 주도형 실습으로 진행해볼 예정입니다.
- 앞선 교육과정을 정리하는 마음과 지금까지 배운 내용을 바탕으로 문제 해결을 해볼게요!
- 미니 프로젝트를 통한 문제 해결 과정 'A에서 Z까지', 지금부터 시작합니다!

# [미션 3] 구별 주민등록인구 데이터 분석

### 로컬 수행(Anaconda)
- project 폴더에 필요한 파일들을 넣고, 본 파일을 열었다면, 별도 경로 지정이 필요하지 않습니다.

In [None]:
# 기본 경로
path = ''

### 구글 콜랩 수행

- 구글 콜랩을 사용중이면 구글 드라이브를 연결합니다.

In [None]:
# 구글 드라이브 연결, 패스 지정
import sys
if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/drive')
    path = '/content/drive/MyDrive/project/'

### 한글 폰트 표시를 위해 설치합니다.

In [None]:
# 한글 표시를 위한 라이브러리 설치
!pip install koreanize_matplotlib -q

### 필요한 라이브러리를 불러옵니다.

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import koreanize_matplotlib
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format='retina'

### 기본 데이터: 1.3 seoul_people_202407.csv
- 서울시 주민 등록 데이터
- 세대수, 한국인, 외국인, 고령인구수 등에 대한 정보

# 1. 데이터 불러오기

- 분석 대상 데이터를 불러와 데이터프레임으로 선언합니다.

### [참고] 데이터 프레임을 불러오고 변수로 저장(CSV 기준으로 진행)

- csv: pd.read_csv('파일이름.csv')
- txt: pd.read_csv('파일이름.csv', sep='구분자')
- xlsx: pd.read_excel('파일이름.xlsx')
- pickle: pd.read_pickle('파일이름.pkl')

## [실습1] 데이터 불러오기

- 대상 파일: 1.3 seoul_people_202407.csv
- 불러온 데이터는 seoul_people 데이터프레임으로 선언하세요.
- 데이터 불러올 때 참고할 사항
    - 구분자(sep)는 '\t' 입니다
    - CP949 인코더를 사용해 주세요

In [None]:
# 데이터 불러오기
seoul_people = pd.read_csv(path + '1.3 seoul_people_202407.csv', sep='\t', encoding='CP949')

# 확인
seoul_people.head()

In [None]:
# tail() 메서드로 하위 데이터 확인
seoul_people.tail()

## [실습2] 제대로 불러오기

- head(), tail() 메서드로 조회 결과를 볼 때, 세 번째 행부터 읽어와야 합니다.
- header=2를 지정하여 다시 불러와 seoul_people 데이터프레임으로 선언하세요.

In [None]:
# 데이터 불러오기(세 번째 행부터)
seoul_people = pd.read_csv(path + '1.3 seoul_people_202407.csv', sep='\t', encoding='CP949', header=2)

# 확인
seoul_people.head()

- seoul_people 데이터프레임이 '동별(2)', '남자', '여자', '소계.1' 열만 갖게 하세요.

In [None]:
# '동별(2)','남자','여자','소계.1' 행만 갖게
# df = df[['열1', '열2', '열3']] 형태의 구문 사용
seoul_people = seoul_people[['동별(2)','남자','여자','소계.1']]

# 확인
seoul_people.head()

- 소계인 첫 번째 행은 의미가 없으니 제거하고, 인덱스를 초기화하세요.

In [None]:
# 첫 번째 행 제거
# 참고: df.drop(인덱스) 형태 구문 사용
seoul_people.drop(0, axis=0, inplace=True)

# 확인
seoul_people.head()

In [None]:
# 인덱스 초기화
# 참고: reset_index() 메서드 사용
seoul_people.reset_index(drop=True, inplace=True)

# 확인
seoul_people.head()

- 다음과 같이 seoul_people 데이터프레임의 열 이름을 변경하세요.
    - '동별(2)' --> '자치구', '소계.1' --> '합계'

In [None]:
# 열 이름 변경: '동별(2)' --> '자치구', '소계.1' --> '합계'
# 참고: rename() 메서드 사용
seoul_people.rename(columns={'동별(2)': '자치구', '소계.1': '합계'}, inplace=True)

# 확인
seoul_people.head()

# 2. 기본 정보 확인 및 전처리

- 분석 대상 테이터를 탐색하고 적절한 전처리를 수행합니다.

## [실습3] 기본 정보 확인

- seoul_people 데이터프레임 정보를 확인하세요.
- head(), tail(), info(), describe() 메서드 등을 활용해 보세요.

In [None]:
# tail() 메서드로 하위 데이터 확인
seoul_people.tail()

In [None]:
# info() 메서드로 열 이름, 데이터 개수, 데이터 형식 등 확인
seoul_people.info()

In [None]:
# describe() 메서드로 기술통계정보 확인
seoul_people.describe()

- seoul_people 데이터프레임을 df_seoul_people.csv 파일로 저장하세요.

In [None]:
# csv 파일로 저장 (파일명: df_seoul_people.csv)
# 참고: to_csv() 메서드를 사용, index=False 지정
seoul_people.to_csv(path + 'df_seoul_people.csv', index=False)

# 3. 데이터 분석

- 다양한 분석 과정을 통해 인사이트를 도출하세요.

## [실습4] 시각화 분석

- 다양한 열를 기준으로 그래프를 그려보고 인사이트를 도출해보세요.

In [None]:
# 자치구별 인구 분포 시각화
plt.figure(figsize=(14, 6))
plt.bar(x='자치구', height='합계', data=seoul_people)
plt.title('자치구별 총 인구 분포', size=20, pad=15)
plt.xticks(rotation=45)
plt.ylabel('총 인구')
plt.xlabel('자치구')
plt.show()

In [None]:
# 남자, 여자 인구 수 계산
total_male = seoul_people['남자'].sum()
total_female = seoul_people['여자'].sum()

# 남녀 인구 비율 시각화
plt.figure(figsize=(8, 8))
plt.pie([total_male, total_female], labels=['남자', '여자'], autopct='%1.1f%%', startangle=90)
plt.title('서울시 남녀 인구 비율', size=20, pad=15)
plt.show()

In [None]:
# 남녀 인구 차이 계산
seoul_people['남녀 차이'] = seoul_people['여자'] - seoul_people['남자']

# 남녀 인구 차이 시각화
plt.figure(figsize=(14, 6))
plt.bar(x='자치구', height='남녀 차이', data=seoul_people)
plt.title('자치구별 남녀 인구 차이', size=20, pad=15)
plt.xticks(rotation=45)
plt.ylabel('남녀 인구 차이')
plt.xlabel('자치구')
plt.show()

In [None]:
# 위 차트를 통해 알게된 사실을 정리해 보세요.
# 1. 서울시 내 자치구별로 인구 차이가 크게 나타남. 특정 자치구에서 인구가 매우 많거나 적을 수 있음
# 2. 서울시의 남자와 여자 인구는 대체로 비슷한 비율을 이루고 있지만, 미세한 차이가 존재함
# 3. 일부 자치구에서는 남녀 인구 불균형이 두드러질 수 있으며, 이는 자치구에 따라 남녀 인구 구성이 다름을 알 수 있음