# 도전! 데이터 분석
## 기초 통계량과 데이터 시각화를 통한 인사이트 도출 실습 과정입니다.

* 먼저, 데이터를 불러와서 구조와 변수를 확인하겠습니다.
    * 제주도 내 상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터
    * 음면동, 업종명, 이용금액, 거주인구 등 정보 제공
    * 2019년 : raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_19.csv
    * 2020년 : raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_20(수정).csv
    * 2021년(1월~5월): raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_(2101~2105).csv

#### 1. 2019년 데이터 불러오기 및 시각화 비교
* 양적변수를 기준으로 산포도 그리기
* 질적변수를 기준으로 파이 그래프 그리기

In [None]:
# 필요한 라이브러리 Import
import pandas as pd

# 데이터 불러오기
df_2019 = pd.read_csv('raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_19.csv', encoding = 'cp949')

In [None]:
# 데이터 확인
df_2019

In [None]:
# 읍면동 기준 월간 총 합계 계산
# 날짜 데이터 타입으로 변환
df_2019['년월'] = pd.to_datetime(df_2019['년월'])

# 연도와 월 추출
df_2019['연도'] = df_2019['년월'].dt.year
df_2019['월'] = df_2019['년월'].dt.month

# 읍면동별로 그룹화하여 월간 총 합계 계산
result = df_2019.groupby(['읍면동명', '월']).sum().reset_index()

# 결과 출력
result

In [None]:
# 1. 양적변수를 기준으로 산포도 그리기
import plotly.express as px

fig = px.scatter_matrix(result, dimensions=['이용자수', '이용금액', '거주인구', '근무인구', '방문인구'])
fig.update_layout(
    width=800,  # 그림의 너비
    height=600,  # 그림의 높이
)
fig.show()

In [None]:
# 양적변수를 기준으로 산포도 그리기(월별로 어떻게 다를까?)
import plotly.express as px

# 읍면동별로 그룹화하여 월간 총 합계 계산
result_M = result.groupby(['월']).sum().reset_index()

fig = px.scatter_matrix(result_M, dimensions=['이용자수', '이용금액', '거주인구', '근무인구', '방문인구'], color='월')
fig.update_layout(
    width=800,  # 그림의 너비
    height=600,  # 그림의 높이
)
fig.show()

In [None]:
# 양적변수를 기준으로 산포도 그리기(동별로 어떻게 다를까?)
import plotly.express as px

# 읍면동별로 그룹화하여 월간 총 합계 계산
result_M = result.groupby(['읍면동명']).sum().reset_index()

fig = px.scatter_matrix(result_M, dimensions=['이용자수', '이용금액', '거주인구', '근무인구', '방문인구'], color='읍면동명')
fig.update_layout(
    width=800,  # 그림의 너비
    height=600,  # 그림의 높이
)
fig.show()

In [None]:
# 양적변수를 기준으로 산포도 그리기(월과 읍면동을 다 고려해볼까?) - 이용자수/이용금액
import plotly.express as px

fig = px.scatter(result, x='이용자수', y='이용금액', color='읍면동명', symbol='월',
                 title='양적 변수 산포도 - 월별 읍면동별',
                 labels={'이용자수': '이용자수', '이용금액': '이용금액', '읍면동명': '읍면동명', '월': '월'})

fig.update_layout(
    width=800,  # 그림의 너비
    height=600,  # 그림의 높이
)
fig.show()

In [None]:
# 양적변수를 기준으로 산포도 그리기(월과 읍면동을 다 고려해볼까?) - 거주인구/근무인구
import plotly.express as px

fig = px.scatter(result, x='거주인구', y='근무인구', color='읍면동명', symbol='월',
                 title='양적 변수 산포도 - 월별 읍면동별',
                 labels={'거주인구': '거주인구', '근무인구': '근무인구', '읍면동명': '읍면동명', '월': '월'})

fig.update_layout(
    width=800,  # 그림의 너비
    height=600,  # 그림의 높이
)
fig.show()

In [None]:
# 양적변수를 기준으로 산포도 그리기(월과 읍면동을 다 고려해볼까?) - 거주인구/방문인구
import plotly.express as px

fig = px.scatter(result, x='거주인구', y='방문인구', color='읍면동명', symbol='월',
                 title='양적 변수 산포도 - 월별 읍면동별',
                 labels={'거주인구': '거주인구', '방문인구': '방문인구', '읍면동명': '읍면동명', '월': '월'})

fig.update_layout(
    width=800,  # 그림의 너비
    height=600,  # 그림의 높이
)
fig.show()

In [None]:
# 양적변수를 기준으로 산포도 그리기(월과 읍면동을 다 고려해볼까?) - 근무인구/방문인구
import plotly.express as px

fig = px.scatter(result, x='근무인구', y='방문인구', color='읍면동명', symbol='월',
                 title='양적 변수 산포도 - 월별 읍면동별',
                 labels={'근무인구': '근무인구', '방문인구': '방문인구', '읍면동명': '읍면동명', '월': '월'})

fig.update_layout(
    width=800,  # 그림의 너비
    height=600,  # 그림의 높이
)
fig.show()

In [None]:
# 2. 질적변수 파이 그래프 그리기
# 유니크값 확인하기
print(df_2019['업종명'].unique())
print(df_2019['성별'].unique())

In [None]:
# 업종별 pie chart 그리기
import pandas as pd
import plotly.graph_objects as go

# 업종로 그룹화하여 연간 총 합계 계산
result_pie = df_2019.groupby(['업종명']).sum().reset_index()

# 파이 차트 데이터 생성
values = result_pie['이용금액']
labels = result_pie['업종명']

# 파이 차트 생성 및 레이아웃 설정
fig = go.Figure(data=[go.Pie(labels=labels, values=values)])

# 그래프 출력
fig.show()

In [None]:
# 성별 pie chart 그리기
import pandas as pd
import plotly.graph_objects as go

# 업종로 그룹화하여 연간 총 합계 계산
result_pie = df_2019.groupby(['성별']).sum().reset_index()

# 파이 차트 데이터 생성
values = result_pie['이용금액']
labels = result_pie['성별']

# 파이 차트 생성 및 레이아웃 설정
fig = go.Figure(data=[go.Pie(labels=labels, values=values)])

# 그래프 출력
fig.show()

#### 2. 2020년 데이터 불러오기 및 시각화 비교(실습)
* 2020년 : raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_20(수정).csv
* 양적변수를 기준으로 산포도 그리기
* 질적변수를 기준으로 파이 그래프 그리기

In [None]:
# 필요한 라이브러리 Import

# 데이터 불러오기(df_2020)


In [None]:
# 데이터 확인


In [None]:
# 읍면동 기준 월간 총 합계 계산
# 날짜 데이터 타입으로 변환

# 연도와 월 추출

# 읍면동별로 그룹화하여 월간 총 합계 계산

# 결과 출력


In [None]:
# 1. 양적변수를 기준으로 산포도 그리기


In [None]:
# 양적변수를 기준으로 산포도 그리기(월별로 어떻게 다를까?)


In [None]:
# 양적변수를 기준으로 산포도 그리기(동별로 어떻게 다를까?)


In [None]:
# 양적변수를 기준으로 산포도 그리기(월과 읍면동을 다 고려해볼까?) - 이용자수/이용금액


In [None]:
# 양적변수를 기준으로 산포도 그리기(월과 읍면동을 다 고려해볼까?) - 거주인구/근무인구


In [None]:
# 양적변수를 기준으로 산포도 그리기(월과 읍면동을 다 고려해볼까?) - 거주인구/방문인구


In [None]:
# 양적변수를 기준으로 산포도 그리기(월과 읍면동을 다 고려해볼까?) - 근무인구/방문인구


In [None]:
# 2. 질적변수 파이 그래프 그리기
# 유니크값 확인하기


In [None]:
# 업종별 pie chart 그리기


In [None]:
# 성별 pie chart 그리기

# 업종로 그룹화하여 연간 총 합계 계산

# 파이 차트 데이터 생성

# 파이 차트 생성 및 레이아웃 설정

# 그래프 출력

# 다음 '지리정보 시각화'에서 다시 뵙겠습니다.
# 감사합니다.