# 도전! 데이터 분석
## 기초 통계량과 데이터 시각화를 통한 인사이트 도출 실습 과정입니다.

* 먼저, 데이터를 불러와서 구조와 변수를 확인하겠습니다.
    * 제주도 내 상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터
    * 음면동, 업종명, 이용금액, 거주인구 등 정보 제공
    * 2019년 : raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_19.csv
    * 2020년 : raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_20(수정).csv
    * 2021년(1월~5월): raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_(2101~2105).csv

#### 1. 2019년 데이터 불러오기 및 데이터 클랜징
* 데이터 클랜징에는 1) 결측치 처리 2) 이상치 탐지와 처리 3) 중복 데이터 처리 4) 노이즈 처리 5) 형식 표준화 6) 데이터 일치성 검사(key값 확인) 7) 데이터 유효성 검사(range)가 있으나,
* 여기서는 결측치 처리, 이상치 탐지와 처리, 중복 데이터 처리를 중심으로 살펴보겠습니다.

In [None]:
# 필요한 라이브러리 Import
import pandas as pd

# 데이터 불러오기
df_2019 = pd.read_csv('raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_19.csv', encoding = 'cp949')

In [None]:
# 1. 결측치 확인 및 처리
missing_values = df_2019.isnull().sum()
print(missing_values)

In [None]:
# 결측치 리스트 출력
print("결측치:")
df_2019[df_2019.isnull().any(axis=1)]

In [None]:
# 결측치가 있다면 제거
# 결측치 제거
df_2019 = df_2019.dropna()

# 인덱스 리셋
df_2019 = df_2019.reset_index(drop=True)

# 결측치 제거 결과 확인
print("결측치 제거 결과:")
df_2019

#### 여기서 잠깐!
* 시각화 이전에 한글을 인식하도록 설정을 하겠습니다.

In [None]:
# 컴퓨터 내 설치된 폰트 확인하기
## 라이브러리 Import
from matplotlib import font_manager

## 설치된 폰트 목록 가져오기
font_list = font_manager.fontManager.ttflist

## 폰트 이름 출력
for font in font_list:
    print(font.name)

In [None]:
## 한글폰트 설정
import matplotlib.pyplot as plt

# 폰트 설정
plt.rcParams['font.family'] = 'Malgun Gothic'

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용자수
import pandas as pd
import matplotlib.pyplot as plt

# Boxplot 시각화
plt.boxplot(df_2019['이용자수'])
plt.title('Boxplot')
plt.xlabel('이용자수')
plt.show()

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용금액
import pandas as pd
import matplotlib.pyplot as plt

# Boxplot 시각화
plt.boxplot(df_2019['이용금액'])
plt.title('Boxplot')
plt.xlabel('이용금액')
plt.show()

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 거주인구
import pandas as pd
import matplotlib.pyplot as plt

# Boxplot 시각화
plt.boxplot(df_2019['거주인구'])
plt.title('Boxplot')
plt.xlabel('거주인구')
plt.show()

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 근무인구
import pandas as pd
import matplotlib.pyplot as plt

# Boxplot 시각화
plt.boxplot(df_2019['근무인구'])
plt.title('Boxplot')
plt.xlabel('근무인구')
plt.show()

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 방문인구
import pandas as pd
import matplotlib.pyplot as plt

# Boxplot 시각화
plt.boxplot(df_2019['방문인구'])
plt.title('Boxplot')
plt.xlabel('방문인구')
plt.show()

#### 한 번에 다 확인하는 방법은 없을까요?

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용자수, 이용금액, 거주인구, 근무인구, 방문인구
import pandas as pd
import matplotlib.pyplot as plt

# Boxplot 시각화
plt.boxplot(df_2019[['이용자수', '이용금액', '거주인구', '근무인구', '방문인구']])
plt.title('Boxplot')
plt.xticks(range(1, 6),['이용자수', '이용금액', '거주인구', '근무인구', '방문인구'])
plt.show()

#### boxplot에서 확인된 이상치 리스트 확인하기

In [None]:
# 2. 이상치 탐지(tukey 방법으로)
## 라이브러리 Import
import pandas as pd
import numpy as np


# Tukey의 방법을 사용하여 이상치 식별 함수
def detect_outliers_tukey(data, variable):
    Q1 = np.percentile(data[variable], 25)
    Q3 = np.percentile(data[variable], 75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = data[(data[variable] < lower_bound) | (data[variable] > upper_bound)]
    return outliers

In [None]:
# '이용자수'에서 이상치 식별
outliers = detect_outliers_tukey(df_2019, '이용자수')
print("이상치:")
outliers

In [None]:
# '이용금액'에서 이상치 식별
outliers = detect_outliers_tukey(df_2019, '이용금액')
print("이상치:")
outliers

In [None]:
# '거주인구'에서 이상치 식별
outliers = detect_outliers_tukey(df_2019, '거주인구')
print("이상치:")
outliers

In [None]:
# '근무인구'에서 이상치 식별
outliers = detect_outliers_tukey(df_2019, '근무인구')
print("이상치:")
outliers

In [None]:
# '방문인구'에서 이상치 식별
outliers = detect_outliers_tukey(df_2019, '방문인구')
print("이상치:")
outliers

In [None]:
# 3. 중복 데이터 확인
duplicates = df_2019[df_2019.duplicated()]

# 중복 데이터 출력
print("중복 데이터:")
print(duplicates)

In [None]:
# 만약에 중복 값이 있다면, 삭제
df_2019_unique = df_2019.drop_duplicates()

# 중복 데이터 처리 결과 확인
print("중복 데이터 처리 결과:")
df_2019_unique

#### 2. 2020년 데이터 불러오기 불러오기 및 데이터 클랜징(실습)
* 2020년 : raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_20(수정).csv

In [None]:
# 필요한 라이브러리 Import


# 데이터 불러오기(df_2020)


In [None]:
# 1. 결측치 확인 및 처리



In [None]:
# 결측치 리스트 출력


In [None]:
# 결측치가 있다면 제거
# 결측치 제거


# 인덱스 리셋


# 결측치 제거 결과 확인


#### 여기서 잠깐!
* 시각화 이전에 한글을 인식하도록 설정을 하겠습니다.

In [None]:
# 컴퓨터 내 설치된 폰트 확인하기
## 라이브러리 Import
from matplotlib import font_manager

## 설치된 폰트 목록 가져오기
font_list = font_manager.fontManager.ttflist

## 폰트 이름 출력
for font in font_list:
    print(font.name)

In [None]:
## 한글폰트 설정
import matplotlib.pyplot as plt

# 폰트 설정
plt.rcParams['font.family'] = 'Malgun Gothic'

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용자수

# Boxplot 시각화


In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용금액

# Boxplot 시각화


In [None]:
# 2. 이상치 탐지(boxplot으로)
## 거주인구

# Boxplot 시각화


In [None]:
# 2. 이상치 탐지(boxplot으로)
## 근무인구

# Boxplot 시각화


In [None]:
# 2. 이상치 탐지(boxplot으로)
## 방문인구

# Boxplot 시각화


#### 한 번에 다 확인하는 방법은 없을까요?

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용자수, 이용금액, 거주인구, 근무인구, 방문인구

# Boxplot 시각화


#### boxplot에서 확인된 이상치 리스트 확인하기

In [None]:
# 2. 이상치 탐지(tukey 방법으로)
## 라이브러리 Import

# Tukey의 방법을 사용하여 이상치 식별 함수
def detect_outliers_tukey(data, variable):
    Q1 = np.percentile(data[variable], 25)
    Q3 = np.percentile(data[variable], 75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = data[(data[variable] < lower_bound) | (data[variable] > upper_bound)]
    return outliers

In [None]:
# '이용자수'에서 이상치 식별


In [None]:
# '이용금액'에서 이상치 식별


In [None]:
# '거주인구'에서 이상치 식별


In [None]:
# '근무인구'에서 이상치 식별


In [None]:
# '방문인구'에서 이상치 식별


In [None]:
# 3. 중복 데이터 확인

# 중복 데이터 출력


In [None]:
# 만약에 중복 값이 있다면, 삭제

# 중복 데이터 처리 결과 확인


#### 3. 2021년 데이터 불러오기 및 데이터 클랜징(실습)
* 2021년(1월~5월): raw_data/제주특별자치도_주제3_상권분석을 위한 유동인구에 따른 카드 매출액 변화 데이터 활용_매쉬업결과_(2101~2105).csv

In [None]:
# 필요한 라이브러리 Import


# 데이터 불러오기(df_2020)


In [None]:
# 1. 결측치 확인 및 처리



In [None]:
# 결측치 리스트 출력


In [None]:
# 결측치가 있다면 제거
# 결측치 제거


# 인덱스 리셋


# 결측치 제거 결과 확인


#### 여기서 잠깐!
* 시각화 이전에 한글을 인식하도록 설정을 하겠습니다.

In [None]:
# 컴퓨터 내 설치된 폰트 확인하기
## 라이브러리 Import
from matplotlib import font_manager

## 설치된 폰트 목록 가져오기
font_list = font_manager.fontManager.ttflist

## 폰트 이름 출력
for font in font_list:
    print(font.name)

In [None]:
## 한글폰트 설정
import matplotlib.pyplot as plt

# 폰트 설정
plt.rcParams['font.family'] = 'Malgun Gothic'

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용자수

# Boxplot 시각화


In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용금액

# Boxplot 시각화


In [None]:
# 2. 이상치 탐지(boxplot으로)
## 거주인구

# Boxplot 시각화


In [None]:
# 2. 이상치 탐지(boxplot으로)
## 근무인구

# Boxplot 시각화


In [None]:
# 2. 이상치 탐지(boxplot으로)
## 방문인구

# Boxplot 시각화


#### 한 번에 다 확인하는 방법은 없을까요?

In [None]:
# 2. 이상치 탐지(boxplot으로)
## 이용자수, 이용금액, 거주인구, 근무인구, 방문인구

# Boxplot 시각화


#### boxplot에서 확인된 이상치 리스트 확인하기

In [None]:
# 2. 이상치 탐지(tukey 방법으로)
## 라이브러리 Import

# Tukey의 방법을 사용하여 이상치 식별 함수
def detect_outliers_tukey(data, variable):
    Q1 = np.percentile(data[variable], 25)
    Q3 = np.percentile(data[variable], 75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = data[(data[variable] < lower_bound) | (data[variable] > upper_bound)]
    return outliers

In [None]:
# '이용자수'에서 이상치 식별


In [None]:
# '이용금액'에서 이상치 식별


In [None]:
# '거주인구'에서 이상치 식별


In [None]:
# '근무인구'에서 이상치 식별


In [None]:
# '방문인구'에서 이상치 식별


In [None]:
# 3. 중복 데이터 확인

# 중복 데이터 출력


In [None]:
# 만약에 중복 값이 있다면, 삭제

# 중복 데이터 처리 결과 확인


# 다음 '기초 통계량 확인'에서 다시 뵙겠습니다.
# 감사합니다.