## 초기환경설정 및 라이브러리 로딩(import convention)

In [None]:
#import 컨벤션
import pandas as pd
import numpy as np
from scipy import stats
from random import randint
import itertools

In [None]:
# 시각화 그래프가 jupyter noteboob 상에 출력될 수 있도록 환경설정
%matplotlib inline

# 시각화 작업을 위한 모듈 로딩작업
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc

# 사용을 원하는 한글폰트에 대한 공식이름 확인
font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()

# 해당 한글폰트를 파이선 그래프에서 사용가능하도록 설정
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

## 데이터 로딩

In [None]:
# abc.csv 파일 메모리로 로딩
abc = pd.read_csv('abc.csv', skipinitialspace=True)

In [None]:
abc

In [None]:
#정성적(범주형:명목, 서열척도), 정량적(연속형: 등간, 비율척도) 변수를 분리
cateV = abc[['gender','job','position','address']]
contV = abc.drop(['gender','job','position','address'], axis=1)

In [None]:
# 범주형 변수로 구성된 데이터프레임 간략조회
cateV.head()

In [None]:
# 연속형 변수로 구성된 데이터프레임 간략조회
contV.head()

## 특정변수의 데이터를 문자열 또는 수치로 자유롭게 변환

In [None]:
# abc데이터프레임의 gender변수의 세부 데이터 분포현황을 파악함
abc.gender.value_counts(normalize=False, sort=False, dropna = False)

In [None]:
# gender변수의 데이터 값을 구체적인 성별 레이블로 변경해 새로운 변수컬럼(gender_label)으로 추가함
old = [1, 2]
new = ['남자', '여자']
abc['gender_label'] = abc['gender'].replace(old, new)

abc.head()

In [None]:
# 성별(gender)과 성별라벨(gender_label) 변수의 간략조회
abc[['gender', 'gender_label']].head()

In [None]:
# job 변수의 세부 데이터 분포현황을 파악함
abc.job.value_counts(normalize=False, sort=False, dropna = False)

In [None]:
# job변수의 데이터 값을 구체적인 직업명칭 레이블로 변경해 새로운 변수컬럼(job_label)으로 추가함
old = [1, 2, 3]
new = ['학생', '주부', '직장인']
abc['job_label'] = abc['job'].replace(old, new)

abc.head()

In [None]:
# 직업변수와 직업라벨 변수의 간략조회
abc[['job', 'job_label']].head()

In [None]:
# position 변수의 세부 데이터 분포현황을 파악함
abc.position.value_counts(normalize=False, sort=False, dropna = False)

In [None]:
# position변수의 데이터 값을 구체적인 직급명칭 레이블로 변경해 새로운 변수컬럼(position_label)으로 추가함
old = [1, 2, 3, 4, 5]
new = ['사원', '대리', '과장', '차장', '부장']
abc['position_label'] = abc['position'].replace(old, new)

abc.head(10)

In [None]:
# 직급변수와 직급라벨변수의 간략조회
abc[['position', 'position_label']].head()

In [None]:
# address 변수의 세부 데이터 분포현황을 파악함
abc.address.value_counts(dropna = False)

In [None]:
# address변수의 도시명 데이터를 개별적인 숫자로 변경해 새로운 변수컬럼으로 추가함
old = ['Seoul', 'Busan', 'Daejeon', 'Gwangju', 'Jeju', 'Suwon']
new = [1, 2, 3, 4, 5, 6]
abc['city_num'] = abc['address'].replace(old, new)

abc.head(10)

In [None]:
# address변수와 city_num변수의 간략조회
abc[['address', 'city_num']].head()

In [None]:
# address변수의 도시명 데이터를 활용해 수도권 및 지방지역 레이블로 변경해 새로운 변수컬럼으로 추가함
old = ['Seoul', 'Busan', 'Daejeon', 'Gwangju', 'Jeju', 'Suwon']
new = ['capital area', 'provinces', 'provinces', 'provinces', 'provinces', 'capital area']
abc['city_location'] = abc['address'].replace(old, new)

abc.head()

In [None]:
# address 변수를 활용한  도시숫자 변수 및 지역위치 변수 간략조회
abc[['address', 'city_num', 'city_location']].head()

In [None]:
# address변수의 도시명 데이터를 개별적인 숫자로 변경해 새로운 변수컬럼으로 추가함
old = ['capital area', 'provinces']
new = [1, 2]
abc['city_location_num'] = abc['city_location'].replace(old, new)

abc.head(10)

In [None]:
# address 변수를 활용한  도시숫자 변수 및 지역위치 변수, 지역위치 숫자변수에 대한 간략조회
abc[['address', 'city_num', 'city_location', 'city_location_num']].head()

## 연속형 변수를 범주화

In [None]:
# age 변수에 들어 있는 연령데이터를 연령층으로 범주화 하는데 사용할 구간범위 설정
bins = [-np.inf, 30, 45, 65, np.inf]
bins

In [None]:
# age변수의 연령층 범주데이터 변환을 위한  또다른 방식의 구간범위 설정
bins2 = [abc.age.min(), 30, 45, 65, abc.age.max()]
bins2

In [None]:
# age변수에 대한 범주화 구분 수치 및 레이블 설정
group_num = [1, 2, 3, 4]
group_label = ['청년층', '중년층', '장년층', '노년층']

In [None]:
# age변수데이터를 사전에 bins에서 정의한 구간범위에 따라 범주화 수치를 부여 하여 새로운 변수컬럼 생성
abc['age_class_num'] = pd.cut(abc.age, bins, labels=group_num)

In [None]:
# age변수데이터를 사전에 bins2에서 정의한 구간범위에 따라 범주화 라벨을 부여 하여 새로운 변수컬럼 생성
abc['age_class_label'] = pd.cut(abc.age, bins2, labels=group_label)

In [None]:
# age변수데이터의 연령층 수치 및 라벨을 부여한 범주화 작업내용 간략조회
abc[['age', 'age_class_num', 'age_class_label']].head(10)

## 그룹화된 집계 연산1

In [None]:
# address 주소지에 따른 연령변수에 대한 평균값 그룹연산
abc[['age']].groupby(abc['address']).mean()

In [None]:
# job 직업유형에 따른 이벤트반응금액(price)에 대한 중앙값을 구하는 그룹연산
abc[['price']].groupby(abc['job']).median()

In [None]:
# job_label 직업라벨에 따른 이벤트반응금액(price)에 대한 중앙값을 구하는 그룹연산
abc[['price']].groupby(abc['job_label'], sort=False).median()

In [None]:
# 직업 및 성별에 따른 이벤트반응금액(price)에 대한 평균값을 구하는 그룹연산
abc[['price']].groupby([abc['job_label'],abc['gender_label']]).mean()

In [None]:
# 직업라벨 및 성별에 따른 이벤트반응금액(price)에 대한 기술통계분석을 수행하는 그룹연산
abc[['price']].groupby([abc['job_label'],abc['gender_label']]).describe()

## 그룹화된 집계 연산2

In [None]:
# abc 데이터프레임에 대해 성별(gender)에 따른 그룹연산결과를 비교분석 하기 위한 설정
bygender = abc.groupby('gender_label')
bygender

In [None]:
# 성별(gender)에 따른 이벤트반응금액(price)에 대한 기술통계분석을 수행하는 그룹연산
bygender[['price']].mean()

In [None]:
# 성별(gender)에 따른 총거래금액(total), 이벤트반응금액(price)에 대한 평균값을 구하는 그룹연산
bygender[['total', 'price']].mean()

In [None]:
# 성별(gender)에 따른 이벤트반응금액(price)에 대한 기술통계분석을 수행하는 그룹연산
bygender[['price']].describe()

In [None]:
# 성별(gender)에 따른 총거래금액(total), 이벤트반응금액(price)에 대한 기술통계분석을 수행하는 그룹연산
bygender[['total', 'price']].describe()

In [None]:
# 성별(gender)에 따른 총거래금액(total), 이벤트반응금액(price)에 대한 주요 기술통계량을 분석하는 그룹연산
bygender[['total', 'price']].agg([np.sum, np.mean, np.median, np.std, len])

## 두 변수간 교차분석

In [None]:
# 성별라벨과 직급라벨 변수간 교차분석 ==> 직급라벨의 직급순서가 어색함
pd.crosstab(abc.gender_label, abc.position_label)

In [None]:
# 직급라벨 간략조회
abc['position_label'].head()

In [None]:
# 직급라벨 변수의 데이터를 범주형데이터로 명시적으로 만들어줌
abc['position_label'] = pd.Categorical(abc.position_label)
abc['position_label'].head()

In [None]:
# 직급라벨 변수의 개별직급의 서열순위를 명시적으로 설정함
position_order = ['사원', '대리', '과장', '차장', '부장']
position_order = [1,2,3,4,5]
#abc['position_label'] = abc['position_label'].cat.reorder_categories(position_order, ordered=True)
abc['position_label'] = abc['position_label'].cat.reorder_categories(abc.position, ordered=True)
abc['position_label'].head()

In [None]:
# 성별라벨과 직급라벨 변수간 교차분석
pd.crosstab(abc.gender_label, abc.position_label, margins=True)

In [None]:
# 성별라벨과 직급라벨 변수간 교차분석: 빈도수가 아닌 백분율로 표현  normalize=all, index, columns
pd.crosstab(abc.gender_label, abc.position_label, margins=True, normalize='all')

In [None]:
# 그래프를 그리기 위해 margin없는 성별라벨과 직급라벨 변수간 교차분석 테이블 생성
gp = pd.crosstab(abc.gender_label, abc.position_label)
gp

In [None]:
# 성별라벨과 직급라벨 변수간 교차분석결과를 그래프(dodge형)로 구현
gp.plot(kind='bar', rot=0, alpha=0.5)

In [None]:
# 성별라벨과 직급라벨 변수간 교차분석결과를 그래프(stack형)로 구현
gp.plot(kind='bar', stacked = True, rot=0, alpha=0.5)

In [None]:
# 성별라벨과 직급라벨 변수간 교차분석: 빈도수가 아닌 비율로 표현  normalize=all, index, columns
gp_prop = pd.crosstab(abc.gender_label, abc.position_label, normalize='index')
pd.crosstab(abc.gender_label, abc.position_label, normalize='index')

In [None]:
# 성별라벨과 직급라벨 변수간 교차분석결과(비율기준)를 그래프(dodge형)로 구현
gp_prop.plot(kind='bar', rot=0, alpha=0.5)

In [None]:
# 성별라벨과 직급라벨 변수간 교차분석결과(비율기준)를 그래프(stack형)로 구현
gp_prop.plot(kind='bar', stacked = True, rot=0, alpha=0.5)

## 피벗핑을 활용한 교차분석

In [None]:
# 성별라벨 및 사원라벨에 따른 이벤트반응금액(price) 피벗팅 테이블 도출
abc.pivot_table('price', 'gender_label', 'position_label', aggfunc = 'mean', margins =True)

In [None]:
# price변수의 기본구조 조회
abc[['price']].info()

In [None]:
# price변수의 기술통계분석 조회
abc[['price']].describe()

In [None]:
# price변수의 산점도 작성
plt.scatter(abc.price.index, abc.price)

In [None]:
# price변수의 데이터내용 조회
p = abc.price.value_counts(sort=False, ascending=True).sort_index()
p

In [None]:
# price변수의 데이터내용을 앞부분에서 간략하게 조회
p.head(10)

In [None]:
# price변수의 데이터내용을 뒷부분에서 간략하게 조회
p.tail(10)

In [None]:
# price변수의 내용중 이상치를 제외한 정상범위 데이터 필터링
temp = abc.loc[(abc['price']>=0) & (abc['price']<=10), : ]

In [None]:
# 이상치가 제거된 price변수의 기본구조정보조회
temp[['price']].info()

In [None]:
# 이상치가 제거된 price변수의 기술통계분석내용 조회
temp[['price']].describe()

In [None]:
# 성별과 직급변수에 따른 이벤트반응금액(price)을 비교하기 위한 피벗팅을 활용한 교차분석
temp.pivot_table('price', 'gender_label', 'position_label', aggfunc = 'mean', margins =True)

In [None]:
# 피벗팅을 결과를 그래프화하기 위한 데이터준비
temp.pivot_table('price', 'gender_label', 'position_label', aggfunc = 'mean')
out = temp.pivot_table('price', 'gender_label', 'position_label', aggfunc = 'mean')

In [None]:
# 성별라벨과 직급라벨 변수간 이벤트반응금액(price) 평균값을 비교하기 위한 그래프(dodge형) 구현
out.plot(kind='bar', rot=0, alpha=0.5)

In [None]:
# 성별라벨과 직급라벨 변수간 이벤트반응금액(price) 평균값을 비교하기 위한 그래프(stack형) 구현
out.plot(kind='bar', stacked = True, rot=0, alpha=0.5)

## end of documents