In [9]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rc('font', family = 'Malgun Gothic')

In [10]:
df_TOCC = pd.read_csv('../../datasets/TypeOfContractChannel.csv')
df_TOCC[:2]

Unnamed: 0,id,type_of_contract,type_of_contract2,channel,datetime,Term,payment_type,product,amount,state,overdue_count,overdue,credit rating,bank,cancellation,age,Mileage
0,66758234,렌탈,Normal,서비스 방문,2019-10-20,60,CMS,K1,96900,계약확정,0,없음,9.0,새마을금고,정상,43.0,1862.0
1,66755948,렌탈,Extension_Rental,서비스 방문,2019-10-20,60,카드이체,K1,102900,계약확정,0,없음,2.0,현대카드,정상,62.0,2532.0


### x 범주형 / y 범주형 : 주로 독립성 증명
- 선정 변수: type_of_contract, cancellation
- 분석 내용: 계약 유형에 따라 해약 여부가 달라지는가?
    - 귀무가설: 계약 유형에 따라 해약 여부가 달라지지 않는다.
    - 대립가설: 계약 유형에 따라 해약 여부가 달라진다.
- 분석 결론 (기준: p-value가 0.05)
    - 통계 결론: p-value가 0.05보다 작으므로 대립가설이 참이다. 귀무가설 기각.
    - 사실 결론: 계약 유형에 따라 해약 여부가 달라진다.

In [3]:
df_TOCC[['type_of_contract', 'cancellation']].describe()

Unnamed: 0,type_of_contract,cancellation
count,51300,51279
unique,2,2
top,렌탈,정상
freq,46481,50372


In [4]:
df_TOCC_category = df_TOCC[['type_of_contract', 'cancellation']]

In [5]:
df_TOCC_category_pivot =  pd.pivot_table(data=df_TOCC_category, index='type_of_contract', columns='cancellation', aggfunc=len)
df_TOCC_category_pivot

cancellation,정상,해약
type_of_contract,Unnamed: 1_level_1,Unnamed: 2_level_1
렌탈,46137,344
멤버십,4231,563


In [6]:
import scipy
scipy.__version__
import scipy.stats as stats

In [7]:
stats.chi2_contingency(observed=df_TOCC_category_pivot, correction = True)

Chi2ContingencyResult(statistic=3021.9735309482894, pvalue=0.0, dof=1, expected_freq=array([[45658.8007411,   822.1992589],
       [ 4709.1992589,    84.8007411]]))

In [11]:
### p-value가 0.05보다 작다.
### 따라서 대립가설이 참이다.

In [12]:
df_TOCC[['state', 'cancellation']].describe()

Unnamed: 0,state,cancellation
count,51304,51279
unique,4,2
top,계약확정,정상
freq,50350,50372


### x 범주형 / y 범주형 : 주로 독립성 증명
- 선정 변수: product, cancellation
- 분석 내용: 차종에 따라 해약 여부가 달라지는가?
    - 귀무가설: 차종에 따라 해약 여부가 달라지지 않는다.
    - 대립가설: 차종에 따라 해약 여부가 달라진다.
- 분석 결론 (기준: p-value가 0.05)
    - 통계 결론: p-value가 0.05보다 작으므로 대립가설이 참이다. 귀무가설 기각.
    - 사실 결론: 계약 유형에 따라 해약 여부가 달라진다.

In [15]:
# 다른 변수 이름 작성 시 copy() 사용할 것
df_TOCC_product = df_TOCC[['product', 'cancellation']].dropna().copy()
# df_TOCC_product[:2]
df_TOCC_product.describe()

Unnamed: 0,product,cancellation
count,51278,51278
unique,6,2
top,K1,정상
freq,39111,50371


In [28]:
df_TOCC_product_pivot = pd.pivot_table(data=df_TOCC_product, index='product', columns='cancellation', aggfunc=len)
df_TOCC_product_pivot

cancellation,정상,해약
product,Unnamed: 1_level_1,Unnamed: 2_level_1
K1,38291,820
K2,8926,67
K3,2072,10
K4,323,4
K5,641,4
K6,118,2


In [29]:
df_TOCC_product_pivot = pd.pivot_table(data=df_TOCC_product, index='cancellation', columns='product', aggfunc=len)
df_TOCC_product_pivot

product,K1,K2,K3,K4,K5,K6
cancellation,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
정상,38291,8926,2072,323,641,118
해약,820,67,10,4,4,2


In [30]:
stats.chi2_contingency(observed=df_TOCC_product_pivot, correction=True)

Chi2ContingencyResult(statistic=103.79474317337241, pvalue=8.372028115481391e-21, dof=5, expected_freq=array([[3.84192086e+04, 8.83393274e+03, 2.04517380e+03, 3.21216058e+02,
        6.33591306e+02, 1.17877452e+02],
       [6.91791353e+02, 1.59067261e+02, 3.68262023e+01, 5.78394243e+00,
        1.14086938e+01, 2.12254768e+00]]))

In [22]:
### 선정변수
df_TOCC_error = df_TOCC[['state', 'cancellation']]
# df_TOCC_error[:2]
df_TOCC_error[:2].describe()

Unnamed: 0,state,cancellation
count,2,2
unique,1,1
top,계약확정,정상
freq,2,2


In [25]:
df_TOCC_error_pivot = pd.pivot_table(data=df_TOCC_error, index='state', columns='cancellation', aggfunc=len)
df_TOCC_error_pivot

cancellation,정상,해약
state,Unnamed: 1_level_1,Unnamed: 2_level_1
계약확정,50326.0,
기간만료,32.0,
해약진행중,14.0,
해약확정,,907.0


In [26]:
# 결과를 산출할 수 없는 경우'
# 이런 경우는 귀무가설이 맞다고 결론
stats.chi2_contingency(observed=df_TOCC_error_pivot, correction=True)

Chi2ContingencyResult(statistic=nan, pvalue=nan, dof=3, expected_freq=array([[nan, nan],
       [nan, nan],
       [nan, nan],
       [nan, nan]]))