# SC12x

## 데이터 탐색 및 가설 검정

이번 SC 에서 여러분은 가상의 마케팅 데이터를 활용한 통계 분석을 진행하시게 됩니다. 

## 데이터셋 정보 :   
이 데이터셋은 알뜰 구매를 도와주는 XYZ사의 마케팅 정보를 다룹니다. 개인 정보는 보호를 위해 제거 되어 있습니다.

**Attribute Information:**
> 2,240 customers of XYZ company:

- ID - 고객의 고유값
- Year_Birth - 고객의 출생연도
- Education - 고객의 최종학력
- Marital_Status - 고객의 혼인여부
- Income - 고객의 연간 수입
- Kidhome - 자녀가 미취학아동인지 여부 (1 - yes, 0 - no)
- Teenhome - 자녀가 10대 청소년인지 여부 (1 - yes, 0 - no)
- Dt_Customer - 서비스 가입 시기
- Recency - 마지막 구매 시기 (일)
- MntWines - 최근 2년간 구매한 와인 구매 총액
- MntFruits- 최근 2년간 구매한 과일 구매 총액
- MntMeatProducts - 최근 2년간 구매한 정육 구매 총액
- MntFishProducts - 최근 2년간 구매한 어류 구매 총액
- MntSweetProducts - 최근 2년간 구매한 과자 구매 총액
- MntGoldProds - 최근 2년간 구매한 황금 구매 총액
- NumDealsPurchases - 할인을 통해 제품을 구매한 횟수
- NumWebPurchases - 회사의 웹사이트를 통해 구매한 횟수
- NumStorePurchases - 가게에서 직접 구매한 횟수
- NumWebVisitsMonth - 회사의 웹사이트를 방문한 횟수
- Complain - 고객의 최근 2년간 회사에 대한 클레임 여부 (1 - yes, 0 - no)
- Country - 고객의 국적

## Part 1 - 데이터 불러오기

### 1) 데이터셋을 업로드합니다

In [26]:
import pandas as pd
from google.colab import files
uploaded = files.upload()

df = pd.read_csv("sc12x_dataset.csv", index_col = 0)

Saving sc12x_dataset.csv to sc12x_dataset (2).csv


### 2) 결측치가 있는지 확인한 후 있다면 제거하세요

In [27]:
df.fillna(0)

Unnamed: 0,ID,Year_Birth,Country,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumStorePurchases,NumWebVisitsMonth,Complain
0,1826,1970,SP,Graduation,Divorced,"$84,835.00",0,0,6/16/14,0,189,104,379,111,189,218,1,4,6,1,0
1,1,1961,CA,Graduation,Single,"$57,091.00",0,0,6/15/14,0,464,5,64,7,0,37,1,7,7,5,0
2,10476,1958,US,Graduation,Married,"$67,267.00",0,1,5/13/14,0,134,11,59,15,2,30,1,3,5,2,0
3,1386,1967,AUS,Graduation,Together,"$32,474.00",1,1,5/11/14,0,10,0,1,0,0,0,1,1,2,7,0
4,5371,1989,SP,Graduation,Single,"$21,474.00",1,0,4/8/14,0,6,16,24,11,0,34,2,3,2,7,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2235,10142,1976,US,PhD,Divorced,"$66,476.00",0,1,3/7/13,99,372,18,126,47,48,78,2,5,11,4,0
2236,5263,1977,SP,2n Cycle,Married,"$31,056.00",1,0,1/22/13,99,5,10,13,3,8,16,1,1,3,8,0
2237,22,1976,SP,Graduation,Divorced,"$46,310.00",1,0,12/3/12,99,185,2,88,15,5,14,2,6,5,8,0
2238,528,1978,IND,Graduation,Married,"$65,819.00",0,0,11/29/12,99,267,38,701,149,165,63,1,5,10,3,0


### 3) 아래의 특성들을 만드세요

1. **TotalMntProducts** - 최근 2년간 구매한 모든 제품 가격들을 합한 값을 가진 계산한 특성입니다

2. **TotalNumPurchases** - 구매횟수를 모두 합친 값을 가진 특성입니다

3. **DaysSinceJoined** - 오늘 날짜를 기준으로 가입한 기간을 보여주는 특성입니다 

4. **VIP** - 누적 구매 금액이 $2,000 이상을 넘고, 오늘을 기준으로 가입기간이 5년 이상이 된다면 1, 아니면 0의 값을 가진 칼럼을 만듭니다

In [45]:
import numpy as np 
from datetime import datetime


df["TotalNumPurchases"] = df["NumDealsPurchases"] + df["NumWebPurchases"] + df["NumStorePurchases"] + df["NumWebVisitsMonth"]
df["TotalMntProducts"] = df["MntWines"] + df["MntFruits"] + df["MntMeatProducts"] + df["MntFishProducts"] + df["MntSweetProducts"] + df["MntGoldProds"]

df["DaysSinceJoined"] = pd.to_datetime("2022-2-3") - pd.DatetimeIndex(df["Dt_Customer"])
df["DaysSinceJoined"] = df["DaysSinceJoined"].dt.days

df['VIP'] = np.where((df['TotalMntProducts'] > 2000) & (df['DaysSinceJoined'] > 1825), 1, 0)

In [47]:
print(df.loc[df['VIP'] == 1])

         ID  Year_Birth Country  ... TotalNumPurchases DaysSinceJoined VIP
70     1772        1975      CA  ...                15            3310   1
77     7919        1976      SP  ...                27            3461   1
283    3403        1958      SP  ...                22            3419   1
335    3698        1983      SP  ...                15            3465   1
376   10133        1970      CA  ...                20            2913   1
385    6072        1970      SP  ...                15            3288   1
470    3690        1986      SP  ...                24            3310   1
517    4248        1960      SP  ...                14            2908   1
518    7451        1960      SP  ...                14            2908   1
588    7627        1975      SP  ...                12            3340   1
607    5453        1956      SA  ...                19            3417   1
671    5735        1991      SP  ...                15            2912   1
672    5350        1991  

## Part 2 - 가설 검정

### Hypothesis Test    
   - 수치형 (numerical/continuous) 칼럼이 어떤 차이를 보이는지 t-test를 통해 가설을 세우고 검증하세요. (최소 2개)
   - 범주형 (categorical) 칼럼이 어떤 차이를 보이는지 $\chi^2-test$를 통해 가설을 세우고 검증하세요. (최소 2개)  
  **Hint:** categorical feature 간의 "cross tab"을 생성하여 탐색해 보세요 (aka [contingency tables](https://en.wikipedia.org/wiki/Contingency_table)). 그리고 $\chi^2 test$를 적용해 보세요. [pandas.crosstab](http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html)을 사용하면 contingency table 을 생성할 수 있습니다. 그리고 [scipy.stats.chi2_contingency](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html)를 사용하면 $\chi^2$ statistics 를 계산할 수 있습니다.    

In [None]:
# 답안 작성은 이 곳에 하십시오

## Part 3 - Analysis and Interpretation

자, 위 파트들에서 우리는 데이터들을 잘 관찰했습니다. 다음의 질문들에 텍스트로 답변하십시오.  

1) 여러분들이 수행한 두 개 이상의 t-test 들을 해석하고 설명해 보세요.
2) 여러분들이 수행한 두 개 이상의 $\chi^2$ test 들을 해석하고 설명해 보세요.

** `답안 작성은 이 곳에 하십시오` **

# Advanced Goals: 
> SC 에서 3점을 얻고 싶으시다면 아래의 문제를 모두 풀어주세요. 다만 2점을 얻었다면 충분합니다. 시간과 여유가 있는 분들만 도전해 보시기 바랍니다. 

## Part 1: 

여러분들의 dataframe column들이 적절한 data type을 가지도록 작업해 보세요.   
**Hint:** 특정 column datatype 이 float 이나 integer 로 되어있음에도 불구하고 "object" 라고 되어 있는 경우가 있습니다. 이 경우, `pd.to_numeric()`, `pd.to_datetime()` 과 같은 방법으로 칼럼들을 변환해 보세요. 
주석을 통해 읽는 이가 쉽게 읽을 수 있고, 전체 내용을 쉽게 따라갈 수 있다면 3점을 얻을 수 있습니다. 

## Part 2:

데이터 셋의 적절한 column들의 조합으로 $t-test$와 $\chi^2 test$가 쉽게 수행될 수 있도록 함수를 작성해 보세요.
**데이터 타입에 알맞은 가설검정이 실행되야 하는 것을 잊지 마세요**

## Part 3: 
평균 추정치에 대한 신뢰 구간(confidence interval)을 계산하고 결과를 작성하세요 (최소 두 개 선택). 계산한 추정치가 얼마나 정확한지 시각적으로 확인할 수 있도록 matplotlib, seaborn 등의 시각화 라이브러리를 활용해서 나타내세요

In [None]:
# 각 파트가 잘 구분되어질 수 있도록 해 주세요

In [None]:
### 이곳에 Part 1 답안을 작성해주시기 바랍니다

In [None]:
### 이곳에 Part 2 답안을 작성해주시기 바랍니다

In [None]:
### 이곳에 Part 3 답안을 작성해주시기 바랍니다