## QUEST
- 범주형/범주형, 연속형/연속형 검증

In [1]:
import matplotlib.pyplot as plt
# 한글처리
import matplotlib as mpl
mpl.rc('font',family='Malgun Gothic')
import seaborn as sns
import pandas as pd
import scipy.stats as stats

In [2]:
df_TFD = pd.read_csv('../../datasets/TitanicFromDisaster_train.csv')
df_TFD[:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


### X:범주형, Y:범주형

#### 선정 변수 : Sex, Survived
- 분석 내용 : 성별에 따라 생존여부가 달라지는가?
    - 귀무가설: 성별에 따라 생존여부가 달라지지 않는다.
    - 대립가설: 성별에 따라 생존여부가 달라진다.
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: (pvalue=1.1973570627755645e-58), 대립가설 참, 귀무가설 기각
    - 사실 결론: 성별에 따라 생존여부가 달라진다.

In [3]:
df_TFD.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [4]:
# object로 변환 : 'Survived'
df_TFD['Survived'] = df_TFD['Survived'].astype(object)
df_TFD.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    object 
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(4), object(6)
memory usage: 83.7+ KB


In [5]:
df_TFD[['Sex','Survived']].describe()

Unnamed: 0,Sex,Survived
count,891,891
unique,2,2
top,male,0
freq,577,549


In [6]:
df_TFD_category = df_TFD[['Sex','Survived']]
df_TFD_category

Unnamed: 0,Sex,Survived
0,male,0
1,female,1
2,female,1
3,female,1
4,male,0
...,...,...
886,male,0
887,female,1
888,female,0
889,male,1


In [7]:
df_TFD_category_pivot = pd.pivot_table(data=df_TFD_category, index='Sex', columns='Survived', aggfunc=len)
df_TFD_category_pivot

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,81,233
male,468,109


In [8]:
stats.chi2_contingency(observed=df_TFD_category_pivot, correction=True)

Chi2ContingencyResult(statistic=260.71702016732104, pvalue=1.1973570627755645e-58, dof=1, expected_freq=array([[193.47474747, 120.52525253],
       [355.52525253, 221.47474747]]))

### X:연속형, Y:연속형

#### 선정 변수 : Age, Fare
- 분석 내용 : 나이에 따라서 요금에 변화가 있는가?
    - 귀무가설: 나이에 따라서 요금에 변화가 없다.
    - 대립가설: 나이에 따라서 요금에 변화가 있다.
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: (pvalue=0.01), 대립가설 참, 귀무가설 기각
    - 사실 결론: 나이에 따라서 요금에 변화가 있다.

In [9]:
df_TFD[['Age','Fare']].describe()

Unnamed: 0,Age,Fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


In [10]:
df_TFD_Fare = df_TFD[['Age','Fare']]
df_TFD_Fare[:2]

Unnamed: 0,Age,Fare
0,22.0,7.25
1,38.0,71.2833


In [11]:
# null값 존재 - null값 삭제
df_TFD_Fare = df_TFD_Fare.dropna().copy()

In [12]:
df_TFD_Fare.isnull().sum()

Age     0
Fare    0
dtype: int64

In [13]:
df_TFD_Fare.corr()

Unnamed: 0,Age,Fare
Age,1.0,0.096067
Fare,0.096067,1.0


In [14]:
stats.pearsonr(df_TFD_Fare['Age'], df_TFD_Fare['Fare'])

PearsonRResult(statistic=0.0960666917690389, pvalue=0.010216277504446952)

## QUEST (8월 18일 금요일)
- 목표변수 'Survived', 설명변수 : 'Pclass', 'Sex', 'Age'
- 목표변수 대한 설명변수들에 대한 인사이트 찾기

** 참고사항: 설명변수의 사이즈가 모두 같아야 함

In [16]:
df_TFD[:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [20]:
# null값 제거해서 설명변수 사이즈 동일하게 맞추기
df_TFD_notnull = df_TFD.dropna().copy()

In [22]:
df_TFD_notnull.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

#### 범주형/범주형
#### 선정 변수 : Survived, Pclass
- 분석 내용 : 티켓 등급에 따라서 생존여부가 달라지는가? 
    - 귀무가설: 
    - 대립가설: 
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: 
    - 사실 결론: 

#### 범주형/범주형
#### 선정 변수 : Survived, Sex
- 분석 내용 : 성별에 따라서 생존여부가 달라지는가?
    - 귀무가설: 
    - 대립가설: 
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: 
    - 사실 결론: 

#### 범주형/연속형
#### 선정 변수 : Survived, Age
- 분석 내용 : 나이에 따라서 생존여부가 달라지는가?
    - 귀무가설: 
    - 대립가설: 
- 분석 결론 (기준 - P.value 0.05)
    - 통계 결론: 
    - 사실 결론: 