## Pclass, Gender, sibsp, parch를 독립변수로 사용하여 로지스틱 회귀모형을 실시하였을 때, parch변수의 계수값은?
(반올림하여 소수 셋째 자리까지 계산)

In [2]:
import pandas as pd
df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Titanic.csv")

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Gender       891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 내가 한 것

In [4]:
from sklearn.linear_model import LinearRegression
# Gender 원핫인코딩
df=pd.get_dummies(df, columns=['Gender'], drop_first=True)

# LinearRegression 모델 생성
model = LinearRegression()
X = df[['Pclass', 'Gender_male', 'SibSp', 'Parch',]] # 독립 변수 설정
y = df['Survived']

# 모델 피팅
model.fit(X, y)

# Parch 변수의 계수 출력
parch_coefficient = model.coef_[X.columns.get_loc('Parch')]
print(f'Parch 변수의 계수: {parch_coefficient:.3f}')

Parch 변수의 계수: -0.008


### 다른 사람이 한 것

In [7]:
df_1 = df.copy()

from statsmodels.formula.api import logit
model = logit('Survived ~ C(Pclass) + C(Gender) + SibSp + Parch', data = df_1).fit()
round(model.params['Parch'], 3)

Optimization terminated successfully.
         Current function value: 0.459565
         Iterations 6


-0.05

## 풀이

In [5]:
import pandas as pd
from statsmodels.formula.api import logit

df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Titanic.csv")
formula = "Survived ~ C(Pclass) + Gender + SibSp + Parch"
model = logit(formula, data=df).fit()
model.params

Optimization terminated successfully.
         Current function value: 0.459565
         Iterations 6


Intercept         2.491729
C(Pclass)[T.2]   -0.848152
C(Pclass)[T.3]   -1.866905
Gender[T.male]   -2.760281
SibSp            -0.232553
Parch            -0.049847
dtype: float64

- import pandas as pd: pandas 라이브러리를 가져와서 데이터 프레임을 다룰 수 있도록 합니다.

- from statsmodels.formula.api import logit: statsmodels 라이브러리에서 로지스틱 회귀 모델을 사용하기 위한 logit 함수를 가져옵니다.

- df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Titanic.csv"): 지정된 경로에서 Titanic 데이터를 CSV 파일로부터 읽어와 데이터프레임 df에 저장합니다. 이 데이터프레임에는 생존 여부 (Survived), 승객 클래스 (Pclass), 성별 (Gender), 형제자매/배우자 수 (SibSp), 부모/자녀 수 (Parch) 등의 열이 포함되어 있습니다.

- formula = "Survived ~ C(Pclass) + Gender + SibSp + Parch": 로지스틱 회귀 모델을 설정하기 위한 모델 수식을 정의합니다. 여기서 Survived는 종속 변수이며, C(Pclass), Gender, SibSp, Parch는 독립 변수로 사용됩니다. C(Pclass)는 승객 클래스를 범주형 변수로 취급하고자 하는 것을 나타냅니다.

- model = logit(formula, data=df).fit(): 지정된 모델 수식과 데이터프레임을 사용하여 로지스틱 회귀 모델을 만들고 피팅합니다. logit 함수는 로지스틱 회귀 모델을 초기화하고 .fit() 메서드를 호출하여 모델을 학습시킵니다.

- model.params: 학습된 로지스틱 회귀 모델의 파라미터(계수)를 나타내는 속성입니다. 이 코드는 학습된 모델의 파라미터 값을 출력하는 부분입니다.

- 따라서 model.params를 호출하면 로지스틱 회귀 모델의 파라미터 값이 출력됩니다. 이 파라미터 값은 각 독립 변수와 생존 여부 간의 관계를 나타내며, 이 관계를 사용하여 예측 및 해석을 수행할 수 있습니다.