<a href="https://colab.research.google.com/github/shinjangwoon/TIL/blob/master/TIL/scikit-learn/The_Predictive_Modeling_Pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 01_tabular_data_exploration

In [None]:
import pandas as pd

php = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/phpMawTba.csv')

- 이 데이터의 목표는 연령, 고용, 교육, 가족 정보 등과 같은 데이터에서 한 사람이 연간 5만 달러 이상을 벌고 있는지 예측하는 것입니다.

In [None]:
php.info()

In [None]:
php.head()

- class라는 열은 대상 변수(예측하려는 변수)입니다. 현재 가능한 클래스는 <=50k(저수익), >50k(고수익)입니다. 
- 따라서 결과 예측 문제는 이진 분류 문제이며, 다른 열을 모델의 입력 변수로 사용합니다.

In [None]:
target_column = "class"
php[target_column].value_counts()

- 클래스는 약간 불균형합니다. 즉, 다른 클래스에 비해 하나 이상의 클래스 샘플이 더 많습니다. 
 
- 클래스 불균형은 실제로 자주 발생하며, 예측 모델을 구축할 때 특별한 기술이 필요할 수 있습니다.


In [None]:
numerical_columns = [
    "age", "education-num", "capital-gain", "capital-loss",
    "hours-per-week"]
categorical_columns = [
    "workclass", "education", "marital-status", "occupation",
    "relationship", "race", "sex", "native-country"]
all_columns = numerical_columns + categorical_columns + [target_column]

php = php[all_columns]

In [None]:
print(f"The dataset contains {php.shape[0]} samples and "
      f"{php.shape[1]} columns")

In [None]:
print(f"The dataset contains {php.shape[1] - 1} features")

## 데이터 시각화

In [None]:
_ = php.hist(figsize=(20, 14))

- 이전 셀에서는 _ = func() 패턴을 사용했습니다. 
- 이 경우에는 그다지 유용하지 않은 func() 의 출력을 표시하지 않기 위해 이 작업을 수행하였습니다. 
- 관례상, python에서 밑줄 변수는 우리가 관심이 없는 결과를 저장하기 위한 "쓰레기" 변수로 사용됩니다.

- "age" : 'age > 70' 이상이 이 데이터셋에 많지 않으므로 은퇴한 사람은 필터링 된 것을 알 수 있습니다.
- "hours-per-week" : 주당 40시간정도가 제일 높은 것을 알 수 있습니다.
- "capital-gain" and "capital-loss"는 0에 가깝습니다.

In [None]:
php["sex"].value_counts()

In [None]:
php['education'].value_counts()

In [None]:
## education과 education-num의 관계
pd.crosstab(index=php['education'], columns=php['education-num']) 

- "education"과 "education-num"이 동일한 정보를 제공한다는 것을 보여줍니다.
ex) "education-num=2"는 "education=1st-4th"와 같습니다.
실제로 이는 정보 손실 없이 "education-num"을 제거할 수 있음을 의미합니다

* 중복(또는 높은 상관 관계)열이 있는 것은 기계 학습 알고리즘에 문제가 될 수 있습니다.

In [None]:
'''
pairplot을 수행하고, class에 따라 각 변수가 어떻게 다른지 보여주는 것입니다.
대각선을 따라 플롯은 각 class에 대한 개별 변수의 분포를 보여줍니다.
비대각선의 플롯은 변수간의 흥미로운 상호 작용을 나타낼 수 있습니다.
'''
import seaborn as sns

n_sample_to_plot = 5000
columns = ["age", "education-num", "hours-per-week"]
_ = sns.pairplot(
    data=php[:n_sample_to_plot],
    vars=columns,
    hue=target_column,
    plot_kws={"alpha":0.2},
    height=3,
    diag_kind='hist',
    diag_kws={"bins":30},
)

## 결정 규칙 만들기
- 누가 고소득이고 누가 저소득인지 예측해보는 규칙을 만들어봅니다. 
- 예를 들어, 'hours-per-week'와 'age' 조합에 집중해봅니다.

In [None]:
_ = sns.scatterplot(
    x="age",
    y="hours-per-week",
    data=php[:n_sample_to_plot],
    hue='class',
    alpha=0.5,

)

- 점은 dataset에서 'hours-per-week'와 'age'의 분포를 보여줍니다.
- 파란색 점은 저소득을 의미하며, 주황색 점은 고소득을 의미합니다.
- 이 plot은 pairplot에서 왼쪽 하단 플롯과 동일합니다.

- 이 plot에서 어떤 클래스를 예측해야 하는지 쉽게 결정할 수 있도록 
주로 단일 클래스를 포함하는 영역을 찾으려고 노력해야 합니다.


In [None]:
import matplotlib.pyplot as plt

ax = sns.scatterplot(
    x="age",
    y='hours-per-week',
    data=php[:n_sample_to_plot],
    hue='class',
    alpha=0.5,
)
age_limit = 27
plt.axvline(x=age_limit, ymin=0, ymax=1, color="black", linestyle="--")

hours_per_week_limit = 40
plt.axhline(y=hours_per_week_limit, xmin=0.18, xmax=1, color="black", linestyle="--")

plt.annotate("<=50K", (17, 25), rotation=90, fontsize=35)
plt.annotate("<=50K", (35, 20), fontsize=35)
_ = plt.annotate("???", (45, 60), fontsize=35)

- 'age < 27' 인 왼쪽 영역은 예측이 저소득입니다.
 물론 많은 파란색 점이 있지만 주황색 점은 볼 수 없습니다.
- 'age > 27 and hours-per-week < 40'인 오른쪽 하단 영역은 저소득입니다.
많은 파란색 점이 있지만 조금씩 주황색 점도 보입니다. 
- 'age > 27 and hours-per-week > 40'인 오른쪽 상단 영역은 파란색 점과 주확색 점이 많습니다.
이 지역을 예측해야합니다. 

# 연습
- culmen 길이와 culmen 깊이의 두 가지 신체 측정을 ​​기반으로 펭귄 종을 예측해보기

*** sciki-learn 공부 중 제공 jupyter에서 해보았으나 csv가 가져오기 애매하여 코드만 적어둠


In [None]:
# 데이터 불러오기
# import pandas as pd
# php = pd.read_csv('../datasets/penguins_classification.csv')
# php.head()

In [None]:
# 수치형 컬럼과 자료형 컬럼 나누기
# numerical_columns = [
#     "Culmen Length(mm)", "Culmen Depth(mm)"
# ]
# catrgorical_columns = [
#     "Species"
# ]

In [None]:
# 데이터 세트에서 펭귄 종류와 수 찾기
# php["Species"].value_counts()

In [None]:
# 수치형 컬럼 시각화
# _ = php.hist(figsize=(10, 4))

In [None]:
# class별 분포 시각화
# import seaborn as sns
# sns.pairplot(php, hue='Species', height=3)

# 02_Fitting_a_scikit-learn_model_on_numerical_data


In [None]:
import pandas as pd

php = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/adult-census-numeric.csv')

In [None]:
php.head()

## 데이터와 타겟 분리

In [None]:
target_name = "class"
target = php[target_name]
target

In [None]:
data = php.drop(columns=[target_name, ])
data.head()

In [None]:
data.columns

In [None]:
print(f"The dataset contains {data.shape[0]} samples and "
      f"{data.shape[1]} features")

## 모델 학습 및 예측(K-NN)

In [None]:
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier()
model.fit(data, target)

In [None]:
target_predicted = model.predict(data)

In [None]:
target_predicted[:5]

In [None]:
target[:5]

In [None]:
target[:5] == target_predicted[:5]

In [None]:
print(f"Number of correct prediction: "
      f"{(target[:5] == target_predicted[:5]).sum()} / 5")

- 첫 번째 예측이 틀린 것을 알 수가 있음

In [None]:
(target == target_predicted).mean()

- 약 82% 정확도

## Train-test data split

In [None]:
php_test = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/adult-census-numeric-test.csv')
php_test.head()

In [None]:
target_test = php_test[target_name]
data_test = php_test.drop(columns=[target_name, ])

In [None]:
print(f"The testing dataset contains {data_test.shape[0]} samples and "
      f"{data_test.shape[1]} features")

In [None]:
accuracy = model.score(data_test, target_test)
model_name = model.__class__.__name__

print(f"The test accuracy using a {model_name} is "
      f"{accuracy:.3f}")

## Working with numerical data

In [None]:
import pandas as pd
php = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/adult-census-numeric.csv')
php.head()

In [None]:
# 분리
data, target = php.drop(columns='class'), php['class']


In [None]:
data.head()

In [None]:
target

### Identify numerical data

In [None]:
data.dtypes

In [None]:
data.dtypes.unique()

In [None]:
data.head()

In [None]:
numerical_columns = ['age','capital-gain','capital-loss','hours-per-week']
data[numerical_columns].head()

- 데이터 세트를 숫자열로만 제한했으므로 이 숫자를 분석하여
숫자가 나타내는 것을 파악할 수 있습니다.
- 두 가지 사용 유형을 식별할 수 있는데
첫 번째 열인 'age'는 설명이 필요없고 값이 연속적이라는 것을 알 수 있습니다.
즉, 주어진 범위에서 임의의 숫자를 사용할 수 있습니다.
이 범위가 무엇인지 알아보겠습니다.

In [None]:
data['age'].describe()

In [None]:
data_numeric = data[numerical_columns]

### Train-test split the dataset

In [None]:
from sklearn.model_selection import train_test_split
data_train, data_test, target_train, target_test = train_test_split(
    data_numeric, target, random_state=42, test_size=0.25)

- scikit-learn에서 random_state 매개변수를 설정하면
난수 생성기를 사용할 때 결정론적 결과를 얻을 수 있습니다.

- train_test_split의 경우 무작위성은 데이터 셔플링에서 비롯되며,
이는 데이터 세트가 train 과 test set로 분할되는 방식을 결정합니다.

- train_test_split 함수를 호출할 때 테스트 세트에 샘플의 25%를 보유하고
나머지 샘플(75%)을 훈련 세트에서 사용할 수 있도록 지정하였습니다.


In [None]:
print(f"Number of samples in testing: {data_test.shape[0]} => "
      f"{data_test.shape[0] / data_numeric.shape[0] * 100:.1f}% of the"
      f" original set")

In [None]:
print(f"Number of samples in training: {data_train.shape[0]} => "
      f"{data_train.shape[0] / data_numeric.shape[0] * 100:.1f}% of the"
      f" original set")

In [None]:
# to display nice model diagram
from sklearn import set_config
set_config(display='diagram')

In [None]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

In [None]:
model.fit(data_train, target_train)

In [None]:
accuracy = model.score(data_test, target_test)
print(f"Accuracy of logistic regression: {accuracy:.3f}")

- 약 80% 정도의 확률로 로지스틱 회귀분석을 통해 사람의 적정 소득을 예측하였습니다.
 