# [실습] 콘크리트 데이터셋을 활용한 예측 모델 실습
---

## 실습 목표

- 실제로 수집된 콘크리트 배합 데이터셋에 다양한 머신러닝과 딥러닝 모델을 적용하여 콘크리트의 강도를 예측합니다.

---

In [None]:
!pip install numpy
!pip install pandas
!pip install matplotlib
!pip install seaborn
!pip install lightgbm
!pip install tensorflow

In [None]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 이 코드는 불필요한 알림을 제거해주는 코드입니다.
import warnings
warnings.filterwarnings('ignore')

## 머신러닝을 활용한 콘크리트 강도 분석
이제 다양한 머신러닝을 활용하여 콘크리트의 강도를 예측해보겠습니다.

먼저 데이터를 불러와서 독립변수와 종속변수를 설정해주어야 합니다. 종속변수란 우리가 예측해야 할 값이고, 독립변수란 종속변수를 예측하기 위해 사용하는 값들을 의미합니다. 여기에선 콘크리트 배합에 포함된 재료들의 양이 독립변수, 그에 따른 콘크리트의 강도가 종속변수가 될 것입니다. 콘크리트 데이터 전체가 담긴 `df`에서 "Strength" 컬럼을 제거한 나머지 컬럼들이 독립변수, "Strength"컬럼이 종속변수가 됩니다.

In [None]:
import numpy as np
import pandas as pd

df=pd.read_csv("concrete_data.csv")

# 독립 변수와 종속 변수 설정
X = df.drop('Strength', axis=1)
y = df['Strength']

이제 전체 데이터를 학습 데이터와 테스트 데이터로 나누어야 합니다. 여러분이 학교 선생님이라고 생각해보세요. 학생들을 공부시키기 위한 문제들과, 학생들의 기말고사 시험문제는 철저히 분리되어야 합니다. 학생들을 공부시키기 위한 문제들(학습 데이터)로 공부 시킨다음, 기말고사 시험문제(테스트 데이터)로 역량을 평가해야 합니다. 인공지능도 마찬가지입니다. 인공지능 모델을 학습 데이터로 학습 시킨다음, 테스트 데이터로 평가해야 합니다.

이렇게 둘을 나눈 이유는 인공지능에서 아주 중요한 **과적합**을 방지하기 위함입니다. 한 학생이 수학 문제집 단 한권만을 100번 풀었다고 가정해봅시다. 이제 그 학생은 이 문제집의 문제를 읽기만 해도 정답을 맞출 수 있을 정도로 학습이 되었을 것입니다. 하지만 과연 이 학생의 실제 수학 실력이 이렇게 좋을까요? 실제로 이 학생이 다른 문제집을 풀어도 잘 풀 수 있을까요?

인공지능도 마찬가지입니다. 전체 데이터에 대해 학습을 해버리고 그 데이터로 평가까지 해버리면 인공지능은 해당 데이터에 철저히 맞춰버리므로(**과적합**) 당연히 평가지표가 좋게 나올 것입니다. 하지만 이 인공지능 모델은 해당 데이터만 잘 풀지 나머지 데이터는 엉망으로 풀어버릴 수도 있습니다. 평가지표가 의미가 없게 되어버리는 것입니다.

이러한 상황을 방지하고자, 좀더 인공지능 모델의 성능을 직접적으로 확인하기 위해 학습 데이터셋과 테스트 데이터셋을 분리하여 사용하는 것입니다.

In [None]:
from sklearn.model_selection import train_test_split

# 학습 데이터와 테스트 데이터로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

인공지능 학습을 위한 데이터셋 분리까지 완료되었습니다. 이제 다양한 머신러닝 모델을 활용해보겠습니다.

## 선형 회귀를 활용한 콘크리트 강도 분석

선형 회귀(Linear Regression)는 종속 변수와 한 개 이상의 독립 변수 간의 관계를 모델링하는 데 사용되는 통계적 기법입니다. 주어진 데이터를 기반으로 독립 변수의 선형 조합을 통해 종속 변수를 예측하는 회귀 모델을 구축하는 것이 목표입니다.
![image.png](attachment:image.png)

빨간색 점으로 된 데이터의 분포를 최대한 비슷하게 선으로 그린다고 생각하면 됩니다. 가령 키와 몸무게가 반드시 비례하는 것은 아니지만, 선을 그려보면 얼추 비슷한 선을 그릴 수 있을 것입니다.

인공지능 관련된 다양한 기능이 담겨있는 `sklearn`라이브러리에서 선형 회귀 모델을 불러와 선형 회귀 분석을 해보겠습니다.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error

# 선형 회귀 모델 학습
lr = LinearRegression()
lr.fit(X_train, y_train)

# 테스트 데이터로 예측
y_pred = lr.predict(X_test)

# 평가 지표 계산
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
print("Mean Squared Error:", mse)
print("Mean Absolute Error:", mae)

Mean Squared Error: 95.97094009110681
Mean Absolute Error: 7.745559243921434


MSE는 Mean-Sqaured-Error의 약자로, 각 예측값과 실제값의 차이의 제곱을 평균값으로 정리한 것입니다.
MAE는 각 예측값과 실제값의 차이의 절대값을 평균값으로 정리한 것입니다.

두 지표 모두 선형 회귀 분석에서 모델의 성능을 평가할 때 유용하게 활용됩니다. 각 지표가 활용되는 경우가 조금씩 다르지만 일단 이번 실습에서는 모두 측정해보도록 하곘습니다.

이제 콘크리트 강도를 예측하는 인공지능 모델이 완성되었습니다. 한번 값을 넣어서 출력 결과를 확인해볼까요.

In [None]:
lr.predict([[260.6, 144.4, 0.0, 196.0, 0.0, 909.4, 845.5, 560]])

array([93.1750445])

시멘트를 많이 부었더니 강도가 아주 높은 콘크리트가 탄생했습니다. 이제 부자가 될 수 있겠군요.

## SVM을 활용한 콘크리트 강도 분석

이번엔 SVM이라는 머신러닝 모델을 활용해보겠습니다. SVM은 데이터 포인트들을 고차원 공간에 매핑하고, 서로 다른 클래스를 가장 잘 구분하는 경계를 찾는 것을 목표로 합니다. 즉 데이터를 뿌린 다음 데이터를 구분할 수 있는 가장 좋은 선을 긋는다고 생각하면 쉽습니다.

![image.png](attachment:image.png)

검은 점과 흰색 점을 구분하는 최적의 선을 그렸습니다.

SVM은 물론 수치로된 값을 맞추는 회귀 분석에도 활용할 수 있지만, 이번에는 데이터를 조금 변형해서 콘크리트의 강도에 따라 활용도를 구분하는 분류 문제를 풀어보겠습니다.

In [None]:
import numpy as np
import pandas as pd

from sklearn.svm import SVR
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df=pd.read_csv("concrete_data.csv")

def sep(strength):
    if strength > 70:
        return "Strong"
    elif 70 >= strength > 30:
        return "Normal"
    else:
        return "Dispose"

df["use"] = df["Strength"].apply(sep)
df.drop("Strength", axis=1, inplace=True)

df

Unnamed: 0,Cement,Blast Furnace Slag,Fly Ash,Water,Superplasticizer,Coarse Aggregate,Fine Aggregate,Age,use
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28,Strong
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28,Normal
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270,Normal
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365,Normal
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360,Normal
...,...,...,...,...,...,...,...,...,...
1025,276.4,116.0,90.3,179.6,8.9,870.1,768.3,28,Normal
1026,322.2,0.0,115.6,196.0,10.4,817.9,813.4,28,Normal
1027,148.5,139.4,108.6,192.7,6.1,892.4,780.0,28,Dispose
1028,159.1,186.7,0.0,175.6,11.3,989.6,788.9,28,Normal


위의 코드를 활용해 콘크리트를 강도에 따라 "Strong", "Normal", "Dispose"로 분류하였습니다. 이제 SVM을 활용해 콘크리트를 분류해보겠습니다.

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X = df.drop("use", axis=1)
y = df["use"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# SVM 모델 학습
svm = SVC()
svm.fit(X_train, y_train)

# 테스트 데이터로 예측
y_pred = svm.predict(X_test)

# 평가 지표 계산
acc = accuracy_score(y_test, y_pred)
print("SVM 모델의 정확도: ", round(acc*100,2), "%")

SVM 모델의 정확도:  77.67 %


분류 모델은 말그대로 예측결과가 실제 결과와 같은지 다른지를 비교할 수 있기 때문에 간단하게 정확도를 측정할 수 있습니다. SVM모델의 콘크리트 분류 정확도는 대략 77%가 나온 것을 확인할 수 있습니다.

한번 더 값을 입력해서 결과를 출력해볼까요.

In [None]:
svm.predict([[196, 132, 0.0, 350.0, 0.0, 909.4, 845.5, 5]])

array(['Dispose'], dtype=object)

이런, 이번 콘크리트는 폐기해야겠군요.

SVM은 선형 분류 문제뿐만 아니라 비선형 문제에도 적용할 수 있습니다. 비선형 문제의 경우 커널 함수를 사용하여 데이터를 고차원 공간으로 매핑한 후 선형 분류를 수행합니다.

SVM은 이론적으로 강력하며 일반화 성능이 좋은 모델입니다. 또한, 서포트 벡터를 기반으로 하기 때문에 학습 데이터에 영향을 크게 받지 않는다는 특징을 가지고 있습니다. SVM은 분류, 회귀, 이상치 탐지 등 다양한 문제에 적용되며, 특히 작은 데이터셋에서 성능이 우수합니다.

## 앙상블 모델을 활용한 콘크리트 강도 분석

집단지성이라는 말을 아시나요. 다수의 개체들이 서로 협력 혹은 경쟁을 통하여 얻게 되는 지적 능력에 의한 결과로 얻어진 집단적 능력을 뜻합니다. 그렇다면 인공지능도 여러개의 모델이 힘을 합치면 성능을 증가시킬 수 있지 않을까요?

앙상블 기법은 이러한 생각에서 출발하여 만들어진 인공지능 기법입니다. 앙상블 기법은 다양한 모델을 결합하여 더 강력하고 안정적인 예측 모델을 구축하는 데 활용됩니다.

대표적인 앙상블 기법, 그 중에서도 여러개의 약한 인공지능 모델들의 결과를 합쳐 최종 예측값을 만들어내는 부스팅 기법의 대표적인 모델인 LightGBM을 활용해 콘크리트의 강도 값을 예측해보겠습니다.

In [None]:
import numpy as np
import pandas as pd

import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df=pd.read_csv("concrete_data.csv")

# 독립 변수와 종속 변수 분리
X = df.drop('Strength', axis=1)
y = df['Strength']

# 학습 데이터와 테스트 데이터로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# LightGBM 데이터셋 생성
train_data = lgb.Dataset(X_train, label=y_train)

# LightGBM 모델 설정
params = {'objective': 'regression', 'metric': 'mse'}
lgbm = lgb.train(params, train_data)

# 테스트 데이터로 예측
y_pred = lgbm.predict(X_test)

# 예측 결과 평가
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
print("Mean Squared Error:", mse)
print("Mean Absolute Error:", mae)

You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 973
[LightGBM] [Info] Number of data points in the train set: 824, number of used features: 8
[LightGBM] [Info] Start training from score 35.857864
Mean Squared Error: 21.997791727032897
Mean Absolute Error: 3.163961383428411


이렇게 머신러닝은 다양한 기법이 존재합니다.

---

## 딥러닝을 활용한 콘크리트 강도 분석

딥러닝(Deep Learning)은 인공신경망(Artificial Neural Network)을 기반으로 한 머신러닝 알고리즘의 한 종류입니다. 딥러닝은 다층 신경망(Multi-Layer Perceptron, MLP)을 사용하여 복잡한 문제를 해결하고 데이터로부터 의미 있는 특징을 추출하는 능력을 갖추고 있습니다. 사람의 뉴런처럼 연결된 여러개의 신경망이 수학적 연산을 통해 값을 출력합니다.

![image.png](attachment:image.png)

다층 신경망(MLP)은 입력층(input layer), 은닉층(hidden layer), 출력층(output layer) 등으로 구성된 인공신경망 구조입니다. 각 층은 여러 개의 뉴런 또는 노드로 구성되어 있으며, 각 뉴런은 가중치와 활성화 함수를 가지고 있습니다. 입력층은 데이터를 받아들이고, 은닉층은 중간 계산을 수행하고, 출력층은 최종 결과를 출력합니다.

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

df=pd.read_csv("concrete_data.csv")

# 독립 변수와 종속 변수 분리
X = df.drop('Strength', axis=1)
y = df['Strength']

# 학습 데이터와 테스트 데이터로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

2023-07-20 15:42:55.207641: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F AVX512_VNNI FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2023-07-20 15:42:58.438963: I tensorflow/core/util/port.cc:104] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2023-07-20 15:43:18.170029: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-07-20 15:43:18.170953: W tensorflow/

학습 데이터와 테스트 데이터를 분리한 다음 MLP 모델을 구현해보겠습니다.

In [None]:
# MLP 모델 구성
MLP = Sequential()
MLP.add(Dense(64, activation='relu', input_shape=(X_train.shape[1],)))
MLP.add(Dense(128, activation='relu'))
MLP.add(Dense(64, activation='relu'))
MLP.add(Dense(1))

MLP.summary()

2023-07-20 15:43:34.157783: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcuda.so.1'; dlerror: libcuda.so.1: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-07-20 15:43:34.159007: W tensorflow/compiler/xla/stream_executor/cuda/cuda_driver.cc:265] failed call to cuInit: UNKNOWN ERROR (303)
2023-07-20 15:43:34.159080: I tensorflow/compiler/xla/stream_executor/cuda/cuda_diagnostics.cc:156] kernel driver does not appear to be running on this host (63f3dce37412): /proc/driver/nvidia/version does not exist
2023-07-20 15:43:34.161756: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F AVX512_VNNI FMA
To enable them in other operations, rebuild TensorFlow with the appropriate com

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 64)                576       
                                                                 
 dense_1 (Dense)             (None, 128)               8320      
                                                                 
 dense_2 (Dense)             (None, 64)                8256      
                                                                 
 dense_3 (Dense)             (None, 1)                 65        
                                                                 
Total params: 17,217
Trainable params: 17,217
Non-trainable params: 0
_________________________________________________________________


간단한 MLP 모델을 구현했습니다. 이제 데이터를 학습시켜 콘크리트 강도 예측 결과를 확인해보겠습니다.

In [None]:
# 모델 컴파일
MLP.compile(optimizer='adam', loss='mean_squared_error')

# 모델 학습
MLP.fit(X_train, y_train, epochs=100, batch_size=32, verbose=1)

# 테스트 데이터로 예측
y_pred = MLP.predict(X_test)

# 예측 결과 평가
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
print("Mean Squared Error:", mse)
print("Mean Absolute Error:", mae)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

총 100번의 학습(epochs)를 수행하여 최종적으로 콘크리트의 강도를 예측하는 딥러닝 모델을 완성하였습니다.

---

지금까지 콘크리트 데이터셋을 활용한 데이터 분석부터 머신러닝, 딥러닝 모델을 활용한 예측까지를 수행해보았습니다. 물론 오늘 배운 내용이 전부는 아닙니다. 오늘은 아무것도 건드리지 않은 인공지능 모델들을 활용했지만, 인공지능 모델의 성능을 향상시키는데에는 다양한 방법이 존재합니다.

하이퍼파라미터는 모델의 성능에 큰 영향을 미치는 매개 변수들로, 이들을 조정하여 모델을 튜닝할 수 있습니다. 또한, 다양한 인공지능 기법들을 적용함으로써 더 강력하고 효율적인 모델을 개발할 수 있습니다.

---

<span style="color:rgb(120, 120, 120)">본 학습 자료를 포함한 사이트 내 모든 자료의 저작권은 엘리스에 있으며 외부로의 무단 복제, 배포 및 전송을 불허합니다.

Copyright @ elice all rights reserved</span>