# 텐서 기초

In [None]:
!pip install torch
import torch
a = torch.ones(3)
a

In [None]:
a[1]

In [None]:
a[2] = 2
a

In [None]:
b = torch.tensor([1.,2.,3.,4.,5.,6.])
b

In [None]:
b.shape

In [None]:
c = torch.tensor([[1.,2.],[3.,4.],[5.,6.]])
c

In [None]:
c.shape

In [None]:
c[1:,]

In [None]:
c[1:2,]

In [None]:
c[1,]

In [None]:
# 5x3 크기의 0으로 초기화된 텐서 생성, 데이터 타입은 float32
z = torch.zeros((5, 3), dtype=torch.float32)
print(z)
print(z.dtype)  # 텐서의 데이터 타입 출력

In [None]:
### 텐서의 데이터 형 변환이 필요한 경우
# 패키지 로드
import torch
import torch.nn as nn

# nn.Linear 레이어 정의
linear_layer = nn.Linear(4, 2) # linear_layer 는 함수입니다.

# 입력 텐서 만들기
input_tensor = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]], dtype=torch.int32)

# 입력 텐서 출력
print("Input Tensor:")
print(input_tensor)
print("Input Tensor dtype:", input_tensor.dtype)

# 오류 발생
linear_layer(input_tensor)

In [None]:
# 수정
input_tensor = input_tensor.type(torch.float32)
linear_layer(input_tensor)

In [None]:
### 텐서 참조 및 복사
a = torch.ones(2, 2)
b = a

a[0][1] = 561  # a를 변경하면...
print(b)       # ...b도 변경됨

In [None]:
a = torch.ones(2, 2)
b = a.clone()

a[0][1] = 561  # a를 변경하면...
print(b)       # ...b는 변경되지 않음

In [None]:
### 자동 미분 기능을 갖는 텐서 생성
a = torch.rand(2, 2, requires_grad=True)
print(a)

In [None]:
# 텐서변환
import numpy as np
import torch
import torch.nn as nn

# numpy 배열 생성
a = np.array([10, 5, 3])
print(type(a))

# numpy 배열을 텐서로 변환
tensor_a = torch.Tensor(a)
print("1차원 텐서의 생성:", tensor_a)

In [None]:
# 텐서의 합과 데이터 타입 출력
print("sum of a:", tensor_a.sum())
print("dtype of a:", tensor_a.dtype)

In [None]:
# 3차원 텐서 생성 및 변형 예제
a = torch.rand(size=(3, 50, 20))
print("shape:", a.shape)

In [None]:
# 마지막 차원이 1인 4D 텐서로 변환
b = a.unsqueeze(0)
print("shape:", b.shape)

In [None]:
# 텐서의 차원 순서 변경
print("shape:", a.shape)
permuted_a = a.permute(2, 1, 0)
print("shape:", permuted_a.shape)

In [None]:
# 마지막 차원을 줄여 3D 텐서로 변환
print("shape:", b.shape)
b = b.squeeze(0)
print("shape:", b.shape)

In [None]:
# 텐서의 데이터 타입 변환
import numpy as np
a1 = np.array([1, 2, 3])
a1 = torch.tensor(a1)
print("original dtype:", a1.dtype)
a1 = a1.to(torch.float)
print("converted dtype:", a1.dtype)

# 자료 분석 실습 1 : 다중 목적 선형회귀모형
 - 자료 설명
  - Relative Compactness: 건물의 콤팩트성을 나타내는 값으로, 0에서 1 사이의 값입니다. 값이 높을수록 건물이 더 콤팩트합니다.
- Surface Area: 건물의 전체 표면적을 나타내며, 제곱미터 단위입니다.
- Wall Area: 외벽의 총 면적을 제곱미터로 나타냅니다.
- Roof Area: 지붕의 총 면적을 제곱미터로 나타냅니다.
- Overall Height: 건물의 전체 높이를 미터 단위로 나타냅니다.
- Orientation: 건물의 방향을 나타내며, 북쪽(2), 동쪽(3), 남쪽(4), 서쪽(5)으로 구분됩니다.
- Glazing Area: 건물의 창문 면적 비율을 나타내며, 0에서 1 사이의 값입니다.
- Glazing Area Distribution: 창문 면적이 건물의 각 측면에 어떻게 분포되어 있는지를 나타냅니다.


In [None]:
import pandas as pd

# 데이터셋 로드
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00242/ENB2012_data.xlsx"
data = pd.read_excel(url)
data.head()
colnames = ["Relative_Compactness",
            "Surface_Area",
            "Wall_Area",
            "Roof_Area",
            "Overall_Height",
            "Orientation",
            "Glazing_Area",
            "Glazing_Area_Distribution",
            "Heating_Load",
            "Cooling_Load"]
data.columns = colnames
# 데이터 확인
data.head()

In [None]:
data['Orientation'] = data['Orientation'].astype('category')
data['Orientation']

In [None]:
rdata = pd.get_dummies(data, columns=['Orientation'])
rdata.head()
rdata.columns
rdata = rdata.drop(columns=["Orientation_5"])
rdata.columns

In [None]:
y = rdata[["Heating_Load", "Cooling_Load"]]
y.head()

In [None]:
X = rdata.drop(columns=["Heating_Load", "Cooling_Load"])
X.head()

In [None]:
X.shape

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader, TensorDataset

In [None]:
import numpy as np
X = np.array(X)
X = X.astype(float)
y = np.array(y)
y = y.astype(float)

In [None]:
# 샘플링
np.random.seed(1)
samples = np.random.choice([True, False], size=768, p=[0.7, 0.3])

In [None]:
train_input = X[samples,:]
train_target = y[samples,:]
test_input = X[~samples,:]
test_target = y[~samples,:]

In [None]:
# 텐서로 변환
train_input = torch.tensor(train_input, dtype=torch.float32)
train_target = torch.tensor(train_target, dtype=torch.float32)
test_input = torch.tensor(test_input, dtype=torch.float32)
test_target = torch.tensor(test_target, dtype=torch.float32)
type(train_input)


In [None]:
train_input.shape

In [None]:
train_dataset = TensorDataset(train_input, train_target)
test_dataset = TensorDataset(test_input, test_target)

In [None]:
train_dataset.tensors

- TensorDataset은 텐서 데이터를 묶어서 하나의 데이터셋으로 만듭니다.
- train_input과 train_target은 각각 훈련 데이터의 입력과 목표(레이블) 텐서입니다.
- test_input과 test_target은 각각 테스트 데이터의 입력과 목표 텐서입니다.
- 이 과정에서 훈련 데이터와 테스트 데이터가 TensorDataset으로 묶여 각각 train_dataset과 test_dataset이 됩니다.

In [None]:
# 선형모형 생성
linear_model = nn.Linear(10,2)
output = linear_model(train_input)
output.shape

In [None]:
# 손실함수 정의
loss = ((train_target- output)**2).mean()
loss

In [None]:
linear_model.weight

In [None]:
linear_model.bias

In [None]:
linear_model(train_input)

In [None]:
linear_model(train_input).shape

In [None]:
## SGD를 이용하여 위 모형을 학습
optimizer = optim.SGD(linear_model.parameters(), lr=1e-8)
mse = nn.MSELoss()

In [None]:
for epoch in range(100000):
    optimizer.zero_grad()
    output = linear_model(train_input)
    loss = mse(output, train_target)
    loss.backward()
    optimizer.step()
    if epoch%10000 == 0:
       print("loss:", loss.item())

In [None]:
for param in linear_model.parameters():
  print(type(param), param.size())

# 자료 분석 실습 2 : 딥러닝 이진분류모형 - sonar data



In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import roc_curve, roc_auc_score, precision_recall_curve, average_precision_score
from sklearn.model_selection import train_test_split

# Sonar 데이터 로드
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data"
column_names = [f"Attribute_{i}" for i in range(1, 61)] + ["Class"]
data = pd.read_csv(url, header=None, names=column_names)
data.columns

# 특성과 라벨 분리
y = data['Class'].astype('category')
y = pd.get_dummies(y)
print("head(y):", y.head())
y = np.array(y.drop(columns = ["R"]), dtype = float) # y=1 denotes Metal
X = np.array(data.drop(columns=["Class"]))

print("X.shape, y.shape:", X.shape, y.shape)


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

# 데이터 분할 (텐서로 변환 저장)
train_input, test_input, train_target, test_target = train_test_split(X, y, test_size=0.3, random_state=42)
train_input = torch.tensor(train_input, dtype = torch.float32)
train_target = torch.tensor(train_target, dtype = torch.float32)
test_input = torch.tensor(test_input, dtype = torch.float32)
test_target = torch.tensor(test_target, dtype = torch.float32)

In [None]:
model = nn.Sequential(nn.Linear(60, 30),
              nn.ReLU(),
              nn.Linear(30, 20),
              nn.ReLU(),
              nn.Linear(20, 10),
              nn.ReLU(),
              nn.Linear(10, 1),
              nn.Sigmoid())

optimizer = optim.Adam(model.parameters(), lr=0.01)
criterion = nn.BCELoss()

In [None]:
for epoch in range(1000):
    optimizer.zero_grad()
    output = model(train_input)
    loss = criterion(output, train_target)
    loss.backward()
    optimizer.step()
    if epoch % 100 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")


In [None]:
output = np.array(model(test_input).detach())
target = np.array(test_target)

In [None]:
output

In [None]:
# Template 이므로 output 과 target 설정만 갱신하면 새로운 데이터에도 적용할 수 있음
# ROC 곡선 그리기 및 AUC 계산
fpr, tpr, _ = roc_curve(target, output)
roc_auc = roc_auc_score(target, output)

plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC)')
plt.legend(loc="lower right")
plt.show()

# Precision-Recall 곡선 그리기 및 Average Precision 계산
precision, recall, _ = precision_recall_curve(target, output)
average_precision = average_precision_score(target, output)

plt.figure()
plt.plot(recall, precision, color='blue', lw=2, label='PR curve (AP = %0.2f)' % average_precision)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve')
plt.legend(loc="lower left")
plt.show()

print("ROC AUC: %0.2f" % roc_auc)
print("Average Precision: %0.2f" % average_precision)


# 자료 분석 실습3 : 딥러닝 다범주 분류모형

In [None]:
import os
import pandas as pd
import zipfile
import urllib.request

# 데이터셋 URL과 파일 이름 설정
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.zip'
filename = 'UCI_HAR_Dataset.zip'

# 파일 다운로드
if not os.path.exists(filename):
    urllib.request.urlretrieve(url, filename)

# 압축 해제
with zipfile.ZipFile(filename, 'r') as zip_ref:
    zip_ref.extractall()


In [None]:
# 데이터 로드 (예: train 데이터)
colnames = pd.read_csv('UCI HAR Dataset/features.txt', delim_whitespace=True,
                       header=None, usecols=[1])
colnames.columns
df_input = pd.read_csv('UCI HAR Dataset/train/X_train.txt',
                       delim_whitespace=True, header=None)

df_input.columns = colnames[1]
df_input.head()

In [None]:
df_target = pd.read_csv('UCI HAR Dataset/train/y_train.txt', header=None)
df_target.columns = ['activity']
df_target.head()
df_target['activity'].value_counts()
# target 번호가 0부터 시작되어야 합니다.
df_target['activity'] = df_target['activity'] - 1
# 활동 레이블
target_labels = pd.read_csv('UCI HAR Dataset/activity_labels.txt',
                              delim_whitespace=True, header=None, index_col=0)

In [None]:
df_target

In [None]:
df_target.value_counts()

In [None]:
target_labels

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

train_input, test_input, train_target, test_target = \
      train_test_split(df_input, df_target, test_size=0.3, random_state=1)
import torch
import torch.nn as nn
import torch.optim as optim
# 코드 확인
train_input = torch.Tensor(train_input.values)
test_input = torch.Tensor(test_input.values)
train_target = torch.tensor(train_target.values, dtype = torch.int64)
test_target = torch.tensor(test_target.values, dtype = torch.int64)

print('train_input.shape:', train_input.shape)
print('train_target.shape:', train_target.shape)
print('train_target.unique()',train_target.unique())

# Softmax 에서 받는 데이터는 벡터 형식으로 되어 있어야 합니다.
train_target = train_target.squeeze(1)
test_target = test_target.squeeze(1)

In [None]:
import torch.nn as nn
model = nn.Sequential(nn.Linear(561, 100),
                      nn.Sigmoid(),
                      nn.Linear(100,25),
                      nn.Sigmoid(),
                      nn.Linear(25,6),
                      nn.Softmax(dim=1))


In [None]:
model(train_input)

In [None]:
output = model(train_input)
print('output.shape:', output.shape)
output[0:1,:].sum(dim = 1)

In [None]:
optimizer = optim.Adam(model.parameters(), lr=0.01)
criterion = nn.CrossEntropyLoss()

In [None]:
for epoch in range(1000):
    optimizer.zero_grad()
    output = model(train_input)
    loss = criterion(output, train_target)
    loss.backward()
    optimizer.step()
    if epoch % 100 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

In [None]:
# 최종 예측 범주값
model(test_input).argmax(dim=1)

In [None]:
# 정확도 계산
pred_class = model(test_input).argmax(dim=1).detach()
(pred_class == test_target).sum() / len(test_target)

In [None]:
print(model)

In [None]:
print('model.net[0].weight', model[0].weight)
print('model.net[2].weight', model[2].weight)

In [None]:
model[0].weight.shape

In [None]:
model[2].weight.shape

In [None]:
# sigmoid 함수는 weight가 없다!
model[1].weight

In [None]:
model[0].bias

# 파이토치를 이용한 GPU 컴퓨팅 실습

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
device

In [None]:
# 앞의 데이터를 gpu로 옮기기

train_input = train_input.to(device)
train_target = train_target.to(device)
test_input = test_input.to(device)
test_target = test_target.to(device)

In [None]:
# 잘 옮겨졌는지 확인

train_input.is_cuda

In [None]:
# 모델도 gpu로 옮기기
import torch.nn as nn
model = nn.Sequential(nn.Linear(561, 100),
                      nn.Sigmoid(),
                      nn.Linear(100,25),
                      nn.Sigmoid(),
                      nn.Linear(25,6),
                      nn.Softmax(dim=1))

model = model.to(device)
optimizer = optim.Adam(model.parameters(), lr=0.01)
criterion = nn.CrossEntropyLoss()

In [None]:
for epoch in range(1000):
    optimizer.zero_grad()
    output = model(train_input)
    loss = criterion(output, train_target)
    loss.backward()
    optimizer.step()
    if epoch % 100 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

In [None]:
# 큰 데이터에 대해 한번 더 적용해보자

from torchvision.datasets import MNIST

# download path 정의
download_root = './MNIST_DATASET'

train_dataset = MNIST(download_root, train=True, download=True)
test_dataset = MNIST(download_root, train=False, download=True)

In [None]:
test_dataset

In [None]:
test_dataset.data[0]

In [None]:
test_dataset.data[0].shape

In [None]:
test_dataset.targets

In [None]:
test_dataset.targets.shape

In [None]:
train_input = train_dataset.data.reshape(-1,28*28)
test_input = test_dataset.data.reshape(-1,28*28)
train_target = train_dataset.targets
test_target = test_dataset.targets

In [None]:
train_input

In [None]:
train_input.shape

In [None]:
train_target.shape

In [None]:
train_input = train_input.to(torch.float32)
test_input = test_input.to(torch.float32)

In [None]:
import torch.nn as nn
model = nn.Sequential(nn.Linear(784, 300),
                      nn.ReLU(),
                      nn.Linear(300,100),
                      nn.ReLU(),
                      nn.Linear(100,10),
                      nn.Softmax(dim=1))

optimizer = optim.Adam(model.parameters(), lr=0.0001)
criterion = nn.CrossEntropyLoss()

for epoch in range(1000):
    optimizer.zero_grad()
    output = model(train_input)
    loss = criterion(output, train_target)
    loss.backward()
    optimizer.step()
    if epoch % 100 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

In [None]:
# GPU로 똑같이 돌려보자

# 앞의 데이터를 gpu로 옮기기

train_input = train_input.to(device)
train_target = train_target.to(device)
test_input = test_input.to(device)
test_target = test_target.to(device)

# 모델도 gpu로 옮기기
import torch.nn as nn
model = nn.Sequential(nn.Linear(784, 300),
                      nn.ReLU(),
                      nn.Linear(300,100),
                      nn.ReLU(),
                      nn.Linear(100,10),
                      nn.Softmax(dim=1))

model = model.to(device)
optimizer = optim.Adam(model.parameters(), lr=0.0001)
criterion = nn.CrossEntropyLoss()

In [None]:
for epoch in range(1000):
    optimizer.zero_grad()
    output = model(train_input)
    loss = criterion(output, train_target)
    loss.backward()
    optimizer.step()
    if epoch % 100 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

In [None]:
## 미니배치러닝으로 학습해보자

#미니배치 생성

train_input = train_dataset.data.reshape(-1,28*28)
test_input = test_dataset.data.reshape(-1,28*28)
train_target = train_dataset.targets
test_target = test_dataset.targets

train_input = train_input.to(torch.float32)
test_input = test_input.to(torch.float32)

from torch.utils.data import Dataset, DataLoader, TensorDataset
train_loader = DataLoader(dataset=list(zip(train_input,train_target)), batch_size=256, pin_memory = True, shuffle=True)

i = 0
for input, target in train_loader:
    print(i)
    print(input.shape, target.shape)
    i += 1

In [None]:
# GPU로 똑같이 돌려보자 : 미니배치러닝 ver.

# 모델도 gpu로 옮기기
import torch.nn as nn
model = nn.Sequential(nn.Linear(784, 300),
                      nn.ReLU(),
                      nn.Linear(300,100),
                      nn.ReLU(),
                      nn.Linear(100,10),
                      nn.Softmax(dim=1))
model = model.to(device)
optimizer = optim.Adam(model.parameters(), lr=0.0001)
criterion = nn.CrossEntropyLoss()

In [None]:
# 미니배치 러닝

for epoch in range(100):
  for input, target in train_loader:
    input = input.to(device)
    target = target.to(device)
    optimizer.zero_grad()
    output = model(input)
    loss = criterion(output, target)
    loss.backward()
    optimizer.step()
  if epoch % 10 == 0:
    print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

# 커스텀 모형 만들기

In [None]:
class mymodel(nn.Module):
    def __init__(self):
        super(mymodel, self).__init__()
        self.net = nn.Sequential(nn.Linear(784, 300),
                      nn.ReLU(),
                      nn.Linear(300,100),
                      nn.ReLU(),
                      nn.Linear(100,10),
                      nn.Softmax(dim=1))
    def forward(self, x):
        return self.net(x)


# 모델 학습
model = mymodel()
optimizer = optim.Adam(model.parameters(), lr=0.0001)
criterion = nn.CrossEntropyLoss()

In [None]:
for epoch in range(1000):
    optimizer.zero_grad()
    output = model(train_input)
    loss = criterion(output, train_target)
    loss.backward()
    optimizer.step()
    if epoch % 100 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")


In [None]:
class mymodel(nn.Module):
    def __init__(self):
        super(mymodel, self).__init__()
        self.net = nn.Sequential(nn.Linear(784, 300),
                      nn.ReLU(),
                      nn.Linear(300,100),
                      nn.ReLU(),
                      nn.Linear(100,10))
    def forward(self, x):
        return self.net(x)


# 모델 학습
model = nn.Sequential(mymodel(), nn.Softmax(dim=1))
optimizer = optim.Adam(model.parameters(), lr=0.0001)
criterion = nn.CrossEntropyLoss()

In [None]:
for epoch in range(1000):
    optimizer.zero_grad()
    output = model(train_input)
    loss = criterion(output, train_target)
    loss.backward()
    optimizer.step()
    if epoch % 100 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")