# torch.nn.Linear(in_features, out_features, bias=True, device=None, dtype=None)

**nn.Linear** 
- шугаман хувиргалт (бүрэн холбогдсон давхарга) хэрэгжүүлдэг PyTorch модуль юм. 
- Энэ нь оролтын өгөгдлийг жингийн матриц болон хазайлтаар (bias) шугаман хувиргалт хийнэ.

**Математик илэрхийлэл**

        y = xAᵀ + b

**Энд:**

- **x:** оролтын өгөгдөл, хэлбэр: (batch_size, in_features) эсвэл (*, in_features)

- **A:** жингийн матриц, хэлбэр: (out_features, in_features)

- **b:** хазайлт (bias), хэлбэр: (out_features,)

- **y:** гаралтын өгөгдөл, хэлбэр: (batch_size, out_features) эсвэл (*, out_features)

### Параметрүүд

#### Заавал оруулах параметрүүд:
- **in_features (int):** Оролтын шинж чанарын тоо

- **out_features (int):** Гаралтын шинж чанарын тоо

#### Сонголттой параметрүүд:
- **bias (bool):** Хазайлт (bias) ашиглах эсэх. Анхны утга: True

- **device (torch.device):** Модуль үүсэх төхөөрөмж (CPU эсвэл GPU)

- **dtype (torch.dtype):** Параметрийн өгөгдлийн төрөл

## Деталь тайлбар
### 1. Суурь хэрэглээ

In [1]:
import torch
import torch.nn as nn

# Энгийн шугаман давхарга үүсгэх
linear_layer = nn.Linear(in_features=10, out_features=5)

# Оролтын өгөгдөл (batch_size=3, in_features=10)
x = torch.randn(3, 10)

# Шугаман хувиргалт хийх
output = linear_layer(x)
print(f"Оролтын хэлбэр: {x.shape}")
print(f"Гаралтын хэлбэр: {output.shape}")
# Гаралт: torch.Size([3, 5])

Оролтын хэлбэр: torch.Size([3, 10])
Гаралтын хэлбэр: torch.Size([3, 5])


### 2. Янз бүрийн bias тохиргоо

In [2]:
# Bias-тай шугаман давхарга
linear_with_bias = nn.Linear(8, 4, bias=True)
print(f"Bias параметр байна уу? {linear_with_bias.bias is not None}")

# Bias-гүй шугаман давхарга
linear_without_bias = nn.Linear(8, 4, bias=False)
print(f"Bias параметр байна уу? {linear_without_bias.bias is not None}")

# Тооцооллын ялгаа
x = torch.randn(2, 8)
output_with_bias = linear_with_bias(x)
output_without_bias = linear_without_bias(x)
print(f"Bias-тай гаралтын дундаж: {output_with_bias.mean():.4f}")
print(f"Bias-гүй гаралтын дундаж: {output_without_bias.mean():.4f}")

Bias параметр байна уу? True
Bias параметр байна уу? False
Bias-тай гаралтын дундаж: 0.1396
Bias-гүй гаралтын дундаж: 0.1278


### 3. Төхөөрөмж, өгөгдлийн төрөл

In [6]:
# Тодорхой төхөөрөмж дээр үүсгэх
if torch.cuda.is_available():
    linear_gpu = nn.Linear(10, 5, device='cuda')
    print(f"Төхөөрөмж: {linear_gpu.weight.device}")
elif torch.backends.mps.is_available():
    linear_mps = nn.Linear(10, 5, device='mps')
    print(f"Төхөөрөмж: {linear_mps.weight.device}")
else:
    linear_cpu = nn.Linear(10, 5, device='cpu')
    print(f"Төхөөрөмж: {linear_cpu.weight.device}")

# Тодорхой өгөгдлийн төрлөөр үүсгэх
linear_float16 = nn.Linear(10, 5, dtype=torch.float16)
print(f"Өгөгдлийн төрөл: {linear_float16.weight.dtype}")

# Холимог тохиргоо
linear_mixed = nn.Linear(10, 5, bias=True, device='cpu', dtype=torch.float64)

Төхөөрөмж: mps:0
Өгөгдлийн төрөл: torch.float16


## Параметрийн дэлгэрэнгүй
### Жин ба хазайлтын эхлэх утга

In [7]:
linear = nn.Linear(5, 3)

# Жингийн матриц
print(f"Жингийн хэлбэр: {linear.weight.shape}")
# Гаралт: torch.Size([3, 5])

# Хазайлт (bias)
if linear.bias is not None:
    print(f"Хазайлтын хэлбэр: {linear.bias.shape}")
    # Гаралт: torch.Size([3])

# Эхлэх утгын тархалт
# Жин: U(-√k, √k) where k = 1/in_features
# Хазайлт: U(-√k, √k) where k = 1/in_features
k = 1.0 / 5  # in_features = 5
print(f"k = {k:.4f}")
print(f"Эхлэх утгын мужид байх ёстой: [-{k**0.5:.4f}, {k**0.5:.4f}]")

Жингийн хэлбэр: torch.Size([3, 5])
Хазайлтын хэлбэр: torch.Size([3])
k = 0.2000
Эхлэх утгын мужид байх ёстой: [-0.4472, 0.4472]


### Параметрт хандах

In [8]:
linear = nn.Linear(4, 2)

# Шууд хандах
print(f"Жин: {linear.weight}")
print(f"Хазайлт: {linear.bias}")

# named_parameters() ашиглах
for name, param in linear.named_parameters():
    print(f"{name}: {param.shape}")

# parameters() ашиглах
params = list(linear.parameters())
print(f"Параметрийн тоо: {len(params)}")

Жин: Parameter containing:
tensor([[ 0.1959,  0.0172, -0.2732, -0.1801],
        [-0.1597, -0.0752,  0.0995,  0.2560]], requires_grad=True)
Хазайлт: Parameter containing:
tensor([-0.2141,  0.3957], requires_grad=True)
weight: torch.Size([2, 4])
bias: torch.Size([2])
Параметрийн тоо: 2


## Оролт/Гаралтын хэлбэр
### Янз бүрийн оролтын хэлбэр

In [9]:
linear = nn.Linear(10, 5)

# 2D оролт (batch, features)
x_2d = torch.randn(3, 10)  # batch_size=3
output_2d = linear(x_2d)
print(f"2D оролтын гаралт: {output_2d.shape}")

# 3D оролт (batch, sequence, features)
x_3d = torch.randn(2, 4, 10)  # batch_size=2, sequence_length=4
output_3d = linear(x_3d)
print(f"3D оролтын гаралт: {output_3d.shape}")

# 4D оролт (batch, channels, height, features)
x_4d = torch.randn(1, 3, 6, 10)  # images шиг өгөгдөл
output_4d = linear(x_4d)
print(f"4D оролтын гаралт: {output_4d.shape}")

# Хэлбэрийн дүгнэлт
print("\nДүрэм: Сүүлийн хэмжээс in_features байх ёстой")
print("       Бусад бүх хэмжээсүүд хадгалагдана")

2D оролтын гаралт: torch.Size([3, 5])
3D оролтын гаралт: torch.Size([2, 4, 5])
4D оролтын гаралт: torch.Size([1, 3, 6, 5])

Дүрэм: Сүүлийн хэмжээс in_features байх ёстой
       Бусад бүх хэмжээсүүд хадгалагдана


### Хэлбэрийн хувиргалтын жишээ

In [10]:
# Оролт: (batch, sequence, features) → Гаралт: (batch, sequence, out_features)
batch_size = 2
seq_len = 5
in_features = 10
out_features = 7

linear = nn.Linear(in_features, out_features)
input_tensor = torch.randn(batch_size, seq_len, in_features)
output = linear(input_tensor)

print(f"Оролт: {input_tensor.shape}")
print(f"Гаралт: {output.shape}")
print(f"Сүүлийн хэмжээсээс бусад хэмжээсүүд хадгалагдсан: {input_tensor.shape[:-1] == output.shape[:-1]}")

Оролт: torch.Size([2, 5, 10])
Гаралт: torch.Size([2, 5, 7])
Сүүлийн хэмжээсээс бусад хэмжээсүүд хадгалагдсан: True


## Практик жишээнүүд

### 1. Энгийн нейрон сүлжээ

In [11]:
class SimpleNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        self.layer1 = nn.Linear(input_size, hidden_size)
        self.layer2 = nn.Linear(hidden_size, hidden_size)
        self.layer3 = nn.Linear(hidden_size, output_size)
        self.relu = nn.ReLU()
    
    def forward(self, x):
        x = self.relu(self.layer1(x))
        x = self.relu(self.layer2(x))
        x = self.layer3(x)
        return x

# Хэрэглээ
model = SimpleNN(784, 256, 10)
x = torch.randn(32, 784)  # 32 зураг, 784 пиксел
output = model(x)
print(f"Гаралтын хэлбэр: {output.shape}")

Гаралтын хэлбэр: torch.Size([32, 10])


### 2. BatchNorm-тай хамт ашиглах

In [12]:
class LinearWithBN(nn.Module):
    def __init__(self, in_features, out_features):
        super().__init__()
        self.linear = nn.Linear(in_features, out_features, bias=False)
        self.batch_norm = nn.BatchNorm1d(out_features)
        self.activation = nn.ReLU()
    
    def forward(self, x):
        x = self.linear(x)
        x = self.batch_norm(x)
        x = self.activation(x)
        return x

# Bias=False гэж тохируулсан учир BatchNorm нь хазайлтын үүргийг гүйцэтгэнэ

### 3. Residual холболт

In [13]:
class ResidualBlock(nn.Module):
    def __init__(self, features):
        super().__init__()
        self.linear1 = nn.Linear(features, features)
        self.linear2 = nn.Linear(features, features)
        self.relu = nn.ReLU()
    
    def forward(self, x):
        residual = x
        x = self.relu(self.linear1(x))
        x = self.linear2(x)
        x = x + residual  # Residual холболт
        x = self.relu(x)
        return x

### 4. Олон хэмжээст өгөгдөл боловсруулах

In [14]:
class MultiDimensionalLinear(nn.Module):
    def __init__(self, in_features, out_features):
        super().__init__()
        self.linear = nn.Linear(in_features, out_features)
    
    def forward(self, x):
        # Өөр өөр хэлбэрийн өгөгдөл дээр ажиллах
        original_shape = x.shape
        # Сүүлийн хэмжээсээс бусад хэмжээсүүдийг нэгтгэх
        x = x.view(-1, original_shape[-1])
        x = self.linear(x)
        # Анхны хэлбэрт буцаах
        new_shape = list(original_shape[:-1]) + [self.linear.out_features]
        x = x.view(new_shape)
        return x

# Туршилт
model = MultiDimensionalLinear(10, 5)
for shape in [(4, 10), (2, 3, 10), (1, 2, 3, 4, 10)]:
    x = torch.randn(shape)
    output = model(x)
    print(f"Оролт {shape} -> Гаралт {output.shape}")

Оролт (4, 10) -> Гаралт torch.Size([4, 5])
Оролт (2, 3, 10) -> Гаралт torch.Size([2, 3, 5])
Оролт (1, 2, 3, 4, 10) -> Гаралт torch.Size([1, 2, 3, 4, 5])


## Онцгой тохиолдлууд

### 1. in_features=1 (Регресс)

In [15]:
# Энгийн шугаман регресс
linear_reg = nn.Linear(1, 1)  # y = wx + b
print(f"Жин: {linear_reg.weight.item():.4f}, Хазайлт: {linear_reg.bias.item():.4f}")

Жин: 0.9844, Хазайлт: -0.8595


### 2. out_features=1 (Ганц гаралт)


In [16]:
# Ганц гаралттай сүлжээ (регресс эсвэл бинар ангилал)
linear_single = nn.Linear(10, 1)
x = torch.randn(5, 10)
output = linear_single(x)
print(f"Гаралтын хэлбэр: {output.shape}")  # torch.Size([5, 1])

Гаралтын хэлбэр: torch.Size([5, 1])


### 3. Ижил хэмжээстэй оролт/гаралт

In [17]:
# Autoencoder-ийн хэсэг
encoder = nn.Linear(784, 256)
decoder = nn.Linear(256, 784)

# Identity mapping ойролцоолох
identity_layer = nn.Linear(10, 10)
# Жич: Эхлэх утга нь identity биш

## Практик зөвлөмж
### 1. Эхлэх утга тохируулах

In [18]:
import torch.nn.init as init

linear = nn.Linear(10, 5)

# Хэвийн тархалтаар эхлүүлэх
init.normal_(linear.weight, mean=0, std=0.01)
if linear.bias is not None:
    init.constant_(linear.bias, 0)

# Xavier/Glorot эхлүүлэх
init.xavier_uniform_(linear.weight)
if linear.bias is not None:
    init.zeros_(linear.bias)

# Kaiming/He эхлүүлэх (ReLU-тай сайн)
init.kaiming_normal_(linear.weight, mode='fan_in', nonlinearity='relu')
if linear.bias is not None:
    init.zeros_(linear.bias)

### 2. Параметрүүдийг хөлдөөх

In [23]:
# Зарим давхаргын параметрүүдийг хөлдөөх
model = nn.Sequential(
    nn.Linear(10, 20),
    nn.ReLU(),
    nn.Linear(20, 10)
)

# Эхний давхаргын параметрүүдийг хөлдөөх
for param in model[0].parameters():
    param.requires_grad = False

In [32]:
print(model[0].weight.requires_grad)  # False
print(model[2].weight.requires_grad)  # True

False
True


In [21]:
# Detect if a parameter is frozen by checking requires_grad
linear = nn.Linear(10, 5)

# Check a single parameter
print(f"Weight requires_grad: {linear.weight.requires_grad}")
print(f"Bias requires_grad: {linear.bias.requires_grad}")

# Check all parameters in a module
for name, param in linear.named_parameters():
    print(f"{name}: frozen={not param.requires_grad}, requires_grad={param.requires_grad}")

# Check if entire model is frozen
all_frozen = all(not p.requires_grad for p in linear.parameters())
print(f"All parameters frozen: {all_frozen}")

# Check if any parameter is frozen
any_frozen = any(not p.requires_grad for p in linear.parameters())
print(f"Any parameter frozen: {any_frozen}")

Weight requires_grad: True
Bias requires_grad: True
weight: frozen=False, requires_grad=True
bias: frozen=False, requires_grad=True
All parameters frozen: False
Any parameter frozen: False


### 3. Перформанс оновчтой болгох

In [20]:
# Matrix multiplication оновчтой болгох
linear = nn.Linear(1024, 512)

# torch.addmm ашиглах (дотооддоо ашиглагддаг)
x = torch.randn(100, 1024)

# Энгийн арга
y1 = linear(x)

# Оновчтой арга (илүү хурдан их хэмжээний матрицад)
y2 = torch.addmm(linear.bias, x, linear.weight.t())
print(f"Үр дүн ижил байна уу? {torch.allclose(y1, y2)}")

Үр дүн ижил байна уу? True


## Алдаа гаргах тохиолдлууд

### 1. Хэлбэрийн алдаа

In [33]:
linear = nn.Linear(10, 5)

# Алдаа: in_features буруу
try:
    x_wrong = torch.randn(3, 8)  # in_features=8, гэхдээ шаардлагатай 10
    output = linear(x_wrong)
except RuntimeError as e:
    print(f"Алдаа: {e}")

# Зөв: in_features=10
x_correct = torch.randn(3, 10)
output = linear(x_correct)
print(f"Амжилттай! Гаралтын хэлбэр: {output.shape}")

Алдаа: mat1 and mat2 shapes cannot be multiplied (3x8 and 10x5)
Амжилттай! Гаралтын хэлбэр: torch.Size([3, 5])
