# Creating training and test sets

În partea anterioară am aflat care este formula pentru regresia liniară și cum putem să ne folosim de această formulă pentru a ne crea un set de date liniar cu care să lucrăm pe parcursul acestei secțiuni. O să recrem acest set de date pentru o scurtă recapitulare

In [2]:
# importing the library
import torch

# Linear Regression formula
# y = weight * X + bias

# creating variables
start = 0
end = 1
step = 0.02

weight = 0.7
bias = 0.3

# Creating the features
X = torch.arange(start, end, step).unsqueeze(dim=1)

# Creating the labels
y = weight * X + bias

În acest moment avem datele cu care să lucrăm, dar datele sunt toate într-o variabilă. După cum spuneam, un model de Machine Learning sau Deep Learning învață din anumite date și face predicții la un set de date. Datele din care învață și cele pe care face predicții trebuie să fie separate. Din acest motiv o să împărțim datele în `training set` și `test set`.

| Split | Purpose | Amount of total data | How often is it used? |
| --- | --- | --- | --- |
| Training set | The model learns from this data (like the course materials you study during the semester) | ~60-80% | Always |
| Validation set | The model gets tuned on this data (like the practice exam you take before the final exam). | ~10-20% | Often but not always
| Testing set | The model gets evaluated on this data to test what it has learned (like the final exam you take at the end of the semester). | ~10-20% | Always

Mai sus avem cele trei cateorgorii de seturi de date cu care se lucrează în Machine Learning. La fiecare dintre ele avem o descriere despre ce anume reprezintă, cât la sută din numărul total de date se folosește pentru acel set de date și cât de des se utilizează setul de date respectiv. Din acest tabel putem să vedem că setul de validare (**validation set**) nu se folosește chiar mereu. Și noi o să ne creem un doar un **training set** și un **test set** 

În continuare cu datele ce le avem o să creem un set de date de antrenare și de testare. O să creem aceste seturi de date utilizând indexare pentru moment (am putea să utilizăm train_test_split din Scikit-Learn, dar pentru a urmări cursul o să folosim partea de indexare). O să ne creem un training set care conține 80% din numărul total de date.

In [3]:
train_split = int(0.8 * len(X))
train_split

40

Mai sus am aplicat formula prin care am văzut ce număr de date reprezintă 80% din numărul total de date. Modelul nostru o să se antreneze pe cele 40 de date care provin din X, iar în funcție de pattern-urile pe care le găsește acolo o să încerce să facă predicții pentru ultimele 10 elemente din X.

In [4]:
X_train, y_train = X[:train_split], y[:train_split]
X_test, y_test = X[train_split:], y[train_split:]

In [5]:
len(X_train), len(y_train)

(40, 40)

In [6]:
len(X_test), len(y_test)

(10, 10)

Mai sus avem cele două seturi de date de antrenare și de testare. Modaliatea pe care am folosit-o este cea mai simplă deoarece setul de date este unul extrem de simplu. Pe parcursul acestui curs o să ne folosim și de Scikit-Learn pentru a face această separare de date.

## Recapitulare

În cadrul acestei secțiuni am învățat următoarele lucruri:

1. Care sunt cele trei seturi de date din Machine Learning

    - Training set (se folosește mereu și reprezintă 60%-80% din totalul de date)

    - Test set (se folosește mereu și reprezintă 10%-20% din totalul de date)

    - Validation set (se folosește doar uneori și reprezintă 10%-20% din totalul de date)

2. Cum putem face split la setul mare de date

```python
import torch

weight = 0.7
bias = 0.3

X = torch.arange(0, 1, 0.02).unsqueeze(dim=1)
y = weight * X + bias

train_split = int(0.8 * len(X))
X_train, y_train = X[:train_split], y[:train_split]
X_test, y_test = X[train_split:], y[train_split:]
```