<h2>Regresia liniară</h2>

Regresia liniară este unul dintre cei mai simpli și utilizați algoritmi de Machine Learning pentru predicția unei variabile continue pe baza uneia sau mai multor variabile explicative (predictori). În cazul regresiei simple, relația dintre variabile este modelată ca o linie dreaptă.

Formula regresiei liniare este:

In [None]:
y=c​+a​⋅x

unde:

    y​ este valoarea prezisă,
    c​ este constanta,
    b este coeficientul de panta,
    x este variabila independentă.

In [2]:
import numpy as np
from sklearn.linear_model import LinearRegression

# Date
X = np.array([[1], [2], [3], [4], [5]])  # variabila independentă
y = np.array([2, 3.5, 3.0, 4.5, 6.0])  # variabila dependentă

# Crearea și antrenarea modelului de regresie liniară
model = LinearRegression()
model.fit(X, y)

# Predicția pe baza datelor noi
y_pred = model.predict(X)

# Afișarea coeficientului și interceptului
print(f"Panta (coeficientul): {model.coef_}")
print(f"Constanta: {model.intercept_}")


Panta (coeficientul): [0.9]
Constanta: 1.1


<h2>k-Nearest Neighbors (k-NN)</h2>

Algoritmul k-Nearest Neighbors(k-NN) este un algoritm de clasificare/regresie bazat pe instanțe. El clasifică o nouă observație pe baza celor mai apropiați k vecini din setul de antrenament. Distanța poate fi calculată folosind măsuri cum ar fi distanța Euclidiană.

Principiul k-NN:

    Pentru clasificare, clasa majoritară a celor mai apropiați kk vecini este aleasă ca predicție.
    Pentru regresie, se face media valorilor celor mai apropiați kk vecini.

In [4]:
from sklearn.neighbors import KNeighborsClassifier

# Date
X = [[1, 2], [2, 3], [3, 4], [6, 5], [7, 7]]
y = [0, 0, 0, 1, 1]  # Etichetele (clasele)

# Crearea modelului k-NN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X, y)

# Predicția clasei pentru o observație nouă
predicție = knn.predict([[5, 5]])
print("Clasa prezisă pentru [5, 5]: {predicție}")


Clasa prezisă pentru [5, 5]: {predicție}


<h2>Evaluarea performanței modelului: noțiuni de acuratețe și matricea de confuzie</h2>

Acuratețea este una dintre cele mai comune metrici utilizate pentru evaluarea performanței unui model de clasificare. Aceasta este definită ca proporția de predicții corecte dintre toate predicțiile realizate.

Formula acurateței:

In [None]:
Acuratețe = Predicții corecte / Total predicții

Matricea de confuzie este un tabel care prezintă performanța unui model de clasificare. Aceasta arată câte instanțe au fost prezise corect sau incorect în fiecare categorie. Într-un caz de clasificare binară, matricea de confuzie arată astfel:

In [None]:
	                Pozitive prezise	    Negative prezise
Pozitive reale	    True Positive (TP)	    False Negative (FN)
Negative reale	    False Positive (FP)	    True Negative (TN)

In [5]:
from sklearn.metrics import confusion_matrix, accuracy_score

# Etichete reale și prezise
y_true = [0, 1, 0, 1, 0, 1]
y_pred = [0, 1, 0, 0, 0, 1]

# Calculul matricei de confuzie
matrice_confuzie = confusion_matrix(y_true, y_pred)
print("Matricea de confuzie:\n", matrice_confuzie)

# Calculul acurateței
acuratete = accuracy_score(y_true, y_pred)
print(f"Acuratețea modelului: {acuratete:.2f}")


Matricea de confuzie:
 [[3 0]
 [1 2]]
Acuratețea modelului: 0.83


<h2>Implementarea unui model de clasificare în scikit-learn</h2>

Vom implementa un model simplu de clasificare folosind scikit-learn. Vom folosi un set de date, cum ar fi Iris dataset (inclus în scikit-learn), și vom construi un model de clasificare

<h3>Pașii pentru implementarea unui model de clasificare</h3>

1. Importarea datelor și împărțirea setului în date de antrenament și testare.
2. Antrenarea modelului pe datele de antrenament.
3. Evaluarea performanței pe datele de testare.

In [6]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Încărcarea setului de date Iris
iris = load_iris()
X = iris.data  # Caracteristicile (dimensiuni petale, sepale, etc.)
y = iris.target  # Etichetele (speciile de iris)

# Împărțirea datelor în set de antrenament și set de testare
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crearea și antrenarea modelului k-NN
model_knn = KNeighborsClassifier(n_neighbors=3)
model_knn.fit(X_train, y_train)

# Predicția pe datele de testare
y_pred = model_knn.predict(X_test)

# Evaluarea acurateței modelului
acuratete = accuracy_score(y_test, y_pred)
print(f"Acuratețea modelului k-NN pe Iris Dataset: {acuratete:.2f}")


Acuratețea modelului k-NN pe Iris Dataset: 1.00
