# Capitolul 1: Introducere în Machine Learning

Bine ai venit în lumea fascinantă a **Inteligenței Artificiale**! În acest prim capitol, vom explora ce înseamnă **Machine Learning** (ML) sau *Învățarea Automată*. Gândește-te la ML ca la o metodă prin care calculatoarele învață din date, similar modului în care noi învățăm din experiență, fără a fi programate în mod explicit pentru fiecare sarcină. Importanța acestui concept este uriașă, deoarece permite automatizarea unor procese complexe, de la recunoașterea vocală până la diagnosticarea medicală.

## De ce folosim Machine Learning?

Să luăm un exemplu clasic: **filtrarea e-mailurilor SPAM**. În programarea tradițională, am scrie manual reguli pentru a detecta mesajele nedorite: "dacă e-mailul conține cuvântul 'ofertă', marchează-l ca SPAM". Dar ce se întâmplă când spammerii devin mai inventivi? Ar trebui să adăugăm constant noi reguli, un proces anevoios și ineficient.

Aici intervine ML. În loc să scriem reguli, îi oferim algoritmului mii de exemple de e-mailuri, etichetate deja ca **SPAM** sau **non-SPAM** (acestea sunt datele de antrenament, *experience E*). Algoritmul "învață" singur ce cuvinte sau fraze sunt asociate cu mesajele SPAM și își creează propriile reguli. Astfel, modelul se poate adapta automat la noi tipuri de SPAM, fiind mult mai eficient și mai ușor de întreținut.

## Tipuri de Sisteme Machine Learning

Există trei categorii principale de algoritmi ML:
* **Învățare Supervizată (Supervised Learning)**: Este cel mai comun tip. Aici, datele de antrenament sunt etichetate, adică pentru fiecare exemplu avem atât datele de intrare (features), cât și rezultatul corect (label). Scopul este de a învăța o "regulă" care să mapeze intrările la ieșiri. Exemplul cu filtrul SPAM este un caz de învățare supervizată.
* **Învățare Nesupevizată (Unsupervised Learning)**: În acest caz, datele nu sunt etichetate. Algoritmul încearcă să găsească singur structuri sau modele ascunse în date, cum ar fi gruparea clienților pe baza comportamentului de cumpărare (clustering).
* **Învățare prin Recompensă (Reinforcement Learning)**: Aici, un "agent" învață să ia decizii într-un mediu pentru a maximiza o recompensă. Este folosit adesea în jocuri (ex: AlphaGo) sau robotică.

___

# Capitolul 2: Regresia - Prezicerea Valorilor Continue

În acest capitol, ne vom concentra pe o sarcină fundamentală din **învățarea supervizată**: **regresia**. Problemele de regresie au ca scop prezicerea unei valori **numerice continue**. De exemplu, putem prezice prețul unei mașini pe baza vechimii și a kilometrajului, sau temperatura de mâine pe baza datelor meteo de astăzi.

Spre deosebire de problemele de *clasificare* (unde rezultatul este o categorie, ex: SPAM/non-SPAM), în regresie, valoarea pe care o prezicem (numită **variabilă țintă** sau `label`) poate lua un număr infinit de valori într-un interval.

## Regresia Liniară

Cea mai simplă formă de regresie este **regresia liniară**. Să ne imaginăm că avem un set de date despre prețurile apartamentelor în funcție de suprafața lor. Dacă punem aceste date pe un grafic (scatterplot), unde pe axa X avem suprafața și pe axa Y avem prețul, vom observa probabil o tendință: pe măsură ce suprafața crește, și prețul crește.

Regresia liniară încearcă să traseze **o linie dreaptă** care să treacă cât mai aproape de toate aceste puncte. Această linie reprezintă modelul nostru. Odată ce avem linia, putem folosi suprafața unui apartament nou (o valoare pe axa X) pentru a estima prețul său (valoarea corespunzătoare pe axa Y, citită de pe linie).

## Funcția Ipoteză și Funcția de Cost

Linia dreaptă din regresia liniară este descrisă de o ecuație matematică, numită **funcția ipoteză** (`hypothesis function`). Pentru o singură caracteristică (ex: suprafața), ecuația arată familiar:

$$ h_\theta(x) = \theta_0 + \theta_1 x $$

* `x` este valoarea caracteristicii de intrare (suprafața).
* `h_θ(x)` este valoarea prezisă (prețul estimat).
* `θ₀` (theta zero) este **interceptul** – punctul unde linia taie axa Y (un fel de preț de bază).
* `θ₁` (theta unu) este **panta** – cât de mult crește prețul pentru fiecare metru pătrat în plus.

Dar cum știm care este cea mai bună linie? Putem trasa o infinitate de linii. Aici intervine **funcția de cost** (*cost function*), care măsoară cât de departe sunt predicțiile noastre de valorile reale. Scopul nostru este să găsim valorile pentru `θ₀` și `θ₁` care fac ca această eroare totală să fie **minimă**.

Cea mai comună funcție de cost pentru regresie este **Eroarea Medie Pătratică** (**Mean Squared Error - MSE**). Pentru fiecare punct, calculăm diferența dintre prețul real și prețul prezis de linie, ridicăm această diferență la pătrat (pentru a avea doar valori pozitive și a penaliza erorile mari) și apoi facem media tuturor acestor erori pătratice. Linia "perfectă" este cea pentru care MSE este cel mai mic.

In [3]:
# Exemplu 1: Calcul manual MSE
# Să presupunem că avem 3 apartamente cu prețurile și suprafețele reale.
suprafete_reale = [50, 70, 100] # m²
preturi_reale = [100, 150, 210] # mii EUR

# Modelul nostru (ipoteza) este: pret = 10 + 2 * suprafata
# Adică θ₀ = 10, θ₁ = 2

preturi_prezise = [(10 + 2 * s) for s in suprafete_reale]
print(f"Prețuri prezise: {preturi_prezise}")

# Calculăm erorile pătratice
erori_patratice = [(real - prezis)**2 for real, prezis in zip(preturi_reale, preturi_prezise)]
print(f"Erori pătratice: {erori_patratice}")

# Calculăm MSE
mse = sum(erori_patratice) / len(erori_patratice)
print(f"Eroarea Medie Pătratică (MSE): {mse}")

# OBS.: O valoare MSE mai mică indică un model mai bun. Dacă am alege alți θ₀
# și θ₁, am obține un alt MSE.

Prețuri prezise: [110, 150, 210]
Erori pătratice: [100, 0, 0]
Eroarea Medie Pătratică (MSE): 33.333333333333336


In [5]:
suprafete_reale = [50, 70, 100] # m²
preturi_reale = [100, 150, 210] # mii EUR

preturi_prezise = []

for s in suprafete_reale:
  preturi_prezise.append(s * 2 + 10)
print(preturi_prezise)

erori_patratice = []
for i in range(len(preturi_reale)):
  diferenta_preturi = preturi_reale[i] - preturi_prezise[i]
  patratul_distantei = diferenta_preturi ** 2
  erori_patratice.append(patratul_distantei)

mse = sum(erori_patratice) / len(erori_patratice)
print(mse)

[110, 150, 210]
33.333333333333336


In [6]:
# __EXERCIȚIU__
# Se dă un nou model: pret = 5 + 2.1 * suprafata.
# Calculează noul MSE folosind aceleași date reale ca în exemplul de mai sus.
# Care model este mai bun? Cel din exemplu sau acesta?

suprafete_reale = [50, 70, 100]
preturi_reale = [100, 150, 210]

preturi_prezise = [(5 + 2.1 * s) for s in suprafete_reale]
print(f"Prețuri prezise: {preturi_prezise}")

erori_patratice = [(real - prezis)**2 for real, prezis in zip(preturi_reale, preturi_prezise)]
print(f"Erori pătratice: {erori_patratice}")

mse = sum(erori_patratice) / len(erori_patratice)
print(f"Eroarea Medie Pătratică (MSE): {mse}")

Prețuri prezise: [110.0, 152.0, 215.0]
Erori pătratice: [100.0, 4.0, 25.0]
Eroarea Medie Pătratică (MSE): 43.0


___

# Capitolul 3: Optimizarea Modelului - Cum Găsim Cea Mai Bună Linie?

Am stabilit că scopul nostru este să minimizăm funcția de cost (MSE). Dar cum facem asta în mod eficient? Aici intervine un proces numit **optimizare**.

Să ne imaginăm funcția de cost ca o vale. Axa X și Y ar reprezenta valorile posibile pentru `θ₀` și `θ₁`, iar axa Z (înălțimea) ar fi valoarea MSE. Noi vrem să găsim cel mai jos punct din această vale, numit **minim global** (*global minimum*). Acesta corespunde celor mai bune valori pentru parametrii noștri.

## Gradient Descent (Coborârea în Gradient)

Cel mai popular algoritm pentru optimizare este **Gradient Descent**. Analogia este simplă: te afli pe un versant al văii și vrei să ajungi în cel mai jos punct. Ce faci? Te uiți în jur și faci un pas în direcția cea mai abruptă de coborâre. Repeți acest proces până când ajungi la fundul văii, unde panta este zero.

Matematic, "direcția cea mai abruptă de coborâre" este dată de **gradient**, care este un fel de derivată pentru funcții cu mai multe variabile. Algoritmul funcționează astfel:
1.  Începe cu valori aleatorii pentru `θ₀` și `θ₁` (te plasezi într-un punct aleatoriu pe vale).
2.  Calculează gradientul funcției de cost în acel punct. Acesta ne spune în ce direcție să ne mișcăm.
3.  Actualizează `θ₀` și `θ₁` făcând un mic pas în direcția opusă gradientului (la vale).
4.  Repetă pașii 2 și 3 până când pașii devin foarte mici, adică am ajuns la un minim.

### Rata de Învățare (Learning Rate - α)

Cât de mare este "pasul" pe care îl facem la fiecare iterație? Acest lucru este controlat de un parametru numit **rata de învățare** (notat cu `α`).
* Dacă **α este prea mic**, vom face pași foarte mici și va dura mult timp să ajungem la minim.
* Dacă **α este prea mare**, riscăm să "sărim" peste minim și să nu ajungem niciodată la el (algoritmul poate diverge).

Alegerea unei rate de învățare potrivite este crucială pentru succesul antrenării.

In [None]:
# Exemplu 2: O singură iterație de Gradient Descent (conceptual)
# Să pornim de la modelul din Exercițiul 1: θ₀ = 5, θ₁ = 2.1
theta_0_curent = 5
theta_1_curent = 2.1
rata_invatare = 0.0001

# Să presupunem că am calculat gradientul și am obținut:
# gradient_theta_0 = -20
# gradient_theta_1 = -1500

gradient_theta_0 = -20
gradient_theta_1 = -1500

# Actualizăm parametrii
theta_0_nou = theta_0_curent - rata_invatare * gradient_theta_0
theta_1_nou = theta_1_curent - rata_invatare * gradient_theta_1

print(f"Theta 0 nou: {theta_0_nou}")
print(f"Theta 1 nou: {theta_1_nou}")

# OBS.: Noii parametri sunt mai apropiați de valorile optime. Am făcut un pas
# mic "la vale".

In [None]:
# __EXERCIȚIU__
# Presupunând că la următorul pas, gradientul este:
# gradient_theta_0 = -18
# gradient_theta_1 = -1350
# Calculează noile valori pentru θ₀ și θ₁, pornind de la cele calculate în
# exemplul de mai sus. Folosește aceeași rată de învățare.

# HINT: Aplică formula de actualizare pe noile valori.

___

# Capitolul 4: Regresia în Practică cu Scikit-Learn

Din fericire, nu trebuie să implementăm Gradient Descent de la zero. Biblioteca **Scikit-Learn** (`sklearn`) este standardul în industrie pentru Machine Learning în Python și ne oferă unelte puternice pentru a crea și antrena modele rapid.

Vom folosi clasa `LinearRegression` pentru a crea un model de regresie liniară. Procesul este simplu și urmează câțiva pași standard:
1.  **Importă** clasa necesară (`LinearRegression`).
2.  **Pregătește datele**: separă caracteristicile (features, de obicei notate cu `X`) de variabila țintă (label, notată cu `y`).
3.  **Instanțiază modelul**: creează un obiect de tipul `LinearRegression`.
4.  **Antrenează modelul**: folosește metoda `.fit(X, y)` pentru a porni procesul de optimizare (Scikit-Learn face Gradient Descent în spate pentru noi).
5.  **Fă predicții**: folosește metoda `.predict()` pe date noi pentru a obține estimări.

In [10]:
# Exemplu 3: Regresie Liniară cu Scikit-Learn

import numpy as np
from sklearn.linear_model import LinearRegression

# 1. Pregătirea datelor
# X trebuie să fie un array 2D (chiar și pentru o singură caracteristică)
suprafete = np.array([50, 70, 100, 120, 150]).reshape(-1, 1) # Transformăm acest vector într-un vector-coloană (2D)
preturi = np.array([100, 150, 210, 250, 310])

# 2. Instanțierea modelului
model_regresie = LinearRegression()

# 3. Antrenarea modelului
model_regresie.fit(suprafete, preturi)

# 4. Vizualizarea parametrilor învățați (θ₀ și θ₁)
theta_0 = model_regresie.intercept_
theta_1 = model_regresie.coef_[0]
print(f"Intercept (θ₀): {theta_0:.2f}")
print(f"Panta (θ₁): {theta_1:.2f}")

# 5. Fă o predicție pentru un apartament de 85 m²
suprafata_noua = np.array([[85]])
pret_prezis = model_regresie.predict(suprafata_noua)
print(f"\nPrețul prezis pentru 85 m² este: {pret_prezis[0]:.2f} mii EUR")

# OBS.: Metoda .fit() a găsit pentru noi cele mai bune valori pentru θ₀ și θ₁
# care minimizează MSE.

Intercept (θ₀): 0.51
Panta (θ₁): 2.08

Prețul prezis pentru 85 m² este: 177.01 mii EUR


In [None]:
# __EXERCIȚIU__
# Folosind modelul antrenat mai sus, prezice prețurile pentru următoarele
# suprafețe: 60, 90 și 130 m². Afișează rezultatele.

# HINT: Poți trimite o listă de valori către metoda .predict(). Asigură-te că
# este un array 2D.

## Dincolo de Liniar: Alte Modele de Regresie

Relația dintre variabile nu este întotdeauna liniară. Uneori, prețul poate crește mai repede la suprafețe mai mari, descriind o curbă. Pentru astfel de cazuri, regresia liniară nu este suficientă.

Scikit-Learn oferă o varietate de alte modele de regresie, capabile să surprindă relații mai complexe:
* **Regresia Polinomială**: Potrivește o curbă (un polinom) în loc de o linie dreaptă.
* **Arbori de Decizie (Decision Tree Regressor)**: Împarte datele în regiuni și prezice o valoare constantă pentru fiecare regiune. Sunt foarte buni la a captura relații non-liniare complexe.
* **Support Vector Regression (SVR)**: O variantă a Support Vector Machines pentru probleme de regresie.

Alegerea modelului potrivit depinde de specificul datelor și al problemei. În fișierul de practică, vei avea ocazia să compari performanța unui model `LinearRegression` cu cea a unui `DecisionTreeRegressor`.

## Decision Tree Regressor (Arbore de Decizie pentru Regresie)

**Decision Tree Regressor** este un algoritm versatil care, spre deosebire de regresia liniară, poate modela relații **non-liniare** complexe în date. Funcționează prin împărțirea spațiului de intrare în regiuni simple și prezicerea unei valori constante (de obicei media valorilor din datele de antrenament din acea regiune) pentru orice punct din acea regiune.

Imaginează-ți că vrei să prezici prețul unei mașini. Un arbore de decizie ar putea pune întrebări succesive:
1. Este mașina mai veche de 5 ani?
    * Dacă da, mergi la stânga.
    * Dacă nu, mergi la dreapta.
2. (Dacă ai mers la stânga) Are mașina peste 100.000 km?
    * Dacă da, mergi la stânga jos.
    * Dacă nu, mergi la dreapta jos.
3. (Dacă ai mers la dreapta) Este mașina marca X?
    * ... și așa mai departe.

Fiecare "întrebare" este o **decizie** bazată pe o caracteristică (ex: vârsta, kilometrajul, marca). Arborele construiește o serie de astfel de decizii, formând ramuri, până ajunge la un **nod frunză** (*leaf node*). Fiecare nod frunză corespunde unei **regiuni** din spațiul de intrare, iar predicția pentru orice punct care ajunge la acea frunză este o valoare specifică acelei frunze (calculată în timpul antrenării, de obicei ca media valorilor țintă din datele de antrenament care au ajuns în acea frunză).

**Cum se construiește arborele?**

Procesul este iterativ și se bazează pe minimizarea unei măsuri a "impurității" sau a erorii în fiecare nod. Pentru regresie, măsura folosită este de obicei **MSE** (Eroarea Medie Pătratică) sau **MAE** (Eroarea Absolută Medie). La fiecare pas, algoritmul caută cea mai bună caracteristică și cel mai bun prag de împărțire care reduce cel mai mult eroarea în cele două sub-noduri rezultate. Acest proces se repetă recursiv până când se atinge o condiție de oprire (ex: adâncimea maximă a arborelui, numărul minim de exemple într-un nod frunză).

**Avantaje:**
* Poate modela relații non-liniare.
* Ușor de înțeles și interpretat (dacă arborele nu este prea adânc).
* Nu necesită scalarea caracteristicilor.

**Dezavantaje:**
* Poate fi predispus la **supra-antrenare** (*overfitting*), adică se potrivește prea bine cu datele de antrenament, dar generalizează slab pe date noi. Acest lucru se întâmplă dacă arborele devine prea adânc și învață zgomotul din date.
* Este instabil: mici modificări în datele de antrenament pot duce la un arbore complet diferit.

Datorită riscului de supra-antrenare, Decision Tree Regressors sunt adesea folosiți ca blocuri de construcție pentru algoritmi mai avansați, cum ar fi **Random Forests** sau **Gradient Boosting**, care combină mai mulți arbori pentru a obține o performanță mai robustă.

In [None]:
# Exemplu 4: Antrenarea unui DecisionTreeRegressor
from sklearn.tree import DecisionTreeRegressor

# Folosim aceleași date ca înainte
suprafete = np.array([50, 70, 100, 120, 150]).reshape(-1, 1)
preturi = np.array([100, 150, 210, 250, 310])

# Instanțiere și antrenare
model_arbore = DecisionTreeRegressor()
model_arbore.fit(suprafete, preturi)

# Predicție pentru 85 m²
pret_prezis_arbore = model_arbore.predict(suprafata_noua)
print(f"Prețul prezis de arborele de decizie pentru 85 m² este: {pret_prezis_arbore[0]:.2f} mii EUR")

# OBS.: Rezultatul poate fi diferit de cel al regresiei liniare, deoarece
# arborele învață relațiile într-un mod fundamental diferit.

In [None]:
# __EXERCIȚIU__
# Folosind modelul antrenat mai sus, încearcă acum să prezici prețurile pentru
# aceleași suprafețe ca la exercițiul anterior: 60, 90 și 130 m².

# Compară rezultatele celor două modele. Care pare mai bun?