<strong>Formularea problemei:</strong>

<p>*Scopul proiectului*: Să considerăm o imagine simplă în care culoarea unor puncte a fost ștearsă (acum aceste puncte sunt albe). Ne propunem să restaurăm imaginea inițială folosind punctele care încă sunt colorate în ea.</p> <p>**Scopul tehnic al proiectului**: Compararea performanței diferiților clasificatori în rezolvarea problemei date atât pentru imagini liniar separabile, cât și pentru imagini non-liniar separabile. Realizarea selecției modelului, implicând alegerea parametrilor modelului, folosind metode diferite și discutarea amănunțită a rezultatelor. Realizarea unui studiu de sensibilitate pentru a evidenția impactul raportului de antrenare/testare și al setului de date de intrare.</p> <p>**Descriere detaliată a cerințelor**: <ol> <li>Imaginați-vă o imagine simplă în două sau mai multe culori la alegere. Folosiți apoi aplicația Paint pentru a crea o imagine care conține doar o parte dintre punctele din imaginea originală. Utilizați instrumentul de creion al aplicației Paint, nu pensula sau alte instrumente, pentru a realiza imaginea. Pixelii colorați din imaginea creată vor reprezenta setul de date. Pe baza acestora, trebuie să preziceți culorile tuturor pixelilor din imagine.</li> <li>Trebuie să folosiți cel puțin trei clasificatori: unul din categoriile a), b) și c) de mai jos. Opțional, puteți folosi mai mulți clasificatori. <p>Clasificatori care trebuie folosiți: a) **Clasificatori Bayes** și **Clasificatori cu arbori de decizie** b) **ANN** (Rețele Neuronale Artificiale) și **SVM** (Mașini de Suport Vectorial), c) **Metode ensemble** d) **Alți clasificatori** (opțional). </p> </li> <li>Trebuie să puteți explica toate detaliile legate de clasificatorii aleși.</li> <li>Trebuie să puteți explica toate detaliile legate de implementarea sarcinilor.</li> <li>Trebuie să oferiți interpretarea și să faceți comparații ale rezultatelor.</li> </ol> </p>
<strong>Exemplu:</strong> 

<center><strong>Figura 1</strong></center> <p>Puteți considera că punctele din Figura 1 provin dintr-o imagine inițială (cunoscută) ca cea dată în Figura 2.</p> <p>Pentru mai multe exemple de imagini și o mai bună înțelegere a formulării problemei, consultați: <a href="http://playground.tensorflow.org">http://playground.tensorflow.org</a></p> și Figura 3 (la finalul acestui notebook). <p>Sarcinile ce trebuie realizate sunt prezentate mai jos. Ele pot fi urmate succesiv așa cum sunt arătate sau puteți concepe propriul algoritm care să încorporeze toate sau o parte din pași (de exemplu, puteți crea un algoritm care să genereze o listă de imagini de folosit, o listă de clasificatori de folosit, astfel încât o sarcină să fie realizată direct și mai ușor utilizând toți clasificatorii și toate imaginile. Sau puteți crea un algoritm bazat pe OOP pentru a rezolva problema generic pentru orice clasificator și orice imagine). Este important ca toate sarcinile enumerate mai jos să fie finalizate. Sunteți încurajați să realizați și sarcini suplimentare la alegerea voastră pentru a îmbunătăți comparațiile rezultatelor.</p>
<strong>Sarcinile de realizat:</strong>

<strong>1.</strong> Generați 2 imagini folosind Paint, similare cu Figura 1, care să conțină seturi de puncte în două sau mai multe culori – minimum 200 de puncte (așa cum este explicat în Descrierea detaliată a cerințelor), astfel încât în prima imagine setul de puncte să fie liniar separabil, iar în a doua imagine setul de puncte să fie non-liniar separabil. Salvați imaginile sub numele "data1.png" și "data2.png".

<strong>2.</strong> Creați două seturi de date pe baza celor 2 imagini din pasul 1, folosind codul dat mai jos. Analizați și comentați acest cod.

In [7]:
from PIL import Image
import numpy as np

def rgb_to_int(r, g, b):
    return (r << 16) + (g << 8) + b

def read_data(filename):
    x = []
    y = []
    back_color = rgb_to_int(255, 255, 255)  # Culoarea albă
    
    image = Image.open(filename)
    width, height = image.size
    pixels = image.load()
 
    for i in range(width):
        for j in range(height):
            pixel = pixels[i, j]  # Obține pixelul
            
            if len(pixel) == 3:  # Format RGB
                r, g, b = pixel
            elif len(pixel) == 4:  # Format RGBA
                r, g, b, _ = pixel  # Ignoră canalul alfa
            else:
                continue  # Sari peste pixeli care nu sunt RGB sau RGBA
            
            color = rgb_to_int(r, g, b)
            
            if color != back_color:  # Verifică dacă nu este alb
                x.append([i, j])  # Adaugă coordonatele pixelului
                y.append(color)  # Adaugă culoarea pixelului
    return x, y

x1, y1 = read_data('Linearly_separable.png')
x2, y2 = read_data('Non-linearly_separable.png')

print("========================================:")
print("Data from Linearly Separable Image:")
print("Coordinates:", x1)
print("Colors:", y1)
print("========================================:")

print("Data from Non-linearly Separable Image:")
print("Coordinates:", x2)
print("Colors:", y2)




Data from Linearly Separable Image:
Coordinates: [[13, 224], [13, 225], [13, 226], [13, 227], [13, 228], [13, 278], [13, 279], [13, 280], [13, 281], [13, 282], [14, 223], [14, 224], [14, 225], [14, 226], [14, 227], [14, 228], [14, 229], [14, 277], [14, 278], [14, 279], [14, 280], [14, 281], [14, 282], [14, 283], [15, 196], [15, 197], [15, 198], [15, 199], [15, 200], [15, 222], [15, 223], [15, 224], [15, 225], [15, 226], [15, 227], [15, 228], [15, 229], [15, 230], [15, 276], [15, 277], [15, 278], [15, 279], [15, 280], [15, 281], [15, 282], [15, 283], [15, 284], [16, 195], [16, 196], [16, 197], [16, 198], [16, 199], [16, 200], [16, 201], [16, 221], [16, 222], [16, 223], [16, 224], [16, 225], [16, 226], [16, 227], [16, 228], [16, 229], [16, 230], [16, 231], [16, 275], [16, 276], [16, 277], [16, 278], [16, 279], [16, 280], [16, 281], [16, 282], [16, 283], [16, 284], [16, 285], [16, 349], [16, 350], [16, 351], [16, 352], [16, 353], [17, 194], [17, 195], [17, 196], [17, 197], [17, 198], [17,

<strong>3.</strong> Împarte primul set de date într-un set de antrenare și un set de testare (folosind 70% pentru antrenare și 30% pentru validare).


In [14]:
#your code here
# impartinrea setului de date a imaginii libinar separabile 
from sklearn.model_selection import train_test_split
X0_train, X0_test, y0_train, y0_test = train_test_split(x1, y1 , test_size= 0.3, random_state=42)

print("Set de antrenare (X):", X0_train)
print("Set de testare (X):", X0_test)
print("Set de antrenare (y):", y0_train)
print("Set de testare (y):", y0_test)


Set de antrenare (X): [[113, 328], [266, 159], [183, 316], [124, 349], [187, 349], [85, 199], [217, 65], [210, 188], [210, 74], [180, 324], [140, 245], [81, 196], [208, 99], [15, 281], [14, 277], [298, 107], [48, 337], [260, 173], [62, 296], [319, 147], [170, 287], [201, 103], [315, 95], [100, 231], [162, 212], [214, 191], [263, 160], [350, 134], [213, 125], [187, 238], [78, 307], [109, 249], [269, 26], [22, 263], [292, 172], [369, 31], [297, 108], [37, 239], [341, 49], [253, 25], [326, 54], [347, 118], [22, 227], [183, 328], [150, 213], [61, 292], [161, 271], [186, 211], [24, 201], [106, 295], [25, 263], [312, 150], [88, 322], [313, 168], [26, 266], [84, 195], [366, 117], [27, 196], [128, 343], [133, 276], [194, 176], [246, 165], [319, 66], [313, 149], [257, 64], [159, 357], [23, 263], [69, 339], [341, 72], [159, 208], [41, 346], [35, 213], [283, 45], [330, 156], [24, 215], [134, 293], [63, 249], [59, 238], [214, 194], [148, 282], [175, 272], [34, 340], [325, 17], [203, 98], [310, 149

In [13]:
#your code here
# impartirea setului de date a imaginii non-linearly separable
from sklearn.model_selection import train_test_split
X1_train, X1_test, y1_train, y1_test = train_test_split(x1, y1 , test_size= 0.3, random_state=42)

print("Set de antrenare (X):", X1_train)
print("Set de testare (X):", X1_test)
print("Set de antrenare (y):", y1_train)
print("Set de testare (y):", y1_test)


Set de antrenare (X): [[113, 328], [266, 159], [183, 316], [124, 349], [187, 349], [85, 199], [217, 65], [210, 188], [210, 74], [180, 324], [140, 245], [81, 196], [208, 99], [15, 281], [14, 277], [298, 107], [48, 337], [260, 173], [62, 296], [319, 147], [170, 287], [201, 103], [315, 95], [100, 231], [162, 212], [214, 191], [263, 160], [350, 134], [213, 125], [187, 238], [78, 307], [109, 249], [269, 26], [22, 263], [292, 172], [369, 31], [297, 108], [37, 239], [341, 49], [253, 25], [326, 54], [347, 118], [22, 227], [183, 328], [150, 213], [61, 292], [161, 271], [186, 211], [24, 201], [106, 295], [25, 263], [312, 150], [88, 322], [313, 168], [26, 266], [84, 195], [366, 117], [27, 196], [128, 343], [133, 276], [194, 176], [246, 165], [319, 66], [313, 149], [257, 64], [159, 357], [23, 263], [69, 339], [341, 72], [159, 208], [41, 346], [35, 213], [283, 45], [330, 156], [24, 215], [134, 293], [63, 249], [59, 238], [214, 194], [148, 282], [175, 272], [34, 340], [325, 17], [203, 98], [310, 149

<strong>4.</strong> Alege un clasificator din categoria a) și antrenează-l pe setul de antrenare generat la pasul 3.


In [16]:
# your code here
# Clasificatorul Naive Bayes
from pydataset import data
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklear.metrics import classification_report

# Setul de date
data = pd.DataFrame({'x': x1, 'y': y1})
# \
# Divizarea datelor in seturi de antrenare si testare
X_train, X_test, y_train, y_test = train_test_split(data['x'], data
                                                    \
                                                    ['y'], test_size=0.2, random_state=42)
# \
# Crearea si antrenarea clasificatorului
gnb = GaussianNB()
gnb.fit(X_train, y_train)
# \
# Evaluarea clasificatorului

y_pred = gnb.predict(X_test)
# \
print(classification_report(y_test, y_pred))
# \
# your code here
# Clasificatorul k-NN
# from pydataset import data
# import pandas as pd
# \



ModuleNotFoundError: No module named 'pydataset'

<strong>5.</strong> Folosește clasificatorul antrenat la pasul 4 pentru a face predicții pe setul de testare generat la pasul 3.



In [None]:
#your code here


<strong>6.</strong> Calculează acuratețea clasificatorului pe setul de testare generat la pasul 3 și apoi pe setul de antrenare. Discută rezultatele.

In [None]:
#your code here


<strong>7.</strong> Calculează precizia și rechemarea (recall) clasificatorului pe setul de testare generat la pasul 3 și salvează rezultatele într-un fișier sau afișează-le. Definește (teoretic) precizia și rechemarea. Discută rezultatele.


In [None]:
#your code here


<strong>8.</strong> Prezice culoarea pentru toți pixelii primei imagini și salvează culorile prezise într-o nouă imagine folosind codul de mai jos (Cod parțial dat. Trebuie completat). Fii capabil să explici codul de mai jos.



In [None]:
image = Image.open('data.png')
width, height = image.size

def generate_pixel_coordinates():
    points = []
    for i in range (width):
        for j in range(height):
            points.append([i,j])
            
    return points
        
def getRGBfromI(RGBint):#convert int color code to rgb color code
    blue =  RGBint & 255
    green = (RGBint >> 8) & 255
    red =   (RGBint >> 16) & 255
    return red, green, blue

def save_data(pixels, colors, output_filename):
    
    im = Image.new("RGB", (width, height))
    pix = im.load()
    for i in range(len(pixels)):
             pix[pixels[i][0],pixels[i][1]] = getRGBfromI(colors[i])

    im.save(output_filename, "PNG")    

FileNotFoundError: [Errno 2] No such file or directory: 'D:\\FACULTATE-Folder\\MASTER - ANUL 1\\Machine Learning\\Docs\\formularea temei de proiect 2025\\data1.png'

<strong>9.</strong> Folosește validarea încrucișată k-fold, cu valori diferite de k, pentru a evalua modelul (de exemplu, k=3, 5, 10). Calculează acuratețea în validarea încrucișată și media acurateței. Raportează rezultatele pentru toate rulările și compară-le cu acuratețea obținută la Pasul 6.



In [None]:
#your code here

<strong>10.</strong> Repetă pașii 3-9 pentru al doilea și al treilea clasificator.



In [None]:
#your code here

<strong>11.</strong> Din documentația scikit-learn, studiază clasificatorul al doilea ales, selectează doi hiperparametri reprezentativi și repetă de cel puțin 2 ori pașii 4-8 pentru diferite valori ale acestor hiperparametri. Raportează rezultatele pentru toate rulările și compară-le.



In [None]:
#your code here

<strong>12.</strong> Folosește căutarea în grilă (grid search) cu validare încrucișată pentru optimizarea hiperparametrilor clasificatorilor (pentru selecția modelului). Raportează parametrii optimi furnizați de căutare. Prezice culoarea pentru toți pixelii primei imagini folosind modelul cu parametrii optimi.




In [None]:
#your code here

<strong>13.</strong> Repetă toți pașii de mai sus pentru a doua imagine (folosind aceiași clasificatori ca pentru prima imagine). Compară rezultatele obținute cu același clasificator pentru cazurile liniar și non-liniar, respectiv.



In [None]:
#your code here

<strong>14.</strong> Compară rezultatele din mai multe perspective:

<li>Compară rezultatele obținute pentru imagini liniar și non-liniar cu fiecare clasificator.</li> <li>Compară rezultatele obținute cu diferiți clasificatori pentru aceeași imagine.</li> <li>Încearcă să explici diferențele în performanțele diferitelor modele (clasificatori).</li>

In [None]:
#your code here


<strong>15.</strong> Realizează un studiu de sensibilitate privind selecția datelor (fișierele data1 și data2) din imaginile originale (vezi primul punct din Descrierea Detaliată a Cerințelor), folosind unul dintre clasificatorii utilizați anterior. Explicație: Se presupune că pixelii din seturile de antrenare sunt derivați dintr-o imagine reală pe care o cunoașteți teoretic. Ajustați pixelii selectați, ținând cont de forma imaginii reale.

Generează două fișiere suplimentare, data12 și data22, și folosește unul dintre cei trei clasificatori pentru a prezice culoarea pentru toți pixelii din prima și a doua imagine. Compară rezultatele obținute (folosind data1 față de data12 și data2 față de data22). Oferă o explicație pentru rezultatele observate.





In [None]:
#your code here


<strong>16.</strong> Realizează un studiu privind influența dimensiunii seturilor de antrenare și testare pentru unul dintre clasificatorii la alegerea ta.



In [None]:
#your code here


<strong>17.</strong> Pentru evaluare, trebuie să completezi toți pașii descriși mai sus, să raportezi și să compari rezultatele, să oferi o prezentare succintă a clasificatorilor aleși direct în Jupyter Notebook și să fii pregătit să răspunzi la întrebări legate de prezentare.





In [None]:
#your code here
