<a href="https://colab.research.google.com/github/mmacom/Proiecte_facultate_py/blob/main/invatare_automata2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. Prezentarea algoritmilor

Regresia Logistică: Este un algoritm liniar pentru clasificare care modelează relația dintre variabile folosind funcția sigmoidă. Rezultatul este o probabilitate, iar clasificarea se face pe baza unui prag (de exemplu, 0.5).

K-Nearest Neighbors (KNN): Clasifică punctele bazându-se pe clasele celor mai apropiați ￼ vecini din spațiul caracteristicilor. Nu presupune nicio relație liniară între variabile.

2. Descrierea problemei

Vom rezolva problema detectării fraudelor în tranzacții financiare. Setul de date conține caracteristici numerice ale tranzacțiilor, iar etichetele indică dacă o tranzacție este frauduloasă sau nu. Scopul este să comparăm performanța regresiei logistice și KNN pentru această problemă.

3. Librării utilizate

Vom folosi:
	•	pandas și numpy pentru manipularea datelor,
	•	matplotlib și seaborn pentru vizualizare,
	•	sklearn pentru modele și evaluarea performanței.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, classification_report

4. Descrierea setului de date

Vom folosi datasetul Credit Card Fraud Detection de pe Kaggle. Are 284,807 tranzacții (majoritatea nefrauduloase) și 31 de caracteristici.

Structura:
	•	Coloanele V1, V2, …, V28: variabile transformate prin PCA.
	•	Amount: suma tranzacției.
	•	Class: eticheta (0 = nefrauduloasă, 1 = fraudă).

5. Încărcarea și explorarea datelor

Încărcăm și explorăm datele pentru a înțelege structura.

In [2]:
# Încărcarea datelor
df = pd.read_csv('creditcard.csv')

# Explorarea datelor
print(df.info())
print(df['Class'].value_counts())

# Distribuția claselor
sns.countplot(x='Class', data=df)
plt.title('Distribuția fraudelor')
plt.show()

FileNotFoundError: [Errno 2] No such file or directory: 'creditcard.csv'

6. reprocesarea datelor

Vom separa variabilele independente (X) de etichetă (y), apoi vom împărți datele în seturi de antrenare și testare (80%-20%). De asemenea, normalizăm datele.

In [3]:
# Separarea caracteristicilor de etichete
X = df.drop(columns=['Class'])
y = df['Class']

# Împărțirea în seturi de antrenare și testare
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Standardizarea datelor
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

NameError: name 'df' is not defined

7. Modelul de regresie logistică

Construim și antrenăm modelul de regresie logistică, apoi evaluăm performanța folosind matricea de confuzie și metricile

In [4]:
# Antrenarea modelului
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)

# Predicții
y_pred_log = log_reg.predict(X_test)

# Evaluare
conf_matrix_log = confusion_matrix(y_test, y_pred_log)
print("Matricea de confuzie - Regresie Logistică:\n", conf_matrix_log)

accuracy_log = accuracy_score(y_test, y_pred_log)
precision_log = precision_score(y_test, y_pred_log)
recall_log = recall_score(y_test, y_pred_log)
f1_log = f1_score(y_test, y_pred_log)

print(f"Acuratețe: {accuracy_log:.2f}, Precizie: {precision_log:.2f}, Recall: {recall_log:.2f}, F1 Score: {f1_log:.2f}")

NameError: name 'X_train' is not defined

8. Modelul K-Nearest Neighbors

Același proces pentru KNN: antrenăm modelul, facem predicții și evaluăm performanța.

In [5]:
# Antrenarea modelului KNN
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# Predicții
y_pred_knn = knn.predict(X_test)

# Evaluare
conf_matrix_knn = confusion_matrix(y_test, y_pred_knn)
print("Matricea de confuzie - KNN:\n", conf_matrix_knn)

accuracy_knn = accuracy_score(y_test, y_pred_knn)
precision_knn = precision_score(y_test, y_pred_knn)
recall_knn = recall_score(y_test, y_pred_knn)
f1_knn = f1_score(y_test, y_pred_knn)

print(f"Acuratețe: {accuracy_knn:.2f}, Precizie: {precision_knn:.2f}, Recall: {recall_knn:.2f}, F1 Score: {f1_knn:.2f}")

NameError: name 'X_train' is not defined

9. Compararea rezultatelor

Rezultatele sunt afișate pentru ambii algoritmi, iar concluziile sunt bazate pe metricile calculate.

In [6]:
# Compararea metricilor
results = pd.DataFrame({
    'Metrică': ['Acuratețe', 'Precizie', 'Recall', 'F1 Score'],
    'Regresie Logistică': [accuracy_log, precision_log, recall_log, f1_log],
    'KNN': [accuracy_knn, precision_knn, recall_knn, f1_knn]
})

print(results)

# Concluzie
if f1_log > f1_knn:
    print("Regresia Logistică este mai performantă pentru acest set de date.")
else:
    print("KNN este mai performant pentru acest set de date.")

NameError: name 'accuracy_log' is not defined

10. Concluzii

	1.	Regresia Logistică este mai rapidă și funcționează bine pentru probleme cu relații liniare între variabile.
	2.	KNN poate oferi rezultate mai bune în cazul relațiilor complexe, dar este mai lent pentru seturi mari de date.

Comparăm rezultatele și alegem algoritmul mai potrivit pentru problemă, bazându-ne pe recall și F1 score, deoarece problema implică detectarea corectă a fraudelor.