In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# Configurări
INPUT_FILE = 'output_modificat.csv' # Asigură-te că fișierul e lângă notebook!
RANDOM_STATE = 42

print("Biblioteci importate cu succes.")

Biblioteci importate cu succes.


In [2]:
# Citim datele
df = pd.read_csv(INPUT_FILE)

# Curățăm datele (ștergem rândurile goale)
cols_to_check = ['pret', 'locatie', 'titlu', 'descriere', 'Frauda']
df.dropna(subset=cols_to_check, inplace=True)

# Asigurăm că targetul e numeric
df['Frauda'] = df['Frauda'].astype(int)

# Vedem primele 5 rânduri ca să fim siguri că totul e ok
print(f"Date încărcate: {len(df)} rânduri.")
display(df.head()) # 'display' arată tabelul frumos în Jupyter

Date încărcate: 6336 rânduri.


Unnamed: 0,titlu,pret,locatie,link,descriere,Unnamed: 5,Frauda
0,"Garsoniera Joy Residence,bloc 2019,zona Popeșt...",350.0,"Popesti-Leordeni, Ilfov",https://www.publi24.ro/anunturi/imobiliare/de-...,"Promovat181Garsoniera Joy Residence,bloc 2019,...",,0
1,garsoniera in zona Pacii,220.0,"Militari, Sector 4, Bucuresti",https://www.publi24.ro/anunturi/imobiliare/de-...,Promovat395garsoniera in zona PaciiOferim gars...,,0
2,Garsoniera de inchiriat in zona Tei,210.0,"Tei, Sector 2, Bucuresti",https://www.publi24.ro/anunturi/imobiliare/de-...,Promovat32Garsoniera de inchiriat in zona TeiO...,,1
3,Inchiriere garsoniera Metalurgiei,280.0,"Sector 4, Bucuresti",https://www.publi24.ro/anunturi/imobiliare/de-...,Promovat526Inchiriere garsoniera MetalurgieiDi...,,0
4,Ofer spre inchiriere garsoniera in zona drumul...,230.0,"Drumul Taberei, Sector 6, Bucuresti",https://www.publi24.ro/anunturi/imobiliare/de-...,Promovat35Ofer spre inchiriere garsoniera in z...,,0


In [3]:
X = df[['pret', 'locatie', 'titlu', 'descriere']]
y = df['Frauda']

# 1. Pentru PREȚ (Numeric) -> Scalare
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

# 2. Pentru LOCAȚIE (Categoric) -> OneHotEncoding
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# 3. Pentru TITLU (Text) -> TF-IDF
title_transformer = TfidfVectorizer(max_features=500)

# 4. Pentru DESCRIERE (Text) -> TF-IDF
desc_transformer = TfidfVectorizer(max_features=1000, ngram_range=(1, 2))

# Combinăm totul
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, ['Pret']),
        ('cat', categorical_transformer, ['Locatie']),
        ('title', title_transformer, 'Titlu'),
        ('desc', desc_transformer, 'Descriere')
    ],
    remainder='drop'
)

print("Pipeline de preprocesare configurat.")

Pipeline de preprocesare configurat.


In [4]:
# --- DEBUG ȘI REPARARE COLOANE ---
import pandas as pd

# 1. Afișăm coloanele exact așa cum le vede Python acum
print("Coloanele găsite inițial în df:", df.columns.tolist())

# 2. REPARATIE: Eliminăm spațiile goale din numele coloanelor
# (Ex: transformă ' Pret ' în 'Pret')
df.columns = df.columns.str.strip()

# 3. VERIFICARE SEPARATOR
# Dacă avem o singură coloană lungă, înseamnă că CSV-ul e cu ';' dar a fost citit cu ','
if len(df.columns) == 1:
    print("\nATENȚIE: CSV-ul pare citit greșit (o singură coloană). Reîncărcăm cu separatorul ';'...")
    # Reîncărcăm fișierul forțând separatorul punct și virgulă
    df = pd.read_csv('output_modificat.csv', sep=';')
    # Curățăm iar spațiile
    df.columns = df.columns.str.strip()

# 4. REDENUMIRE AUTOMATĂ (Dacă e cazul)
# Dacă numele sunt în engleză sau cu litere mici, le corectăm standard
mapare_coloane = {
    'price': 'Pret', 'pret': 'Pret', 'Preț': 'Pret',
    'location': 'Locatie', 'locatie': 'Locatie', 'city': 'Locatie',
    'title': 'Titlu', 'titlu': 'Titlu',
    'description': 'Descriere', 'descriere': 'Descriere',
    'fraud': 'Frauda', 'frauda': 'Frauda'
}
df.rename(columns=mapare_coloane, inplace=True)

# 5. VERIFICARE FINALĂ
col_necesare = ['Pret', 'Locatie', 'Titlu', 'Descriere', 'Frauda']
lipsa = [c for c in col_necesare if c not in df.columns]

if lipsa:
    print(f"\nEROARE CRITICĂ: Încă lipsesc coloanele: {lipsa}")
    print("Coloanele disponibile sunt:", df.columns.tolist())
    print("Te rog verifică CSV-ul sau numele coloanelor!")
else:
    print("\nSUCCES: Toate coloanele necesare ('Pret', 'Locatie', 'Titlu', 'Descriere') sunt prezente!")
    
    # --- RE-DEFINIM X și y PENTRU SIGURANȚĂ ---
    # Este crucial să re-definim X și y după ce am reparat df-ul
    X = df[['Pret', 'Locatie', 'Titlu', 'Descriere']]
    y = df['Frauda']
    
    # Re-importăm train_test_split pentru a fi siguri
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
    
    print("Datele (X_train, y_train) au fost regenerate corect. Acum poți rula 'model.fit'!")

Coloanele găsite inițial în df: ['titlu', 'pret', 'locatie', 'link', 'descriere', 'Unnamed: 5', 'Frauda']

SUCCES: Toate coloanele necesare ('Pret', 'Locatie', 'Titlu', 'Descriere') sunt prezente!
Datele (X_train, y_train) au fost regenerate corect. Acum poți rula 'model.fit'!


In [5]:
df = pd.read_csv(INPUT_FILE)

# Redenumire manuală (adaptează partea stângă la ce ai tu în fișier)
# Exemplu: 'nume_vechi': 'Nume_Nou_Din_Script'
df = df.rename(columns={
    'price': 'Pret', 
    'pret': 'Pret',
    'location': 'Locatie',
    'locatie': 'Locatie',
    'title': 'Titlu',
    'titlu': 'Titlu',
    'description': 'Descriere',
    'descriere': 'Descriere',
    'fraud': 'Frauda'
})

# Acum poți rula dropna
cols_to_check = ['Pret', 'Locatie', 'Titlu', 'Descriere', 'Frauda']
df.dropna(subset=cols_to_check, inplace=True)

In [6]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=RANDOM_STATE, stratify=y
)

# Definim Modelul
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression(solver='liblinear', max_iter=1000, C=1.0))
])

# Antrenăm
print("Se antrenează modelul...")
model.fit(X_train, y_train)

# --- DIAGNOSTIC ---
train_acc = accuracy_score(y_train, model.predict(X_train))
test_acc = accuracy_score(y_test, model.predict(X_test))

print("\n" + "="*40)
print(f"Acuratețe ANTRENARE: {train_acc:.2%}")
print(f"Acuratețe TESTARE:   {test_acc:.2%}")
print("-" * 20)

diff = train_acc - test_acc
if train_acc < 0.70:
    print(">> DIAGNOSTIC: HIGH BIAS (Underfitting). Modelul e prea simplu.")
elif diff > 0.10:
    print(">> DIAGNOSTIC: HIGH VARIANCE (Overfitting). Modelul a memorat datele.")
else:
    print(">> DIAGNOSTIC: Model ECHILIBRAT. Felicitări!")
print("="*40)

Se antrenează modelul...

Acuratețe ANTRENARE: 95.46%
Acuratețe TESTARE:   91.56%
--------------------
>> DIAGNOSTIC: Model ECHILIBRAT. Felicitări!


In [7]:
try:
    # Extragem numele feature-urilor create
    prep = model.named_steps['preprocessor']
    
    feature_names = ['Pret']
    feature_names.extend(prep.named_transformers_['cat']['onehot'].get_feature_names_out(['Locatie']))
    feature_names.extend([f"Titlu_{x}" for x in prep.named_transformers_['title'].get_feature_names_out()])
    feature_names.extend([f"Desc_{x}" for x in prep.named_transformers_['desc'].get_feature_names_out()])

    # Extragem coeficienții
    coefs = model.named_steps['classifier'].coef_[0]

    # Creăm tabelul
    coef_df = pd.DataFrame({'Factor': feature_names, 'Importanta (Coef)': coefs})
    
    # Afișăm TOP 10 indicii de FRAUDĂ (Coeficient mare pozitiv)
    print("TOP 10 SEMNE DE FRAUDĂ:")
    display(coef_df.sort_values(by='Importanta (Coef)', ascending=False).head(10))

    # Afișăm TOP 10 indicii de SIGURANȚĂ (Coeficient mare negativ)
    print("\nTOP 10 SEMNE CĂ E SIGUR:")
    display(coef_df.sort_values(by='Importanta (Coef)', ascending=True).head(10))

except Exception as e:
    print(f"Nu s-au putut extrage detaliile: {e}")

TOP 10 SEMNE DE FRAUDĂ:


Unnamed: 0,Factor,Importanta (Coef)
211,"Locatie_Constanta, Constanta",1.803512
189,"Locatie_Chiajna, Ilfov",1.701457
79,"Locatie_Banu+Manta, Sector 1, Bucuresti",1.483769
521,"Locatie_Piata+Romana, Sector 1, Bucuresti",1.466352
440,"Locatie_Navodari, Constanta",1.390023
259,"Locatie_Dorobanti, Sector 1, Bucuresti",1.383197
589,"Locatie_Sector 3, Bucuresti",1.34318
402,"Locatie_Mamaia-Sat, Constanta",1.341005
2059,Desc_sector bucurestiazi,1.307332
552,"Locatie_Racadau, Brasov, Brasov",1.302795



TOP 10 SEMNE CĂ E SIGUR:


Unnamed: 0,Factor,Importanta (Coef)
0,Pret,-7.635449
651,"Locatie_Timisoara, Timis",-1.885326
1985,Desc_pat,-1.654011
894,Titlu_chirie,-1.484837
407,"Locatie_Medicinei, Timisoara, Timis",-1.442703
561,"Locatie_Resita, Caras-Severin",-1.288871
1064,Titlu_medicinei,-1.249525
193,"Locatie_Circumvalatiunii, Timisoara, Timis",-1.09613
1022,Titlu_inchiriez,-1.092897
66,"Locatie_Badea%2bCartan, Timisoara, Timis",-1.074514


In [8]:
import joblib
nume_fisier = 'model_frauda_ebay.pkl1'
joblib.dump(model, nume_fisier)

print(f"✅ Modelul a fost salvat cu succes în fișierul: '{nume_fisier}'")


✅ Modelul a fost salvat cu succes în fișierul: 'model_frauda_ebay.pkl1'


In [9]:
from sklearn.ensemble import RandomForestClassifier

# 1. Definim un nou Pipeline cu Random Forest
# Păstrăm același preprocessor definit anterior!
model_rf = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced'))
])

# Notă: 'class_weight="balanced"' ajută enorm dacă ai puține exemple de fraudă!

# 2. Antrenăm
print("Antrenez Random Forest...")
model_rf.fit(X_train, y_train)

# 3. Evaluăm
y_pred_rf = model_rf.predict(X_test)
acc_rf = accuracy_score(y_test, y_pred_rf)

print("\n--- REZULTATE RANDOM FOREST (ENSEMBLE) ---")
print(f"Acuratețe Testare: {acc_rf:.2%}")
print("\nRaport Detaliat:")
print(classification_report(y_test, y_pred_rf))

Antrenez Random Forest...

--- REZULTATE RANDOM FOREST (ENSEMBLE) ---
Acuratețe Testare: 89.51%

Raport Detaliat:
              precision    recall  f1-score   support

           0       0.90      1.00      0.94      1122
           1       0.78      0.12      0.21       146

    accuracy                           0.90      1268
   macro avg       0.84      0.56      0.58      1268
weighted avg       0.88      0.90      0.86      1268

