In [7]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from imblearn.over_sampling import SMOTE
import matplotlib.pyplot as plt
import re

data = pd.read_csv('eco_500_sentences.csv')

def clean_text(text):
    if isinstance(text, str):
        text = text.lower()
        text = re.sub(r'[^\w\s]', '', text)
        return text
    return ''

data['Text'] = data['Text'].apply(clean_text)
data = data[data['Text'] != ''].dropna()

# vaori binare pentru senitmente
data['Sentiment'] = data['Sentiment'].map({'positive': 1, 'negative': 0})

# separ datele
texts = data['Text'].values
labels = data['Sentiment'].values

# vectrorizare TD-IDF
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english', ngram_range=(1, 2))
X = vectorizer.fit_transform(texts).toarray()

# impart datele in ytrain si test
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# smote pentru a balansa clasele
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

# antrenarea si construirea retelei cu un layer
mlp = MLPClassifier(
    hidden_layer_sizes=(32, ),
    activation='relu',
    solver='adam',
    max_iter=180,
    random_state=42
)
mlp.fit(X_train_balanced, y_train_balanced)

# acuratetea
y_pred = mlp.predict(X_test)
print(f"Acuratețea pe setul de test: {accuracy_score(y_test, y_pred):.2f}")

cm = confusion_matrix(y_test, y_pred)
print("\nMatrice de confuzie:")
print("                    Predicție Negativ (0)  Predicție Pozitiv (1)")
print(f"Adevărat Negativ (0)      {cm[0,0]:<20} {cm[0,1]:<20}")
print(f"Adevărat Pozitiv (1)      {cm[1,0]:<20} {cm[1,1]:<20}")
print("\nExplicație:")
print(f"True Negative (TN): {cm[0,0]} - Corect clasificate ca negativ")
print(f"False Positive (FP): {cm[0,1]} - Incorect clasificate ca pozitiv")
print(f"False Negative (FN): {cm[1,0]} - Incorect clasificate ca negativ")
print(f"True Positive (TP): {cm[1,1]} - Corect clasificate ca pozitiv")

# mesajul pentru care aplic modleul
message = "By choosing a bike over a car, I’m reducing my environmental footprint. Cycling promotes eco-friendly transportation, and I’m proud to be part of that movement."
message_cleaned = clean_text(message)
message_vectorized = vectorizer.transform([message_cleaned]).toarray()

# preidictia
prediction = mlp.predict(message_vectorized)[0]
sentiment = 'pozitiv' if prediction == 1 else 'negativ'
print(f"Sentimentul mesajului este: {sentiment}")

Acuratețea pe setul de test: 1.00

Matrice de confuzie:
                    Predicție Negativ (0)  Predicție Pozitiv (1)
Adevărat Negativ (0)      52                   0                   
Adevărat Pozitiv (1)      0                    48                  

Explicație:
True Negative (TN): 52 - Corect clasificate ca negativ
False Positive (FP): 0 - Incorect clasificate ca pozitiv
False Negative (FN): 0 - Incorect clasificate ca negativ
True Positive (TP): 48 - Corect clasificate ca pozitiv
Sentimentul mesajului este: pozitiv


In [8]:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from imblearn.over_sampling import SMOTE


data = pd.read_csv('reviews_mixed.csv')

def clean_text(text):
    if isinstance(text, str):
        text = text.lower()
        text = re.sub(r'[^\w\s]', '', text)
        return text
    return ''

data['Text'] = data['Text'].apply(clean_text)
data = data[data['Text'] != ''].dropna()

# vaori binare pentru senitmente
data['Sentiment'] = data['Sentiment'].map({'positive': 1, 'negative': 0})

# separ datele
texts = data['Text'].values
labels = data['Sentiment'].values

# vectrorizare TD-IDF
vectorizer = TfidfVectorizer(max_features=5000, stop_words='english', ngram_range=(1, 2))
X = vectorizer.fit_transform(texts).toarray()

# impart datele in ytrain si test
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# smote pentru a balansa clasele
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

# antrenarea si construirea retelei cu un layer
mlp = MLPClassifier(
    hidden_layer_sizes=(32,),
    activation='relu',
    solver='adam',
    max_iter=300,
    random_state=42
)
mlp.fit(X_train_balanced, y_train_balanced)

# acuratetea
y_pred = mlp.predict(X_test)
print(f"Acuratețea pe setul de test: {accuracy_score(y_test, y_pred):.2f}")

cm = confusion_matrix(y_test, y_pred)
print("\nMatrice de confuzie:")
print("                    Predicție Negativ (0)  Predicție Pozitiv (1)")
print(f"Adevărat Negativ (0)      {cm[0,0]:<20} {cm[0,1]:<20}")
print(f"Adevărat Pozitiv (1)      {cm[1,0]:<20} {cm[1,1]:<20}")
print("\nExplicație:")
print(f"True Negative (TN): {cm[0,0]} - Corect clasificate ca negativ")
print(f"False Positive (FP): {cm[0,1]} - Incorect clasificate ca pozitiv")
print(f"False Negative (FN): {cm[1,0]} - Incorect clasificate ca negativ")
print(f"True Positive (TP): {cm[1,1]} - Corect clasificate ca pozitiv")

# mesajul pentru care aplic modleul
message = "By choosing a bike over a car, I’m reducing my environmental footprint. Cycling promotes eco-friendly transportation, and I’m proud to be part of that movement."
message_cleaned = clean_text(message)
message_vectorized = vectorizer.transform([message_cleaned]).toarray()

# preidictia
prediction = mlp.predict(message_vectorized)[0]
sentiment = 'pozitiv' if prediction == 1 else 'negativ'
print(f"Sentimentul mesajului este: {sentiment}")

Acuratețea pe setul de test: 0.86

Matrice de confuzie:
                    Predicție Negativ (0)  Predicție Pozitiv (1)
Adevărat Negativ (0)      28                   2                   
Adevărat Pozitiv (1)      4                    8                   

Explicație:
True Negative (TN): 28 - Corect clasificate ca negativ
False Positive (FP): 2 - Incorect clasificate ca pozitiv
False Negative (FN): 4 - Incorect clasificate ca negativ
True Positive (TP): 8 - Corect clasificate ca pozitiv
Sentimentul mesajului este: negativ


In [38]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from imblearn.over_sampling import SMOTE
import re


data = pd.read_csv('reviews_mixed.csv')

def clean_text(text):
    if isinstance(text, str):
        text = text.lower()
        text = re.sub(r'[^\w\s]', '', text)
        return text
    return ''

data['Text'] = data['Text'].apply(clean_text)
data = data[data['Text'] != ''].dropna()

data['Sentiment'] = data['Sentiment'].map({'positive': 1, 'negative': 0})

texts = data['Text'].values
labels = data['Sentiment'].values

vectorizer = TfidfVectorizer(max_features=5000, stop_words='english', ngram_range=(1, 2))
X = vectorizer.fit_transform(texts).toarray()

vocab = vectorizer.get_feature_names_out()
print(f"Număr de termeni în vocabular: {len(vocab)}")
key_terms = ['eco', 'friendly', 'proud', 'environmental', 'cycling', 'footprint']
for term in key_terms:
    if term in vocab:
        print(f"Termenul '{term}' este în vocabular.")
    else:
        print(f"Termenul '{term}' NU este în vocabular.")

# Împărțim datele
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

mlp = MLPClassifier(
    hidden_layer_sizes=(32, ),
    activation='relu',
    solver='adam',
    max_iter=1000,
    alpha=0.01,
    random_state=42
)
mlp.fit(X_train_balanced, y_train_balanced)

y_pred = mlp.predict(X_test)
print(f"Acuratețea pe setul de test: {accuracy_score(y_test, y_pred):.2f}")

message = "By choosing a bike over a car, I’m reducing my environmental footprint. Cycling promotes eco-friendly transportation, and I’m proud to be part of that movement."
message_cleaned = clean_text(message)
message_vectorized = vectorizer.transform([message_cleaned]).toarray()

prediction = mlp.predict(message_vectorized)[0]
sentiment = 'pozitiv' if prediction == 1 else 'negativ'
print(f"Sentimentul mesajului este: {sentiment}")

message_terms = vectorizer.inverse_transform(message_vectorized)[0]
print(f"Termeni din mesaj capturați de TF-IDF: {message_terms}")

Versiune scikit-learn: 1.6.1


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\LENOVO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Număr de termeni în vocabular: 1293
Termenul 'eco' NU este în vocabular.
Termenul 'friendly' NU este în vocabular.
Termenul 'proud' NU este în vocabular.
Termenul 'environmental' NU este în vocabular.
Termenul 'cycling' NU este în vocabular.
Termenul 'footprint' NU este în vocabular.
Acuratețea pe setul de test: 0.79
Sentimentul mesajului este: negativ
Termeni din mesaj capturați de TF-IDF: []
