In [1]:
#classifiers
#PART (Partial Decision Trees)
# PART एल्गोरिदम का उपयोग करने का उदाहरण
from weka.classifiers.rules import PART
from weka.core.converters import Loader

# डेटा लोड करना
loader = Loader(classname="weka.core.converters.ArffLoader")
data = loader.load_file("path/to/your/data.arff")
data.class_is_last()

# PART क्लासिफायर लागू करना
classifier = PART()
classifier.build_classifier(data)


ModuleNotFoundError: No module named 'weka'

In [2]:
#Randomizable Filtered Classifier
# Randomizable Filtered Classifier का उपयोग करने का उदाहरण
from weka.classifiers.meta import FilteredClassifier
from weka.filters import Filter
from weka.classifiers.trees import J48

# फ़िल्टर सेट करना (उदाहरण के लिए Discretize)
filter = Filter(classname="weka.filters.unsupervised.attribute.Discretize")

# क्लासिफायर सेट करना
classifier = FilteredClassifier()
classifier.filter = filter
classifier.classifier = J48()

# मॉडल बनाना
classifier.build_classifier(data)


ModuleNotFoundError: No module named 'weka'

In [3]:
#naive bayes

# Naive Bayes का उपयोग करने का उदाहरण
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# डेटा लोड करना
data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.3)

# Naive Bayes क्लासिफायर लागू करना
model = GaussianNB()
model.fit(X_train, y_train)


In [4]:
#multinomial naive bayes

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Sample Hindi text data
texts = [
    "मुझे किताबें पढ़ना पसंद है।",
    "आपको कौन सी किताब पसंद है?",
    "मैंने वह किताब पढ़ी है।"
]
labels = [0, 1, 0]  # Sample labels (e.g., 0 for 'negative', 1 for 'positive')

# Create a pipeline that first creates the TF-IDF representation and then applies Multinomial Naive Bayes
model = make_pipeline(TfidfVectorizer(), MultinomialNB())

# Train the model
model.fit(texts, labels)

# Predict a new sentence
test_text = ["आपकी पसंदीदा किताब कौन सी है?"]
predicted = model.predict(test_text)
print("Prediction for test text:", predicted)


Prediction for test text: [1]


In [5]:
#bernoulli naive bayes

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB
from sklearn.pipeline import make_pipeline

# Sample Hindi text data
texts = [
    "मुझे किताबें पढ़ना पसंद है।",
    "आपको कौन सी किताब पसंद है?",
    "मैंने वह किताब पढ़ी है।"
]
labels = [0, 1, 0]  # Sample labels

# Create a pipeline with CountVectorizer (binary=True for Bernoulli NB) and Bernoulli Naive Bayes
model = make_pipeline(CountVectorizer(binary=True), BernoulliNB())

# Train the model
model.fit(texts, labels)

# Predict a new sentence
test_text = ["आपकी पसंदीदा किताब कौन सी है?"]
predicted = model.predict(test_text)
print("Prediction for test text:", predicted)


Prediction for test text: [1]


In [6]:
#gaussian naive bayes

from sklearn.naive_bayes import GaussianNB
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# Sample Hindi text data
texts = [
    "मुझे किताबें पढ़ना पसंद है।",
    "आपको कौन सी किताब पसंद है?",
    "मैंने वह किताब पढ़ी है।"
]
labels = [0, 1, 0]  # Sample labels

# TF-IDF Vectorization
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texts).toarray()  # Convert sparse matrix to dense

# Gaussian Naive Bayes works with dense matrices
model = GaussianNB()

# Train the model
model.fit(X, labels)

# Predict a new sentence
test_text = ["आपकी पसंदीदा किताब कौन सी है?"]
X_test = vectorizer.transform(test_text).toarray()
predicted = model.predict(X_test)
print("Prediction for test text:", predicted)


Prediction for test text: [1]


In [7]:
#simple logistics

# Simple Logistic Regression का उपयोग करने का उदाहरण
from sklearn.linear_model import LogisticRegression

# मॉडल सेट करना
model = LogisticRegression()
model.fit(X_train, y_train)


In [8]:
#logit boost

# LogitBoost का उपयोग करने का उदाहरण
from sklearn.ensemble import AdaBoostClassifier

# मॉडल सेट करना
model = AdaBoostClassifier()
model.fit(X_train, y_train)




In [9]:
#iterative classifier optimizer

# Iterative Classifier Optimizer का उपयोग करने का उदाहरण
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# पैरामीटर ग्रिड सेट करना
param_grid = {'C': [0.1, 1, 10], 'gamma': [1, 0.1, 0.01]}
grid = GridSearchCV(SVC(), param_grid, refit=True)

# मॉडल को ट्रेन करना
grid.fit(X_train, y_train)




In [10]:
#attribute selected classifier

# Attribute Selected Classifier का उपयोग करने का उदाहरण
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.pipeline import Pipeline

# फीचर चयन और क्लासिफायर के साथ पाइपलाइन सेट करना
model = Pipeline([('feature_selection', SelectKBest(chi2, k=2)),
                  ('classification', SVC())])

# मॉडल को ट्रेन करना
model.fit(X_train, y_train)


In [11]:
#random forest

# Random Forest का उपयोग करने का उदाहरण
from sklearn.ensemble import RandomForestClassifier

# मॉडल सेट करना
model = RandomForestClassifier()
model.fit(X_train, y_train)


In [12]:
#J48

# J48 का उपयोग करने का उदाहरण
from weka.classifiers.trees import J48

# मॉडल सेट करना
model = J48()
model.build_classifier(data)


ModuleNotFoundError: No module named 'weka'

In [13]:
#Multilayer perceptron

# Multilayer Perceptron का उपयोग करने का उदाहरण
from sklearn.neural_network import MLPClassifier

# मॉडल सेट करना
model = MLPClassifier()
model.fit(X_train, y_train)




In [14]:
#Random tree

# Random Tree का उपयोग करने का उदाहरण
from sklearn.tree import DecisionTreeClassifier

# मॉडल सेट करना
model = DecisionTreeClassifier()
model.fit(X_train, y_train)


In [15]:
#Multi class classifier

# Multi-Class Classifier का उपयोग करने का उदाहरण
from sklearn.svm import SVC

# मॉडल सेट करना (SVM multi-class के लिए)
model = SVC(decision_function_shape='ovo')
model.fit(X_train, y_train)


In [16]:
#classifier via regression

# Classifier via Regression का उपयोग करने का उदाहरण
from sklearn.linear_model import LogisticRegression

# मॉडल सेट करना
model = LogisticRegression(multi_class='multinomial')
model.fit(X_train, y_train)


In [None]:
#LMT(Logistic Model Tree)

# LMT का उपयोग करने का उदाहरण
from weka.classifiers.trees import LMT

# मॉडल सेट करना
model = LMT()
model.build_classifier(data)


In [None]:
# K-Star

# KStar का उपयोग करने का उदाहरण
from weka.classifiers.lazy import KStar

# मॉडल सेट करना
model = KStar()
model.build_classifier(data)


In [None]:
#bayes net

# Bayes Net का उपयोग करने का उदाहरण
from weka.classifiers.bayes import BayesNet

# मॉडल सेट करना
model = BayesNet()
model.build_classifier(data)


In [18]:
#n-grams

from sklearn.feature_extraction.text import CountVectorizer

# Sample Hindi text data
texts = [
    "मुझे किताबें पढ़ना पसंद है।",
    "आपको कौन सी किताब पसंद है?",
    "मैंने वह किताब पढ़ी है।"
]

# Create the N-gram model (e.g., bigrams)
vectorizer = CountVectorizer(ngram_range=(2, 2), analyzer='word')
X = vectorizer.fit_transform(texts)

# Display the bigrams
print("N-Grams (Bigrams):")
print(vectorizer.get_feature_names_out())
print(X.toarray())


N-Grams (Bigrams):
['आपक पस' 'पढ पस' 'वह पढ']
[[0 1 0]
 [1 0 0]
 [0 0 1]]


In [19]:
#tf-idf

from sklearn.feature_extraction.text import TfidfVectorizer

# Sample Hindi text data
texts = [
    "मुझे किताबें पढ़ना पसंद है।",
    "आपको कौन सी किताब पसंद है?",
    "मैंने वह किताब पढ़ी है।"
]

# Create the TF-IDF model
tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 2), analyzer='word')
X_tfidf = tfidf_vectorizer.fit_transform(texts)

# Display the TF-IDF features and scores
print("TF-IDF Features:")
print(tfidf_vectorizer.get_feature_names_out())
print("TF-IDF Scores:")
print(X_tfidf.toarray())


TF-IDF Features:
['आपक' 'आपक पस' 'पढ' 'पढ पस' 'पस' 'वह' 'वह पढ']
TF-IDF Scores:
[[0.         0.         0.51785612 0.68091856 0.51785612 0.
  0.        ]
 [0.62276601 0.62276601 0.         0.         0.4736296  0.
  0.        ]
 [0.         0.         0.4736296  0.         0.         0.62276601
  0.62276601]]


In [20]:
#BOW(Bag of Words)

from sklearn.feature_extraction.text import CountVectorizer

# Sample Hindi text data
texts = [
    "मुझे किताबें पढ़ना पसंद है।",
    "आपको कौन सी किताब पसंद है?",
    "मैंने वह किताब पढ़ी है।"
]

# Initialize the CountVectorizer
vectorizer = CountVectorizer()

# Fit the model and transform the texts into BoW representation
X = vectorizer.fit_transform(texts)

# Display the vocabulary
print("Vocabulary:")
print(vectorizer.vocabulary_)

# Display the BoW representation (as a sparse matrix)
print("\nBag of Words (Sparse Matrix):")
print(X)

# Convert the sparse matrix to a dense matrix for better readability
print("\nBag of Words (Dense Matrix):")
print(X.toarray())


Vocabulary:
{'पढ': 1, 'पस': 2, 'आपक': 0, 'वह': 3}

Bag of Words (Sparse Matrix):
  (0, 1)	1
  (0, 2)	1
  (1, 2)	1
  (1, 0)	1
  (2, 1)	1
  (2, 3)	1

Bag of Words (Dense Matrix):
[[0 1 1 0]
 [1 0 1 0]
 [0 1 0 1]]


In [21]:
#SVM MODEL

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

# Example data: Hindi sentences and their corresponding labels
data = {
    'text': [
        'यह एक बहुत अच्छा उत्पाद है',  # This is a very good product
        'मुझे यह बिल्कुल पसंद नहीं आया',  # I did not like it at all
        'उत्पाद की गुणवत्ता खराब है',  # The quality of the product is bad
        'इस उत्पाद को खरीदने लायक है',  # This product is worth buying
        'यह बहुत ही बेकार उत्पाद है',  # This is a very useless product
    ],
    'label': [1, 0, 0, 1, 0]  # 1: Positive, 0: Negative
}

# Convert the data into a DataFrame
df = pd.DataFrame(data)

# Text preprocessing (Optional: Add more steps like stop words removal, stemming, etc.)
def preprocess_text(text):
    # Convert to lowercase
    text = text.lower()
    # Further preprocessing steps can be added here
    return text

df['text'] = df['text'].apply(preprocess_text)

# Vectorization using TF-IDF
vectorizer = TfidfVectorizer(ngram_range=(1, 2))  # Using unigrams and bigrams
X = vectorizer.fit_transform(df['text'])
y = df['label']

# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# SVM Model
svm_model = SVC(kernel='linear', random_state=42)
svm_model.fit(X_train, y_train)

# Predictions
y_pred = svm_model.predict(X_test)

# Evaluation
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("Accuracy:", accuracy)
print("Classification Report:\n", report)

# Test the model with a new sentence
test_sentence = "यह उत्पाद अच्छा नहीं है"  # This product is not good
test_sentence_vectorized = vectorizer.transform([test_sentence])
prediction = svm_model.predict(test_sentence_vectorized)

print("Prediction for test sentence:", prediction[0])  # 0: Negative, 1: Positive


Accuracy: 1.0
Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         1

    accuracy                           1.00         1
   macro avg       1.00      1.00      1.00         1
weighted avg       1.00      1.00      1.00         1

Prediction for test sentence: 1
