In [None]:
import pandas as pd

# Loading the flower data
flower = pd.read_csv('D:\\New folder\\Tugas Kampus\\flowerpredict\\DatasetBunga.csv')
flower.head(90)

In [None]:
import spacy

# Create an empty model
nlp = spacy.blank("en")

# Add the TextCategorizer to the empty model
textcat = nlp.add_pipe("textcat")

In [None]:
# Add labels to text classifier
textcat.add_label("Daisy")
textcat.add_label("Tulips")
textcat.add_label("Dandelion")
textcat.add_label("Roses")
textcat.add_label("Sunflower")

In [None]:
train_texts = flower['Text'].values
train_labels = [{'cats': {'Daisy': label == 'Daisy',
                          'Tulips': label == 'Tulips',
                          'Dandelion': label == 'Dandelion',
                          'Roses': label == 'Roses',
                          'Sunflower': label == 'Sunflower'}} 
                for label in flower['Label']]

In [None]:
train_data = list(zip(train_texts, train_labels))
train_data[:90]

In [None]:
from spacy.util import minibatch
from spacy.training.example import Example

spacy.util.fix_random_seed(1)
optimizer = nlp.begin_training()

# Create the batch generator with batch size = 8
batches = minibatch(train_data, size=8)
# Iterate through minibatches
for batch in batches:
    # Each batch is a list of (text, label) 
    for text, labels in batch:
        doc = nlp.make_doc(text)
        example = Example.from_dict(doc, labels)
        nlp.update([example], sgd=optimizer)

In [None]:
import random

random.seed(1)
spacy.util.fix_random_seed(1)
optimizer = nlp.begin_training()

losses = {}
for epoch in range(10):
    random.shuffle(train_data)
    # Create the batch generator with batch size = 8
    batches = minibatch(train_data, size=8)
    # Iterate through minibatches
    for batch in batches:
        for text, labels in batch:
            doc = nlp.make_doc(text)
            example = Example.from_dict(doc, labels)
            nlp.update([example], sgd=optimizer, losses=losses)
    print(losses)

In [None]:
texts = ["bunga warna merah"]
docs = [nlp.tokenizer(text) for text in texts]
    
# Use textcat to get the scores for each doc
textcat = nlp.get_pipe('textcat')
scores = textcat.predict(docs)

print(scores)

In [None]:
texts = ["bunga warna kuning"]
docs = [nlp.tokenizer(text) for text in texts]
    
# Use textcat to get the scores for each doc
textcat = nlp.get_pipe('textcat')
scores = textcat.predict(docs)

 
    
# Add a dictionary to store descriptions for each label
label_descriptions = {
    "Daisy": "Bellis perennis adalah spesies Eropa yang umum dari daisy, dari familia Asteraceae, sering dianggap sebagai spesies archetypal dari nama itu. Bellis perennis asli dari Eropa barat, tengah dan utara, tetapi secara luas dinaturalisasi di sebagian besar daerah yang beriklim sedang termasuk Amerika dan Australasia. Secara umum, bunga daisy telah lama dikaitkan dengan simbol ketulusan, kemurnian, kelahiran kembali, dan keceriaan.",
    "Tulips": "Tulip (bahasa Latin: Tulipa) merupakan nama genus untuk 100 spesies tumbuhan berbunga yang termasuk ke dalam keluarga Liliaceae. Tulip berasal dari Asia Tengah, tumbuh liar di kawasan pegunungan Pamir dan pegunungan Hindu Kush dan stepa di Kazakhstan. Negeri Belanda terkenal sebagai negeri bunga tulip. Tulip juga merupakan bunga nasional Iran dan Turki..",
    "Dandelion": "Dandelion (Taraxacum) adalah genus besar dalam keluarga Asteraceae. Nama Randa Tapak sendiri biasanya merujuk kepada sebuah tumbuhan yang memiliki 'bunga-bunga' kecil yang dapat terbang ketika tertiup angin. Asal asli dari tumbuhan ini adalah Eropa dan Asia, tetapi sudah menyebar ke segala tempat. Yang disebut sebagai 'bunga' dari tumbuhan ini dapat menjadi semacam jam hayati yang secara teratur melepaskan banyak bijinya. Biji-biji ini sesungguhnya adalah buahnya.",
    "Roses": "Roses / rose adalah tumbuhan perdu, pohonnya berduri, bunganya berbau wangi dan berwarna indah, terdiri atas daun bunga yang bersusun:meliputi jenis, tumbuh tegak atau memanjat, batangnya berduri, bunganya beraneka warna, seperti merah, putih, merah jambu, merah tua, dan berbau harum. Mawar liar terdiri dari 100 spesies lebih, kebanyakan tumbuh di belahan bumi utara yang berudara sejuk. Spesies ini umumnya merupakan tanaman semak yang berduri atau tanaman memanjat yang tingginya bisa mencapai 2 sampai 5 meter. Walaupun jarang ditemui, tinggi tanaman mawar yang merambat di tanaman lain bisa mencapai 20 meter.",
    "Sunflower": "Bunga matahari (Helianthus annuus L.) adalah tumbuhan semusim dari suku kenikir-kenikiran (Asteraceae) yang populer, baik sebagai tanaman hias maupun tanaman penghasil minyak. Bunga tumbuhan ini sangat khas: besar, biasanya berwarna kuning terang, dengan kepala bunga yang besar (diameter bisa mencapai 30 cm). Bunga ini sebetulnya adalah bunga majemuk, tersusun dari ratusan hingga ribuan bunga kecil pada satu bongkol. Bunga Matahari juga memiliki perilaku khas, yaitu bunganya selalu menghadap / condong ke arah matahari atau heliotropisme. Orang Prancis menyebutnya tournesol atau 'Pengelana Matahari'. Namun, sifat ini disingkirkan pada berbagai kultivar baru untuk produksi minyak karena memakan banyak energi dan mengurangi hasil.",
}

# From the scores, find the label with the highest score/probability
predicted_labels = scores.argmax(axis=1)

# Print the predicted labels and their descriptions
for i, label in enumerate(predicted_labels):
    print(f"Prediction : {textcat.labels[label]}")
    print(f"Description: {label_descriptions.get(textcat.labels[label], 'Description not available')}")

In [None]:
from spacy.pipeline import TextCategorizer

In [None]:
prediction = TextCategorizer

In [None]:
import pickle

In [None]:
pickle_out = open("flower.pkl", "wb")
pickle.dump(prediction, pickle_out)
pickle_out.close()