# E-pastu vai dokumentu klasifikācija

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Datu kopas piemērs: dokumenti un to kategorijas
documents = [
    "Rēķins par projektu X",
    "Līgums par projektu Y",
    "Sanāksmes piezīmes par komandu A",
    "Rēķins par projektu Z",
    "Līgums par komandu B"
]
labels = ["rēķins", "līgums", "piezīmes", "rēķins", "līgums"]

# Teksta konvertēšana skaitliskās iezīmēs
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)
y = labels

# Modeļa trenēšana
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,) #random_state=42)
model = MultinomialNB()
model.fit(X_train, y_train)

# Kategoriju prognozēšana
print(y_test)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))


['piezīmes', 'rēķins']
              precision    recall  f1-score   support

      līgums       0.00      0.00      0.00       0.0
    piezīmes       0.00      0.00      0.00       1.0
      rēķins       0.00      0.00      0.00       1.0

    accuracy                           0.00       2.0
   macro avg       0.00      0.00      0.00       2.0
weighted avg       0.00      0.00      0.00       2.0



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


#  Dokumentu grupēšana (klasterēšana)

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# Dokumentu piemēri
documents = [
    "Rēķins par projektu X",
    "Līgums par projektu Y",
    "Sanāksmes piezīmes par komandu A",
    "Rēķins par projektu Z",
    "Līgums par komandu B"
]

# Teksta konvertēšana skaitliskās iezīmēs
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

# Klasterēšana KMeans grupē datus 2 klasteros (n_clusters=2)
kmeans = KMeans(n_clusters=2, random_state=42)
clusters = kmeans.fit_predict(X)

# Klasteru rezultāti
for i, doc in enumerate(documents):
    print(f"Dokuments: {doc} -> Klasteris: {clusters[i]}")

Dokuments: Rēķins par projektu X -> Klasteris: 1
Dokuments: Līgums par projektu Y -> Klasteris: 0
Dokuments: Sanāksmes piezīmes par komandu A -> Klasteris: 0
Dokuments: Rēķins par projektu Z -> Klasteris: 1
Dokuments: Līgums par komandu B -> Klasteris: 0


# Darba slodzes prognozēšana

In [12]:
from sklearn.linear_model import LinearRegression
import numpy as np

# Dati: dokumentu skaits, kas apstrādāts katru dienu
days = np.array(range(1, 11)).reshape(-1, 1)  # Dienas no 1 līdz 10
# documents_processed norāda dokumentu apstrādes slodzi
documents_processed = np.array([5, 7, 6, 8, 10, 12, 11, 13, 15, 17])

# Lineārās regresijas modeļa apmācība
model = LinearRegression()
model.fit(days, documents_processed)

# Prognozēšana nākotnes dienām
future_days = np.array(range(11, 16)).reshape(-1, 1)  # Dienas no 11 līdz 15
forecast = model.predict(future_days)
print("Prognozētie dokumenti:", forecast)

Prognozētie dokumenti: [17.4        18.67272727 19.94545455 21.21818182 22.49090909]


# Automatizēta anomāliju noteikšana

In [13]:
# Šis piemērs identificē apstrādes laikus kas atšķiras no normas, izmantojot IsolationForest.
from sklearn.ensemble import IsolationForest

# Dati: apstrādes laiki (sekundēs)
processing_times = [[30], [28], [32], [45], [29], [500], [31], [27], [28], [400]]

# Isolation Forest modeļa apmācība
model = IsolationForest(contamination=0.2, random_state=42)
anomalies = model.fit_predict(processing_times)

# Rezultātu izvade
for i, (time, label) in enumerate(zip(processing_times, anomalies)):
    status = "Anomālija" if label == -1 else "Normāls"
    print(f"Apstrādes laiks {time[0]}: {status}")

Apstrādes laiks 30: Normāls
Apstrādes laiks 28: Normāls
Apstrādes laiks 32: Normāls
Apstrādes laiks 45: Normāls
Apstrādes laiks 29: Normāls
Apstrādes laiks 500: Anomālija
Apstrādes laiks 31: Normāls
Apstrādes laiks 27: Normāls
Apstrādes laiks 28: Normāls
Apstrādes laiks 400: Anomālija


# Dokumenta apstiprināšanas iespējamības prognozēšana

In [14]:
from sklearn.tree import DecisionTreeClassifier

# Datu kopas piemērs: īpašības (garums, veids) un apstiprināšanas statuss
features = [
    [100, 0],  # Īss rēķins
    [200, 0],  # Garš rēķins
    [50, 1],   # Īss līgums
    [300, 1],  # Garš līgums
    [150, 0],  # Vidēji garš rēķins
]
labels = [1, 0, 1, 0, 1]  # Apstiprināts (1) vai neapstiprināts (0)

# Modeļa apmācība
model = DecisionTreeClassifier()
model.fit(features, labels)

# Prognozes jauniem dokumentiem
new_docs = [[120, 0], [400, 1]]  # Vidēji garš rēķins, garš līgums
predictions = model.predict(new_docs)
print("Prognozes (Apstiprināšana):", predictions)

Prognozes (Apstiprināšana): [1 0]


# Automatizēta atslēgvārdu ieguve

In [16]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

# Dokumentu piemēri
documents = [
    "Rēķins par projektu X un uzdevumu A",
    "Līgums par projektu Y un uzdevumu B",
    "Sanāksmes piezīmes par komandu A un projektu X",
    "Rēķins par projektu Z un uzdevumu C",
    "Līgums par komandu B un projektu Z"
]

# Teksta konvertēšana skaitliskās iezīmēs
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

# TruncatedSVD samazina dimensijas līdz 2 komponentēm,
# kas atspoguļo svarīgākos modeļus datos

svd = TruncatedSVD(n_components=2, random_state=42)
X_reduced = svd.fit_transform(X)

# Atslēgvārdu noteikšana
terms = vectorizer.get_feature_names_out()
for i, component in enumerate(svd.components_):
    terms_idx = component.argsort()[-5:]
    print(f"Tēma {i}: {', '.join(terms[j] for j in terms_idx)}")

Tēma 0: rēķins, uzdevumu, par, projektu, un
Tēma 1: par, līgums, sanāksmes, piezīmes, komandu


# Automatizēta dokumentu salīdzināšana

In [17]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Dokumentu un kategoriju piemēri
documents = ["Rēķins par projektu X", "Līgums par projektu Y"]
categories = ["Rēķins", "Līgums", "Piezīmes"]

# Teksta konvertēšana skaitliskās iezīmēs
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents + categories)

# Līdzības aprēķināšana
similarities = cosine_similarity(X[:len(documents)], X[len(documents):])

# Dokumentu un kategoriju atbilstība
for i, doc_sim in enumerate(similarities):
    best_match = categories[doc_sim.argmax()]
    print(f"Dokuments '{documents[i]}' atbilst kategorijai: {best_match}")

Dokuments 'Rēķins par projektu X' atbilst kategorijai: Rēķins
Dokuments 'Līgums par projektu Y' atbilst kategorijai: Līgums


# Darbinieku veiktspējas prognozēšana

In [27]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Dati: darba radītāji (stundas, uzdevumu skaits) un veiktspēja
features = [
    [40, 5],  # 40 stundas, 5 uzdevumi
    [50, 6],  # 50 stundas, 6 uzdevumi
    [30, 4],  # 30 stundas, 4 uzdevumi
    [60, 8],  # 60 stundas, 8 uzdevumi
    [35, 5],  # 35 stundas, 5 uzdevumi
]
performance = [85, 90, 78, 95, 80]  # Veiktspēja (punkti)

# Datu sadalīšana treniņā un testā
X_train, X_test, y_train, y_test = train_test_split(features, performance, test_size=0.2, random_state=42)

# Modeļa apmācība
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Prognozēšana un novērtēšana
y_pred = model.predict(X_test)
print("veiktspējas rādītās: ", y_pred, " Darba stundas: ", X_test[0][0],
      " Darba uzdevumi: ", X_test[0][1])
mse = mean_squared_error(y_test, y_pred)
# mean_squared_error aprēķina vidējo kvadrātiskās kļūdas rādītāju,
# kas parāda prognožu precizitāti
print(f"Izpratnes kļūda (MSE): {mse}")

veiktspējas rādītās:  [85.44]  Darba stundas:  50  Darba uzdevumi:  6
Izpratnes kļūda (MSE): 20.79360000000002
