## Uždavinys 1: Spam ir ne-spam klasifikavimas

Jūs turite el. laiškų rinkinį, kuriame yra paženklinti el. laiškai kaip "spam" arba "ne-spam". Naudokite Naive Bayes algoritmą, kad sukurtumėte modelį, kuris galėtų klasifikuoti naujus el. laiškus.

Naudokite duomenis iš šio šaltinio: https://archive.ics.uci.edu/dataset/228/sms+spam+collection

Įkelkite duomenis ir atlikite išankstinį apdorojimą (aptvarkykite duomenis, pasirinkite tik tai ko jums reikia).
Padalinkite duomenis į mokymosi ir testavimo rinkinius.
Sukurkite Naive Bayes modelį naudojant scikit-learn.
Įvertinkite modelio tikslumą naudodami testavimo rinkinį.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
from sklearn.pipeline import make_pipeline
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LinearRegression


In [36]:
df = pd.read_csv('SMSSpamCollection.csv' , sep='\t', header=None, names=['label', 'message'])
print(df['label'].value_counts())

label
ham     4825
spam     747
Name: count, dtype: int64


In [39]:
X_train, X_test, y_train, y_test = train_test_split(df['message'], df['label'], test_size=0.2, random_state=42)

model = make_pipeline(TfidfVectorizer(), MultinomialNB())
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_pred, y_test)
print(accuracy)

print(classification_report(y_test, y_pred,  target_names=['ham', 'spam']))

0.9668161434977578
              precision    recall  f1-score   support

         ham       0.96      1.00      0.98       966
        spam       1.00      0.75      0.86       149

    accuracy                           0.97      1115
   macro avg       0.98      0.88      0.92      1115
weighted avg       0.97      0.97      0.96      1115



## Uždavinys 2

Turite Twitter žinutes, kurios yra paženklintos kaip "positive" arba "negative". Naudokite Naive Bayes algoritmą, kad sukurtumėte modelį, kuris galėtų nustatyti naujų žinučių segmentą (ar žinutė yra negative ar positive).

Naudokite duomenis iš šio šaltinio: https://www.kaggle.com/datasets/kazanova/sentiment140

In [40]:
df = pd.read_csv('training.1600000.processed.noemoticon.csv', encoding= 'ISO-8859-1',  names= ['target', 'id', 'date', 'flag', 'user', 'text'])
df = df[['target', 'text']]
print(df.head())

df['target'] = df['target'].map({0: 'negative', 4: 'positive'})

print(df['target'].value_counts())

   target                                               text
0       0  @switchfoot http://twitpic.com/2y1zl - Awww, t...
1       0  is upset that he can't update his Facebook by ...
2       0  @Kenichan I dived many times for the ball. Man...
3       0    my whole body feels itchy and like its on fire 
4       0  @nationwideclass no, it's not behaving at all....
target
negative    800000
positive    800000
Name: count, dtype: int64


In [45]:
X_train, X_test, y_train, y_test = train_test_split(df['text'], df['target'], test_size=0.2, random_state=42)


model = make_pipeline(TfidfVectorizer(), MultinomialNB())
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_pred, y_test)
print(accuracy)

print(classification_report(y_test, y_pred, target_names=['negative', 'positive']))

0.773371875
              precision    recall  f1-score   support

    negative       0.75      0.82      0.78    159494
    positive       0.80      0.73      0.76    160506

    accuracy                           0.77    320000
   macro avg       0.78      0.77      0.77    320000
weighted avg       0.78      0.77      0.77    320000



## Uždavinys 3

Turite vyno kokybės duomenų rinkinį, kur vynai yra paženklinti kaip "gera" arba "bloga" kokybė. Naudokite Naive Bayes algoritmą, kad sukurtumėte modelį, kuris galėtų klasifikuoti vyno kokybę.

Naudokite duomenis iš šio šaltinio: https://archive.ics.uci.edu/dataset/186/wine+quality

In [18]:
red = pd.read_csv('winequality-red.csv', sep=';')
white = pd.read_csv('winequality-white.csv', sep=';')

red['type'] = 'red'
white['type'] = 'white'

# Sujungiam duomenis
wine_data = pd.concat([red, white])
# print(wine_data)

quality_labels = []
for quality in wine_data['quality']:
    if quality >=6:
        quality_labels.append(1)  #gera kokybe
    else:
        quality_labels.append(0)  #bloga kokybe
wine_data['quality'] = quality_labels

X = wine_data.drop(['quality', 'type'], axis=1)
y = wine_data['quality']


In [19]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = GaussianNB()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred, target_names=['bloga', 'gera']))

              precision    recall  f1-score   support

       bloga       0.55      0.61      0.58       451
        gera       0.78      0.73      0.76       849

    accuracy                           0.69      1300
   macro avg       0.67      0.67      0.67      1300
weighted avg       0.70      0.69      0.69      1300



## Uždavinys 4

Turite namų kainų duomenų rinkinį, kuriame pateikiamos įvairios savybės (plotas, kambarių skaičius ir t.t.). Naudokite Linear Regression algoritmą, kad sukurtumėte modelį, kuris galėtų prognozuoti namų kainas.

Naudokite duomenis iš šio šaltinio: https://www.kaggle.com/datasets/vikrishnan/boston-house-prices

In [48]:
df = pd.read_csv('housing.csv', header=None)
df = df[0].str.split(expand=True)
# print(df.head())

X = df.drop(df.columns[-1], axis=1)
y = df[df.columns[-1]]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

score = model.score(X_test, y_test)
print(score)



0.6687594935356317


## Uždavinys 5

Turite automobilių savybių duomenų rinkinį (variklio dydis, svoris, ir t.t.), pagal kurį turite prognozuoti automobilių degalų sąnaudas. Naudokite Linear Regression algoritmą.

Naudokite duomenis iš šio šaltinio: https://archive.ics.uci.edu/dataset/9/auto+mpg

In [117]:
df = pd.read_csv('auto-mpg.csv', header=None)

y = df.iloc[:, -1]  # paskutinis stulpelis
X = df.iloc[:, :-1] # visi stulpeliai išskyrus paskutini

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

score = model.score(X_test, y_test)
print(score)

ValueError: at least one array or dtype is required

## Uždavinys 6

Turite studentų savybių duomenų rinkinį (amžius, mokykla, studijų valandos ir t.t.), pagal kurį turite prognozuoti studentų galutinius pažymius.

Naudokite duomenis iš šio šaltinio: https://archive.ics.uci.edu/dataset/320/student+performance