In [None]:
pip install pyspark




In [None]:
import requests
from pyspark.sql import SparkSession, Row
from pyspark.sql.types import StringType, StructField, StructType
from pyspark.sql.functions import regexp_replace, lower, split, udf, lit, row_number, col
from pyspark.sql.window import Window
from pyspark.ml.classification import RandomForestClassifier, NaiveBayes
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml import Pipeline
from pyspark.ml.feature import CountVectorizer, CountVectorizerModel, VectorAssembler, StringIndexer, IndexToString
from google.colab import files

**Gerekli kütüphaneleri ekledikten sonra öncelikle HackerNews dataları için kullanacagımız session oluşturuyoruz**

In [None]:
hackerNews = SparkSession.builder.appName("HackerNewsData's").getOrCreate()

**Ardından Model ve sınıflandırma için kullanacagımız sessionu oluşturuyoruz**

In [None]:
spark = SparkSession.builder.appName("Tag's Data").getOrCreate()

**Request kullanarak APİden en çok Hit almış postları çekelim verilerimizi alalım**

In [None]:
def get_hacker_news_items(item_type='topstories', limit=500):
    base_url = 'https://hacker-news.firebaseio.com/v0/{}.json'.format(item_type)
    response = requests.get(base_url)
    if response.status_code == 200:
        item_ids = response.json()[:limit]
        items = []
        for item_id in item_ids:
            item_url = 'https://hacker-news.firebaseio.com/v0/item/{}.json'.format(item_id)
            item_response = requests.get(item_url)
            if item_response.status_code == 200:
                item = item_response.json()
                if 'url' in item:
                    items.append(item)
        return items
    else:
        print('Error fetching Hacker News items')
        return []

**fonksiyonu kullanarak verileri DataFrameye dönüştürelim**

In [None]:
#apiden dönen verileri değişkene alalım
top_stories = get_hacker_news_items(item_type='topstories', limit=500)

# PySpark DataFrame şemasını tanımlıyoruz
schema = StructType([
    StructField("by", StringType(), True),
    StructField("id", StringType(), True),
    StructField("title", StringType(), True),
    StructField("type", StringType(), True),
    StructField("url", StringType(), True)
])

hacker_news = hackerNews.sparkContext.parallelize(top_stories)
hacker_news_df = hackerNews.createDataFrame(hacker_news, schema)

**Drivede daha önceden etiketlendirilmiş halde tuttuğumuz eğitim verilerimizi modelimize öğrenmesi için vermeye başlıyoruz önce driveden verileri çekelim.**

In [None]:
bilimTeknoDF = spark.read.csv("/content/drive/MyDrive/tag/BilimveTeknolojiHaberleri.csv", header=True, inferSchema=True)
egitimogretimtarihDF = spark.read.csv("/content/drive/MyDrive/tag/EğitimÖğretimveTarih.csv", header=True, inferSchema=True)
sanatVeEglenceDF = spark.read.csv("/content/drive/MyDrive/tag/SanatveEglence.csv", header=True, inferSchema=True)
TeknolojiveBilgisayarBilimleriDF = spark.read.csv("/content/drive/MyDrive/tag/TeknolojiveBilgisayarBilimleri.csv", header=True, inferSchema=True)
YazilimGelistirmeveProgramlamaDF = spark.read.csv("/content/drive/MyDrive/tag/YazılımGeliştirmeveProgramlama.csv", header=True, inferSchema=True)


**verileri etiketleri ile eşleştirmek için veri özelliğine ait Tags kolonu ekliyoruz**

In [None]:
egitimogretimtarihDF = egitimogretimtarihDF.withColumn("Tags", lit("egitimogretimtarih"))
sanatVeEglenceDF = sanatVeEglenceDF.withColumn("Tags", lit("sanatveeglence"))
TeknolojiveBilgisayarBilimleriDF = TeknolojiveBilgisayarBilimleriDF.withColumn("Tags", lit("teknolojivebilgisayarbilimleri"))
YazilimGelistirmeveProgramlamaDF = YazilimGelistirmeveProgramlamaDF.withColumn("Tags", lit("yazilimgelistirmeveprogramlama"))
bilimTeknoDF = bilimTeknoDF.withColumn("Tags", lit("bilimveteknolojihaberleri"))

**Spark kullanarak csv verilerini işledik ve kolon isimlendirmelerini ilgili csv dosyasından aldı şimdi tek bir DFde birleştireceğiz**

In [None]:
birlesmis_df = egitimogretimtarihDF.union(sanatVeEglenceDF).union(TeknolojiveBilgisayarBilimleriDF).union(YazilimGelistirmeveProgramlamaDF).union(bilimTeknoDF)
birlesmis_df.count()

248

**bu verileri olduğu halde kullanmak madelin doğruluk oranını düşürecek bunun için birkaç öneri mevcut. Stop kelimelerini kaldırma vs. ben sadece noktalama işaretlerini kaldıracağım:**

In [None]:
birlesmis_df = birlesmis_df.withColumn("title_token", split(regexp_replace(lower(birlesmis_df["title"]), "[^a-zA-Z0-9\\s]", " "), "\\s+"))
birlesmis_df = birlesmis_df.withColumn("url_token", split(regexp_replace(lower(birlesmis_df["url"]), "(https|http|www|com|co|:|\\.|\\/|-)", " "), "\\s+"))


**modelimiz vektorleri kullanarak öğreniyor ona vereceğimiz verilerin vektorlerini hazırlıyoruz ancak daha sonra kullanacağımız verilerde ilgili vektorizer modelini kullanacağımız için bu modeli kayıtlı tutmalıyız yoksa yeni verileri modele göndermede ve listelemede sorunlarla karşılaşacağız**

In [None]:
cv_title = CountVectorizer(inputCol="title_token", outputCol="title_features")
cv_url = CountVectorizer(inputCol="url_token", outputCol="url_features")
#fit modeli alıyoruz
cv_title_model = cv_title.fit(birlesmis_df)
cv_url_model = cv_url.fit(birlesmis_df)
#modele göre fitliyoruz
birlesmis_df = cv_title_model.transform(birlesmis_df)
birlesmis_df = cv_url_model.transform(birlesmis_df)
#modeli eğitmek için url ve title sutunlarını kullanıyoruz ardından 2 sütünün vektorlerini birleştiriyoruz
assembler = VectorAssembler(inputCols=["title_features", "url_features"], outputCol="features")
birlesmis_df = assembler.transform(birlesmis_df)

**etiketleri sayısal değerlere çeviriyoruz**

In [None]:
indexer = StringIndexer(inputCol="Tags", outputCol="label")
#modeli işlemi tersine almak için kullanmak adına kayıt altında tutuyoruz
indexer_model = indexer.fit(birlesmis_df)
indexed_data = indexer.fit(birlesmis_df).transform(birlesmis_df)


**Test verilerini ve eğitim verilerini bölüyoruz modelin doğruluk oranı hakkında fikrimiz olması için**

In [None]:
train_data, test_data = indexed_data.randomSplit([0.9, 0.1], seed=47)

**Naive Bayes modelini yaratıp eğitmeye başlıyoruz**

In [None]:
nb = NaiveBayes()
nb_model = nb.fit(train_data)

**daha önce ayırdığımız Test Datasını kullanarak modelin doğruluk oranını tahmin etmeye çalışıyoruz**

In [None]:
predictions = nb_model.transform(test_data)
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(predictions)
print("Model accuracy:", accuracy)

Model accuracy: 0.8947368421052632


**HackerNews Verilerini modele girmeye hazırlamak için önceden kayıt ettığımız modelleri kullanarak DataFrameyi işliyoruz**

In [None]:
hacker_news_df = hacker_news_df.withColumn("title_token", split(regexp_replace(lower(hacker_news_df["title"]), "[^a-zA-Z0-9\\s]", " "), "\\s+"))
hacker_news_df = hacker_news_df.withColumn("url_token", split(regexp_replace(lower(hacker_news_df["url"]), "(https|http|www|com|co|:|\\.|\\/|-)", " "), "\\s+"))

# Eğitim sırasında kullanılan vektörleştirici modellerini ve assembler'ı yeniden kullanarak yeni veriler üzerinde özellik vektörlerini oluşturma
hacker_news_df = cv_title_model.transform(hacker_news_df)
hacker_news_df = cv_url_model.transform(hacker_news_df)
hacker_news_df = assembler.transform(hacker_news_df)

# Tahminleri yapma
tahminler = nb_model.transform(hacker_news_df)

# Tahminleri gösterme
tahminler.select("title","type", "url", "prediction").show()


+--------------------+-----+--------------------+----------+
|               title| type|                 url|prediction|
+--------------------+-----+--------------------+----------+
|Legal models hall...|story|https://hai.stanf...|       0.0|
|Snowflake breach:...|story|https://www.hudso...|       3.0|
|How to copy a fil...|story|https://www.unter...|       1.0|
|Engineering for S...|story|https://brr.fyi/p...|       0.0|
|Standard Ebooks' ...|story|https://standarde...|       2.0|
|Sam Altman-Backed...|story|https://oilprice....|       1.0|
|Every mountain, b...|story|https://shademap.app|       0.0|
|OneText (YC W23) ...|  job|https://gist.gith...|       2.0|
|Armor from Mycena...|story|https://arstechni...|       1.0|
|Why does searchin...|story|https://tmp.tonyb...|       1.0|
|Analysis of Greek...|story|https://journals....|       0.0|
|Testing sync at D...|story|https://dropbox.t...|       2.0|
|Civil society in ...|story|https://www.acces...|       3.0|
|Vista Equity writ...|st

**Sayısal ifadeleri önceden kayıt ettiğimiz modele göre geri çevirim uyguluyoruz**

In [None]:
# Sayısal etiketleri yazılı etiketlere dönüştürme
label_converter = IndexToString(inputCol="prediction", outputCol="predicted_label", labels=indexer_model.labels)

tahminler = label_converter.transform(tahminler)

**hackernews verilerinin modelimize göre etiketlendirilmiş son hali**

In [None]:
# Tahminleri gösterme
tahminler.select("title", "url","type", "prediction", "predicted_label").show()

+--------------------+--------------------+-----+----------+--------------------+
|               title|                 url| type|prediction|     predicted_label|
+--------------------+--------------------+-----+----------+--------------------+
|Legal models hall...|https://hai.stanf...|story|       0.0|bilimveteknolojih...|
|Snowflake breach:...|https://www.hudso...|story|       3.0|  egitimogretimtarih|
|How to copy a fil...|https://www.unter...|story|       1.0|teknolojivebilgis...|
|Engineering for S...|https://brr.fyi/p...|story|       0.0|bilimveteknolojih...|
|Standard Ebooks' ...|https://standarde...|story|       2.0|yazilimgelistirme...|
|Sam Altman-Backed...|https://oilprice....|story|       1.0|teknolojivebilgis...|
|Every mountain, b...|https://shademap.app|story|       0.0|bilimveteknolojih...|
|OneText (YC W23) ...|https://gist.gith...|  job|       2.0|yazilimgelistirme...|
|Armor from Mycena...|https://arstechni...|story|       1.0|teknolojivebilgis...|
|Why does search

**veritabanına kayıt etmek için hazırlıkları yapıyoruz önce tahminleri kategorilerine göre ayırıyoruz**

In [None]:
egitimogretimtarih_DF = tahminler.filter(tahminler.predicted_label == "egitimogretimtarih")
sanatVeEglence_DF =tahminler.filter(tahminler.predicted_label == "sanatveeglence")
TeknolojiveBilgisayarBilimleri_DF = tahminler.filter(tahminler.predicted_label == "teknolojivebilgisayarbilimleri")
YazilimGelistirmeveProgramlama_DF = tahminler.filter(tahminler.predicted_label == "yazilimgelistirmeveprogramlama")
bilimTekno_DF = tahminler.filter(tahminler.predicted_label == "bilimveteknolojihaberleri")

**hazırladığımız kategorilerine göre ayırılmış DataFrameleri öncelikle sparkdan pandasa dönüştürüyoruz ama sadece kayıt edeceğimiz kolonları seçerek**


In [None]:
egitimogretimtarih_DF_P=egitimogretimtarih_DF.select('by','id','title','url','predicted_label').toPandas()
sanatVeEglence_DF_P=sanatVeEglence_DF.select('by','id','title','url','predicted_label').toPandas()
TeknolojiveBilgisayarBilimleri_DF_P=TeknolojiveBilgisayarBilimleri_DF.select('by','id','title','url','predicted_label').toPandas()
YazilimGelistirmeveProgramlama_DF_P=YazilimGelistirmeveProgramlama_DF.select('by','id','title','url','predicted_label').toPandas()
bilimTekno_DF_P=bilimTekno_DF.select('by','id','title','url','predicted_label').toPandas()

**veritabanına bağlanmak için öncelikle pymango indiriyoruz**

In [None]:
!pip install -q pymongo

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m670.0/670.0 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m307.7/307.7 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[?25h

**ardından atlas yönergelerini izleyerek veritabanına bağlanıyoruz**

In [None]:
from pymongo import MongoClient

# MongoDB bağlantı URI'si
uri = "mongodb+srv://BAZZ:vtPpSXuwNawKmXD4@bigdatabaza.ufk2tkz.mongodb.net/?retryWrites=true&w=majority&appName=BigdataBAZA"

# MongoClient oluşturma
client = MongoClient(uri)

# Bağlantıyı test etme
try:
    client.admin.command('ping')
    print("MongoDB bağlantısı başarılı!")
except Exception as e:
    print("Bağlantı hatası:", e)

MongoDB bağlantısı başarılı!


**atlas üzerinden oluşturduğumuz veritabanını seçiyoruz ve bu veritabanında koleksiyon oluşturuyoruz**

In [None]:
# Veritabanını seçme
db = client['BigDataBaza']

# Koleksiyonu seçme
collection = db['TagsHackerNews']

**hazırlanmış verileri veritabanına kayıt ediyoruz ancak veri tekrarı olmaması için veritabanı kontrolü yaparak ilgili veriyi ekliyoruz**


In [None]:
for index, row in egitimogretimtarih_DF_P.iterrows():
    if collection.count_documents({"id": row['id']}, limit=1) == 0:
        collection.insert_one(row.to_dict())
        print(row.to_dict(),"eklendi")

{'by': 'zbangrec', 'id': '40534868', 'title': 'Snowflake breach: Hacker confirms access through infostealer infection', 'url': 'https://www.hudsonrock.com/blog/snowflake-massive-breach-access-through-infostealer-infection', 'predicted_label': 'egitimogretimtarih'} eklendi
{'by': 'rntn', 'id': '40535912', 'title': 'Civil society in Latvia, Lithuania, and Poland targeted with Pegasus spyware', 'url': 'https://www.accessnow.org/publication/civil-society-in-exile-pegasus/', 'predicted_label': 'egitimogretimtarih'} eklendi
{'by': 'jnord', 'id': '40529355', 'title': '“Imprecise” language models are smaller, speedier, and nearly as accurate', 'url': 'https://spectrum.ieee.org/1-bit-llm', 'predicted_label': 'egitimogretimtarih'} eklendi
{'by': 'nickthegreek', 'id': '40534665', 'title': "Spotify won't open-source Car Thing, but starts refund process", 'url': 'https://arstechnica.com/gadgets/2024/05/spotify-wont-open-source-car-thing-but-starts-refund-process/', 'predicted_label': 'egitimogretim

In [None]:
for index, row in sanatVeEglence_DF_P.iterrows():
    if collection.count_documents({"id": row['id']}, limit=1) == 0:
        collection.insert_one(row.to_dict())
        print(row.to_dict(),"eklendi")

{'by': 'gnabgib', 'id': '40537187', 'title': 'Eye exercises for myopia prevention and control: comprehensive systematic review', 'url': 'https://www.nature.com/articles/s41433-023-02739-x', 'predicted_label': 'sanatveeglence'} eklendi
{'by': 'lucianh', 'id': '40535077', 'title': 'Show HN: CommitAsync – $100K+ dev jobs 100% remote only', 'url': 'https://www.commitasync.com/', 'predicted_label': 'sanatveeglence'} eklendi
{'by': 'ro_dobre', 'id': '40530884', 'title': 'Show HN: Explore Websites by Chosen Color', 'url': 'https://themefinder.io', 'predicted_label': 'sanatveeglence'} eklendi
{'by': 'ingve', 'id': '40523047', 'title': 'I run a software book club', 'url': 'https://notes.eatonphil.com/2025-05-30-how-i-run-book-clubs.html', 'predicted_label': 'sanatveeglence'} eklendi
{'by': 'todsacerdoti', 'id': '40524823', 'title': "'Operation Endgame' Hits Malware Delivery Platforms", 'url': 'https://krebsonsecurity.com/2024/05/operation-endgame-hits-malware-delivery-platforms/', 'predicted_la

In [None]:
for index, row in TeknolojiveBilgisayarBilimleri_DF_P.iterrows():
    if collection.count_documents({"id": row['id']}, limit=1) == 0:
        collection.insert_one(row.to_dict())
        print(row.to_dict(),"eklendi")

{'by': 'tfvlrue', 'id': '40536436', 'title': 'How to copy a file from a 30-year-old laptop', 'url': 'https://www.unterminated.com/random-fun/how-to-copy-a-file-from-a-30-year-old-laptop', 'predicted_label': 'teknolojivebilgisayarbilimleri'} eklendi
{'by': 'PaulHoule', 'id': '40537311', 'title': 'Sam Altman-Backed Nuclear Startup Signs Major Data Center Contract', 'url': 'https://oilprice.com/Alternative-Energy/Nuclear-Power/Sam-Altman-Backed-Nuclear-Startup-Signs-Major-Data-Center-Contract.html', 'predicted_label': 'teknolojivebilgisayarbilimleri'} eklendi
{'by': 'thepuppet33r', 'id': '40522939', 'title': 'Armor from Mycenaean Greece turns out to have been effective', 'url': 'https://arstechnica.com/science/2024/05/researchers-get-modern-marines-to-test-ancient-greek-armor/', 'predicted_label': 'teknolojivebilgisayarbilimleri'} eklendi
{'by': 'bonyt', 'id': '40535876', 'title': 'Why does searching Google for random hex almost always lead to car dealers?', 'url': 'https://tmp.tonybox.ne

In [None]:
for index, row in YazilimGelistirmeveProgramlama_DF_P.iterrows():
    if collection.count_documents({"id": row['id']}, limit=1) == 0:
        collection.insert_one(row.to_dict())
        print(row.to_dict(),"eklendi")

{'by': 'robin_reala', 'id': '40535895', 'title': "Standard Ebooks' 1,000th title: Ulysses", 'url': 'https://standardebooks.org/ebooks/james-joyce/ulysses', 'predicted_label': 'yazilimgelistirmeveprogramlama'} eklendi
{'by': 'bluepnume', 'id': '40537533', 'title': 'OneText (YC W23) Is Hiring a Lead UX Engineer', 'url': 'https://gist.github.com/bluepnume/33f2c4be93cc20215aafd55f803de19f', 'predicted_label': 'yazilimgelistirmeveprogramlama'} eklendi
{'by': 'sh_tomer', 'id': '40537398', 'title': 'Testing sync at Dropbox (2020)', 'url': 'https://dropbox.tech/infrastructure/-testing-our-new-sync-engine', 'predicted_label': 'yazilimgelistirmeveprogramlama'} eklendi
{'by': 'belter', 'id': '40536960', 'title': 'Vista Equity writes off PluralSight value, after $3.5B buyout', 'url': 'https://www.axios.com/2024/05/31/vista-equity-pluralsight', 'predicted_label': 'yazilimgelistirmeveprogramlama'} eklendi
{'by': 'andygrove', 'id': '40537523', 'title': 'DataFusion Comet: Apache Spark Accelerator', 'u

In [None]:
for index, row in bilimTekno_DF_P.iterrows():
    if collection.count_documents({"id": row['id']}, limit=1) == 0:
        collection.insert_one(row.to_dict())
        print(row.to_dict(),"eklendi")

{'by': 'rfw300', 'id': '40538019', 'title': 'Legal models hallucinate in 1 out of 6 (or more) benchmarking queries', 'url': 'https://hai.stanford.edu/news/ai-trial-legal-models-hallucinate-1-out-6-or-more-benchmarking-queries', 'predicted_label': 'bilimveteknolojihaberleri'} eklendi
{'by': 'jader201', 'id': '40531100', 'title': 'Engineering for Slow Internet', 'url': 'https://brr.fyi/posts/engineering-for-slow-internet', 'predicted_label': 'bilimveteknolojihaberleri'} eklendi
{'by': 'wfme', 'id': '40531699', 'title': 'Every mountain, building and tree shadow in the world simulated for any time', 'url': 'https://shademap.app', 'predicted_label': 'bilimveteknolojihaberleri'} eklendi
{'by': 'PaulHoule', 'id': '40527844', 'title': 'Analysis of Greek prehistoric combat in full body armour based on physiology', 'url': 'https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0301494', 'predicted_label': 'bilimveteknolojihaberleri'} eklendi
{'by': 'deviantintegral', 'id': '40536860',