In [8]:
import sys
sys.path.append('/home/jovyan/work')

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_date, year, lower, lit

# Spark session başlat
spark = SparkSession.builder \
    .appName("ClimateWatch ETL") \
    .getOrCreate()

# Veri yolları
GDELT_PATH = "/home/jovyan/work/data_storage/gdelt/*.csv"
CLIMATE_PATH = "/home/jovyan/work/data_storage/climate/*.csv"
OUTPUT_PATH = "/home/jovyan/work/data_storage/processed/combined_data.parquet"

# 1. Veri Okuma
print("GDELT verilerini okuyorum...")
gdelt_df = spark.read.option("header", False).csv(GDELT_PATH)
print(f"GDELT veri sayısı: {gdelt_df.count()}")

print("\nİklim verilerini okuyorum...")
climate_df = spark.read.option("header", True).csv(CLIMATE_PATH)
print(f"İklim veri sayısı: {climate_df.count()}")

# 2. Dönüşüm ve Temizlik
print("\nVerileri dönüştürüyorum...")
gdelt_df = gdelt_df \
    .withColumnRenamed("_c0", "date") \
    .withColumn("date", to_date(col("date"), "yyyy-MM-dd")) \
    .withColumn("news_source_type", lit("news")) \
    .withColumn("title", lower(col("_c27"))) \
    .withColumn("text", lower(col("_c28")))

# Climate verisi için dönüşüm
climate_df = climate_df \
    .withColumnRenamed("Year", "year") \
    .withColumnRenamed("Mean", "temperature_anomaly") \
    .withColumn("climate_source_type", lit("climate"))

# 3. Birleştirme
print("\nVerileri birleştiriyorum...")
climate_gdelt_joined = gdelt_df.join(
    climate_df,
    gdelt_df.date.substr(1, 4) == climate_df.year.cast("string"),
    how="left"
)

# 4. Sonuçları Kaydet
print("\nSonuçları kaydediyorum...")
climate_gdelt_joined.write.mode("overwrite").parquet(OUTPUT_PATH)
print(f"Birleşik veri {OUTPUT_PATH} olarak kaydedildi.")

# 5. Örnek verileri göster
print("\nBirleştirilmiş veriden örnek:")
climate_gdelt_joined.show(5)

spark.stop()

GDELT verilerini okuyorum...
GDELT veri sayısı: 174635

İklim verilerini okuyorum...
İklim veri sayısı: 319

Verileri dönüştürüyorum...

Verileri birleştiriyorum...

Sonuçları kaydediyorum...
Birleşik veri /home/jovyan/work/data_storage/processed/combined_data.parquet olarak kaydedildi.

Birleştirilmiş veriden örnek:
+----+--------+------+----+---------+----+--------+----+----+----+----+----+----+----+----+----+--------+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-----------------+----+--------------------+----+----+-------+-------+--------+----+--------------------+----+----+---------+--------+--------+----+--------------------+----+----+---------+--------+--------+--------+--------------------+----------+----------------+-----+----+------+----+-------------------+-------------------+
|date|     _c1|   _c2| _c3|      _c4| _c5|     _c6| _c7| _c8| _c9|_c10|_c11|_c12|_c13|_c14|_c15|    _c16|_c17|_c18|_c19|_c20|_c21|_c22|_c23|_c24|_c25|_c26|_c27|_c

In [9]:
import sys
sys.path.append('/home/jovyan/work')

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_date, year, lower, lit
from pymongo import MongoClient
from datetime import datetime

# MongoDB bağlantısını test et
print("MongoDB bağlantısını test ediyorum...")
client = MongoClient('mongodb://mongodb:27017/')
db = client['climatewatch']
print("MongoDB'ye bağlantı başarılı!")
print("Mevcut veritabanları:", client.list_database_names())

# Spark session başlat
spark = SparkSession.builder \
    .appName("ClimateWatch ETL") \
    .getOrCreate()

# Veri yolları
GDELT_PATH = "/home/jovyan/work/data_storage/gdelt/*.csv"
CLIMATE_PATH = "/home/jovyan/work/data_storage/climate/*.csv"
OUTPUT_PATH = "/home/jovyan/work/data_storage/processed/combined_data.parquet"

# 1. Veri Okuma
print("\nGDELT verilerini okuyorum...")
gdelt_df = spark.read.option("header", False).csv(GDELT_PATH)
print(f"GDELT veri sayısı: {gdelt_df.count()}")

print("\nİklim verilerini okuyorum...")
climate_df = spark.read.option("header", True).csv(CLIMATE_PATH)
print(f"İklim veri sayısı: {climate_df.count()}")

# 2. Dönüşüm ve Temizlik
print("\nVerileri dönüştürüyorum...")
gdelt_df = gdelt_df \
    .withColumnRenamed("_c0", "date") \
    .withColumn("date", to_date(col("date"), "yyyy-MM-dd")) \
    .withColumn("news_source_type", lit("news")) \
    .withColumn("title", lower(col("_c27"))) \
    .withColumn("text", lower(col("_c28")))

# Climate verisi için dönüşüm
climate_df = climate_df \
    .withColumnRenamed("Year", "year") \
    .withColumnRenamed("Mean", "temperature_anomaly") \
    .withColumn("climate_source_type", lit("climate"))

# 3. Birleştirme
print("\nVerileri birleştiriyorum...")
climate_gdelt_joined = gdelt_df.join(
    climate_df,
    gdelt_df.date.substr(1, 4) == climate_df.year.cast("string"),
    how="left"
)

# 4. Sonuçları Kaydet
print("\nSonuçları kaydediyorum...")
climate_gdelt_joined.write.mode("overwrite").parquet(OUTPUT_PATH)
print(f"Birleşik veri {OUTPUT_PATH} olarak kaydedildi.")

# 5. MongoDB'ye kaydet
print("\nMongoDB'ye kaydediyorum...")
# GDELT verilerini MongoDB'ye kaydet
gdelt_collection = db['gdelt_events']
gdelt_collection.delete_many({})  # Mevcut verileri temizle
gdelt_pandas = gdelt_df.toPandas()
gdelt_records = gdelt_pandas.to_dict('records')
gdelt_collection.insert_many(gdelt_records)
print(f"GDELT verileri MongoDB'ye kaydedildi: {len(gdelt_records)} kayıt")

# İklim verilerini MongoDB'ye kaydet
climate_collection = db['climate_data']
climate_collection.delete_many({})  # Mevcut verileri temizle
climate_pandas = climate_df.toPandas()
climate_records = climate_pandas.to_dict('records')
climate_collection.insert_many(climate_records)
print(f"İklim verileri MongoDB'ye kaydedildi: {len(climate_records)} kayıt")

# 6. Örnek verileri göster
print("\nBirleştirilmiş veriden örnek:")
climate_gdelt_joined.show(5)

spark.stop()

MongoDB bağlantısını test ediyorum...
MongoDB'ye bağlantı başarılı!
Mevcut veritabanları: ['admin', 'config', 'local']

GDELT verilerini okuyorum...
GDELT veri sayısı: 174635

İklim verilerini okuyorum...
İklim veri sayısı: 319

Verileri dönüştürüyorum...

Verileri birleştiriyorum...

Sonuçları kaydediyorum...
Birleşik veri /home/jovyan/work/data_storage/processed/combined_data.parquet olarak kaydedildi.

MongoDB'ye kaydediyorum...
GDELT verileri MongoDB'ye kaydedildi: 174635 kayıt
İklim verileri MongoDB'ye kaydedildi: 319 kayıt

Birleştirilmiş veriden örnek:
+----+--------+------+----+---------+----+--------+----+----+----+----+----+----+----+----+----+--------+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-----------------+----+--------------------+----+----+-------+-------+--------+----+--------------------+----+----+---------+--------+--------+----+--------------------+----+----+---------+--------+--------+--------+--------------------+-------

In [12]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_date, year, lower, lit, date_format
from pymongo import MongoClient
from datetime import datetime

# MongoDB bağlantısı
client = MongoClient('mongodb://mongodb:27017/')
db = client['climatewatch']

# Spark session başlat
spark = SparkSession.builder \
    .appName("ClimateWatch ETL") \
    .getOrCreate()

# Veri yolları
GDELT_PATH = "/home/jovyan/work/data_storage/gdelt/*.csv"
CLIMATE_PATH = "/home/jovyan/work/data_storage/climate/*.csv"

# GDELT verilerini oku ve dönüştür
print("GDELT verilerini okuyorum...")
gdelt_df = spark.read.option("header", False).csv(GDELT_PATH)

# GDELT verilerini düzgün şekilde dönüştür
gdelt_df = gdelt_df \
    .withColumn("date", to_date(col("_c1"), "yyyyMMdd")) \
    .withColumn("date_str", date_format(col("date"), "yyyy-MM-dd")) \
    .withColumn("title", col("_c27")) \
    .withColumn("text", col("_c28")) \
    .withColumn("news_source_type", lit("news")) \
    .select("date_str", "title", "text", "news_source_type")

# GDELT verilerini MongoDB'ye kaydet
print("GDELT verilerini MongoDB'ye kaydediyorum...")
gdelt_collection = db['gdelt_events']
gdelt_collection.delete_many({})  # Mevcut verileri temizle

# Pandas DataFrame'e dönüştür ve MongoDB'ye kaydet
gdelt_pandas = gdelt_df.toPandas()
gdelt_records = gdelt_pandas.to_dict('records')
gdelt_collection.insert_many(gdelt_records)
print(f"GDELT verileri MongoDB'ye kaydedildi: {len(gdelt_records)} kayıt")

# Örnek verileri göster
print("\nÖrnek GDELT kayıtları:")
gdelt_sample = list(gdelt_collection.find().limit(2))
for doc in gdelt_sample:
    print(f"Tarih: {doc.get('date_str')}")
    print(f"Başlık: {doc.get('title')}")
    print(f"Metin: {doc.get('text')}")
    print("---")

spark.stop()

GDELT verilerini okuyorum...
GDELT verilerini MongoDB'ye kaydediyorum...
GDELT verileri MongoDB'ye kaydedildi: 174635 kayıt

Örnek GDELT kayıtları:
Tarih: None
Başlık: 27
Metin: 28
---
Tarih: 2023-01-01
Başlık: 60
Metin: 6
---


In [15]:
!pip install pdfplumber pandas pyyaml pymongo requests beautifulsoup4 kaggle

Collecting pdfplumber
  Using cached pdfplumber-0.11.6-py3-none-any.whl.metadata (42 kB)
Collecting kaggle
  Downloading kaggle-1.7.4.5-py3-none-any.whl.metadata (16 kB)
Collecting pdfminer.six==20250327 (from pdfplumber)
  Downloading pdfminer_six-20250327-py3-none-any.whl.metadata (4.1 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.1-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.2/48.2 kB[0m [31m766.0 kB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Collecting python-slugify (from kaggle)
  Downloading python_slugify-8.0.4-py2.py3-none-any.whl.metadata (8.5 kB)
Collecting text-unidecode (from kaggle)
  Downloading text_unidecode-1.3-py2.py3-none-any.whl.metadata (2.4 kB)
Downloading pdfplumber-0.11.6-py3-none-any.whl (60 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.2/60.2 kB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading 

In [3]:
!mkdir -p /home/jovyan/.config/kaggle

In [4]:
%%writefile /home/jovyan/.config/kaggle/kaggle.json
{
    "username": "denizardanarer",
    "key": "bd9af2f2e1a558c5343945cd552787db"
}

Writing /home/jovyan/.config/kaggle/kaggle.json


In [5]:
!chmod 600 /home/jovyan/.config/kaggle/kaggle.json

In [6]:
!ls -l /home/jovyan/.config/kaggle/

total 4
-rw------- 1 jovyan users 84 May 25 16:04 kaggle.json


In [1]:
import sys
import os

# Çalışma dizinini ayarla
os.chdir('/home/jovyan/work')

# Python yoluna proje dizinini ekle
sys.path.append('/home/jovyan/work')

# Gerekli modülleri import et
from data_ingestion.run_ingestion import run_all_ingestions
import yaml

# Config dosyasını yükle
with open('config.yaml', 'r') as f:
    config = yaml.safe_load(f)

# Tüm veri kaynaklarını topla
run_all_ingestions(config)

20240101 verisi indirildi ve kaydedildi: data_storage/gdelt/20240101.csv
Filtrelenen satır sayısı: 0
20240102 verisi indirildi ve kaydedildi: data_storage/gdelt/20240102.csv
Filtrelenen satır sayısı: 0
Veri indirildi ve kaydedildi: data_storage/climate/global_temp.csv
Veri MongoDB'ye kaydedildi.
Afet verisi kaydedildi: data_storage/disasters/disasters_20240101_20240102.json
Politika değişikliği verisi kaydedildi: data_storage/policies/climate_policy_changes.csv
Lütfen UNFCCC COP zirveleri CSV dosyasını indirip --csv_path ile belirtin.
Kaggle'da 'climate' için veri kümeleri aranıyor...
Veri seti indiriliyor: tarunrm09/climate-change-indicators
Veri seti indirildi: tarunrm09/climate-change-indicators
Veri seti indiriliyor: sumanthvrao/daily-climate-time-series-data
Veri seti indirildi: sumanthvrao/daily-climate-time-series-data
Veri seti indiriliyor: berkeleyearth/climate-change-earth-surface-temperature-data
Veri seti indirildi: berkeleyearth/climate-change-earth-surface-temperature-dat

In [1]:
from pymongo import MongoClient
client = MongoClient('mongodb://mongodb:27017/', serverSelectionTimeoutMS=5000)
try:
    print('MongoDB bağlantısı test ediliyor...')
    print(client.server_info())
    print("MongoDB bağlantısı başarılı!")
except Exception as e:
    print("MongoDB bağlantı hatası:", e)

MongoDB bağlantısı test ediliyor...
MongoDB bağlantısı başarılı!


In [2]:
import pandas as pd

# Küçük/orta boyutlu ise:
df = pd.read_parquet('data_storage/processed/combined_data.parquet')
print(df.head())
print(df.columns)

  gdelt_date_str title text news_source_type   Source climate_year  \
0           None    27   28             news     None         None   
1     2023-01-01    60    6             news     gcag         2023   
2     2023-01-01    60    6             news  GISTEMP         2023   
3     2023-01-01    50    5             news     gcag         2023   
4     2023-01-01    50    5             news  GISTEMP         2023   

  temperature_anomaly climate_source_type  date country policy_type  \
0                None                None  None    None        None   
1              1.1003             climate  None    None        None   
2              1.1692             climate  None    None        None   
3              1.1003             climate  None    None        None   
4              1.1692             climate  None    None        None   

  description impact_level policy_source_type policy_date_str  year location  \
0        None         None               None            None  None     

In [1]:
from data_processing.spark_etl_pipeline import process_data

# ETL işlemini başlat
process_data()

MongoDB bağlantısı başarılı
Spark bağlantısı başarılı
GDELT verilerini okuyorum...
GDELT veri sayısı: 174635

İklim verilerini okuyorum...
İklim veri sayısı: 319

Kaggle verilerini okuyorum...
climate_change_indicators.csv veri sayısı: 225
DailyDelhiClimateTest.csv veri sayısı: 114
DailyDelhiClimateTrain.csv veri sayısı: 1462
GlobalLandTemperaturesByCity.csv veri sayısı: 8599212
GlobalLandTemperaturesByCountry.csv veri sayısı: 577462
GlobalLandTemperaturesByMajorCity.csv veri sayısı: 239177
GlobalLandTemperaturesByState.csv veri sayısı: 645675
GlobalTemperatures.csv veri sayısı: 3192

Politika verilerini okuyorum...
climate_policy_changes.csv veri sayısı: 2

Açık veri setlerini okuyorum...

COP zirveleri verilerini okuyorum...
cop_summits.csv veri sayısı: 28

Verileri dönüştürüyorum...

Verileri birleştiriyorum...

Sonuçları kaydediyorum...
Birleşik veri data_storage/processed/combined_data.parquet olarak kaydedildi.

MongoDB'ye kaydediyorum...
GDELT verileri MongoDB'ye kaydedildi: 174

In [3]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
df = spark.read.parquet('data_storage/processed/combined_data.parquet')
df.show(5)
df.printSchema()

+--------------+-----+----+----------------+------+------------+-------------------+-------------------+----------+-------+------------------+--------------------+------------+------------------+---------------+----+--------+------+------------------+---------------+
|gdelt_date_str|title|text|news_source_type|Source|climate_year|temperature_anomaly|climate_source_type|      date|country|       policy_type|         description|impact_level|policy_source_type|policy_date_str|year|location|number|summit_source_type|summit_date_str|
+--------------+-----+----+----------------+------+------------+-------------------+-------------------+----------+-------+------------------+--------------------+------------+------------------+---------------+----+--------+------+------------------+---------------+
|    2024-01-01|   51|   5|            news|  gcag|        2024|             1.1755|            climate|2024-01-01|    USA|Emission Reduction|New emission redu...|        High|            policy| 

In [8]:
from pyspark.sql.functions import year, to_date, col

# 1. Spark ile özet çıkar
df = df.withColumn('year', year(to_date(col('gdelt_date_str'))))

# Yıllara göre haber sayısı
news_counts = df.filter(df['news_source_type'] == 'news') \
                .groupBy('year').count().orderBy('year')

# Yıllara göre ortalama sıcaklık anomalisi
temp_anomaly = df.filter(df['temperature_anomaly'].isNotNull()) \
                 .groupBy('year').avg('temperature_anomaly').orderBy('year')

# 2. Pandas'a çevir
news_counts_pd = news_counts.toPandas().set_index('year')
temp_anomaly_pd = temp_anomaly.toPandas().set_index('year')

# Ortak yıllar
common_years = news_counts_pd.index.intersection(temp_anomaly_pd.index)

# 3. Görselleştir
import matplotlib.pyplot as plt

plt.figure(figsize=(12,6))
plt.plot(common_years, news_counts_pd.loc[common_years, 'count'], label='Haber Sayısı', marker='o')
plt.plot(common_years, temp_anomaly_pd.loc[common_years, 'avg(temperature_anomaly)'], label='Ortalama Sıcaklık Anomalisi', marker='o')
plt.xlabel('Yıl')
plt.ylabel('Değer')
plt.title('Yıllara Göre Haber Sayısı ve Sıcaklık Anomalisi')
plt.legend()
plt.grid(True)
plt.show()

AnalysisException: "temperature_anomaly" is not a numeric column. Aggregation function can only be applied on a numeric column.

In [4]:
from pymongo import MongoClient
import pandas as pd

client = MongoClient('mongodb://mongodb:27017/')
db = client['climatewatch']

# Örnek: GDELT verisi
gdelt_df = pd.DataFrame(list(db['gdelt_events'].find()))
print(gdelt_df.head())

                        _id gdelt_date_str title text news_source_type
0  6833500a6958af9257635d2f           None    27   28             news
1  6833500a6958af9257635d30     2023-01-01    60    6             news
2  6833500a6958af9257635d31     2023-01-01    50    5             news
3  6833500a6958af9257635d32     2023-01-01    51    5             news
4  6833500a6958af9257635d33     2023-01-01    51    5             news


In [5]:
# Parquet veya MongoDB'den okuduğunuz DataFrame'de tarih sütunu varsa:
df['year'] = pd.to_datetime(df['gdelt_date_str'], errors='coerce').dt.year
print(df['year'].value_counts().sort_index())
df['year'].value_counts().sort_index().plot(kind='bar')

PySparkValueError: [CANNOT_CONVERT_COLUMN_INTO_BOOL] Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame boolean expressions.

In [6]:
# Yıllık haber sayısı ve sıcaklık ortalaması
yearly = df.groupby('year').agg({
    'title': 'count',
    'temperature_anomaly': 'mean'
}).rename(columns={'title': 'news_count'})
print(yearly)
yearly.plot(y=['news_count', 'temperature_anomaly'], secondary_y='temperature_anomaly', marker='o')

AttributeError: 'DataFrame' object has no attribute 'rename'