In [1]:
import sys
import subprocess
import os
import time
import pandas as pd

# --- ADIM A: Gerekli Kütüphaneleri "Doğru Yere" Kurma ---
print("--- ADIM A: Gerekli kütüphaneler kuruluyor... ---")
try:
    # Jupyter'in o an kullandığı Python'un tam yolunu bul
    python_executable = sys.executable
    print(f"Kullanılan Python motoru: {python_executable}")
    
    # Bu Python motorunu kullanarak pip'i çalıştır ve kütüphaneleri kur
    # Bu, kütüphanelerin %100 doğru yere kurulmasını garantiler.
    subprocess.check_call([python_executable, "-m", "pip", "install", "sqlalchemy<2.0", "psycopg2-binary"])
    
    print("\n>>> KURULUM BAŞARILI. LÜTFEN BİR SONRAKİ ADIMA GEÇİN. <<<")
    print(">>> ŞİMDİ MENÜDEN 'KERNEL' -> 'RESTART KERNEL...' SEÇENEĞİNE TIKLAYIN. <<<")
    print(">>> KERNEL YENİDEN BAŞLADIKTAN SONRA, BU HÜCREYİ TEKRAR ÇALIŞTIRIN. <<<")

except Exception as e:
    # Bu blok, sadece kurulum başarısız olursa çalışır.
    print(f"HATA: Kurulum sırasında bir hata oluştu: {e}")

--- ADIM A: Gerekli kütüphaneler kuruluyor... ---
Kullanılan Python motoru: C:\Python313\python.exe

>>> KURULUM BAŞARILI. LÜTFEN BİR SONRAKİ ADIMA GEÇİN. <<<
>>> ŞİMDİ MENÜDEN 'KERNEL' -> 'RESTART KERNEL...' SEÇENEĞİNE TIKLAYIN. <<<
>>> KERNEL YENİDEN BAŞLADIKTAN SONRA, BU HÜCREYİ TEKRAR ÇALIŞTIRIN. <<<


In [1]:
import pandas as pd
import time

# Bu kod, kernel yeniden başlatıldıktan ve kütüphaneler kurulduktan sonra çalıştırılmalıdır.

print("--- Adım A: Yerel Dosya Okunuyor ---")
try:
    df = pd.read_parquet('fda_labels.parquet')
    print(f"Başarılı: {len(df)} satır veri belleğe yüklendi.")
except Exception as e:
    print(f"HATA: Parquet dosyası okunurken sorun oluştu: {e}")
    df = None

# Sadece df (veri) başarıyla yüklendiyse devam et
if df is not None:
    print("\n--- Adım B: Veritabanına Yükleme Başlatılıyor ---")
    DATABASE_URL = "postgresql://neondb_owner:npg_PQ0WeHbfjv1x@ep-fragrant-cell-a9ahgnn4-pooler.gwc.azure.neon.tech/neondb?sslmode=require"
    
    print("BU İŞLEM ÇOK UZUN SÜREBİLİR (15-30+ DAKİKA). LÜTFEN SABIRLA BEKLEYİN...")
    
    start_time = time.time()
    try:
        # df.to_sql fonksiyonu, arka planda sqlalchemy kütüphanesini kullanacaktır.
        df.to_sql(
            name='labels',
            con=DATABASE_URL,
            if_exists='replace',
            index=False,
            chunksize=1000,
            method='multi'
        )
        end_time = time.time()
        total_time = end_time - start_time
        
        print(f"\n--- VERİ BAŞARIYLA YÜKLENDİ! ---")
        print(f"Toplam süre: {total_time / 60:.2f} dakika.")
    
    except Exception as e:
        print(f"HATA: Veritabanına yükleme sırasında bir sorun oluştu: {e}")

--- Adım A: Yerel Dosya Okunuyor ---
Başarılı: 245570 satır veri belleğe yüklendi.

--- Adım B: Veritabanına Yükleme Başlatılıyor ---
BU İŞLEM ÇOK UZUN SÜREBİLİR (15-30+ DAKİKA). LÜTFEN SABIRLA BEKLEYİN...
HATA: Veritabanına yükleme sırasında bir sorun oluştu: Using URI string without sqlalchemy installed.


In [1]:
import pandas as pd
import ast

print("Veri normalize ediliyor: 'brand_name' ve 'generic_name' sütunları oluşturuluyor...")

# Önce orijinal, büyük Parquet dosyasını okuyoruz
df = pd.read_parquet('fda_labels.parquet')

# openfda sütunundaki her bir sözlükten ilgili değeri güvenli bir şekilde çekecek bir fonksiyon
def extract_from_openfda(data, key):
    # Değerin bir sözlük olduğunu ve anahtarın içinde olduğunu kontrol et
    if isinstance(data, dict) and key in data:
        # Değer bir listeyse ilk elemanını, değilse kendisini al
        value = data[key]
        if isinstance(value, list) and len(value) > 0:
            return value[0]
        return value
    return None # Bulamazsa None döndür

# 'openfda' sütunu string olarak okunduysa, onu tekrar Python nesnesine (sözlüğe) çeviriyoruz
# Bu, verinin tutarlılığını garantiler
try:
    df['openfda_dict'] = df['openfda'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) and x.startswith('{') else x)
except Exception as e:
    print(f"Sütun çevrilirken bir hata oluştu, mevcut haliyle devam ediliyor: {e}")
    df['openfda_dict'] = df['openfda']

# Yeni, ayrıştırılmış sütunları oluştur
df['brand_name'] = df['openfda_dict'].apply(extract_from_openfda, key='brand_name')
df['generic_name'] = df['openfda_dict'].apply(extract_from_openfda, key='generic_name')

# Yeni, normalize edilmiş DataFrame'i farklı bir Parquet dosyasına kaydet
# Orijinal dosyaları ve gereksiz sütunları atarak daha temiz bir dosya oluşturalım
df_normalized = df.drop(columns=['openfda', 'openfda_dict'])
df_normalized.to_parquet('fda_labels_normalized.parquet')

print("\nNormalize edilmiş veri seti 'fda_labels_normalized.parquet' adıyla başarıyla kaydedildi.")
print("Yeni DataFrame'in ilk birkaç satırı:")
display(df[['brand_name', 'generic_name']].head())

Veri normalize ediliyor: 'brand_name' ve 'generic_name' sütunları oluşturuluyor...

Normalize edilmiş veri seti 'fda_labels_normalized.parquet' adıyla başarıyla kaydedildi.
Yeni DataFrame'in ilk birkaç satırı:


Unnamed: 0,brand_name,generic_name
0,"[Dextroamphetamine Saccharate, Amphetamine Asp...","[DEXTROAMPHETAMINE SACCHARATE, AMPHETAMINE ASP..."
1,[Atenolol and Chlorthalidone],[ATENOLOL AND CHLORTHALIDONE]
2,[ACETAMINOPHEN AND CODEINE PHOSPHATE],[ACETAMINOPHEN AND CODEINE PHOSPHATE]
3,[Unda 3],"[EQUISETUM ARVENSE STEM, CHAMOMILLA, CONDURANG..."
4,[Cabenuva],[CABOTEGRAVIR AND RILPIVIRINE]
