In [1]:
import pandas as pd
import os
import string

# --- Yapılandırma ---
SOURCE_FILE = 'fda_labels.parquet'
OUTPUT_DIR = 'partitioned_data'

# --- Kod Başlangıcı ---
print(f"Kaynak dosya okunuyor: {SOURCE_FILE}")
df = pd.read_parquet(SOURCE_FILE)

# Marka adının boş olmadığı satırları al ve küçük harfe çevir
df = df[df['brand_name'].notna()].copy()
df['brand_name_lower'] = df['brand_name'].str.lower()

# Çıktı klasörünü oluştur
os.makedirs(OUTPUT_DIR, exist_ok=True)
print(f"'{OUTPUT_DIR}' klasörü oluşturuldu/kontrol edildi.")

print("Veri, marka adının ilk harfine göre parçalara ayrılıyor...")

# İngiliz alfabesindeki harfler için döngü
for char in string.ascii_lowercase:
    # O harfle başlayan markaları filtrele
    df_subset = df[df['brand_name_lower'].str.startswith(char)]
    
    if not df_subset.empty:
        # Her harf için ayrı bir parquet dosyası oluştur
        output_path = os.path.join(OUTPUT_DIR, f'labels_{char}.parquet')
        df_subset.drop(columns=['brand_name_lower']).to_parquet(output_path)
        print(f"  -> '{output_path}' oluşturuldu. ({len(df_subset)} satır)")

print("\n--- Parçalama İşlemi Tamamlandı! ---")

Kaynak dosya okunuyor: fda_labels.parquet


KeyError: 'brand_name'

In [2]:
import pandas as pd
import os
import string

# --- DÜZELTME BURADA ---
# Orijinal dosya yerine, daha önce oluşturduğumuz normalize edilmiş dosyayı okuyoruz.
SOURCE_FILE = 'fda_labels_normalized.parquet'
OUTPUT_DIR = 'partitioned_data'
# --- DÜZELTME SONU ---


print(f"Kaynak dosya okunuyor: {SOURCE_FILE}")
df = pd.read_parquet(SOURCE_FILE)

# Marka adının boş olmadığı satırları al ve küçük harfe çevir
df = df[df['brand_name'].notna()].copy()
df['brand_name_lower'] = df['brand_name'].str.lower()

# Çıktı klasörünü oluştur
os.makedirs(OUTPUT_DIR, exist_ok=True)
print(f"'{OUTPUT_DIR}' klasörü oluşturuldu/kontrol edildi.")

print("Veri, marka adının ilk harfine göre parçalara ayrılıyor...")

# İngiliz alfabesindeki harfler için döngü
for char in string.ascii_lowercase:
    # O harfle başlayan markaları filtrele
    df_subset = df[df['brand_name_lower'].str.startswith(char)]
    
    if not df_subset.empty:
        # Her harf için ayrı bir parquet dosyası oluştur
        output_path = os.path.join(OUTPUT_DIR, f'labels_{char}.parquet')
        
        # 'brand_name_lower' geçici sütununu kaydetmeden önce atıyoruz
        df_subset.drop(columns=['brand_name_lower']).to_parquet(output_path)
        print(f"  -> '{output_path}' oluşturuldu. ({len(df_subset)} satır)")

print("\n--- Parçalama İşlemi Tamamlandı! ---")

Kaynak dosya okunuyor: fda_labels_normalized.parquet
'partitioned_data' klasörü oluşturuldu/kontrol edildi.
Veri, marka adının ilk harfine göre parçalara ayrılıyor...


AttributeError: Can only use .str accessor with string values!

In [3]:
import pandas as pd
import os
import string

# Normalize edilmiş dosyayı okuyoruz.
SOURCE_FILE = 'fda_labels_normalized.parquet'
OUTPUT_DIR = 'partitioned_data'

print(f"Kaynak dosya okunuyor: {SOURCE_FILE}")
df = pd.read_parquet(SOURCE_FILE)

# --- DEĞİŞİKLİK BURADA ---
# Önceki karmaşık adımlar yerine tek ve sağlam bir adım:
# 1. brand_name sütunundaki tüm NaN (boş) değerlerini boş metinle ('') dolduruyoruz.
# 2. Ardından sütunun tamamını küçük harfe çeviriyoruz.
# Bu, 'brand_name_lower' sütununun %100 metin içermesini garantiler.
df['brand_name_lower'] = df['brand_name'].fillna('').str.lower()
# --- DEĞİŞİKLİK SONU ---


# Çıktı klasörünü oluştur
os.makedirs(OUTPUT_DIR, exist_ok=True)
print(f"'{OUTPUT_DIR}' klasörü oluşturuldu/kontrol edildi.")

print("Veri, marka adının ilk harfine göre parçalara ayrılıyor...")

# İngiliz alfabesindeki harfler için döngü
for char in string.ascii_lowercase:
    # Artık bu satır hatasız çalışacaktır
    df_subset = df[df['brand_name_lower'].str.startswith(char)]
    
    if not df_subset.empty:
        # Her harf için ayrı bir parquet dosyası oluştur
        output_path = os.path.join(OUTPUT_DIR, f'labels_{char}.parquet')
        
        # 'brand_name_lower' geçici sütununu kaydetmeden önce atıyoruz
        df_subset.drop(columns=['brand_name_lower']).to_parquet(output_path)
        print(f"  -> '{output_path}' oluşturuldu. ({len(df_subset)} satır)")

print("\n--- Parçalama İşlemi Tamamlandı! ---")

Kaynak dosya okunuyor: fda_labels_normalized.parquet
'partitioned_data' klasörü oluşturuldu/kontrol edildi.
Veri, marka adının ilk harfine göre parçalara ayrılıyor...


ValueError: Cannot mask with non-boolean array containing NA / NaN values

In [4]:
import pandas as pd
import os
import string

# Normalize edilmiş dosyayı okuyoruz.
SOURCE_FILE = 'fda_labels_normalized.parquet'
OUTPUT_DIR = 'partitioned_data'

print(f"Kaynak dosya okunuyor: {SOURCE_FILE}")
df = pd.read_parquet(SOURCE_FILE)

# brand_name sütunundaki tüm NaN (boş) değerlerini boş metinle ('') dolduruyoruz
# ve tamamını küçük harfe çeviriyoruz.
df['brand_name_lower'] = df['brand_name'].fillna('').str.lower()


# Çıktı klasörünü oluştur
os.makedirs(OUTPUT_DIR, exist_ok=True)
print(f"'{OUTPUT_DIR}' klasörü oluşturuldu/kontrol edildi.")

print("Veri, marka adının ilk harfine göre parçalara ayrılıyor...")

# İngiliz alfabesindeki harfler için döngü
for char in string.ascii_lowercase:
    
    # --- DEĞİŞİKLİK BURADA ---
    # .startswith() metoduna na=False ekleyerek, olası NaN değerlerini
    # doğrudan False olarak kabul etmesini sağlıyoruz ve hatayı önlüyoruz.
    df_subset = df[df['brand_name_lower'].str.startswith(char, na=False)]
    # --- DEĞİŞİKLİK SONU ---
    
    if not df_subset.empty:
        # Her harf için ayrı bir parquet dosyası oluştur
        output_path = os.path.join(OUTPUT_DIR, f'labels_{char}.parquet')
        
        # 'brand_name_lower' geçici sütununu kaydetmeden önce atıyoruz
        df_subset.drop(columns=['brand_name_lower']).to_parquet(output_path)
        print(f"  -> '{output_path}' oluşturuldu. ({len(df_subset)} satır)")

print("\n--- Parçalama İşlemi Tamamlandı! ---")

Kaynak dosya okunuyor: fda_labels_normalized.parquet
'partitioned_data' klasörü oluşturuldu/kontrol edildi.
Veri, marka adının ilk harfine göre parçalara ayrılıyor...

--- Parçalama İşlemi Tamamlandı! ---


In [1]:
import pandas as pd
import os
import string

# Normalize edilmiş dosyayı okuyoruz.
SOURCE_FILE = 'fda_labels_normalized.parquet'
OUTPUT_DIR = 'partitioned_data'

print(f"Kaynak dosya okunuyor: {SOURCE_FILE}")
df = pd.read_parquet(SOURCE_FILE)

# --- DEĞİŞİKLİK BURADA: Daha Agresif Temizleme ---
# Önce NaN (boş) değerleri boş metinle ('') dolduruyoruz.
# Sonra .astype(str) ile sütundaki her şeyin (sayı, liste vb. varsa) metne dönüştürülmesini garantiliyoruz.
# En son da küçük harfe çeviriyoruz. Bu zincir, tüm olası hataları engeller.
df['brand_name_lower'] = df['brand_name'].fillna('').astype(str).str.lower()
# --- DEĞİŞİKLİK SONU ---

# Çıktı klasörünü oluştur
os.makedirs(OUTPUT_DIR, exist_ok=True)
print(f"'{OUTPUT_DIR}' klasörü oluşturuldu/kontrol edildi.")

print("Veri, marka adının ilk harfine göre parçalara ayrılıyor...")

# İngiliz alfabesindeki harfler için döngü
for char in string.ascii_lowercase:
    # Bu satır artık hatasız çalışmalıdır.
    df_subset = df[df['brand_name_lower'].str.startswith(char, na=False)]
    
    if not df_subset.empty:
        # Her harf için ayrı bir parquet dosyası oluştur
        output_path = os.path.join(OUTPUT_DIR, f'labels_{char}.parquet')
        
        # 'brand_name_lower' geçici sütununu kaydetmeden önce atıyoruz
        df_subset.drop(columns=['brand_name_lower']).to_parquet(output_path)
        print(f"  -> '{output_path}' oluşturuldu. ({len(df_subset)} satır)")

print("\n--- Parçalama İşlemi Tamamlandı! ---")

Kaynak dosya okunuyor: fda_labels_normalized.parquet
'partitioned_data' klasörü oluşturuldu/kontrol edildi.
Veri, marka adının ilk harfine göre parçalara ayrılıyor...

--- Parçalama İşlemi Tamamlandı! ---


In [2]:
# df değişkeninin bir önceki hücreden bellekte olduğunu varsayıyoruz
print("brand_name sütunundaki ilk 10 değer inceleniyor:")
# .fillna('BOŞ_DEĞER') ile boş olanları da net bir şekilde görelim
for name in df['brand_name'].head(10).fillna('BOŞ_DEĞER'):
    # Her bir değeri tırnak içinde yazdırarak başındaki/sonundaki boşlukları görünür yapıyoruz
    print(f"'{name}'")

brand_name sütunundaki ilk 10 değer inceleniyor:
'['Dextroamphetamine Saccharate, Amphetamine Aspartate, Dextroamphetamine Sulfate and Amphetamine Sulfate']'
'['Atenolol and Chlorthalidone']'
'['ACETAMINOPHEN AND CODEINE PHOSPHATE']'
'['Unda 3']'
'['Cabenuva']'
'['Dextroamphetamine Saccharate, Amphetamine Aspartate Monohydrate, Dextroamphetamine Sulfate and Amphetamine Sulfate']'
'['LISINOPRIL and HYDROCHLOROTHIAZIDE']'
'['ZOLPIDEM TARTRATE']'
'['Natural Revita Vaginal Moisturizer']'
'['Fluoxetine']'


In [3]:
import pandas as pd
import os
import string

# Normalize edilmiş dosyayı okuyoruz.
SOURCE_FILE = 'fda_labels_normalized.parquet'
OUTPUT_DIR = 'partitioned_data'

print(f"Kaynak dosya okunuyor: {SOURCE_FILE}")
df = pd.read_parquet(SOURCE_FILE)

# --- NİHAİ TEMİZLEME ZİNCİRİ ---
# 1. fillna: Boş (NaN) değerleri boş metne çevir.
# 2. astype(str): Her şeyi metne çevirmeyi garantile.
# 3. str.strip(" []'\""): Baştaki/sondaki liste/tırnak karakterlerini soy.
# 4. str.strip(): Kalan olası boşlukları temizle.
# 5. str.lower(): Her şeyi küçük harfe çevir.
df['brand_name_lower'] = df['brand_name'].fillna('').astype(str).str.strip(" []'\"").str.strip().str.lower()
# --- DEĞİŞİKLİK SONU ---


# Çıktı klasörünü oluştur
os.makedirs(OUTPUT_DIR, exist_ok=True)
print(f"'{OUTPUT_DIR}' klasörü oluşturuldu/kontrol edildi.")

print("Veri, marka adının ilk harfine göre parçalara ayrılıyor...")

# İngiliz alfabesindeki harfler için döngü
for char in string.ascii_lowercase:
    # Bu satır artık kesinlikle hatasız çalışmalıdır.
    df_subset = df[df['brand_name_lower'].str.startswith(char, na=False)]
    
    if not df_subset.empty:
        # Her harf için ayrı bir parquet dosyası oluştur
        output_path = os.path.join(OUTPUT_DIR, f'labels_{char}.parquet')
        
        # 'brand_name_lower' geçici sütununu kaydetmeden önce atıyoruz
        df_subset.drop(columns=['brand_name_lower']).to_parquet(output_path)
        print(f"  -> '{output_path}' oluşturuldu. ({len(df_subset)} satır)")

print("\n--- Parçalama İşlemi Tamamlandı! ---")

Kaynak dosya okunuyor: fda_labels_normalized.parquet
'partitioned_data' klasörü oluşturuldu/kontrol edildi.
Veri, marka adının ilk harfine göre parçalara ayrılıyor...
  -> 'partitioned_data\labels_a.parquet' oluşturuldu. (9046 satır)
  -> 'partitioned_data\labels_b.parquet' oluşturuldu. (4784 satır)
  -> 'partitioned_data\labels_c.parquet' oluşturuldu. (8215 satır)
  -> 'partitioned_data\labels_d.parquet' oluşturuldu. (5644 satır)
  -> 'partitioned_data\labels_e.parquet' oluşturuldu. (3247 satır)
  -> 'partitioned_data\labels_f.parquet' oluşturuldu. (3111 satır)
  -> 'partitioned_data\labels_g.parquet' oluşturuldu. (2977 satır)
  -> 'partitioned_data\labels_h.parquet' oluşturuldu. (3515 satır)
  -> 'partitioned_data\labels_i.parquet' oluşturuldu. (2334 satır)
  -> 'partitioned_data\labels_j.parquet' oluşturuldu. (386 satır)
  -> 'partitioned_data\labels_k.parquet' oluşturuldu. (946 satır)
  -> 'partitioned_data\labels_l.parquet' oluşturuldu. (4236 satır)
  -> 'partitioned_data\labels_m