In [2]:
import pandas as pd
import requests
import time
from datetime import datetime

# API'den veri çekme fonksiyonu
def get_api_data(url="https://randomuser.me/api", num_requests=300, interval=2):
    all_users = []

    for i in range(num_requests):
        try:
            response = requests.get(url)
            if response.status_code == 200:
                user = response.json()['results'][0]

                selected_user = {
                    "gender": user["gender"],
                    "name": f"{user['name']['first']} {user['name']['last']}",
                    "email": user["email"],
                    "country": user["location"]["country"],
                    "dob": user["dob"]["date"],
                    "registered": user["registered"]["date"]
                }

                all_users.append(selected_user)
                print(f"[{i+1}] Kullanıcı alındı: {selected_user['name']}")
            else:
                print(f"[{i+1}] Hata: {response.status_code}")
        except Exception as e:
            print(f"[{i+1}] İstisna oluştu: {e}")

        time.sleep(interval)

    return pd.DataFrame(all_users)

# Veriyi .parquet formatında kaydetme ve temel kontroller
def create_parquet_file(df, filename="kullanici_verileri.parquet"):
    # Tarihleri datetime formatına çevir ve timezone'u kaldır
    df["dob"] = pd.to_datetime(df["dob"]).dt.tz_convert(None)
    df["registered"] = pd.to_datetime(df["registered"]).dt.tz_convert(None)

    # Spark ile uyumlu olsun diye string'e dönüştür
    df["dob"] = df["dob"].astype(str)
    df["registered"] = df["registered"].astype(str)

    # Parquet'e yaz
    df.to_parquet(filename, engine="pyarrow", index=False)
    print(f"✅ Parquet dosyası '{filename}' olarak kaydedildi.")

    # Temel veri incelemesi
    print("\n🧾 Veri şekli:", df.shape)
    print("\n📌 İlk 5 kayıt:\n", df.head())
    print("\n🔍 Eksik değer kontrolü:\n", df.isnull().sum())
    print("\n📚 Veri türleri:\n", df.dtypes)
    print("\n👤 Cinsiyet sayıları:\n", df['gender'].value_counts())
    print("\n🌍 En sık görülen ülkeler:\n", df['country'].value_counts().head(10))
    print("\n📅 Doğum tarihi aralığı:\n", df['dob'].min(), "→", df['dob'].max())
    print("\n📅 Kayıt tarihi aralığı:\n", df['registered'].min(), "→", df['registered'].max())


# Ana akış
if __name__ == "__main__":
    df = get_api_data()
    create_parquet_file(df)


[1] Kullanıcı alındı: Samuel Narváez
[2] Kullanıcı alındı: Joona Niemi
[3] Kullanıcı alındı: Indie Hall
[4] Kullanıcı alındı: Francisco Hecker
[5] Kullanıcı alındı: Hanna Hildebrandt
[6] Kullanıcı alındı: Mia Lavoie
[7] Kullanıcı alındı: Dolores Ortega
[8] Kullanıcı alındı: باران زارعی
[9] Kullanıcı alındı: آوا نكو نظر
[10] Kullanıcı alındı: Eva Monteiro
[11] Kullanıcı alındı: Onur Balaban
[12] Kullanıcı alındı: Aureliano Fogaça
[13] Kullanıcı alındı: Kirilo Živanović
[14] Kullanıcı alındı: Sofia Madsen
[15] Kullanıcı alındı: José María Barela
[16] Kullanıcı alındı: Gonca Hakyemez
[17] Kullanıcı alındı: Jacob Lima
[18] Kullanıcı alındı: Alia Wangen
[19] Kullanıcı alındı: Kadir Tokgöz
[20] Kullanıcı alındı: Alex Jackson
[21] Kullanıcı alındı: Charlie Lemaire
[22] Kullanıcı alındı: Julia Mora
[23] Kullanıcı alındı: Zoe Ouellet
[24] Kullanıcı alındı: Svyatovid Bokiy
[25] Kullanıcı alındı: Ariel Wennevold
[26] Kullanıcı alındı: Tracy Oliver
[27] Kullanıcı alındı: Dulce Téllez
[28] Kullanıc