# TinyLlama-1.1B-Chat Test
Bu notebook Hugging Face'ten TinyLlama-1.1B-Chat-v1.0 modelini yÃ¼kler ve test eder.

**âœ… Avantajlar:**
- KÃ¼Ã§Ã¼k model (1.1B parametre)
- CPU'da Ã§alÄ±ÅŸÄ±r (GPU ÅŸart deÄŸil)
- HÄ±zlÄ± yÃ¼kleme ve cevap

In [None]:
# Gerekli kÃ¼tÃ¼phaneleri yÃ¼kle (TinyLlama iÃ§in quantization gerekmez)
%pip install -q transformers torch accelerate

In [None]:
# Import'lar
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Model ayarlarÄ±
model_name = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"

# GPU kontrolÃ¼ (opsiyonel - CPU'da da Ã§alÄ±ÅŸÄ±r)
print(f"CUDA kullanÄ±labilir mi: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    device = "cuda"
else:
    print("CPU kullanÄ±lacak (TinyLlama iÃ§in yeterli)")
    device = "cpu"

print(f"\nâœ“ Model yÃ¼klenecek: {model_name}")
print(f"âœ“ Device: {device}")

In [None]:
# Model yÃ¼kleme
print("ğŸ“¦ Tokenizer yÃ¼kleniyor...")
tokenizer = AutoTokenizer.from_pretrained(model_name)

print("ğŸ“¦ Model yÃ¼kleniyor...")
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16 if device == "cuda" else torch.float32,
    device_map="auto" if device == "cuda" else None
)

if device == "cpu":
    model = model.to(device)

print("\nâœ… Model baÅŸarÄ±yla yÃ¼klendi!")

In [None]:
# Prompt'a cevap Ã¼retme fonksiyonu
def generate_response(prompt, max_new_tokens=256, temperature=0.7, top_p=0.9):
    """
    Verilen prompt'a model cevabÄ± Ã¼retir.
    
    Args:
        prompt: KullanÄ±cÄ± mesajÄ±
        max_new_tokens: Maksimum Ã¼retilecek token sayÄ±sÄ±
        temperature: YaratÄ±cÄ±lÄ±k (0.1-1.0, yÃ¼ksek = daha yaratÄ±cÄ±)
        top_p: Nucleus sampling parametresi
    """
    # TinyLlama chat format
    chat_prompt = f"""<|system|>
Sen yardÄ±mcÄ± bir asistansÄ±n. TÃ¼rkÃ§e konuÅŸuyorsun.</s>
<|user|>
{prompt}</s>
<|assistant|>
"""
    
    # Tokenize et
    inputs = tokenizer(chat_prompt, return_tensors="pt").to(model.device)
    
    # Generate
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            temperature=temperature,
            top_p=top_p,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id
        )
    
    # Decode - sadece yeni Ã¼retilen kÄ±smÄ± al
    response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[-1]:], skip_special_tokens=True)
    return response.strip()

print("âœ“ generate_response() fonksiyonu hazÄ±r!")

## Test AlanÄ±
AÅŸaÄŸÄ±daki hÃ¼creyi Ã§alÄ±ÅŸtÄ±rarak modelinizi test edin. Ä°stediÄŸiniz prompt'u yazabilirsiniz.

In [None]:
# Elle prompt yazÄ±n ve Ã§alÄ±ÅŸtÄ±rÄ±n
user_prompt = "Merhaba! Sen kimsin?"

print(f"Prompt: {user_prompt}")
print("\nCevap Ã¼retiliyor...\n")

response = generate_response(user_prompt)

print(f"Model CevabÄ±:\n{response}")

In [None]:
# SatranÃ§ baÄŸlamÄ±nda test
chess_prompt = """Ben ÅŸu anda bir satranÃ§ oyunu oynuyorum. 
Son hamleler: 1. e4 e5 2. Nf3 Nc6
Rakibim ile dostÃ§a konuÅŸmak istiyorum. Bana bir ÅŸeyler sÃ¶yler misin?"""

print("SatranÃ§ baÄŸlamÄ±nda test:\n")
response = generate_response(chess_prompt, max_new_tokens=150)
print(f"Model CevabÄ±:\n{response}")

## Notlar

### TinyLlama AvantajlarÄ±:
- **KÃ¼Ã§Ã¼k**: Sadece 1.1B parametre (~2.2 GB)
- **HÄ±zlÄ±**: CPU'da bile Ã§alÄ±ÅŸÄ±r
- **Kolay**: Token veya Ã¶zel eriÅŸim gerektirmez
- **Ãœcretsiz**: Hugging Face'ten direkt indirilebilir

### Sistem gereksinimleri:
- **RAM**: 4-8 GB yeterli
- **GPU**: Opsiyonel (varsa daha hÄ±zlÄ±)
- **Disk**: ~3 GB model dosyasÄ±

### Parametreler:
- `temperature`: 0.1-1.0 (dÃ¼ÅŸÃ¼k = tutarlÄ±, yÃ¼ksek = yaratÄ±cÄ±)
- `max_new_tokens`: Maksimum cevap uzunluÄŸu (token sayÄ±sÄ±)
- `top_p`: 0.1-1.0 (nucleus sampling)

### Model performansÄ±:
- KÃ¼Ã§Ã¼k model olduÄŸu iÃ§in bÃ¼yÃ¼k modeller kadar gÃ¼Ã§lÃ¼ deÄŸil
- Basit sohbet ve talimatlar iÃ§in yeterli
- SatranÃ§ sohbeti iÃ§in uygun