# Scikit-learn İleri Seviye Ödevleri

Bu ödevler, Scikit-learn'ün tüm özelliklerini test etmek ve gerçek dünya makine öğrenmesi problemlerini çözmek için tasarlanmıştır. Her ödev, farklı ML kavramlarını birleştirerek endüstriyel senaryoları simüle eder.

---

## Ödev 1: Kredi Risk Değerlendirme Sistemi

### Açıklama
Bir banka için kredi başvurularını değerlendiren makine öğrenmesi sistemi geliştirin. Sistem, başvuranların kredi riskini analiz edecek ve kredi verilip verilmeyeceğine karar verecek.

### Gereksinimler
- Gerçekçi kredi veri seti oluşturun
- Veri preprocessing ve feature engineering yapın
- Farklı classification algoritmaları deneyin
- Model performansını değerlendirin
- Feature importance analizi yapın
- Model interpretability sağlayın

### Template Kod

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score
import matplotlib.pyplot as plt
import seaborn as sns

# Seed ayarlama
np.random.seed(42)

# ===== VERİ SETİ OLUŞTURMA =====
n_samples = 10000

# Gerçekçi kredi veri seti
data = {
    'age': np.random.normal(35, 10, n_samples),
    'income': np.random.lognormal(10, 0.5, n_samples),
    'credit_score': np.random.normal(650, 100, n_samples),
    'employment_years': np.random.exponential(5, n_samples),
    'debt_to_income': np.random.beta(2, 5, n_samples),
    'loan_amount': np.random.lognormal(11, 0.3, n_samples),
    'education': np.random.choice(['High School', 'Bachelor', 'Master', 'PhD'], 
                                n_samples, p=[0.3, 0.4, 0.2, 0.1]),
    'marital_status': np.random.choice(['Single', 'Married', 'Divorced'], 
                                     n_samples, p=[0.4, 0.4, 0.2]),
    'home_ownership': np.random.choice(['Rent', 'Own', 'Mortgage'], 
                                     n_samples, p=[0.4, 0.2, 0.4]),
    'purpose': np.random.choice(['Home', 'Car', 'Business', 'Education', 'Other'], 
                              n_samples, p=[0.3, 0.2, 0.2, 0.1, 0.2])
}

df = pd.DataFrame(data)

# Kredi riski hesaplama (gerçekçi kurallar)
def calculate_credit_risk(row):
    risk_score = 0
    
    # Yaş faktörü
    if row['age'] < 25 or row['age'] > 65:
        risk_score += 2
    elif 30 <= row['age'] <= 50:
        risk_score -= 1
    
    # Gelir faktörü
    if row['income'] < 30000:
        risk_score += 3
    elif row['income'] > 100000:
        risk_score -= 2
    
    # Kredi skoru
    if row['credit_score'] < 600:
        risk_score += 4
    elif row['credit_score'] > 750:
        risk_score -= 2
    
    # Borç-gelir oranı
    if row['debt_to_income'] > 0.4:
        risk_score += 3
    elif row['debt_to_income'] < 0.2:
        risk_score -= 1
    
    # İstihdam yılı
    if row['employment_years'] < 2:
        risk_score += 2
    
    # Eğitim
    if row['education'] == 'PhD':
        risk_score -= 1
    elif row['education'] == 'High School':
        risk_score += 1
    
    # Ev sahipliği
    if row['home_ownership'] == 'Own':
        risk_score -= 1
    elif row['home_ownership'] == 'Rent':
        risk_score += 1
    
    # Rastgele gürültü ekle
    risk_score += np.random.normal(0, 0.5)
    
    return 1 if risk_score > 3 else 0

df['credit_risk'] = df.apply(calculate_credit_risk, axis=1)

print(f"Veri seti boyutu: {df.shape}")
print(f"Kredi riski dağılımı:\n{df['credit_risk'].value_counts(normalize=True)}")

# ===== BURADA KODUNUZ BAŞLIYOR =====

# 1. Veri keşfi ve analizi
# Hint: EDA, correlation matrix, distribution plots

# 2. Veri preprocessing
# Hint: Missing values, encoding, scaling

# 3. Feature engineering
# Hint: Yeni özellikler oluşturun (örn: income/loan_ratio)

# 4. Model seçimi ve eğitimi
# Hint: Logistic Regression, Random Forest, SVM, Gradient Boosting

# 5. Hyperparameter tuning
# Hint: GridSearchCV veya RandomizedSearchCV

# 6. Model değerlendirme
# Hint: Cross-validation, ROC-AUC, precision-recall

# 7. Feature importance analizi
# Hint: Model coefficients, feature importance

# 8. Model interpretability
# Hint: SHAP values, partial dependence plots

# 9. Ensemble methods
# Hint: Voting classifier, stacking

# 10. Sonuçları raporlayın ve öneriler sunun

### Beklenen Çıktılar
- EDA raporu ve görselleştirmeler
- Preprocessing pipeline
- Model performans karşılaştırması
- Feature importance grafikleri
- ROC ve precision-recall eğrileri
- Model interpretability analizi
- Kredi risk değerlendirme önerileri

---

## Ödev 2: Müşteri Segmentasyonu ve Churn Prediction

### Açıklama
Bir telekomünikasyon şirketi için müşteri segmentasyonu ve churn prediction sistemi geliştirin. Sistem, müşterileri segmentlere ayıracak ve hangi müşterilerin ayrılma riski taşıdığını tahmin edecek.

### Gereksinimler
- Müşteri veri seti oluşturun
- Unsupervised learning ile segmentasyon yapın
- Supervised learning ile churn prediction yapın
- Customer lifetime value hesaplayın
- Retention stratejileri önerin

### Template Kod

In [None]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans, DBSCAN
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier, IsolationForest
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import silhouette_score, calinski_harabasz_score
import matplotlib.pyplot as plt
import seaborn as sns

# Seed ayarlama
np.random.seed(42)

# ===== MÜŞTERİ VERİ SETİ OLUŞTURMA =====
n_customers = 5000

# Müşteri özellikleri
customer_data = {
    'customer_id': range(1, n_customers + 1),
    'age': np.random.normal(45, 15, n_customers),
    'monthly_charges': np.random.lognormal(4, 0.3, n_customers),
    'total_charges': np.random.lognormal(8, 0.5, n_customers),
    'tenure_months': np.random.exponential(30, n_customers),
    'contract_type': np.random.choice(['Month-to-month', 'One year', 'Two year'], 
                                    n_customers, p=[0.5, 0.3, 0.2]),
    'internet_service': np.random.choice(['DSL', 'Fiber optic', 'No'], 
                                       n_customers, p=[0.3, 0.4, 0.3]),
    'payment_method': np.random.choice(['Electronic check', 'Mailed check', 
                                      'Bank transfer', 'Credit card'], 
                                     n_customers, p=[0.3, 0.2, 0.25, 0.25]),
    'online_security': np.random.choice(['Yes', 'No', 'No internet service'], 
                                      n_customers, p=[0.3, 0.4, 0.3]),
    'tech_support': np.random.choice(['Yes', 'No', 'No internet service'], 
                                   n_customers, p=[0.2, 0.5, 0.3]),
    'monthly_gb_download': np.random.exponential(50, n_customers),
    'customer_service_calls': np.random.poisson(2, n_customers)
}

df = pd.DataFrame(customer_data)

# Churn hesaplama (gerçekçi kurallar)
def calculate_churn(row):
    churn_prob = 0
    
    # Sözleşme türü
    if row['contract_type'] == 'Month-to-month':
        churn_prob += 0.3
    elif row['contract_type'] == 'One year':
        churn_prob += 0.1
    else:  # Two year
        churn_prob += 0.05
    
    # Müşteri hizmetleri çağrıları
    if row['customer_service_calls'] > 3:
        churn_prob += 0.2
    
    # Tenure (müşteri sadakati)
    if row['tenure_months'] < 12:
        churn_prob += 0.15
    elif row['tenure_months'] > 60:
        churn_prob -= 0.1
    
    # Aylık ücret
    if row['monthly_charges'] > 80:
        churn_prob += 0.1
    
    # İnternet hizmeti
    if row['internet_service'] == 'Fiber optic':
        churn_prob += 0.05  # Daha pahalı
    
    # Rastgele faktör
    churn_prob += np.random.normal(0, 0.1)
    
    return 1 if churn_prob > 0.3 else 0

df['churn'] = df.apply(calculate_churn, axis=1)

# Customer Lifetime Value hesaplama
df['clv'] = df['monthly_charges'] * df['tenure_months'] * (1 - df['churn'] * 0.5)

print(f"Müşteri veri seti boyutu: {df.shape}")
print(f"Churn oranı: {df['churn'].mean():.3f}")

# ===== BURADA KODUNUZ BAŞLIYOR =====

# 1. Veri keşfi ve analizi
# Hint: Churn analizi, CLV analizi, correlation matrix

# 2. Müşteri segmentasyonu (Unsupervised Learning)
# Hint: K-Means, DBSCAN, PCA ile boyut azaltma

# 3. Segment analizi
# Hint: Her segmentin özelliklerini analiz edin

# 4. Churn prediction (Supervised Learning)
# Hint: Feature engineering, model seçimi

# 5. Model performans değerlendirme
# Hint: Cross-validation, ROC-AUC, precision-recall

# 6. Feature importance analizi
# Hint: Churn'a en çok etki eden faktörler

# 7. Customer Lifetime Value prediction
# Hint: Regression model ile CLV tahmini

# 8. Retention stratejileri
# Hint: Riskli müşteriler için öneriler

# 9. Anomaly detection
# Hint: Anormal müşteri davranışlarını tespit edin

# 10. Sonuçları raporlayın ve iş önerileri sunun

### Beklenen Çıktılar
- Müşteri segmentasyonu grafikleri
- Churn prediction model performansı
- CLV analizi ve tahminleri
- Feature importance analizi
- Retention stratejileri önerileri
- Anomaly detection sonuçları
- İş raporu ve öneriler

---

## Ödev 3: E-ticaret Ürün Öneri Sistemi

### Açıklama
Bir e-ticaret platformu için ürün öneri sistemi geliştirin. Sistem, collaborative filtering ve content-based filtering yöntemlerini kullanarak kişiselleştirilmiş öneriler sunacak.

### Gereksinimler
- Kullanıcı-ürün etkileşim verisi oluşturun
- Collaborative filtering implementasyonu
- Content-based filtering implementasyonu
- Hybrid recommendation sistemi
- Öneri kalitesini değerlendirin

### Template Kod

In [None]:
import numpy as np
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import NMF, TruncatedSVD
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns

# Seed ayarlama
np.random.seed(42)

# ===== E-TİCARET VERİ SETİ OLUŞTURMA =====
n_users = 1000
n_products = 500
n_interactions = 10000

# Kullanıcı verileri
users = pd.DataFrame({
    'user_id': range(1, n_users + 1),
    'age': np.random.normal(35, 12, n_users),
    'gender': np.random.choice(['M', 'F'], n_users),
    'location': np.random.choice(['Istanbul', 'Ankara', 'Izmir', 'Bursa'], n_users),
    'membership_days': np.random.exponential(365, n_users)
})

# Ürün verileri
categories = ['Electronics', 'Clothing', 'Books', 'Home', 'Sports', 'Beauty', 'Food', 'Toys']
subcategories = {
    'Electronics': ['Smartphones', 'Laptops', 'Tablets', 'Accessories'],
    'Clothing': ['Men', 'Women', 'Kids', 'Shoes'],
    'Books': ['Fiction', 'Non-fiction', 'Academic', 'Children'],
    'Home': ['Furniture', 'Kitchen', 'Garden', 'Decor'],
    'Sports': ['Fitness', 'Outdoor', 'Team Sports', 'Equipment'],
    'Beauty': ['Skincare', 'Makeup', 'Haircare', 'Fragrances'],
    'Food': ['Snacks', 'Beverages', 'Organic', 'International'],
    'Toys': ['Educational', 'Action Figures', 'Board Games', 'Puzzles']
}

products = []
for i in range(n_products):
    category = np.random.choice(categories)
    subcategory = np.random.choice(subcategories[category])
    
    products.append({
        'product_id': i + 1,
        'name': f"Product_{i+1}",
        'category': category,
        'subcategory': subcategory,
        'price': np.random.lognormal(3, 0.5),
        'rating': np.random.normal(4, 0.5),
        'review_count': np.random.poisson(50),
        'description': f"Great {subcategory.lower()} product in {category.lower()} category"
    })

products_df = pd.DataFrame(products)

# Kullanıcı-ürün etkileşimleri
interactions = []
for _ in range(n_interactions):
    user_id = np.random.randint(1, n_users + 1)
    product_id = np.random.randint(1, n_products + 1)
    
    # Kullanıcı ve ürün uyumluluğu
    user = users.iloc[user_id - 1]
    product = products_df.iloc[product_id - 1]
    
    # Rating hesaplama (gerçekçi)
    base_rating = product['rating']
    
    # Yaş faktörü
    if user['age'] < 25 and product['category'] in ['Electronics', 'Sports']:
        base_rating += 0.5
    elif user['age'] > 50 and product['category'] in ['Home', 'Books']:
        base_rating += 0.3
    
    # Cinsiyet faktörü
    if user['gender'] == 'F' and product['category'] in ['Beauty', 'Clothing']:
        base_rating += 0.4
    elif user['gender'] == 'M' and product['category'] in ['Electronics', 'Sports']:
        base_rating += 0.3
    
    # Rastgele gürültü
    final_rating = np.clip(base_rating + np.random.normal(0, 0.5), 1, 5)
    
    interactions.append({
        'user_id': user_id,
        'product_id': product_id,
        'rating': final_rating,
        'timestamp': np.random.randint(1, 1000)
    })

interactions_df = pd.DataFrame(interactions)

print(f"Kullanıcı sayısı: {n_users}")
print(f"Ürün sayısı: {n_products}")
print(f"Etkileşim sayısı: {len(interactions_df)}")

# ===== BURADA KODUNUZ BAŞLIYOR =====

# 1. Veri analizi ve keşfi
# Hint: Rating dağılımı, kullanıcı-ürün matrisi

# 2. Collaborative Filtering (User-based)
# Hint: Cosine similarity, kullanıcı benzerliği

# 3. Collaborative Filtering (Item-based)
# Hint: Ürün benzerliği, item-item matrix

# 4. Matrix Factorization
# Hint: SVD, NMF ile latent factors

# 5. Content-based Filtering
# Hint: TF-IDF, ürün özellikleri

# 6. Hybrid Recommendation
# Hint: Collaborative + Content-based kombinasyonu

# 7. Öneri kalitesi değerlendirme
# Hint: Precision@k, Recall@k, NDCG

# 8. Cold start problemi çözümü
# Hint: Yeni kullanıcılar/ürünler için stratejiler

# 9. A/B testing simülasyonu
# Hint: Farklı öneri algoritmalarını karşılaştırın

# 10. Sonuçları raporlayın ve öneri sistemi analizi

### Beklenen Çıktılar
- Kullanıcı-ürün etkileşim matrisi
- Collaborative filtering sonuçları
- Content-based filtering sonuçları
- Hybrid öneri sistemi performansı
- Öneri kalitesi metrikleri
- Cold start çözümleri
- A/B testing sonuçları
- Öneri sistemi analiz raporu

---

## Ödev 4: Zaman Serisi Tahmin Sistemi

### Açıklama
Bir perakende şirketi için satış tahmin sistemi geliştirin. Sistem, farklı zaman serisi modellerini kullanarak gelecek satışları tahmin edecek ve mevsimsellik analizi yapacak.

### Gereksinimler
- Zaman serisi veri seti oluşturun
- Trend ve mevsimsellik analizi yapın
- Farklı forecasting modelleri deneyin
- Model performansını değerlendirin
- Anomaly detection uygulayın

### Template Kod

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta

# Seed ayarlama
np.random.seed(42)

# ===== ZAMAN SERİSİ VERİ SETİ OLUŞTURMA =====
start_date = datetime(2020, 1, 1)
end_date = datetime(2023, 12, 31)
date_range = pd.date_range(start=start_date, end=end_date, freq='D')

# Temel trend ve mevsimsellik
n_days = len(date_range)
trend = np.linspace(100, 200, n_days)  # Yükselen trend

# Yıllık mevsimsellik (yaz aylarında artış)
seasonal_pattern = np.sin(2 * np.pi * np.arange(n_days) / 365.25) * 30

# Haftalık mevsimsellik (hafta sonu artışı)
weekly_pattern = np.array([0, 0, 0, 0, 10, 15, 10] * (n_days // 7 + 1))[:n_days]

# Tatil etkileri
holiday_effects = np.zeros(n_days)
holiday_dates = [
    '2020-01-01', '2020-05-01', '2020-10-29', '2020-12-25',
    '2021-01-01', '2021-05-01', '2021-10-29', '2021-12-25',
    '2022-01-01', '2022-05-01', '2022-10-29', '2022-12-25',
    '2023-01-01', '2023-05-01', '2023-10-29', '2023-12-25'
]

for holiday in holiday_dates:
    holiday_idx = (pd.to_datetime(holiday) - start_date).days
    if 0 <= holiday_idx < n_days:
        holiday_effects[holiday_idx] = 20

# Promosyon etkileri (rastgele)
promotion_effects = np.zeros(n_days)
promotion_days = np.random.choice(n_days, size=50, replace=False)
promotion_effects[promotion_days] = np.random.uniform(10, 30, len(promotion_days))

# Rastgele gürültü
noise = np.random.normal(0, 5, n_days)

# Toplam satış
sales = trend + seasonal_pattern + weekly_pattern + holiday_effects + promotion_effects + noise
sales = np.maximum(sales, 0)  # Negatif satış olmaz

# Veri seti oluşturma
df = pd.DataFrame({
    'date': date_range,
    'sales': sales,
    'year': date_range.year,
    'month': date_range.month,
    'day': date_range.day,
    'day_of_week': date_range.dayofweek,
    'quarter': date_range.quarter,
    'is_weekend': date_range.dayofweek.isin([5, 6]).astype(int),
    'is_holiday': (holiday_effects > 0).astype(int),
    'is_promotion': (promotion_effects > 0).astype(int)
})

print(f"Zaman serisi boyutu: {df.shape}")
print(f"Satış istatistikleri:\n{df['sales'].describe()}")

# ===== BURADA KODUNUZ BAŞLIYOR =====

# 1. Zaman serisi analizi
# Hint: Trend, mevsimsellik, stationarity test

# 2. Feature engineering
# Hint: Lag features, rolling statistics, seasonal features

# 3. Train-test split (zaman bazlı)
# Hint: Son 6 ay test için ayırın

# 4. Basit modeller
# Hint: Linear regression, moving average

# 5. Gelişmiş modeller
# Hint: Random Forest, XGBoost, LSTM (basit)

# 6. Mevsimsellik analizi
# Hint: Decomposition, seasonal patterns

# 7. Anomaly detection
# Hint: Statistical methods, isolation forest

# 8. Model performans değerlendirme
# Hint: RMSE, MAE, MAPE

# 9. Forecasting
# Hint: Gelecek 30 gün tahmini

# 10. Sonuçları raporlayın ve tahmin analizi

### Beklenen Çıktılar
- Zaman serisi dekompozisyonu
- Trend ve mevsimsellik analizi
- Model performans karşılaştırması
- Forecasting grafikleri
- Anomaly detection sonuçları
- Tahmin güvenilirlik analizi
- Zaman serisi raporu

---

## Ödev 5: NLP ve Metin Analizi Sistemi

### Açıklama
Bir sosyal medya platformu için metin analizi sistemi geliştirin. Sistem, sentiment analysis, topic modeling ve text classification yapacak.

### Gereksinimler
- Metin veri seti oluşturun
- Text preprocessing uygulayın
- Sentiment analysis yapın
- Topic modeling uygulayın
- Text classification yapın

### Template Kod

In [None]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation, NMF
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.pipeline import Pipeline
import matplotlib.pyplot as plt
import seaborn as sns
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

# NLTK data download
try:
    nltk.download('punkt')
    nltk.download('stopwords')
    nltk.download('wordnet')
    nltk.download('vader_lexicon')
except:
    pass

# Seed ayarlama
np.random.seed(42)

# ===== METİN VERİ SETİ OLUŞTURMA =====
n_samples = 5000

# Sentiment kategorileri
sentiments = ['positive', 'negative', 'neutral']
sentiment_probs = [0.4, 0.3, 0.3]

# Konu kategorileri
topics = ['technology', 'politics', 'sports', 'entertainment', 'business']
topic_probs = [0.25, 0.2, 0.2, 0.2, 0.15]

# Pozitif metinler
positive_texts = [
    "I love this product! It's amazing and works perfectly.",
    "Great experience with this service. Highly recommended!",
    "Excellent quality and fast delivery. Very satisfied!",
    "This is exactly what I was looking for. Perfect!",
    "Outstanding performance and great value for money.",
    "Fantastic customer service and amazing results.",
    "Wonderful experience, will definitely buy again!",
    "Superb quality and exceeded my expectations.",
    "Brilliant design and excellent functionality.",
    "Outstanding work and professional service."
]

# Negatif metinler
negative_texts = [
    "Terrible product, complete waste of money.",
    "Very disappointed with the quality and service.",
    "Poor customer support and slow delivery.",
    "This is the worst purchase I've ever made.",
    "Awful experience, would not recommend to anyone.",
    "Bad quality and expensive for what you get.",
    "Frustrated with the poor performance.",
    "Disappointing results and waste of time.",
    "Terrible design and difficult to use.",
    "Horrible service and unprofessional staff."
]

# Nötr metinler
neutral_texts = [
    "The product arrived on time as expected.",
    "Standard quality and average performance.",
    "It works as described in the specifications.",
    "Normal delivery time and acceptable quality.",
    "The service meets basic requirements.",
    "Average experience, nothing special.",
    "Product functions as advertised.",
    "Standard features and typical performance.",
    "Regular quality and expected results.",
    "Basic functionality and normal operation."
]

# Konu bazlı kelimeler
topic_keywords = {
    'technology': ['software', 'hardware', 'computer', 'digital', 'tech', 'app', 'system'],
    'politics': ['government', 'policy', 'election', 'democracy', 'vote', 'political'],
    'sports': ['game', 'team', 'player', 'match', 'championship', 'sport'],
    'entertainment': ['movie', 'music', 'show', 'celebrity', 'film', 'concert'],
    'business': ['company', 'market', 'investment', 'profit', 'business', 'finance']
}

# Metin oluşturma fonksiyonu
def generate_text(sentiment, topic):
    if sentiment == 'positive':
        base_text = np.random.choice(positive_texts)
    elif sentiment == 'negative':
        base_text = np.random.choice(negative_texts)
    else:
        base_text = np.random.choice(neutral_texts)
    
    # Konu kelimelerini ekle
    topic_words = topic_keywords[topic]
    if np.random.random() > 0.5:
        base_text += f" Related to {np.random.choice(topic_words)}."
    
    # Rastgele değişiklikler
    if np.random.random() > 0.8:
        base_text += " " + np.random.choice(["Really!", "Amazing!", "Terrible!", "Okay."])
    
    return base_text

# Veri seti oluşturma
texts = []
sentiment_labels = []
topic_labels = []

for _ in range(n_samples):
    sentiment = np.random.choice(sentiments, p=sentiment_probs)
    topic = np.random.choice(topics, p=topic_probs)
    
    text = generate_text(sentiment, topic)
    
    texts.append(text)
    sentiment_labels.append(sentiment)
    topic_labels.append(topic)

df = pd.DataFrame({
    'text': texts,
    'sentiment': sentiment_labels,
    'topic': topic_labels
})

print(f"Metin veri seti boyutu: {df.shape}")
print(f"Sentiment dağılımı:\n{df['sentiment'].value_counts()}")
print(f"Konu dağılımı:\n{df['topic'].value_counts()}")

# ===== BURADA KODUNUZ BAŞLIYOR =====

# 1. Text preprocessing
# Hint: Tokenization, stopwords removal, lemmatization

# 2. Feature extraction
# Hint: TF-IDF, CountVectorizer, word embeddings

# 3. Sentiment analysis
# Hint: Classification model, VADER sentiment

# 4. Topic modeling
# Hint: LDA, NMF, topic extraction

# 5. Text classification
# Hint: Topic classification, multi-class

# 6. Model performans değerlendirme
# Hint: Accuracy, precision, recall, F1

# 7. Feature importance analizi
# Hint: Most important words, topics

# 8. Word cloud ve görselleştirme
# Hint: Word frequency, topic visualization

# 9. Cross-validation
# Hint: Model stability, generalization

# 10. Sonuçları raporlayın ve metin analizi

### Beklenen Çıktılar
- Text preprocessing pipeline
- Sentiment analysis sonuçları
- Topic modeling grafikleri
- Classification performansı
- Word cloud görselleştirmeleri
- Feature importance analizi
- Cross-validation sonuçları
- NLP analiz raporu

---

## Ödev Değerlendirme Kriterleri

### Her Ödev İçin:
1. **Kod Kalitesi** (20%): Temiz, modüler, okunabilir kod
2. **Model Performansı** (25%): Doğru metrikler ve yorumlama
3. **Analiz Derinliği** (20%): Kapsamlı analiz ve insight'lar
4. **Görselleştirme** (15%): Etkili grafikler ve tablolar
5. **Teorik Anlayış** (20%): Algoritma ve kavram bilgisi

### Bonus Puanlar:
- Ek özellikler ve optimizasyonlar
- Yaratıcı çözümler
- Performans iyileştirmeleri
- Dokümantasyon kalitesi

### Teslim Formatı:
- Jupyter notebook (.ipynb)
- Markdown açıklamalar
- Kod yorumları
- Sonuç analizleri
- Görselleştirmeler

Her ödev, Scikit-learn'ün farklı yönlerini test eder ve gerçek dünya makine öğrenmesi problemlerini simüle eder. Ödevler zorluk seviyesi artacak şekilde sıralanmıştır. 