In [27]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import category_encoders as ce
import os
import random
from sklearn.metrics import mean_squared_error

# Veri setinin bulunduğu klasör yolu
data_folder = 'Data/'
accuracies = []
# Her yıl için döngü
for year in range(1999, 2024):
    file_name = f"{year}.csv"
    file_path = os.path.join(data_folder, file_name)
    
    # Dosyanın var olup olmadığını kontrol et
    if os.path.exists(file_path):
        # CSV dosyasını oku
        df = pd.read_csv(file_path)
        
        #df.drop('Yönetmen', axis=1, inplace=True)
        df.drop('Senarist', axis=1, inplace=True)
        df.drop('Başroller', axis=1, inplace=True)
        df.drop('Besteci', axis=1, inplace=True)
        df.drop('Besteci Etkisi', axis=1, inplace=True)
        df.drop('Yapım Şirketi Etkisi', axis=1, inplace=True)
        df = df.reset_index(drop=True)
        
        # X ve y'yi tanımla
        X = df.drop(['Sonuç'], axis=1)
        y = df['Sonuç']
        
        # Kategorik değişkenleri kodla
        encoder = ce.OrdinalEncoder(cols=['Yönetmen','Dizi İsimleri','Platform','Yapım Şirketi'])
        X_encoded = encoder.fit_transform(X)
        
        # Classların sayısını ve minimum class sayısını bul
        class_counts = y.value_counts()
        min_class_samples = class_counts.min()
        
        # Test kümesini oluştur
        test_indices = []
        for c in y.unique():
            class_indices = df[df['Sonuç'] == c].index.tolist()
            if len(class_indices) >= min_class_samples:
                random_indices = random.sample(class_indices, min_class_samples)
            else:
                random_indices = random.choices(class_indices, k=min_class_samples)
            test_indices.extend(random_indices)
        
        # Test kümesini ve eğitim kümesini oluştur
        X_test = X_encoded.loc[test_indices]
        y_test = y.loc[test_indices]
        X_train, _, y_train, _ = train_test_split(X_encoded.drop(test_indices), y.drop(test_indices), test_size=0.2, random_state=42)
        
        # RandomForestClassifier modelini oluştur
        model = RandomForestClassifier(n_estimators=80)
        
        # Modeli eğit
        model.fit(X_train, y_train)
        
        # Test edilen verileri göster
        test_data = df.loc[test_indices]
        #print(f"Test data for year {year}:\n{test_data}")
        
        # Modelin performansını test et
        accuracy = model.score(X_test, y_test)
        accuracies.append(accuracy)
        print(f"Accuracy for year {year}: {accuracy}")

        
average_accuracy = sum(accuracies) / len(accuracies)
print(f"Average accuracy for all years: {average_accuracy}")

Accuracy for year 1999: 0.2
Accuracy for year 2000: 0.2
Accuracy for year 2001: 0.3333333333333333
Accuracy for year 2002: 0.26666666666666666
Accuracy for year 2003: 0.06666666666666667
Accuracy for year 2004: 0.2
Accuracy for year 2005: 0.26666666666666666
Accuracy for year 2006: 0.25
Accuracy for year 2007: 0.32
Accuracy for year 2008: 0.24
Accuracy for year 2009: 0.24
Accuracy for year 2010: 0.24
Accuracy for year 2011: 0.28
Accuracy for year 2012: 0.3333333333333333
Accuracy for year 2013: 0.3
Accuracy for year 2014: 0.23333333333333334
Accuracy for year 2015: 0.26666666666666666
Accuracy for year 2016: 0.2
Accuracy for year 2017: 0.3
Accuracy for year 2018: 0.23333333333333334
Accuracy for year 2019: 0.23333333333333334
Accuracy for year 2020: 0.26666666666666666
Accuracy for year 2021: 0.23333333333333334
Accuracy for year 2022: 0.3
Accuracy for year 2023: 0.2
Average accuracy for all years: 0.24813333333333337


In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
import category_encoders as ce
import os
import random

# Veri setinin bulunduğu klasör yolu
data_folder = 'Data/'

# Tüm yılların başarılarını saklamak için liste oluştur
accuracies = []

# Her yıl için döngü
for year in range(1999, 2024):
    file_name = f"{year}.csv"
    file_path = os.path.join(data_folder, file_name)
    
    # Dosyanın var olup olmadığını kontrol et
    if os.path.exists(file_path):
        # CSV dosyasını oku
        df = pd.read_csv(file_path)
        
        df.drop('Yönetmen', axis=1, inplace=True)
        df.drop('Senarist', axis=1, inplace=True)
        df.drop('Başroller', axis=1, inplace=True)
        df.drop('Besteci', axis=1, inplace=True)
        df = df.reset_index(drop=True)
        
        # X ve y'yi tanımla
        X = df.drop(['Sonuç'], axis=1)
        y = df['Sonuç']
        
        # Kategorik değişkenleri kodla
        encoder = ce.OrdinalEncoder(cols=['Dizi İsimleri','Platform','Yapım Şirketi'])
        X_encoded = encoder.fit_transform(X)
        
        # Classların sayısını ve minimum class sayısını bul
        class_counts = y.value_counts()
        min_class_samples = class_counts.min()
        
        # Test kümesini oluştur
        test_indices = []
        for c in y.unique():
            class_indices = df[df['Sonuç'] == c].index.tolist()
            if len(class_indices) >= min_class_samples:
                random_indices = random.sample(class_indices, min_class_samples)
            else:
                random_indices = random.choices(class_indices, k=min_class_samples)
            test_indices.extend(random_indices)
        
        # Test kümesini ve eğitim kümesini oluştur
        X_test = X_encoded.loc[test_indices]
        y_test = y.loc[test_indices]
        X_train, _, y_train, _ = train_test_split(X_encoded.drop(test_indices), y.drop(test_indices), test_size=0.2, random_state=42)
        
        # SVC modelini oluştur
        model = SVC()
        
        # Modeli eğit
        model.fit(X_train, y_train)
        
        # Modelin performansını test et ve başarıyı kaydet
        accuracy = model.score(X_test, y_test)
        accuracies.append(accuracy)

        print(f"Accuracy for year {year}: {accuracy}")

# Tüm yılların ortalama başarısını hesapla
average_accuracy = sum(accuracies) / len(accuracies)
print(f"Average accuracy for all years: {average_accuracy}")


Accuracy for year 1999: 0.2
Accuracy for year 2000: 0.2
Accuracy for year 2001: 0.2
Accuracy for year 2002: 0.2
Accuracy for year 2003: 0.2
Accuracy for year 2004: 0.2
Accuracy for year 2005: 0.2
Accuracy for year 2006: 0.2
Accuracy for year 2007: 0.2
Accuracy for year 2008: 0.2
Accuracy for year 2009: 0.2
Accuracy for year 2010: 0.2
Accuracy for year 2011: 0.2
Accuracy for year 2012: 0.2
Accuracy for year 2013: 0.2
Accuracy for year 2014: 0.2
Accuracy for year 2015: 0.2
Accuracy for year 2016: 0.2
Accuracy for year 2017: 0.2
Accuracy for year 2018: 0.2
Accuracy for year 2019: 0.2
Accuracy for year 2020: 0.2
Accuracy for year 2021: 0.2
Accuracy for year 2022: 0.2
Accuracy for year 2023: 0.2
Average accuracy for all years: 0.20000000000000007


In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import AdaBoostClassifier
import category_encoders as ce
import os
import random

# Veri setinin bulunduğu klasör yolu
data_folder = 'Data/'
accuracies = []
# Her yıl için döngü
for year in range(1999, 2024):
    file_name = f"{year}.csv"
    file_path = os.path.join(data_folder, file_name)
    
    # Dosyanın var olup olmadığını kontrol et
    if os.path.exists(file_path):
        # CSV dosyasını oku
        df = pd.read_csv(file_path)
        df.drop(['Yönetmen', 'Senarist', 'Başroller', 'Besteci','Besteci Etkisi'], axis=1, inplace=True)
        df = df.reset_index(drop=True)
        
        # X ve y'yi tanımla
        X = df.drop(['Sonuç'], axis=1)
        y = df['Sonuç']
        
        # Kategorik değişkenleri kodla
        encoder = ce.OrdinalEncoder(cols=['Dizi İsimleri','Platform','Yapım Şirketi'])
        X_encoded = encoder.fit_transform(X)
        
        # Classların sayısını ve minimum class sayısını bul
        class_counts = y.value_counts()
        min_class_samples = class_counts.min()
        
        # Test kümesini oluştur
        test_indices = []
        for c in y.unique():
            class_indices = df[df['Sonuç'] == c].index.tolist()
            if len(class_indices) >= min_class_samples:
                random_indices = random.sample(class_indices, min_class_samples)
            else:
                random_indices = random.choices(class_indices, k=min_class_samples)
            test_indices.extend(random_indices)
        
        # Test kümesini ve eğitim kümesini oluştur
        X_test = X_encoded.loc[test_indices]
        y_test = y.loc[test_indices]
        X_train, _, y_train, _ = train_test_split(X_encoded.drop(test_indices), y.drop(test_indices), test_size=0.2, random_state=42)
        
        # AdaBoostClassifier modelini oluştur
        model = AdaBoostClassifier()
        
        # Modeli eğit
        model.fit(X_train, y_train)
        
        # Test edilen verileri göster
        test_data = df.loc[test_indices]
        #print(f"Test data for year {year}:\n{test_data}")
        
        # Modelin performansını test et
        accuracy = model.score(X_test, y_test)
        accuracies.append(accuracy)
        print(f"Accuracy for year {year}: {accuracy}")

average_accuracy = sum(accuracies) / len(accuracies)
print(f"Average accuracy for all years: {average_accuracy}")


Accuracy for year 1999: 0.2
Accuracy for year 2000: 0.2
Accuracy for year 2001: 0.3333333333333333
Accuracy for year 2002: 0.2
Accuracy for year 2003: 0.26666666666666666
Accuracy for year 2004: 0.2
Accuracy for year 2005: 0.26666666666666666
Accuracy for year 2006: 0.15
Accuracy for year 2007: 0.36
Accuracy for year 2008: 0.28
Accuracy for year 2009: 0.44
Accuracy for year 2010: 0.24
Accuracy for year 2011: 0.32
Accuracy for year 2012: 0.16666666666666666
Accuracy for year 2013: 0.26666666666666666
Accuracy for year 2014: 0.26666666666666666
Accuracy for year 2015: 0.3333333333333333
Accuracy for year 2016: 0.2
Accuracy for year 2017: 0.23333333333333334
Accuracy for year 2018: 0.3333333333333333
Accuracy for year 2019: 0.2
Accuracy for year 2020: 0.26666666666666666
Accuracy for year 2021: 0.3
Accuracy for year 2022: 0.3
Accuracy for year 2023: 0.3333333333333333
Average accuracy for all years: 0.2662666666666666


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import category_encoders as ce
import os
import random

# Veri setinin bulunduğu klasör yolu
data_folder = 'Data/'
accuracies = []
# Her yıl için döngü
for year in range(1999, 2024):
    file_name = f"{year}.csv"
    file_path = os.path.join(data_folder, file_name)
    
    # Dosyanın var olup olmadığını kontrol et
    if os.path.exists(file_path):
        # CSV dosyasını oku
        df = pd.read_csv(file_path)
        
        df.drop('Yönetmen', axis=1, inplace=True)
        df.drop('Senarist', axis=1, inplace=True)
        df.drop('Başroller', axis=1, inplace=True)
        df.drop('Besteci', axis=1, inplace=True)
        df.drop('Besteci Etkisi', axis=1, inplace=True)
        df.drop('Aktör Etkisi', axis=1, inplace=True)
        df = df.reset_index(drop=True)
        
        # X ve y'yi tanımla
        X = df.drop(['Sonuç'], axis=1)
        y = df['Sonuç']
        
        # Kategorik değişkenleri kodla
        encoder = ce.OrdinalEncoder(cols=['Dizi İsimleri','Platform','Yapım Şirketi'])
        X_encoded = encoder.fit_transform(X)
        
        # Classların sayısını ve minimum class sayısını bul
        class_counts = y.value_counts()
        min_class_samples = class_counts.min()
        
        # Test kümesini oluştur
        test_indices = []
        for c in y.unique():
            class_indices = df[df['Sonuç'] == c].index.tolist()
            if len(class_indices) >= min_class_samples:
                random_indices = random.sample(class_indices, min_class_samples)
            else:
                random_indices = random.choices(class_indices, k=min_class_samples)
            test_indices.extend(random_indices)
        
        # Test kümesini ve eğitim kümesini oluştur
        X_test = X_encoded.loc[test_indices]
        y_test = y.loc[test_indices]
        X_train, _, y_train, _ = train_test_split(X_encoded.drop(test_indices), y.drop(test_indices), test_size=0.2, random_state=42)
        
        # DecisionTreeClassifier modelini oluştur
        model = DecisionTreeClassifier()
        
        # Modeli eğit
        model.fit(X_train, y_train)
        
        # Test edilen verileri göster
        test_data = df.loc[test_indices]
        #print(f"Test data for year {year}:\n{test_data}")
        
        # Modelin performansını test et
        accuracy = model.score(X_test, y_test)
        accuracies.append(accuracy)
        print(f"Accuracy for year {year}: {accuracy}")

average_accuracy = sum(accuracies) / len(accuracies)
print(f"Average accuracy for all years: {average_accuracy}")


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import category_encoders as ce
import os
import random

# Veri setinin bulunduğu klasör yolu
data_folder = 'Data/'
accuracies = []
# Her yıl için döngü
for year in range(1999, 2024):
    file_name = f"{year}.csv"
    file_path = os.path.join(data_folder, file_name)
    
    # Dosyanın var olup olmadığını kontrol et
    if os.path.exists(file_path):
        # CSV dosyasını oku
        df = pd.read_csv(file_path)
        
        df.drop('Yönetmen', axis=1, inplace=True)
        df.drop('Senarist', axis=1, inplace=True)
        df.drop('Başroller', axis=1, inplace=True)
        df.drop('Besteci', axis=1, inplace=True)
        df = df.reset_index(drop=True)
        
        # X ve y'yi tanımla
        X = df.drop(['Sonuç'], axis=1)
        y = df['Sonuç']
        
        # Kategorik değişkenleri kodla
        encoder = ce.OrdinalEncoder(cols=['Dizi İsimleri','Platform','Yapım Şirketi'])
        X_encoded = encoder.fit_transform(X)
        
        # Classların sayısını ve minimum class sayısını bul
        class_counts = y.value_counts()
        min_class_samples = class_counts.min()
        
        # Test kümesini oluştur
        test_indices = []
        for c in y.unique():
            class_indices = df[df['Sonuç'] == c].index.tolist()
            if len(class_indices) >= min_class_samples:
                random_indices = random.sample(class_indices, min_class_samples)
            else:
                random_indices = random.choices(class_indices, k=min_class_samples)
            test_indices.extend(random_indices)
        
        # Test kümesini ve eğitim kümesini oluştur
        X_test = X_encoded.loc[test_indices]
        y_test = y.loc[test_indices]
        X_train, _, y_train, _ = train_test_split(X_encoded.drop(test_indices), y.drop(test_indices), test_size=0.2, random_state=42)
        
        # KNeighborsClassifier modelini oluştur (örneğin, k=5)
        model = KNeighborsClassifier(n_neighbors=5)
        
        # Modeli eğit
        model.fit(X_train, y_train)
        
        # Test edilen verileri göster
        test_data = df.loc[test_indices]
        #print(f"Test data for year {year}:\n{test_data}")
        
        # Modelin performansını test et
        accuracy = model.score(X_test, y_test)
        accuracies.append(accuracy)
        print(f"Accuracy for year {year}: {accuracy}")

average_accuracy = sum(accuracies) / len(accuracies)
print(f"Average accuracy for all years: {average_accuracy}")
