In [1]:
import pandas as pd

# Load the data while avoiding DtypeWarning by using low_memory=False
train_data = pd.read_csv('data/train.csv', low_memory=False)
test_data = pd.read_csv('data/test_x.csv', low_memory=False)

# Display the first few rows of the datasets
print(train_data.head())
print(test_data.head())

   Basvuru Yili  Degerlendirme Puani Cinsiyet  Dogum Tarihi        Dogum Yeri  \
0          2014                 52.0    Erkek      4/6/1994  Altindag, Ankara   
1          2014                 30.0    Erkek     6/11/1993           Üsküdar   
2          2014                 18.0    Erkek     1/15/1986            Samsun   
3          2014                 40.0    Erkek      6/4/1991        Diyarbakır   
4          2014                 24.0    Erkek  2 Kasim 1992   Ankara/Altındağ   

  Ikametgah Sehri                    Universite Adi Universite Turu  \
0          Ankara           İHSAN DOĞRAMACI BİLKENT            Özel   
1        İstanbul           İHSAN DOĞRAMACI BİLKENT            Özel   
2        İstanbul  ULUSLARARASI KIBRIS ÜNİVERSİTESİ            Özel   
3        İstanbul       İSTANBUL ŞEHİR ÜNİVERSİTESİ            Özel   
4          Ankara          TURGUT ÖZAL ÜNİVERSİTESİ            Özel   

   Burslu ise Burs Yuzdesi Burs Aliyor mu?  ... Spor Dalindaki Rolunuz Nedir?  \
0    

In [2]:
import pandas as pd
import re
from dateutil import parser

# Sample data preparation (assuming you have loaded your data already)
# train_data = pd.read_csv('path_to_train_data.csv')
# test_data = pd.read_csv('path_to_test_data.csv')

# Specify the important columns to keep
important_columns_train = [
    'Degerlendirme Puani', 'Cinsiyet', 'Dogum Tarihi', 'Ikametgah Sehri', 'Universite Adi', 'Universite Turu', 
    'Burs Aliyor mu?', 'Universite Kacinci Sinif', 'Universite Not Ortalamasi', 
    'Lise Turu', 'Lise Mezuniyet Notu', 'Baska Bir Kurumdan Burs Aliyor mu?', 
    'Baska Kurumdan Aldigi Burs Miktari', 'Anne Egitim Durumu', 'Anne Calisma Durumu', 
    'Baba Egitim Durumu', 'Baba Calisma Durumu', 'Kardes Sayisi', 
    'Girisimcilik Kulupleri Tarzi Bir Kulube Uye misiniz?', 
    'Profesyonel Bir Spor Daliyla Mesgul musunuz?', 'Aktif olarak bir STK üyesi misiniz?', 
    'Stk Projesine Katildiniz Mi?', 'Girisimcilikle Ilgili Deneyiminiz Var Mi?', 
    'Ingilizce Biliyor musunuz?', 'Ingilizce Seviyeniz?'
]

important_columns_test = [
    'id',
    'Cinsiyet', 'Dogum Tarihi', 'Ikametgah Sehri', 'Universite Adi', 'Universite Turu', 
    'Burs Aliyor mu?', 'Universite Kacinci Sinif', 'Universite Not Ortalamasi', 
    'Lise Turu', 'Lise Mezuniyet Notu', 'Baska Bir Kurumdan Burs Aliyor mu?', 
    'Baska Kurumdan Aldigi Burs Miktari', 'Anne Egitim Durumu', 'Anne Calisma Durumu', 
    'Baba Egitim Durumu', 'Baba Calisma Durumu', 'Kardes Sayisi', 
    'Girisimcilik Kulupleri Tarzi Bir Kulube Uye misiniz?', 
    'Profesyonel Bir Spor Daliyla Mesgul musunuz?', 'Aktif olarak bir STK üyesi misiniz?', 
    'Stk Projesine Katildiniz Mi?', 'Girisimcilikle Ilgili Deneyiminiz Var Mi?', 
    'Ingilizce Biliyor musunuz?', 'Ingilizce Seviyeniz?'
]

# Drop all columns except the important ones in both train and test datasets
train_data_filtered = train_data[important_columns_train].copy()
test_data_filtered = test_data[important_columns_test].copy()

# Define a function to clean and parse dates
def clean_date(date_series):
    # Dictionary for normalizing Turkish month names
    month_map = {
        'Ocak': '01', 'Şubat': '02', 'Mart': '03', 'Nisan': '04',
        'Mayıs': '05', 'Haziran': '06', 'Temmuz': '07', 'Ağustos': '08',
        'Eylül': '09', 'Ekim': '10', 'Kasım': '11', 'Aralık': '12'
    }

    def translate_and_clean(date_str):
        if pd.isna(date_str):
            return None

        # Normalize special characters and replace month names
        date_str = date_str.replace('Ş', 'S').replace('ı', 'i').replace('ç', 'c').replace('ğ', 'g').replace('ü', 'u').replace('ö', 'o')
        
        for turkish_month, numeric_month in month_map.items():
            if turkish_month in date_str:
                date_str = date_str.replace(turkish_month, numeric_month)

        # Replace common separators with dashes
        date_str = date_str.replace('/', '-').replace('.', '-').replace(',', '-')

        # Attempt to parse the date using a list of common formats
        formats = [
            "%d-%m-%Y", "%d-%m-%y", "%Y-%m-%d", "%Y/%m/%d", "%d/%m/%Y",
            "%d-%b-%Y", "%d-%b-%y", "%b-%d-%Y", "%b-%d-%y", "%d %B %Y", "%d %B %y",
            "%B %d, %Y", "%d %B %Y"
        ]
        
        for fmt in formats:
            try:
                return parser.parse(date_str, fuzzy=True).year
            except (ValueError, TypeError):
                continue
        
        return None

    return date_series.apply(translate_and_clean)

# Clean 'Dogum Tarihi' using the custom function
train_data_filtered['Dogum Tarihi'] = clean_date(train_data_filtered['Dogum Tarihi'])
test_data_filtered['Dogum Tarihi'] = clean_date(test_data_filtered['Dogum Tarihi'])

# Check for missing values and understand data loss
print("Train Data Missing 'Dogum Tarihi':", train_data_filtered['Dogum Tarihi'].isna().sum())
print("Test Data Missing 'Dogum Tarihi':", test_data_filtered['Dogum Tarihi'].isna().sum())

# Display the filtered and cleaned data
print(train_data_filtered.head())
print(test_data_filtered.head())

# Display the rows with missing 'Dogum Tarihi' for further inspection
missing_dates_train = train_data_filtered[train_data_filtered['Dogum Tarihi'].isna()]
missing_dates_test = test_data_filtered[test_data_filtered['Dogum Tarihi'].isna()]

print("Missing 'Dogum Tarihi' in Train Data:")
print(missing_dates_train.head(10))  # Displaying first 10 for inspection

print("Missing 'Dogum Tarihi' in Test Data:")
print(missing_dates_test.head(10))  # Displaying first 10 for inspection


Train Data Missing 'Dogum Tarihi': 1819
Test Data Missing 'Dogum Tarihi': 0
   Degerlendirme Puani Cinsiyet  Dogum Tarihi Ikametgah Sehri  \
0                 52.0    Erkek        1994.0          Ankara   
1                 30.0    Erkek        1993.0        İstanbul   
2                 18.0    Erkek        1986.0        İstanbul   
3                 40.0    Erkek        1991.0        İstanbul   
4                 24.0    Erkek        1992.0          Ankara   

                     Universite Adi Universite Turu Burs Aliyor mu?  \
0           İHSAN DOĞRAMACI BİLKENT            Özel            Evet   
1           İHSAN DOĞRAMACI BİLKENT            Özel           Hayır   
2  ULUSLARARASI KIBRIS ÜNİVERSİTESİ            Özel           Hayır   
3       İSTANBUL ŞEHİR ÜNİVERSİTESİ            Özel            Evet   
4          TURGUT ÖZAL ÜNİVERSİTESİ            Özel            Evet   

  Universite Kacinci Sinif Universite Not Ortalamasi       Lise Turu  ...  \
0                        3   

In [3]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Step 1: Ensure 'Dogum Tarihi' is in the dataset and drop rows where it is missing
if 'Dogum Tarihi' in train_data_filtered.columns:
    train_data_filtered = train_data_filtered.dropna(subset=['Dogum Tarihi'])

# Step 2: Calculate 'Yas' (age) based on 'Dogum Tarihi' and drop 'Dogum Tarihi' if it exists
if 'Dogum Tarihi' in train_data_filtered.columns:
    current_year = pd.Timestamp.now().year
    train_data_filtered['Yas'] = current_year - train_data_filtered['Dogum Tarihi']
    train_data_filtered = train_data_filtered.drop(columns=['Dogum Tarihi'])

if 'Dogum Tarihi' in test_data_filtered.columns:
    test_data_filtered['Yas'] = current_year - test_data_filtered['Dogum Tarihi']
    test_data_filtered = test_data_filtered.drop(columns=['Dogum Tarihi'])

# Step 3: Fill missing values in numerical columns for train dataset (including excluded ones)
numerical_columns_train = train_data_filtered.select_dtypes(include=['number']).columns

# Exclude the columns you don't want to encode as numerical
exclude_from_encoding = ['Kardes Sayisi', 'Baska Kurumdan Aldigi Burs Miktari', 'Universite Kacinci Sinif']

# Fill missing values for numerical columns in training set
train_data_filtered[numerical_columns_train] = train_data_filtered[numerical_columns_train].fillna(train_data_filtered[numerical_columns_train].median())

# For the test dataset, exclude 'Degerlendirme Puani' and fill only the existing numerical columns
numerical_columns_test = test_data_filtered.select_dtypes(include=['number']).columns
test_data_filtered[numerical_columns_test] = test_data_filtered[numerical_columns_test].fillna(test_data_filtered[numerical_columns_test].median())

# Step 4: Fill missing values in categorical columns before encoding
categorical_columns = train_data_filtered.select_dtypes(include=['object']).columns

# Exclude 'Kardes Sayisi', 'Baska Kurumdan Aldigi Burs Miktari', 'Universite Kacinci Sinif' from encoding
categorical_columns = [col for col in categorical_columns if col not in exclude_from_encoding]

train_data_filtered[categorical_columns] = train_data_filtered[categorical_columns].fillna('Unknown')
test_data_filtered[categorical_columns] = test_data_filtered[categorical_columns].fillna('Unknown')

# Step 5: Encode only categorical variables using LabelEncoder, handle unseen labels in the test set
label_encoders = {}
for col in categorical_columns:
    le = LabelEncoder()
    train_data_filtered[col] = le.fit_transform(train_data_filtered[col].astype(str))
    
    # Handle unseen labels in test set: if label not seen in training, assign -1
    test_data_filtered[col] = test_data_filtered[col].apply(lambda x: le.transform([x])[0] if x in le.classes_ else -1)

    # Save the encoder for future use if needed
    label_encoders[col] = le

# Display the final cleaned and encoded datasets
print(train_data_filtered.head())
print(test_data_filtered.head())


   Degerlendirme Puani  Cinsiyet  Ikametgah Sehri  Universite Adi  \
0                 52.0         2               28             439   
1                 30.0         2              298             439   
2                 18.0         2              298             387   
3                 40.0         2              298             471   
4                 24.0         2               28             371   

   Universite Turu  Burs Aliyor mu? Universite Kacinci Sinif  \
0                4                1                        3   
1                4                2                        3   
2                4                2                        1   
3                4                1                        3   
4                4                1                      NaN   

   Universite Not Ortalamasi  Lise Turu  Lise Mezuniyet Notu  ...  \
0                         13          1                    8  ...   
1                         11          1                    6  

In [4]:
train_data_filtered.iloc[15]

Degerlendirme Puani                                     48.0
Cinsiyet                                                   2
Ikametgah Sehri                                          156
Universite Adi                                           422
Universite Turu                                            4
Burs Aliyor mu?                                            1
Universite Kacinci Sinif                                   3
Universite Not Ortalamasi                                 13
Lise Turu                                                  1
Lise Mezuniyet Notu                                        6
Baska Bir Kurumdan Burs Aliyor mu?                         1
Baska Kurumdan Aldigi Burs Miktari                       NaN
Anne Egitim Durumu                                        10
Anne Calisma Durumu                                        2
Baba Egitim Durumu                                        11
Baba Calisma Durumu                                        0
Kardes Sayisi           

In [5]:
train_data.iloc[15]

Basvuru Yili                                                                         2014
Degerlendirme Puani                                                                  33.0
Cinsiyet                                                                            Erkek
Dogum Tarihi                                                                    4/16/1992
Dogum Yeri                                                                        Erzurum
Ikametgah Sehri                                                                     İzmir
Universite Adi                                                         İZMİR ÜNİVERSİTESİ
Universite Turu                                                                      Özel
Burslu ise Burs Yuzdesi                                                             100.0
Burs Aliyor mu?                                                                      Evet
Bölüm                                                             Bilgisayar mühendisliği
Universite

In [9]:
import pandas as pd

# Optional: Make predictions on the test set
test_data_filtered_encoded = test_data_filtered.copy()

# Encode the categorical columns in the test set using the same encoders
for col in categorical_columns:
    test_data_filtered_encoded[col] = test_data_filtered_encoded[col].apply(lambda x: label_encoders[col].transform([x])[0] if x in label_encoders[col].classes_ else -1)

# Ensure that the 'id' column is dropped before making predictions
if 'id' in test_data_filtered_encoded.columns:
    test_data_filtered_encoded = test_data_filtered_encoded.drop(columns=['id'])

# Make predictions on the test set
test_predictions = model.predict(test_data_filtered_encoded)
print("Test Predictions:", test_predictions[:5])

# Assuming the 'id' column is present in the original test data
# Create a DataFrame with the id and predicted scores
results = pd.DataFrame({
    'id': test_data_filtered['id'],  # Use the 'id' column from the original test data
    'Predicted_Puani': test_predictions
})

# Save the results to a CSV file
results.to_csv('predicted_scores.csv', index=False)

print("Prediction results saved to 'predicted_scores.csv'.")


Test Predictions: [29.52637566 23.98992991 17.64435955 17.51026236 22.02717585]
Prediction results saved to 'predicted_scores.csv'.


In [None]:
import pandas as pd

# Make predictions on the test set
test_data_filtered_encoded = test_data_filtered.copy()

# Encode the categorical columns in the test set using the same encoders
for col in categorical_columns:
    test_data_filtered_encoded[col] = test_data_filtered_encoded[col].apply(lambda x: label_encoders[col].transform([x])[0] if x in label_encoders[col].classes_ else -1)

# Make predictions on the test set
test_predictions = model.predict(test_data_filtered_encoded)

# Assuming the 'id' column is present in your test data for identification
# Create a DataFrame with the id and predicted scores
results = pd.DataFrame({
    'id': test_data_filtered['id'],  # Assuming 'id' column exists in the test data
    'Predicted_Puani': test_predictions
})

# Save the results to a CSV file
results.to_csv('predicted_scores.csv', index=False)

print("Prediction results saved to 'predicted_scores.csv'.")
