In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# EXCEL DOSYASINI YÜKLEME
# Dosya yolu, herkes kendi bilgisayarına göre güncellesin
file_path = "C:\\Users\\7981\\Desktop\\ENS492\\ens492.xlsx"

df = pd.read_excel(file_path, index_col=0)  

# Sütun isimlerini temizlemek için
df.columns = df.columns.str.strip().str.upper()
df.index = df.index.str.strip().str.upper()

print("Sütun İsimleri:", df.columns.tolist())
print(df.head())  


Sütun İsimleri: ['ADANA', 'ADIYAMAN', 'AFYONKARAHİSAR', 'AĞRI', 'AKSARAY', 'AMASYA', 'ANKARA', 'ANTALYA', 'ARDAHAN', 'ARTVİN', 'AYDIN', 'BALIKESİR', 'BARTIN', 'BATMAN', 'BAYBURT', 'BİLECİK', 'BİNGÖL', 'BİTLİS', 'BOLU', 'BURDUR', 'BURSA', 'ÇANAKKALE', 'ÇANKIRI', 'ÇORUM', 'DENİZLİ', 'DİYARBAKIR', 'DÜZCE', 'EDİRNE', 'ELAZIĞ', 'ERZİNCAN', 'ERZURUM', 'ESKİŞEHİR', 'GAZİANTEP', 'GİRESUN', 'GÜMÜŞHANE', 'HAKKARİ', 'HATAY', 'IĞDIR', 'ISPARTA', 'İSTANBUL', 'İZMİR', 'KAHRAMANMARAŞ', 'KARABÜK', 'KARAMAN', 'KARS', 'KASTAMONU', 'KAYSERİ', 'KIRIKKALE', 'KIRKLARELİ', 'KIRŞEHİR', 'KİLİS', 'KOCAELİ', 'KONYA', 'KÜTAHYA', 'MALATYA', 'MANİSA', 'MARDİN', 'MERSİN', 'MUĞLA', 'MUŞ', 'NEVŞEHİR', 'NİĞDE', 'ORDU', 'OSMANİYE', 'RİZE', 'SAKARYA', 'SAMSUN', 'SİİRT', 'SİNOP', 'SİVAS', 'ŞANLIURFA', 'ŞIRNAK', 'TEKİRDAĞ', 'TOKAT', 'TRABZON', 'TUNCELİ', 'UŞAK', 'VAN', 'YALOVA', 'YOZGAT', 'ZONGULDAK']
                           ADANA     ADIYAMAN  AFYONKARAHİSAR         AĞRI  \
İLLER                                        

In [3]:
# KAZA SAYISINI NORMALİZE ETME
# Verilen veri, her şehir için toplam kaza sayısını değil, 1 milyon kişi başına düşen kaza oranını gösteriyor.
# Ancak diğer feature'lar şehir nüfusuna göre normalize edildiği için, kaza oranını da gerçek kaza sayısına çevirdim.
# Bunu yapmak için:
# 1. 1 milyon kişi başına düşen kaza oranını (df.loc["KAZASAYİSİ2023"] / 1.000.000) ile orana çevirdim.
# 2. Bu oranı şehrin gerçek nüfusu ile çarparak, toplam kaza sayısını hesapladım.
df.loc["KAZASAYİSİ2023"] = (df.loc["KAZASAYİSİ2023"] / 1000000) * df.loc["NUFUS2023"]
print("Kaza Sayisi Normalizasyonu Tamamlandi")


Kaza Sayisi Normalizasyonu Tamamlandi


In [4]:
# Feature listesi
socioeconomic_features = ["GSH2023", "OKUMAYAZMAORANİ2023", "SUCORANLARİ2023", "TİYATRO2023", "KAZASAYİSİ2023", "İSSİZLİK2023", "NUFUS2023", "DOKTORSAYİSİ2023"]
climate_features = ["İKLİMOCAK", "İKLİMSUBAT", "İKLİMMART", "İKLİMNİSAN", "İKLİMMAYIS", "İKLİMHAZİRAN", "İKLİMTEMMUZ", "İKLİMAGUSTOS", "İKLİMEYLUL", "İKLİMEKİM", "İKLİMARALİK"]
election_features = ["MİLLETİTTİFAKİ", "EMEKVEOZGURLUK", "CUMHURİTTİFAKİ", "ATAİTTİFAKİ"]
# Tüm özellikleri içeren final feature listesi
all_features = socioeconomic_features + climate_features + election_features

In [6]:
# Eksik sütun kontrolü
missing_features = [feature for feature in all_features if feature not in df.index]
if missing_features:
    print(f"Eksik Feature'lar: {missing_features}")
    raise KeyError(f"Bu feature'lar DataFrame içinde bulunamadi: {missing_features}")
else:
    print("\nTüm Gerekli Feature'lar Mevcut!")


Tüm Gerekli Feature'lar Mevcut!


In [7]:
# DataFrame'i numpy array'e çevirme, iller satır olarak kalacak
final_array = df.T[all_features].apply(pd.to_numeric, errors='coerce').values  # Sayıları float'a çevirme
final_array = np.nan_to_num(final_array)  # NaN değerleri 0 yapma (ÖNEMLİ: Eğer NaN olan yerler varsa, burada 0'a çevrilir)

# Seçim verilerinin sıfır olup olmadığını kontrol etme
print("\nSeçim Verilerinin Son Durumu:")
election_data = df.T[election_features].apply(pd.to_numeric, errors='coerce')
print(election_data.describe())
print(election_data.head())


Seçim Verilerinin Son Durumu:
İLLER   MİLLETİTTİFAKİ  EMEKVEOZGURLUK  CUMHURİTTİFAKİ    ATAİTTİFAKİ
count     8.100000e+01    8.100000e+01    8.100000e+01      81.000000
mean      2.279329e+05    6.899943e+04    3.197246e+05   14804.432099
std       4.798928e+05    1.606920e+05    5.621300e+05   36489.862808
min       8.020000e+03    3.330000e+02    1.053300e+04       0.000000
25%       4.924800e+04    2.629000e+03    8.905400e+04    1952.000000
50%       8.508600e+04    1.170500e+04    1.821910e+05    4087.000000
75%       2.030770e+05    7.110900e+04    3.060720e+05   11518.000000
max       3.676858e+06    1.241041e+06    4.634344e+06  286041.000000
İLLER           MİLLETİTTİFAKİ  EMEKVEOZGURLUK  CUMHURİTTİFAKİ  ATAİTTİFAKİ
ADANA                 544168.0        166789.0        608583.0      29488.0
ADIYAMAN               58912.0         38470.0        196592.0       1955.0
AFYONKARAHİSAR        146688.0          2873.0        303904.0      10605.0
AĞRI                   26229.0     

In [8]:
# Sonuçları formatlama
pd.set_option("display.float_format", "{:.5f}".format)
pd.set_option("display.max_columns", None)
pd.set_option("display.width", 1000)

formatted_array = np.array([[f"{x:.5f}".replace(".", ",") for x in row] for row in final_array])

# Final Feature Array'i gösterme
print("\nFinal Feature Array:")
df_formatted = pd.DataFrame(formatted_array, index=df.columns, columns=all_features)
print(df_formatted)



Final Feature Array:
                    GSH2023 OKUMAYAZMAORANİ2023 SUCORANLARİ2023 TİYATRO2023 KAZASAYİSİ2023 İSSİZLİK2023      NUFUS2023 DOKTORSAYİSİ2023 İKLİMOCAK İKLİMSUBAT İKLİMMART İKLİMNİSAN İKLİMMAYIS İKLİMHAZİRAN İKLİMTEMMUZ İKLİMAGUSTOS İKLİMEYLUL İKLİMEKİM İKLİMARALİK MİLLETİTTİFAKİ EMEKVEOZGURLUK CUMHURİTTİFAKİ  ATAİTTİFAKİ
ADANA            8188,22687            97,18000         0,00388     0,00001     6059,42536      0,02840  2270298,00000          2,28189  12,40000   13,60000  15,40000   21,20000   22,20000     29,50000    30,40000     30,10000   28,80000  22,30000    14,00000   544168,00000   166789,00000   608583,00000  29488,00000
ADIYAMAN         4779,99999            95,21000         0,00204     0,00000     1629,20575      0,04172   604978,00000          1,70432   7,00000    8,70000  10,60000   19,60000   20,20000     31,70000    32,60000     32,80000   29,10000  19,70000     9,40000    58912,00000    38470,00000   196592,00000   1955,00000
AFYONKARAHİSAR   6884,37

In [9]:
# Transpoz Alma
df_transposed = df_formatted.T
print("\nTranspoze Feature Array:")
print(df_transposed)

# Excel olarak kaydetme
#save_transposed_path = "C:\\Users\\7981\\Desktop\\ENS492\\ens492_transposed.xlsx"
#df_transposed.to_excel(save_transposed_path)
#print(f"\nTranspoze edilmiş Excel dosyasi kaydedildi: {save_transposed_path}")


Transpoze Feature Array:
                             ADANA      ADIYAMAN AFYONKARAHİSAR          AĞRI       AKSARAY        AMASYA         ANKARA        ANTALYA      ARDAHAN        ARTVİN          AYDIN      BALIKESİR        BARTIN        BATMAN      BAYBURT       BİLECİK        BİNGÖL        BİTLİS          BOLU        BURDUR          BURSA     ÇANAKKALE       ÇANKIRI         ÇORUM        DENİZLİ     DİYARBAKIR         DÜZCE        EDİRNE        ELAZIĞ      ERZİNCAN       ERZURUM     ESKİŞEHİR      GAZİANTEP       GİRESUN     GÜMÜŞHANE       HAKKARİ          HATAY         IĞDIR       ISPARTA        İSTANBUL          İZMİR  KAHRAMANMARAŞ       KARABÜK       KARAMAN          KARS     KASTAMONU        KAYSERİ     KIRIKKALE    KIRKLARELİ      KIRŞEHİR         KİLİS        KOCAELİ          KONYA       KÜTAHYA       MALATYA         MANİSA        MARDİN         MERSİN          MUĞLA           MUŞ      NEVŞEHİR         NİĞDE          ORDU      OSMANİYE          RİZE        SAKARYA         SA

In [10]:
# 8. KULLANICIDAN ŞEHİR ALARAK ARRAY GÖSTERME

def get_city_array(city_name):
    city_name = city_name.strip().upper()
    if city_name in df.columns:
        city_array = df.loc[all_features, city_name].astype(float).values
        formatted_city_array = [f"{x:.5f}".replace(".", ",") for x in city_array]
        print(f"\n{city_name} İçin Feature Array:")
        print(formatted_city_array)

        # Transpose olarak da göster
        city_transposed = pd.DataFrame(formatted_city_array, index=all_features, columns=[city_name])
        print("\nTranspoze Format:")
        print(city_transposed)

        return formatted_city_array
    else:
        print("Bu şehir bulunamadi. Lütfen şehir ismini kontrol edin.")
        return None

city_input = input("\nLütfen bir şehir ismi girin: ").strip().upper()
if city_input:
    get_city_array(city_input)


ADANA İçin Feature Array:
['8188,22687', '97,18000', '0,00388', '0,00001', '6059,42536', '0,02840', '2270298,00000', '2,28189', '12,40000', '13,60000', '15,40000', '21,20000', '22,20000', '29,50000', '30,40000', '30,10000', '28,80000', '22,30000', '14,00000', '544168,00000', '166789,00000', '608583,00000', '29488,00000']

Transpoze Format:
                             ADANA
GSH2023                 8188,22687
OKUMAYAZMAORANİ2023       97,18000
SUCORANLARİ2023            0,00388
TİYATRO2023                0,00001
KAZASAYİSİ2023          6059,42536
İSSİZLİK2023               0,02840
NUFUS2023            2270298,00000
DOKTORSAYİSİ2023           2,28189
İKLİMOCAK                 12,40000
İKLİMSUBAT                13,60000
İKLİMMART                 15,40000
İKLİMNİSAN                21,20000
İKLİMMAYIS                22,20000
İKLİMHAZİRAN              29,50000
İKLİMTEMMUZ               30,40000
İKLİMAGUSTOS              30,10000
İKLİMEYLUL                28,80000
İKLİMEKİM                 2

In [11]:
# Z-Score Normalizasyonu
def z_score_normalization(array):
    mean = np.mean(array, axis=0)
    std = np.std(array, axis=0)
    return (array - mean) / std

normalized_array = z_score_normalization(final_array)

# Normalizasyon sonrası verileri gösterme
print("\nZ-Score Normalizasyonu Uygulanmış Feature Array:")
df_normalized = pd.DataFrame(normalized_array, index=df.columns, columns=all_features)
print(df_normalized)


Z-Score Normalizasyonu Uygulanmış Feature Array:
                GSH2023  OKUMAYAZMAORANİ2023  SUCORANLARİ2023  TİYATRO2023  KAZASAYİSİ2023  İSSİZLİK2023  NUFUS2023  DOKTORSAYİSİ2023  İKLİMOCAK  İKLİMSUBAT  İKLİMMART  İKLİMNİSAN  İKLİMMAYIS  İKLİMHAZİRAN  İKLİMTEMMUZ  İKLİMAGUSTOS  İKLİMEYLUL  İKLİMEKİM  İKLİMARALİK  MİLLETİTTİFAKİ  EMEKVEOZGURLUK  CUMHURİTTİFAKİ  ATAİTTİFAKİ
ADANA           0.10027              0.09010          0.33211      2.33506         0.81691      -0.57334    0.64359           0.83950    1.87623     1.62936    1.92030     1.84449     1.90682       1.23221      1.15125       1.20098     1.59919    1.92212      1.64526         0.66308         0.61234         0.51707      0.40491
ADIYAMAN       -1.01813             -1.36658         -1.55434     -0.26794        -0.32939       1.00598   -0.23758          -0.36611    0.49581     0.39143    0.52788     1.22084     1.24050       1.85249      1.77520       2.03112     1.69997    1.20655      0.43781        -0.35440      

In [16]:
print("\nZ-Score Normalizasyonu Sonrası Min ve Max Değerler:")
print(f"Minimum Z-Score: {df_normalized.min().min():.2f}")
print(f"Maksimum Z-Score: {df_normalized.max().max():.2f}")



Z-Score Normalizasyonu Sonrası Min ve Max Değerler:
Minimum Z-Score: -3.57
Maksimum Z-Score: 7.73


In [17]:
# Feature bazında min ve max Z-Score'ları kontrol et
feature_zscore_minmax = pd.DataFrame({
    "Min Z-Score": df_normalized.min(),
    "Max Z-Score": df_normalized.max()
})

# -3 veya +3 sınırını aşan feature'ları göster
outlier_features = feature_zscore_minmax[
    (feature_zscore_minmax["Min Z-Score"] < -3) | (feature_zscore_minmax["Max Z-Score"] > 3)
]

print("\nAşırı uç değerler içeren feature'lar:")
print(outlier_features)



Aşırı uç değerler içeren feature'lar:
                  Min Z-Score  Max Z-Score
GSH2023              -1.58892      3.40623
TİYATRO2023          -0.26794      6.25875
KAZASAYİSİ2023       -0.70567      5.88036
İSSİZLİK2023         -1.49362      6.14571
NUFUS2023            -0.51216      7.72630
DOKTORSAYİSİ2023     -1.54409      4.54076
İKLİMOCAK            -3.08308      2.33638
İKLİMSUBAT           -3.57497      1.90726
İKLİMMART            -3.06918      2.26840
MİLLETİTTİFAKİ       -0.46111      7.23164
EMEKVEOZGURLUK       -0.42998      7.33916
CUMHURİTTİFAKİ       -0.55346      7.72331
ATAİTTİFAKİ          -0.40824      7.47952


In [None]:
from scipy.stats.mstats import winsorize

# Z-Score Normalizasyonu Öncesinde Winsorization Uygula (%5 ile) Sadece çok büyük veya çok küçük olanlar, belirli bir sınırda tutuluyor. Verinin
# genel yapısı korunuyor, ancak aşırı değerlerin etkisi azaltılıyor.

for i in range(final_array.shape[1]):
    final_array[:, i] = winsorize(final_array[:, i], limits=[0.05, 0.05])  # %5'lik uç değer kırpıldı

def z_score_normalization(array):
    mean = np.mean(array, axis=0)
    std = np.std(array, axis=0)
    std[std == 0] = 1  # Standart sapma 0 olanları 1 yaparak hata önlenir
    return (array - mean) / std

normalized_array = z_score_normalization(final_array)

# Winsorization sonrası Min ve Max değerleri tekrar kontrol et
print("\nWinsorization sonrası Min ve Max Z-Skorları:")
print(f"Minimum Z-Score: {normalized_array.min():.2f}")
print(f"Maksimum Z-Score: {normalized_array.max():.2f}")

print("\nZ-Score Normalizasyonu Uygulanmış Feature Array:")
df_normalized = pd.DataFrame(normalized_array, index=df.columns, columns=all_features)
print(df_normalized)


# Excel olarak kaydetme
#save_path = "C:\\Users\\7981\\Desktop\\ENS492\\normalized_winsorized_data.xlsx"
#df_normalized.to_excel(save_path)

#print(f"\nWinsorization ve Z-Score Normalizasyonu uygulanmış veriler Excel'e kaydedildi: {save_path}")



Winsorization sonrası Min ve Max Z-Skorları:
Minimum Z-Score: -2.27
Maksimum Z-Score: 3.45

Z-Score Normalizasyonu Uygulanmış Feature Array:
                GSH2023  OKUMAYAZMAORANİ2023  SUCORANLARİ2023  TİYATRO2023  KAZASAYİSİ2023  İSSİZLİK2023  NUFUS2023  DOKTORSAYİSİ2023  İKLİMOCAK  İKLİMSUBAT  İKLİMMART  İKLİMNİSAN  İKLİMMAYIS  İKLİMHAZİRAN  İKLİMTEMMUZ  İKLİMAGUSTOS  İKLİMEYLUL  İKLİMEKİM  İKLİMARALİK  MİLLETİTTİFAKİ  EMEKVEOZGURLUK  CUMHURİTTİFAKİ  ATAİTTİFAKİ
ADANA           0.16299              0.08006          0.34826      3.45161         1.50536      -0.74584    1.96650           1.04086    1.55959     1.44415    1.73889     1.74833     1.87976       1.32079      1.25628       1.33095     1.67682    1.77587      1.57170         1.96147         1.57936         1.42906      1.43744
ADIYAMAN       -1.13709             -1.43903         -1.56612     -0.30576        -0.37137       1.53635   -0.30680          -0.38697    0.57016     0.42991    0.58095     1.32165     1.33546       

In [None]:
# Veriyi yükleme
#file_path = "C:\\Users\\7981\\Desktop\\ENS492\\normalized_winsorized_data.xlsx"
#df_normalized = pd.read_excel(file_path, index_col=0)

# Transpoz alma (Şehirler sütun olacak)
#df_transposed = df_normalized.T
# Kaydetme
#save_transposed_path = "C:\\Users\\7981\\Desktop\\ENS492\\final_normalized_winsorized_transposed_data.xlsx"
#df_transposed.to_excel(save_transposed_path)

#print(f"\nTranspoze edilmiş Excel dosyası kaydedildi: {save_transposed_path}")


Transpoze edilmiş Excel dosyası kaydedildi: C:\Users\7981\Desktop\ENS492\final_normalized_winsorized_transposed_data.xlsx


In [None]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Dosya yolu 
file_path = "C:\\Users\\7981\\Desktop\\ENS492\\final_normalized_winsorized_transposed_data.xlsx"

df_transposed = pd.read_excel(file_path, index_col=0)

# Sayısal değerlere çevirme 
df_transposed = df_transposed.map(lambda x: float(str(x).replace(",", ".")))

# Kosinüs benzerlik matrisini hesapla (81x81 olacak)
cosine_sim_matrix = cosine_similarity(df_transposed.T) 

# Şehir isimlerini al
cities = df_transposed.columns  
cosine_sim_df = pd.DataFrame(cosine_sim_matrix, index=cities, columns=cities)

# En benzer şehri bulma fonksiyonu
def find_most_similar_city(city_name):
    city_name = city_name.strip().upper()

    if city_name not in cities:
        print(f"Hata: {city_name} şehir verisi bulunamadı. Lütfen tekrar kontrol edin!")
        return None

    # Şehre göre benzerlikleri al, kendisini hariç tut
    similarities = cosine_sim_df[city_name].drop(city_name)

    # En yüksek benzerlik değerine sahip şehri bul
    most_similar_city = similarities.idxmax()
    similarity_score = similarities.max()

    print(f"\n🔹 {city_name} şehrine en benzer şehir: {most_similar_city} (Benzerlik Skoru: {similarity_score:.5f})")

    return most_similar_city, similarity_score

# Kullanıcıdan şehir ismi al
city_input = input("\nYaşadığınız şehri girin (örn: İZMİR): ").strip().upper()
if city_input:
    find_most_similar_city(city_input)

# Benzerlik matrisini Excel'e kaydetme (81x81 Distance Matrix)
#similarity_matrix_path = "C:\\Users\\7981\\Desktop\\ENS492\\cosine_similarity_matrix.xlsx"
#cosine_sim_df.to_excel(similarity_matrix_path)

#print(f"\n✅ Kosinüs Benzerlik Matrisi başarıyla kaydedildi: {similarity_matrix_path}")


🔹 İZMİR şehrine en benzer şehir: İSTANBUL (Benzerlik Skoru: 0.92293)

✅ Kosinüs Benzerlik Matrisi başarıyla kaydedildi: C:\Users\7981\Desktop\ENS492\cosine_similarity_matrix.xlsx


In [None]:
import pandas as pd

file_path = "C:\\Users\\7981\\Desktop\\ENS492\\cosine_similarity_matrix.xlsx"
cosine_sim_df = pd.read_excel(file_path, index_col=0)

# 1. Şehir Listesi 
buyuk_sehirler = [
    "İSTANBUL", "ANKARA", "İZMİR", "BURSA", "ANTALYA", "ADANA", 
    "GAZİANTEP", "KONYA", "ŞANLIURFA", "KOCAELİ", "MERSİN", "KAYSERİ", 
    "ESKİŞEHİR", "DİYARBAKIR", "HATAY", "SAMSUN", "BALIKESİR", "TEKİRDAĞ"
]

# 2. Büyükşehirler için benzerlik matrisini filtreleme
cosine_sim_big_cities = cosine_sim_df.loc[buyuk_sehirler, buyuk_sehirler]

# 3. En çok benzeyen büyükşehir çiftlerini bulma
most_similar_big_cities = cosine_sim_big_cities.stack().sort_values(ascending=False)

# Kendisiyle olan benzerlikleri hariç 
most_similar_big_cities = most_similar_big_cities[most_similar_big_cities < 0.9999]

# 4. En benzer büyükşehir çiftleri
print("\n🔹 En Benzer Büyükşehirler:")
print(most_similar_big_cities.head(10))

# 5. En az benzeyen büyükşehir çiftleri
print("\n🔻 En Az Benzer Büyükşehirler:")
print(most_similar_big_cities.tail(10))



🔹 En Benzer Büyükşehirler:
ANTALYA   ADANA      0.94310
ADANA     ANTALYA    0.94310
MERSİN    HATAY      0.93415
HATAY     MERSİN     0.93415
İSTANBUL  BURSA      0.93312
BURSA     İSTANBUL   0.93312
İSTANBUL  İZMİR      0.92293
İZMİR     İSTANBUL   0.92293
KOCAELİ   BURSA      0.91574
BURSA     KOCAELİ    0.91574
dtype: float64

🔻 En Az Benzer Büyükşehirler:
ESKİŞEHİR   HATAY        -0.38145
HATAY       ESKİŞEHİR    -0.38145
KAYSERİ     ŞANLIURFA    -0.51579
ŞANLIURFA   KAYSERİ      -0.51579
DİYARBAKIR  KAYSERİ      -0.53219
KAYSERİ     DİYARBAKIR   -0.53219
DİYARBAKIR  ESKİŞEHİR    -0.65195
ESKİŞEHİR   DİYARBAKIR   -0.65195
ŞANLIURFA   ESKİŞEHİR    -0.72515
ESKİŞEHİR   ŞANLIURFA    -0.72515
dtype: float64
