In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# Veri setini yükle
df=pd.read_csv('df.csv')

In [3]:
# VERİ SETİ İSTATİSTİKSEL ANALİZ RAPORU
############################################################################

def statistical_analysis_report(df):
    """
    Veri setinin kapsamlı istatistiksel analizini gerçekleştirdim.
    
    Parametreler:
    df (pandas.DataFrame): Analiz edilecek veri setim
    
    Döndürür:
    dict: İstatistiksel analiz sonuçları
    """
    
    if not isinstance(df, pd.DataFrame) or df.empty:
        print("HATA: Geçerli bir veri seti bulunamadı.")
        print("   Lütfen veri setinizi yüklediğinizden emin olun.")
        return None
    
    print("=" * 80)
    print("VERİ SETİ İSTATİSTİKSEL ANALİZ RAPORU")
    print("=" * 80)
    
    # Temel veri seti bilgileri
    print(f"\nVERİ SETİ GENEL BİLGİLERİ:")
    print(f"   • Satır sayısı: {df.shape[0]:,}")
    print(f"   • Sütun sayısı: {df.shape[1]:,}")
    print(f"   • Toplam veri noktası: {df.size:,}")
    
    # Sayısal sütunları belirle
    numerical_columns = df.select_dtypes(include=[np.number]).columns.tolist()
    categorical_columns = df.select_dtypes(include=['object', 'category']).columns.tolist()
    
    print(f"   • Sayısal sütunlar: {len(numerical_columns)}")
    print(f"   • Kategorik sütunlar: {len(categorical_columns)}")
    
    if len(numerical_columns) > 0:
        print("\n" + "=" * 80)
        print("SAYISAL DEĞİŞKENLER İSTATİSTİKSEL ÖZETİ")
        print("=" * 80)
        
        # Detaylı istatistiksel analiz
        statistics = df[numerical_columns].describe().T
        
        # Daha okunaklı format için özel düzenleme
        statistics['Çarpıklık'] = df[numerical_columns].skew()
        statistics['Basıklık'] = df[numerical_columns].kurtosis()
        
        # Sonuçları güzel bir tablo formatında göster
        print("\nTEMEL İSTATİSTİKLER:")
        print(statistics.round(3).to_string())
        
        # Eksik değer analizi
        print("\n" + "-" * 50)
        print("EKSİK DEĞER ANALİZİ")
        print("-" * 50)
        
        

        # Eksik değer analizi
        missing_values = df[numerical_columns].isnull().sum()
        missing_percentages = (missing_values / len(df) * 100).round(2)
        
        for column in numerical_columns:
            if missing_values[column] > 0:
                print(f"   • {column}: {missing_values[column]:,} eksik değer (%{missing_percentages[column]})")
            else:
                print(f"   ✓ {column}: Eksik değer yok")
        
        # Veri dağılımı analizi
        print("\n" + "-" * 50)
        print("VERİ DAĞILIMI ÖZELLİKLERİ")
        print("-" * 50)
        
        for column in numerical_columns:
            skewness = statistics.loc[column, 'Çarpıklık']
            kurtosis = statistics.loc[column, 'Basıklık']
            
            print(f"\n   {column}:")
            print(f"      • Çarpıklık: {skewness:.3f} ", end="")
            if abs(skewness) < 0.5:
                print("(Simetrik dağılım)")
            elif skewness > 0:
                print("(Sağa çarpık)")
            else:
                print("(Sola çarpık)")
                
            print(f"      • Basıklık: {kurtosis:.3f} ", end="")
            if kurtosis > 3:
                print("(Sivri dağılım)")
            elif kurtosis < 3:
                print("(Basık dağılım)")
            else:
                print("(Normal dağılım)")
    
    else:
        print("\nUYARI: Veri setinde sayısal sütun bulunamadı.")
    
    print("\n" + "=" * 80)
    print("İSTATİSTİKSEL ANALİZ TAMAMLANDI")
    print("=" * 80)
    
    return statistics if len(numerical_columns) > 0 else None

def display_summary_statistics(df):
    """
    Veri setinin özet istatistiklerini görüntüler.
    
    Parametreler:
    df (pandas.DataFrame): Analiz edilecek veri seti
    """
    
    if not isinstance(df, pd.DataFrame) or df.empty:
        print("HATA: Veri seti bulunamadı veya boş.")
        return
    
    print("\n" + "=" * 60)
    print("ÖZET İSTATİSTİKLER")
    print("=" * 60)
    
    numerical_data = df.select_dtypes(include=[np.number])
    
    if not numerical_data.empty:
        print("\nSayısal sütunların ortalamaları:")
        print(numerical_data.mean().round(3))
        
        print("\nSayısal sütunların medyanları:")
        print(numerical_data.median().round(3))
        
        print("\nSayısal sütunların standart sapmaları:")
        print(numerical_data.std().round(3))
        
        print("\nSayısal sütunların minimum değerleri:")
        print(numerical_data.min())
        
        print("\nSayısal sütunların maksimum değerleri:")
        print(numerical_data.max())
    else:
        print("Sayısal sütun bulunamadı.")

# Ana analizi çalıştır
if 'df' in locals():
    results = statistical_analysis_report(df)
    display_summary_statistics(df)
else:
    print("HATA: Veri seti (df) bulunamadı. Lütfen önce veri setinizi yükleyin.")

VERİ SETİ İSTATİSTİKSEL ANALİZ RAPORU

VERİ SETİ GENEL BİLGİLERİ:
   • Satır sayısı: 1,000
   • Sütun sayısı: 15
   • Toplam veri noktası: 15,000
   • Sayısal sütunlar: 8
   • Kategorik sütunlar: 0

SAYISAL DEĞİŞKENLER İSTATİSTİKSEL ÖZETİ

TEMEL İSTATİSTİKLER:
                     count     mean      std     min      25%      50%      75%       max  Çarpıklık  Basıklık
Customer_ID         1000.0  500.500  288.819   1.000  250.750  500.500  750.250  1000.000      0.000    -1.200
Age                 1000.0   43.819   14.991  18.000   31.000   44.000   56.000    69.000     -0.042    -1.135
Num_Interactions    1000.0    7.545    4.017   1.000    4.000    8.000   11.000    14.000      0.016    -1.193
Feedback_Score      1000.0    2.985    1.418   1.000    2.000    3.000    4.000     5.000     -0.005    -1.293
Products_Purchased  1000.0   10.417    5.346   1.000    6.000   11.000   15.000    19.000     -0.110    -1.196
Products_Viewed     1000.0   27.370   12.940   5.000   17.000   27.500   

Bu çalışmada, 1.000 satır ve 15 sütundan oluşan veri seti üzerinde kapsamlı istatistiksel analizler yapılmıştır. Veri setinde toplam 15.000 veri noktası bulunmaktadır. Sayısal değişken sayısı 8 olup, kategorik değişkenler orijinal haliyle 3 adet (Gender, Location, Retention_Status) ve bunların one-hot encoding sonrası sütunları da veri setinde yer almaktadır.

Veri setindeki sayısal değişkenler üzerinde temel istatistikler (ortalama, medyan, standart sapma, minimum, maksimum, çeyrek değerler) hesaplanmış ve dağılım özellikleri (çarpıklık ve basıklık) incelenmiştir.

Customer_ID değişkeni 1 ile 1.000 arasında benzersiz kimlik numaralarını içermekte olup, modelleme için anlamlı bir değişken değildir.

Age (Yaş) değişkeni 18 ile 69 arasında dağılım göstermekte, ortalama 43,8 ve medyan 44’tür. Çarpıklık değeri -0,042 ile simetrik, basıklık değeri -1,135 ile basık bir dağılım göstermektedir.

Num_Interactions (Etkileşim Sayısı) ortalama 7,55 ve medyan 8 olarak hesaplanmış, çarpıklık 0,016 ve basıklık -1,193 ile simetrik ve basık bir dağılıma sahiptir.

Feedback_Score (Geri Bildirim Puanı) ortalaması 2,98, medyanı 3 olup, çarpıklık ve basıklık değerleri simetrik ve basık dağılımı desteklemektedir.

Products_Purchased (Satın Alınan Ürün Sayısı) 1 ile 19 arasında değişirken ortalaması 10,4’tür. Çarpıklık -0,11 ve basıklık -1,196 ile hafif simetrik ve basık bir dağılıma sahiptir.

Products_Viewed (Görüntülenen Ürün Sayısı) ortalama 27,37 olup, simetrik ve basık bir dağılıma sahiptir.

Time_Spent_on_Site (Sitede Geçirilen Süre) 5,1 ile 59,9 dakika arasında değişmekte, ortalama 32,3 dakikadır. Çarpıklık ve basıklık değerleri simetrik ve basık yapıyı desteklemektedir.

Satisfaction_Score (Memnuniyet Puanı) ortalaması 5,54 olup, 1 ile 10 arasında değerler almaktadır. Çarpıklık -0,028 ve basıklık -1,259 ile simetrik ve basık dağılım göstermektedir.

Veri setinde eksik değer bulunmamaktadır; tüm sayısal değişkenlerin non-null sayısı 1000’dir.

Kategorik değişkenler (Gender, Location, Retention_Status) orijinal olarak object tipindedir ve one-hot encoding ile ayrı sütunlara dönüştürülmüştür. Kodlanmış kategorik sütunlar arasında Gender_Encoded, Location_Encoded ve Retention_Status_Encoded bulunmaktadır. One-hot encoding sonrası toplam sütun sayısı 15 olup, yeni eklenen sütunlar orijinal sütunlarla birlikte veri setinde yer almaktadır.

Genel olarak, veri seti istatistiksel olarak temiz, eksiksiz, dengeli ve simetrik dağılımlar göstermektedir. Sayısal değişkenlerdeki çarpıklık değerleri çoğunlukla -0,1 ile +0,1 arasında olup, basıklık değerleri -1,1 ila -1,3 aralığında, bu da dağılımların uç değerlerden ziyade daha basık yapıda olduğunu göstermektedir. Kategorik değişkenler dengeli dağılmış olup, herhangi bir aşırı dengesizlik gözlenmemiştir.

Sonuç olarak, bu veri seti ileri analizler ve modelleme için uygun ve sağlam bir temel oluşturmaktadır.



In [4]:
if 'df' in locals() and isinstance(df, pd.DataFrame):

    missing_values = df.isnull().sum()
    missing_values = missing_values[missing_values > 0].sort_values(ascending=False)

    if not missing_values.empty:
        print("Her sütundaki eksik değer sayısı:\n")
        print(missing_values)

        print("\nHer sütundaki eksik değer yüzdesi:\n")
        missing_percentage = (df.isnull().sum() / len(df)) * 100
        print(missing_percentage[missing_percentage > 0].sort_values(ascending=False))

        print("\nEksik Değerlerle Başa Çıkma Yöntemleri\n")

        strategies = {
            "Silme (Dropping)": {
                "Satır Silme": "Eksik değer oranı düşükse satırlar silinebilir. → df.dropna(axis=0)",
                "Sütun Silme": "Eksik oranı çok yüksekse sütun tamamen çıkarılabilir. → df.dropna(axis=1)"
            },
            "Doldurma (Imputation)": {
                "Sayısal Veriler İçin": {
                    "Ortalama": "Normal dağılım varsa kullanılabilir. → df['col'].fillna(df['col'].mean())",
                    "Medyan": "Aykırı değer varsa daha güvenlidir. → df['col'].fillna(df['col'].median())",
                    "Mod": "En sık tekrar eden değerle doldurulur. → df['col'].fillna(df['col'].mode()[0])"
                },
                "Kategorik Veriler İçin": {
                    "Mod": "En çok geçen kategori ile doldurulabilir.",
                    "'Bilinmeyen'": "'Unknown' gibi özel bir sınıfla eksik değerler temsil edilebilir."
                },
                "Zaman Serileri": {
                    "ffill / bfill": "Zaman sıralı verilerde önceki veya sonraki değerle doldurmak uygundur."
                },
                "İleri Düzey Yöntemler": {
                    "Model Tabanlı": "Regresyon, KNN veya benzeri yöntemlerle tahmine dayalı doldurma yapılabilir."
                }
            }
        }

        for method, detail in strategies.items():
            print(f"\n{method}")
            if isinstance(detail, dict):
                for submethod, explanation in detail.items():
                    if isinstance(explanation, dict):
                        print(f"  {submethod}:")
                        for title, text in explanation.items():
                            print(f"    - {title}: {text}")
                    else:
                        print(f"  - {submethod}: {explanation}")
            else:
                print(f"  - {detail}")

        print("\nNot: Hangi yöntemin kullanılacağı, eksik değer oranına, veri tipine ve analiz amacına göre değişebilir.")

    else:
        print("Veri setinde eksik değer bulunmamaktadır.")

else:
    print("Veri çerçevesi (df) tanımlı değil. Lütfen önce veri setini yükleyin.")

Veri setinde eksik değer bulunmamaktadır.


EKSİK DEĞERİ NASIL DOLDURABİLİRDİK?
Eksik verilerle başa çıkmak için birkaç farklı yöntem kullanılır. Öncelikle, eğer eksik veri oranı çok düşükse, eksik olan satırlar tamamen veri setinden çıkarılabilir. Bu, df.dropna(axis=0) ile yapılır ve veri kaybı az olduğunda tercih edilir. Ancak, eksik değer oranı yüksekse, ilgili sütun tamamen silinebilir; bu durumda ise df.dropna(axis=1) kullanılır.

Eksik verileri doldurma (imputation) yöntemleri ise hem sayısal hem kategorik veriler için farklı şekilde uygulanır. Sayısal verilerde, eğer veri normal dağılıma sahipse, eksik değerler sütunun ortalaması ile doldurulabilir. Aykırı değerler varsa, medyan kullanmak daha güvenli olur çünkü medyan uç değerlerden etkilenmez. Ayrıca, en sık tekrar eden değer olan mod da sayısal verilerde tercih edilebilir. Bu işlemler df['col'].fillna(...) yöntemiyle yapılır.

Kategorik verilerde ise genellikle eksik değerler, en sık görülen kategori (mod) ile doldurulur. Alternatif olarak, eksik değerler için "Bilinmeyen" (örneğin 'Unknown') gibi özel bir kategori oluşturularak, eksik veriler bu şekilde temsil edilebilir.

Zaman serisi verilerde ise eksik değerleri doldurmak için önceki veya sonraki değerlerle doldurma yöntemleri (ffill veya bfill) tercih edilir. Bu, verinin zaman sırasını koruyarak eksik veriyi tamamlamaya yarar.

Daha ileri düzey yöntemlerde ise, regresyon, KNN gibi model tabanlı yaklaşımlar kullanılarak eksik değerler tahmine dayalı şekilde doldurulabilir. Bu yöntemler, eksik verilerin daha gerçekçi bir şekilde tamamlanmasını sağlar ve veri kalitesini artırır.