# Veri Keşfi ve Tanımlayıcı İstatistik

In [1]:
# Gerekli kütüphaneleri import et
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Excel dosyasını yükle
file_path = '../data/elektrik_veri_hashed.xlsx'
xls = pd.ExcelFile(file_path)

# Sayfa isimlerini görüntüle
print("Sayfa isimleri:", xls.sheet_names)

# Her sayfayı ayrı DataFrame'e yükle
df_tahsilat = pd.read_excel(xls, sheet_name='Tahsilat')
df_tahsilat_1 = pd.read_excel(xls, sheet_name='Tahsilat 1')
df_tahakkuk = pd.read_excel(xls, sheet_name='Tahakkuk')      # Hamamözü
df_tahakkuk_1 = pd.read_excel(xls, sheet_name='Tahakkuk 1')  # Gümüşhacıköy
df_tahakkuk_2 = pd.read_excel(xls, sheet_name='Tahakkuk 2')  # Göynücek

# DataFrame boyutlarını kontrol et
print(f"Tahsilat: {df_tahsilat.shape}")
print(f"Tahsilat 1: {df_tahsilat_1.shape}")
print(f"Tahakkuk (Hamamözü): {df_tahakkuk.shape}")
print(f"Tahakkuk 1 (Gümüşhacıköy): {df_tahakkuk_1.shape}")
print(f"Tahakkuk 2 (Göynücek): {df_tahakkuk_2.shape}")

Sayfa isimleri: ['Tahsilat', 'Tahsilat 1', 'Tahakkuk', 'Tahakkuk 1', 'Tahakkuk 2']
Tahsilat: (636993, 9)
Tahsilat 1: (917632, 22)
Tahakkuk (Hamamözü): (124818, 10)
Tahakkuk 1 (Gümüşhacıköy): (765657, 10)
Tahakkuk 2 (Göynücek): (295223, 10)


In [2]:
dfs = {
    "Tahsilat": df_tahsilat,
    "Tahsilat (Zaman)": df_tahsilat_1,
    "Hamamözü (Tahakkuk)": df_tahakkuk,
    "Gümüşhacıköy (Tahakkuk 1)": df_tahakkuk_1,
    "Göynücek (Tahakkuk 2)": df_tahakkuk_2
}

In [3]:
for name, df in dfs.items():
    print(f"\n### {name} İncelemesi ###")
    print("-" * 30)
    print(df.info())
    print("-" * 30)
    print("\nİstatistiksel Özet:")
    print(df.describe().T)
    print("-" * 30)
    print("\nVeri seti:")
    print("-" * 30)
    print(df.head())
    print("-" * 30)


### Tahsilat İncelemesi ###
------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636993 entries, 0 to 636992
Data columns (total 9 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   Şube                   636993 non-null  object        
 1   Kasa                   636993 non-null  object        
 2   İlçe                   636993 non-null  object        
 3   Söz.hsp.(bağımsız)     636993 non-null  int64         
 4   Tahsilat Tarihi        636993 non-null  datetime64[ns]
 5   Nakit Tahsilat         523 non-null     float64       
 6   Mahsuben Tahsilat      7542 non-null    float64       
 7   Kredi Kartı Tahsilatı  0 non-null       float64       
 8   Banka Tahsilatı        628933 non-null  float64       
dtypes: datetime64[ns](1), float64(4), int64(1), object(3)
memory usage: 43.7+ MB
None
------------------------------

İstatistiksel Özet:
                          count

In [4]:
print("\n### Benzersiz Müşteri Sayıları ###")
print(f"Hamamözü: {df_tahakkuk['sozlesme_hesap_no'].nunique()}")
print(f"Gümüşhacıköy: {df_tahakkuk_1['sozlesme_hesap_no'].nunique()}")
print(f"Göynücek: {df_tahakkuk_2['sozlesme_hesap_no'].nunique()}")


### Benzersiz Müşteri Sayıları ###
Hamamözü: 2981
Gümüşhacıköy: 18190
Göynücek: 7128


In [5]:
df_tuketim = pd.concat([df_tahakkuk, df_tahakkuk_1, df_tahakkuk_2], ignore_index=True)
print(f"Toplam Kayıt Sayısı: {df_tuketim.shape[0]}")
df_tuketim.ilce.value_counts()

Toplam Kayıt Sayısı: 1185698


ilce
GÜMÜŞHACIKÖY    765657
GÖYNÜCEK        295223
HAMAMÖZÜ        124818
Name: count, dtype: int64

In [6]:
df_tuketim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1185698 entries, 0 to 1185697
Data columns (total 10 columns):
 #   Column             Non-Null Count    Dtype  
---  ------             --------------    -----  
 0   il                 1185698 non-null  object 
 1   ilce               1185698 non-null  object 
 2   sozlesme_hesap_no  1185698 non-null  int64  
 3   mali_yil_donem     1185698 non-null  object 
 4   fatura_tarihi      1185698 non-null  object 
 5   kayit_tarihi       1185698 non-null  object 
 6   vade_tarihi        1185698 non-null  object 
 7   hesap_sinifi       1185698 non-null  object 
 8   Hesap Sınıfı       1185698 non-null  object 
 9   kwh                1185698 non-null  float64
dtypes: float64(1), int64(1), object(8)
memory usage: 90.5+ MB


In [7]:
kwh_null = df_tuketim['kwh'].isna().sum()
negatif_kwh = df_tuketim[df_tuketim['kwh'] < 0].shape[0]

print(f"Null Değer Sayısı: {kwh_null}")
print(f"Negatif Değer Sayısı: {negatif_kwh}")

# negatif değerli kwh
df_tuketim[df_tuketim['kwh'] < 0].head()

Null Değer Sayısı: 0
Negatif Değer Sayısı: 151


Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh
23573,AMASYA,HAMAMÖZÜ,7904741733,2025-03-01,2025-04-14,2025-06-10,2025-04-22,M001,Mesken,-1242.99
23576,AMASYA,HAMAMÖZÜ,7904741733,2025-04-01,2025-04-14,2025-06-10,2025-04-22,M001,Mesken,-733.04
28413,AMASYA,HAMAMÖZÜ,469034964,2023-10-01,2023-10-11,2023-11-28,2023-10-23,M001,Mesken,-1.04
70626,AMASYA,HAMAMÖZÜ,7722066065,2023-10-01,2023-10-23,2023-11-28,2023-11-02,M001,Mesken,-1.34
180501,AMASYA,GÜMÜŞHACIKÖY,2945215788,2024-02-01,2024-04-15,2024-06-15,2024-03-25,M001,Mesken,-374.09


In [8]:
df_tuketim.groupby('Hesap Sınıfı')['kwh'].describe()[['count', 'mean', '50%', 'std']]

Unnamed: 0_level_0,count,mean,50%,std
Hesap Sınıfı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1 SAYILI CETVELDE YER ALAN KAMU İDARESİ,8500.0,688.441598,23.86,3911.912974
Aritma Tesisleri,35.0,16594.174857,16186.91,11656.705924
Balıkçılık ve Su Ürünleri Yetiştiriciliğ,124.0,85.358306,79.375,42.120066
Belediye,2097.0,600.581235,78.27,3350.978976
Belediye Park Bahçe Aydınlatma,349.0,31.951003,18.39,38.472449
"Bina Ort Kul (Asn,Hidr,Kapıcı Dai vb.)",3505.0,29.965663,15.76,41.331395
Büyükbaş-Küçükbaş Hayvancılık,1849.0,116.848021,24.11,408.549664
Cemevleri,916.0,10.713755,5.625,16.453958
Diyanet Kuran Kursu,42.0,167.135,22.115,526.354274
Doğal Afet Barınma,116.0,73.615948,73.865,39.066907


In [9]:
# kwh sütunu için outlier tespiti

Q1 = df_tuketim['kwh'].quantile(0.25)
Q3 = df_tuketim['kwh'].quantile(0.75)
IQR = Q3 - Q1

alt_sinir = Q1 - 1.5 * IQR
ust_sinir = Q3 + 1.5 * IQR

print(f"Alt Sınır: {alt_sinir:.2f} kWh")
print(f"Üst Sınır: {ust_sinir:.2f} kWh")

outliers = df_tuketim[(df_tuketim['kwh'] < alt_sinir) | (df_tuketim['kwh'] > ust_sinir)]

print(f"\nTotal outlier sayısı: {len(outliers)}")
print(f"Toplam Veriye Oranı: %{len(outliers) / len(df_tuketim) * 100:.2f}")

Alt Sınır: -74.97 kWh
Üst Sınır: 172.98 kWh

Total outlier sayısı: 48554
Toplam Veriye Oranı: %4.09
