# **notebook_01: Veri Keşfi ve Tanımlayıcı İstatistik**

**1. Rol & Amaç**

Bu notebook’ta enerji perakende sektörüne ait bir veri seti üzerinde veri keşfi ve tanımlayıcı istatistik çalışması yapılmaktadır.

Amaç:
- Verinin genel yapısını anlamak
- Veri kalitesini değerlendirmek
- Analizin ilerleyen aşamalarını etkileyebilecek riskleri tespit etmek

Bu çalışma, hataları fark eden ve veriyi sorgulayan bir veri analisti bakış açısıyla hazırlanmıştır.

**2. Kütüphanelerin Yüklenmesi ve Verinin Okunması**

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
file_path = r"C:\Users\ecemm\Desktop\elektrik_veri_hashed.xlsx"
xls = pd.ExcelFile(file_path)

print("Bulunan Sayfa İsimleri:", xls.sheet_names)

Bulunan Sayfa İsimleri: ['Tahsilat', 'Tahsilat 1', 'Tahakkuk', 'Tahakkuk 1', 'Tahakkuk 2']


In [3]:
df_tahsilat   = pd.read_excel(xls, sheet_name='Tahsilat')
df_tahsilat_1 = pd.read_excel(xls, sheet_name='Tahsilat 1')
df_tahakkuk   = pd.read_excel(xls, sheet_name='Tahakkuk')   
df_tahakkuk_1 = pd.read_excel(xls, sheet_name='Tahakkuk 1')  
df_tahakkuk_2 = pd.read_excel(xls, sheet_name='Tahakkuk 2')

**3. Veri Keşfi — Genel Yapı İncelemesi**

In [4]:
df_tahsilat.head()

Unnamed: 0,Şube,Kasa,İlçe,Söz.hsp.(bağımsız),Tahsilat Tarihi,Nakit Tahsilat,Mahsuben Tahsilat,Kredi Kartı Tahsilatı,Banka Tahsilatı
0,Tayin edilmedi,Tayin edilmedi,TAŞOVA,4989745446,2023-11-06,,8648.95,,
1,Tayin edilmedi,Tayin edilmedi,TAŞOVA,4989745446,2024-06-26,,762.4,,
2,Tayin edilmedi,Tayin edilmedi,TAŞOVA,4989745446,2024-07-10,,311.6,,
3,PTT,PTT/PV,TAŞOVA,4254955886,2023-01-19,,,,130.5
4,PTT,PTT/PV,TAŞOVA,4254955886,2023-02-17,,,,117.0


In [5]:
df_tahsilat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636993 entries, 0 to 636992
Data columns (total 9 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   Şube                   636993 non-null  object        
 1   Kasa                   636993 non-null  object        
 2   İlçe                   636993 non-null  object        
 3   Söz.hsp.(bağımsız)     636993 non-null  int64         
 4   Tahsilat Tarihi        636993 non-null  datetime64[ns]
 5   Nakit Tahsilat         523 non-null     float64       
 6   Mahsuben Tahsilat      7542 non-null    float64       
 7   Kredi Kartı Tahsilatı  0 non-null       float64       
 8   Banka Tahsilatı        628933 non-null  float64       
dtypes: datetime64[ns](1), float64(4), int64(1), object(3)
memory usage: 43.7+ MB


In [6]:
df_tahsilat["Söz.hsp.(bağımsız)"] = df_tahsilat["Söz.hsp.(bağımsız)"].astype(str)

In [7]:
df_tahsilat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636993 entries, 0 to 636992
Data columns (total 9 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   Şube                   636993 non-null  object        
 1   Kasa                   636993 non-null  object        
 2   İlçe                   636993 non-null  object        
 3   Söz.hsp.(bağımsız)     636993 non-null  object        
 4   Tahsilat Tarihi        636993 non-null  datetime64[ns]
 5   Nakit Tahsilat         523 non-null     float64       
 6   Mahsuben Tahsilat      7542 non-null    float64       
 7   Kredi Kartı Tahsilatı  0 non-null       float64       
 8   Banka Tahsilatı        628933 non-null  float64       
dtypes: datetime64[ns](1), float64(4), object(4)
memory usage: 43.7+ MB


In [8]:
pd.options.display.float_format = '{:.2f}'.format

In [9]:
df_tahsilat.describe()

Unnamed: 0,Tahsilat Tarihi,Nakit Tahsilat,Mahsuben Tahsilat,Kredi Kartı Tahsilatı,Banka Tahsilatı
count,636993,523.0,7542.0,0.0,628933.0
mean,2024-03-05 09:26:07.644856320,694.97,6180.18,,372.63
min,2023-01-01 00:00:00,7.45,-34508.95,,0.01
25%,2023-07-28 00:00:00,425.33,44.48,,120.0
50%,2024-02-26 00:00:00,524.67,290.41,,208.0
75%,2024-09-30 00:00:00,688.83,2729.11,,322.0
max,2025-05-31 00:00:00,11373.74,399526.78,,606473.8
std,,758.32,23828.02,,3265.43


In [10]:
tahsilat_sutunlar = ["Şube", "Kasa", "İlçe", "Söz.hsp.(bağımsız)"]

for col in tahsilat_sutunlar:
    print(f"{col} Sütunu Dağılımı")
    print(df_tahsilat[col].value_counts())
    print("\n")

Şube Sütunu Dağılımı
Şube
AKTİFBANK              193135
ZİRAAT                 117521
İŞBANK                  87383
HALKBANK                60890
PTT                     48760
Y.KREDİ                 22528
GARANTİ                 21221
AKBANK                  20618
VAKIFLAR                14900
DENİZBANK               12366
FİNANSBANK              10134
T. FİNANS                7709
Tayin edilmedi           7542
TEB                      3944
KUVEYTTÜRK               3077
ZİRAAT KATILIM           1510
ALBARAKA                 1096
ING BANK                  989
ŞEKERBANK                 701
AKTİFBANK-BAYİ            518
AKTİFBANK-SANAL POS       305
VAKIF KATILIM              64
HSBC                       44
ANADOLUBANK                30
ICBC TURKEY                 5
ABANK                       3
Name: count, dtype: int64


Kasa Sütunu Dağılımı
Kasa
AKT/PN    168183
ZIR/PO     62390
TIS/PO     58423
ZIR/PV     53212
PTT/PV     48760
           ...  
ALT/PV         2
HSB/PI         2
ICB/

In [11]:
df_tahsilat.isna().sum()

Şube                          0
Kasa                          0
İlçe                          0
Söz.hsp.(bağımsız)            0
Tahsilat Tarihi               0
Nakit Tahsilat           636470
Mahsuben Tahsilat        629451
Kredi Kartı Tahsilatı    636993
Banka Tahsilatı            8060
dtype: int64

In [12]:
df_tahsilat.shape

(636993, 9)

In [13]:
df_tahsilat_1.head()

Unnamed: 0,Mali yıl/dönem,İl,İlçe,Söz.hsp.(bağımsız),Hesap Sınıfı,Tahakkuk Tutar,Son Ödeme Tarihinden Önceki Tahsilat,Son Ödeme Tarihindeki Tahsilat,Son Ödeme (1),Son Ödeme (2),...,Son Ödeme (5),Son Ödeme (6-10),Son Ödeme (10-20),Son Ödeme (20-30),Son Ödeme (30-60),Son Ödeme (60-90),Son Ödeme (90-120),Son Ödeme (120-150),Son Ödeme (150-180),Son Ödeme (180+)
0,OCK 2023,AMASYA,GÖYNÜCEK,9374624783,Mesken,5.03,0.03,,,,...,,,,,,,5.0,,,
1,OCK 2023,AMASYA,GÖYNÜCEK,236184905,Mesken,26.46,0.06,26.4,,,...,,,,,,,,,,
2,OCK 2023,AMASYA,GÖYNÜCEK,9657731015,Mesken,121.53,,,,121.53,...,,,,,,,,,,
3,OCK 2023,AMASYA,GÖYNÜCEK,9554442880,Mesken,117.49,,117.49,,,...,,,,,,,,,,
4,OCK 2023,AMASYA,GÖYNÜCEK,6031642522,Mesken,170.3,170.3,,,,...,,,,,,,,,,


In [14]:
df_tahsilat_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 917632 entries, 0 to 917631
Data columns (total 22 columns):
 #   Column                                Non-Null Count   Dtype  
---  ------                                --------------   -----  
 0   Mali yıl/dönem                        917632 non-null  object 
 1   İl                                    917632 non-null  object 
 2   İlçe                                  917632 non-null  object 
 3   Söz.hsp.(bağımsız)                    917632 non-null  int64  
 4   Hesap Sınıfı                          917632 non-null  object 
 5   Tahakkuk Tutar                        917632 non-null  float64
 6   Son Ödeme Tarihinden Önceki Tahsilat  623908 non-null  float64
 7   Son Ödeme Tarihindeki Tahsilat        328193 non-null  float64
 8   Son Ödeme (1)                         20902 non-null   float64
 9   Son Ödeme (2)                         21664 non-null   float64
 10  Son Ödeme (3)                         18893 non-null   float64
 11  

In [15]:
df_tahsilat_1["Söz.hsp.(bağımsız)"] = df_tahsilat_1["Söz.hsp.(bağımsız)"].astype(str)

In [16]:
df_tahsilat_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 917632 entries, 0 to 917631
Data columns (total 22 columns):
 #   Column                                Non-Null Count   Dtype  
---  ------                                --------------   -----  
 0   Mali yıl/dönem                        917632 non-null  object 
 1   İl                                    917632 non-null  object 
 2   İlçe                                  917632 non-null  object 
 3   Söz.hsp.(bağımsız)                    917632 non-null  object 
 4   Hesap Sınıfı                          917632 non-null  object 
 5   Tahakkuk Tutar                        917632 non-null  float64
 6   Son Ödeme Tarihinden Önceki Tahsilat  623908 non-null  float64
 7   Son Ödeme Tarihindeki Tahsilat        328193 non-null  float64
 8   Son Ödeme (1)                         20902 non-null   float64
 9   Son Ödeme (2)                         21664 non-null   float64
 10  Son Ödeme (3)                         18893 non-null   float64
 11  

In [17]:
df_tahsilat_1.describe()

Unnamed: 0,Tahakkuk Tutar,Son Ödeme Tarihinden Önceki Tahsilat,Son Ödeme Tarihindeki Tahsilat,Son Ödeme (1),Son Ödeme (2),Son Ödeme (3),Son Ödeme (4),Son Ödeme (5),Son Ödeme (6-10),Son Ödeme (10-20),Son Ödeme (20-30),Son Ödeme (30-60),Son Ödeme (60-90),Son Ödeme (90-120),Son Ödeme (120-150),Son Ödeme (150-180),Son Ödeme (180+)
count,917632.0,623908.0,328193.0,20902.0,21664.0,18893.0,16995.0,7323.0,45708.0,48281.0,29005.0,23030.0,7184.0,3820.0,2302.0,1551.0,4827.0
mean,508.58,206.31,547.26,643.06,553.71,414.44,536.36,516.08,558.64,583.56,801.02,918.62,1257.71,671.64,322.16,393.36,159.78
std,5052.67,2855.3,3898.72,5454.37,5123.76,2650.06,6242.19,3451.49,6666.26,7178.35,7154.31,7105.33,20074.15,5979.23,3220.52,5264.1,2619.16
min,-12793.28,-12793.28,0.0,-70.0,-296.93,-120.6,0.0,-752.0,-100.66,-962.0,0.0,-6837.0,-701.0,-770.0,-349.0,0.0,-15206.88
25%,110.15,0.32,116.6,125.61,112.92,119.0,116.91,115.0,121.91,115.0,109.0,77.0,42.86,30.33,24.12,23.0,13.47
50%,202.07,44.22,210.99,222.0,211.0,203.0,208.07,218.54,213.59,210.0,220.88,172.95,107.0,76.0,55.37,49.0,32.0
75%,321.57,210.22,334.27,349.98,333.0,320.0,329.87,344.99,330.0,334.0,382.47,320.99,219.56,164.0,124.13,106.5,76.0
max,1173258.44,799298.89,429056.57,393238.0,319120.0,152377.0,560239.0,158004.45,550420.87,550859.75,694275.91,221781.47,1051591.0,150233.96,89285.68,169410.49,141070.52


In [18]:
tahsilat_1_sutunlar = ["Mali yıl/dönem", "İl", "İlçe", "Söz.hsp.(bağımsız)", "Hesap Sınıfı"]

for col in tahsilat_1_sutunlar:
    print(f"{col} Sütunu Dağılımı")
    print(df_tahsilat_1[col].value_counts())
    print("\n")

Mali yıl/dönem Sütunu Dağılımı
Mali yıl/dönem
TEM 2024    35717
AGU 2024    35239
EYL 2024    35034
EKM 2024    33955
EYL 2023    33588
AGU 2023    33511
TEM 2023    33468
HAZ 2024    33267
ARL 2023    33121
KSM 2024    32714
EKM 2023    32510
MAY 2025    32494
MAY 2023    32408
HAZ 2023    31863
NİS 2025    31699
NİS 2024    31625
MAY 2024    31606
KSM 2023    30762
ARL 2024    30717
OCK 2025    30385
MAR 2025    29863
ŞBT 2025    29522
NİS 2023    29371
MAR 2024    29326
MAR 2023    29178
ŞBT 2024    28945
OCK 2023    28874
OCK 2024    28784
ŞBT 2023    28086
Name: count, dtype: int64


İl Sütunu Dağılımı
İl
AMASYA    917632
Name: count, dtype: int64


İlçe Sütunu Dağılımı
İlçe
TAŞOVA          435394
GÜMÜŞHACIKÖY    311264
GÖYNÜCEK        120832
HAMAMÖZÜ         50142
Name: count, dtype: int64


Söz.hsp.(bağımsız) Sütunu Dağılımı
Söz.hsp.(bağımsız)
9657731015    29
9404715439    29
7940140859    29
7401433575    29
3376641256    29
              ..
6284101006     1
9611650660     1
3

In [19]:
df_tahsilat_1.isna().sum()

Mali yıl/dönem                               0
İl                                           0
İlçe                                         0
Söz.hsp.(bağımsız)                           0
Hesap Sınıfı                                 0
Tahakkuk Tutar                               0
Son Ödeme Tarihinden Önceki Tahsilat    293724
Son Ödeme Tarihindeki Tahsilat          589439
Son Ödeme (1)                           896730
Son Ödeme (2)                           895968
Son Ödeme (3)                           898739
Son Ödeme (4)                           900637
Son Ödeme (5)                           910309
Son Ödeme (6-10)                        871924
Son Ödeme (10-20)                       869351
Son Ödeme (20-30)                       888627
Son Ödeme (30-60)                       894602
Son Ödeme (60-90)                       910448
Son Ödeme (90-120)                      913812
Son Ödeme (120-150)                     915330
Son Ödeme (150-180)                     916081
Son Ödeme (18

In [20]:
df_tahsilat_1.shape

(917632, 22)

In [21]:
df_tahakkuk.head()

Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh
0,AMASYA,HAMAMÖZÜ,917576806,2023-01-01,2023-01-12,2023-03-06,2023-01-23,M001,Mesken,1.79
1,AMASYA,HAMAMÖZÜ,917576806,2023-01-01,2023-02-09,2023-05-11,2023-02-20,M001,Mesken,2.6
2,AMASYA,HAMAMÖZÜ,917576806,2023-02-01,2023-02-09,2023-05-11,2023-02-20,M001,Mesken,1.23
3,AMASYA,HAMAMÖZÜ,917576806,2023-02-01,2023-03-10,2023-05-11,2023-03-20,M001,Mesken,2.56
4,AMASYA,HAMAMÖZÜ,917576806,2023-03-01,2023-03-10,2023-05-11,2023-03-20,M001,Mesken,1.35


In [22]:
df_tahakkuk.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 124818 entries, 0 to 124817
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   il                 124818 non-null  object 
 1   ilce               124818 non-null  object 
 2   sozlesme_hesap_no  124818 non-null  int64  
 3   mali_yil_donem     124818 non-null  object 
 4   fatura_tarihi      124818 non-null  object 
 5   kayit_tarihi       124818 non-null  object 
 6   vade_tarihi        124818 non-null  object 
 7   hesap_sinifi       124818 non-null  object 
 8   Hesap Sınıfı       124818 non-null  object 
 9   kwh                124818 non-null  float64
dtypes: float64(1), int64(1), object(8)
memory usage: 9.5+ MB


In [23]:
df_tahakkuk["sozlesme_hesap_no"] = df_tahakkuk["sozlesme_hesap_no"].astype(str)

In [24]:
tahakkuk_tarih_sutunlari = ["mali_yil_donem", "fatura_tarihi", "kayit_tarihi", "vade_tarihi"]

for col in tahakkuk_tarih_sutunlari:
    df_tahakkuk[col] = pd.to_datetime(df_tahakkuk[col], errors="coerce")

In [25]:
df_tahakkuk.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 124818 entries, 0 to 124817
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   il                 124818 non-null  object        
 1   ilce               124818 non-null  object        
 2   sozlesme_hesap_no  124818 non-null  object        
 3   mali_yil_donem     124818 non-null  datetime64[ns]
 4   fatura_tarihi      124818 non-null  datetime64[ns]
 5   kayit_tarihi       124818 non-null  datetime64[ns]
 6   vade_tarihi        124818 non-null  datetime64[ns]
 7   hesap_sinifi       124818 non-null  object        
 8   Hesap Sınıfı       124818 non-null  object        
 9   kwh                124818 non-null  float64       
dtypes: datetime64[ns](4), float64(1), object(5)
memory usage: 9.5+ MB


In [26]:
df_tahakkuk.describe()

Unnamed: 0,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,kwh
count,124818,124818,124818,124818,124818.0
mean,2024-03-29 20:51:13.402874368,2024-05-16 08:20:16.901408512,2024-07-17 02:09:53.568235264,2024-05-27 02:57:33.771091200,70.87
min,2023-01-01 00:00:00,2023-01-04 00:00:00,2023-03-06 00:00:00,2023-01-06 00:00:00,-1242.99
25%,2023-08-01 00:00:00,2023-09-12 00:00:00,2023-11-28 00:00:00,2023-09-22 00:00:00,15.49
50%,2024-04-01 00:00:00,2024-05-15 00:00:00,2024-07-13 00:00:00,2024-05-27 00:00:00,40.56
75%,2024-12-01 00:00:00,2025-01-13 00:00:00,2025-03-13 00:00:00,2025-01-23 00:00:00,70.43
max,2025-07-01 00:00:00,2025-10-02 00:00:00,2025-10-09 00:00:00,2025-10-09 00:00:00,25941.6
std,,,,,389.22


In [27]:
tahakkuk_sutunlar = ["il", "ilce", "sozlesme_hesap_no", "hesap_sinifi", "Hesap Sınıfı"]

for col in tahakkuk_sutunlar:
    print(f"{col} Sütunu Dağılımı")
    print(df_tahakkuk[col].value_counts())
    print("\n")

il Sütunu Dağılımı
il
AMASYA    124818
Name: count, dtype: int64


ilce Sütunu Dağılımı
ilce
HAMAMÖZÜ    124818
Name: count, dtype: int64


sozlesme_hesap_no Sütunu Dağılımı
sozlesme_hesap_no
3180623188    66
4451458349    65
4659659808    65
2633207284    65
9515058214    64
              ..
9594319978     1
2322838517     1
3735552321     1
1923397996     1
9555648802     1
Name: count, Length: 2981, dtype: int64


hesap_sinifi Sütunu Dağılımı
hesap_sinifi
M001    110682
T001      7468
T019      1510
M002      1443
TA01       661
A001       528
T021       495
T002       402
M003       177
T013       177
3          149
4          147
T007       127
TA03       127
SE01       120
T009       113
TA04       107
T020        76
T010        63
T008        46
S001        46
T012        40
M004        33
M006        31
T006        28
TA02        14
T017         5
6            3
Name: count, dtype: int64


Hesap Sınıfı Sütunu Dağılımı
Hesap Sınıfı
Mesken                                      110

In [28]:
df_tahakkuk.isna().sum()

il                   0
ilce                 0
sozlesme_hesap_no    0
mali_yil_donem       0
fatura_tarihi        0
kayit_tarihi         0
vade_tarihi          0
hesap_sinifi         0
Hesap Sınıfı         0
kwh                  0
dtype: int64

In [29]:
df_tahakkuk.shape

(124818, 10)

In [30]:
df_tahakkuk_1.head()

Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh
0,AMASYA,GÜMÜŞHACIKÖY,7444449517,2023-01-01,2023-01-11,2023-03-06,2023-01-23,M001,Mesken,21.85
1,AMASYA,GÜMÜŞHACIKÖY,7444449517,2023-01-01,2023-02-10,2023-05-11,2023-02-20,M001,Mesken,44.5
2,AMASYA,GÜMÜŞHACIKÖY,7444449517,2023-02-01,2023-02-10,2023-05-11,2023-02-20,M001,Mesken,22.25
3,AMASYA,GÜMÜŞHACIKÖY,7444449517,2023-02-01,2023-03-10,2023-05-11,2023-03-20,M001,Mesken,45.71
4,AMASYA,GÜMÜŞHACIKÖY,7444449517,2023-03-01,2023-03-10,2023-05-11,2023-03-20,M001,Mesken,25.4


In [31]:
df_tahakkuk_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 765657 entries, 0 to 765656
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   il                 765657 non-null  object 
 1   ilce               765657 non-null  object 
 2   sozlesme_hesap_no  765657 non-null  int64  
 3   mali_yil_donem     765657 non-null  object 
 4   fatura_tarihi      765657 non-null  object 
 5   kayit_tarihi       765657 non-null  object 
 6   vade_tarihi        765657 non-null  object 
 7   hesap_sinifi       765657 non-null  object 
 8   Hesap Sınıfı       765657 non-null  object 
 9   kwh                765657 non-null  float64
dtypes: float64(1), int64(1), object(8)
memory usage: 58.4+ MB


In [32]:
df_tahakkuk_1["sozlesme_hesap_no"] = df_tahakkuk_1["sozlesme_hesap_no"].astype(str)

In [33]:
tahakkuk_1_tarih_sutunlari = ["mali_yil_donem", "fatura_tarihi", "kayit_tarihi", "vade_tarihi"]

for col in tahakkuk_1_tarih_sutunlari:
    df_tahakkuk_1[col] = pd.to_datetime(df_tahakkuk_1[col], errors="coerce")    

In [34]:
df_tahakkuk_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 765657 entries, 0 to 765656
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   il                 765657 non-null  object        
 1   ilce               765657 non-null  object        
 2   sozlesme_hesap_no  765657 non-null  object        
 3   mali_yil_donem     765657 non-null  datetime64[ns]
 4   fatura_tarihi      765657 non-null  datetime64[ns]
 5   kayit_tarihi       765657 non-null  datetime64[ns]
 6   vade_tarihi        765657 non-null  datetime64[ns]
 7   hesap_sinifi       765657 non-null  object        
 8   Hesap Sınıfı       765657 non-null  object        
 9   kwh                765657 non-null  float64       
dtypes: datetime64[ns](4), float64(1), object(5)
memory usage: 58.4+ MB


In [35]:
df_tahakkuk_1.describe()

Unnamed: 0,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,kwh
count,765657,765657,765657,765657,765657.0
mean,2024-03-30 10:03:51.584638720,2024-05-19 07:31:50.382847744,2024-07-15 19:18:33.871616,2024-05-29 22:02:55.444618496,97.34
min,2023-01-01 00:00:00,2023-01-02 00:00:00,2023-03-06 00:00:00,2023-01-03 00:00:00,-25370.64
25%,2023-08-01 00:00:00,2023-09-19 00:00:00,2023-11-28 00:00:00,2023-09-29 00:00:00,18.57
50%,2024-04-01 00:00:00,2024-05-22 00:00:00,2024-07-13 00:00:00,2024-06-03 00:00:00,48.31
75%,2024-12-01 00:00:00,2025-01-13 00:00:00,2025-03-13 00:00:00,2025-01-23 00:00:00,82.72
max,2025-07-01 00:00:00,2025-10-01 00:00:00,2025-10-09 00:00:00,2025-10-20 00:00:00,153575.73
std,,,,,1077.76


In [36]:
tahakkuk_1_sutunlar = ["il", "ilce", "sozlesme_hesap_no", "hesap_sinifi", "Hesap Sınıfı"]

for col in tahakkuk_1_sutunlar:
    print(f"{col} Sütunu Dağılımı")
    print(df_tahakkuk_1[col].value_counts())
    print("\n")

il Sütunu Dağılımı
il
AMASYA    765657
Name: count, dtype: int64


ilce Sütunu Dağılımı
ilce
GÜMÜŞHACIKÖY    765657
Name: count, dtype: int64


sozlesme_hesap_no Sütunu Dağılımı
sozlesme_hesap_no
2945215788    80
6095948483    75
696908119     69
4440897811    68
6322180730    68
              ..
7162193022     1
4410977906     1
7935008744     1
8539616566     1
7480145631     1
Name: count, Length: 18190, dtype: int64


hesap_sinifi Sütunu Dağılımı
hesap_sinifi
M001    658189
T001     63600
TA01     13987
M002      5740
T002      5053
T019      4844
T021      2356
A001      1845
SE01      1756
4         1121
T013       978
TA02       803
TA03       720
TA04       711
3          669
M004       611
A003       349
M003       346
T012       340
T008       294
T009       219
M006       157
T006       154
6          153
M007       116
T020        98
S001        97
T005        62
T010        61
M009        42
A002        41
T017        36
7           36
1           35
T007        22
T003   

In [37]:
df_tahakkuk_1.isna().sum()

il                   0
ilce                 0
sozlesme_hesap_no    0
mali_yil_donem       0
fatura_tarihi        0
kayit_tarihi         0
vade_tarihi          0
hesap_sinifi         0
Hesap Sınıfı         0
kwh                  0
dtype: int64

In [38]:
df_tahakkuk_1.shape

(765657, 10)

In [39]:
df_tahakkuk_2.head()

Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh
0,AMASYA,GÖYNÜCEK,9374624783,2023-01-01,2023-01-14,2023-03-06,2023-01-24,M001,Mesken,0.1
1,AMASYA,GÖYNÜCEK,9374624783,2023-01-01,2025-03-12,2025-05-09,2025-03-24,M001,Mesken,0.12
2,AMASYA,GÖYNÜCEK,9374624783,2023-02-01,2025-03-12,2025-05-09,2025-03-24,M001,Mesken,0.2
3,AMASYA,GÖYNÜCEK,9374624783,2023-03-01,2025-03-12,2025-05-09,2025-03-24,M001,Mesken,0.0
4,AMASYA,GÖYNÜCEK,9374624783,2023-04-01,2025-03-12,2025-05-09,2025-03-24,M001,Mesken,0.08


In [40]:
df_tahakkuk_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 295223 entries, 0 to 295222
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   il                 295223 non-null  object 
 1   ilce               295223 non-null  object 
 2   sozlesme_hesap_no  295223 non-null  int64  
 3   mali_yil_donem     295223 non-null  object 
 4   fatura_tarihi      295223 non-null  object 
 5   kayit_tarihi       295223 non-null  object 
 6   vade_tarihi        295223 non-null  object 
 7   hesap_sinifi       295223 non-null  object 
 8   Hesap Sınıfı       295223 non-null  object 
 9   kwh                295223 non-null  float64
dtypes: float64(1), int64(1), object(8)
memory usage: 22.5+ MB


In [41]:
df_tahakkuk_2["sozlesme_hesap_no"] = df_tahakkuk_2["sozlesme_hesap_no"].astype(str)

In [42]:
tahakkuk_2_tarih_sutunlari = ["mali_yil_donem", "fatura_tarihi", "kayit_tarihi", "vade_tarihi"]

for col in tahakkuk_2_tarih_sutunlari:
    df_tahakkuk_2[col] = pd.to_datetime(df_tahakkuk_2[col], errors="coerce")    

In [43]:
df_tahakkuk_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 295223 entries, 0 to 295222
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   il                 295223 non-null  object        
 1   ilce               295223 non-null  object        
 2   sozlesme_hesap_no  295223 non-null  object        
 3   mali_yil_donem     295223 non-null  datetime64[ns]
 4   fatura_tarihi      295223 non-null  datetime64[ns]
 5   kayit_tarihi       295223 non-null  datetime64[ns]
 6   vade_tarihi        295223 non-null  datetime64[ns]
 7   hesap_sinifi       295223 non-null  object        
 8   Hesap Sınıfı       295223 non-null  object        
 9   kwh                295223 non-null  float64       
dtypes: datetime64[ns](4), float64(1), object(5)
memory usage: 22.5+ MB


In [44]:
df_tahakkuk_2.describe()

Unnamed: 0,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,kwh
count,295223,295223,295223,295223,295223.0
mean,2024-03-31 07:10:50.376156416,2024-05-16 11:46:37.086947840,2024-07-15 16:29:42.495266560,2024-05-27 05:13:04.682765312,89.67
min,2023-01-01 00:00:00,2023-01-02 00:00:00,2023-03-06 00:00:00,2023-01-03 00:00:00,-4208.64
25%,2023-08-01 00:00:00,2023-09-14 00:00:00,2023-11-28 00:00:00,2023-09-25 00:00:00,17.86
50%,2024-04-01 00:00:00,2024-05-17 00:00:00,2024-07-13 00:00:00,2024-05-27 00:00:00,45.09
75%,2024-12-01 00:00:00,2025-01-14 00:00:00,2025-03-13 00:00:00,2025-01-24 00:00:00,77.14
max,2025-07-01 00:00:00,2025-10-03 00:00:00,2025-10-09 00:00:00,2025-10-13 00:00:00,105687.69
std,,,,,742.28


In [45]:
tahakkuk_2_sutunlar = ["il", "ilce", "sozlesme_hesap_no", "hesap_sinifi", "Hesap Sınıfı"]

for col in tahakkuk_2_sutunlar:
    print(f"{col} Sütunu Dağılımı")
    print(df_tahakkuk_2[col].value_counts())
    print("\n")

il Sütunu Dağılımı
il
AMASYA    295223
Name: count, dtype: int64


ilce Sütunu Dağılımı
ilce
GÖYNÜCEK    295223
Name: count, dtype: int64


sozlesme_hesap_no Sütunu Dağılımı
sozlesme_hesap_no
8521808115    70
2428288746    67
6312712547    66
5699808349    66
5359881734    66
              ..
8962500950     1
4534168359     1
5777394881     1
8268256817     1
7556407798     1
Name: count, Length: 7128, dtype: int64


hesap_sinifi Sütunu Dağılımı
hesap_sinifi
M001    257738
T001     20230
M002      2990
TA01      2618
T019      2146
T013      1305
T002      1251
TA04      1031
4          829
A001       816
TA02       815
SE01       795
T021       654
3          555
TA03       281
M004       272
M006       195
T008       136
T009       110
T020       105
M003        91
T005        62
T006        61
S001        44
T012        37
6           24
T007        20
M008         7
T017         5
Name: count, dtype: int64


Hesap Sınıfı Sütunu Dağılımı
Hesap Sınıfı
Mesken                          

In [46]:
df_tahakkuk_2.isna().sum()

il                   0
ilce                 0
sozlesme_hesap_no    0
mali_yil_donem       0
fatura_tarihi        0
kayit_tarihi         0
vade_tarihi          0
hesap_sinifi         0
Hesap Sınıfı         0
kwh                  0
dtype: int64

In [47]:
df_tahakkuk_2.shape

(295223, 10)

**4. İlçe Bazlı Benzersiz Müşteri Sayıları**

In [48]:
ilce_musteri_sayisi = (
    df_tahakkuk
    .groupby("ilce")["sozlesme_hesap_no"]
    .nunique()
    .reset_index(name="benzersiz_musteri_sayisi")
)

ilce_musteri_sayisi_1 = (
    df_tahakkuk_1
    .groupby("ilce")["sozlesme_hesap_no"]
    .nunique()
    .reset_index(name="benzersiz_musteri_sayisi")
)

ilce_musteri_sayisi_2 = (
    df_tahakkuk_2
    .groupby("ilce")["sozlesme_hesap_no"]
    .nunique()
    .reset_index(name="benzersiz_musteri_sayisi")
)

display(ilce_musteri_sayisi,ilce_musteri_sayisi_1,ilce_musteri_sayisi_2)

Unnamed: 0,ilce,benzersiz_musteri_sayisi
0,HAMAMÖZÜ,2981


Unnamed: 0,ilce,benzersiz_musteri_sayisi
0,GÜMÜŞHACIKÖY,18190


Unnamed: 0,ilce,benzersiz_musteri_sayisi
0,GÖYNÜCEK,7128


**5. Tahakkuk Verilerinin Birleştirilmesi & Doğrulama**

In [49]:
df_tahakkuk_all = pd.concat(
    [df_tahakkuk, df_tahakkuk_1, df_tahakkuk_2],
    ignore_index=True
)

In [50]:
df_tahakkuk_all.shape

(1185698, 10)

In [51]:
df_tahakkuk_all.groupby("ilce")["sozlesme_hesap_no"].nunique()

ilce
GÖYNÜCEK         7128
GÜMÜŞHACIKÖY    18190
HAMAMÖZÜ         2981
Name: sozlesme_hesap_no, dtype: int64

**6. kwh Veri Kalitesi Analizi**

In [52]:
df_tahakkuk_all["kwh"].isna().sum()

np.int64(0)

In [53]:
(df_tahakkuk_all["kwh"] < 0).sum()

np.int64(151)

In [54]:
Q1 = df_tahakkuk_all["kwh"].quantile(0.25)
Q3 = df_tahakkuk_all["kwh"].quantile(0.75)
IQR = Q3 - Q1

outliers = df_tahakkuk_all[
    (df_tahakkuk_all["kwh"] < Q1 - 1.5 * IQR) |
    (df_tahakkuk_all["kwh"] > Q3 + 1.5 * IQR)
]

outliers.shape

(48554, 10)

In [55]:
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

df_tahakkuk_all["is_outlier"] = (
    (df_tahakkuk_all["kwh"] < lower_bound) |
    (df_tahakkuk_all["kwh"] > upper_bound)
)

df_tahakkuk_all["is_outlier"].value_counts()

is_outlier
False    1137144
True       48554
Name: count, dtype: int64

**7. Hesap Sınıfına Göre Tanımlayıcı İstatistikler**

In [56]:
hesap_sınıfı_istatistik = (
    df_tahakkuk_all
    .groupby("hesap_sinifi")["kwh"]
    .agg(["min", "max", "mean", "median", "std"])
    .reset_index()
)

hesap_sınıfı_istatistik

Unnamed: 0,hesap_sinifi,min,max,mean,median,std
0,1,218.78,34510.46,16594.17,16186.91,11656.71
1,3,-1484.13,19848.0,579.85,150.83,1693.27
2,4,-25370.64,50741.28,600.58,78.27,3350.98
3,6,0.0,153575.73,16155.25,322.32,35926.42
4,7,0.0,3849.79,1195.05,770.62,1229.58
5,A001,0.0,2449.53,32.44,13.94,112.23
6,A002,0.0,52719.98,30203.43,36810.9,16963.57
7,A003,0.0,409.41,31.95,18.39,38.47
8,M001,-2836.64,14940.93,55.59,47.36,73.9
9,M002,0.0,1964.59,81.28,56.14,111.16


In [57]:
df_tahakkuk_all["Hesap Sınıfı"].value_counts(normalize=True).round(6)

Hesap Sınıfı
Mesken                                     0.87
Ticari Faaliyet - Yazıhane                 0.08
Tarımsal Faaliyetler (Şahıs)               0.01
İbadethane Isıtma/Soğutma/Lojman           0.01
1 SAYILI CETVELDE YER ALAN KAMU İDARESİ    0.01
Şantiye ve Geçici Aboneler                 0.01
Bina Ort Kul (Asn,Hidr,Kapıcı Dai vb.)     0.00
İbadethane Aydınlatma                      0.00
Şehit Aileleri ve Gaziler                  0.00
Köy İçme Suyu Temini ve Dağıtımı Tesisi    0.00
Belediye                                   0.00
Büyükbaş-Küçükbaş Hayvancılık              0.00
Tarımsal Faaliyetler (Kooperatif)          0.00
Resmi Daire                                0.00
Süt Toplama Merkezi                        0.00
Cemevleri                                  0.00
Resmi Daire Lojman                         0.00
Resmi Üniversite,Yük.Okul,Kurs,Yurt,Okul   0.00
Resmi SAĞLIK KURULUŞLARI,RESMİ SPOR TES.   0.00
İçme-Kullanma Suyu (Belediye)              0.00
Muhtarlık Hizmet Binaları  

**8. İlçe Bazlı kwh Özet Tablosu**

In [58]:
df_tahakkuk_all.groupby("ilce")["kwh"].mean()

ilce
GÖYNÜCEK       89.67
GÜMÜŞHACIKÖY   97.34
HAMAMÖZÜ       70.87
Name: kwh, dtype: float64

**9.Verilerin Kaydedilmesi**

In [59]:
df_tahakkuk_all.to_pickle("tahakkuk_clean.pkl")
df_tahsilat.to_pickle("tahsilat_clean.pkl")
df_tahsilat_1.to_pickle("tahsilat1_clean.pkl")

In [60]:
dosyalar = ["tahakkuk_clean.pkl", "tahsilat_clean.pkl", "tahsilat1_clean.pkl"]

for f in dosyalar:
    if os.path.exists(f):
        print(f"{f} başarıyla oluşturuldu. Boyut: {os.path.getsize(f) / (1024*1024):.2f} MB")
    else:
        print(f"{f} Bulunamadı!")

tahakkuk_clean.pkl başarıyla oluşturuldu. Boyut: 76.78 MB
tahsilat_clean.pkl başarıyla oluşturuldu. Boyut: 35.78 MB
tahsilat1_clean.pkl başarıyla oluşturuldu. Boyut: 147.81 MB


**10.Genel Değerlendirme**

Bu çalışmada veri kalitesi aşağıdaki başlıklar altında incelenmiştir:
  
- Negatif ve aşırı uç değerler veri setinde mevcuttur.
- Bu değerler bilinçli olarak korunmuş, ileri analizlerde özel olarak ele alınacaktır.
- Veri genel olarak analiz yapılabilir düzeydedir ancak segmentasyon ve modelleme öncesi dikkatli ön işleme gerektirmektedir.
- kWh sütununda eksik değer bulunmamaktadır.
- Negatif ve aşırı uç tüketim değerleri tespit edilmiş, bu değerlerin fatura düzeltmeleri veya sistemsel kayıtlar olabileceği değerlendirilmiştir.
- Tarih alanlarının farklı formatlarda (datetime / object) olduğu görülmüş, ileri analizlerde tutarlılık sağlamak amacıyla bu durum not edilmiştir.
- Kategorik ve sayısal değişkenler ayrıştırılarak uygun analiz yöntemleri uygulanmıştır.
- IQR yöntemi ile aykırı değerler tespit edilmiştir. Ancak bu değerler gerçek tüketim davranışlarını (yüksek ticari / tarımsal kullanım) yansıtabileceğinden, bu aşamada veri setinden çıkarılmamış, ileri analizlerde iş bağlamına göre ele alınmak üzere işaretlenmiştir.

Bu değerlendirmeler, ileri analizlerde veri kaybı yaşamamak adına temizlik kararlarının bilinçli şekilde alınmasını sağlamaktadır.