# Notebook 01: Veri Keşfi ve Tanımlayıcı İstatistik

Bu notebook, Enerji Perakende Veri Analizi Case Study'sinin ilk aşamasıdır. 
**Hedefler:**
- Veri setlerini yüklemek ve yapılarını incelemek.
- Temel veri temizliği ve doğrulama işlemlerini yapmak.
- Tanımlayıcı istatistiklerle veriyi anlamak.

---

## 1. Kütüphanelerin Yüklenmesi

Analiz için gerekli olan `pandas` ve `numpy` kütüphanelerini yüklendi.

In [1]:
import pandas as pd
import numpy as np

# Uyarıları kapatmak için (isteğe bağlı)
import warnings
warnings.filterwarnings('ignore')

## 2. Veri Setinin Yüklenmesi

`elektrik_veri_hashed.xlsx` dosyası içerisinde bulunan 5 farklı sheetin okunması.
1. **Tahsilat**: Ödeme kayıtları.
2. **Tahsilat 1**: Fatura bazlı ödeme zamanlaması verisi.
3. **Tahakkuk**: Hamamözü ilçesi tüketim verileri.
4. **Tahakkuk 1**: Gümüşhacıköy ilçesi tüketim verileri.
5. **Tahakkuk 2**: Göynücek ilçesi tüketim verileri.

In [2]:
file_path = '../data/elektrik_veri_hashed.xlsx'
xls = pd.ExcelFile(file_path)

print("Sayfa İsimleri:", xls.sheet_names)

# Verileri DataFrame'lere yükleme
df_tahsilat = pd.read_excel(xls, sheet_name='Tahsilat')
df_tahsilat_1 = pd.read_excel(xls, sheet_name='Tahsilat 1')
df_tahakkuk_hamamozu = pd.read_excel(xls, sheet_name='Tahakkuk')
df_tahakkuk_gumus = pd.read_excel(xls, sheet_name='Tahakkuk 1')
df_tahakkuk_goynucek = pd.read_excel(xls, sheet_name='Tahakkuk 2')

# Boyutların kontrolü
print(f"Tahsilat Boyutu: {df_tahsilat.shape}")
print(f"Tahsilat 1 Boyutu: {df_tahsilat_1.shape}")
print(f"Tahakkuk Hamamözü Boyutu: {df_tahakkuk_hamamozu.shape}")
print(f"Tahakkuk Gümüşhacıköy Boyutu: {df_tahakkuk_gumus.shape}")
print(f"Tahakkuk Göynücek Boyutu: {df_tahakkuk_goynucek.shape}")

Sayfa İsimleri: ['Tahsilat', 'Tahsilat 1', 'Tahakkuk', 'Tahakkuk 1', 'Tahakkuk 2']
Tahsilat Boyutu: (636993, 9)
Tahsilat 1 Boyutu: (917632, 22)
Tahakkuk Hamamözü Boyutu: (124818, 10)
Tahakkuk Gümüşhacıköy Boyutu: (765657, 10)
Tahakkuk Göynücek Boyutu: (295223, 10)


## 3. Veri Yapısının İncelenmesi

Her bir DataFrame için `.info()`, `.describe()` ve `.head()` metodlarınn kullanılarak veri tipleri, eksik değerler ve temel istatistiklerin incelenmesi.

Tahsilat Verisi

In [3]:
print(f"\033[93m\n{'#'*20} Tahsilat İnceleme {'#'*20}\033[0m")

print(f"\n1. head")
display(df_tahsilat.head(3))
    
print(f"\n2. info")
df_tahsilat.info()
    
print(f"\n3. describe")
display(df_tahsilat.describe(include="all").T) 

[93m
#################### Tahsilat İnceleme ####################[0m

1. head


Unnamed: 0,Şube,Kasa,İlçe,Söz.hsp.(bağımsız),Tahsilat Tarihi,Nakit Tahsilat,Mahsuben Tahsilat,Kredi Kartı Tahsilatı,Banka Tahsilatı
0,Tayin edilmedi,Tayin edilmedi,TAŞOVA,4989745446,2023-11-06,,8648.95,,
1,Tayin edilmedi,Tayin edilmedi,TAŞOVA,4989745446,2024-06-26,,762.4,,
2,Tayin edilmedi,Tayin edilmedi,TAŞOVA,4989745446,2024-07-10,,311.6,,



2. info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636993 entries, 0 to 636992
Data columns (total 9 columns):
 #   Column                 Non-Null Count   Dtype         
---  ------                 --------------   -----         
 0   Şube                   636993 non-null  object        
 1   Kasa                   636993 non-null  object        
 2   İlçe                   636993 non-null  object        
 3   Söz.hsp.(bağımsız)     636993 non-null  int64         
 4   Tahsilat Tarihi        636993 non-null  datetime64[ns]
 5   Nakit Tahsilat         523 non-null     float64       
 6   Mahsuben Tahsilat      7542 non-null    float64       
 7   Kredi Kartı Tahsilatı  0 non-null       float64       
 8   Banka Tahsilatı        628933 non-null  float64       
dtypes: datetime64[ns](1), float64(4), int64(1), object(3)
memory usage: 43.7+ MB

3. describe


Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max,std
Şube,636993.0,26.0,AKTİFBANK,193135.0,,,,,,,
Kasa,636993.0,76.0,AKT/PN,168183.0,,,,,,,
İlçe,636993.0,4.0,TAŞOVA,289077.0,,,,,,,
Söz.hsp.(bağımsız),636993.0,,,,5019884374.87975,175832.0,2532887116.0,5008502097.0,7525722213.0,9999599851.0,2884434992.844679
Tahsilat Tarihi,636993.0,,,,2024-03-05 09:26:07.644856320,2023-01-01 00:00:00,2023-07-28 00:00:00,2024-02-26 00:00:00,2024-09-30 00:00:00,2025-05-31 00:00:00,
Nakit Tahsilat,523.0,,,,694.966635,7.45,425.33,524.67,688.83,11373.74,758.319428
Mahsuben Tahsilat,7542.0,,,,6180.182282,-34508.95,44.4775,290.41,2729.11,399526.78,23828.022593
Kredi Kartı Tahsilatı,0.0,,,,,,,,,,
Banka Tahsilatı,628933.0,,,,372.629109,0.01,120.0,208.0,322.0,606473.8,3265.430202


Tahsilat 1 Verisi

In [4]:
print(f"\033[93m\n{'#'*20} Tahsilat 1 İnceleme {'#'*20}\033[0m")

print(f"\n1. head")
display(df_tahsilat_1.head(3))
    
print(f"\n2. info")
df_tahsilat_1.info()
    
print(f"\n3. describe")
display(df_tahsilat_1.describe(include="all")) 

[93m
#################### Tahsilat 1 İnceleme ####################[0m

1. head


Unnamed: 0,Mali yıl/dönem,İl,İlçe,Söz.hsp.(bağımsız),Hesap Sınıfı,Tahakkuk Tutar,Son Ödeme Tarihinden Önceki Tahsilat,Son Ödeme Tarihindeki Tahsilat,Son Ödeme (1),Son Ödeme (2),...,Son Ödeme (5),Son Ödeme (6-10),Son Ödeme (10-20),Son Ödeme (20-30),Son Ödeme (30-60),Son Ödeme (60-90),Son Ödeme (90-120),Son Ödeme (120-150),Son Ödeme (150-180),Son Ödeme (180+)
0,OCK 2023,AMASYA,GÖYNÜCEK,9374624783,Mesken,5.03,0.03,,,,...,,,,,,,5.0,,,
1,OCK 2023,AMASYA,GÖYNÜCEK,236184905,Mesken,26.46,0.06,26.4,,,...,,,,,,,,,,
2,OCK 2023,AMASYA,GÖYNÜCEK,9657731015,Mesken,121.53,,,,121.53,...,,,,,,,,,,



2. info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 917632 entries, 0 to 917631
Data columns (total 22 columns):
 #   Column                                Non-Null Count   Dtype  
---  ------                                --------------   -----  
 0   Mali yıl/dönem                        917632 non-null  object 
 1   İl                                    917632 non-null  object 
 2   İlçe                                  917632 non-null  object 
 3   Söz.hsp.(bağımsız)                    917632 non-null  int64  
 4   Hesap Sınıfı                          917632 non-null  object 
 5   Tahakkuk Tutar                        917632 non-null  float64
 6   Son Ödeme Tarihinden Önceki Tahsilat  623908 non-null  float64
 7   Son Ödeme Tarihindeki Tahsilat        328193 non-null  float64
 8   Son Ödeme (1)                         20902 non-null   float64
 9   Son Ödeme (2)                         21664 non-null   float64
 10  Son Ödeme (3)                         18893 non-null   floa

Unnamed: 0,Mali yıl/dönem,İl,İlçe,Söz.hsp.(bağımsız),Hesap Sınıfı,Tahakkuk Tutar,Son Ödeme Tarihinden Önceki Tahsilat,Son Ödeme Tarihindeki Tahsilat,Son Ödeme (1),Son Ödeme (2),...,Son Ödeme (5),Son Ödeme (6-10),Son Ödeme (10-20),Son Ödeme (20-30),Son Ödeme (30-60),Son Ödeme (60-90),Son Ödeme (90-120),Son Ödeme (120-150),Son Ödeme (150-180),Son Ödeme (180+)
count,917632,917632,917632,917632.0,917632,917632.0,623908.0,328193.0,20902.0,21664.0,...,7323.0,45708.0,48281.0,29005.0,23030.0,7184.0,3820.0,2302.0,1551.0,4827.0
unique,29,1,4,,38,,,,,,...,,,,,,,,,,
top,TEM 2024,AMASYA,TAŞOVA,,Mesken,,,,,,...,,,,,,,,,,
freq,35717,917632,435394,,797842,,,,,,...,,,,,,,,,,
mean,,,,5010893000.0,,508.5794,206.312521,547.264676,643.061367,553.709882,...,516.075436,558.643866,583.558553,801.017507,918.617756,1257.71,671.639885,322.164222,393.359884,159.776611
std,,,,2883691000.0,,5052.666,2855.301668,3898.724314,5454.365338,5123.75651,...,3451.492687,6666.262578,7178.350454,7154.314816,7105.333937,20074.15,5979.226329,3220.519683,5264.09925,2619.161924
min,,,,175832.0,,-12793.28,-12793.28,0.0,-70.0,-296.93,...,-752.0,-100.66,-962.0,0.0,-6837.0,-701.0,-770.0,-349.0,0.0,-15206.88
25%,,,,2513721000.0,,110.15,0.32,116.6,125.61,112.9225,...,115.0,121.905,115.0,109.0,77.0,42.8575,30.33,24.125,23.0,13.47
50%,,,,5009565000.0,,202.07,44.22,210.99,222.0,211.0,...,218.54,213.59,210.0,220.88,172.955,107.0,76.0,55.37,49.0,32.0
75%,,,,7509497000.0,,321.57,210.22,334.27,349.9775,333.0,...,344.985,330.0,334.0,382.47,320.9875,219.5575,164.0,124.13,106.5,76.0


Hamamözü (Tahakkuk) Verisi

In [5]:
print(f"\033[93m\n{'#'*20} Hamamözü (Tahakkuk) İnceleme {'#'*20}\033[0m")

print(f"\n1. head")
display(df_tahakkuk_hamamozu.head(3))
    
print(f"\n2. info")
df_tahakkuk_hamamozu.info()
    
print(f"\n3. describe")
display(df_tahakkuk_hamamozu.describe(include="all").T) 

[93m
#################### Hamamözü (Tahakkuk) İnceleme ####################[0m

1. head


Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh
0,AMASYA,HAMAMÖZÜ,917576806,2023-01-01,2023-01-12,2023-03-06,2023-01-23,M001,Mesken,1.79
1,AMASYA,HAMAMÖZÜ,917576806,2023-01-01,2023-02-09,2023-05-11,2023-02-20,M001,Mesken,2.6
2,AMASYA,HAMAMÖZÜ,917576806,2023-02-01,2023-02-09,2023-05-11,2023-02-20,M001,Mesken,1.23



2. info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 124818 entries, 0 to 124817
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   il                 124818 non-null  object 
 1   ilce               124818 non-null  object 
 2   sozlesme_hesap_no  124818 non-null  int64  
 3   mali_yil_donem     124818 non-null  object 
 4   fatura_tarihi      124818 non-null  object 
 5   kayit_tarihi       124818 non-null  object 
 6   vade_tarihi        124818 non-null  object 
 7   hesap_sinifi       124818 non-null  object 
 8   Hesap Sınıfı       124818 non-null  object 
 9   kwh                124818 non-null  float64
dtypes: float64(1), int64(1), object(8)
memory usage: 9.5+ MB

3. describe


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
il,124818.0,1.0,AMASYA,124818.0,,,,,,,
ilce,124818.0,1.0,HAMAMÖZÜ,124818.0,,,,,,,
sozlesme_hesap_no,124818.0,,,,5044916479.96015,2874543657.757234,2903944.0,2577471102.0,5027441889.0,7594089979.0,9991894452.0
mali_yil_donem,124818.0,31.0,2024-08-01,4222.0,,,,,,,
fatura_tarihi,124818.0,451.0,2024-07-12,4734.0,,,,,,,
kayit_tarihi,124818.0,30.0,2024-10-08,9437.0,,,,,,,
vade_tarihi,124818.0,423.0,2024-07-22,4703.0,,,,,,,
hesap_sinifi,124818.0,28.0,M001,110682.0,,,,,,,
Hesap Sınıfı,124818.0,28.0,Mesken,110682.0,,,,,,,
kwh,124818.0,,,,70.874619,389.217875,-1242.99,15.49,40.56,70.43,25941.6


Gümüşhacıköy (Tahakkuk 1) Verisi

In [6]:
print(f"\033[93m\n{'#'*20} Gümüşhacıköy (Tahakkuk 1) İnceleme {'#'*20}\033[0m")

print(f"\n1. head")
display(df_tahakkuk_gumus.head(3))
    
print(f"\n2. info")
df_tahakkuk_gumus.info()
    
print(f"\n3. describe")
display(df_tahakkuk_gumus.describe(include="all").T) 

[93m
#################### Gümüşhacıköy (Tahakkuk 1) İnceleme ####################[0m

1. head


Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh
0,AMASYA,GÜMÜŞHACIKÖY,7444449517,2023-01-01,2023-01-11,2023-03-06,2023-01-23,M001,Mesken,21.85
1,AMASYA,GÜMÜŞHACIKÖY,7444449517,2023-01-01,2023-02-10,2023-05-11,2023-02-20,M001,Mesken,44.5
2,AMASYA,GÜMÜŞHACIKÖY,7444449517,2023-02-01,2023-02-10,2023-05-11,2023-02-20,M001,Mesken,22.25



2. info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 765657 entries, 0 to 765656
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   il                 765657 non-null  object 
 1   ilce               765657 non-null  object 
 2   sozlesme_hesap_no  765657 non-null  int64  
 3   mali_yil_donem     765657 non-null  object 
 4   fatura_tarihi      765657 non-null  object 
 5   kayit_tarihi       765657 non-null  object 
 6   vade_tarihi        765657 non-null  object 
 7   hesap_sinifi       765657 non-null  object 
 8   Hesap Sınıfı       765657 non-null  object 
 9   kwh                765657 non-null  float64
dtypes: float64(1), int64(1), object(8)
memory usage: 58.4+ MB

3. describe


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
il,765657.0,1.0,AMASYA,765657.0,,,,,,,
ilce,765657.0,1.0,GÜMÜŞHACIKÖY,765657.0,,,,,,,
sozlesme_hesap_no,765657.0,,,,5019916189.472705,2881723850.324021,256114.0,2519994967.0,5030422082.0,7517064694.0,9998330667.0
mali_yil_donem,765657.0,31.0,2024-07-01,26246.0,,,,,,,
fatura_tarihi,765657.0,758.0,2025-06-21,15746.0,,,,,,,
kayit_tarihi,765657.0,30.0,2024-10-08,56751.0,,,,,,,
vade_tarihi,765657.0,645.0,2024-07-01,16882.0,,,,,,,
hesap_sinifi,765657.0,36.0,M001,658189.0,,,,,,,
Hesap Sınıfı,765657.0,36.0,Mesken,658189.0,,,,,,,
kwh,765657.0,,,,97.336632,1077.758336,-25370.64,18.57,48.31,82.72,153575.73


Göynücek (Tahakkuk 2) Verisi

In [7]:
print(f"\033[93m\n{'#'*20} Göynücek (Tahakkuk 2) İnceleme {'#'*20}\033[0m")

print(f"\n1. head")
display(df_tahakkuk_goynucek.head(3))
    
print(f"\n2. info")
df_tahakkuk_goynucek.info()
    
print(f"\n3. describe")
display(df_tahakkuk_goynucek.describe(include="all").T) 

[93m
#################### Göynücek (Tahakkuk 2) İnceleme ####################[0m

1. head


Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh
0,AMASYA,GÖYNÜCEK,9374624783,2023-01-01,2023-01-14,2023-03-06,2023-01-24,M001,Mesken,0.1
1,AMASYA,GÖYNÜCEK,9374624783,2023-01-01,2025-03-12,2025-05-09,2025-03-24,M001,Mesken,0.12
2,AMASYA,GÖYNÜCEK,9374624783,2023-02-01,2025-03-12,2025-05-09,2025-03-24,M001,Mesken,0.2



2. info
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 295223 entries, 0 to 295222
Data columns (total 10 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   il                 295223 non-null  object 
 1   ilce               295223 non-null  object 
 2   sozlesme_hesap_no  295223 non-null  int64  
 3   mali_yil_donem     295223 non-null  object 
 4   fatura_tarihi      295223 non-null  object 
 5   kayit_tarihi       295223 non-null  object 
 6   vade_tarihi        295223 non-null  object 
 7   hesap_sinifi       295223 non-null  object 
 8   Hesap Sınıfı       295223 non-null  object 
 9   kwh                295223 non-null  float64
dtypes: float64(1), int64(1), object(8)
memory usage: 22.5+ MB

3. describe


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
il,295223.0,1.0,AMASYA,295223.0,,,,,,,
ilce,295223.0,1.0,GÖYNÜCEK,295223.0,,,,,,,
sozlesme_hesap_no,295223.0,,,,4950566464.426748,2887724120.171966,1118550.0,2432854136.0,4928206069.0,7475616412.0,9997184778.0
mali_yil_donem,295223.0,31.0,2024-07-01,10113.0,,,,,,,
fatura_tarihi,295223.0,663.0,2024-07-16,9556.0,,,,,,,
kayit_tarihi,295223.0,30.0,2024-10-08,21865.0,,,,,,,
vade_tarihi,295223.0,566.0,2023-12-25,10392.0,,,,,,,
hesap_sinifi,295223.0,29.0,M001,257738.0,,,,,,,
Hesap Sınıfı,295223.0,29.0,Mesken,257738.0,,,,,,,
kwh,295223.0,,,,89.669891,742.276369,-4208.64,17.86,45.09,77.14,105687.69


In [8]:
import ipywidgets as widgets
from IPython.display import display

dataframes_list = {
    "Tahsilat": df_tahsilat,
    "Tahsilat 1": df_tahsilat_1,
    "Hamamözü (Tahakkuk)": df_tahakkuk_hamamozu,
    "Gümüşhacıköy (Tahakkuk 1)": df_tahakkuk_gumus,
    "Göynücek (Tahakkuk 2)": df_tahakkuk_goynucek
}

tabs = []
tab_titles = list(dataframes_list.keys())

for name, df in dataframes_list.items():
    out = widgets.Output()
    with out:
        print(f"--- {name} İstatistikleri ---")
        display(df.head(3))
        df.info()
        display(df.describe(include='all').T)
    tabs.append(out)

children = widgets.Tab(children=tabs)
for i, title in enumerate(tab_titles):
    children.set_title(i, title)

display(children)

Tab(children=(Output(), Output(), Output(), Output(), Output()), selected_index=0, titles=('Tahsilat', 'Tahsil…

## 4. Benzersiz Müşteri Sayıları

Her ilçe için kaç farklı müşteri (`sozlesme_hesap_no`) olduğunun hesaplanması ve karşılaştırması.

In [9]:
musteri_sayisi_hamamozu = df_tahakkuk_hamamozu['sozlesme_hesap_no'].nunique()
musteri_sayisi_gumus = df_tahakkuk_gumus['sozlesme_hesap_no'].nunique()
musteri_sayisi_goynucek = df_tahakkuk_goynucek['sozlesme_hesap_no'].nunique()

print(f"Hamamözü Müşteri Sayısı: {musteri_sayisi_hamamozu}")
print(f"Gümüşhacıköy Müşteri Sayısı: {musteri_sayisi_gumus}")
print(f"Göynücek Müşteri Sayısı: {musteri_sayisi_goynucek}")

Hamamözü Müşteri Sayısı: 2981
Gümüşhacıköy Müşteri Sayısı: 18190
Göynücek Müşteri Sayısı: 7128


## 5. Tahakkuk Verilerinin Birleştirilmesi

3 ilçeye ait tahakkuk verilerinin tek bir DataFrame altında birleştirilmesi.

In [10]:
df_tahakkuk_hamamozu['Ilce_Adi'] = 'Hamamözü'
df_tahakkuk_gumus['Ilce_Adi'] = 'Gümüşhacıköy'
df_tahakkuk_goynucek['Ilce_Adi'] = 'Göynücek'

df_tahakkuk_tum = pd.concat([df_tahakkuk_hamamozu, df_tahakkuk_gumus, df_tahakkuk_goynucek], ignore_index=True)

print(f"\033[1mToplam Tahakkuk Kayıt Sayısı: {df_tahakkuk_tum.shape[0]}")
display(df_tahakkuk_tum.head())

ilceye_gore_musteri_sayisi = df_tahakkuk_tum.groupby("Ilce_Adi")["sozlesme_hesap_no"].count().sort_values(ascending=False)
print("\033[1mİlçeye Göre Tahakkuk Kayıt Sayısı")
display(ilceye_gore_musteri_sayisi)

unique_ilc_musteri_sayisi= df_tahakkuk_tum.groupby("Ilce_Adi")["sozlesme_hesap_no"].nunique().sort_values(ascending=False)
print("\033[1mİlçeye Göre Benzersiz Müşteri Sayısı")
display(unique_ilc_musteri_sayisi)

[1mToplam Tahakkuk Kayıt Sayısı: 1185698


Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh,Ilce_Adi
0,AMASYA,HAMAMÖZÜ,917576806,2023-01-01,2023-01-12,2023-03-06,2023-01-23,M001,Mesken,1.79,Hamamözü
1,AMASYA,HAMAMÖZÜ,917576806,2023-01-01,2023-02-09,2023-05-11,2023-02-20,M001,Mesken,2.6,Hamamözü
2,AMASYA,HAMAMÖZÜ,917576806,2023-02-01,2023-02-09,2023-05-11,2023-02-20,M001,Mesken,1.23,Hamamözü
3,AMASYA,HAMAMÖZÜ,917576806,2023-02-01,2023-03-10,2023-05-11,2023-03-20,M001,Mesken,2.56,Hamamözü
4,AMASYA,HAMAMÖZÜ,917576806,2023-03-01,2023-03-10,2023-05-11,2023-03-20,M001,Mesken,1.35,Hamamözü


[1mİlçeye Göre Tahakkuk Kayıt Sayısı


Ilce_Adi
Gümüşhacıköy    765657
Göynücek        295223
Hamamözü        124818
Name: sozlesme_hesap_no, dtype: int64

[1mİlçeye Göre Benzersiz Müşteri Sayısı


Ilce_Adi
Gümüşhacıköy    18190
Göynücek         7128
Hamamözü         2981
Name: sozlesme_hesap_no, dtype: int64

## 6. Veri Temizliği ve Kontrolü (kWh)

`kwh` sütunundaki negatif değerler, eksik veriler ve uç değerlerin analiz edilmesi.
- **Negatif değerler**: İptal edilen faturalar veya düzeltme kayıtları olabilir.
- **Eksik değerler**: Veri girişi hatası olabilir.

In [11]:
# Eksik Değer Kontrolü
print("kwh sütunundaki eksik değer sayısı:", df_tahakkuk_tum['kwh'].isna().sum())

# Negatif Değer Kontrolü
negatif_tuketim = df_tahakkuk_tum[df_tahakkuk_tum['kwh'] < 0]
print(f"\nNegatif tüketim kaydı sayısı: {len(negatif_tuketim)}\n")

print("Tanımlayıcı İstatistikler")
display(df_tahakkuk_tum['kwh'].describe())

kwh sütunundaki eksik değer sayısı: 0

Negatif tüketim kaydı sayısı: 151

Tanımlayıcı İstatistikler


count    1.185698e+06
mean     9.264207e+01
std      9.504052e+02
min     -2.537064e+04
25%      1.801000e+01
50%      4.662000e+01
75%      8.000000e+01
max      1.535757e+05
Name: kwh, dtype: float64

>Negatif kwh kayıtlarının olduğu kayıtların, yönetim ekibine sunulması için hatalı kayıtlar raporu adında kaydedilmesi.

In [12]:
negatif_tuketim.to_excel('../data/hatali_kayitlar_raporu.xlsx', index=False)

print(f"{len(negatif_tuketim)} adet hatalı kayıt hatali_kayitlar_raporu olarak kaydedildi.")

negatif_tuketim.sort_values(by="kwh", ascending=True).head()

151 adet hatalı kayıt hatali_kayitlar_raporu olarak kaydedildi.


Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh,Ilce_Adi
642557,AMASYA,GÜMÜŞHACIKÖY,3798287663,2025-04-01,2025-05-06,2025-07-09,2025-05-15,4,Belediye,-25370.64,Gümüşhacıköy
614593,AMASYA,GÜMÜŞHACIKÖY,5966038883,2023-08-01,2023-09-19,2023-10-31,2023-09-11,TA02,Tarımsal Faaliyetler (Kooperatif),-12574.78,Gümüşhacıköy
408766,AMASYA,GÜMÜŞHACIKÖY,6199137693,2024-08-01,2024-09-10,2024-12-09,2024-09-10,TA01,Tarımsal Faaliyetler (Şahıs),-9069.13,Gümüşhacıköy
398719,AMASYA,GÜMÜŞHACIKÖY,3971569485,2024-08-01,2024-09-10,2024-12-09,2024-09-10,TA01,Tarımsal Faaliyetler (Şahıs),-6851.44,Gümüşhacıköy
1113942,AMASYA,GÖYNÜCEK,7513817453,2025-03-01,2025-04-10,2025-06-10,2025-04-10,TA02,Tarımsal Faaliyetler (Kooperatif),-4208.64,Göynücek


> Temiz veri seti

In [13]:
df_tahakkuk_clean = df_tahakkuk_tum[df_tahakkuk_tum['kwh'] >= 0]

print(f"{'Orijinal Veri Sayısı':<24} : {len(df_tahakkuk_tum)}")
print(f"{'Temizlenmiş Veri Sayısı':<24} : {len(df_tahakkuk_clean)}")
df_tahakkuk_clean.head()

Orijinal Veri Sayısı     : 1185698
Temizlenmiş Veri Sayısı  : 1185547


Unnamed: 0,il,ilce,sozlesme_hesap_no,mali_yil_donem,fatura_tarihi,kayit_tarihi,vade_tarihi,hesap_sinifi,Hesap Sınıfı,kwh,Ilce_Adi
0,AMASYA,HAMAMÖZÜ,917576806,2023-01-01,2023-01-12,2023-03-06,2023-01-23,M001,Mesken,1.79,Hamamözü
1,AMASYA,HAMAMÖZÜ,917576806,2023-01-01,2023-02-09,2023-05-11,2023-02-20,M001,Mesken,2.6,Hamamözü
2,AMASYA,HAMAMÖZÜ,917576806,2023-02-01,2023-02-09,2023-05-11,2023-02-20,M001,Mesken,1.23,Hamamözü
3,AMASYA,HAMAMÖZÜ,917576806,2023-02-01,2023-03-10,2023-05-11,2023-03-20,M001,Mesken,2.56,Hamamözü
4,AMASYA,HAMAMÖZÜ,917576806,2023-03-01,2023-03-10,2023-05-11,2023-03-20,M001,Mesken,1.35,Hamamözü


Belirli bir değerin üzerindeki aşırı uç tüketimler ve bunların hangi sınıfa ait olduğunun gösterilmesi.

In [14]:
high_outliers = df_tahakkuk_clean[df_tahakkuk_clean['kwh'] > 10000]
print(f"10.000 kWh üzeri kayıt sayısı: {len(high_outliers)}")
display(high_outliers['Hesap Sınıfı'].value_counts().head())

10.000 kWh üzeri kayıt sayısı: 974


Hesap Sınıfı
Tarımsal Faaliyetler (Şahıs)               269
Tarımsal Faaliyetler (Kooperatif)          200
1 SAYILI CETVELDE YER ALAN KAMU İDARESİ     93
İçme-Kullanma Suyu (Belediye)               88
Ticari Faaliyet - Yazıhane                  84
Name: count, dtype: int64

## 7. Hesap Sınıfına Göre Tüketim İstatistikleri

Hangi abone grubunun ortalama ne kadar elektrik tükettiğinin incelenmesi.

In [15]:
hesap_sinifi_stats = df_tahakkuk_clean.groupby('Hesap Sınıfı')['kwh'].agg(['count', 'mean', 'median', 'std'])

hesap_sinifi_stats = hesap_sinifi_stats.sort_values(by='mean', ascending=False)

print("\nHesap Sınıfına Göre Tüketim Analizi")
display(hesap_sinifi_stats.round(2))


Hesap Sınıfına Göre Tüketim Analizi


Unnamed: 0_level_0,count,mean,median,std
Hesap Sınıfı,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Karayolları Genel Müdürlüğü Aydınlatma,41,30203.43,36810.9,16963.57
Aritma Tesisleri,35,16594.17,16186.91,11656.71
Lisansız Üreticiler,180,16155.25,322.32,35926.42
Sanayi,187,7293.8,1531.68,13716.34
İçme-Kullanma Suyu (Belediye),417,5213.51,400.02,8948.07
Tarımsal Faaliyetler (Kooperatif),1616,3830.02,282.72,9454.76
Lisansız Üreticiler - Resmi Daire,36,1195.05,770.62,1229.58
"Resmi SAĞLIK KURULUŞLARI,RESMİ SPOR TES.",442,1154.74,239.9,3804.87
"Resmi Üniversite,Yük.Okul,Kurs,Yurt,Okul",476,883.89,285.41,1435.31
1 SAYILI CETVELDE YER ALAN KAMU İDARESİ,8500,688.44,23.86,3911.91


## 8. Verileri Hazırlama ve Kaydetme

Tahsilat 1 verisindeki ay kısaltmalatının, ay numaralarıyla değiştirilmesi ve verilerdeki tarihlerin datetime tipine dönüştürülmesi.

In [16]:
#tahsilat 1
ay_kisa_map = {
    'OCK': '01',
    'ŞBT': '02',
    'MAR': '03',
    'NİS': '04',
    'MAY': '05',
    'HAZ': '06',
    'TEM': '07',
    'AGU': '08',
    'EYL': '09',
    'EKM': '10',
    'KSM': '11',
    'ARL': '12'
}

df_tahsilat_1['Mali yıl/dönem'] = (df_tahsilat_1['Mali yıl/dönem'].astype(str).str.strip().replace(ay_kisa_map, regex=True))

df_tahsilat_1['Mali yıl/dönem'] = pd.to_datetime(df_tahsilat_1['Mali yıl/dönem'],format='%m %Y',errors='coerce')

#tahsiilat
df_tahsilat['Tahsilat Tarihi'] = pd.to_datetime(df_tahsilat['Tahsilat Tarihi'], errors='coerce')

#tahakkuk
date_cols_tahakkuk = ['fatura_tarihi', 'kayit_tarihi', 'vade_tarihi', 'mali_yil_donem']

for col in date_cols_tahakkuk:
    df_tahakkuk_clean[col] = pd.to_datetime(df_tahakkuk_clean[col], errors='coerce')
    

print("Tahakkuk Veri Tipleri")
display(df_tahakkuk_clean.dtypes)
print("\nTahsilat Veri Tipleri")
display(df_tahsilat.dtypes)
print("\nTahsilat 1 Veri Tipleri")
display(df_tahsilat_1.dtypes)


Tahakkuk Veri Tipleri


il                           object
ilce                         object
sozlesme_hesap_no             int64
mali_yil_donem       datetime64[ns]
fatura_tarihi        datetime64[ns]
kayit_tarihi         datetime64[ns]
vade_tarihi          datetime64[ns]
hesap_sinifi                 object
Hesap Sınıfı                 object
kwh                         float64
Ilce_Adi                     object
dtype: object


Tahsilat Veri Tipleri


Şube                             object
Kasa                             object
İlçe                             object
Söz.hsp.(bağımsız)                int64
Tahsilat Tarihi          datetime64[ns]
Nakit Tahsilat                  float64
Mahsuben Tahsilat               float64
Kredi Kartı Tahsilatı           float64
Banka Tahsilatı                 float64
dtype: object


Tahsilat 1 Veri Tipleri


Mali yıl/dönem                          datetime64[ns]
İl                                              object
İlçe                                            object
Söz.hsp.(bağımsız)                               int64
Hesap Sınıfı                                    object
Tahakkuk Tutar                                 float64
Son Ödeme Tarihinden Önceki Tahsilat           float64
Son Ödeme Tarihindeki Tahsilat                 float64
Son Ödeme (1)                                  float64
Son Ödeme (2)                                  float64
Son Ödeme (3)                                  float64
Son Ödeme (4)                                  float64
Son Ödeme (5)                                  float64
Son Ödeme (6-10)                               float64
Son Ödeme (10-20)                              float64
Son Ödeme (20-30)                              float64
Son Ödeme (30-60)                              float64
Son Ödeme (60-90)                              float64
Son Ödeme 

Verilerin, yavaş okunan excel formatı yerine pickle olarak kaydedilmesi.

In [17]:
import os

# Klasör yoksa oluştur
if not os.path.exists('../processed_data'):
    os.makedirs('../processed_data')

df_tahakkuk_clean.to_pickle("../processed_data/tahakkuk_clean.pkl")
df_tahsilat.to_pickle("../processed_data/tahsilat_clean.pkl")
df_tahsilat_1.to_pickle("../processed_data/tahsilat_1_clean.pkl")
negatif_tuketim.to_pickle("../processed_data/hatali_kayitlar.pkl")

print("Tüm dosyalar 'processed_data' klasörüne .pkl formatında kaydedildi")

Tüm dosyalar 'processed_data' klasörüne .pkl formatında kaydedildi


MEHMET ENES TEMEL

mehmetenestemel@gmail.com