# Veri Hazırlığı

[Orijinal Notebook kaynağı *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` Bilgilerini Keşfetme

> **Öğrenme hedefi:** Bu alt bölümün sonunda, pandas DataFrame'lerinde saklanan veriler hakkında genel bilgi bulma konusunda rahat olmalısınız.

Verilerinizi pandas'a yüklediğinizde, büyük olasılıkla bir `DataFrame` içinde olacaktır. Ancak, `DataFrame`'inizdeki veri seti 60.000 satır ve 400 sütun içeriyorsa, neyle çalıştığınızı nasıl anlamaya başlarsınız? Neyse ki, pandas, bir `DataFrame` hakkında genel bilgileri hızlıca görmek için birkaç kullanışlı araç sunar; bunlar, ilk birkaç ve son birkaç satırı görmenin yanı sıra genel bilgileri içerir.

Bu işlevselliği keşfetmek için Python scikit-learn kütüphanesini içe aktaracağız ve her veri bilimcisinin yüzlerce kez gördüğü ikonik bir veri setini kullanacağız: İngiliz biyolog Ronald Fisher'ın 1936 tarihli "Taksonomik problemler için çoklu ölçümlerin kullanımı" adlı makalesinde kullanılan *Iris* veri seti:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
`iris_df` değişkenine Iris Veri Seti'ni yükledik. Verilere dalmadan önce, elimizdeki veri noktalarının sayısını ve veri setinin genel boyutunu bilmek faydalı olacaktır. Çalıştığımız veri hacmini görmek yararlıdır.


In [2]:
iris_df.shape

(150, 4)

Yani, 150 satır ve 4 sütundan oluşan bir veriyle çalışıyoruz. Her bir satır bir veri noktasını temsil ediyor ve her sütun veri çerçevesiyle ilişkili tek bir özelliği ifade ediyor. Temelde, her biri 4 özellik içeren 150 veri noktası var.

Buradaki `shape`, veri çerçevesinin bir özelliğidir ve bir fonksiyon olmadığı için sonunda parantez bulunmaz.


### `DataFrame.columns`
Şimdi veri setindeki 4 sütuna geçelim. Her biri tam olarak neyi temsil ediyor? `columns` özelliği, veri çerçevesindeki sütunların adlarını bize verecektir.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Gördüğümüz gibi, dört(4) sütun var. `columns` özelliği bize sütunların adını söyler ve temelde başka bir şey söylemez. Bu özellik, bir veri setinin içerdiği özellikleri tanımlamak istediğimizde önem kazanır.


### `DataFrame.info`
Veri miktarı (`shape` özelliği ile belirtilir) ve özelliklerin veya sütunların adları (`columns` özelliği ile belirtilir) veri seti hakkında bize bazı bilgiler verir. Şimdi, veri setine daha derinlemesine bakmak isteyeceğiz. `DataFrame.info()` fonksiyonu bu konuda oldukça kullanışlıdır.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Buradan birkaç gözlem yapabiliriz:
1. Her sütunun Veri Tipi: Bu veri setinde, tüm veriler 64-bit kayan nokta sayıları olarak saklanmıştır.
2. Null Olmayan değerlerin sayısı: Null değerlerle başa çıkmak, veri hazırlığında önemli bir adımdır. Bu konu daha sonra not defterinde ele alınacaktır.


### DataFrame.describe()
Diyelim ki veri setimizde çok fazla sayısal veri var. Ortalama, medyan, çeyrekler gibi tek değişkenli istatistiksel hesaplamalar, her bir sütun üzerinde ayrı ayrı yapılabilir. `DataFrame.describe()` fonksiyonu, bir veri setinin sayısal sütunları hakkında istatistiksel bir özet sunar.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Yukarıdaki çıktı, her sütunun toplam veri noktası sayısını, ortalamayı, standart sapmayı, minimum değeri, alt çeyreği (%25), medyanı (%50), üst çeyreği (%75) ve maksimum değerini göstermektedir.


### `DataFrame.head`
Yukarıdaki tüm fonksiyonlar ve özelliklerle, veri setine genel bir bakış elde ettik. Kaç veri noktası olduğunu, kaç özellik bulunduğunu, her bir özelliğin veri tipini ve her bir özellik için kaç tane null olmayan değer olduğunu biliyoruz.

Şimdi verinin kendisine bakma zamanı. `DataFrame`imizin ilk birkaç satırına (ilk birkaç veri noktasına) bakalım:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Buradaki çıktıda, veri setinin beş (5) girişini görebiliyoruz. Sol taraftaki indekse bakarsak, bunların ilk beş satır olduğunu anlıyoruz.


### Alıştırma:

Yukarıda verilen örnekten açıkça görülüyor ki, varsayılan olarak `DataFrame.head`, bir `DataFrame`'in ilk beş satırını döndürür. Aşağıdaki kod hücresinde, beşten fazla satırı görüntülemenin bir yolunu bulabilir misiniz?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Verilere bakmanın başka bir yolu, başlangıç yerine sondan olabilir. `DataFrame.head`'in tersine, `DataFrame.tail` bir `DataFrame`'in son beş satırını döndürür:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Uygulamada, özellikle sıralı veri kümelerinde aykırı değerleri ararken, bir `DataFrame`in ilk birkaç satırını veya son birkaç satırını kolayca incelemek faydalı olabilir.

Yukarıda kod örnekleriyle gösterilen tüm fonksiyonlar ve özellikler, veriye bir bakış ve hissiyat kazanmamıza yardımcı olur.

> **Çıkarım:** Bir DataFrame'deki bilgilerin meta verilerine veya ilk ve son birkaç değerine bakarak, üzerinde çalıştığınız verinin boyutu, şekli ve içeriği hakkında hemen bir fikir edinebilirsiniz.


### Eksik Veri
Eksik veri konusuna dalalım. Eksik veri, bazı sütunlarda hiçbir değer saklanmadığında meydana gelir.

Bir örnek alalım: Diyelim ki biri kilosu konusunda hassas ve bir ankette kilo alanını doldurmuyor. O zaman, bu kişinin kilo değeri eksik olacaktır.

Gerçek dünya veri setlerinde, eksik değerler çoğu zaman ortaya çıkar.

**Pandas Eksik Verileri Nasıl Ele Alır**

Pandas eksik değerleri iki şekilde ele alır. İlkini önceki bölümlerde görmüştünüz: `NaN`, yani Not a Number (Sayı Değil). Bu aslında IEEE kayan nokta spesifikasyonunun bir parçası olan özel bir değerdir ve yalnızca eksik kayan nokta değerlerini belirtmek için kullanılır.

Kayan nokta dışındaki eksik değerler için pandas, Python `None` nesnesini kullanır. İki farklı türde eksik değerle karşılaşmanın kafa karıştırıcı görünebileceği düşünülse de, bu tasarım seçiminin sağlam programatik nedenleri vardır ve pratikte bu yaklaşım, pandas'ın çoğu durumda iyi bir denge sunmasını sağlar. Bununla birlikte, hem `None` hem de `NaN` ile ilgili olarak nasıl kullanılabilecekleri konusunda dikkat edilmesi gereken sınırlamalar taşır.


### `None`: float olmayan eksik veri
Python'dan gelen `None`, veri türü `'object'` olmayan NumPy ve pandas dizilerinde kullanılamaz. Unutmayın, NumPy dizileri (ve pandas'taki veri yapıları) yalnızca tek bir tür veri içerebilir. Bu, büyük ölçekli veri ve hesaplama çalışmaları için onlara muazzam bir güç sağlar, ancak aynı zamanda esnekliklerini sınırlar. Bu tür diziler, dizideki her şeyi kapsayacak olan "en düşük ortak payda" veri türüne yükseltilmek zorundadır. Dizide `None` olduğunda, Python nesneleriyle çalışıyorsunuz demektir.

Bunu uygulamada görmek için aşağıdaki örnek diziye bir göz atın (dizinin `dtype` değerine dikkat edin):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Yukarıya dönüştürülen veri türlerinin gerçekliği iki yan etkiyi beraberinde getirir. Birincisi, işlemler derlenmiş NumPy kodu yerine yorumlanmış Python kodu seviyesinde gerçekleştirilir. Temelde bu, içinde `None` bulunan `Series` veya `DataFrame`lerle yapılan işlemlerin daha yavaş olacağı anlamına gelir. Bu performans düşüşünü muhtemelen fark etmezsiniz, ancak büyük veri kümelerinde sorun haline gelebilir.

İkinci yan etki birincisinden kaynaklanır. Çünkü `None`, `Series` veya `DataFrame`leri temel Python dünyasına geri çeker, içinde ``None`` değeri bulunan dizilerde NumPy/pandas toplama işlemleri (örneğin `sum()` veya `min()`) genellikle bir hata üretir:


In [10]:
example1.sum()

TypeError: ignored

**Ana fikir**: Tamsayılar ile `None` değerleri arasındaki toplama (ve diğer işlemler) tanımsızdır, bu da bu tür değerler içeren veri kümeleriyle yapabileceklerinizi sınırlayabilir.


### `NaN`: eksik float değerler

`None`'dan farklı olarak, NumPy (dolayısıyla pandas) hızlı, vektörleştirilmiş işlemleri ve ufunc'ları için `NaN`'ı destekler. Kötü haber şu ki, `NaN` üzerinde yapılan herhangi bir aritmetik işlem her zaman `NaN` ile sonuçlanır. Örneğin:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

İyi haber: `NaN` içeren dizilerde çalışan toplama işlemleri hata vermiyor. Kötü haber: sonuçlar her zaman kullanışlı değil:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Egzersiz:


In [11]:
# What happens if you add np.nan and None together?


Unutmayın: `NaN` yalnızca eksik kayan nokta değerleri içindir; tamsayılar, dizeler veya Boole değerleri için `NaN` eşdeğeri yoktur.


### `NaN` ve `None`: pandas'ta null değerler

`NaN` ve `None` biraz farklı davranabilse de, pandas bunları birbirinin yerine kullanılabilir şekilde işlemeye uygun olarak tasarlanmıştır. Ne demek istediğimizi görmek için, bir tam sayı `Series`'ini düşünün:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Egzersiz:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Pandas'da `Series` ve `DataFrame`lerde veri türlerini aynı hale getirmek için veri türlerini yükseltme işlemi sırasında, eksik değerler arasında `None` ve `NaN` geçişi yapılabilir. Bu tasarım özelliği nedeniyle, pandas'ta `None` ve `NaN`'ı "null"ın iki farklı çeşidi olarak düşünmek faydalı olabilir. Nitekim, pandas'ta eksik değerlerle başa çıkmak için kullanacağınız bazı temel yöntemler bu fikri isimlerinde yansıtır:

- `isnull()`: Eksik değerleri gösteren bir Boolean maskesi oluşturur
- `notnull()`: `isnull()`'un tersi
- `dropna()`: Verinin filtrelenmiş bir versiyonunu döndürür
- `fillna()`: Eksik değerlerin doldurulduğu veya tahmin edildiği bir veri kopyası döndürür

Bu yöntemleri öğrenmek ve rahatça kullanabilmek oldukça önemlidir, bu yüzden her birini detaylı bir şekilde inceleyelim.


### Null değerlerini tespit etme

Eksik değerlerin önemini anladıktan sonra, onlarla başa çıkmadan önce veri setimizdeki eksik değerleri tespit etmemiz gerekiyor. 
Hem `isnull()` hem de `notnull()` null verileri tespit etmek için kullanılan temel yöntemlerdir. Her ikisi de verileriniz üzerinde Boolean maskeleri döndürür.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Çıktıya dikkatlice bakın. Sizi şaşırtan bir şey var mı? `0` aritmetik olarak bir null değeri olsa da, yine de gayet geçerli bir tam sayı ve pandas bunu bu şekilde ele alır. `''` ise biraz daha ince bir durum. Bölüm 1'de boş bir dize değerini temsil etmek için kullandığımız halde, pandas açısından null bir temsil değil, bir dize nesnesidir.

Şimdi bunu tersine çevirelim ve bu yöntemleri pratikte kullanacağınız şekilde uygulayalım. Boolean maskeleri doğrudan bir ``Series`` veya ``DataFrame`` indeksi olarak kullanabilirsiniz, bu da izole edilmiş eksik (veya mevcut) değerlerle çalışmaya çalışırken faydalı olabilir.

Eksik değerlerin toplam sayısını öğrenmek istiyorsak, `isnull()` yöntemi tarafından üretilen maskenin üzerinde bir toplam işlemi yapmamız yeterlidir.


In [19]:
example3.isnull().sum()

2

### Egzersiz:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Ana fikir**: Hem `isnull()` hem de `notnull()` yöntemleri, DataFrame'lerde kullanıldığında benzer sonuçlar üretir: sonuçları ve bu sonuçların indekslerini gösterir, bu da verilerinizle uğraşırken size büyük ölçüde yardımcı olur.


### Eksik Verilerle Başa Çıkma

> **Öğrenme hedefi:** Bu alt bölümün sonunda, DataFrame'lerdeki null değerleri nasıl ve ne zaman değiştireceğinizi veya kaldıracağınızı öğrenmiş olmalısınız.

Makine Öğrenimi modelleri eksik verilerle doğrudan çalışamaz. Bu nedenle, verileri modele göndermeden önce bu eksik değerlerle ilgilenmemiz gerekir.

Eksik verilerin nasıl ele alındığı, ince dengeler taşır, nihai analiziniz ve gerçek dünya sonuçlarınızı etkileyebilir.

Eksik verilerle başa çıkmanın temel olarak iki yolu vardır:

1. Eksik değeri içeren satırı silmek  
2. Eksik değeri başka bir değerle değiştirmek  

Her iki yöntemi de detaylı bir şekilde tartışacağız ve avantajları ile dezavantajlarını ele alacağız.


### Null Değerleri Kaldırma

Modelimize aktardığımız veri miktarı, performansını doğrudan etkiler. Null değerleri kaldırmak, veri noktalarının sayısını azaltmak ve dolayısıyla veri setinin boyutunu küçültmek anlamına gelir. Bu nedenle, veri seti oldukça büyük olduğunda null değer içeren satırları kaldırmak önerilir.

Bir diğer durum ise, belirli bir satır veya sütunun çok fazla eksik değere sahip olması olabilir. Bu durumda, bu satır/sütunlar kaldırılabilir çünkü çoğu veri eksik olduğundan analizimize fazla bir değer katmayacaktır.

Eksik değerleri belirlemenin ötesinde, pandas `Series` ve `DataFrame`lerden null değerleri kaldırmak için kullanışlı bir yöntem sunar. Bunu uygulamada görmek için `example3`e geri dönelim. `DataFrame.dropna()` fonksiyonu, null değer içeren satırları kaldırmaya yardımcı olur.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Unutmayın, bu `example3[example3.notnull()]` çıktınıza benzemelidir. Buradaki fark, yalnızca maskelenmiş değerlere indeksleme yapmak yerine, `dropna`'nın `Series` `example3` içindeki eksik değerleri kaldırmış olmasıdır.

DataFrame'ler iki boyutlu olduğu için, veri düşürme konusunda daha fazla seçenek sunarlar.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Pandas'ın `NaN` değerlerini barındırmak için iki sütunu float türüne yükselttiğini fark ettiniz mi?)

Bir `DataFrame`'den tek bir değeri silemezsiniz, bu yüzden tam satırları veya sütunları silmeniz gerekir. Ne yapmak istediğinize bağlı olarak, birini veya diğerini tercih edebilirsiniz ve bu nedenle pandas her ikisi için de seçenekler sunar. Veri bilimi bağlamında, sütunlar genellikle değişkenleri, satırlar ise gözlemleri temsil ettiğinden, genellikle veri satırlarını silmeniz daha olasıdır; `dropna()` için varsayılan ayar, herhangi bir null değer içeren tüm satırları silmektir:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Gerekirse, sütunlardan NA değerlerini kaldırabilirsiniz. Bunu yapmak için `axis=1` kullanın:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Unutmayın, bu işlem özellikle daha küçük veri kümelerinde tutmak isteyebileceğiniz birçok veriyi silebilir. Peki ya sadece birkaç veya tüm null değerleri içeren satırları ya da sütunları silmek isterseniz? Bu ayarları `dropna` yönteminde `how` ve `thresh` parametreleriyle belirtebilirsiniz.

Varsayılan olarak, `how='any'` (kendiniz kontrol etmek veya yöntemin diğer parametrelerini görmek isterseniz, bir kod hücresinde `example4.dropna?` çalıştırabilirsiniz). Alternatif olarak, yalnızca tüm değerleri null olan satırları veya sütunları silmek için `how='all'` belirtebilirsiniz. Bu işlemi görmek için örnek `DataFrame`imizi genişletelim ve bir sonraki alıştırmada bunu uygulayalım.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Önemli noktalar: 
1. Eksik değerleri kaldırmak, yalnızca veri seti yeterince büyükse iyi bir fikirdir.
2. Çoğu verisi eksik olan tam satırlar veya sütunlar kaldırılabilir.
3. `DataFrame.dropna(axis=)` yöntemi, eksik değerleri kaldırmaya yardımcı olur. `axis` argümanı, satırların mı yoksa sütunların mı kaldırılacağını belirtir.
4. `how` argümanı da kullanılabilir. Varsayılan olarak `any` olarak ayarlanmıştır. Bu nedenle, yalnızca herhangi bir eksik değer içeren satırları/sütunları kaldırır. `all` olarak ayarlanabilir, böylece yalnızca tüm değerlerin eksik olduğu satırları/sütunları kaldırırız.


### Egzersiz:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` parametresi size daha ince ayarlı bir kontrol sağlar: bir satırın veya sütunun korunması için sahip olması gereken *null olmayan* değerlerin sayısını belirlersiniz:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Burada, yalnızca iki geçerli olmayan değer içerdiği için ilk ve son satır düşürülmüştür.


### Boş Değerleri Doldurma

Bazen eksik değerleri, geçerli olabilecek değerlerle doldurmak mantıklı olabilir. Boş değerleri doldurmak için birkaç teknik vardır. İlki, veri setinin dayandığı konu hakkındaki alan bilgisi (Domain Knowledge) kullanılarak eksik değerleri yaklaşık olarak tahmin etmektir.

Bunu yerinde yapmak için `isnull` kullanabilirsiniz, ancak bu zahmetli olabilir, özellikle doldurmanız gereken çok fazla değer varsa. Veri bilimi alanında bu kadar yaygın bir görev olduğu için, pandas `fillna` sağlar. Bu, eksik değerlerin sizin seçtiğiniz bir değerle değiştirildiği bir `Series` veya `DataFrame` kopyası döndürür. Bunun pratikte nasıl çalıştığını görmek için başka bir örnek `Series` oluşturalım.


### Kategorik Veri (Sayısal Olmayan)
Öncelikle sayısal olmayan verileri ele alalım. Veri setlerinde, kategorik veri içeren sütunlar bulunur. Örneğin, Cinsiyet, Doğru veya Yanlış gibi.

Bu tür durumların çoğunda, eksik değerleri sütunun `mod`u ile doldururuz. Diyelim ki elimizde 100 veri noktası var ve 90'ı Doğru, 8'i Yanlış demiş, 2'si ise doldurulmamış. Bu durumda, tüm sütunu dikkate alarak eksik olan 2 değeri Doğru ile doldurabiliriz.

Yine burada alan bilgisi kullanabiliriz. Mod ile doldurma örneğini ele alalım.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


Şimdi, önce modu bulalım ve ardından `None` değerini mod ile dolduralım.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

Bu yüzden, None yerine True ile değiştireceğiz


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Gördüğümüz gibi, null değer değiştirilmiş. Söylemeye gerek yok, yerine `'True'` veya başka bir şey yazabilirdik ve o da yerine geçecekti.


### Sayısal Veri
Şimdi, sayısal verilere geçelim. Eksik değerleri doldurmanın iki yaygın yöntemi vardır:

1. Satırın Medyanı ile Değiştirme  
2. Satırın Ortalaması ile Değiştirme  

Verilerde uç değerler (outlier) olduğunda, medyan ile değiştirme tercih edilir. Bunun nedeni, medyanın uç değerlere karşı dayanıklı olmasıdır.

Veriler normalleştirildiğinde ise ortalama kullanılabilir, çünkü bu durumda ortalama ve medyan birbirine oldukça yakın olur.

Öncelikle, normal dağılıma sahip bir sütun alalım ve eksik değerleri sütunun ortalaması ile dolduralım.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Sütunun ortalaması


In [33]:
np.mean(fill_with_mean[0])

0.0

Ortalama ile doldurma


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Gördüğümüz gibi, eksik değer ortalaması ile değiştirilmiştir.


Şimdi başka bir veri çerçevesi deneyelim ve bu sefer None değerlerini sütunun medyanı ile değiştirelim.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


İkinci sütunun medyanı şudur


In [36]:
fill_with_median[1].median()

4.0

Medyan ile doldurma


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Gördüğümüz gibi, NaN değeri sütunun medyanı ile değiştirilmiştir.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Tüm boş girişleri `0` gibi tek bir değerle doldurabilirsiniz:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Önemli Noktalar:
1. Eksik değerlerin doldurulması, ya veri az olduğunda ya da eksik verileri doldurmak için bir strateji olduğunda yapılmalıdır.
2. Eksik değerleri yaklaşık olarak doldurmak için alan bilgisi kullanılabilir.
3. Kategorik verilerde genellikle eksik değerler sütunun moduyla değiştirilir.
4. Sayısal verilerde eksik değerler genellikle sütunların ortalaması (normalleştirilmiş veri setleri için) veya medyanı ile doldurulur.


### Egzersiz:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Null değerleri **ileri doldurabilirsiniz**, yani son geçerli değeri kullanarak bir null değeri doldurabilirsiniz:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Ayrıca, bir null değeri doldurmak için bir sonraki geçerli değeri geriye doğru yaymak üzere **geri doldurma** yapabilirsiniz:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Tahmin edebileceğiniz gibi, bu aynı şekilde DataFrame'lerle de çalışır, ancak null değerleri doldurmak için bir `axis` belirtebilirsiniz:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Önceki bir değer ileri doldurma için mevcut olmadığında, boş değerlerin aynı kaldığını unutmayın.


### Egzersiz:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Eksik değerleri doldurmak için `fillna` kullanımı konusunda yaratıcı olabilirsiniz. Örneğin, tekrar `example4`'e bakalım, ancak bu sefer eksik değerleri `DataFrame`'deki tüm değerlerin ortalaması ile dolduralım:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Dikkat edin, 3. sütun hala değersiz: varsayılan yön, değerleri satır bazında doldurmaktır.

> **Çıkarım:** Veri setlerinizdeki eksik değerlerle başa çıkmanın birden fazla yolu vardır. Kullanacağınız özel strateji (eksik değerleri kaldırmak, değiştirmek veya nasıl değiştireceğiniz) o verinin özelliklerine bağlı olmalıdır. Veri setleriyle daha fazla çalışıp etkileşimde bulundukça eksik değerlerle nasıl başa çıkacağınız konusunda daha iyi bir anlayış geliştireceksiniz.


### Kategorik Verilerin Kodlanması

Makine öğrenimi modelleri yalnızca sayılarla ve herhangi bir sayısal veriyle çalışır. Bir model, Evet ile Hayır arasındaki farkı anlayamaz, ancak 0 ile 1 arasındaki farkı ayırt edebilir. Bu nedenle, eksik değerleri doldurduktan sonra, modelin anlayabilmesi için kategorik verileri bir tür sayısal forma dönüştürmemiz gerekir.

Kodlama iki şekilde yapılabilir. Bunları şimdi tartışacağız.


**ETİKET KODLAMA**

Etiket kodlama, temelde her kategoriyi bir sayıya dönüştürmektir. Örneğin, bir havayolu yolcuları veri setimiz olduğunu ve bu veri setinde yolcuların sınıfını içeren bir sütun bulunduğunu varsayalım: ['business class', 'economy class', 'first class']. Eğer etiket kodlama uygulanırsa, bu [0,1,2] şeklinde dönüştürülür. Şimdi bunu bir kod örneğiyle görelim. İlerleyen not defterlerinde `scikit-learn` öğreneceğimiz için burada kullanmayacağız.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


1. sütunda etiket kodlaması yapmak için, önce her sınıfı bir sayıya eşleyen bir eşleme tanımlamamız ve ardından değiştirmemiz gerekir.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Gördüğümüz gibi, çıktı beklediğimizle eşleşiyor. Peki, etiket kodlamayı ne zaman kullanırız? Etiket kodlama aşağıdaki durumlarda kullanılır:
1. Kategori sayısı fazla olduğunda
2. Kategoriler sıralı olduğunda.


**ONE HOT ENCODING**

Bir diğer kodlama türü One Hot Encoding'dir. Bu kodlama türünde, sütunun her bir kategorisi ayrı bir sütun olarak eklenir ve her veri noktası, o kategoriyi içerip içermediğine bağlı olarak 0 veya 1 alır. Yani, eğer n farklı kategori varsa, veri çerçevesine n sütun eklenir.

Örneğin, aynı uçak sınıfı örneğini ele alalım. Kategoriler şunlardı: ['business class', 'economy class', 'first class']. Eğer one hot encoding uygularsak, veri setine şu üç sütun eklenir: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Haydi birinci sütunda tekil kodlama gerçekleştirelim.


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Her bir one-hot kodlanmış sütun, o veri noktası için o kategorinin mevcut olup olmadığını belirten 0 veya 1 içerir.


Bir sıcak kodlama ne zaman kullanılır? Bir sıcak kodlama aşağıdaki durumların birinde veya her ikisinde kullanılır:

1. Kategorilerin sayısı ve veri setinin boyutu küçük olduğunda.
2. Kategoriler belirli bir sırayı takip etmediğinde.


> Temel Çıkarımlar:
1. Kodlama, sayısal olmayan verileri sayısal verilere dönüştürmek için yapılır.
2. Kodlama iki türdür: Etiket kodlama ve Tek Sıcak Kodlama. Her ikisi de veri setinin gereksinimlerine göre gerçekleştirilebilir.


## Yinelenen verilerin kaldırılması

> **Öğrenme hedefi:** Bu alt bölümü tamamladığınızda, DataFrame'lerden yinelenen değerleri tanımlama ve kaldırma konusunda rahat olmalısınız.

Eksik verilere ek olarak, gerçek dünya veri setlerinde sıkça yinelenen verilere rastlarsınız. Neyse ki, pandas, yinelenen girişleri tespit etmek ve kaldırmak için kolay bir yöntem sunar.


### Kopyaları tespit etme: `duplicated`

Pandas'ta `duplicated` yöntemiyle kopya değerleri kolayca tespit edebilirsiniz. Bu yöntem, bir `DataFrame` içindeki bir girişin daha önceki bir girişin kopyası olup olmadığını gösteren bir Boolean maske döndürür. Bunun nasıl çalıştığını görmek için başka bir örnek `DataFrame` oluşturalım.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Yinelenenleri Kaldırma: `drop_duplicates`
`drop_duplicates`, `duplicated` değerlerinin tümünün `False` olduğu verilerin bir kopyasını basitçe döndürür:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Hem `duplicated` hem de `drop_duplicates` varsayılan olarak tüm sütunları dikkate alır, ancak `DataFrame`'inizde yalnızca bir alt küme sütunu incelemelerini belirtebilirsiniz:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **Çıkarım:** Yinelenen verilerin kaldırılması, neredeyse her veri bilimi projesinin önemli bir parçasıdır. Yinelenen veriler, analizlerinizin sonuçlarını değiştirebilir ve size yanlış sonuçlar verebilir!


## Gerçek Dünya Verilerinde Kalite Kontrolleri

> **Öğrenme hedefi:** Bu bölümü tamamladığınızda, tutarsız kategorik değerler, anormal sayısal değerler (aykırı değerler) ve küçük farklılıklarla yinelenen varlıklar gibi yaygın gerçek dünya veri kalitesi sorunlarını tespit etme ve düzeltme konusunda rahat olmalısınız.

Eksik değerler ve tam kopyalar yaygın sorunlar olsa da, gerçek dünya veri setleri genellikle daha ince sorunlar içerir:

1. **Tutarsız kategorik değerler**: Aynı kategorinin farklı şekilde yazılması (ör. "USA", "U.S.A", "United States")
2. **Anormal sayısal değerler**: Veri giriş hatalarını gösteren aşırı aykırı değerler (ör. yaş = 999)
3. **Neredeyse yinelenen satırlar**: Küçük farklılıklarla aynı varlığı temsil eden kayıtlar

Bu sorunları tespit etmek ve ele almak için teknikleri inceleyelim.


### Örnek "Kirli" Bir Veri Seti Oluşturma

Öncelikle, gerçek dünyadaki verilerde sıkça karşılaştığımız türde sorunları içeren bir örnek veri seti oluşturalım:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. Tutarsız Kategorik Değerleri Tespit Etme

`country` sütununun aynı ülkeler için birden fazla temsil içerdiğini fark edin. Bu tutarsızlıkları belirleyelim:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### Kategorik Değerleri Standartlaştırma

Bu değerleri standartlaştırmak için bir eşleme oluşturabiliriz. Basit bir yaklaşım, küçük harfe dönüştürmek ve bir eşleme sözlüğü oluşturmaktır:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**Alternatif: Bulanık Eşleştirme Kullanımı**

Daha karmaşık durumlar için, benzer dizeleri otomatik olarak algılamak için `rapidfuzz` kütüphanesi ile bulanık dize eşleştirme kullanabiliriz:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. Anormal Sayısal Değerleri (Aykırı Değerler) Tespit Etme

`age` sütununa baktığımızda, 199 ve -5 gibi şüpheli değerler görüyoruz. Bu aykırı değerleri tespit etmek için istatistiksel yöntemler kullanalım.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### IQR (Çeyrekler Arası Aralık) Yöntemini Kullanma

IQR yöntemi, uç değerlere daha az duyarlı olan sağlam bir istatistiksel aykırı değer tespit tekniğidir:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### Z-Skor Yöntemini Kullanma

Z-skor yöntemi, aykırı değerleri ortalamadan standart sapmalara göre belirler:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### Aykırı Değerleri Yönetme

Tespit edildikten sonra, aykırı değerler birkaç şekilde yönetilebilir:
1. **Kaldır**: Aykırı değer içeren satırları silin (eğer hata ise)
2. **Sınırla**: Sınır değerlerle değiştirin
3. **NaN ile Değiştir**: Eksik veri olarak ele alın ve imputasyon tekniklerini kullanın
4. **Tut**: Eğer meşru uç değerlerse


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. Yakın Çift Satırları Tespit Etme

Veri setimizde "John Smith" için biraz farklı değerlerle birden fazla giriş olduğunu fark edin. İsim benzerliğine dayalı potansiyel çiftleri belirleyelim.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### Bulanık Eşleştirme ile Yakın Kopyaları Bulma

Daha gelişmiş kopya tespiti için, benzer isimleri bulmak amacıyla bulanık eşleştirme kullanabiliriz:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### Çift Kayıtları Yönetme

Belirlendikten sonra, çift kayıtları nasıl yöneteceğinize karar vermeniz gerekir:
1. **İlk kaydı tut**: `drop_duplicates(keep='first')` kullanın
2. **Son kaydı tut**: `drop_duplicates(keep='last')` kullanın
3. **Bilgileri birleştir**: Çift satırlardaki bilgileri birleştirin
4. **Manuel inceleme**: İnsan tarafından incelenmek üzere işaretleyin


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### Özet: Tam Veri Temizleme Süreci

Hadi her şeyi bir araya getirip kapsamlı bir temizleme süreci oluşturalım:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 Zorluk Alıştırması

Şimdi sıra sizde! Aşağıda, birden fazla kalite sorunu içeren yeni bir veri satırı bulunmaktadır. Yapabilir misiniz:

1. Bu satırdaki tüm sorunları belirlemek
2. Her sorunu temizlemek için kod yazmak
3. Temizlenmiş satırı veri setine eklemek

İşte sorunlu veri:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### Önemli Noktalar

1. **Tutarsız kategoriler** gerçek dünya verilerinde yaygındır. Her zaman benzersiz değerleri kontrol edin ve bunları eşleştirme veya bulanık eşleştirme yöntemleriyle standartlaştırın.

2. **Aykırı değerler** analizlerinizi önemli ölçüde etkileyebilir. Bunları tespit etmek için alan bilgisiyle birlikte istatistiksel yöntemler (IQR, Z-skoru) kullanın.

3. **Yakın kopyalar**, tam kopyalardan daha zor tespit edilir. Bunları belirlemek için bulanık eşleştirme ve veriyi normalleştirme (küçük harfe dönüştürme, boşlukları kaldırma) yöntemlerini göz önünde bulundurun.

4. **Veri temizleme tekrarlıdır**. Temizlenmiş veri setinizi sonlandırmadan önce birden fazla teknik uygulamanız ve sonuçları gözden geçirmeniz gerekebilir.

5. **Kararlarınızı belgeleyin**. Uyguladığınız temizleme adımlarını ve nedenlerini takip edin, çünkü bu tekrarlanabilirlik ve şeffaflık açısından önemlidir.

> **En İyi Uygulama:** Her zaman orijinal "kirli" verinizin bir kopyasını saklayın. Kaynak veri dosyalarınızı asla üzerine yazmayın - `data_cleaned.csv` gibi açık adlandırma kurallarıyla temizlenmiş versiyonlar oluşturun.



---

**Feragatname**:  
Bu belge, AI çeviri hizmeti [Co-op Translator](https://github.com/Azure/co-op-translator) kullanılarak çevrilmiştir. Doğruluğu sağlamak için çaba göstersek de, otomatik çevirilerin hata veya yanlışlık içerebileceğini lütfen unutmayın. Belgenin orijinal dili, yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanımından kaynaklanan yanlış anlamalar veya yanlış yorumlamalar için sorumluluk kabul edilmez.
