In [1]:
import numpy as np
import pandas as pd

# Kayıp Verileri Temizleme

## NaN Değerler

NaN değerler verinin boş olduğunda (orada veri olmadığında), geçersiz olduğunda görülen değerlerdir. Bu durum verinin gerçekten boş olmasından ya da teknik aksaklıklardan (verinin elde edilmesinde olan hatalardan, verinin elde edilirken bozulmasından) da kaynaklanabilir.

In [3]:
np.nan

nan

- bir dataframe'de veya Series'te NaN değer olup olmadığını iki farklı methodla kontrol edebiliriz.

In [5]:
pd.isnull(np.nan)

True

In [6]:
pd.isna(np.nan)

True

In [7]:
pd.notna(3)

True

In [8]:
pd.notnull(None)

False

In [10]:
pd.isna(pd.Series([1, np.nan, 7]))

0    False
1     True
2    False
dtype: bool

In [11]:
pd.isnull(pd.DataFrame({
    "A":[1, np.nan, 7],
    "B":[np.nan, 2, 3],
    "C":[np.nan, 2, np.nan]
}))
    
                        

Unnamed: 0,A,B,C
0,False,True,True
1,True,False,False
2,False,False,True


## Kayıp Verileri Filtreleme

In [12]:
s = pd.Series([1, 2, 3, np.nan, np.nan, 4])
s

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
dtype: float64

In [14]:
pd.notnull(s).sum()

4

In [15]:
s[pd.notnull(s)]

0    1.0
1    2.0
2    3.0
5    4.0
dtype: float64

In [21]:
xx = pd.DataFrame({
    "A":[1, np.nan, 7],
    "B":[np.nan, 2, 3],
    "C":[np.nan, 2, np.nan]
})
xx

Unnamed: 0,A,B,C
0,1.0,,
1,,2.0,2.0
2,7.0,3.0,


In [22]:
pd.isna(xx).sum()

A    1
B    1
C    2
dtype: int64

- Bu işlemlerib hepsi immutable'dir. Yani orjinal tablo üzerinde değişiklik yapmaz

## Kayıp Verileri Temizleme

In [24]:
xx = pd.DataFrame({
    "A":[1, np.nan, 7,8],
    "B":[np.nan, 2, 3,4],
    "C":[np.nan, 2, np.nan,6],
    "D":[1,2,3,4]
})
xx

Unnamed: 0,A,B,C,D
0,1.0,,,1
1,,2.0,2.0,2
2,7.0,3.0,,3
3,8.0,4.0,6.0,4


In [26]:
xx.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      float64
 1   B       3 non-null      float64
 2   C       2 non-null      float64
 3   D       4 non-null      int64  
dtypes: float64(3), int64(1)
memory usage: 200.0 bytes


In [25]:
pd.isnull(xx).sum()

A    1
B    1
C    2
D    0
dtype: int64

- Eğer kayıp verileri tablodan çıkarmak istersek. .dropna() methodunu kullanabiliriz. 

In [27]:
xx.dropna()

Unnamed: 0,A,B,C,D
3,8.0,4.0,6.0,4


- Fakat bu method NaN veri olan tüm satırı siler.. Bunu engellemek için methodun içine how inputunu kullanabiliriz.
- how = "all" satırdaki bütün değerlerin NaN olmasını bekler. Bütün değerler NaN ise o satırı siler.
- how = "any" ise satırı silmesi için herhangi bir değerin NaN olması yeterlidir.

In [28]:
xx.dropna(how="all")

Unnamed: 0,A,B,C,D
0,1.0,,,1
1,,2.0,2.0,2
2,7.0,3.0,,3
3,8.0,4.0,6.0,4


In [29]:
xx.dropna(how="any")

Unnamed: 0,A,B,C,D
3,8.0,4.0,6.0,4


- .dropna(thresh) parametresi ise satırdaki minumum kayıp veri olmamasına bakar.
- örneğin thresh=3 o satırda min 3 tane non-NaN değer olması gerekir, aksi takdirde silinir.

In [32]:
xx.dropna(thresh=3)

Unnamed: 0,A,B,C,D
1,,2.0,2.0,2
2,7.0,3.0,,3
3,8.0,4.0,6.0,4


## Kayıp Verileri Doldurma
- Bazen kayıp verileri çıkarmak yerine onları doldurmamız gerekir. Bu genellikle çalışılan dataset üzerinde değişkenlik gösterir. Bazen bir NaN değeri 0 ile yer değiştirilebilir, bazen ise ortalama değer ile değiştirilebilir veya en yakın değer ile değiştirilebilir. 

In [34]:
s

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
dtype: float64

In [35]:
s.fillna(0)

0    1.0
1    2.0
2    3.0
3    0.0
4    0.0
5    4.0
dtype: float64

In [37]:
s.fillna(s.mean())

0    1.0
1    2.0
2    3.0
3    2.5
4    2.5
5    4.0
dtype: float64

- Bu işlemler de immutable'dir.

In [38]:
s

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
dtype: float64

- kayıp verileri diğer verilere yakın değerler ile değiştirmek istersek:

"fillna" fonksiyonunda "method" parametresine "ffill" değeri girerek boş değerleri bir önceki değerlerle doldurmasını, "bfill" değeri girerek boş değerleri bir sonraki değerlerle doldurmasını söyleyebiliriz

In [39]:
s.fillna(method="ffill")

0    1.0
1    2.0
2    3.0
3    3.0
4    3.0
5    4.0
dtype: float64

In [43]:
s.fillna(method="bfill")

0    1.0
1    2.0
2    3.0
3    4.0
4    4.0
5    4.0
dtype: float64

## Yinelenenler
Yinelenen değerleri kontrol etmek pandas'la birlikte çok basittir. Dataframe ve Series'lerde farklı sekilde incelenir. Örnegin:

In [44]:
ambassadors = pd.Series([
    'France',
    'United Kingdom',
    'United Kingdom',
    'Italy',
    'Germany',
    'Germany',
    'Germany',
], index=[
    'Gérard Araud',
    'Kim Darroch',
    'Peter Westmacott',
    'Armando Varricchio',
    'Peter Wittig',
    'Peter Ammon',
    'Klaus Scharioth '
])
ambassadors


Gérard Araud                  France
Kim Darroch           United Kingdom
Peter Westmacott      United Kingdom
Armando Varricchio             Italy
Peter Wittig                 Germany
Peter Ammon                  Germany
Klaus Scharioth              Germany
dtype: object

- bir serideki tekrar eden degerleri bulmak istersek:

In [45]:
ambassadors.duplicated()

Gérard Araud          False
Kim Darroch           False
Peter Westmacott       True
Armando Varricchio    False
Peter Wittig          False
Peter Ammon            True
Klaus Scharioth        True
dtype: bool

- default olarak ikinci degeri tekrar eden olarak gösterir. bunu değiştirmek istersek

In [46]:
ambassadors.duplicated(keep="last")

Gérard Araud          False
Kim Darroch            True
Peter Westmacott      False
Armando Varricchio    False
Peter Wittig           True
Peter Ammon            True
Klaus Scharioth       False
dtype: bool

- Eğer tekrar eden değerleri çıkartmak istersek:

In [48]:
ambassadors.drop_duplicates()

Gérard Araud                  France
Kim Darroch           United Kingdom
Armando Varricchio             Italy
Peter Wittig                 Germany
dtype: object

- Eğer dataframe'lerde tekrar eden değerlere bakacak olursak

In [51]:
players = pd.DataFrame({
    'Name': [
        'Kobe Bryant',
        'LeBron James',
        'Kobe Bryant',
        'Carmelo Anthony',
        'Kobe Bryant',
    ],
    'Pos': [
        'SG',
        'SF',
        'SG',
        'SF',
        'SF'
    ]
})

players

Unnamed: 0,Name,Pos
0,Kobe Bryant,SG
1,LeBron James,SF
2,Kobe Bryant,SG
3,Carmelo Anthony,SF
4,Kobe Bryant,SF


In [52]:
players.duplicated()

0    False
1    False
2     True
3    False
4    False
dtype: bool

- Burada Pos değeri farklı olan "Kobe Bryant"'ı tekrar eden bir değer olarak görmemektedir.

## Metin işleme

- Yazı temizleme çok zor olabilmektedir. Hatalı yazılar genellikle zaman, hatalı yazım içermektedir ve bu hiç bir modelde tamamiyle tahmin edilemez. Makineler sayesinde bu işin de rahatca üstesinden gelebiliriz.

In [54]:
df = pd.DataFrame({
    'Data': [
        '1987_M_US _1',
        '1990?_M_UK_1',
        '1992_F_US_2',
        '1970?_M_   IT_1',
        '1985_F_I  T_2'
]})
df

Unnamed: 0,Data
0,1987_M_US _1
1,1990?_M_UK_1
2,1992_F_US_2
3,1970?_M_ IT_1
4,1985_F_I T_2


In [55]:
df["Data"].str.split("_")

0       [1987, M, US , 1]
1       [1990?, M, UK, 1]
2        [1992, F, US, 2]
3    [1970?, M,    IT, 1]
4      [1985, F, I  T, 2]
Name: Data, dtype: object

In [57]:
df = df["Data"].str.split("_", expand=True)
df

Unnamed: 0,0,1,2,3
0,1987,M,US,1
1,1990?,M,UK,1
2,1992,F,US,2
3,1970?,M,IT,1
4,1985,F,I T,2


In [58]:
df.columns=["Year", "Sex", "Country", "Children"]
df

Unnamed: 0,Year,Sex,Country,Children
0,1987,M,US,1
1,1990?,M,UK,1
2,1992,F,US,2
3,1970?,M,IT,1
4,1985,F,I T,2


- Verilerde herhangi bir metin ya da karakter bulunuyor mu diye kontrol etmek için "contains" metodunu kullanabiliriz. Örneğin; soru işareti (?) içeren verilere bakalım:



In [63]:
df.Year.str.contains("\?")

0    False
1     True
2    False
3     True
4    False
Name: Year, dtype: bool

In [64]:
df.Year = df.Year.str.replace("\?", "")
df

  df.Year = df.Year.str.replace("\?", "")


Unnamed: 0,Year,Sex,Country,Children
0,1987,M,US,1
1,1990,M,UK,1
2,1992,F,US,2
3,1970,M,IT,1
4,1985,F,I T,2


In [66]:
df.Country = df.Country.str.replace(" ","")
df

Unnamed: 0,Year,Sex,Country,Children
0,1987,M,US,1
1,1990,M,UK,1
2,1992,F,US,2
3,1970,M,IT,1
4,1985,F,IT,2
