# Python ile Eksik Verilerin İşlenmesi

## Hafta 3

Python programlama dilinde boş veya hatalı görülen değerler için NaN veya None ifadesi kullanılır. Kimi programlama dillerinde Null olarak kullanılan ifade Python programlama dilinde bulunmamaktadır. NaN ifadesi NumPy kütüphanesi içerisinde yer alan bir ifadedir ve “IEEE 754 floating point representation of Not a Number (NaN).” olarak tanımlanır.  None ile NaN değişkenleri arasında küçük farklar olsa da Pandas kütüphanesinde iki veri tipinde de eksik veri operasyonları yapılabilir. NaN veri tipinde nümerik hesaplamalar yapılabilir ancak None veri tipinde aritmetik işlemlerde hata ile karşılaşılır. Bu durumlar ile ilgili uygulamalar aşağıda verilmiştir.

In [2]:
# paketlerin çağrılması
import numpy as np
import pandas as pd

None veri tipi Python içerisinde tanımlı bir veri tipi. Olmayan veriyi temsil eder. 

In [3]:
# type fonksiyonu veri tipinin ne olduğunu söyler
type(None)

NoneType

In [4]:
# None veri tipiyle bir işlem yapmaya çalışalım.
None+1

TypeError: unsupported operand type(s) for +: 'NoneType' and 'int'

Hata ile karşılaştık. Demek ki Python'da None veri tipinde işlem yapmak mümkün değil. Buna dikkat ediyoruz.

İkinci veri tipi ise NaN veri tipi Not a Number yani.

In [5]:
# np.NaN veri tipi
type(np.nan)

float

Demek ki veri tipi floatmış. Float yani işlem yapılabilir ama özel bir duruma sahip nasıl mı? Örneğin 1 ile nan veri tipini toplayalım.

In [6]:
# nan ile aritmetik işlemler yapılabilir.
print(np.nan+1)

nan


Gördüğünüz gibi hata vermedi ama 1 toplayınca yine de nan değerini dönderdi. Demek ki nan ile işlem yaparken bunu aklımızdan çıkarmayacağız. Demek ki NaN başka None başka davranıyor bunları bilmemiz gerekiyor. Şimdi bir seri oluşturarak biraz daha eksik veri özelliklerine bakalım.

In [7]:
# pandas içerisinde bir seri oluşturalım. 
# Serileri daha sonra daha detaylı inceleyeceğiz şimdilik bir veri 
# dizisi olarak bilebilirsiniz
eksik_veri_serisi = pd.Series(data=np.array([None, np.nan, 1, 2, "Merhaba"]))

In [12]:
# Artık bir serimiz var. Burada eksik verileri tespit etmek ve işlem 
# yapmak ile ilgilenebiliriz. Öncelilkle tespit edelim.
# isnull() komutu bize hangi verilerin eksik olduğu bilgisini verir. 
# Bakın True ve False lara dikkat edin. isnull ne demek eksik veri mi demek.
# eksik veri ise True değilse False dönderiyor. 
# Aynı fonksiyon isna() ile de çalıştırılabilir. Demek ki isnull() fonksiyonunu
# ve isna() fonksiyonunu unutmuyoruz eksik verilerin tespiti için bunları
# kullanacağız.
eksik_veri_serisi.isnull()

0     True
1     True
2    False
3    False
4    False
dtype: bool

In [13]:
eksik_veri_serisi.isna()

0     True
1     True
2    False
3    False
4    False
dtype: bool

Tespit işine devam edelim. Kaç adet eksik verimiz var bunu görmek istersek sum() komutunu kullanabiliriz. 

In [15]:
eksik_veri_serisi.isnull().sum()

2

Demek ki 2 adet eksik verimiz varmış. Bu verilerin neler olduğunu görmek istersek bir dilimleme işlemi yapabiliriz. eksik veri serisi içerisine sadece isnull() olanları getir dersek bu işlemi gerçekleştirmiş oluruz.

In [16]:
eksik_veri_serisi[eksik_veri_serisi.isnull()]

0    None
1     NaN
dtype: object

İki adet var onlardan birincisi None ikincisi NaN olarak gelmiş. Bunları tespit ettik. Nasıl getireceğimizi de bu şekilde söylemiş olduk. Bazı durumlarda eksik olmayan verileri de getirmek isteriz. Bu durumda da notnull() fonksiyonunu kullanırız.

In [59]:
eksik_veri_serisi[eksik_veri_serisi.notna()]

2          1
3          2
4    Merhaba
dtype: object

In [17]:
# Şimdi bu eksik verileri ilk yöntemimiz olan göz ardı etmeyi görelim. 
# Bunun için fonksiyonumuz dropna() komutu
# eksik verileri düşür demek için. Bu durumda eksik olan veriler 
# veri setinden düşürülür.
eksik_veri_serisi.dropna()

2          1
3          2
4    Merhaba
dtype: object

Gördüğünüz gibi eksik veriler veri setinde kalmadı. Bunu yapabiliriz. Ya da ikinci yöntemimiz olan herhangi bir değerle doldurma yöntemini de tercih edebiliriz. Şimdi eksik olan verileri -1 ile dolduralım. Bunun için de kullancağımız fonksiyon fillna() fonksiyonu

In [18]:
eksik_veri_serisi.fillna(value=-1)

0         -1
1         -1
2          1
3          2
4    Merhaba
dtype: object

Bu şekilde bir doldurma işlemi gerçekleştirebiliriz. Burada dikkatinizi çekmiştir dropna ile eksik verileri düşürdük ama tekrar eksik_veri_serisini çağırdığımızda eksik verileri bu kez de doldurduk. Nasıl oldu? Bu fonksiyonlar kalıcı fonksiyonlar değil geçici fonksiyonlar. Yani görüntüde bir değişiklik yapıyorlar varsayılan olarak. Demek istediğim,

In [19]:
# bakın bir değişiklik yok
eksik_veri_serisi

0       None
1        NaN
2          1
3          2
4    Merhaba
dtype: object

In [20]:
# güzel bir yöntem olarak orijinal verisetini değiştirmeden bu 
# işlemleri yapabiliriz. O nedenle yeni veri seti olarak eksik
# verilerin elendiği veri setini kaydedelim.
eksik_veri_serisi_doldurulmus = eksik_veri_serisi.fillna(value=-1)

In [21]:
eksik_veri_serisi_doldurulmus

0         -1
1         -1
2          1
3          2
4    Merhaba
dtype: object

In [22]:
# aynı şekilde düşürülmüş diye de bir veri seti tutabiliriz.
eksik_veri_serisi_dusurulmus = eksik_veri_serisi.dropna()

In [23]:
eksik_veri_serisi_dusurulmus

2          1
3          2
4    Merhaba
dtype: object

Bunun dışında eğer aynı veri setine devam etmek istiyorsak ve ismini de değiştirmek istemiyorsak inplace = True parametresini kullanabiliriz.

In [24]:
eksik_veri_serisi.dropna(inplace=True)

In [25]:
eksik_veri_serisi

2          1
3          2
4    Merhaba
dtype: object

Gördüğünüz gibi eksik veri serisi etkilenmiş oldu. Şimdi arkadaşlar bilgilerimizi bir üst seviyeye taşıyalım. Bu kez gerçek bir veri seti içerisinde bu öğrendiklerimizi ve bir üst düzeyini öğrenmeye çalışalım. Sizinle UCI sitesinden nasıl veri indirildiğini görmüştük. Şimdi de başka bir yöntem ile verilerimizi çağıracağız. 

Veri seti için [şuraya](https://gist.github.com/michhar/2dfd2de0d4f8727f873422c5d959fff5) gidelim [bu adreste](https://gist.githubusercontent.com/michhar/2dfd2de0d4f8727f873422c5d959fff5/raw/fa71405126017e6a37bea592440b4bee94bf7b9e/titanic.csv) mevcut olan csv dosyasını alalım.  

Bu veri seti titanic veri seti. Literatürde bilinen makine öğrenmesi veri seti. Titanic gemisine binen yolculara ait bilgiler veriyor. Hayatta kaldı mı kalmadı mı falan gibi bilgiler var. Veri setini çok detaylı bilmemize gerek yok. Eksik veriler ile ilgileneceğiz şimdilik. Daha sonra uygulama yaparsak makine öğrenmesi uygulaması orada daha detaylı inceleriz.

PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked

In [27]:
veri_seti = pd.read_csv(
    "https://gist.githubusercontent.com/michhar/2dfd2de0d4f8727f873422c5d959fff5/raw/fa71405126017e6a37bea592440b4bee94bf7b9e/titanic.csv"
)

In [28]:
veri_seti.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


head() fonksiyonu ile ilk 5 satırı görebiliriz. Bakın burada kabin içerisinde nan değerleri var demek ki bunlar boş ya da eksik veriler. csv dosyasından bakalım. csv dosyasını excel ile açarak inceleyelim aynı zamanda. Metni sütunlara dönüştür, virgül olarak yazalım. 

Şimdi boş verileri inceleyelim. Bu verilerin boş olduğunu biliyoruz. Önce tespiti ile ilgilenelim tekrar.

In [29]:
# boş verilerin sayısına bakalım.
veri_seti.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [30]:
# Demek ki Age, Cabin ve Embarked özelliklerinde eksik veriler var. Peki bir de bu özelliklerde
# girilmiş olan değerlere bakalım.

In [31]:
veri_seti.Age.unique()

array([22.  , 38.  , 26.  , 35.  ,   nan, 54.  ,  2.  , 27.  , 14.  ,
        4.  , 58.  , 20.  , 39.  , 55.  , 31.  , 34.  , 15.  , 28.  ,
        8.  , 19.  , 40.  , 66.  , 42.  , 21.  , 18.  ,  3.  ,  7.  ,
       49.  , 29.  , 65.  , 28.5 ,  5.  , 11.  , 45.  , 17.  , 32.  ,
       16.  , 25.  ,  0.83, 30.  , 33.  , 23.  , 24.  , 46.  , 59.  ,
       71.  , 37.  , 47.  , 14.5 , 70.5 , 32.5 , 12.  ,  9.  , 36.5 ,
       51.  , 55.5 , 40.5 , 44.  ,  1.  , 61.  , 56.  , 50.  , 36.  ,
       45.5 , 20.5 , 62.  , 41.  , 52.  , 63.  , 23.5 ,  0.92, 43.  ,
       60.  , 10.  , 64.  , 13.  , 48.  ,  0.75, 53.  , 57.  , 80.  ,
       70.  , 24.5 ,  6.  ,  0.67, 30.5 ,  0.42, 34.5 , 74.  ])

Bir sorun gözükmüyor. Bir de kabine bakalım. Aynı zamanda value_counts() ile hangi değerden kaç adet var onlara bakalım.

In [33]:
veri_seti["Cabin"].value_counts()

C23 C25 C27    4
B96 B98        4
G6             4
E101           3
D              3
              ..
C148           1
C32            1
B80            1
B73            1
F E69          1
Name: Cabin, Length: 147, dtype: int64

Demek ki en fazla tekrar eden c23, c25 veya c27 imiş aklımızda kalsın. Bir de aldığı tüm değerlere bakalım ki gözümüze çarpan bir değer olacak mı ne bileyim -1 gibi xxx gibi saçma bir girdi var mıymış bir bakalım.

In [34]:
veri_seti["Cabin"].unique()

array([nan, 'C85', 'C123', 'E46', 'G6', 'C103', 'D56', 'A6',
       'C23 C25 C27', 'B78', 'D33', 'B30', 'C52', 'B28', 'C83', 'F33',
       'F G73', 'E31', 'A5', 'D10 D12', 'D26', 'C110', 'B58 B60', 'E101',
       'F E69', 'D47', 'B86', 'F2', 'C2', 'E33', 'B19', 'A7', 'C49', 'F4',
       'A32', 'B4', 'B80', 'A31', 'D36', 'D15', 'C93', 'C78', 'D35',
       'C87', 'B77', 'E67', 'B94', 'C125', 'C99', 'C118', 'D7', 'A19',
       'B49', 'D', 'C22 C26', 'C106', 'C65', 'E36', 'C54',
       'B57 B59 B63 B66', 'C7', 'E34', 'C32', 'B18', 'C124', 'C91', 'E40',
       'T', 'C128', 'D37', 'B35', 'E50', 'C82', 'B96 B98', 'E10', 'E44',
       'A34', 'C104', 'C111', 'C92', 'E38', 'D21', 'E12', 'E63', 'A14',
       'B37', 'C30', 'D20', 'B79', 'E25', 'D46', 'B73', 'C95', 'B38',
       'B39', 'B22', 'C86', 'C70', 'A16', 'C101', 'C68', 'A10', 'E68',
       'B41', 'A20', 'D19', 'D50', 'D9', 'A23', 'B50', 'A26', 'D48',
       'E58', 'C126', 'B71', 'B51 B53 B55', 'D49', 'B5', 'B20', 'F G63',
       'C62 C64',

Sorun gözükmüyor. Eksik verilerimiz bu şekilde nasıl tespit edeceğimizi ve nasıl ulaşacağımızı öğrendik, şimdi doldurma seçeneklerine bakalım.

In [38]:
# fillna komutu ile tüm boşları dolduralım. a
veri_seti.fillna(value=0).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,0,S


In [39]:
# şimdi bu dosyayı csv olarak dışarı alıp inceleyelim.
veri_seti.fillna(value=0).to_csv("sifir_dolduruldu.csv")

In [None]:
# Bir de en fazla tekrar edenle doldurmak isteriz. 

In [52]:
# fillna sadece istenen sütunlara doldurmak için sözlük kullanabiliriz. 
# C23 en fazla tekrar edendi o nedenle onunla doldurmak isteyebiliriz.
veri_seti.fillna({'Cabin':"C23"}).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C23,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C23,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,C23,S


In [9]:
help(pd.DataFrame)

NameError: name 'fillna' is not defined

Tamamını bu şekilde value belirterek doldurabiliriz. Bir de fillna() fonksiyonunun özelliklerine bakalım.

value : scalar, dict, Series, or DataFrame
    Value to use to fill holes (e.g. 0), alternately a
    dict/Series/DataFrame of values specifying which value to use for
    each index (for a Series) or column (for a DataFrame).  Values not
    in the dict/Series/DataFrame will not be filled. This value cannot
    be a list.
method : {'backfill', 'bfill', 'pad', 'ffill', None}, default None
    Method to use for filling holes in reindexed Series
    pad / ffill: propagate last valid observation forward to next valid
    backfill / bfill: use next valid observation to fill gap.
axis : {0 or 'index', 1 or 'columns'}
    Axis along which to fill missing values.
inplace : bool, default False
    If True, fill in-place. Note: this will modify any
    other views on this object (e.g., a no-copy slice for a column in a
    DataFrame).
limit : int, default None
    If method is specified, this is the maximum number of consecutive
    NaN values to forward/backward fill. In other words, if there is
    a gap with more than this number of consecutive NaNs, it will only
    be partially filled. If method is not specified, this is the
    maximum number of entries along the entire axis where NaNs will be
    filled. Must be greater than 0 if not None.
downcast : dict, default is None
    A dict of item->dtype of what to downcast if possible,
    or the string 'infer' which will try to downcast to an appropriate
    equal type (e.g. float64 to int64 if possible).

In [41]:
# bfill sonraki dolu olan hücre ile şimdiki boş hücreyi doldurur. 
veri_seti.fillna(method="bfill").to_csv("bfill_dolduruldu.csv")

In [44]:
# bfill içerisine limit parametresi ile limit koyabiliriz. 
# dolu hücre gördükten sonra bir öncesine kadar doldursun iki öncesini doldurmasın.
# istersek 2 veya daha farklı sayı seçerek istediğimiz kadar geri gitmesini sağlayabiliriz.
veri_seti.fillna(method="bfill", limit=1).to_csv("bfill_limit_1.csv")

In [45]:
# Benzer şekilde ffill ile dolduralım.
# Bu da aşağı doğru doldurur.
# Boş hücre görürse önceki dolu hücreye gider ve ona göre doldurur.

veri_seti.fillna(method="ffill", limit=2).to_csv("ffill_limit_2.csv")

axis ise satır satır gitmek istediğimiz durumda kullandığımız bir seçenek. Buna da örnek verelim ama kolay kolay bunu kullanmayabiliriz. 



In [48]:
# axis = 0 ya da "rows satır satır değişiklik yapacağız demektir"
# axis = 1 ya da "columns" sütunlarda değiştirerek gideceğiz demektir.

In [50]:
veri_seti.fillna(method="bfill", axis=1).head()
# Cabin boş olunca bir sonraki sütundaki değeri aldı. Bunu sağlayabiliriz.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,S


inplace i biliyorsunuz veri setini değiştirmek istiyorsak kullanıyoruz.

In [None]:
veri_seti.fillna()

Şimdi biraz da Age ile ilgilenelim. Bakın Age yani yaş bir nümerik değişken. Bunun için doldurma yöntemleri daha fazla olabilir. Az önceki kabin değişkeni nominal bir değişkendi. Onun için bir önceki bir sonraki gibi değerler ile değiştirmemiz gayet normal.

In [55]:
# önce veri seti hakkında bilgi alalım
veri_seti.Age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [56]:
veri_seti.Age.value_counts()

24.00    30
22.00    27
18.00    26
28.00    25
19.00    25
         ..
55.50     1
74.00     1
0.92      1
70.50     1
12.00     1
Name: Age, Length: 88, dtype: int64

In [57]:
veri_seti.Age.unique()

array([22.  , 38.  , 26.  , 35.  ,   nan, 54.  ,  2.  , 27.  , 14.  ,
        4.  , 58.  , 20.  , 39.  , 55.  , 31.  , 34.  , 15.  , 28.  ,
        8.  , 19.  , 40.  , 66.  , 42.  , 21.  , 18.  ,  3.  ,  7.  ,
       49.  , 29.  , 65.  , 28.5 ,  5.  , 11.  , 45.  , 17.  , 32.  ,
       16.  , 25.  ,  0.83, 30.  , 33.  , 23.  , 24.  , 46.  , 59.  ,
       71.  , 37.  , 47.  , 14.5 , 70.5 , 32.5 , 12.  ,  9.  , 36.5 ,
       51.  , 55.5 , 40.5 , 44.  ,  1.  , 61.  , 56.  , 50.  , 36.  ,
       45.5 , 20.5 , 62.  , 41.  , 52.  , 63.  , 23.5 ,  0.92, 43.  ,
       60.  , 10.  , 64.  , 13.  , 48.  ,  0.75, 53.  , 57.  , 80.  ,
       70.  , 24.5 ,  6.  ,  0.67, 30.5 ,  0.42, 34.5 , 74.  ])

In [60]:
veri_seti.Age.describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

Anormal bir durum yok. Şimdi Age değişkenini doldurma metotlarına bakalım. Cabin'nden farklı olsun mesela interpolate interpolasyon ile yapalım. Yani eşit adımlı bir yaklaşım ile dolduracağız. Örneğin yolcu 5 ile 7 arasındaki yaş değeri boş. Bu değeri önceki ve sonraki verilerden yararlanarak doldurmak istersek,

In [63]:
veri_seti.Age.interpolate().to_csv("enterpolasyon_age.csv")

In [65]:
# gördüğünüz gibi ortalaması ile doldurdu. Şimdi interpolate ile ilgili bilgi alalım.
# shift tab ile bakabiliriz.
# index yani satır numarasına göre enterpolasyon yapar. Örneğin 30. kişi 31 e 28 den daha yakın. 
# ona göre bir enterpolasyon yapmasını isteyebiliriz.
# 19-26-33-40 oldu. Hepsinin adım sayısı kaç? 7 işte enterpolasyon bu demek.

veri_seti.Age.interpolate(method='index').to_csv("enterpolasyon_age_index.csv")

- dropna() önce tamamını kaldıralım. value_counts() ile sayısına bakalım. shape komutu ile sayısına bakalım. how='all', how='any' bahsedelim. thresh = 1 at least 1 dolu varsa tutuyor. Yoksa siliyor.

Şimdi biraz da düşürme yani eksik verileri silme işlemlerine bakalım. Bunun için dropna() fonksiyonunu kullanıyoruz demiştik.

In [67]:
# how= any demek satırda herhangi bir özelliğin değeri boşsa o satır komple silinir.
veri_seti.dropna(how="any").isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

In [69]:
# how=all demek eğer tüm verileri eksik olan varsa onları sil demek.
veri_seti.dropna(how="all").isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [77]:
veri_seti.shape

(891, 12)

In [80]:
# thresholt değeri kaç veri varsa kalacağını söylüyoruz. 11 sütunu doluysa dursun yoksa silelim.
veri_seti.dropna(thresh=11).isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age             19
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          529
Embarked         2
dtype: int64

In [83]:
# sadece Cabin ve Age'de işlem yapmak istersek subset parametresini kullanabiliriz.
veri_seti.dropna(subset=['Cabin','Age']).isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       2
dtype: int64