In [1]:
# Dataframelerin dtypes attributesini kullanarak sütunların veri tiplerini görebiliriz
# astype metodu ile tipler arası dönüşüm yapabiliriz : df['treatment b'] = df['treatment b'].astype(str)
# Cinsiyet gibi kategorileri temsil eden değişkenleri object tipinden category tipine değiştirebiliriz:
# df['sex'] = df.['sex'].astype('category')
# Kategorik değişkenler category tipine döndürülerek bellekten tasarruf sağlanır
# Analiz esnasında kategorik verilerden faydalanan diğer kütüphaneler kullanılabilir
# Sayısal değer almasına rağmen object tipinde tutulan değerler olabilir. Bunun sebeplerinden bir tanesi bulunmayan
# değerlerin bir karakter('-' gibi) kullanılarak temsil edilmesidir. Bu durumda değerleri tekrar sayısal değerlere
# çevirmek  ve bulunmayan değerleri NaN yapmak için to_numeric fonksiyonunu kullanırız:
# pd.to_numeric(df['treatment b'], errors='coerce')

In [4]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')
df.dtypes

total_bill    float64
tip           float64
sex            object
smoker         object
day            object
time           object
size            int64
dtype: object

In [6]:
print(df.memory_usage())

Index           80
total_bill    1952
tip           1952
sex           1952
smoker        1952
day           1952
time          1952
size          1952
dtype: int64


In [9]:
df.sex = df.sex.astype('category')
df.smoker = df.smoker.astype('category')
print(df.memory_usage())

Index           80
total_bill    1952
tip           1952
sex            340
smoker         340
day           1952
time          1952
size          1952
dtype: int64


In [10]:
# Veriler temizlenirken string manipülasyonları yaygın olarak kullanılır
# Stringlerin eşlenmesi için re kütüphanesi kullanılır
# \d paterni tek bir tane digiti temsil eder, eğer dolar ile ilgili veriler söz konusu ise $ ve . işaretlerine
# dikkat etmek gerekir. Bunlar aynı zamanda metakarakter olduğu için stringte eşlemek için \kullanılmalıdır
# Örneğin $32.175 formatında verileri eşleyelim: $\$\d{2}\.\d{3}^
# Eşleme yapılmadan önce paternin derlenmesi işlemlerin daha verimli yapılmasını sağlar
# re kütüphanesinin compile metoduna paternimizi vererek derleyebiliriz
# Ardından compile metodunun döndürdüğü referans üzerinde match metoduna stringi argüman olarak vererek eşleriz
# match metodu geriye bir match nesnesi döndürür. Bu nesne kullanılarak sonuçlar alınabilir
# Dönen nesneyi bool fonksiyonuna geçirerek mantıksal işlemler yapabiliriz

In [11]:
# findall metodu ile bir string üzerinde birden fazla kez eşleme yapabiliriz. Mesela bir cümleden sayıları çıkartmak
# için findall metodunu ve regexleri kullanabiliriz

In [14]:
import re

foo = 'I told him to buy 4 eggs and 1 liter milk.'
result = re.findall('\d+', foo)

for res in result:
    print(res)

4
1


In [15]:
# Sütunlar üzerinde yapacağımız manipülasyon birden fazla adım gerektiriyorsa apply fonksiyonunu kullanabiliriz
# apply fonksiyonunun axis parametresi ile işlemleri satırlar boyunca ve ya sütunlar boyunca yapabiliriz
# Kendi fonksiyonlarımızı yazarakta apply fonksiyonuna argüman olarak sağlayabiliriz
# Eğer satırlar üzerinden işlem yapıyorsak yazdığımız fonksiyonunu bir parametresi tüm satırı almalıdır
# Eğer ilave parametreler olacaksa mesela eşlenecek patern gibi, gerekli argümanları da apply metoduna sağlarız

In [20]:
data = {'First Name':['Tolga', 'Mahsum', 'Maykıl', 'Corc'],
        'Second Name':['Karahan', 'Yatkı', 'Versene', 'Borç'],
        'Salary':['$5000.17', '$10.057', '$7500.57', '$5.04'],
        'Tip':['$47.57', '$10.23', '$7.46', '$3.24']}

df = pd.DataFrame(data)
print(df)

  First Name Second Name    Salary     Tip
0      Tolga     Karahan  $5000.17  $47.57
1     Mahsum       Yatkı   $10.057  $10.23
2     Maykıl     Versene  $7500.57   $7.46
3       Corc        Borç     $5.04   $3.24


In [19]:
from numpy import NaN

def get_diff(row, pattern):
    
    salary = row['Salary']
    tip    = row['Tip']
    regex  = re.compile(pattern)
    
    if bool(regex.match(salary) and regex.match(tip)):
        
        salary = salary.replace('$', '')
        tip    = tip.replace('$', '')
        
        salary = float(salary)
        tip    = float(tip)
        
        diff   = salary - tip
        
        return diff
    
    else:
        return NaN
        

In [22]:
pattern = '^\$\d*\.\d{2}$'

df['difference'] = df.apply(get_diff,
                            axis=1,
                            pattern=pattern)

print(df)

  First Name Second Name    Salary     Tip  difference
0      Tolga     Karahan  $5000.17  $47.57     4952.60
1     Mahsum       Yatkı   $10.057  $10.23         NaN
2     Maykıl     Versene  $7500.57   $7.46     7493.11
3       Corc        Borç     $5.04   $3.24        1.80


In [23]:
# apply metodunu series nesnelerine de uygulayabiliriz, yani sadece belirli sütunlara ve ya satırlara

In [24]:
# Veriler temizlenirken karşımıza çıkan bir diğer problem tekrarlanan değerlerdir
# Tekrarlı değerlerden kurtulmak için drop_duplicates metodunu kullanabiliriz
# Yine sıkça karşılaşılan problemlerden birisi kayıp değerlerdir. Kayıp değerleri olduğu gibi bırakabiliriz,
# düşürebiliriz ve ya kütüphaneleri kullanarak bu değerleri doldurabiliriz. Kayıp değerlerin kaynağı araştırılmalı
# Kayıp değerler rastgele yayılmış olabilir ve ya verideki sistematik bir problemden dolayı oluşabilirler
# Kayıp değerlerin sayısı info metodu ile de görülebilir. Eğer basitçe kayıp değerleri düşürmek istiyorsak
# dataframe üzerinde dropna metodunu kullanabiliriz. Sonuç olarak sadece tüm değerlere sahip olan satırlar korunur
# Eğer kayıp değerlerin büyük çoğunluğu bir sütundan geliyorsa bu sütun düşürülebilir
# Verileri doldurmak için kendi değerlerimizi ve ya istatistikleri kullanabiliriz
# Eğer kendi değerimiz ile dolduracaksak dataframe üzerinde fillna metodunu kullanabiliriz
# Aynı tipe sahip birden fazla sütunu seçerek aynı anda kayıp değerleri doldurabiliriz
# İstatistik ile doldurma da dikkatli olunması gerekir. Örneğin outlierlar söz konusu ile medyan kullanabiliriz

In [51]:
data = {'First Name':['Tolga', 'Mahsum', 'Maykıl', 'Corc'],
        'Second Name':['Karahan', 'Yatkı', 'Versene', 'Borç'],
        'Salary':[5000.17, 10.057, 7500.57, 5.04],
        'Tip':[47.57, 10.23, NaN, 3.24]}

df = pd.DataFrame(data)
print(df)

  First Name Second Name    Salary    Tip
0      Tolga     Karahan  5000.170  47.57
1     Mahsum       Yatkı    10.057  10.23
2     Maykıl     Versene  7500.570    NaN
3       Corc        Borç     5.040   3.24


In [47]:
assert df.Tip.notnull().all(), 'There are missing values'

AssertionError: There are missing values

In [52]:
tip_mean = df['Tip'].mean()
df['Tip'] = df['Tip'].fillna(tip_mean)
print(df)

  First Name Second Name    Salary        Tip
0      Tolga     Karahan  5000.170  47.570000
1     Mahsum       Yatkı    10.057  10.230000
2     Maykıl     Versene  7500.570  20.346667
3       Corc        Borç     5.040   3.240000


In [53]:
# notnull metodunu tüm dataframe üzerinde kullanıyorsak iki tane all çağrısı yapmalıyız
# Çünkü all çağrısı ile bool vektörü tek bir bool değere indirgenir
# Ayrıca tüm DataFrame üzerinde mantıksal operatör kullanıyorsak iki tane all() çağrısı ile tüm değerlerin
# bu mantıksal koşulu sağlayıp sağlamadığını görebiliriz

In [55]:
print(df.notnull().all().all())

True
