Bu notebookta, tutarsız metin girişlerini nasıl temizleyeceğimizi öğreneceğiz.


# Ortam kurulumu

Yapmamız gereken ilk şey, kullanacağımız kütüphaneleri ve veri setini yüklemek.

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#ROOT_DIR = "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day3-FeatureSelection/notebooks"
ROOT_DIR = "https://media.githubusercontent.com/media/yapay-ogrenme/casgem-eu-project-training-on-data-mining/main/PART1/Day3-FeatureSelection/notebooks"
DATASET_PATH = ROOT_DIR + "/datasets/"

In [None]:
!pip install fuzzywuzzy

In [None]:
# modules we'll use
import pandas as pd
import numpy as np

# helpful modules
import fuzzywuzzy
from fuzzywuzzy import process
import chardet

# read in all our data
professors = pd.read_csv(DATASET_PATH + "pakistan_intellectual_capital.csv")

# set seed for reproducibility
np.random.seed(0)

# Bazı ön metin ön işlemeleri yapın

Verilerin ilk birkaç satırına hızlıca göz atarak başlayacağız.

In [None]:
professors.head()

İçinde veri girişi tutarsızlıkları olmadığından emin olmak için "Country" (Ülke) sütununu temizlemekle ilgilendiğimizi varsayalım. Elbette her satırı gözden geçirebilir ve elle kontrol edebilir ve tutarsızlıkları bulduğumuzda elle düzeltebiliriz. Yine de bunu yapmanın daha etkili bir yolu var!


In [None]:
# get all the unique values in the 'Country' column
countries = professors['Country'].unique()

# sort them alphabetically and then take a closer look
countries.sort()
countries

Sadece buna bakarak, tutarsız veri girişi nedeniyle bazı sorunlar görebiliyorum: örneğin ' Germany' ve 'germany' veya 'New Zealand' ve ' New Zealand'.

Yapacağım ilk şey, her şeyi küçük harf yapmak (istersem sonunda tekrar değiştirebilirim) ve hücrelerin başındaki ve sonundaki boşlukları kaldırmak. Büyük harf ve sondaki boşluklardaki tutarsızlıklar metin verilerinde çok yaygındır ve bunu yaparak metin veri girişi tutarsızlıklarınızın %80'ini düzeltebilirsiniz.


In [None]:
# convert to lower case
professors['Country'] = professors['Country'].str.lower()
# remove trailing white spaces
professors['Country'] = professors['Country'].str.strip()

Daha sonra daha zor tutarsızlıkları ele alacağız.

# Tutarsız veri girişini düzeltmek için bulanık eşleştirmeyi (fuzzy matching) kullanalım

Pekala, 'Ülke' sütununa bir kez daha bakalım ve yapmamız gereken başka veri temizliği olup olmadığına bakalım.


In [None]:
# get all the unique values in the 'Country' column
countries = professors['Country'].unique()

# sort them alphabetically and then take a closer look
countries.sort()
countries

Görünüşe göre başka bir tutarsızlık var: 'southkorea' ve 'south korea' aynı olmalı.

Hangi dizelerin birbirine en yakın olduğunu belirlemeye yardımcı olması için [fuzzywuzzy](https://github.com/seatgeek/fuzzywuzzy) paketini kullanacağız. Bu veri kümesinde, hatalar muhtemelen elle düzeltebileceğimiz kadar küçüktür, ancak bu yaklaşım iyi ölçeklenmiyor. (Bin hatayı elle düzeltmek ister misiniz? Peki ya on bin? İşleri olabildiğince erken otomatikleştirmek genellikle iyi bir fikirdir.)

> **Bulanık eşleştirme (Fuzzy matching:):** Hedef dizeye çok benzeyen metin dizelerini otomatik olarak bulma süreci. Genel olarak, bir dize diğerine "yakın" olarak kabul edilir, bir dizeyi diğerine dönüştürüyorsanız değiştirmeniz gereken karakter sayısı azalır. Yani "apple" ve "snapple" birbirinden iki değişiklik uzaklıkta ("s" ve "n" ekleyin), "in" ve "on" ise bir değişiklik uzaktadır ("i"yi "o" ile değiştirin). Bulanık eşleştirmeye her zaman %100 güvenemeyeceksiniz, ancak bu genellikle size en azından biraz zaman kazandıracaktır.

Fuzzywuzzy, iki dize verilen bir oran döndürür. Oran 100'e ne kadar yakınsa, iki dizi arasındaki düzenleme mesafesi o kadar küçük olur. 


In [None]:
# get the top 10 closest matches to "south korea"
matches = fuzzywuzzy.process.extract("south korea", countries, limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

# take a look at them
matches

Şehirlerdeki öğelerden ikisinin "south korea"ye çok yakın olduğunu görebiliyoruz: "south korea" ve "southkorea". "Country" sütunumuzdaki > 47 olan tüm satırları "south korea" ile değiştirelim.

Bunu yapmak için bir fonksiyon yazacağım. (Belirli bir görevi bir veya iki defadan fazla yapmanız gerekebileceğini düşünüyorsanız yeniden kullanabileceğiniz genel amaçlı bir işlev yazmak iyi bir fikirdir. Bu, kodu çok sık kopyalayıp yapıştırmanıza engel olur, bu da zamandan tasarruf sağlar ve hataları önlemek için size yardımcı olabilir.)



In [None]:
# function to replace rows in the provided column of the provided dataframe
# that match the provided string above the provided ratio with the provided string
def replace_matches_in_column(df, column, string_to_match, min_ratio = 47):
    # get a list of unique strings
    strings = df[column].unique()
    
    # get the top 10 closest matches to our input string
    matches = fuzzywuzzy.process.extract(string_to_match, strings, 
                                         limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

    # only get matches with a ratio > 90
    close_matches = [matches[0] for matches in matches if matches[1] >= min_ratio]

    # get the rows of all the close matches in our dataframe
    rows_with_matches = df[column].isin(close_matches)

    # replace all rows with close matches with the input matches 
    df.loc[rows_with_matches, column] = string_to_match
    
    # let us know the function's done
    print("All done!")

Artık bir fonksiyonumuz olduğuna göre, onu test edebiliriz!

In [None]:
# use the function we just wrote to replace close matches to "south korea" with "south korea"
replace_matches_in_column(df=professors, column='Country', string_to_match="south korea")

Şimdi "Country" sütunumuzdaki benzersiz değerleri tekrar kontrol edelim ve "south korea"yi doğru şekilde düzenlediğimizden emin olalım.


In [None]:
# get all the unique values in the 'Country' column
countries = professors['Country'].unique()

# sort them alphabetically and then take a closer look
countries.sort()
countries

Artık dataframe'de sadece "south korea" var ve hiçbir şeyi elle değiştirmek zorunda kalmadık.
