# Text Methods

In [1]:
import numpy as np
import pandas as pd

## A normal Python string has a variety of method calls available:

In [3]:
email = "jose@email.com"

In [4]:
email.split("@")

['jose', 'email.com']

In [5]:
names= pd.Series(["andrew","bobo","claire","david","5"])

In [6]:
names

0    andrew
1      bobo
2    claire
3     david
4         5
dtype: object

In [7]:
names.str.upper()

0    ANDREW
1      BOBO
2    CLAIRE
3     DAVID
4         5
dtype: object

In [8]:
names

0    andrew
1      bobo
2    claire
3     david
4         5
dtype: object

In [9]:
email.isdigit()

False

In [10]:
"5".isdigit() 

True

In [11]:
# Normal python stringleri için kullanılan built-in string metodlarının çoğu pandasta str call özelliği ile kullanılabilir.
# Bu şekilde bir serideki tüm stringler için bu metodlar çalışır ve amacına uygun bir sonuç döndürür.
# Ör:

names.str.isdigit()  # pandas serisi için str ile ilgili metodları çağırarak kullanımda aşağıdaki gibi boolean bir çıktı

# elde edilir. Bu çıktı kullanılarak örneğin sadece digit içeren veye içermeyen verileri filtreleyebilirsiniz.


0    False
1    False
2    False
3    False
4     True
dtype: bool

In [12]:
help(str)

Help on class str in module builtins:

class str(object)
 |  str(object='') -> str
 |  str(bytes_or_buffer[, encoding[, errors]]) -> str
 |  
 |  Create a new string object from the given object. If encoding or
 |  errors is specified, then the object must expose a data buffer
 |  that will be decoded using the given encoding and error handler.
 |  Otherwise, returns the result of object.__str__() (if defined)
 |  or repr(object).
 |  encoding defaults to sys.getdefaultencoding().
 |  errors defaults to 'strict'.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __format__(self, format_spec, /)
 |      Return a formatted version of the string as described by format_spec.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  

# Pandas and Text

Pandas can do a lot more than what we show here. Full online documentation on things like advanced string indexing and regular expressions with pandas can be found here: https://pandas.pydata.org/docs/user_guide/text.html

## Text Methods on Pandas String Column

In [13]:
names = pd.Series(["andrew","bobo","claire","4"])
names

0    andrew
1      bobo
2    claire
3         4
dtype: object

In [14]:
names.str.capitalize()

0    Andrew
1      Bobo
2    Claire
3         4
dtype: object

In [15]:
names.str.isdigit()

0    False
1    False
2    False
3     True
dtype: bool

## Splitting , Grabbing, and Expanding

In [16]:
tech_finance = ["GOOG, APPL, AMZN","JPM, BAC, GS"]

In [17]:
len(tech_finance)

2

In [19]:
tickers = pd.Series(tech_finance)
tickers

0    GOOG, APPL, AMZN
1        JPM, BAC, GS
dtype: object

In [20]:
tickers.str.split(",")  # serinin her satırındaki elemanı aralarındaki virgüle göre ayırmak için str.split yöntemi kullanılır.

# Sonunda serinin her satırında listeye benzer, her elemanına ulaşılabililir elemanlar oluşur.

0    [GOOG,  APPL,  AMZN]
1        [JPM,  BAC,  GS]
dtype: object

In [22]:
tickers.str.split(",").str[0]  # ayrılmış elemanların 0. indekslerindeki elemanlarını görmek için

0    GOOG
1     JPM
dtype: object

In [23]:
tickers.str.split(",", expand=True)  # ayrılmış elemanların her elemanını ayrı bir kolona bölmek için

# NOT: Bunu yapabilmek için serinin tüm satırlarında aynı sayıda eleman olması gerekir. Aksi takdirde eleman olmayan bölmelerde NaN değerler yer alır.

Unnamed: 0,0,1,2
0,GOOG,APPL,AMZN
1,JPM,BAC,GS


## Cleaning or Editing Strings

In [26]:
messy_names = pd.Series(["andrew  ","bo;bo","   claire   "])
messy_names

0        andrew  
1           bo;bo
2       claire   
dtype: object

In [None]:
# Yazım hatası olan çok sayıda elemanı olan bir serinin verilerini str metodlarını kullanarak temizleyebiliriz.
# Ör:

In [33]:
messy_names.str.replace(";","")  # kelimeler arasındaki ; işaretini değiştirmek için

0        andrew  
1            bobo
2       claire   
dtype: object

In [34]:
messy_names.str.replace(';',"").str.strip()  # sağ ve/veya sol tarafında boşluğu olan kelimelerin boşluklarını temizlemek için


0    andrew
1      bobo
2    claire
dtype: object

In [35]:
messy_names.str.replace(";","").str.strip().str.capitalize()  # Baş harfi küçük olan kelimeleri düzeltmek için

0    Andrew
1      Bobo
2    Claire
dtype: object

## Alternative with Custom apply() call

### Yukarıdaki tüm işlemleri yapan bir fonksiyonun apply metodu ile kullanılmasıyla da alternatif olarak aynı işlemler yapılabilir.

In [41]:
def cleanup(name):
    name = name.replace(";","")
    name = name.strip()
    name = name.capitalize()
    return name

In [42]:
# ÖNEMLİ NOT: apply içine yazılan fonksiyonu serinin tüm elemanlarına ayrı ayrı uyguladığı için
# fonksiyon içerisine serinin elemanları girer. Bunlar da string olduğundan
# fonksiyon yazılırken str.metod notasyonu yerine normal string metod kullanım yöntemi kullanılmalıdır.

messy_names.apply(cleanup)

0    Andrew
1      Bobo
2    Claire
dtype: object

## Which one is more efficient?

Fonksiyon tanımlamak mı, yoksa seri adının arkasından str.metod yöntemini peşpeşe uygulamak mı?

In [43]:
import timeit

In [47]:
# code snippet executed only once

setup = '''
import pandas as pd
import numpy as np
messy_names = pd.Series(["andrew  ","bo;bo","   claire   "])
def cleanup(name):
    name = name.replace(";","")
    name = name.strip()
    name = name.capitalize()
    return name
'''

# code snippet whose execution time is to be measured
stmt_pandas_str = '''
messy_names.str.replace(";","").str.strip().str.capitalize()
'''

stmt_pandas_apply = '''
messy_names.apply(cleanup)
'''

stmt_pandas_vectorize = '''
np.vectorize(cleanup)(messy_names)
'''

In [48]:
timeit.timeit(setup = setup,
             stmt = stmt_pandas_str,
             number = 10000)

2.8812995000007504

In [49]:
timeit.timeit(setup = setup,
             stmt = stmt_pandas_apply,
             number = 10000)

0.818574400000216

In [50]:
timeit.timeit(setup = setup,
             stmt = stmt_pandas_vectorize,
             number = 10000)

0.17814009999983682

Wow! While .str() methods can be extremely convienent, when it comes to performance, don't forget about np.vectorize()! Review the "Useful Methods" lecture for a deeper discussion on np.vectorize()