Bildiğiniz üzere Python, string üzerinde rahatlıkla işlemler yapabileceğiniz bir dildir. Gerçek hayattaki verilerde de yazıların istenen şekilde olacağı söylenemez. Python'daki birçok string fonksiyonu Pandas'ta da vardır.

## Pandas'ta String İşlemleri

Numpy'da string işlemleri için fonksiyonlar bulunmadığından bu işi döngülerle halletmelisiniz.

In [1]:
import numpy as np

isimler = ['ahmet', 'Mert', 'EmRe', 'SELİM']
veri = np.array(isimler)
[s.capitalize() for s in veri]

['Ahmet', 'Mert', 'Emre', 'Seli̇m']

Bazı veriler için güzel bir yöntem. Ancak None veri tipi gibi beklenmedik birşey ile karşılaşıldığında hata verecektir.

Pandas'ın, string üzerinde işlem yapmak ve kayıp veriler üzerinde etkili çalışmak için `str` metodu vardır.

In [2]:
import pandas as pd

veri = pd.Series(isimler)
veri

0    ahmet
1     Mert
2     EmRe
3    SELİM
dtype: object

In [3]:
veri.str.capitalize()

0     Ahmet
1      Mert
2      Emre
3    Seli̇m
dtype: object

Python konsolundayken `veri.str.` yazdıktan sonra Tab tuşuna basarak veya [dokümentasyonuna](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html) bakarak yapabileceğiniz işlemleri görebilirsiniz. Neredeyse bütün Python string işlemleri Pandas'ta da vardır.

### Düzenli İfadeler (Regex)

Pandas, re modülünü kullanarak her eleman için düzenli ifadeleri kullanabilmenizi sağlar. `re.modul()` şeklinde kullanılan çoğu regex komutunu `veri.str.modul()` şeklinde kullanabilirsiniz.

In [4]:
veri.str.match(".*[Mm]e")

0     True
1     True
2    False
3    False
dtype: bool

### Diğer Metodlar

Daha bir sürü işlemi yapmanızı kolaylaştıracak metodlar var.

| Fonksiyon       | Açıklama                                                                      |
|-----------------|-------------------------------------------------------------------------------|
| get()           | Her elementin belirtilen index'teki değerini alır.                            |
| slice()         | Pythondaki [::] operatörleriyle aynı işi yapar.                               |
| slice_replace() | Belirtilen aralıktaki string'i `repl` parametresindeki string ile değiştirir. |
| cat()           | String'leri birleştirir.                                                      |
| repeat()        | `repeats` parametresine verilen sayıda string'leri çoğaltır.                  |
| normalize()     | String'lerin Unicode halini döndürür.                                         |
| pad()           | String'lerin sağ, sol veya iki yanına boşluk ekler.                           |
| wrap()          | Belirtilen karakter sonrasına alt satıra geçirir.                             |
| join()          | String'leri birleştirir.                                                      |

#### Bölümleme

str metodu, her elemanı ayrı bir string gibi alıp işlem yaptığından bölümleme (slicing) işlemini bildiğimiz yöntemle yapabiliriz. Ayrıca aynı işlevde `slice()` adında da bir metod mevcut.

In [5]:
veri
veri.str[0:2]

0    ah
1    Me
2    Em
3    SE
dtype: object

`veri.str[i]` ile de `veri.str.get(i)` aynı işlevdeler.

#### Belirteçleri Ayırma

Bazı verilerde bir sütun, o satır ile ilgili belirteçleri tutuyor olabilir. Sallıyorum aşağıdaki örnekte info sütununda A, annesi yaşıyor; B, babası yaşıyor; K, kardeşi var gibisinden anlamlara geliyor olabilir. Belirteçleri birbirinden ayıran karakteri parametre olarak verdiğimiz `get_dummies()` metodu, bu veriler için ayrı sütunların oluşmasını sağlar.

In [6]:
df = pd.DataFrame({'name': veri, 'info': ['A|B|K', 'B|K', 'A', 'B|K']})
df

Unnamed: 0,name,info
0,ahmet,A|B|K
1,Mert,B|K
2,EmRe,A
3,SELİM,B|K


In [7]:
df['info'].str.get_dummies('|')

Unnamed: 0,A,B,K
0,1,1,1
1,0,1,1
2,1,0,0
3,0,1,1


Daha birçok metod olsa da hepsine burada girmeyeceğiz. İleri okumalar için [Pandas Dokümentasyonuna](http://pandas.pydata.org/pandas-docs/stable/text.html) bakabilirsiniz.