# Python ile Regex (Regular Expressions) Uygulamaları

Bu rehber, Python'daki `re` modülünü kullanarak metin verileri üzerinde karmaşık desen (pattern) arama, eşleştirme ve manipülasyon işlemlerinin nasıl yapılacağını anlatır. Regex, özellikle veri temizleme, veri doğrulama ve metin madenciliği gibi alanlarda vazgeçilmez bir araçtır.

## 1. `re` Modülünün Temel Fonksiyonları

Python'da regex işlemleri için `re` modülünü içe aktarmamız gerekir.

In [2]:
import re

### `re.search(pattern, string)`
Bir metin içinde desene uyan **ilk konumu** bulur ve bir eşleşme nesnesi (`Match Object`) döndürür. Eşleşme bulamazsa `None` döndürür.

In [None]:
metin = "Bu bir deneme metnidir. Python programlama dili çok güçlüdür."
desen = "Python"

sonuc = re.search(desen, metin)

if sonuc:
    print(f"'Python' kelimesi bulundu.")
    print(f'Başlangıç indeksi: {sonuc.start()}')
    print(f'Bitiş indeksi: {sonuc.end()}')
    print(f'Bulunan metin: {sonuc.group()}')

### `re.findall(pattern, string)`
Bir metin içinde desene uyan **tüm eşleşmeleri** bir liste olarak döndürür.

In [3]:
metin = "Ali'nin yaşı 25, Ayşe'nin yaşı 30, Veli'nin yaşı ise 25."
desen = r'\d+'  # r'' -> raw string, \d -> rakam, + -> bir veya daha fazla

yaslar = re.findall(desen, metin)
print(f"Bulunan yaşlar: {yaslar}")

Bulunan yaşlar: ['25', '30', '25']


### `re.sub(pattern, replacement, string)`
Metin içindeki bir deseni, belirtilen başka bir metinle değiştirir.

In [4]:
metin = "Telefon numaram: 123-456-7890"
desen = r'\d{3}-\d{3}-\d{4}' # xxx-xxx-xxxx formatındaki numaralar
yeni_metin = re.sub(desen, "[SANSORED]", metin[0])

print(yeni_metin)

T


### `re.split(pattern, string)`
Metni, desene uyan yerlerden bölerek bir liste oluşturur.

In [None]:
metin = "elma,armut;karpuz.çilek
desen = r'[,;.]' # Virgül, noktalı virgül veya noktaya göre böl
parcalar = re.split(desen, metin[0])
print(parcalar)

## 2. Temel Regex Metakarakterleri ve Anlamları

- `.` : Herhangi bir tek karakter (yeni satır hariç).
- `\d` : Herhangi bir rakam ([0-9]).
- `\D` : Rakam olmayan herhangi bir karakter.
- `\w` : Alfanümerik karakter (harf, rakam veya alt çizgi `_`).
- `\W` : Alfanümerik olmayan karakter.
- `\s` : Boşluk karakteri (boşluk, tab, yeni satır).
- `\S` : Boşluk olmayan karakter.
- `^` : Metnin başlangıcı.
- `$` : Metnin sonu.
- `[]` : Köşeli parantez içindeki karakterlerden herhangi biri. Örn: `[abc]` -> a, b veya c.
- `[^]` : Köşeli parantez içinde olmayan herhangi bir karakter. Örn: `[^5]` -> 5 dışındaki her şey.
- `|` : Veya operatörü. Örn: `elma|armut` -> 'elma' veya 'armut' ile eşleşir.
- `()` : Gruplama. Desenleri bir arada tutar ve yakalanacak grupları belirtir.

## 3. Nicelik Belirteçleri (Quantifiers)

- `*` : Kendisinden önceki karakterden 0 veya daha fazla sayıda.
- `+` : Kendisinden önceki karakterden 1 veya daha fazla sayıda.
- `?` : Kendisinden önceki karakterden 0 veya 1 tane.
- `{n}` : Kendisinden önceki karakterden tam olarak `n` tane.
- `{n,}` : Kendisinden önceki karakterden en az `n` tane.
- `{n,m}` : Kendisinden önceki karakterden en az `n`, en fazla `m` tane.

## 4. Pandas ile Regex Uygulamaları

Regex'in gücü, `pandas` DataFrame'leri üzerindeki metin verilerini işlerken ortaya çıkar.

In [None]:
import pandas as pd

data = {'kullanici_adi': ['ahmet123', 'ayse_k', 'veli-can', 'fatma45', 'mehmet'],
        'email': ['ahmet@example.com', 'ayse.k@test.co', 'veli-can@ornek.net', 'fatma45@gmail.com', 'invalid-email'],
        'aciklama': ['Ürün kodu: ABC-1234-XYZ', 'Sipariş no: 5678', 'REF: DEF-5678-KLM', 'Not: Geri arayın', 'Hatalı giriş']}

df = pd.DataFrame(data)
df

### a. Veri Filtreleme: `str.contains()`

Belirli bir deseni içeren satırları filtrelemek için kullanılır.

In [None]:
# Geçerli bir email formatına sahip satırları bulalım
# Desen: [alfanumerik karakterler]@[alfanumerik karakterler].[alfanumerik karakterler]
gecerli_email_deseni = r'\w+@\w+\.\w+'

gecerli_mailler_df = df[df['email'].str.contains(gecerli_email_deseni, na=False)]
print("--- Geçerli Email Adresleri ---")
print(gecerli_mailler_df)

### b. Veri Çıkarma: `str.findall()` ve `str.extract()`

Bir sütundaki metinden belirli desenleri çıkarıp yeni bir sütun oluşturmak için kullanılır.

In [None]:
# 'aciklama' sütunundan ürün kodlarını (XXX-XXXX-XXX formatında) çıkaralım
urun_kodu_deseni = r'([A-Z]{3}-\d{4}-[A-Z]{3})' # Gruplama () ile yakalanacak deseni belirtiyoruz

# str.extract() -> Eşleşen ilk grubu yeni bir sütun olarak döndürür
df['urun_kodu'] = df['aciklama'].str.extract(urun_kodu_deseni)

print(df)

### c. Veri Değiştirme: `str.replace()`

Bir sütundaki desenleri başka bir metinle değiştirmek için kullanılır.

In [None]:
# 'kullanici_adi' sütununda harf ve rakam dışındaki karakterleri (örn: '-') temizleyelim
temizlenmis_kullanici_adi = df['kullanici_adi'].str.replace(r'[^\w]', '', regex=True) # ^\w -> alfanümerik olmayanlar
df['temiz_kullanici_adi'] = temizlenmis_kullanici_adi

print(df)