In [1]:
import re

metin = "Python ile düzenli ifadeler öğrenmek eğlencelidir."

# 'düzenli' kelimesini bul
sonuc = re.search(r'düzenli', metin)

if sonuc:
    print(f"'{sonuc.group()}' kelimesi bulundu.")
else:
    print("Kelime bulunamadı.")

'düzenli' kelimesi bulundu.


In [2]:
metin = "Bu cümlede 3 rakam ve 42 sayı bulunmaktadır."

# Tüm rakamları bul
sonuc = re.findall(r'\d+', metin)

print("Bulunan rakamlar:", sonuc)

Bulunan rakamlar: ['3', '42']


In [3]:
metin = "İletişim için email@example.com veya support@domain.com adreslerine yazabilirsiniz."

# E-posta adreslerini bul
sonuc = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', metin)

print("Bulunan e-posta adresleri:", sonuc)

Bulunan e-posta adresleri: ['email@example.com', 'support@domain.com']


In [None]:
# Uygulama: Metinde geçen e-posta adreslerinin domain bölümlerini çıkararak bu domain'lerin frekanslarını hesaplayan kodu yaz.


In [4]:
metin = "Telefon numaraları: 0555-123-4567 ve 0532-987-6543."

# Telefon numaralarını bul
sonuc = re.findall(r'\d{4}-\d{3}-\d{4}', metin)

print("Bulunan telefon numaraları:", sonuc)

# Numara formatını değiştir (555 123 4567)
formatlanmis = [re.sub(r'(\d{4})-(\d{3})-(\d{4})', r'\1 \2 \3', num) for num in sonuc]
print("Formatlanmış numaralar:", formatlanmis)

Bulunan telefon numaraları: ['0555-123-4567', '0532-987-6543']
Formatlanmış numaralar: ['0555 123 4567', '0532 987 6543']


In [None]:
# Uygulama: Metin içinde 18.05.1997 şeklinde Türkçe tarih formatına göre yazılmış bütün ifadeleri 5/18/1997 biçimine çeviren kodu yaz.


In [15]:
metin = "Bugünkü tarih 01/10/2024, ve bir önceki tarih 29/19/2024."

# Tarihleri bul
sonuc = re.findall(r'\d{2}/\d{2}/\d{4}', metin)

print("Bulunan tarihler:", sonuc)

# Tarihlerin geçerli olup olmadığını kontrol et (örneğin 01/10/2024 geçerli)
for tarih in sonuc:
    gun, ay, yil = map(int, tarih.split('/'))
    if 1 <= gun <= 31 and 1 <= ay <= 12:
        print(f"{tarih} geçerli bir tarih.")
    else:
        print(f"{tarih} geçerli değil.")

Bulunan tarihler: ['01/10/2024', '29/19/2024']
01/10/2024 geçerli bir tarih.
29/19/2024 geçerli değil.


In [11]:
# Uygulama: Verilen bir metinde geçen "ın, in, un, ün, nın, nin, nun, nün" Türkçe ekleri içeren kelimeleri elde eden kodu yaz.

import re

# Örnek metin
metin = "Öğrencinin başarısı çok yüksekti. Kitabın içeriği harikaydı. Toplumun beklentileri değişiyor. Gözlüğün markası ne?"

# Düzenli ifade: Eklerle biten kelimeleri bulmak için
ekler = r'\b\w*(?:ın|in|un|ün|nın|nin|nun|nün)\b'

# Ekleri içeren kelimeleri bul
sonuc = re.findall(ekler, metin)

print("Ekleri içeren kelimeler:", sonuc)

Ekleri içeren kelimeler: ['Öğrencinin', 'Kitabın', 'Toplumun', 'Gözlüğün']


**AÇIKLAMA**

r'\b\w*(?:ın|in|un|ün|nın|nin|nun|nün)\b'

**1. r**
Python'da dizgeyi ham (raw) dizge olarak belirtir. Yani, ters eğik çizgi (\\) gibi karakterlerin özel anlamı kaybolmaz. Ham dizge kullanmazsak, Python \\ karakterini kaçış karakteri olarak değerlendirir. Bu nedenle r işareti, düzenli ifadelerde sıkça kullanılan ters eğik çizgileri olduğu gibi kullanmamızı sağlar.

**2. \b – Kelime Sınırı**
\b ifadesi, bir kelime sınırı anlamına gelir. Yani bu, düzenli ifadenin kelimenin başında veya sonunda olmasını belirtir. \b karakteri, bir kelimenin başını veya sonunu tanımlamak için kullanılır ve kelimenin tamamına odaklanmamızı sağlar.

**3. \w* – Alfanümerik Karakterler**
\w: Alfanümerik karakterleri ve alt çizgiyi temsil eder. Yani, harfler (a-z, A-Z), rakamlar (0-9) ve _ (alt çizgi) bu karakter setine dahildir.

*: Önceki karakterin (bu durumda \w) sıfır veya daha fazla defa tekrar etmesini sağlar. Bu ifade, kelimenin başında sıfır ya da daha fazla karakter olabileceğini belirtir. Başka bir deyişle, \w*, sıfır ya da daha fazla alfanümerik karakterden oluşan bir dizgeyi temsil eder. Bu, kelimenin ekten önceki kısmını tanımlar.

**4. (?:...) – Gruplama (Non-Capturing Group)**
(?:...): Parantez içindeki ifadeleri gruplar, ancak non-capturing (yakalamayan) bir grup oluşturur. Yani bu grup sadece düzenli ifadeyi tanımlamak için kullanılır, ama yakalanan sonuçların bir parçası olmaz.
Neden kullanılır? Çünkü sadece düzenli ifadede belirttiğimiz ekleri yakalamak istemiyoruz; bu eklerle biten kelimeleri istiyoruz. Bu yüzden yakalamayan grup (non-capturing group) kullanıyoruz.
Bu parantez içinde gelen desenler düzenli ifadede tanımlanan eklerdir: ın, in, un, ün, nın, nin, nun, nün.

**5. (ın|in|un|ün|nın|nin|nun|nün) – Alternatifler (Ekleme Alternatifleri)**
Parantez içindeki bu ifade, alternatifleri belirtir. Boru işareti | "veya" anlamına gelir. Bu nedenle, bu grup "ın", "in", "un", "ün", "nın", "nin", "nun" ya da "nün" ile biten kelimeleri eşleştirir.
Bu alternatifler, Türkçedeki belirtilen eklerdir ve metindeki kelimelerin sonundaki bu ekleri tanımlamak için kullanılır.

**6. \b – Kelime Sınırı (Tekrar)**
Bu \b, kelimenin son sınırını belirtir. Yani, bu eklerle biten tam bir kelime olmasını sağlar. Kelimenin sonunda bir sınır olmasını (örneğin boşluk ya da noktalama işareti) zorunlu hale getirir. Bu, eklerle biten kelimeleri tam olarak yakalar.

In [None]:
# bir metindeki 'method' kelimelerini 'technique' ile değiştiren kod

import re

# Metin dosyasını okuma
with open('ornek_metin.txt', 'r', encoding='utf-8') as file:
    metin = file.read()

# 'Python' kelimesini 'Django' ile değiştirme
yenilenmis_metin = re.sub(r'method', 'technique', metin)

# Yeni dosyaya yazma
with open('yenilenmis_metin.txt', 'w', encoding='utf-8') as file:
    file.write(yenilenmis_metin)

print("Değiştirilmiş metin yeni dosyaya kaydedildi.")

In [16]:
# -maktadır, -mektedir' ile biten kelimeler ve -mıştır, -miştir, -muştur, -müştür ile biten kelimeleri listeleyen kod

import re

# Metin dosyasını okuma
with open('ornek_metin.txt', 'r', encoding='utf-8') as file:
    metin = file.read()

# 'maktadır' ve 'mektedir' ile biten kelimeleri bulmak için
mak_mek_grubu = re.findall(r'\b\w*(?:maktadır|mektedir)\b', metin)

# 'mıştır, miştir, muştur, müştür' ile biten kelimeleri bulmak için
mis_mus_grubu = re.findall(r'\b\w*(?:mıştır|miştir|muştur|müştür)\b', metin)

print("'-maktadır, -mektedir' ile biten kelimeler:", mak_mek_grubu)
print("'-mıştır, -miştir, -muştur, -müştür' ile biten kelimeler:", mis_mus_grubu)


'-maktadır, -mektedir' ile biten kelimeler: ['yapmaktadır', 'istememektedir']
'-mıştır, -miştir, -muştur, -müştür' ile biten kelimeler: ['yapmıştır', 'olmuştur', 'girmiştir', 'üzmüştür']


In [17]:
import re

metin = "Bu bir örnek cümledir. Neden böyle oldu? İşte cevap!"

# Cümle sonlarındaki kelimeleri bul
cumle_sonu_regex = r'\b\w+[.?!]'
cumle_sonu_list = re.findall(cumle_sonu_regex, metin)

print("Cümle sonlarındaki kelimeler:", cumle_sonu_list)

Cümle sonlarındaki kelimeler: ['cümledir.', 'oldu?', 'cevap!']


Üstteki kodda cümle sonundaki kelimeler tespit edilmiştir 
ancak noktalama işaretleri de yakalanmıştır, noktalama işaretlerini hariç tutmak için bir regex yöntemi araştırın.

In [18]:
# IP adresi doğrulama

import re

metin = "Server IP adresleri: 192.168.1.1, 255.255.255.255, 999.999.999.999."

# Geçerli IP adreslerini bulma
ip_regex = r'\b(?:[0-9]{1,3}\.){3}[0-9]{1,3}\b'
ip_list = re.findall(ip_regex, metin)

# Geçerli IP'leri doğrulama (0-255 arası olmalı)
valid_ip_list = [ip for ip in ip_list if all(0 <= int(part) <= 255 for part in ip.split('.'))]

print("Geçerli IP adresleri:", valid_ip_list)

Geçerli IP adresleri: ['192.168.1.1', '255.255.255.255']


In [19]:
# Büyük ve küçük harfleri ayırma

import re

metin = "Bu METİN içinde bazı KELİMELER büyük harfle yazılmıştır."

# Büyük harfli kelimeleri bul
buyuk_harfler = re.findall(r'\b[A-ZÇĞİÖŞÜ]+\b', metin)

# Küçük harfli kelimeleri bul
kucuk_harfler = re.findall(r'\b[a-zçğıöşü]+\b', metin)

print("Büyük harflerle yazılmış kelimeler:", buyuk_harfler)
print("Küçük harflerle yazılmış kelimeler:", kucuk_harfler)

Büyük harflerle yazılmış kelimeler: ['METİN', 'KELİMELER']
Küçük harflerle yazılmış kelimeler: ['içinde', 'bazı', 'büyük', 'harfle', 'yazılmıştır']


In [20]:
# Metnin içindeki tüm sayıları bulma ve toplama

import re

metin = "Bu metinde 3 rakam, 42 sayı ve toplamda 100 sayı bulunmaktadır."

# Metindeki tüm sayıları bul
sayi_list = re.findall(r'\b\d+\b', metin)

# Sayıları toplayın
toplam = sum(map(int, sayi_list))

print("Bulunan sayılar:", sayi_list)
print("Sayıların toplamı:", toplam)

Bulunan sayılar: ['3', '42', '100']
Sayıların toplamı: 145


**ÖDEV: Düzenli İfadeler ile Metin Temizleme ve İşleme**

Bu ödevde, büyük bir metin veri kümesi üzerinde düzenli ifadeleri kullanarak, metin temizleme, analiz ve raporlama yapılacaktır. Aşağıdaki adımlar izlenerek belirli görevler yerine getirilecektir. Ödev sayesinde düzenli ifadelerle metin manipülasyonu ve analizini derinlemesine anlayacak ve gerçek dünya uygulamalarında nasıl kullanılacağı konusunda deneyim kazanacaksınız.

**Adımlar:**

- **Veri elde etme:** Wikipedia makaleleri, haber arşivleri, tweetler, forum verileri veya başka bir büyük açık veri kaynağından bir "Türkçe" metin veri seti bulup indirin. Veri setinin en az 10.000 kelime veya 50.000 karakter içermesi gerekir.

- **Metin Temizleme:**

    Özel sembollerin ve \</br> gibi HTML etiketlerinin çıkarılması.
    Çift tırnakların atılması
    Fazla boşlukların ve satır sonlarının düzeltilmesi.
    Kısaltmaların ve sayısal ifadelerin bulunup kaldırılması (örn. "Dr." veya "i.e.").
    Tüm e-posta adreslerini, URL'leri ve telefon numaralarının kaldırılması.
    Tarih, saat vb. ifadelerin kaldırılması.
    Sayı, rakam biçiminde yazılan token'ların kaldırılması.

    NOT: Noktalama işaretlerinin bu aşamada atılmayacak, metin analizinde cümle sonu belirlemek için kullanılacaktır.

    - **Örnek girdi:** 1.1.1970'de Fatsa'da doğan sanatçı 27 dile çevrilen "Birkaç gr. Zeka" adlı kitabında toplum eleştirisi yapıyor.
    
    - **Örnek çıktı:** 'de Fatsa'da doğan sanatçı dile çevrilen Birkaç Zeka adlı kitabında toplum eleştirisi yapıyor.

- **Metin Analizi:**

    Öncelikle temizlenen metindeki bütün karakterler küçük harf biçimine çevrilecektir.

    Elde edilen metin cümlelerine ve her bir cümle de kendi içinde kelimelerine ayrılacaktır.

    Bunun ardından kelime frekansları, ortalama kelime uzunluğu ve ortalama cümle uzunluğu bulunacaktır.