## Düzenli İfadeler (Regex) 

Düzenli ifadeleri yani regexi karışık (complex) ifadeleri ayırmak için kullanmaktayız. 

<b>Örneğin;</b>

  **'@[A-Za-z0-9_]+'** bu ifadeyi incelersek:

     * @ ile başlayan ve devamında
     * Buyuk harfle baslayan
     * Kucuk harfle devam eden
     * Icinde rakam bulunduran ya da _ karakteri bulunduran ifadeyi cümlede bul demektir.

 

>  Pythondaki hazır kütüphanelerden **"re kütüphanesini"** projemize import etmemiz gerekmektedir ❗️

In [None]:
import re # regex islemi yapilacaksa mutlaka re kutuphanesinin import edilmesi gerekmektedir
text10 = '@OR_Avukat haklarımızı savunabilmemiz için hangi mecralara başvurmamız gerekmektedir?'
[w for w in text10 if re.search('@[A-Za-z0-9_]+', w)]


<li><b>Meta Karakterler</b></li>

<li><b>.  :</b> Tek bir karakterle eşleşir</li>
<li><b>^ :</b> Bir stringin başlangıcı</li>
<li><b>$ :</b> Bir stringin sonu</li>
<li><b>[] :</b> İçindeki karakter kümesi ile eşleşir</li>
<li><b>[a-z] :</b> a'dan... z'ye kadar bir karakterle eşleşir</li>
<li><b>[^abc] :</b> abc olan karakter kümesi haricindekilerle eşleşir</li>
<li><b>a|b :</b> a veya b karakteriyle eşleşir</li>
<li><b>() :</b> Operatörler için kapsam alanı</li>


<li><b>\b  :</b> Tek bir karakterle eşleşir</li>
<li><b>\d :</b> Rakamlarla eşleşir</li>
<li><b>\D :</b> Rakam olmayan değerlerle eşleşir</li>
<li><b>\s :</b> [\ t \ n \ r \ f \ v] bunlardan biriyle eşleşir</li>
<li><b>\S :</b> Whitespace olarak adlandırmayan karakterle eşleşir</li>
<li><b>\w :</b> Hem rakam hem harf bulunduranlarla (alphanumeric) eşleşir</li>
<li><b>\W :</b> Alphanumeric olarak geçmeyen ifadelerle eşleşir</li>


<li><b>Tekrarlı İfadeler</b></li>

<li><b>* :</b> Hiç ya da çok fazla eşleşme</li>
<li><b>+ :</b> Bir ya da çok fazla eşleşme</li>
<li><b>? :</b> Hiç ya da çok fazla eşleşme</li>
<li><b>{n} :</b> n kez tekrar</li>
<li><b>{n,} :</b> En az n tekrar</li>
<li><b>{,n} :</b> En fazla n tekrar<li>
<li><b>{m,n} :</b> En az m, en fazla n tekrar<li>


### Tarihlerin Yazılış Biçimleri Üzerinden Regex

Bildiğiniz üzere tarihleri ifade ediş biçimimiz oldukça çeşitlidir. İngilizce'de ayların yazılışları kısaltılarak da yazılmaktadır. Örneğin 23 October 2020 tarihi, <b>23 Oct 2020</b> şeklinde de yazılabilir. Türkçe'de ise böyle bir kısaltma kullanılmaz. Genellikle görebileceğimiz tarih yazılışları aşağıdaki gibidir:

    
23-10-2020
23.10.2020
23/10/2020
23/10/02
23 Ekim 2020
Ekim 23, 2020


In [17]:
Tarihler='23.10.2020\n23-10-2020\n23/10/2020\n23/10/02\n23 Ekim 2020\nEkim 23, 2020\n'
re.findall(r'\d{2}[./-]\d{2}[./-]\d{4}',Tarihler) #23-10-2020 23.10.2020  23/10/2020 tarihlerini alacaktır

['23.10.2020', '23-10-2020', '23/10/2020']

⛔️ <b> Önemli Not:</b> Eğer <b>. </b> ile ayrılan tarihleri de metin içerisinden almak istiyorsanız <b>[/-.]</b> şeklinde bir alım yapmayın. 
    Çünkü sistem tarafından hata alıyorsunuz.

![](hata.jpg)

In [19]:
re.findall(r'\d{2}[./-]\d{2}[./-]\d{2,4}',Tarihler) # Tarihlerin son bölümündeki 2 ya da 4 adet rakam bulunduran tarihleri al

['23.10.2020', '23-10-2020', '23/10/2020', '23/10/02']

<li><b>Ayların Kelime Olarak Yer Aldığı Tarihleri Cümle İçerisinden Alma</b></li>

In [28]:
re.findall(r'\d{2} (Ocak|Şubat|Mart|Nisan|Mayıs|Haziran|Temmuz|Ağustos|Eylül|Ekim|Kasım|Aralık) \d{4}',Tarihler)

['Ekim']

Eğer bu şekilde sorgularsak yukarıdaki gibi sadece ay kısmını döndürür. Tüm tarihi almak için aşağıdaki işlemi yapmalısınız 

In [29]:
re.findall(r'\d{2} (?:Ocak|Şubat|Mart|Nisan|Mayıs|Haziran|Temmuz|Ağustos|Eylül|Ekim|Kasım|Aralık) \d{4}',Tarihler)

['23 Ekim 2020']

In [32]:
re.findall(r'(?:Ocak|Şubat|Mart|Nisan|Mayıs|Haziran|Temmuz|Ağustos|Eylül|Ekim|Kasım|Aralık) \d{2}[,] \d{4}',Tarihler)

['Ekim 23, 2020']

### Pandas Kullanarak Metin İşlemleri

<p>Python'ın bir kütüphanesi olan <b>Pandas'ı</b> kullanabilmemiz için öncelikle terminal üzerinden <b>pip</b> ile pandası kurmamız gerekmektedir. Komut satırını açıp aşağıdaki komutu yazarsanız bilgisayarınıza pandası kurup daha sonra işlemlere devam edebilirsiniz.</p>

<code>pip install pandas</code>

![](install-pandas-with-pip.jpg)

In [33]:
import pandas as pd #pandas'ı öncelikle projemize import ediyoruz

zaman_cumleleri = ["Pazartesi: Doktor randevusu 2:45.", 
                  "Salı: Dişçi randevusu saat 11:30'da.",
                  "Çarşamba: Saat 19:00, Basketbol Maçı!",
                  "Perşembe: En geç 23:15'te evde olun",
                  "Cuma: Tren 08:10'da kalkacaktır."]

df = pd.DataFrame(zaman_cumleleri, columns=['text'])
df

Unnamed: 0,text
0,Pazartesi: Doktor randevusu 2:45.
1,Salı: Dişçi randevusu saat 11:30'da.
2,"Çarşamba: Saat 19:00, Basketbol Maçı!"
3,Perşembe: En geç 23:15'te evde olun
4,Cuma: Tren 08:10'da kalkacaktır.


<li><b>Her Cümlenin Kaç Karakterden Oluştuğunu Bulma</b></li>

In [34]:
df['text'].str.len()

0    33
1    36
2    37
3    35
4    32
Name: text, dtype: int64

<li><b>Her Cümlenin Kaç Kelimeden Oluştuğunu Bulma</b></li>

In [35]:
df['text'].str.split().str.len()

0    4
1    5
2    5
3    6
4    4
Name: text, dtype: int64

<li><b>Cümlelerin İçerisinde Kelime Arama</b></li>

In [36]:
df['text'].str.contains('randevusu') #bu fonksiyonun çalışma mantığına göre, aradığımız kelimenin geçtiği cümleler true döner

0     True
1     True
2    False
3    False
4    False
Name: text, dtype: bool

<li><b>Cümlelerin İçerisindeki Rakam Adedini Bulma</b></li>

In [37]:
df['text'].str.count(r'\d') #burada '\d' digit'i yani rakamları ifade eder

0    3
1    4
2    4
3    4
4    4
Name: text, dtype: int64

<li><b>Cümlelerin İçindeki Rakamları Görüntüleme</b></li>

In [38]:
df['text'].str.findall(r'\d') #bu fonksiyon cümlelerdeki tüm rakamları ekrana basar

0       [2, 4, 5]
1    [1, 1, 3, 0]
2    [1, 9, 0, 0]
3    [2, 3, 1, 5]
4    [0, 8, 1, 0]
Name: text, dtype: object

<li><b>Saat Formatlarını Gruplandırarak Göstermek</b></li>

In [39]:
df['text'].str.findall(r'(\d?\d):(\d\d)') #Burada (\d?\d) kullanılmasının sebebi 2:45 değerini de 14:45 değerini de almak

0     [(2, 45)]
1    [(11, 30)]
2    [(19, 00)]
3    [(23, 15)]
4    [(08, 10)]
Name: text, dtype: object

In [40]:
df['text'].str.replace(r'\w+day\b', '???')

0        Pazartesi: Doktor randevusu 2:45.
1     Salı: Dişçi randevusu saat 11:30'da.
2    Çarşamba: Saat 19:00, Basketbol Maçı!
3      Perşembe: En geç 23:15'te evde olun
4         Cuma: Tren 08:10'da kalkacaktır.
Name: text, dtype: object

<li><b>Cümlelerdeki Saatleri Sütun Olarak Gruplandırmak</b></li>

In [41]:
df['text'].str.extract(r'(\d?\d):(\d\d)')

Unnamed: 0,0,1
0,2,45
1,11,30
2,19,0
3,23,15
4,8,10
