Düzenli ifadeler (Regular Expression - RegEx) şeklinde türkçeleştirdiğimiz re modülü bir metin içerisinde istediğimiz formattaki metinleri bulmamızı sağlar. Python ile birlikte gelen kütüphanelerden biri olan re modülü için herhangi bir kurulum işlemi yapmaya gerek yoktur. Modülü kullanmak için **import re** şeklinde içe aktarmak yeterli olacaktır.
Bazı önemli sık kullanabileceğimiz RegEx fonksiyonlarına bakalım;
* **findal()** metodu bulmak istenilen değeri tüm metinde arar ve kaç tane bulduysa bunları listeler.
* **search()** metodu bulmak istenilen değerin metinde olup olmadığının bilgisini verir.
* **endpos()** metodu metin içerisindeki karakterlerin toplam sayısını verir.

#### Metakarakterler ve Bazı Özel Seriler

Duruma göre karakterleri kullanarak belirlenen düzene uyan metinlerin araması yapılabilir.
* \ karakteri iki durum için kullanılır. Ya özel bir karakterden önce kullanılır ya da kendinden sonraki karakteri dikkate almaz
* **^** karakteri iki durum için kullanılır. Ya ifadenin başlangıcını kontrol eder ya da hariç anlamına gelir yani **^** karakterinden sonra gelecek olan karakter ya da karakter kümesi aranmaz.
* **$**	... ile biten
* **{ }** karakteri ile aranılan verinin hane sayısı belirtilir. Örneğin \d{10} ifadesi ile 10 karakterli sayı araması yapılır.
* **|** karakteri iki durumdan birinin seçilmesinde kullanılır.
* **" * "** karakteri kendisinden önce bulunan karakterin tekrarlanan verilerini bulur. 0 kere de geçebilir 100 kere de geçebilir.
* **+** karakteri kendisinden önce bulunan karakterin tekrarlanan verilerini bulur. 1 kere de geçebilir 100 kere de geçebilir.
* **.** karakteri herhangi bir tek karakterin yerini tutar.
* **[ ]** karakteri içerisine belirli karakterler yazılır ve bu karakterler aranır. Örneğin;
    * [A-Z] A’dan Z’ye tüm BÜYÜK harfler.
    * [a-z] A’dan Z’ye tüm küçük harfler.
    * [0-9] 0’dan 9’a tüm rakamlar.
* **( )** karakteri gruplamam yapmak için kullanılır.
* **\s** metindeki boşluğu yakalar.
* **\S** metindeki boşluk dışında kalan alanları yakalar.
* **\d** metindeki rakamları (0-9) yakalar.
* **\D** metindeki rakam dışında kalan alanları yakalar. 

Bu yapıları uygulama yaparak inceleyelim.

In [1]:
import re

In [37]:
text1 = 'Telefon Numarası: 1235678912 E-posta: abC2@gmail.com'
text2 = 'Telefon Numarası: (123)-567-8912 E-posta: absdsd@mail.com'
text3 = 'Telefon Numarası: (349)-548-2531 E-posta: abC_456@gggggmail.com'
text4 = 'Telefon numaraları: 1235678912 (123)-567-8912 (349)-548-2531'
text5 = 'E-posta: abC2@gmail.com absdsd@mail.com abC_456@gggggmail.com abcd78@hotmail.com abc@xyz.io'

In [38]:
print(re.findall('\d{10}', text1))
# 10 karakterli rakamlardan oluşan veriyi listeler

['1235678912']


In [68]:
print(re.findall('\d{3}', text2))  # peşi sıra 3 karakterden oluşan rakamları listeler.
print(re.findall('\(\d{3}\)', text2))   # Parantez içerisinde peşisıra gelen 3 sayısal karakterli veriyi bulup listeler.
                                        # Burada parantezleri metakarakter olarak almaması için \ kullanılmıştır.
print(re.findall('\(\d{3}\)-\d{3}-\d{4}', text2))

print(re.findall('\d{10}|\(\d{3}\)-\d{3}-\d{4}', text4)) # Burada | ifadesini kullandık. Böylece her iki durumu da aradı.
print(re.findall('posta: ([a-z]+@g*mail\.[a-zA-z]*)', text2))

['123', '567', '891']
['(123)']
['(123)-567-8912']
['1235678912', '(123)-567-8912', '(349)-548-2531']
['absdsd@mail.com']


In [43]:
print(re.findall('[a-z0-9A-Z]*@', text5))
print(re.findall('[a-z0-9A-Z_]*@', text5))
print(re.findall('[a-z0-9A-Z_]*@[a-z0-9A-Z]*\.[a-zA-Z]', text5)) 
# Burada . karakterinden önce '\' karakteri koyduk çünkü '.' metakarakter olarak kullanılır. 
# Görevi bir karakterin yerine geçmektir. Bu anlam karmaşanın önüne geçmek için '\' karakteri konulur.
print(re.findall('[a-z0-9A-Z_]*@[a-z0-9A-Z]*\.[a-zA-Z]*', text5)) 
print(re.findall('@g*mail', text5)) # Burada g karakteri hiç geçmese de olur.
print(re.findall('@g+mail', text5)) # Burada g karakteri yoksa alınmaz en az 1 tane olmalıdır.

['abC2@', 'absdsd@', '456@', 'abcd78@', 'abc@']
['abC2@', 'absdsd@', 'abC_456@', 'abcd78@', 'abc@']
['abC2@gmail.c', 'absdsd@mail.c', 'abC_456@gggggmail.c', 'abcd78@hotmail.c', 'abc@xyz.i']
['abC2@gmail.com', 'absdsd@mail.com', 'abC_456@gggggmail.com', 'abcd78@hotmail.com', 'abc@xyz.io']
['@gmail', '@mail', '@gggggmail']
['@gmail', '@gggggmail']


> Burada yaptığım gibi sizlerde karakterler ile oynayarak karakterlerin iyice aklınıza oturmasını sağlayabilirisiniz.

In [72]:
text='''
Born Elon Reeve Musk
June 28, 1971 (age 50)
Pretoria, Transvaal, South Africa
Citizenship 
South Africa (1971–present)
Canada (1971–present)
United States (2002–present)
Education University of Pennsylvania (BS, BA)'''

In [73]:
def get_pattern_match(pattern, text):
    matches = re.findall(pattern, text)
    if matches:
        return matches[0]

In [74]:
def extract_personal_information(text):
    age = get_pattern_match('age (\d+)', text)
    full_name = get_pattern_match('Born(.*)\n', text)
    birth_date = get_pattern_match('Born.*\n(.*)\(age', text)
    birth_place = get_pattern_match('\(age.*\n(.*)', text)
    return {
        'age': int(age),
        'name': full_name.strip(),
        'birth_date': birth_date.strip(),
        'birth_place': birth_place.strip()
    }

In [75]:
extract_personal_information(text)

{'age': 50,
 'name': 'Elon Reeve Musk',
 'birth_date': 'June 28, 1971',
 'birth_place': 'Pretoria, Transvaal, South Africa'}

**Ayrıca https://regex101.com/ bu siteyi de incelemek isteyebilirsiniz.**