## Regex ile Metinsel Çalışmalar
* `ìmport re` kütüphanesi ile bir patern (regular expression) vererek metinsel veriler üzerinde işlemler yapabiliriz.
* 12 karekter ile regular expressionlar tanımlanabilir.
  * mesela mail adresi formatını regex ile ifade edebiliriz: `r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'`
* Faydalı linkler:
  * https://www.regular-expressions.info/ 
  * https://regexr.com/

In [26]:
import re

In [27]:
metin = """
Merhaba

Herhangi bir soru olursa abdullahkise@hotmail.com adresinden benimle iletişime geçebilirsiniz. 
Eğer ulaşamazsanız abdullahkise@gmail.com adresimi kullanabilirsiniz.

Sağlıklı günler dilerim,

Kise
"""

mail_pattern = r"([\w\.-]+)@[\w\.-]+" #raw string

#### re fonksiyonları:
* `re.search()`: geriye bir Match nesnesi dönrür. `re.Match` ile üretilebilirdi. Burada eşleşme bilgileri var.
* `re.findall()`: bulduğu metinleri liste olarak döndürür.
* `re.split()`:belirtilen expressiona uyan metni ayraç olarak kullanır.

##### search

In [28]:
sonuc_match = re.search(mail_pattern, metin)

#
sonuc_match

#bulunanın pozisyonu
sonuc_match.start()
sonuc_match.end()

#
sonuc_match.string #tüm metin
sonuc_match.groups() #() ile belirtilen grupları getirir 
#
sonuc_match.group(0) #abdullahkise@hotmail.com
sonuc_match.group(1) #abdullahkise

'abdullahkise'

##### match

In [29]:
m = re.match(r"(\d+).(\d+)","24.162")

#
m.groups()

#
m.group(0) #"24.162"

m.group(1) #24
m.group(2) #162

'162'

In [30]:
#örn:
m = re.match(r"www\.(.*)\..{3}","www.python.org")

m.groups()

m.group(0) #"www.python.org"
m.group(1) #"python"

'python'

##### findall

In [31]:
re.findall(r"[\w\.-]+@[\w\.-]+", metin)

['abdullahkise@hotmail.com', 'abdullahkise@gmail.com']

##### split

In [32]:
degisenBoslukluMetin = "Ali 22    Güvenlik            İstanbul"

re.split("\s+",degisenBoslukluMetin) #\s+ boşluk karakterinden bir veya daha fazla olabilir. bunu ayraç olarak alarak metni parçaladık

['Ali', '22', 'Güvenlik', 'İstanbul']

In [33]:
#soru:
metin = "Ali,,,, Veli,,,...... Dursun ...,,,...Ayşe!"

#1.sadece isimleri alalım
re.findall(r"\w+",metin)
#re.findall(r"[a-zA-Z]+",metin)

#2. tüm noktalama işaretleri alalım
re.findall(r"\W+",metin)
re.findall(r'[\.,"!]+',metin)

#3.belirttiğimiz işarelere göre parçalayalım.
re.split(r"[,\.\s]+",metin)

['Ali', 'Veli', 'Dursun', 'Ayşe!']

### Compile ile paterni hazır edip gerekli yerde kullanabiliriz.
* `compile` ile önce patern oluşturabiliriz daha sora bu parneti bir çok yerde kullanabiliriz.

In [34]:
#örn:
#sadece izin verilen karekterler mi kullanıldı bakalım.
metin = "merhaba!" #! izin verilen karekter değil.

ptrn = re.compile(r"[^a-zA-Z0-9]") #harfler ve sayılar dışındakiler

bulunan_match = ptrn.search(metin) #match nesnesi döner.

#paterne uyan yani izinlerinelerin dışında olan karekte varsa match nenesi döner yoksa None döner.
"İzin verilenlerin dışında karekter kullanıldı" if bulunan_match else "Sadece izin verilenler kullanıldı" 

'İzin verilenlerin dışında karekter kullanıldı'

In [None]:
#örn:
#meslekleri çekelim.
from urllib.request import  urlopen

cevap = urlopen("https://www.python.org/jobs/")
#cevap.info().get_content_charset()
html_metin = cevap.read().decode("UTF-8") #varsayılan olarak utf-8


#<a href="/jobs/6234/">Senior Application Developer</a>
ptrn_meslek = re.compile('<a href="(/jobs/\d+/)">(.*?)</a>')

#
meslekler = ptrn_meslek.findall(html_metin)

#
for meslek in meslekler:
    print(meslek[1])