## Webden İçerik Okuma
* `urllib.request`
    * `urlretrieve` ile dosya indiririz.
    * `urlopen` ile içeriği direkt okuyabiliriz. Content-Type neyse o şekilde okunur. HTML, json, binary vs. gelebilir.
* `request` ile `get` ve `post` talepleri oluşturabiliriz. Bu şekilde webden içerik talebinde bulunuyor webdeki bir kaynağa bilgi gönderebiliriz. Mesela web serviceler ile çalışabiliriz.
* `BeautifulSoup` webdeki (HTML, XML vs.) nesneleri python nesnesine çevirir.

In [13]:
from urllib.request import urlretrieve, urlopen

### urlretrieve

In [14]:
#webden içerik indirmek için kullanılır
urlretrieve(url="https://www.python.org/static/img/python-logo@2x.png", filename="./databases/python_logo.png")

('./databases/python_logo.png', <http.client.HTTPMessage at 0x1e8cd0f3d10>)

### urlopen

In [15]:
#Content-Type göre web içeriğini okumak için kullanılır
cevap = urlopen("https://www.python.org/jobs/") 
type(cevap) #http.client.HTTPResponse

#web sayfasının içeriğini okumak için kullanılır
print(cevap.info())

Connection: close
Content-Length: 73073
Content-Type: text/html; charset=utf-8
X-Frame-Options: SAMEORIGIN
Via: 1.1 varnish, 1.1 varnish
Accept-Ranges: bytes
Date: Tue, 04 Jun 2024 08:04:08 GMT
Age: 1286
X-Served-By: cache-iad-kcgs7200129-IAD, cache-fra-eddf8230126-FRA
X-Cache: HIT, HIT
X-Cache-Hits: 6, 1
X-Timer: S1717488248.019684,VS0,VE1
Vary: Cookie
Strict-Transport-Security: max-age=63072000; includeSubDomains; preload




In [16]:
#cevap.read() #bütün içeriği okur
#cevap.read(1000) #1000 karakter okur #byte string olarak döner
print(cevap.read(1000).decode("utf-8")) #1000 karakter okur #string olarak döner




<!doctype html>
<!--[if lt IE 7]>   <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9">   <![endif]-->
<!--[if IE 7]>      <html class="no-js ie7 lt-ie8 lt-ie9">          <![endif]-->
<!--[if IE 8]>      <html class="no-js ie8 lt-ie9">                 <![endif]-->
<!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr">  <!--<![endif]-->

<head>
    <!-- Google tag (gtag.js) -->
    <script async src="https://www.googletagmanager.com/gtag/js?id=G-TF35YF9CVH"></script>
    <script>
      window.dataLayer = window.dataLayer || [];
      function gtag(){dataLayer.push(arguments);}
      gtag('js', new Date());
      gtag('config', 'G-TF35YF9CVH');
    </script>
    <!-- Plausible.io analytics -->
    <script defer data-domain="python.org" src="https://plausible.io/js/script.js"></script>

    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <link rel="prefetch" href="//ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js">
    <link rel="prefetch

In [18]:
## resim ieriğini okuyalım.
cevap_resim = urlopen("https://www.python.org/static/img/python-logo@2x.png")

print(cevap_resim.info()) #Content-Type: image/png

#resim içeriğini değişkene alalım
resimBinary = cevap_resim.read()

Connection: close
Content-Length: 15770
Content-Type: image/png
Last-Modified: Thu, 09 May 2024 20:51:48 GMT
ETag: "663d3764-3d9a"
Cache-Control: max-age=604800, public
Via: 1.1 varnish, 1.1 varnish
Accept-Ranges: bytes
Date: Tue, 04 Jun 2024 08:05:37 GMT
Age: 405496
X-Served-By: cache-iad-kiad7000056-IAD, cache-fra-eddf8230045-FRA
X-Cache: HIT, HIT
X-Cache-Hits: 1609, 18
X-Timer: S1717488337.393468,VS0,VE0
Strict-Transport-Security: max-age=63072000; includeSubDomains; preload




In [19]:
#binarı içerği dosyaya kaydedlim
with open("./databases/python_logo2.png", "wb") as fh:
    fh.write(resimBinary)

#webden her istekte binary bilgi gelebilir. Bunları yukarıdaki yöntem ile okuyup dosyay yazdırabiliriz. ab+ ile dosyayı binary olarak açarız.

### `request` kütüphanesi ile get ve post işlemleri yapılabilir.
![alt text](get_post.png)

In [20]:
import requests

#### Get Yöntemi

In [25]:
cevap = requests.get("https://www.python.org/static/img/python-logo@2x.png")

In [26]:
cevap.status_code #200 #başarılıdır. 404 sayfa yok
#https://tr.wikipedia.org/wiki/HTTP_durum_kodlar%C4%B1

200

In [27]:
cevap.elapsed.total_seconds() #0.256 #saniye cinsinden geçen süre

0.249787

In [31]:
#cevap.content #binary içerik

#### Post Yöntemi

In [32]:
service_url = f"https://northeurope.api.cognitive.microsoft.com/text/analytics/v3.0/languages"

header = {
            "Content-Type":"application/json",
            "Ocp-Apim-Subscription-Key":"146bdc8d871747aa832ea87ab5d1ee86"
          }

In [42]:
metin = "Merhabalar günaydınlar"

#{'documents': [{'id': 0, 'text': 'How are u?'}]} şeklinde json oluşturacağız.
body_dict={"documents":[{"id":0, "text":metin}]}


#-------------------POST İŞLEMİ-------------------
#data kısmında object olarak gönderilebilir. veya json kısmında json.dumps ile gönderilebilir.
istek_post = requests.post(service_url, headers=header,data=str(body_dict).encode("utf-8")) #json=json.dumps(body_dict)

#
istek_post.status_code #200 başarılı
#istek_post.raise_for_status() #hata varsa hata fırlatır


#
cevap_dict = istek_post.json() #dict döndrürür #parse etmeye gerek yok.
#type(cevap_dict)

#
cevap_dict["documents"][0]["detectedLanguage"]["name"]#.__len__()

'Turkish'

### BeatifulSoup ile HTML Parse Etmek
* HTML sayfalarıdaki html etiketileri python nesnelerine çevirip işlem yapmamızı sağlar.
* `pip install beautifulsoup4`
* `from bs4 import BeautifulSoup`
  * http://crummy.com/software/BeautifulSoup
  * https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [43]:
from bs4 import BeautifulSoup

In [44]:
html_metin = urlopen("https://www.python.org/jobs/").read().decode("utf-8")

In [47]:
soup = BeautifulSoup(html_metin, "html.parser") #çeşitli parserlar var. html.parser, lxml, html5lib

type(soup) #bs4.BeautifulSoup
#dir(soup)

bs4.BeautifulSoup

### İlk Etikete Erişmek
* `nesne.altnesne.enaltnesne` bu yöntemle ilk bulduğunu getirir.
* `nesne.altnesne("enaltnesne")` ile bütün alt etiketleri getirir.

In [49]:
soup.title #<title>Python Job Board | Python.org</title>

<title>Python Job Board | Python.org</title>

In [51]:
soup.h2 #ilk bulduğu h2 etiket
soup.h2.string #h2 etiketi içerisindeki metin

'Get exploring!'

In [53]:
#ilk li etiketindeki ilk a etiketini bulalım
soup.li.a.string #sadece a'nın kendi metnini döndürür
soup.li.a.text   #a'nın ve onun altındaki tüm etiketlerin metnini döndürür

'Python'

In [63]:
soup.body.section.h2     #ilk h2 etiketini getirdi.
soup.body.section("h2")  #tüm h2 etiketlerini getirdi. liste döner
soup.body.section("h2")[:1] #gelen nesnelerden ilk 1 tanesini aldık.

[<h2 class="listing-company">
 <span class="listing-company-name">
 <span class="listing-new">New</span>
 <a href="/jobs/7601/">Full Stack Developer - Django &amp; Vue.js</a><br/>
 		    Strix Technologies
                 </span>
 <span class="listing-location"><a href="/jobs/location/remote-remote/" title="More jobs in Remote, Remote">Remote, Remote</a></span>
 </h2>]

In [None]:
#Soru:
#iş ilanlarını getirelim.
#https://www.python.org/jobs/
#<a href="/jobs/7601/">Full Stack Developer - Django &amp; Vue.js</a>
