title, description, and image link scraper added

jhamadhav · jhamadhav · commit db61165db12e · 2021-04-13T11:04:10.000+05:30
diff --git a/.gitignore b/.gitignore
@@ -679,3 +679,4 @@ test.py
 Test/
 reddit_tokens.json
 scriptcopy.py
+.vscode
diff --git a/Link-Preview/linkPreview.py b/Link-Preview/linkPreview.py
@@ -1,18 +1,91 @@
 import requests
 from bs4 import BeautifulSoup
 
-url = 'https://www.girlscript.tech/'
-r = requests.get(url)
-soup = BeautifulSoup(r.text,"html.parser")
-# print(soup)
+# to scrape title
+
+
+def getTitle(soup):
+    ogTitle = soup.find("meta", property="og:title")
+
+    twitterTitle = soup.find("meta", attrs={"name": "twitter:title"})
+
+    documentTitle = soup.find("title")
+    h1Title = soup.find("h1")
+    h2Title = soup.find("h2")
+    pTitle = soup.find("p")
+
+    res = ogTitle or twitterTitle or documentTitle or h1Title or h2Title or pTitle
+    res = res.get_text() or res.get("content", None)
+
+    if (len(res) > 60):
+        res = res[0:60]
+    return res.strip()
+
+# to scrape page description
+
+
+def getDesc(soup):
+    ogDesc = soup.find("meta", property="og:description")
+
+    twitterDesc = soup.find("meta", attrs={"name": "twitter:description"})
+
+    metaDesc = soup.find("meta", attrs={"name": "description"})
+
+    pDesc = soup.find("p")
+
+    res = ogDesc or twitterDesc or metaDesc or pDesc
+    res = res.get_text() or res.get("content", None)
+    if (len(res) > 60):
+        res = res[0:60]
+    return res.strip()
 
-title = soup.find("meta", property = "og:title")
-description = soup.find("meta", property = "og:description")
-url = soup.find("meta", property = "og:url")
-img = soup.find("meta", property = "og:image")
+# to scrape image link
 
 
-print("Title : ", title.get("content", None))
-print("Description : ", description.get("content", None))
-print("URL : ", url.get("content", None))
-print("Image Link : ", img.get("content", None))
+def getImage(soup, url):
+    ogImg = soup.find("meta", property="og:image")
+
+    twitterImg = soup.find("meta", attrs={"name": "twitter:image"})
+
+    metaImg = soup.find("link", attrs={"rel": "img_src"})
+
+    img = soup.find("img")
+
+    res = ogImg or twitterImg or metaImg or img
+    res = res.get("content", None) or res.get_text() or res.get("src", None)
+
+    if ((not res == None) and ((not "https://" in res) or (not "https://" in res))):
+        res.replace(".", "")
+        if (not res[0] == "/"):
+            res = "/" + res
+        res = url + res
+    if (res == None):
+        res = "Not available"
+
+    return res
+
+
+# start
+print("\n======================")
+print("- Link Preview -")
+print("======================\n")
+
+# get url from user
+url = input("Enter URL to preview : ")
+
+# parsing and checking the url
+if (url == ""):
+    url = 'www.girlscript.tech'
+if ((not "http://" in url) or (not "https://" in url)):
+    url = "https://" + url
+
+# getting the html
+r = requests.get(url)
+soup = BeautifulSoup(r.text, "html.parser")
+
+# printing values
+print("\nTitle : ", getTitle(soup))
+print("Description : ", getDesc(soup))
+print("URL : ", url)
+print("Image link : ", getImage(soup, url))
+print("\n--END--\n")