kevinzg · kevinzg · Nov 8, 2020 · Nov 5, 2020 · Nov 5, 2020 · Nov 6, 2020
diff --git a/facebook_scraper/extractors.py b/facebook_scraper/extractors.py
@@ -203,6 +203,12 @@ def extract_time(self) -> PartialPost:
             except (KeyError, ValueError):
                 continue
 
+        date = utils.parse_datetime(element_full_text=self.element.full_text)
+        if date:
+            return {
+                'time': date
+            }
+
         return None
 
     def extract_user_id(self) -> PartialPost:

diff --git a/facebook_scraper/utils.py b/facebook_scraper/utils.py
@@ -1,7 +1,10 @@
 import codecs
 import re
+from datetime import datetime
+from typing import Optional
 from urllib.parse import parse_qsl, unquote, urlencode, urljoin, urlparse, urlunparse
 
+import dateparser
 from html2text import html2text as _html2text
 from requests_html import DEFAULT_URL, Element, PyQuery
 
@@ -43,3 +46,36 @@ def make_html_element(html: str, url=DEFAULT_URL) -> Element:
 
 def html2text(html: str) -> str:
     return _html2text(html)
+
+
+month = r"Jan(?:uary)?|" \
+        r"Feb(?:ruary)?|" \
+        r"Mar(?:ch)?|" \
+        r"Apr(?:il)?|" \
+        r"May|" \
+        r"Jun(?:e)?|" \
+        r"Jul(?:y)?|" \
+        r"Aug(?:ust)?|" \
+        r"Sep(?:tember)?|" \
+        r"Oct(?:ober)?|" \
+        r"Nov(?:ember)?|" \
+        r"Dec(?:ember)?|" \
+        r"Yesterday|" \
+        r"Today"
+date = f"({month}) " + r"\d{1,2}"
+hour = r"\d{1,2}"
+minute = r"\d{2}"
+period = r"AM|PM"
+exact_time = f"({date}) at {hour}:{minute} ({period})"
-exact_time = f"({date}) at {hour}:{minute} ({period})"
+exact_time = f"(?:{date}) at {hour}:{minute} (?:{period})"
-exact_time = f"({date}) at {hour}:{minute} ({period})"
+exact_time = f"(?:{date}) at {hour}:{minute} (?:{period})"
+relative_time = r"\d{1,2} \w+"
-relative_time = r"\d{1,2} \w+"
+relative_time = r"\b\d{1,2}(?:h| hrs)"
-relative_time = r"\d{1,2} \w+"
+relative_time = r"\b\d{1,2}(?:h| hrs)"
+
+datetime_regex = re.compile(fr"({exact_time}|{relative_time})")
+
+
+def parse_datetime(element_full_text: str) -> Optional[datetime]:
+    time_match = datetime_regex.search(element_full_text)
+    if time_match:
+        time = time_match.group(0)
+        return dateparser.parse(time)
+    else:
+        return None
diff --git a/requirements-dev.txt b/requirements-dev.txt
@@ -223,3 +223,4 @@ yarl==1.4.2; python_version >= "3.6" \
 zipp==3.1.0; python_version < "3.8" \
     --hash=sha256:aa36550ff0c0b7ef7fa639055d797116ee891440eac1a56f378e2d3179e0320b \
     --hash=sha256:c599e4d75c98f6798c509911d08a22e6c021d074469042177c8c86fb92eefd96
+dateparser~=1.0.0
diff --git a/requirements.txt b/requirements.txt
@@ -92,3 +92,7 @@ websockets==8.0.2 \
     --hash=sha256:f5cb2683367e32da6a256b60929a3af9c29c212b5091cf5bace9358d03011bf5 \
     --hash=sha256:049e694abe33f8a1d99969fee7bfc0ae6761f7fd5f297c58ea933b27dd6805f2 \
     --hash=sha256:882a7266fa867a2ebb2c0baaa0f9159cabf131cf18c1b4270d79ad42f9208dc5
+
+html2text~=2020.1.16
+requests~=2.24.0
+dateparser~=1.0.0