# Imports

In [10]:
import json
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from tqdm import tqdm
from bs4 import BeautifulSoup
import time

options = Options()
# options.headless = True
driver = webdriver.Chrome(executable_path="faq_data/chromedriver.exe", options=options)

In [14]:
help(driver)

Help on WebDriver in module selenium.webdriver.chrome.webdriver object:

class WebDriver(selenium.webdriver.remote.webdriver.WebDriver)
 |  WebDriver(executable_path='chromedriver', port=0, options=None, service_args=None, desired_capabilities=None, service_log_path=None, chrome_options=None, keep_alive=True)
 |  
 |  Controls the ChromeDriver and allows you to drive the browser.
 |  
 |  You will need to download the ChromeDriver executable from
 |  http://chromedriver.storage.googleapis.com/index.html
 |  
 |  Method resolution order:
 |      WebDriver
 |      selenium.webdriver.remote.webdriver.WebDriver
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __init__(self, executable_path='chromedriver', port=0, options=None, service_args=None, desired_capabilities=None, service_log_path=None, chrome_options=None, keep_alive=True)
 |      Creates a new instance of the chrome driver.
 |      
 |      Starts the service and then creates new instance of chrome driver.
 |      

In [11]:
driver.get("https://en.wikipedia.org/wiki/Phillip_Davey")

In [13]:
driver.find_element_by_xpath('//*[@id="firstHeading"]').text

'Phillip Davey'

In [4]:
with open("faq_data/disney_FAQ_URLs.json", 'r') as file:
    urls = json.load(file)

In [5]:
Areas = list(urls.keys())
Areas

['Disneyland Resort', 'Vacation Planning', 'Technical Support']

In [4]:
df = pd.DataFrame(columns=["area","section","question","answer"])

for Area in tqdm(Areas, desc="Areas"):
    sections = list(urls[Area].keys())
    for section in tqdm(sections, desc="Sections"):
        url = urls[Area][section]
        driver.get(url)
        
        # scroll down to element
        l= driver.find_element_by_xpath('//*[@id="gde_footerLegalContainer"]/div[2]')
        driver.execute_script("arguments[0].scrollIntoView(true);", l)
        
        # wait for 10 seconds for the page to load completely
        time.sleep(10)
        
        # get the question links
        ul = driver.find_element_by_xpath('//*[@id="pageContent"]/div[2]/div[1]/div[1]/div[2]/ul')
        qa_urls = ul.find_elements_by_tag_name('li')
        qa_urls = [qa_url.find_element_by_tag_name('a').get_attribute('href') for qa_url in qa_urls]

        for qa_url in tqdm(qa_urls, desc="Questions"):
            try:
                # open the question
                driver.get(qa_url)
                question = WebDriverWait(driver, 10).until(
                            EC.presence_of_element_located((
                                By.XPATH, 
                                '//*[@id="pageContent"]/div[2]/div[1]/div[1]/div[2]/div/div[1]/div[2]/p'
                                ))).text
                answer = driver.find_element_by_xpath('//*[@id="pageContent"]/div[2]/div[1]/div[1]/div[2]/div/div[2]/div[2]').text
                # add to df
                df.loc[len(df.index)] = [Area, section, question, answer] 
#                 print([Area, section, question])
                driver.back()
            except Exception as e:
                print(e)
                df.loc[len(df.index)] = ["None", "None", "None", "None"]
                continue
        backup_df = df
        backup_df.to_csv("faq_data/"+Area+"_"+section+".csv", index=False)
            
df.to_excel("faq_data/faqs.xlsx", index=False)

Areas:   0%|                                                                                                                                     | 0/3 [00:00<?, ?it/s]
Sections:   0%|                                                                                                                                 | 0/10 [00:00<?, ?it/s][A

Questions:   0%|                                                                                                                                | 0/47 [00:00<?, ?it/s][A[A

Questions:   2%|██▌                                                                                                                     | 1/47 [00:07<05:24,  7.05s/it][A[A

Questions:   4%|█████                                                                                                                   | 2/47 [00:16<05:43,  7.63s/it][A[A

Questions:   6%|███████▋                                                                                                               

Message: 





Questions:  53%|███████████████████████████████████████████████████████████████▎                                                       | 25/47 [03:22<03:10,  8.67s/it][A[A

Questions:  55%|█████████████████████████████████████████████████████████████████▊                                                     | 26/47 [03:28<02:47,  7.96s/it][A[A

Questions:  57%|████████████████████████████████████████████████████████████████████▎                                                  | 27/47 [03:35<02:34,  7.72s/it][A[A

Questions:  60%|██████████████████████████████████████████████████████████████████████▉                                                | 28/47 [03:42<02:19,  7.36s/it][A[A

Questions:  62%|█████████████████████████████████████████████████████████████████████████▍                                             | 29/47 [03:48<02:05,  6.95s/it][A[A

Questions:  64%|███████████████████████████████████████████████████████████████████████████▉                               

Message: 





Questions:  81%|████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 38/47 [04:51<01:09,  7.76s/it][A[A

Questions:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 39/47 [04:57<00:58,  7.30s/it][A[A

Questions:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 40/47 [05:04<00:50,  7.20s/it][A[A

Questions:  87%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 41/47 [05:12<00:43,  7.31s/it][A[A

Questions:  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 42/47 [05:18<00:34,  6.97s/it][A[A

Questions:  91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████

Message: 





Questions:  41%|█████████████████████████████████████████████████▍                                                                      | 7/17 [00:53<01:20,  8.05s/it][A[A

Questions:  47%|████████████████████████████████████████████████████████▍                                                               | 8/17 [00:59<01:07,  7.49s/it][A[A

Questions:  53%|███████████████████████████████████████████████████████████████▌                                                        | 9/17 [01:05<00:55,  6.94s/it][A[A

Questions:  59%|██████████████████████████████████████████████████████████████████████                                                 | 10/17 [01:12<00:48,  6.95s/it][A[A

Questions:  65%|█████████████████████████████████████████████████████████████████████████████                                          | 11/17 [01:18<00:39,  6.67s/it][A[A

Questions:  71%|████████████████████████████████████████████████████████████████████████████████████                       

Message: 





Questions:  70%|████████████████████████████████████████████████████████████████████████████████████                                    | 7/10 [00:59<00:25,  8.56s/it][A[A

Questions:  80%|████████████████████████████████████████████████████████████████████████████████████████████████                        | 8/10 [01:06<00:16,  8.25s/it][A[A

Questions:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 9/10 [01:12<00:07,  7.39s/it][A[A

Questions: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [01:17<00:00,  7.77s/it][A[A

Sections:  70%|████████████████████████████████████████████████████████████████████████████████████                                    | 7/10 [15:59<06:45, 135.16s/it][A

Questions:   0%|                                                                                                              

Message: 





Questions:  59%|██████████████████████████████████████████████████████████████████████▎                                                | 13/22 [01:50<01:31, 10.12s/it][A[A

Message: 





Questions:  64%|███████████████████████████████████████████████████████████████████████████▋                                           | 14/22 [01:56<01:09,  8.70s/it][A[A

Questions:  68%|█████████████████████████████████████████████████████████████████████████████████▏                                     | 15/22 [02:02<00:55,  7.97s/it][A[A

Questions:  73%|██████████████████████████████████████████████████████████████████████████████████████▌                                | 16/22 [02:07<00:41,  6.98s/it][A[A

Questions:  77%|███████████████████████████████████████████████████████████████████████████████████████████▉                           | 17/22 [02:11<00:30,  6.16s/it][A[A

Questions:  82%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 18/22 [02:16<00:22,  5.73s/it][A[A

Questions:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊    

Message: 





Questions:  52%|██████████████████████████████████████████████████████████████▎                                                        | 11/21 [01:24<01:29,  9.00s/it][A[A

Questions:  57%|████████████████████████████████████████████████████████████████████                                                   | 12/21 [01:33<01:18,  8.73s/it][A[A

Questions:  62%|█████████████████████████████████████████████████████████████████████████▋                                             | 13/21 [01:40<01:06,  8.26s/it][A[A

Questions:  67%|███████████████████████████████████████████████████████████████████████████████▎                                       | 14/21 [01:47<00:56,  8.08s/it][A[A

Questions:  71%|█████████████████████████████████████████████████████████████████████████████████████                                  | 15/21 [01:53<00:43,  7.27s/it][A[A

Questions:  76%|██████████████████████████████████████████████████████████████████████████████████████████▋                

Questions:  29%|██████████████████████████████████▎                                                                                     | 4/14 [00:29<01:14,  7.41s/it][A[A

Questions:  36%|██████████████████████████████████████████▊                                                                             | 5/14 [00:37<01:06,  7.43s/it][A[A

Questions:  43%|███████████████████████████████████████████████████▍                                                                    | 6/14 [00:51<01:15,  9.47s/it][A[A

Message: 





Questions:  50%|████████████████████████████████████████████████████████████                                                            | 7/14 [00:59<01:02,  8.92s/it][A[A

Questions:  57%|████████████████████████████████████████████████████████████████████▌                                                   | 8/14 [01:07<00:51,  8.65s/it][A[A

Questions:  64%|█████████████████████████████████████████████████████████████████████████████▏                                          | 9/14 [01:14<00:40,  8.12s/it][A[A

Questions:  71%|█████████████████████████████████████████████████████████████████████████████████████                                  | 10/14 [01:21<00:31,  7.98s/it][A[A

Questions:  79%|█████████████████████████████████████████████████████████████████████████████████████████████▌                         | 11/14 [01:30<00:24,  8.06s/it][A[A

Questions:  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████     

Message: 





Questions:  40%|████████████████████████████████████████████████                                                                        | 4/10 [00:43<01:08, 11.45s/it][A[A

Questions:  50%|████████████████████████████████████████████████████████████                                                            | 5/10 [00:50<00:50, 10.10s/it][A[A

Questions:  60%|████████████████████████████████████████████████████████████████████████                                                | 6/10 [01:04<00:45, 11.39s/it][A[A

Message: 





Questions:  70%|████████████████████████████████████████████████████████████████████████████████████                                    | 7/10 [01:19<00:37, 12.34s/it][A[A

Message: 





Questions:  80%|████████████████████████████████████████████████████████████████████████████████████████████████                        | 8/10 [01:26<00:21, 10.60s/it][A[A

Questions:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 9/10 [01:34<00:09,  9.86s/it][A[A

Questions: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [01:41<00:00, 10.17s/it][A[A

Sections: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [07:32<00:00, 90.47s/it][A
Areas: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [41:13<00:00, 824.53s/it]


In [6]:
df.tail(8)

Unnamed: 0,area,section,question,answer
284,,,,
285,Technical Support,Technical Help,Does disneyland.com have a policy on Internet ...,Yes. The best form of online safety begins at ...
286,Technical Support,Technical Help,Do you offer a version of disneyland.com for d...,Yes. Disneyland.com offers the following inter...
287,,,,
288,,,,
289,Technical Support,Technical Help,What web browser should I use when visiting di...,Disneyland.com is designed for optimal viewing...
290,Technical Support,Technical Help,How do I report a problem with disneyland.com?,Report a problem. We apologize for any difficu...
291,Technical Support,Technical Help,How do I find something specific on disneyland...,Looking for a specific piece of information ab...


In [5]:
backup_df = df
backup_df.tail()
backup_df.to_excel("faq_data/qna.xlsx", index=False)