In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import csv
import time

# Configurar opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--start-maximized")  # Abrir el navegador en pantalla completa

# Conectar al navegador existente
driver = webdriver.Chrome(options=chrome_options)

try:
    # Navegar a Apollo.io
    driver.get("https://www.apollo.io")

    # Esperar hasta que el botón de login sea visible o hasta 10 segundos, lo que ocurra primero
    try:
        login_button = WebDriverWait(driver, 10).until(
            EC.visibility_of_element_located((By.XPATH, '/html/body/div[1]/div/div[2]/div[2]/div/div/div/div[3]/div[2]'))
        )

        # Verificar si el botón es clickeable
        clickable_button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, '/html/body/div[1]/div/div[2]/div[2]/div/div/div/div[3]/div[2]'))
        )
        clickable_button.click()
        print("El botón de login fue clickeado.")
    except Exception as e:
        print(f"No se pudo interactuar con el botón de login: {e}")

    # Esperar hasta 20 segundos o hasta que el input de correo sea visible, lo que ocurra primero
    try:
        email_input = WebDriverWait(driver, 20).until(
            EC.visibility_of_element_located((By.XPATH, '/html/body/div[2]/div/div[2]/div/div[1]/div/div[2]/div/div[2]/div/form/div[2]/div/div/input'))
        )
        email_input.send_keys("indira@pixiux.com")
        print("El correo fue ingresado.")

        # Esperar hasta que el input de contraseña sea visible o hasta 10 segundos, lo que ocurra primero
        password_input = WebDriverWait(driver, 10).until(
            EC.visibility_of_element_located((By.XPATH, '/html/body/div[2]/div/div[2]/div/div[1]/div/div[2]/div/div[2]/div/form/div[3]/div/div[1]/div/input'))
        )
        password_input.send_keys("E/Rw7W=V89JZi9$")
        print("La contraseña fue ingresada.")

        # Buscar y clickear el botón de inicio de sesión
        login_button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, '/html/body/div[2]/div/div[2]/div/div[1]/div/div[2]/div/div[2]/div/form/div[4]/button'))
        )
        login_button.click()
        print("El botón de login fue clickeado.")

    except Exception as e:
        print(f"No se pudo encontrar el input de correo, contraseña o botón de login")

finally:
    # Cerrar el navegador al finalizar
    print("Proceso completado.")


In [None]:
# Número de repeticiones del bucle
num_repeticiones = 100  # Cambiar este valor según sea necesario

# Crear el archivo CSV desde cero
with open('Resultados/Separados/apollo_accounts.csv', 'w', newline='', encoding='utf-8') as csvfile:
    csvwriter = csv.writer(csvfile)
    csvwriter.writerow(['Company', 'Employees', 'Company Location', 'Industry', 'Company URL'])  # Escribir el encabezado

    for i in range(num_repeticiones):
        try:
            # Esperar hasta que la tabla sea visible
            table = WebDriverWait(driver, 20).until(
                EC.visibility_of_element_located((By.XPATH, '/html/body/div[2]/div/div[2]/div[2]/div/div[2]/div/div/div[2]/div[2]/div/div[2]/div/div/div/div/div/div/div[2]/div/div[3]/div/div/div/div/div[2]/div/table'))
            )
            print("La tabla es visible.")
            
            time.sleep(3)

            # Obtener todas las filas de la tabla
            rows = table.find_elements(By.TAG_NAME, "tr")
            print(f"Se encontraron {len(rows)} filas en la tabla.")

            # Lista para almacenar filas de datos
            data = []

            # Obtener las columnas de la tabla para identificar los índices de "Company", "Employees", "Company Location" y "Industry"
            company_index = 0
            employees_index = 2
            location_index = 5
            industry_index = 3  # Nuevo índice para la columna "Industry"

            # Iterar sobre las filas de la tabla y guardar "Company", "Employees", "Company Location", "Industry" y el enlace URL de "Company"
            for row in rows:
                cells = row.find_elements(By.TAG_NAME, "td")
                if len(cells) > max(company_index, employees_index, location_index, industry_index):
                    company_name = cells[company_index].text.strip()
                    employees_count = cells[employees_index].text.strip()
                    company_location = cells[location_index].text.strip()
                    industry = cells[industry_index].text.strip()

                    # Obtener el enlace URL si existe en la columna "Company"
                    company_url_element = cells[company_index].find_element(By.TAG_NAME, "a")
                    company_url = company_url_element.get_attribute("href") if company_url_element else ""

                    data.append([company_name, employees_count, company_location, industry, company_url])

            # Escribir los datos en el archivo CSV
            csvwriter.writerows(data)
            print(f"Datos guardados en 'Resultados/Separados/apollo_accounts.csv' satisfactoriamente.")
            
            time.sleep(3)

            # Esperar hasta que el checkbox sea visible o hasta 10 segundos, lo que ocurra primero
            try:
                checkbox = WebDriverWait(driver, 10).until(
                    EC.element_to_be_clickable((By.XPATH, '/html/body/div[2]/div/div[2]/div[2]/div/div[2]/div/div/div[2]/div[2]/div/div[2]/div/div/div/div/div/div/div[2]/div/div[2]/div/div/div/div[1]/div[1]/div/button/div/div'))
                )

                # Clickear el checkbox
                checkbox.click()
                print("El checkbox fue clickeado.")
                
                time.sleep(3)

                # Esperar hasta que el enlace sea visible o hasta 20 segundos, lo que ocurra primero
                try:
                    link = WebDriverWait(driver, 20).until(
                        EC.element_to_be_clickable((By.XPATH, '/html/body/div[7]/div/div/div/div/div/a[1]'))
                    )

                    # Clickear el enlace
                    link.click()
                    print("El enlace fue clickeado.")

                    # Esperar hasta que el botón "Save" sea visible o hasta 20 segundos, lo que ocurra primero
                    try:
                        save_button = WebDriverWait(driver, 20).until(
                            EC.element_to_be_clickable((By.XPATH, '//*[@id="main-app"]/div[2]/div/div/div[2]/div[2]/div/div[2]/div/div/div/div/div/div/div[2]/div/div[2]/div/div/div/div[1]/div[3]/button[1]'))
                        )

                        # Esperar 3 segundos antes de hacer clic en el botón "Save"
                        time.sleep(3)
                        save_button.click()
                        print("El botón 'Save' fue clickeado.")

                        # Esperar hasta que el botón "Save Accounts" sea visible o hasta 20 segundos, lo que ocurra primero
                        try:
                            save_accounts_button = WebDriverWait(driver, 20).until(
                                EC.element_to_be_clickable((By.XPATH, '/html/body/div[8]/div[2]/div/div/div[3]/button'))
                            )

                            # Clickear el botón "Save Accounts"
                            save_accounts_button.click()
                            print("El botón 'Save Accounts' fue clickeado.")
                            
                            time.sleep(3)

                            # Esperar hasta que el botón de "Siguiente Página" sea visible o hasta 20 segundos, lo que ocurra primero
                            try:
                                next_page_button = WebDriverWait(driver, 20).until(
                                    EC.element_to_be_clickable((By.XPATH, '/html/body/div[2]/div/div[2]/div[2]/div/div[2]/div/div/div[2]/div[2]/div/div[2]/div/div/div/div/div/div/div[2]/div/div[3]/div/div/div/div/div[3]/div/div[2]/button[2]'))
                                )

                                # Clickear el botón de "Siguiente Página"
                                next_page_button.click()
                                print("El botón de 'Siguiente Página' fue clickeado.")
                                time.sleep(5)

                            except Exception as e:
                                print(f"No se pudo encontrar o clickear el botón de 'Siguiente Página'")
                                break  # Salir del bucle si no se puede clickear el botón de siguiente página

                        except Exception as e:
                            print(f"No se pudo encontrar o clickear el botón 'Save Accounts'")

                    except Exception as e:
                        print(f"No se pudo encontrar o clickear el botón 'Save'")

                except Exception as e:
                    print(f"No se pudo encontrar o clickear el enlace")

            except Exception as e:
                print(f"No se pudo encontrar o clickear el checkbox")

        except Exception as e:
            print(f"No se pudo encontrar la tabla")
            break  # Salir del bucle si no se puede encontrar la tabla

    # Cerrar el navegador al finalizar
    print("Proceso completado.")


In [1]:
import pandas as pd
import os

# Ruta de la carpeta donde están los archivos CSV
folder_path = 'Resultados/Separados/'

# Lista para almacenar los DataFrames de cada archivo CSV
all_data = []

# Itera sobre los archivos en la carpeta
for filename in os.listdir(folder_path):
    if filename.endswith('.csv'):
        file_path = os.path.join(folder_path, filename)
        # Lee cada archivo CSV y lo agrega a la lista
        df = pd.read_csv(file_path)
        all_data.append(df)
# Concatena todos los DataFrames en uno solo
combined_df = pd.concat(all_data, ignore_index=True)
# Ruta y nombre del archivo CSV combinado
combined_file_path = 'Resultados/Unidos/Apollo_Acounts_Full.csv'

# Guarda el DataFrame combinado en un nuevo archivo CSV
combined_df.to_csv(combined_file_path, index=False)


  combined_df = pd.concat(all_data, ignore_index=True)
