# Scraping datos Últimos Ratios investing

In [66]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import time
import pandas as pd
from bs4 import BeautifulSoup




def get_ratios(tk):
    dfs = []
    # Configurar el navegador
    # chrome_options = Options()
    # chrome_options.add_argument("--headless")
    driver = webdriver.Chrome()
    try:
        # Abrir la URL
        url = f"https://es.investing.com/equities/{tk}-ratios"
        driver.get(url)

        # Esperar a que al menos una tabla esté presente
        
        wait = WebDriverWait(driver, 5)
        wait.until(EC.presence_of_element_located((By.TAG_NAME, "table")))

        # Obtener el HTML de la página
        page_html = driver.page_source

        # Parsear el HTML de la página con BeautifulSoup
        soup = BeautifulSoup(page_html, "html.parser")

        # Encontrar todas las tablas en la página
        tables = soup.find_all("table")

        # Procesar cada tabla
        for i, table in enumerate(tables):
            # Extraer las filas de la tabla
            rows = table.find_all("tr")
            data = []
            for row in rows:
                cells = row.find_all(["td", "th"])  # Buscar celdas (td) y encabezados (th)
                cell_texts = [cell.get_text(strip=True) for cell in cells]
                data.append(cell_texts)

            # Convertir los datos en un DataFrame de Pandas
            df = pd.DataFrame(data)
            dfs.append(df)
        print("exito al procesar!")

    except TimeoutException:
        print("Error: No se encontraron tablas en la página.")
    except Exception as e:
        print(f"Error: {e}")
    finally:
        # Cerrar el navegador
        driver.quit()
        time.sleep(5)
    return dfs

#### Procesamiento de datos capturados

In [67]:
def procesar_tab(df):
  titulos = ["indicador","Empresa","Industria","seccion"]

  result = pd.DataFrame()
   
  estructura = [
  {"seccion":"Ratios_valoración", "rubros":2,"valores":3},
  {"seccion":"Rentabilidad", "rubros":4,"valores":5},
  {"seccion":"Datos_por_acción", "rubros":6,"valores":7},
  {"seccion":"Eficacia_gestión", "rubros":8,"valores":9},
  {"seccion":"Crecimiento", "rubros":10,"valores":11},
  {"seccion":"Fuerza_financiera", "rubros":12,"valores":13},
  {"seccion":"Eficiencia", "rubros":14,"valores":15},
  {"seccion":"Dividendo", "rubros":16,"valores":17},

]
  for e in estructura:

    data =  pd.concat([df[e["rubros"]][1],df[e["valores"]]], axis=1)
    data["seccion"] = e["seccion"]
    data.columns = titulos
    data.replace("aa.aa",None,inplace=True)
    data.dropna(inplace=True, axis=1)
    result = pd.concat([result.reset_index(drop=True), data], axis=0)

    
  return result.set_index("indicador")

### Lista de Empresas

In [68]:
companies = [
  "apple-computer-inc",
  "microsoft-corp",
  "google-inc",
  "tesla-motors",
  "visa-inc",
  "berkshire-hathaway-inc",
  "johnson-johnson",
  "pfizer",
  "amazon-com-inc",
  "disney",
  "nike",
  "procter-gamble",
  "coca-cola-co",
  "chevron",
  "3m-co"
]

In [69]:
import os 
os.makedirs("ratios",exist_ok=True)
for company in companies:
  print(f"Procesando {company}")
  dfs = get_ratios(company)
  if len(dfs) > 1:
    df = procesar_tab(dfs)
    df["company"] = company
    df.to_csv(f"ratios/{company}.csv",encoding="utf-8-sig")
    print(f"Guardado {company}.csv")
  else:
    print(f"Error al procesar {company}")

Procesando apple-computer-inc
exito al procesar!
Guardado apple-computer-inc.csv
Procesando microsoft-corp
exito al procesar!
Guardado microsoft-corp.csv
Procesando google-inc
exito al procesar!
Guardado google-inc.csv
Procesando tesla-motors
exito al procesar!
Guardado tesla-motors.csv
Procesando visa-inc
exito al procesar!
Guardado visa-inc.csv
Procesando berkshire-hathaway-inc
exito al procesar!
Guardado berkshire-hathaway-inc.csv
Procesando johnson-johnson
exito al procesar!
Guardado johnson-johnson.csv
Procesando pfizer
exito al procesar!
Guardado pfizer.csv
Procesando amazon-com-inc
exito al procesar!
Guardado amazon-com-inc.csv
Procesando disney
exito al procesar!
Guardado disney.csv
Procesando nike
exito al procesar!
Guardado nike.csv
Procesando procter-gamble
exito al procesar!
Guardado procter-gamble.csv
Procesando coca-cola-co
exito al procesar!
Guardado coca-cola-co.csv
Procesando chevron
exito al procesar!
Guardado chevron.csv
Procesando 3m-co
exito al procesar!
Guardado 3