# CHULETAS
# APIs

In [8]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Uso de API's
# -----------------------------------------------------------------------
import requests

# Importar librerías para procesamiento de texto
# -----------------------------------------------------------------------
import re

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [None]:
def llamar_api(url):
    """
    Realiza una llamada a una API utilizando la URL proporcionada.

    Parameters:
    -----------
    url (str): La URL de la API que se va a llamar.

    Returns:
    --------
    dict or None: Un diccionario con los datos de respuesta de la API si la llamada fue exitosa (código de estado 200).
                  None si la llamada falló o no se pudo autenticar correctamente.
    """
    llamada = requests.get(url)  # Realiza una solicitud GET a la URL proporcionada y almacena la respuesta en 'llamada'.

    print(f"La llamada a la API nos ha dado una respuesta de tipo: {llamada.status_code}")  # Imprime el código de estado de la respuesta.

    if llamada.status_code != 200:  # Comprueba si la respuesta no fue exitosa (código de estado distinto de 200).
        print(f"El motivo por el que la llamada falló es {llamada.reason}")  # Imprime la razón de la falla.
    else:
        return llamada.json()  # Si la llamada fue exitosa, devuelve los datos de respuesta en formato JSON.


# BEAUTIFUL SOUP

In [2]:
# antes de empezar importamos las librerías que vamos a usar. 
# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para manipulación y análisis de datos
# -----------------------------------------------------------------------
import pandas as pd

# Importar librerías para procesamiento de texto
# -----------------------------------------------------------------------
import re


In [3]:
# definimos la url de la página de la vamos a sacar datos
#ejemplo
url_moviles = "https://www.ebay.es/e/campanas/moviles-y-telefonia/moviles-y-smartphones/9355"

# hacemos la request a la página de la que queremos sacar la info
res_moviles = requests.get(url_moviles)

# vemos si todo ha ido bien
print("La respuesta de la petición es:", res_moviles.status_code)

La respuesta de la petición es: 200


In [None]:
# creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
sopa_moviles = BeautifulSoup(res_moviles.content, 'html.parser')

# mostramos por pantalla los resultados del objeto de Beautiful Soup. El método ".prettify()" nos ayuda a visualizar los resultados de una forma más amigable
print(sopa_moviles.prettify())

In [None]:
# sacamos los nombres de los moviles
lista_nombre_producto = sopa_moviles.find_all("h3", {"class": "s-item__title"})

# mostramos los resultados del método ".find_all()". Como dijimos al inicio este método nos va a devolver una lista
# Si lo exploramos un poco veremos que tenemos una lista de elemento y que tiene muchas cosas, pero si nos fijamos bien tenemos todos los nombres de los teléfonos que tenemos en la página web
print("El resultado del método '.find_all()' es: \n",   lista_nombre_producto)

# es el momento de sacar la información útil del método que hemos usado previamente. Para eso lo primero que vamos a hacer es crearnos una lista donde iremos almacenado los resultados que queremos
nombres_productos = []

# dado que es una lista lo que vamos a hacer es iterar por la lista para poder acceder a cada uno de los elementos
for i in lista_nombre_producto:
    # utilizamos el método ".getText()" para sacar el texto de cada uno de los elementos y lo apendeamos a la lista que hemos creado previamente. 
    nombres_productos.append(i.getText())

print("\n--------------------------\n")

print("Los resultados de extraer el texto de cada uno de los elementos es:\n", nombres_productos)

In [None]:
# convertir el diccionario en DataFrame
# usar el método pd.DataFrame(), que es uno de los métodos que más usaremos más a menudo durante estas lecciones
# esta tabla la almacenaremos en una variable llamada "df"

df = pd.DataFrame(todos_resultados_moviles)

# utilizaremos el método .head() para mostrar las 5 primeras filas del dataframe generado en el paso anterior
df.head()

# si queremos sacar las últimas filas del dataframe usaremos el método .tail()
df.tail()

# ¿cuántas filas y columnas tenemos en el dataframe? usaremos el método .shape
# fijaos que este método nos devuelve una tupla con dos elementos. 
# el PRIMERO de los elementos hace referencia al número de FILAS
# el SEGUNDO de los elementos hace referencia al número de COLUMNAS
df.shape

# ¿cuáles son los tipos de datos que tenemos en cada columna?
# para eso usaremos el método .dtypes
# 📌 NOTA: en Pandas los strings son mostrados como tipo "object"
df.dtypes

# en Pandas tenemos un método que aglutina toda la información que hemos visto hasta ahora, 
# ese método es el ".info()"
df.info()

# Pandas también nos permiten extraer los principales estadísticos de nuestro conjunto de datos. 
# usaremos el método ".describe()"
# es importante destacar que por defecto este método nos va a devolver los principales estadísticos de las variables de tipo numérico
df.describe().T

# si quisieramos saber cuales son los principales estadísticos de las variables categóricas tendremos que incluir un parámetro en el método ".describe()"
# este parámetro es el "include"
df.describe(include = "object").T

# nos puede interesar saber si tenemos valores nulos en nuestro conjunto de datos. 
# para eso tendremos que usar el método ".isnull()" 
df.isnull().sum()

df.duplicated().sum()

df.duplicated(subset = "precio").sum()

# SELENIUM

In [4]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.


In [None]:
# Inicializa el navegador Chrome
driver = webdriver.Chrome()

# Navega a la página web "http://www.adalab.es"
driver.get("http://www.adalab.es")

# Acepta las cookies haciendo clic en el elemento con el selector CSS "#wt-cli-accept-all-btn"
driver.find_element("css selector", "#wt-cli-accept-all-btn").click()

# Espera durante 5 segundos (esto puede ser útil para permitir que la página cargue completamente)
sleep(5)

# Captura una captura de pantalla de la página web actual y la guarda como "adalab.png"
driver.save_screenshot('adalab.png')

# Cierra el navegador
driver.close()

In [None]:
# Inicializa el navegador Chrome
driver = webdriver.Chrome()

# Navega a la página web "http://www.adalab.es"
driver.get("http://www.adalab.es")

driver.maximize_window()

sleep(2)
# Acepta las cookies haciendo clic en el elemento con el selector CSS "#wt-cli-accept-all-btn"
driver.find_element("css selector", "#wt-cli-accept-all-btn").click()

# Espera durante 5 segundos (esto puede ser útil para asegurarse de que la página se cargue completamente)
sleep(5)

# Busca un elemento en la página web que contenga el texto "BLOG" utilizando "link text" y hacemos click
driver.find_element("link text", 'BLOG').click()

sleep(5)

# entramos en el apartado de Sobre Data Analytics
driver.find_element("link text", 'Sobre Data Analytics').click()

# cerramos el navegador
driver.close()

# PIPI INSTAL 


In [None]:
#El comando pip install beautifulsoup4 se utiliza para instalar la biblioteca BeautifulSoup4 en tu entorno de Python. BeautifulSoup4 es una biblioteca popular de Python que se utiliza para extraer datos de HTML y XML de manera sencilla y eficiente. 
#Esta biblioteca facilita el análisis y la manipulación de datos web al proporcionar métodos poderosos para navegar y buscar elementos en documentos HTML/XML.

pip install beautifulsoup4


In [None]:
#El comando pip install requests se utiliza para instalar la biblioteca requests en tu entorno de Python. 
#La biblioteca requests es una herramienta popular y sencilla de usar para realizar solicitudes HTTP en Python, lo que la hace ideal para interactuar con servicios web y realizar tareas de web scraping, entre otras cosas.

pip install requests


In [None]:
#El comando pip install pandas se utiliza para instalar la biblioteca pandas en tu entorno de Python. 
#La biblioteca pandas es una poderosa herramienta de manipulación y análisis de datos en Python, ampliamente utilizada para trabajar con estructuras de datos tabulares y series temporales.

pip install pandas



In [None]:
#puedes utilizar el comando "pip show" seguido del nombre del paquete. Este comando te proporcionará detalles sobre la versión instalada, la ubicación de los archivos y otra información relevante sobre el paquete.