## **Evidencia de aprendizaje 1. Análisis y herramientas de extracción de datos**

**Estudiante:** Andrés Camilo Arango Calle

**Docente:** Diego León Zapata Ruiz

**Curso:** Programación para Análisis de Datos

**Grupo:** PREICA2402B020100

**Programa:** Ingeniería de Software y Datos

**Facultad:** Ingenierías y Ciencias Agropecuarias

Institución Universitaria Digital de Antioquia

2024

In [None]:

# Instala la biblioteca BeautifulSoup para analizar HTML y XML.
!pip install beautifulsoup4

# Instala la biblioteca Selenium para automatizar navegadores web.
!pip install selenium

# Actualiza la lista de paquetes disponibles en el sistema.
!apt-get update

# Instala ChromeDriver para controlar el navegador Chromium con Selenium.
!apt install chromium-chromedriver

In [16]:
# Importa las bibliotecas necesarias.
from selenium import webdriver  # Para controlar el navegador web.
from selenium.webdriver.common.by import By  # Para localizar elementos en la página.
from bs4 import BeautifulSoup  # Para analizar el código HTML.
import time  # Para pausar la ejecución del código.
import requests  # Para hacer solicitudes HTTP.

# Configura las opciones del navegador Chrome.
options = webdriver.ChromeOptions()
options.add_argument('--headless')  # Ejecuta Chrome en modo sin cabeza (sin interfaz gráfica).
options.add_argument('--no-sandbox')  # Deshabilita el sandbox de seguridad (necesario en algunos entornos).
options.add_argument('--disable-dev-shm-usage')  # Deshabilita el uso de la memoria compartida /dev/shm (necesario en algunos entornos).

# Inicializa el controlador web de Chrome con las opciones especificadas.
driver = webdriver.Chrome(options=options)

## **BeautifulSoup**

In [17]:
# Define la URL del producto que se quiere scrapear.
url = 'https://articulo.mercadolibre.com.co/MCO-2582615272-camisetas-atletico-nacional-hombre-_JM#is_advertising=true&position=1&search_layout=grid&type=pad&tracking_id=44c38973-c8de-4717-ac8b-371eb4ab7d5d&is_advertising=true&ad_domain=VQCATCORE_LST&ad_position=1&ad_click_id=MDc1MDhjY2UtMWMwYi00YmQxLWE2ZDYtODQ2Y2FmMTJmMjI1'

# Obtiene el contenido HTML de la página usando la biblioteca requests.
response = requests.get(url)

# Crea un objeto BeautifulSoup para analizar el HTML.
soup = BeautifulSoup(response.content, 'html.parser')

# Extrae el nombre del producto.
nombre_producto = soup.find('h1', class_='ui-pdp-title').text.strip()

# Extrae el precio del producto.
precio = soup.find('span', class_='andes-money-amount__fraction').text.strip()

# Extrae la información de disponibilidad del producto.
disponibilidad = soup.find('div', class_='ui-pdp-buybox__quantity').text.strip()

# Extrae la URL de la imagen del producto.
imagen_url = soup.find('figure', class_='ui-pdp-gallery__figure').find('img')['src']

# Imprime la información extraída.
print(f'Nombre del producto: {nombre_producto}')
print(f'Precio: {precio}')
print(f'Disponibilidad: {disponibilidad}')
print(f'URL de la imagen: {imagen_url}')

Nombre del producto: Camisetas Atl√©tico Nacional Hombre
Precio: 75.000
Disponibilidad: ¬°√öltima disponible!
URL de la imagen: https://http2.mlstatic.com/D_NQ_NP_984029-MCO77813706724_072024-O.jpg


## **Selenium**

In [18]:
# URL del artículo en Mercado Libre
url = "https://articulo.mercadolibre.com.co/MCO-2582615272-camisetas-atletico-nacional-hombre-_JM#is_advertising=true&position=1&search_layout=grid&type=pad&tracking_id=5e267587-1c62-4b8e-9420-3a11c79d061a&is_advertising=true&ad_domain=VQCATCORE_LST&ad_position=1&ad_click_id=ZmQ0ZjdlM2EtMzJlYy00NzJhLTg4NTAtOTZiZTQ2MzgwYTM3"

# Abre la página del producto
driver.get(url)


In [31]:
# Extrae el título del producto utilizando el nombre de la clase CSS "ui-pdp-title".
titulo = driver.find_element(By.CLASS_NAME, "ui-pdp-title").text

# Extrae el precio del producto utilizando el nombre de la clase CSS "andes-money-amount__fraction".
precio = driver.find_element(By.CLASS_NAME, "andes-money-amount__fraction").text

# Extrae la descripción del producto utilizando el nombre de la clase CSS "ui-pdp-description".
descripcion = driver.find_element(By.CLASS_NAME, "ui-pdp-description").text

# Extrae la información de disponibilidad utilizando el nombre de la clase CSS "ui-pdp-buybox__quantity".
disponibilidad = driver.find_element(By.CLASS_NAME, "ui-pdp-buybox__quantity").text

# Extrae el subtítulo del producto utilizando el nombre de la clase CSS "ui-pdp-header__subtitle".
subtitulo = driver.find_element(By.CLASS_NAME, "ui-pdp-header__subtitle").text

# Muestra la información obtenida en la consola.
print(f"Producto: {titulo}")
print(f"Precio: {precio}")
print(f"Descripción: {descripcion}")
print(f"Disponibilidad: {disponibilidad}")
print(f"Subtítulo: {subtitulo}")




Producto: Camisetas Atlético Nacional Hombre
Precio: 75.000
Descripción: Descripción
Esta camiseta ha sido inspirada por las tendencias europeas de fútbol, y las clásicas rayas verticales. El escudo está cuidadosamente ubicado cerca del corazón¡ Dónde llevamos la pasión!
Disponibilidad: ¡Última disponible!
Subtítulo: Nuevo  |  +5 vendidos


## **Scrapy**

In [33]:
# Instala la librería Scrapy.
!pip install scrapy

Collecting scrapy
  Downloading Scrapy-2.11.2-py2.py3-none-any.whl.metadata (5.3 kB)
Collecting Twisted>=18.9.0 (from scrapy)
  Downloading twisted-24.10.0-py3-none-any.whl.metadata (20 kB)
Collecting cssselect>=0.9.1 (from scrapy)
  Downloading cssselect-1.2.0-py2.py3-none-any.whl.metadata (2.2 kB)
Collecting itemloaders>=1.0.1 (from scrapy)
  Downloading itemloaders-1.3.2-py3-none-any.whl.metadata (3.9 kB)
Collecting parsel>=1.5.0 (from scrapy)
  Downloading parsel-1.9.1-py2.py3-none-any.whl.metadata (11 kB)
Collecting queuelib>=1.4.2 (from scrapy)
  Downloading queuelib-1.7.0-py2.py3-none-any.whl.metadata (5.7 kB)
Collecting service-identity>=18.1.0 (from scrapy)
  Downloading service_identity-24.2.0-py3-none-any.whl.metadata (5.1 kB)
Collecting w3lib>=1.17.0 (from scrapy)
  Downloading w3lib-2.2.1-py3-none-any.whl.metadata (2.1 kB)
Collecting zope.interface>=5.1.0 (from scrapy)
  Downloading zope.interface-7.1.1-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_

In [37]:
# Crea un nuevo proyecto de Scrapy llamado "mercadolibre".
!scrapy startproject mercadolibre

New Scrapy project 'mercadolibre', using template directory '/usr/local/lib/python3.10/dist-packages/scrapy/templates/project', created in:
    /content/mercadolibre

You can start your first spider with:
    cd mercadolibre
    scrapy genspider example example.com


In [38]:
import scrapy  # Importa la librería Scrapy.

# Define la clase MercadolibreItem que hereda de scrapy.Item.
class MercadolibreItem(scrapy.Item):
    # Define los campos para almacenar la información extraída.
    nombre = scrapy.Field()  # Campo para el nombre del producto.
    precio = scrapy.Field()  # Campo para el precio del producto.
    vendedor = scrapy.Field()  # Campo para el nombre del vendedor.
    url = scrapy.Field()  # Campo para la URL del producto.

In [53]:
# Navega al directorio "mercadolibre" y ejecuta la araña "articulo" para extraer datos y guardarlos en "datos2.csv".
!cd mercadolibre && scrapy crawl articulo -o datos2.csv

2024-11-06 07:56:44 [scrapy.utils.log] INFO: Scrapy 2.11.2 started (bot: mercadolibre)
2024-11-06 07:56:44 [scrapy.utils.log] INFO: Versions: lxml 5.3.0.0, libxml2 2.12.9, cssselect 1.2.0, parsel 1.9.1, w3lib 2.2.1, Twisted 24.10.0, Python 3.10.12 (main, Sep 11 2024, 15:47:36) [GCC 11.4.0], pyOpenSSL 24.2.1 (OpenSSL 3.3.2 3 Sep 2024), cryptography 43.0.3, Platform Linux-6.1.85+-x86_64-with-glibc2.35
2024-11-06 07:56:44 [scrapy.addons] INFO: Enabled addons:
[]
2024-11-06 07:56:44 [asyncio] DEBUG: Using selector: EpollSelector
2024-11-06 07:56:44 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.asyncioreactor.AsyncioSelectorReactor
2024-11-06 07:56:44 [scrapy.utils.log] DEBUG: Using asyncio event loop: asyncio.unix_events._UnixSelectorEventLoop
2024-11-06 07:56:44 [scrapy.extensions.telnet] INFO: Telnet Password: 638481aa3b7fc3a9
2024-11-06 07:56:44 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
