<div style="text-align:center">
<img style="width:300px" src="https://www.iudigital.edu.co/images/11.-IU-DIGITAL.png"/>
</div>

<br/>

<div style="text-align:center">
 <h2>Evidencia de aprendizaje 1. Análisis y herramientas de extracción de datos</h2>
</div>
<br/>
<div style="text-align:center">
 <h3>Edwin Alexander Ibarra Ortiz</h3>
 <h3>PREICA2402B020101</h3>
</div>
<br/>
<br/>

<div style="text-align:center">
 <h3>IU Digital de Antioquia</h3>
 <h3>Ingeniería de Software y Datos</h3>
 <h3>2024</h3>
</div>


## Introducción

En un mercado competitivo, una adecuada estrategia de precios es fundamental para captar y retener clientes. Este proyecto plantea el uso de técnicas de web scraping para obtener información en tiempo real sobre los precios de productos similares que ofrecen los competidores. A través de la recolección y análisis de datos de precios y características de productos en diversos sitios web, se busca optimizar la estrategia de precios de una compañía comercializadora al introducir nuevos artículos al mercado.

Con esta metodología, la empresa podrá acceder a información actualizada y eficiente sobre el comportamiento de precios, identificar tendencias, y hacer ajustes en sus propios precios para ganar competitividad. Este proceso permite, además, explorar otros factores que pueden influir en las decisiones de compra, tales como descuentos, reseñas y valoraciones de los usuarios, lo cual ofrece una visión integral del mercado.

El desarrollo de esta herramienta representa una oportunidad para implementar decisiones basadas en datos y mejorar la posición de la empresa en el sector, garantizando que los productos se mantengan atractivos y competitivos en relación con los de otras marcas.

## Descripción de la pagina y articulo a analizar

Para el desarrollo del proyecto se tomaran en cuenta tres paginas las cuales son: 
- Mercado Libre
- Alkomprar

El ideal es conseguir informacion detallada de los productos, como el precio, calificación, descripción y detalles del mismo

## Descripción del tema de interés que deseas desarrollar en la primera práctica.

En esta primera actividad, el objetivo es construir una funcionalidad básica que permita consultar de manera independiente diversas plataformas de comercio electrónico. Este desarrollo representa un primer acercamiento al Producto Mínimo Viable (MVP), que facilitará la recolección de datos clave, como precios y características de productos competidores, en un formato estructurado. Utilizando herramientas de web scraping, se busca obtener esta información en un formato estándar que sirva como base para análisis posteriores, asegurando flexibilidad y escalabilidad en futuras iteraciones del proyecto.

## Objetivos: formula los objetivos a partir de la siguiente pregunta: ¿por qué deseas analizar este artículo y la empresa de comercio?

### Objetivo general:

Desarrollar una plataforma que permita a la empresa de comercio ajustar sus estrategias de precios y posicionamiento en el mercado a partir de información actualizada sobre la competencia, facilitando la toma de decisiones basadas en datos.

### Objetivo especifico

- Implementar un sistema automatizado para recolectar y analizar datos de productos y precios en tiempo real desde diferentes plataformas de comercio electrónico.
- Proveer una herramienta que permita identificar y comparar productos similares, facilitando una estrategia de precios competitiva para la empresa.
- Asegurar la flexibilidad de la plataforma para incluir nuevas fuentes de datos y adaptarse a cambios en los sitios de la competencia, manteniendo la actualización continua de la información recopilada.

## Metodología empleada de scraping.

Para la recolección de datos de precios y características de productos en diversas plataformas de comercio electrónico, se utilizará Scrapy, un framework de Python diseñado para realizar scraping de manera eficiente y escalable.



In [44]:
from selenium.webdriver import Chrome
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time
import pandas as pd

Dado que la idea es buscar el mismo producto se debe consultar por código EAN en las diferentes plataformas y con esto siempre estaremos seguros de que estamos encontrando el mismo producto

In [45]:
codEan = '194252707166'

In [46]:
## Metodo para buscar en los nodos y evitar errores
def queryData(prod, selector, name):
    try:
        return prod.find_element(selector, name)
    except:
        return None

In [47]:
## Crear dataframe
df = pd.DataFrame(columns=['PLATAFORMA','NOMBRE', 'PRECIO', 'EAN', 'MARCA', 'IMAGEN', 'CALIFICACION', 'URL'])

In [48]:
service = Service(ChromeDriverManager().install())
option = webdriver.ChromeOptions()
option.add_argument("--headless")
driver = webdriver.Chrome(service=service, options=option)

#### CONSULTA EN ALKOSTO

In [49]:
driver.get(f"https://www.alkosto.com/search?text={codEan}")
time.sleep(5)
products = driver.find_elements(By.CSS_SELECTOR, ".product__list .product__item")
for product in products:
    title_element = queryData(product, By.CSS_SELECTOR, ".product__item__top__title")
    title = title_element.text if title_element else None
    price_element = queryData(product, By.CSS_SELECTOR, ".price")
    price = price_element.text if price_element else None
    marca_element = queryData(product, By.CSS_SELECTOR, ".product__item__top__brand")
    marca = marca_element.text if marca_element else None
    imagenProducto_element = queryData(product, By.TAG_NAME, "img")
    imagenProducto = imagenProducto_element.get_attribute("src") if imagenProducto_element else None
    rating_element = queryData(product, By.CSS_SELECTOR, ".averageNumber")
    rating = rating_element.text if rating_element else None
    linkProduct_element = queryData(product, By.CSS_SELECTOR, ".product__item__top__link")
    linkProduct = linkProduct_element.get_attribute("href") if linkProduct_element else None

    new_row = pd.DataFrame({'PLATAFORMA': ['ALKOSTO'],'NOMBRE': [title], 'PRECIO': [price], 'EAN': [codEan], 'MARCA': [marca], 'IMAGEN': [imagenProducto], 'CALIFICACION': [rating], 'URL': [linkProduct]})
    
    # Concatenar el DataFrame temporal con el DataFrame principal
    df = pd.concat([df, new_row], ignore_index=True)

    print(f"Title: {title} - Price: {price} - Marca: {marca} - Imagen: {imagenProducto}")

Title: iPhone 13 128GB Azul Medianoche - Price: $2.869.010 - Marca: None - Imagen: https://www.alkosto.com/medias/194252707166-001-310Wx310H?context=bWFzdGVyfGltYWdlc3wzNjY4fGltYWdlL3dlYnB8YURJeEwyZ3dZUzh4TkRNeE5qTTJOVEV4T1RVeE9DOHhPVFF5TlRJM01EY3hOalpmTURBeFh6TXhNRmQ0TXpFd1NBfGQyNTM0OWE4MGE1NDY3MTcwMmRhMTU5ZGE1ZjRiMjZhMTYxZjI3YTQyN2Y4MDQ4M2Y2NGZkMTg5NGI5YjE0MmE


#### Consulta en mercado libre

In [50]:
driver.get(f"https://listado.mercadolibre.com.co/{codEan}")
time.sleep(5)
products = driver.find_elements(By.CSS_SELECTOR, ".shops__layout-item")

for product in products:
    title_element = queryData(prod=product, selector= By.CSS_SELECTOR, name=".poly-component__title")
    title = title_element if title_element is None else title_element.text
    price_element = queryData(prod= queryData(prod=product, selector= By.CSS_SELECTOR, name=".poly-price__current"), selector= By.CSS_SELECTOR, name=".andes-money-amount__fraction")
    price = price_element if price_element is None else price_element.text
    marca = ""
    linkProduct_element = queryData(prod=product, selector= By.TAG_NAME, name="a")
    linkProduct = linkProduct_element if linkProduct_element is None else linkProduct_element.get_attribute("href")
    imagenProducto_element= queryData(prod=product, selector= By.TAG_NAME, name="img")
    imagenProducto = imagenProducto_element if imagenProducto_element is None else imagenProducto_element.get_attribute("src")
    rating_element = queryData(prod=product, selector= By.CSS_SELECTOR, name=".poly-reviews__rating")
    rating = rating_element if rating_element is None else rating_element.text

    new_row = pd.DataFrame({'PLATAFORMA': ['MERCADOLIBRE'],'NOMBRE': [title], 'PRECIO': [price], 'EAN': [codEan], 'MARCA': [marca], 'IMAGEN': [imagenProducto], 'CALIFICACION': [rating], 'URL': [linkProduct]})

    # Concatenar el DataFrame temporal con el DataFrame principal
    df = pd.concat([df, new_row], ignore_index=True)

    print(f"Title: {title} - Price: {price} - Marca: {marca} - Imagen: {imagenProducto}")

Title: Apple iPhone 13 (128 GB) - Rosa - Price: 2.411.800 - Marca:  - Imagen: https://http2.mlstatic.com/D_Q_NP_2X_654080-MLA47781882564_102021-V.webp
Title: Apple iPhone 11 (64 GB) - Negro - Price: 1.502.999 - Marca:  - Imagen: https://http2.mlstatic.com/D_Q_NP_2X_620960-MLU77638273465_072024-V.webp
Title: Apple iPhone 13 (128 GB) - Azul medianoche - Price: 2.411.800 - Marca:  - Imagen: https://http2.mlstatic.com/D_Q_NP_2X_973345-MLA47781591382_102021-V.webp
Title: Apple iPhone 13 (128 Gb) - Azul Medianoche - Price: 2.400.000 - Marca:  - Imagen: https://http2.mlstatic.com/D_Q_NP_2X_665631-MCO79432600504_092024-V.webp
Title: Apple iPhone 13 (128 GB) - Azul medianoche - Distribuidor Autorizado - Price: 3.033.900 - Marca:  - Imagen: data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7


In [51]:
driver.quit()

In [52]:
df.head()

Unnamed: 0,PLATAFORMA,NOMBRE,PRECIO,EAN,MARCA,IMAGEN,CALIFICACION,URL
0,ALKOSTO,iPhone 13 128GB Azul Medianoche,$2.869.010,194252707166,,https://www.alkosto.com/medias/194252707166-00...,4.9,https://www.alkosto.com/iphone13-128gb-azul-me...
1,MERCADOLIBRE,Apple iPhone 13 (128 GB) - Rosa,2.411.800,194252707166,,https://http2.mlstatic.com/D_Q_NP_2X_654080-ML...,4.8,https://www.mercadolibre.com.co/apple-iphone-1...
2,MERCADOLIBRE,Apple iPhone 11 (64 GB) - Negro,1.502.999,194252707166,,https://http2.mlstatic.com/D_Q_NP_2X_620960-ML...,4.8,https://www.mercadolibre.com.co/apple-iphone-1...
3,MERCADOLIBRE,Apple iPhone 13 (128 GB) - Azul medianoche,2.411.800,194252707166,,https://http2.mlstatic.com/D_Q_NP_2X_973345-ML...,4.8,https://www.mercadolibre.com.co/apple-iphone-1...
4,MERCADOLIBRE,Apple iPhone 13 (128 Gb) - Azul Medianoche,2.400.000,194252707166,,https://http2.mlstatic.com/D_Q_NP_2X_665631-MC...,,https://articulo.mercadolibre.com.co/MCO-14869...


In [55]:
df.to_csv('productos.csv', index=False)

## Resultados y conclusiones.

- Selenium permite conseguir el objetivo de consulta, sin embargo es notablemente lento, en comparacion con otras tecnologias. En particular he tenido la oportunidad de consultar datos de manera masiva para desarrollos de otras empresas y lo he realizado con puppeteer y siento que el proceso se hace más rápido.
- Algunos datos podrían ser conseguidos en las consultas, por ello es necesario hacer un hacer uso de estrategias de execpciones para que el aplicativo no reviente.
- Si bien Selenium demostró ser efectivo para la recolección de datos en sitios dinámicos, sería beneficioso combinarlo con un framework como Scrapy para un enfoque híbrido en futuros proyectos. Esto permitiría aprovechar la velocidad de Scrapy en los sitios que no requieren interacción dinámica, mejorando el rendimiento general y optimizando el uso de recursos.


## Bibliografía (Normas APA).

Selenium with Python. (n.d.). *Selenium with Python Documentation*. Retrieved November 2, 2024, from https://selenium-python.readthedocs.io/