# Comparación de precios de iPhones en Perú

Se utilizarán tecnicas de web scraping para conseguir información sobre las distintas tiendas.

Coders:
- Anchante Fernandez, Marcello
- Batalla Flores, Stephano

# Objetivos

- Determinar precios de 3 tiendas conocidas: Saga Falabella, Hiraoka y Mercado Libre.

## Resultados de iPhone's vendidos por Falabella

In [28]:
# En caso no contar con los paquetes
# !pip install bs4
# !pip install requests
# !pip install pandas
# !pip install pdfkit
# !pip install jinja2
# !pip install yagmail

In [2]:
from bs4 import BeautifulSoup
import re
import requests
import pandas as pd

In [3]:
def obtener_enlaces(url):
    content = requests.get(url).text
    soup = BeautifulSoup(content, 'html.parser')
    enlaces_similares = re.findall(r"https://www\.falabella\.com\.pe/falabella-pe/product/\w+", content)
    celulares_enlaces = list(set(enlaces_similares))
        
    return celulares_enlaces
    
    

In [4]:
celulares_enlaces = obtener_enlaces('https://www.falabella.com.pe/falabella-pe/category/cat760706/Celulares-y-Telefonos?sortBy=derived.price.search%2Cdesc&facetSelected=true&f.derived.variant.sellerId=FALABELLA&f.product.brandName=apple')

In [5]:
def precio(url):
 
    precios = []
    titulos = []
    marcas = []
    modelos = []
    capacidades = []
    ext = []

    for u in url:
        content = requests.get(u).text
        soup = BeautifulSoup(content, 'html.parser')
        
        titulo = soup.find('div', class_='jsx-1442607798')
        precio = soup.find('span', class_='copy17')

        if titulo and precio:
            titulos.append(titulo.text)
            precios.append(int(precio.text.replace(' ', '').replace(',', '').replace('S/','')))

            marca = 'Apple'
            modelo_match = re.search(r'iPhone\s([\w\s]+)\s\d+GB', titulo.text)
            modelo = modelo_match.group(1).strip() if modelo_match else ""
            capacidad_match = re.search(r'\d+GB', titulo.text)
            capacidad = capacidad_match.group(0) if capacidad_match else ""
            extras_match = re.search(r'\+\s*(.*)$', titulo.text)
            extras = extras_match.group(1).strip() if extras_match else "-"
            
            capacidad = re.sub(r'(\d+)(GB)', r'\1 \2', capacidad)

            marcas.append(marca)
            modelos.append('iPhone ' + modelo.lstrip().rstrip())
            capacidades.append(capacidad)
            ext.append(extras)
        
    tabla = pd.DataFrame({'Marca': marcas, 
                          'Modelo': modelos, 
                          'Capacidad': capacidades, 
                          'Extras': ext, 
                          'Precio (S/.)': precios, 
                          'Enlace':(celulares_enlaces),
                          'Tienda':'Falabella'})
    return tabla


In [6]:
falabella = precio(celulares_enlaces)
falabella

Unnamed: 0,Marca,Modelo,Capacidad,Extras,Precio (S/.),Enlace,Tienda
0,Apple,iPhone 14 Pro Max,128 GB,-,6299,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
1,Apple,iPhone 14,128 GB,-,4399,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
2,Apple,iPhone 14,256 GB,-,4899,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
3,Apple,iPhone 14 Pro,256 GB,-,5999,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
4,Apple,iPhone 14,128 GB,Audífonos AirPods 2nda Generación,5849,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
5,Apple,iPhone 11,64 GB,Case iPhone 11 Transparente,3299,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
6,Apple,iPhone 14,128 GB,Audífonos AirPods 2nda Generación,5849,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
7,Apple,iPhone 14 Pro,128 GB,-,5499,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
8,Apple,iPhone SE,64 GB,-,1499,https://www.falabella.com.pe/falabella-pe/prod...,Falabella
9,Apple,iPhone 13,256 GB,-,3799,https://www.falabella.com.pe/falabella-pe/prod...,Falabella


## Resultados de iPhone's vendidos por MercadoLibre

In [7]:
from bs4 import BeautifulSoup
import re
import requests
import pandas as pd

In [8]:
def tabla_mercadolibre(url):

    response = requests.get(url)
    soup = BeautifulSoup(response.text, "html.parser")

    product_list = soup.find_all("div", class_="ui-search-result__content-wrapper")
    resultados = soup.find_all('span', attrs={#'class':"andes-money-amount__fraction",
                                              #'aria-hidden':'true'
                                              'class':'andes-money-amount ui-search-price__part shops__price-part andes-money-amount--cents-superscript'})
    
    

    precios = []
    for resultado in resultados:
        precios.append(int(resultado.find_all('span', class_='andes-money-amount__fraction')[0].text.replace('.','')))
    

    mar = []
    mod = []
    cap = []
    col = []
        

    for product in product_list:

        name = product.find("h2", class_="ui-search-item__title").text.strip()
        
        marca = 'Apple'

        modelo = re.findall(r"(.*?)\s\(", name)
        if len(modelo) > 0:
            modelo = re.findall(r"(.*?)\s\(", name)[0]
        else: modelo = '-'

        capacidad = re.findall(r"\((.*?)\)",name)[0]
        color = re.findall(r"\-\s(.+)$",name)
        if len(color) > 0:
            color = re.findall(r"\-\s(.+)$", name)[0]
        else: color = 'No especificado'
        
        capacidad = re.sub(r'(\d+)\s*([gG]b)', r'\1 GB', capacidad)
        mar.append(marca)
        mod.append(modelo.replace('Apple ',''))
        cap.append(capacidad)
        col.append(color)
       
    # return mar, mod, cap, col, precios
    return pd.DataFrame({'Marca':mar,
                            'Modelo':mod,
                            'Capacidad':cap,
                            'Color':col,
                            'Precio (S/.)':precios,
                            'Tienda':'Mercado Libre'})

In [9]:
mercado_libre =(tabla_mercadolibre('https://listado.mercadolibre.com.pe/celulares-telefonos/celulares-smartphones/apple/nuevo/_Tienda_apple_af_to#unapplied_filter_id%3Dinstallments%26unapplied_filter_name%3DPago%26unapplied_value_id%3Dno_interest%26unapplied_value_name%3DSin+inter%C3%A9s%26unapplied_autoselect%3Dfalse'))
mercado_libre

Unnamed: 0,Marca,Modelo,Capacidad,Color,Precio (S/.),Tienda
0,Apple,iPhone 13,128 GB,Azul medianoche,3349,Mercado Libre
1,Apple,iPhone 13,128 GB,Blanco estelar,3349,Mercado Libre
2,Apple,iPhone 11,128 GB,Negro,2349,Mercado Libre
3,Apple,iPhone 14 Pro Max,256 GB,Morado oscuro,6299,Mercado Libre
4,Apple,iPhone 14 Pro Max,128 GB,Negro espacial,5699,Mercado Libre
5,Apple,iPhone 13,128 GB,Azul,3349,Mercado Libre
6,Apple,iPhone 11,128 GB,Blanco,2349,Mercado Libre
7,Apple,iPhone 14 Pro Max,256 GB,Negro espacial,6299,Mercado Libre
8,Apple,iPhone 14 Pro,128 GB,Morado oscuro,5299,Mercado Libre
9,Apple,iPhone 14 Pro Max,128 GB,Color oro,5699,Mercado Libre


## Resultados de iPhone's vendidos por Hiraoka

In [10]:
from bs4 import BeautifulSoup
import re
import requests
import pandas as pd

In [11]:
def tabla_hiraoka(url):
    content = requests.get(url).text
    soup = BeautifulSoup(content, 'html.parser')
    results = int(soup.find('span', class_='toolbar-number').text)
    pages = results//20 + 1
    urls = []
    for page in range(1,pages+1):
        urls.append(f'https://hiraoka.com.pe/apple-peru/iphone?p={page}')
    precios = []
    titles = []
    listas = []
    celular = []
    for url in urls:
        content = requests.get(url).text
        soup = BeautifulSoup(content, 'html.parser')
        prices = soup.find_all('span',attrs = {'data-price-type':'finalPrice'})
        titles.append(soup.find_all('a',class_='product-item-link'))
        for price in prices:
            precios.append(int(float(price.text.replace('S/ ','').replace(',',''))))

        
        content = requests.get(url).text
        soup = BeautifulSoup(content, 'html.parser')
        titles = soup.find_all('a',class_='product-item-link')

            
        for title in titles:
            listas.append(title.text.strip().replace('APPLE','Apple'))

        celular =  [elemento for elemento in listas if elemento != 'Apple']
        while '' in celular:
            celular.remove('')
        regex = r'^(.*?)\s(\d+\.\d+)\"\s(\d+GB)\s(.+)$'
        modelo = []
        capacidad= []
        color = []
        for item in celular:
            match = re.search(regex, item)
            if match:
                modelo.append(match.group(1))
                capacidad.append(match.group(3))
                color.append(match.group(4))
            capacidades = []
            for elemento in capacidad:
                capacidades.append(re.sub(r'(\d+)(GB)', r'\1 \2', elemento))
                
    hiraoka = pd.DataFrame({'Marca':'Apple',
                    'Modelo':modelo,
                    'Capacidad':capacidades,
                    'Color':color,
                    'Precio (S/.)':precios,
                    'Tienda':'Hiraoka'})
    return hiraoka

In [12]:
hiraoka = tabla_hiraoka('https://hiraoka.com.pe/apple-peru/iphone')
hiraoka

Unnamed: 0,Marca,Modelo,Capacidad,Color,Precio (S/.),Tienda
0,Apple,iPhone 11,64 GB,Blanco,2099,Hiraoka
1,Apple,iPhone 14 Plus,256 GB,Blanco Estelar,6299,Hiraoka
2,Apple,iPhone 14 Plus,256 GB,Morado,6299,Hiraoka
3,Apple,iPhone 11,64 GB,4GB RAM Negro,2099,Hiraoka
4,Apple,iPhone 11,128 GB,Blanco,2399,Hiraoka
5,Apple,iPhone 11,128 GB,Negro,2399,Hiraoka
6,Apple,iPhone 13,256 GB,Azul,5799,Hiraoka
7,Apple,iPhone 13,256 GB,Verde,4399,Hiraoka
8,Apple,iPhone 14,128 GB,Blanco Estelar,4999,Hiraoka
9,Apple,iPhone 14,128 GB,Medianoche,4999,Hiraoka


## Exportando cada tabla

In [13]:
falabella.to_csv('iPhones_Falabella.csv', index=False)

mercado_libre.to_csv('iPhones_Mercado_Libre.csv', index=False)

hiraoka.to_csv('iPhones_Hiraoka.csv', index=False)

In [14]:
precios_iphone = pd.concat([mercado_libre,hiraoka,falabella]).iloc[:,:7].reset_index().drop('index', axis = 1)
precios_iphone['Color'] = precios_iphone['Color'].fillna('No especificado')
precios_iphone['Extras'] = precios_iphone['Extras'].fillna('-')

In [15]:
precios_iphone.to_csv('iPhones_Tiendas.csv',index=False)

## Filtrando iPhones

In [16]:
precios_iphone[precios_iphone['Modelo'] == 'iPhone 14']

Unnamed: 0,Marca,Modelo,Capacidad,Color,Precio (S/.),Tienda,Extras
10,Apple,iPhone 14,128 GB,Morado,4299,Mercado Libre,-
33,Apple,iPhone 14,128 GB,No especificado,4299,Mercado Libre,-
51,Apple,iPhone 14,128 GB,Blanco Estelar,4999,Hiraoka,-
52,Apple,iPhone 14,128 GB,Medianoche,4999,Hiraoka,-
53,Apple,iPhone 14,128 GB,Azul,3899,Hiraoka,-
61,Apple,iPhone 14,256 GB,Medianoche,5599,Hiraoka,-
68,Apple,iPhone 14,256 GB,Blanco Estelar,5599,Hiraoka,-
71,Apple,iPhone 14,128 GB,No especificado,4399,Falabella,-
72,Apple,iPhone 14,256 GB,No especificado,4899,Falabella,-
74,Apple,iPhone 14,128 GB,No especificado,5849,Falabella,Audífonos AirPods 2nda Generación


In [17]:
# Buscador de filas

# Este buscador nos permite buscar similar a los caracteres escritos.

def buscar_filas(busqueda, dataframe):
    resultado = dataframe[dataframe.apply(lambda row: row.astype(str).str.contains(busqueda, case=False).any(), axis=1)]
    return resultado


In [18]:
buscar_filas(busqueda = input('Modelo de iPhone'), dataframe= precios_iphone)

Unnamed: 0,Marca,Modelo,Capacidad,Color,Precio (S/.),Tienda,Extras
3,Apple,iPhone 14 Pro Max,256 GB,Morado oscuro,6299,Mercado Libre,-
4,Apple,iPhone 14 Pro Max,128 GB,Negro espacial,5699,Mercado Libre,-
7,Apple,iPhone 14 Pro Max,256 GB,Negro espacial,6299,Mercado Libre,-
8,Apple,iPhone 14 Pro,128 GB,Morado oscuro,5299,Mercado Libre,-
9,Apple,iPhone 14 Pro Max,128 GB,Color oro,5699,Mercado Libre,-
10,Apple,iPhone 14,128 GB,Morado,4299,Mercado Libre,-
11,Apple,iPhone 14 Pro,128 GB,Negro espacial,5299,Mercado Libre,-
13,Apple,iPhone 14 Pro Max,128 GB,Color plata,5699,Mercado Libre,-
14,Apple,iPhone 14 Pro,128 GB,Color oro,5299,Mercado Libre,-
15,Apple,iPhone 14 Pro Max,256 GB,Color plata,6299,Mercado Libre,-


In [19]:
precios_iphone[precios_iphone['Modelo'] == input('Modelo de iPhone')].sort_values('Precio (S/.)')

Unnamed: 0,Marca,Modelo,Capacidad,Color,Precio (S/.),Tienda,Extras
53,Apple,iPhone 14,128 GB,Azul,3899,Hiraoka,-
10,Apple,iPhone 14,128 GB,Morado,4299,Mercado Libre,-
33,Apple,iPhone 14,128 GB,No especificado,4299,Mercado Libre,-
71,Apple,iPhone 14,128 GB,No especificado,4399,Falabella,-
72,Apple,iPhone 14,256 GB,No especificado,4899,Falabella,-
51,Apple,iPhone 14,128 GB,Blanco Estelar,4999,Hiraoka,-
52,Apple,iPhone 14,128 GB,Medianoche,4999,Hiraoka,-
61,Apple,iPhone 14,256 GB,Medianoche,5599,Hiraoka,-
68,Apple,iPhone 14,256 GB,Blanco Estelar,5599,Hiraoka,-
74,Apple,iPhone 14,128 GB,No especificado,5849,Falabella,Audífonos AirPods 2nda Generación


## Presupuestando un iPhone

In [20]:
def presupuesto(df, max=10000, min=0, asc = True, busqueda = 'iPhone'):
    df1 = df[df['Precio (S/.)']>= min]
    df2 = df1[df1['Precio (S/.)'] <= max].sort_values('Precio (S/.)', ascending = asc)

    resultado = df2[df2.apply(lambda row: row.astype(str).str.contains(busqueda, case=False).any(), axis=1)]
    
    return resultado

In [21]:
max=int(input('Valor Máximo'))
min=int(input('Valor mínimo'))
asc = bool(input('Orden ascedente= True or False'))
busqueda=input('Modelo de iPhone')

df = presupuesto(precios_iphone, max=max, min=min, asc = asc, busqueda=busqueda)

df.to_csv('preferencias.csv',index=False)



In [22]:
df

Unnamed: 0,Marca,Modelo,Capacidad,Color,Precio (S/.),Tienda,Extras
53,Apple,iPhone 14,128 GB,Azul,3899,Hiraoka,-
33,Apple,iPhone 14,128 GB,No especificado,4299,Mercado Libre,-
10,Apple,iPhone 14,128 GB,Morado,4299,Mercado Libre,-
17,Apple,iPhone 14 Plus,128 GB,Blanco estelar,4299,Mercado Libre,-
18,Apple,iPhone 14 Plus,128 GB,Azul,4299,Mercado Libre,-
19,Apple,iPhone 14 Plus,128 GB,(PRODUCT)RED,4299,Mercado Libre,-
35,Apple,iPhone 14 Plus,128 GB,No especificado,4299,Mercado Libre,-
71,Apple,iPhone 14,128 GB,No especificado,4399,Falabella,-


## Creando un reporte PDF

In [26]:
import pdfkit
import jinja2


# Valores para las variables del título
modelo_seleccionado = busqueda
minimo = min
maximo = max

# Estableciendo el HTML
template_html = '''
<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <link rel="stylesheet">
    <style>
        body {
            display: flex;
            align-items: center;
            justify-content: center;
            min-height: 100vh;
            background: linear-gradient(#b7328d);
        }
        table {
            border-collapse: collapse;
            width: 100%;
        
        }
        th, td {
            border: 1px solid black;
            padding: 8px;
            text-align: center;
        }
    </style>
</head>
<body>
    <h1>Resultado de {{modelo_seleccionado}} entre S/. {{minimo}} y S/. {{maximo}}</h1>
    <table>
        <tr>
            {% for col in df.columns %}
                <th>{{ col }}</th>
            {% endfor %}
        </tr>
        {% for _, row in df.iterrows() %}
            <tr>
                {% for value in row %}
                    <td>{{ value }}</td>
                {% endfor %}
            </tr>
        {% endfor %}
    </table>
</body>
</html>
'''

# Generando el HTML a partir de la plantilla con los valores de las variables
jinja_template = jinja2.Template(template_html)
html_content = jinja_template.render(df=df, modelo_seleccionado=modelo_seleccionado, minimo=minimo, maximo=maximo)

# Generando el PDF
output_pdf = f'Reporte de {busqueda}.pdf'

wkhtmltopdf_path = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe'

# Configuración de pdfkit
options = {
    'page-size': 'A4',
    'margin-top': '10mm',
    'margin-right': '10mm',
    'margin-bottom': '10mm',
    'margin-left': '10mm'
}

# Generar el PDF proporcionando la ruta del ejecutable y las opciones de configuración
pdfkit.from_string(html_content, output_pdf, configuration=pdfkit.configuration(wkhtmltopdf=wkhtmltopdf_path), options=options)

print(f'Se ha creado el documento PDF: {output_pdf}')


Se ha creado el documento PDF: Reporte de iPhone 14.pdf


## Enviando el reporte por email

In [31]:
import yagmail

email = 'maaf162125@gmail.com'
contraseña = 'ofojwaxwhymqgcsk'

yag = yagmail.SMTP(user=email, password=contraseña)

destinatario = input('Introduce el destinatario')
asunto = f'Resultados de búsqueda de {busqueda} entre S/. {min} y S/. {max}'

mensaje = '''Esto son los resultados. 

Disfrútalos😁😁😁'''

archivo = output_pdf

yag.send(destinatario, asunto, [mensaje], attachments=[archivo])

print(f'Correo enviado satisfactoriamente a {destinatario}')


Correo enviado satisfactoriamente a 20211804@lamolina.edu.pe
