Este notebook está vinculado al caso de estudio "Yapo" (ver el [documento](https://docs.google.com/document/d/1SwhwMOyG7-cmzasDeisQZ_NzX5v2VoZ7--lI4UhJz_U/edit#heading=h.5qaqs0frqkx4) de presentación). Se busca construir una base de datos de anuncios en Los Rios recopilando algunos anuncios de Yapo.cl.


# 1. Construcción de la base de datos

In [2]:
import mysql.connector 

db_connection = mysql.connector.connect(user="root",host="localhost",password=password)
cursor = db_connection.cursor()

In [104]:
cursor.execute("DROP DATABASE Yapo;")

In [105]:
cursor.execute("CREATE DATABASE Yapo;")
cursor.execute("USE Yapo")

#tabla vendedor
cursor.execute("CREATE TABLE vendedor ("+
               "nombre VARCHAR(100) PRIMARY KEY, ciudad VARCHAR(30), codigo_region VARCHAR(3), "+
               "nombre_region VARCHAR(30), "+
               "fecha_inscripcion DATE)")

#tabla anuncio
cursor.execute("CREATE TABLE anuncio (url VARCHAR(300) PRIMARY KEY, "+
               "titulo VARCHAR(200), descripcion MEDIUMTEXT, precio VARCHAR(30), categoria VARCHAR(50), "
               +"nombre VARCHAR(100), FOREIGN KEY (nombre) REFERENCES vendedor(nombre))")

# 2. Scrapping de datos para llenar nuestra base de datos Yapo

In [106]:
from urllib.request import urlopen as uReq
import urllib.request

from bs4 import BeautifulSoup as soup
from selenium import webdriver
import time

Con la librería Selenium, abriremos un navegador Chrome, en la página de los anuncios de Yapo en la región de Los Rios...

In [107]:
browser = webdriver.Chrome()
myUrl = 'https://www.yapo.cl/los_rios/todos_los_avisos?ca=11_s&l=0&w=1&cmn=243'
browser.get(myUrl)

Con la librería BeautifulSoup, realizamos un scrapping del código HTML para recuperar el enlace de la "última página"...

In [108]:
pageSoup = soup(browser.page_source, 'html.parser')

pages = pageSoup.find('span',  {'class', 'nohistory FloatRight'}).a['href']

In [109]:
pages

'https://www.yapo.cl/los_rios?ca=11_s&cmn=243&o=655'

El parametro 'o' de la URL corresponde al número de la pagina en la lista de anuncios.

In [110]:
index = pages.rfind('=')
print(index)
lastPage = int(pages[index+1:])
print(lastPage)
root_pages = pages[:index+1]
print(root_pages)

46
655
https://www.yapo.cl/los_rios?ca=11_s&cmn=243&o=


- la variable "index" permite identificar el indice del último caracter '='.

- la variable "lastPage" permite identificar el numero de la última página en la URL.

- la variable "root_pages" permite aislar la cadena de caracteres que corresponde a la raiz de la URL (sin el numero de página).


Empezaremos la iteración sobre cada página que escrapear...

In [111]:
import datetime

def convert_date(yapo_date):
    month=yapo_date.split(" ")[0]
    year=yapo_date.split(" ")[1]
    
    convert = {'Enero' : 1,
            'Febrero' : 2,
            'Marzo' : 3,
            'Abril' : 4,
            'Mayo' : 5,
            'Junio' : 6,
            'Julio' : 7,
            'Agosto' : 8,
            'Septiembre' : 9, 
            'Octubre' : 10,
            'Noviembre' : 11,
            'Diciembre' : 12
           }
    
    
    new_date=datetime.date(int(year), convert[month], 1) 

    return new_date

print(convert_date("Febrero 2020"))

2020-02-01


In [None]:
for i in range(lastPage):
    
    #recuperarmos la URL de la pagina corriente
    url = root_pages + str(i+1)
    
    #con Selenium, vamos en navegar en esta página
    browser.get(url)
    
    #empezamos el scrapping de la pagina corriente
    pageSoup = soup(browser.page_source, 'html.parser')
    
    #recuperamos todos los tags HTML que corresponden a la lista de anuncios en esta pagina
    links = pageSoup.findAll('td', {'class' : 'thumbs_subject'})
    
    #empezamos a iterar sobre cada anuncio
    for link in links:
        
        #todos los datos que necesitamos encontrar
        url, titulo, descripcion, precio, categoria="","","","",""
        nombre, ciudad, codigo_region, nombre_region, fecha_inscripcion="","","","",""
        
        #Navegamos hacia la pagina del anuncio
        url=link.find('a',{'class':'title'})['href']
        print(url)
        browser.get(link.find('a',{'class':'title'})['href'])
        
        
        #RECUPERAMOS EL TITULO DEL ANUNCIO           
        pageSoup = soup(browser.page_source, 'html.parser')
        if(pageSoup.find('h1', {"id" : "da_subject"})):
            titulo = pageSoup.find('h1', {"id" : "da_subject"}).text.strip()
            print(titulo)
            
        #RECUPERAMOS LA DESCRIPCION DEL ANUNCIO
        if(pageSoup.find('div', {"class" : "description"})):
            try:
                descripcion = pageSoup.find('div', {"class" : "description"}).text.split(' ', 1)[1].strip().replace(u'\n', u' ')
            except:
                continue
                
        #RECUPERAMOS EL PRECIO DEL ANUNCIO
        if(pageSoup.find('div', {"class" : "price text-right"})):
            precio = pageSoup.find('div', {"class" : "price text-right"}).text.strip().replace(u'\n', u' ').replace(u'\t', u'')
            print("precio:"+precio)
            
        #RECUPERAMOS LA CATEGORIA DEL ANUNCIO
        if(pageSoup.find('div', {"class" : "breadcrumbs"})):
            categoria = pageSoup.find('div', {"class" : "breadcrumbs"}).find('a', {"id" : "breadcrumb_category"}).find('strong').text.strip().replace(u'\n', u' ')
            print(categoria)
            
        
        #RECUPERAMOS EL NOMBRE DEL VENDEDOR, SU FECHA DE INSCRIPCION Y SU LOCALIDAD
        if(pageSoup.find('aside', {"class" : "sidebar-right"})):
            aside = pageSoup.find('aside', {"class" : "sidebar-right"})
    
            #print(aside.find('seller-info'))
            
            #NOMBRE
            nombre=aside.find('seller-info').attrs['username']
            
            #FECHA DE INSCRIPCION
            fecha_inscripcion_raw=aside.find('seller-info').attrs['seniority']
            try:
                fecha_inscripcion_raw=fecha_inscripcion_raw[len("En Yapo desde "):]
                fecha_inscripcion=convert_date(fecha_inscripcion_raw)
                print(fecha_inscripcion)
            except:
                fecha_inscripcion=None
                continue
                
            #LOCALIDAD
            localidad_raw=aside.find('seller-info').attrs['region']
            
            #print(localidad_raw)
            
            region_raw=localidad.split(",")[0]
            ciudad_raw=localidad.split(",")[1]
            
            codigo_region=region_raw.split(" ")[0]
            nombre_region=region_raw[len(codigo_region)+1:]
            ciudad=ciudad_raw[1:]
            
            print(codigo_region)
            print(nombre_region)
            print(ciudad)
         
        
        # LLENAMOS LA BASE DE DATOS: TABLA VENDEDOR
        
        try:
            sql = "INSERT INTO vendedor (nombre, ciudad, codigo_region, nombre_region, fecha_inscripcion) VALUES (%s, %s, %s,%s,%s)"
            val = (nombre, ciudad, codigo_region, nombre_region, fecha_inscripcion)
            cursor.execute(sql, val)
        except:
            continue
        
        # LLENAMOS LA BASE DE DATOS: TABLA ANUNCIO
        try:
            sql = "INSERT INTO anuncio (url, titulo, descripcion, precio, categoria) VALUES (%s, %s, %s,%s,%s)"
            val = (url, titulo, descripcion, precio, categoria)
            cursor.execute(sql, val)
        except:
            continue
        
        cursor.execute("COMMIT")

https://www.yapo.cl/los_rios/autos/suzuki_grand_nomade_73713726.htm?ca=11_s&first=1&oa=73713726&xsp=0
Suzuki grand nomade
precio:$ 3.800.000
Autos, camionetas y 4x4
2015-04-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/muebles/juego_de_living_3_sillones_73782294.htm?ca=11_s&oa=73782294&xsp=1
Juego de living 3 sillones
precio:$ 200.000
Muebles
2018-01-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/autos/toyota_tercel__73782287.htm?ca=11_s&oa=73782287&xsp=2
Toyota tercel
precio:$ 2.000.000
Autos, camionetas y 4x4
2016-08-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/moda-vestuario/calzas_moda_talla_l__73782253.htm?ca=11_s&oa=73782253&xsp=3
Calzas moda talla L
precio:$ 4.000
Moda y vestuario
https://www.yapo.cl/los_rios/autos/peugeot_205_1993_73782204.htm?ca=11_s&oa=73782204&xsp=4
Peugeot 205 1993
precio:$ 1.600.000
Autos, camionetas y 4x4
2014-10-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/celulares/samsung_a80_73782195.htm?ca=11_s&oa=73782195&xsp=5
Samsu

Excelente cabaña en sector tranquilo y seguro
precio:$ 200.000
Arriendo - Casa
2014-12-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/ofertas_de_empleo/contador_general_73780818.htm?ca=11_s&oa=73780818&xsp=43
Contador general
Ofertas de empleo
2016-12-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/arriendo_temporada/cabana_amoblada_en_niebla_70255410.htm?ca=11_s&oa=70255410&xsp=44
Cabaña amoblada en niebla
precio:$ 25.000
Arriendo de temporada - Casa
2014-03-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/television_camaras/audifonos_bluetooth_73780710.htm?ca=11_s&oa=73780710&xsp=45
Audífonos Bluetooth
precio:$ 19.990
Audio, TV, video y fotografía
2016-04-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/consolas_videojuegos/crysis_2__ps3___73780658.htm?ca=11_s&oa=73780658&xsp=46
Crysis 2. ps3.
precio:$ 10.000
Consolas, videojuegos y accesorios
2019-08-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/celulares/lote_carcasas_iphone_4_4s_73780570.htm?ca=11_s&

Caja de Cambios Chevrolet Sail 2016 1.4
precio:$ 180.000
Accesorios y piezas para vehículos
2013-11-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/computadores/cooler_cpu_coolermaster_geminii_m4_de_bajo_perfil_73778790.htm?ca=11_s&oa=73778790&xsp=34
Cooler CPU CoolerMaster Geminii M4 de bajo perfil
precio:$ 30.000
Computadores y accesorios
2013-12-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/salud-belleza/perfume_100ml_73778767.htm?ca=11_s&oa=73778767&xsp=35
Perfume 100ml
precio:$ 35.000
Salud y belleza
2015-09-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/calzado/zapato_cat_mujer_73778730.htm?ca=11_s&oa=73778730&xsp=36
Zapato cat mujer
precio:$ 28.000
Calzado
2017-04-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/busco_empleo/disponibilidad_inmediata_ayudante_de_produccion_73778691.htm?ca=11_s&oa=73778691&xsp=37
Disponibilidad inmediata ayudante de producción
Busco empleo
2015-05-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/computadores/acer_asp

Nissan sentra 2011
precio:$ 4.450.000
Autos, camionetas y 4x4
2014-10-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/muebles/cama_de_2_plazas_buen_estado__73777042.htm?ca=11_s&oa=73777042&xsp=24
Cama de 2 plazas buen estado
Muebles
2019-07-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/calzado/zapatos_cat_73776982.htm?ca=11_s&oa=73776982&xsp=25
Zapatos cat
precio:$ 15.000
Calzado
2019-07-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/autos/subaru_legacy_2_0r_73776887.htm?ca=11_s&oa=73776887&xsp=26
Subaru legacy 2.0R
precio:$ 4.500.000
Autos, camionetas y 4x4
2020-07-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/servicios/fletes_en_camioneta_73776869.htm?ca=11_s&oa=73776869&xsp=27
Fletes en camioneta
Servicios
2016-07-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los_rios/accesorios_vehiculos/antivuelco_73776858.htm?ca=11_s&oa=73776858&xsp=28
Antivuelco
precio:$ 60.000
Accesorios y piezas para vehículos
2017-09-01
XIV
Los Ríos
Valdivia
https://www.yapo.cl/los

# 3. Consultas SQL

- ¿Cuál es el precio promedio de los anuncios por categoría?

- ¿Cuál es el número de anuncios por vendedor y por día?

- ¿Insertar una columna “Perfil” en la tabla Vendedor. Los Vendedores que publicaron más de 5 anuncios en los últimos 7 días, tienen un perfil “Pro”, los otros se consideran “Personal”.

- ¿Cuál es el precio promedio de los anuncios según el día de la semana (lunes, martes, miercoles, etc.)


In [None]:
#¿Cuál es el precio promedio de los anuncios por categoría?

