# Ejemplo con tucarro.com.co

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/my_docs/logo_unal_color.png" alt="drawing" width="200"/>

En este notebook vamos a mostrar cómo hacer web scraping con la página https://carros.tucarro.com.co/

<img src="Figs/tucarro.jpg" alt="drawing" width="200"/>

La librería que vamos a usar es [BeautifulSoup](https://pypi.org/project/beautifulsoup4/).

Lo primero es cargar la librería.

In [1]:
from bs4 import BeautifulSoup

# Prueba sencilla

Vamos a realizar una prueba sencilla, vamos a explorar la primera página que tiene 48 anuncios.

In [2]:
from bs4 import BeautifulSoup
import requests as rq
import re

In [3]:
# Url 1 con los datos de prueba
url = 'https://carros.tucarro.com.co/_Desde_1_NoIndex_True'

# Hacemos un request para obtener todo el contenido de la pagina
page = rq.get(url)

# convertimos el contenido en un objeto soup
soup = BeautifulSoup(page.content, 'html.parser')

# Obtenemos un listado de todos los bloques de información de los vehículos
all_cards = soup.find_all('li', {'class': 'ui-search-layout__item'})

# Para ver todos los anuncios
print(all_cards)

# Para ver cuantos anuncios se leyeron usamos
print("\n La cantidad de anuncios es: ", len(all_cards))

[<li class="ui-search-layout__item"><div style="display:contents"><div class="ui-search-result__wrapper"><div class="andes-card poly-card poly-card--grid-card poly-card--large poly-card--MOT andes-card--flat andes-card--padding-0 andes-card--animated" id=":R2o2l5ie:"><div class="poly-card__portada"></div><div class="poly-card__content"><h3 class="poly-component__title-wrapper"><a class="poly-component__title" href="https://articulo.tucarro.com.co/MCO-2846826502-mazda-6-l5na1-25-_JM#polycard_client=search-nordic&amp;position=3&amp;search_layout=grid&amp;type=item&amp;tracking_id=547f77ce-e5b4-4464-bac8-2df4ad42bcc6" target="_bla

In [4]:
type(all_cards)

bs4.element.ResultSet

Vamos a explorar el anuncio 1 de la página 1

In [5]:
first_card = all_cards[0]
first_card

<li class="ui-search-layout__item"><div style="display:contents"><div class="ui-search-result__wrapper"><div class="andes-card poly-card poly-card--grid-card poly-card--large poly-card--MOT andes-card--flat andes-card--padding-0 andes-card--animated" id=":R2o2l5ie:"><div class="poly-card__portada"></div><div class="poly-card__content"><h3 class="poly-component__title-wrapper"><a class="poly-component__title" href="https://articulo.tucarro.com.co/MCO-2846826502-mazda-6-l5na1-25-_JM#polycard_client=search-nordic&amp;position=3&amp;search_layout=grid&amp;type=item&amp;tracking_id=547f77ce-e5b4-4464-bac8-2df4ad42bcc6" target="_blan

Vamos a explorar el anuncio 2 de la página 1

In [6]:
second_card = all_cards[1]
second_card

<li class="ui-search-layout__item"><div style="display:contents"><div class="ui-search-result__wrapper"><div class="andes-card poly-card poly-card--grid-card poly-card--large poly-card--MOT andes-card--flat andes-card--padding-0 andes-card--animated" id=":R2o4l5ie:"><div class="poly-card__portada"><img alt="Dfm/dfsk Glory 580 1,8" aria-hidden="true" class="poly-component__picture poly-component__picture--contain" decoding="sync" fetchpriority="high" height="150" src="https://http2.mlstatic.com/D_Q_NP_2X_675257-MCO83389976340_042025-E.webp" title="Dfm/dfsk Glory 580 1,8" width="150"/></div><div class="poly-card__content"><h3 class="poly-component__title-wrapper"><a class="poly-component__title" href="https://articulo.tucarro.com.co/MCO-2846851938-dfsk-dxk6470sf-18-_JM#polycard_client=search-nordic&amp;position=4&amp;search_layout=grid&amp;type=item&amp;tracking_id=547f77ce-e5b4-4464-bac8-2df4ad42bcc6" target="_blank">Dfm/dfsk Glory 580 1,8</a></h3><div class="poly-component__price"><div

Vamos a practicar la forma de extraer el precio, marca, modelo, kilometraje, ubicación y url del primer anuncio.

Para extraer el precio:

In [7]:
tag_price = first_card.select('.andes-money-amount__fraction')
tag_price

[<span aria-hidden="true" class="andes-money-amount__fraction">41.000.000</span>]

In [8]:
tag_price[0].text

'41.000.000'

Para extraer la marca:

In [9]:
first_card.find("a", class_="poly-component__title").text

'Mazda 6 2.5 L5na1'

Para extraer modelo y kilometraje

In [10]:
attributes = first_card.find_all('li', {'class': 'poly-attributes-list__item'})
attributes

[<li class="poly-attributes-list__item poly-attributes-list__separator">2011</li>,
 <li class="poly-attributes-list__item poly-attributes-list__separator">98.802 Km</li>]

In [11]:
print('modelo: ', attributes[0].text)
print('kilometraje: ', attributes[1].text)

modelo:  2011
kilometraje:  98.802 Km


Para obtener la url del anuncio:

In [12]:
first_card.find('a').get('href')

'https://articulo.tucarro.com.co/MCO-2846826502-mazda-6-l5na1-25-_JM#polycard_client=search-nordic&position=3&search_layout=grid&type=item&tracking_id=547f77ce-e5b4-4464-bac8-2df4ad42bcc6'

Para obtener la ubicación del vehículo:

In [13]:
first_card.find("span", class_="poly-component__location").text

'Usaquén - Bogotá D.C.'

# Creando la base de datos

Ahora vamos a leer todos los anuncios de las primeras 21 páginas de tucarro.com.co. Recordemos que cada página tiene 48 anuncios, y como son 21 páginas, en total leeremos 1008 anuncios.

https://carros.tucarro.com.co/_NoIndex_True

In [14]:
# create empty lists for each of the columns:
links = []
prices = []
models = []
kms = []
locations = []
brands = []

# Note: n_add means number of advertisement or page

for n_add in range(1, 1000, 48):

  # create the url iteratively
  url = f'https://carros.tucarro.com.co/_Desde_{n_add}_NoIndex_True'

  print(f"La página leida es: {url}")

  # do a request to the page
  page = rq.get(url)

  # convert the content into a soup
  soup = BeautifulSoup(page.content, 'html.parser')

  # Get the list of the all the blocks of info for the cars in a page
  all_cards = soup.find_all('li', {'class': 'ui-search-layout__item'})

  # iterate over the information of each car
  for anuncio in all_cards:

    # Get id of the add
    link_element = anuncio.find("a", class_="poly-component__title")
    url = anuncio.find('a').get('href')
    links.append(url)

    # Get the price
    tag_price = anuncio.select('.andes-money-amount__fraction')
    price = tag_price[0].text
    prices.append(price)

    # Get model and km
    attributes = anuncio.find_all('li', {'class': 'poly-attributes-list__item'})
    model = attributes[0].text
    models.append(model)
    km = attributes[1].text
    kms.append(km)

    # get location
    location_span = anuncio.find("span", class_="poly-component__location")
    location = location_span.text
    locations.append(location)

    # Find the model
    brand = link_element.text
    brands.append(brand)

La página leida es: https://carros.tucarro.com.co/_Desde_1_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_49_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_97_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_145_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_193_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_241_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_289_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_337_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_385_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_433_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_481_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_529_NoIndex_True
La página leida es: https://carros.tucarro.com.co/_Desde_577_NoIndex_True
La página leida es: https://carros.tucarro

Chequeando el número de observaciones en cada lista

In [15]:
print(len(links))
print(len(prices))
print(len(models))
print(len(kms))
print(len(locations))
print(len(brands))

1008
1008
1008
1008
1008
1008


Vamos a explorar la información de los primeros tres anuncios:

In [16]:
print(prices[:3])
print(models[:3])
print(kms[:3])

['41.000.000', '87.000.000', '124.000.000']
['2011', '2024', '2024']
['98.802 Km', '64.000 Km', '5.400 Km']


Vamos a crear la base de datos usando pandas

In [17]:
import pandas as pd

# Creating the dictionary
datos = {"price": prices,
         "model": models,
         "km": kms,
         "location": locations,
         "brand": brands}

# Create DataFrame
df = pd.DataFrame(datos)

# Print the dataframe
df

Unnamed: 0,price,model,km,location,brand
0,41.000.000,2011,98.802 Km,Usaquén - Bogotá D.C.,Mazda 6 2.5 L5na1
1,87.000.000,2024,64.000 Km,Fontibón - Bogotá D.C.,"Dfm/dfsk Glory 580 1,8"
2,124.000.000,2024,5.400 Km,Usaquén - Bogotá D.C.,Toyota Corolla 1.8 Hev Seg
3,27.000.000,2014,146.344 Km,Tunjuelito - Bogotá D.C.,Mg 5 1.5 Comfort
4,70.000.000,2019,55.000 Km,Fontibón - Bogotá D.C.,Hyundai Creta 1.6 Premium
...,...,...,...,...,...
1003,195.000.000,2022,34.420 Km,Suba - Bogotá D.C.,Bmw X3 2.0 Xdrive30i
1004,140.000.000,2024,3.300 Km,Kennedy - Bogotá D.C.,Mitsubishi Xpander Cross 1.5 Cross At
1005,32.000.000,2009,118.884 Km,Fontibón - Bogotá D.C.,Volkswagen Jetta 1.8 Comfortline Turbo
1006,138.000.000,2018,40.000 Km,Suba - Bogotá D.C.,Ford Explorer 2.3 Limited 4x4
