<a href="https://colab.research.google.com/github/ahcamachod/alura/blob/proyecto-del-curso/Web%20Scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color=green>1. MI PRIMER SCRAPING

# 1.1. Introducción

## *Web Scraping* es el término utilizado para definir la práctica de recolección automática de información en Internet. Esto se hace, generalmente, por medio de programas que simulan la navegación humana en la Web.

# 1.2. Ambiente y bibliotecas
### Utilizaremos en nuestro entrenamiento el navegador Google Chrome

In [None]:
import bs4
import urllib.request as urllib_request
import pandas

print("BeautifulSoup ->", bs4.__version__)
print("urllib ->", urllib_request.__version__)
print("pandas ->", pandas.__version__)

# 1.3. Mi primer scraping

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd

url = "https://alura-site-scraping.herokuapp.com/hello-world.php"

response = urlopen(url)
html = response.read()
soup = BeautifulSoup(html, "html.parser")
soup.find("h1", id="hello-world").get_text()




In [None]:
print(soup.find("h1", id="hello-world").get_text())
print(soup.find("p").get_text())


---
# <font color=green>2. OBTENIENDO Y TRATANDO EL CONTENIDO DE UN HTML

# 2.1. Entendiendo la web

<img src="https://github.com/ahcamachod/alura/blob/main/web.PNG?raw=1" width="700">

# 2.2. Obteniendo el contenido HTML de un website

# urllib.request
## https://docs.python.org/3/library/urllib.html

In [None]:
from urllib.request import urlopen

url = 'https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount'

response = urlopen(url)
html = response.read()
html



## https://docs.python.org/3/library/urllib.request.html#urllib.request.Request

In [None]:
from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

url = 'https://www.alura.com.br'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'}

try:
  req = Request(url, headers = headers)
  response = urlopen(req)
  print(response.read())

except HTTPError as e:
  print(e.status, e.reason)

except URLError as e:
  print(e.reason)

# 2.3. Tratamiento de string

In [None]:
from urllib.request import urlopen

url = "https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount"

response = urlopen(url)
html = response.read()
html


### Convirtiendo el tipo bytes a string

In [None]:
html = html.decode('utf-8')
type(html)

### Eliminando los caracteres de tabulación, salto de línea etc.

In [None]:
html = ' '.join(html.split())
html

### Eliminando los espacios en blanco entre las TAGS

In [None]:
html = html.replace('> <', '><')
html

### Función de tratamiento de strings

In [None]:
def trata_html(input):
  return ' '.join(input.split()).replace('> <', '><')

html = trata_html(html)
html


# <font color=green>3. INTRODUCCIÓN AL BEAUTIFULSOUP

# 3.1. HTML de nuestra página

**HTML** (*HyperText Markup Language*) es un lenguaje de marcación compuesto por **tags** que determinan el papel que cada parte del documento va a asumir. Las **tags** son formadas por su nombre y atributos. Los atributos sirven para configurar y también modificar las características estándar de una **tag**.

## Estructura básica

```html
<html>
    <head>
        <meta charset="utf-8" />
        <title>Web Scraping con Alura</title>
    </head>
    <body>
        <div id="container">
            <h1>Alura</h1>
            <h2 class="formato">Cursos de Tecnología</h2>
            <p>Usted va a estudiar, practicar, discutir y aprender.</p>
            <a href="https://www.alura.com.br/">Haga click aquí</a>
        </div>
    </body>
</html>
```

```<html>``` - determina el inicio del documento.

```<head>``` - encabezado. Contiene información y configuración del documento.

```<body>``` - es el cuerpo del documento, donde todo el contenido es colocado. Esta es la parte visible en un navegador.

## Tags más comunes

```<div>``` - define una división de la página. Puede ser formateada de diversas maneras.

```<h1>, <h2>, <h3>, <h4>, <h5>, <h6>``` - marcadores de títulos.

```<p>``` - marcador de párrafo.

```<a>``` - hiperlink.

```<img>``` - exibición de imágenes.

```<table>``` - definición de tablas.

```<ul>, <li>``` - definición de listas.


# 3.2. Creando un objeto BeautifulSoup

## https://www.crummy.com/software/BeautifulSoup/

### Sobre parser ver: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parser-installation

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

# 3.3. Accesando tags

In [None]:
soup.html.head.title

In [None]:
soup.title

In [None]:
soup.html.body.header.div.a

In [None]:
soup.a

# 3.4. Accesando el contenido de las tags

In [None]:
soup.html.head.title

In [None]:
soup.title

In [None]:
soup.title.get_text()

In [None]:
soup.a.getText()

In [None]:
soup.get_text()

# 3.5. Accesando los atributos de una tag

In [None]:
soup.img

In [None]:
soup.img.attrs

In [None]:
soup.img.attrs.keys()

In [None]:
soup.img.attrs.values()

In [None]:
soup.img['class']

In [None]:
soup.img.get('src')

---
# <font color=green>4. BUSCANDO CON EL BEAUTIFULSOUP

# 4.1. Los métodos *find()* y *findAll()*

- ### *find(tag, attributes, recursive, text, **kwargs)*

- ### *findAll(tag, attributes, recursive, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

> **Observación:**
> - *findAll()* también puede ser utilizado como *find_all()*

### Método *find()*

In [None]:
soup.find('img')

### Método *findAll()*

In [None]:
soup.find_all('img')

In [None]:
soup.find_all('img')[2]

### Comando equivalente al método *find()*

In [None]:
soup.findAll('img', limit=1)

### Atajo para el método *findAll()*

In [None]:
soup('img')

### Pasando listas de TAGs

In [None]:
soup.findAll(['h1','h2','h3','h4','h5','h6'])

### Utilizando el argumento *attributes*

In [None]:

soup.findAll('img', {'class':"lazy-load"})


### Buscando el contenido de una TAG

In [None]:
[item.get('src') for item in soup.findAll('img')]

In [None]:
[(item.get('src') or item.get('data-src')) for item in soup.findAll('img')]

### Utilizando directamente los atributos

In [None]:
soup.findAll('img', height="284")

### Cuidado con el atributo "class"

In [None]:
soup.findAll('img', class_="loading")

### Obteniendo todo el contenido de texto de una página

In [None]:
soup.findAll(text=True)

# 4.2. Otros métodos de búsqueda

- ### *findParent(tag, attributes, text, **kwargs)*

- ### *findParents(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent

> **Observación:**
> - *findParent()* y *findParents()* también pueden ser utilizados como *find_parent()* y *find_parents()*, respectivamente.
---
- ### *findNextSibling(tag, attributes, text, **kwargs)*

- ### *findNextSiblings(tag, attributes, text, limit, **kwargs)*

- ### *findPreviousSibling(tag, attributes, text, **kwargs)*

- ### *findPreviousSiblings(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-next-siblings-and-find-next-sibling
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-previous-siblings-and-find-previous-sibling

> **Observación:**
> - *findNextSibling()*, *findNextSiblings()*, *findPreviousSibling()* y *findPreviousSiblings()* también pueden ser utilizados como *find_next_sibling()*, *find_next_siblings()*, *find_previous_sibling()* y *find_previous_siblings()*, respectivamente.
---
- ### *findNext(tag, attributes, text, **kwargs)*

- ### *findAllNext(tag, attributes, text, limit, **kwargs)*

- ### *findPrevious(tag, attributes, text, **kwargs)*

- ### *findAllPrevious(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-next-and-find-next
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-previous-and-find-previous

> **Observación:**
> - *findNext()*, *findAllNext()*, *findPrevious* y *findAllPrevious* también pueden ser utilizados como *find_next()*, *find_all_next()*, *find_previous()* y *find_all_previous()*, respectivamente.

## HTML de ejemplo para ilustrar la utilización de los métodos de búsqueda del BeautifulSoup

<img src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/BeautifulSoup-method.png" width=80%>

---
## Resultado

<html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de contenido A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de contenido B</p>
        </div>
    </body>
</html>

In [None]:
test_html = """ <html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de contenido A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de contenido B</p>
        </div>
    </body>
</html> """

### Tratamientos para la string HTML

In [None]:
def trata_html(input):
  return ' '.join(input.split()).replace('> <', '><')

html = trata_html(test_html)
html

### Creando el objeto BeautifulSoup

In [None]:
soup = BeautifulSoup(test_html, 'html.parser')
soup

## Parents

In [None]:
soup.find('h2')


In [None]:
soup.find('h2').find_parents()

In [None]:
soup.findAll('h2').find_parent('div')

In [None]:
[item.find_parent('div') for item in soup.findAll('h2')]

## Siblings

In [None]:
soup.find('h2').findNextSibling()

In [None]:
soup.find('h2').findPreviousSibling()

In [None]:
soup.find('p').findPreviousSiblings()

## Next y Previous

In [None]:
soup.find('h2').findNext()

In [None]:
soup.find('h2').findPrevious()

In [None]:
soup.find('h2').findAllNext()

# <font color=green>5. WEB SCRAPING DEL SITE TUCARRO.COM.CO - OBTENIENDO LOS DATOS DE UN ANUNCIO

# 5.1. Identificando y seleccionando los datos en el HTML

### Obteniendo el HTML y creando el objeto BeautifulSoup

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount"
response = urlopen(url)
html = response.read()
soup = BeautifulSoup(html, 'html.parser')
soup

### Creando variables para almacenar la información

In [None]:
cards = []
card = {}

### Obteniendo los datos del primer CARD

In [None]:
anuncio = soup.find('div', class_="andes-card andes-card--flat andes-card--default ui-search-result ui-search-result--mot andes-card--padding-default andes-card--animated")
anuncio

# 5.2. Obteniendo el MODELO del vehículo anunciado

In [None]:
anuncio = soup.find('div', class_="andes-card andes-card--flat andes-card--default ui-search-result ui-search-result--mot andes-card--padding-default andes-card--animated")
anuncio

In [None]:
anuncio.find('h2').getText()

In [None]:
card['Modelo'] = anuncio.find('h2').getText()

In [None]:
card

### <font color=red>Resumen

In [None]:
# Valor
card['Modelo'] = anuncio.find('h2').getText()

# 5.3. Obteniendo la INFORMACIÓN sobre el vehículo anunciado

In [None]:
infos = anuncio.find('div', class_="ui-search-result__content-wrapper")
infos

In [None]:
infos.find('span', class_="price-tag-fraction").getText()

In [None]:
infos.findAll('li', class_="ui-search-card-attributes__attribute")

In [None]:
infos.findAll('li', class_="ui-search-card-attributes__attribute")[0].getText()

In [None]:
infos.findAll('li', class_="ui-search-card-attributes__attribute")[1].getText()

In [None]:
infos.find('span', class_="ui-search-item__group__element ui-search-item__location").getText()

### <font color=red>Resumen

In [None]:
# Información

card['Valor'] = infos.find('span', class_="price-tag-fraction").getText()
card['Año'] = infos.findAll('li', class_="ui-search-card-attributes__attribute")[0].getText()
card['Kilometraje'] = infos.findAll('li', class_="ui-search-card-attributes__attribute")[1].getText()
card['Localización'] = infos.find('span', class_="ui-search-item__group__element ui-search-item__location").getText()
card


# 5.4 Creando un DataFrame con los datos recolectados de TUCARRO.COM.CO

In [None]:
card

In [None]:
import pandas as pd

dataset = pd.DataFrame(card.values(), card.keys())
dataset


In [None]:
dataset = pd.DataFrame(card.values(), card.keys()).T
dataset

In [None]:
dataset.to_csv('dataset.csv', sep=';', index=False, encoding='utf-8')


In [None]:
pd.read_csv('dataset.csv', sep=';')

# 5.6. Obteniendo la FOTO del anuncio

In [None]:
image = anuncio.find('img')
image.get('data-src')

### Visualizando la FOTO en el notebook (extra)

In [None]:
from IPython.core.display import display, HTML

display(HTML("<img src=" + anuncio.find('img').get('data-src') + ">"))

### Rutina para accesar y guardar la FOTO del anuncio

## https://docs.python.org/3/library/urllib.request.html#urllib.request.urlretrieve

In [None]:
from urllib.request import urlretrieve

image.get('data-src').split('/')[-1]

In [None]:
urlretrieve(image.get('data-src'), '/content/output/img/'+image.get('data-src').split('/')[-1])

In [None]:
!pwd

### <font color=red>Resumen

In [None]:
image = anuncio.find('img')
image.get('data-src')
urlretrieve(image.get('data-src'), '/content/output/img/'+image.get('data-src').split('/')[-1])

# <font color=green>6. WEB SCRAPING DEL SITE TUCARRO.COM.CO - OBTENIENDO LOS DATOS DE TODOS LOS ANUNCIOS DE UNA PÁGINA

# 6.1. Identificando la información en el HTML

In [None]:
anuncios = soup.findAll('div', class_="andes-card andes-card--flat andes-card--default ui-search-result ui-search-result--mot andes-card--padding-default andes-card--animated")
anuncios

In [None]:
len(anuncios)

In [None]:
for anuncio in anuncios:
  print(str(anuncio) + "\n\n")

# 6.2. Creando una rutina de scraping

In [None]:
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

url = "https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount"
response = urlopen(url)
html = response.read()
soup = BeautifulSoup(html, 'html.parser')

anuncios = soup.findAll('div', class_="andes-card andes-card--flat andes-card--default ui-search-result ui-search-result--mot andes-card--padding-default andes-card--animated")

cards = []

for anuncio in anuncios:
  card = {}
  card['Modelo'] = anuncio.find('h2').getText()
  card['Valor'] = anuncio.find('span', class_="price-tag-fraction").getText()
  card['Año'] = anuncio.findAll('li', class_="ui-search-card-attributes__attribute")[0].getText()
  card['Kilometraje'] = anuncio.findAll('li', class_="ui-search-card-attributes__attribute")[1].getText()
  card['Localización'] = anuncio.find('span', class_="ui-search-item__group__element ui-search-item__location").getText()
  cards.append(card)
  image = anuncio.find('img')
  image.get('data-src')
  urlretrieve(image.get('data-src'), '/content/output/img/'+image.get('data-src').split('/')[-1])


In [None]:
cards

In [None]:
dataset = pd.DataFrame(cards)
dataset

In [None]:
dataset.to_csv('/content/output/data/dataset.csv', sep=';', index=False, encoding='utf-8')

# <font color=green>7. WEB SCRAPING DEL SITE TUCARRO.COM.CO - OBTENIENDO LOS DATOS DE TODOS LOS ANUNCIOS DE UNA PÁGINA

# 7.1. Identificando la información en el HTML

In [None]:
numeros = []

for n in range(1,22):
  numeros.append((48*n)+1)

paginas = []

for n in numeros:
  paginas.append(f'https://carros.tucarro.com.co/atlantico/_Desde_{n}_all*payment*methods*discount_cash*discount')

paginas

In [None]:
len(paginas)

# 7.2. Montando un drive para almacenar la información

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# 7.3. Creando una rutina de scraping

##https://docs.python.org/3/library/time.html

In [None]:
## Importar Bibliotecas

from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd
import time ## Dar una pequeña pausa entre las iteraciones por página

## Algoritmo para saber el número de página
numeros = []
for n in range(1,22):
  numeros.append((48*n)+1)

## Lista de URLs que estaremos raspando
paginas = []
paginas.append('https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount')
for n in numeros:
  paginas.append(f'https://carros.tucarro.com.co/atlantico/_Desde_{n}_all*payment*methods*discount_cash*discount')

cards = [] ##Lista Vacía para almacenar cada diccionario con los datos de los vehículos

## Loop para crear el objeto BeautifulSoup en cada URL
for url in paginas:
  url = url
  response = urlopen(url)
  html = response.read()
  soup = BeautifulSoup(html, 'html.parser')
  anuncios = soup.findAll('div', class_="andes-card andes-card--flat andes-card--default ui-search-result ui-search-result--mot andes-card--padding-default andes-card--animated")

  ## Loop para obtener los datos de cada card
  for anuncio in anuncios:    
    card = {} ##Siempre que se repite el Loop, el diccionario vuelve a quedar vacío
    card['Modelo'] = anuncio.find('h2').getText()
    card['Valor'] = anuncio.find('span', class_="price-tag-fraction").getText()
    card['Año'] = anuncio.findAll('li', class_="ui-search-card-attributes__attribute")[0].getText()
    card['Kilometraje'] = anuncio.findAll('li', class_="ui-search-card-attributes__attribute")[1].getText()
    card['Localización'] = anuncio.find('span', class_="ui-search-item__group__element ui-search-item__location").getText()
    cards.append(card) ## Almacenar cada diccionario en un sub-índice de la lista cards

    ## Obtener la imagen y almacenarla en el Drive
    image = anuncio.find('img')
    image.get('data-src')
    urlretrieve(image.get('data-src'), '/content/drive/MyDrive/output/img/'+image.get('data-src').split('/')[-1])
    
  time.sleep(2) ## 2 segundos de delay entre cada iteración


In [None]:
cards

In [None]:
len(cards)

In [None]:
dataset = pd.DataFrame(cards)
dataset

In [None]:
dataset.to_csv('/content/drive/MyDrive/output/data/dataset.csv', sep=';', index=False, encoding='utf-8')