# <font color=green>1. MI PRIMER SCRAPING

# 1.1. Introducción

## *Web Scraping* es el término utilizado para definir la práctica de recolección automática de información en Internet. Esto se hace, generalmente, por medio de programas que simulan la navegación humana en la Web.

# 1.2. Ambiente y bibliotecas
### Utilizaremos en nuestro entrenamiento el navegador Google Chrome

In [None]:
import bs4
import urllib.request as urllib_request
import pandas

print("BeautifulSoup ->", bs4.__version__)
print("urllib ->", urllib_request.__version__)
print("pandas ->", pandas.__version__)

# 1.3. Mi primer scraping

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://alura-site-scraping.herokuapp.com/hello-world.php"


---
# <font color=green>2. OBTENIENDO Y TRATANDO EL CONTENIDO DE UN HTML

# 2.1. Entendiendo la web

<img src="https://github.com/ahcamachod/alura/blob/main/web.PNG?raw=1" width="700">

# 2.2. Obteniendo el contenido HTML de un website

# urllib.request
## https://docs.python.org/3/library/urllib.html

In [None]:
from urllib.request import urlopen

url = 'https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount'



## https://docs.python.org/3/library/urllib.request.html#urllib.request.Request

In [None]:
from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError

url = 'https://www.alura.com.br'


# 2.3. Tratamiento de string

In [None]:
from urllib.request import urlopen

url = "https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount"



### Convirtiendo el tipo bytes a string

### Eliminando los caracteres de tabulación, salto de línea etc.

### Eliminando los espacios en blanco entre las TAGS

### Función de tratamiento de strings

# <font color=green>3. INTRODUCCIÓN AL BEAUTIFULSOUP

# 3.1. HTML de nuestra página

**HTML** (*HyperText Markup Language*) es un lenguaje de marcación compuesto por **tags** que determinan el papel que cada parte del documento va a asumir. Las **tags** son formadas por su nombre y atributos. Los atributos sirven para configurar y también modificar las características estándar de una **tag**.

## Estructura básica

```html
<html>
    <head>
        <meta charset="utf-8" />
        <title>Web Scraping con Alura</title>
    </head>
    <body>
        <div id="container">
            <h1>Alura</h1>
            <h2 class="formato">Cursos de Tecnología</h2>
            <p>Usted va a estudiar, practicar, discutir y aprender.</p>
            <a href="https://www.alura.com.br/">Haga click aquí</a>
        </div>
    </body>
</html>
```

```<html>``` - determina el inicio del documento.

```<head>``` - encabezado. Contiene información y configuración del documento.

```<body>``` - es el cuerpo del documento, donde todo el contenido es colocado. Esta es la parte visible en un navegador.

## Tags más comunes

```<div>``` - define una división de la página. Puede ser formateada de diversas maneras.

```<h1>, <h2>, <h3>, <h4>, <h5>, <h6>``` - marcadores de títulos.

```<p>``` - marcador de párrafo.

```<a>``` - hiperlink.

```<img>``` - exibición de imágenes.

```<table>``` - definición de tablas.

```<ul>, <li>``` - definición de listas.


# 3.2. Creando un objeto BeautifulSoup

## https://www.crummy.com/software/BeautifulSoup/

### Sobre parser ver: https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parser-installation

In [None]:
from bs4 import BeautifulSoup


# 3.3. Accesando tags

# 3.4. Accesando el contenido de las tags

# 3.5. Accesando los atributos de una tag

---
# <font color=green>4. BUSCANDO CON EL BEAUTIFULSOUP

# 4.1. Los métodos *find()* y *findAll()*

- ### *find(tag, attributes, recursive, text, **kwargs)*

- ### *findAll(tag, attributes, recursive, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

> **Observación:**
> - *findAll()* también puede ser utilizado como *find_all()*

### Método *find()*

### Método *findAll()*

### Comando equivalente al método *find()*

### Atajo para el método *findAll()*

### Pasando listas de TAGs

### Utilizando el argumento *attributes*

### Buscando el contenido de una TAG

### Utilizando directamente los atributos

### Cuidado con el atributo "class"

### Obteniendo todo el contenido de texto de una página

# 4.2. Otros métodos de búsqueda

- ### *findParent(tag, attributes, text, **kwargs)*

- ### *findParents(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-parents-and-find-parent

> **Observación:**
> - *findParent()* y *findParents()* también pueden ser utilizados como *find_parent()* y *find_parents()*, respectivamente.
---
- ### *findNextSibling(tag, attributes, text, **kwargs)*

- ### *findNextSiblings(tag, attributes, text, limit, **kwargs)*

- ### *findPreviousSibling(tag, attributes, text, **kwargs)*

- ### *findPreviousSiblings(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-next-siblings-and-find-next-sibling
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-previous-siblings-and-find-previous-sibling

> **Observación:**
> - *findNextSibling()*, *findNextSiblings()*, *findPreviousSibling()* y *findPreviousSiblings()* también pueden ser utilizados como *find_next_sibling()*, *find_next_siblings()*, *find_previous_sibling()* y *find_previous_siblings()*, respectivamente.
---
- ### *findNext(tag, attributes, text, **kwargs)*

- ### *findAllNext(tag, attributes, text, limit, **kwargs)*

- ### *findPrevious(tag, attributes, text, **kwargs)*

- ### *findAllPrevious(tag, attributes, text, limit, **kwargs)*

#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-next-and-find-next
#### https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all-previous-and-find-previous

> **Observación:**
> - *findNext()*, *findAllNext()*, *findPrevious* y *findAllPrevious* también pueden ser utilizados como *find_next()*, *find_all_next()*, *find_previous()* y *find_all_previous()*, respectivamente.

## HTML de ejemplo para ilustrar la utilización de los métodos de búsqueda del BeautifulSoup

<img src="https://caelum-online-public.s3.amazonaws.com/1381-scraping/01/BeautifulSoup-method.png" width=80%>

---
## Resultado

<html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de contenido A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de contenido B</p>
        </div>
    </body>
</html>

In [None]:
test_html = """ <html>
    <body>
        <div id=“container-a”>
            <h1>Título A</h1>
            <h2 class="ref-a">Sub título A</h2>
            <p>Texto de contenido A</p>
        </div>
        <div id=“container-b”>
            <h1>Título B</h1>
            <h2 class="ref-b">Sub título B</h2>
            <p>Texto de contenido B</p>
        </div>
    </body>
</html> """

### Tratamientos para la string HTML

### Creando el objeto BeautifulSoup

## Parents

## Siblings

## Next y Previous

# <font color=green>5. WEB SCRAPING DEL SITE TUCARRO.COM.CO - OBTENIENDO LOS DATOS DE UN ANUNCIO

# 5.1. Identificando y seleccionando los datos en el HTML

### Obteniendo el HTML y creando el objeto BeautifulSoup

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount"


### Creando variables para almacenar la información

### Obteniendo los datos del primer CARD

# 5.2. Obteniendo el MODELO del vehículo anunciado

### <font color=red>Resumen

In [None]:
# Modelo


# 5.3. Obteniendo la INFORMACIÓN sobre el vehículo anunciado

### <font color=red>Resumen

In [None]:
# Información


# 5.4 Creando un DataFrame con los datos recolectados de TUCARRO.COM.CO

# 5.6. Obteniendo la FOTO del anuncio

### Visualizando la FOTO en el notebook (extra)

In [None]:
from IPython.core.display import display, HTML

display(HTML("<img src=" + anuncio.find('img').get('data-src') + ">"))

### Rutina para accesar y guardar la FOTO del anuncio

## https://docs.python.org/3/library/urllib.request.html#urllib.request.urlretrieve

In [None]:
from urllib.request import urlretrieve


### <font color=red>Resumen

# <font color=green>6. WEB SCRAPING DEL SITE TUCARRO.COM.CO - OBTENIENDO LOS DATOS DE TODOS LOS ANUNCIOS DE UNA PÁGINA

# 6.1. Identificando la información en el HTML

# 6.2. Creando una rutina de scraping

In [None]:
from urllib.request import urlopen, urlretrieve
from bs4 import BeautifulSoup
import pandas as pd

url = "https://carros.tucarro.com.co/atlantico/_all*payment*methods*discount_cash*discount"



# <font color=green>7. WEB SCRAPING DEL SITE TUCARRO.COM.CO - OBTENIENDO LOS DATOS DE TODOS LOS ANUNCIOS DE UNA PÁGINA

# 7.1. Identificando la información en el HTML

# 7.2. Montando un drive para almacenar la información

# 7.3. Creando una rutina de scraping

##https://docs.python.org/3/library/time.html